Procedurellt genererade träd som påverkas av vind i realtid

(1)

Procedurellt genererade träd som

påverkas av vind i realtid

Oskar Nordquist

Kalmar, 2008-04-08 C-nivå, 10p

Examensarbete Datateknik 10p

Handledare: Martin Blomberg, Högskolan i Kalmar, Institutionen för teknik Examinator: Martin Blomberg, Högskolan i Kalmar, Institutionen för teknik

(2)

Sammanfattning

Denna rapport behandlar en metod för generering av träd och skapandet av en applika-tion som f˚ar träden att svaja i vinden i realtid med hjälp av multitr˚adade tekniker. Procedurell generering är ett snabbt växande omr˚ade inom spelindustrin där lagrings-utrymme har blivit ett bekymmer för att lagra stora mängder av unikt inneh˚all. Med hjälp av procedurell generering beräknas modeller, texturer, animationer och liknande matematiskt under uppstart eller körning utifr˚an n˚agra f˚a parametrar.

Trädgenereringen bygger p˚a en geometrisk metod snarare än en strikt botanisk. Algo-ritmen har visat sig kunna producera otroligt realistiska träd av en mängd olika arter. Ett träd representeras enbart av vissa parametrar. Detta kan vara saker som: grenarnas skala i förh˚allande till sin “förälder”; riktningen grenarna tenderar att växa ˚at; antal löv per gren, osv. Alla trädarter använder sig av samma uppsättning parametrar. Givet ett visst random seed kan trädet ˚aterskapas deterministiskt.

En “tr˚ad” (thread ) inom datateknik är en förkortning för thread of execution och innebär att tv˚a eller flera processer exekverar samtidigt (simulerad samtidighet eller fysisk). Multitr˚adad programmering innebär att man delar upp arbete i flera tr˚adar för att förhoppningsvis förbättra prestandan. Författaren av denna rapport ville undersöka hur tr˚adade lösningar kan utnyttjas för ändam˚al som procedurell generering.

Detta examensarbete resulterade i en applikation där man kan g˚a runt i en lagom stor skog och alla träd runt omkring svajar i vinden. Ett specialläge där ett träd kan kon-strueras fr˚an grunden i realtid implementerades i testsyfte.

(3)

Summory

The focus of this report is a method to generate trees and the creation of an application which simulates wind sway by utilizing multi-threaded techniques.

Procedural generation is a vastly growing area in game development where disk usage has become an issue to store large amounts of unique content. By generating models, textures, animations and similar content mathematically during run-time using only some parameters as input one can decrease the memory storage.

The tree generation uses a geometrical method rather than some strict botanical model. The algorithm has been shown to produce incredibly realistic looking trees for a vast amount of species. A tree is represented only by a few parameters. These could include such things as: the scale of branches defined relative their “parent”; the direction branches tend to grow; the number of leaves per branch, and so on. All species uses the same set of parameters. Given a specific random seed a tree can be reproduced deterministically.

A “thread” in the context of computer science is an abbrevation for thread of execution and involves two or more processes executing in parallel (simulated or physical). Multi-threaded programming involves the process of splitting work load across multiple threads in the hope of increasing run-time performance. The author of this report wanted to examine how multi-treaded solutions can be put to use for the purpose of procedural generation.

The results of this thesis project was a demo where one can walk around in a moderately large forest where each surrounding tree sway in the wind. A special mode was developed where a tree can be designed from the ground up in real-time for testing purposes.

(4)

Abstract

Denna rapport behandlar procedurell generering av träd och skapandet av en applikation som med hjälp av multitr˚adade tekniker genererar och renderar dessa i realtid. Detta exemplifieras av att träden p˚averkas av vindkrafter. Algoritmen för trädgenerering be-skrivs utförligt samt redogör för olika tekniker för att uppn˚a realtidsprestanda när träden p˚averkas av vindkrafter.

Nyckelord: procedurell generering, tr¨ad, vind, multitr˚adning, realtidsrendering, da-torgrafik, spel

(5)

Inneh˚

all

1. Introduktion 7 1.1. Bakgrund . . . 7 1.2. Syfte . . . 7 1.3. M˚al . . . 7 1.3.1. Huvudm˚al . . . 7 1.3.2. Delm˚al. . . 8 2. Teori 9 2.1. Tr¨adgenerering . . . 9 2.1.1. Introduktion . . . 9 2.1.2. Stamkurvan . . . 10 2.1.3. F¨orgreningar . . . 11

2.1.3.1. Klonade stammar (splitting) . . . 11

2.1.3.2. Barnstammar (branching). . . 12

2.1.4. Stamradie . . . 14

2.1.4.1. Avsmalning (tapering). . . 14

2.1.4.2. Exponentiell expansion av basstammen (flaring ) . . . 15

2.1.4.3. Sv¨angande radie (lobing) . . . 16

2.1.5. L¨ov . . . 17

2.1.5.1. Distribution . . . 17

2.1.5.2. Orientering . . . 18

2.1.6. Vindp˚averkan . . . 18

2.2. Multitr˚adning . . . 19

2.2.1. Kritiskt omr˚ade. . . 19

2.2.2. Omsesidig uteslutning¨ . . . 19 2.2.2.1. L˚asningsstrategier . . . 19 2.2.3. Vanliga f¨allor . . . 20 2.2.3.1. Deadlock . . . 20 2.2.3.2. Starvation . . . 20 2.2.3.3. Race condition . . . 20 2.2.4. Interlock-operationer . . . 21 2.3. Realtidsrendering . . . 21 2.3.1. Utgallring . . . 21 2.3.2. Level of Detail . . . 21 2.3.3. Impostoring . . . 22 2.3.4. Instancing . . . 22

(6)

3. Metod 23

3.1. Val av metod . . . 23

3.2. Kritik till vald metod. . . 23

3.3. Bibliotek. . . 23

3.3.1. Allm¨anna ¨andam˚al . . . 23

3.3.2. Multitr˚adad programmering . . . 24

3.3.3. Ovrigt¨ . . . 24 4. Resultat 26 4.1. Implementation . . . 26 4.1.1. Vindp˚averkan . . . 26 4.2. Portabilitet . . . 27 4.3. Prestanda . . . 28 4.4. Utseende . . . 29

5. Analys och diskussion 30 5.1. Tr¨adgenerering . . . 30 5.2. Multitr˚adning . . . 30 5.3. Vindp˚averkan . . . 31 5.4. Level of Detail . . . 31 5.5. Instancing . . . 31 6. Slutsatser 33 A. Sk¨armdumpar 35 B. Exempelkod 37 B.1. Uppdatering. . . 37 B.2. Rendering . . . 40

(7)

1. Introduktion

1.1. Bakgrund

Procedurell generering innebär att n˚agonting skapas med hjälp av algoritmer (d.v.s. procedurer ). Detta kan vara saker som texturer, modeller, animationer eller till och med musik. Endast n˚agra f˚a parametrar som definierar karakteristiska egenskaper används i ett matematiskt uttryck eller algoritm som genererar ett slumpmässigt utseende av godtycklig upplösning.

Procedurella tekniker är ett snabbt växande omr˚ade inom spelindustrin. Att p˚a ett realistiskt vis visualisera saker som landskap, vegetation, träd och moln blir allt viktiga-re. Genom att istället generera content kan man skära ner p˚a utvecklingskostnader som annars skulle användas till att modellera detta för hand. Samtidigt kan detta lösa pro-blemet med lagringsutrymme eftersom content beräknas fram endast när det verkligen behövs.

Realistisk visualisering av träd och vegetation i allmänhet har länge varit ett stort forskningsomr˚ade inom datorgrafik. De första studierna g˚ar s˚a l˚angt bak som p˚a 1970-talet. Först p˚a senare tid har det blivit möjligt att presentera denna niv˚a av realism och fortfarande bibeh˚alla interaktivitet.

Samtidigt blir processorer med flera kärnor allt vanligare, inte minst med senaste generationens spelkonsoler. Detta innebär ett helt nytt tankesätt för programmerare och kommer blir en enorm utmaning i framtiden.

Fr˚agor som ligger till grund för detta examensarbete grundar sig i hur multitr˚adning kan förbättra prestandan, samt att finna en praktisk tillämpning av detta med procedu-rellt genererade träd.

1.2. Syfte

Syftet med detta examensarbete är att undersöka hur multitr˚adade paradigmer kan prestera bättre än den enkeltr˚adade varianten. En praktisk tillämpning av procedurellt genererade träd ska undersökas om det g˚ar utnyttja för nämnda ändam˚al.

1.3. M˚

al

1.3.1. Huvudm˚al

Att konstruera en applikation som p˚a ett matematiskt och algoritmiskt vis genererar träd samt renderar dessa i realtid med hjälp av multitr˚adade tekniker för f˚a träden att svaja i vinden.

(8)

1.3.2. Delm˚al

Portabilitet

Att skriva portabel kod är n˚agot jag anser är väldigt viktigt. Därför har jag satt upp som m˚al att applikationen ska kunna köras p˚a s˚a väl Linux som Windows, men även vara portabel nog att kunna portas till fler plattformar utan större sv˚arigheter.

Utseende

Inga större krav ställs p˚a utseende men saker som per-pixelbelysning, bump mapping och skuggor vore önskvärt. Även terräng och annan form av vegetation om tid finns.

(9)

2. Teori

2.1. Tr¨

adgenerering

Trädgenereringen i detta examensarbete bygger p˚a en geometrisk metod snarare än en strikt botanisk. Flera studier har gjorts inom b˚ada omr˚aden men den geometriska metoden presenterad av Weber et al. [5] ligger till grund för detta examensarbete. Deras arbete kommer beskrivas här men för mer ing˚aende detaljer hänvisas till originalarbetet. Algoritmen har visat sig kunna producera otroligt realistiska träd av en mängd olika arter. Se figur 2.1och [5] för vackra visualiseringar.

Figur 2.1.: Tre olika tr¨adarter producerade av algoritmen. Bilder fr˚an “Creation and Rendering of Realistic Trees” av Jason Weber och Joseph Penn. ACM SIGGRAPH ’95 Conference Proceedings, pp. 119-128.

2.1.1. Introduktion

Ett träd representeras enbart av vissa parametrar. Detta kan vara saker som: grenarnas skala i förh˚allande till sin “förälder”; riktningen grenarna tenderar att växa ˚at; antal löv per gren, osv. Alla trädarter använder sig av samma uppsättning parametrar. Givet ett visst random seed kan trädet ˚aterskapas deterministiskt.

Parametrarna f¨oljer en viss namnstandard i form av CurveResn d¨ar n betecknar

den aktuella rekursionsniv˚an. Trädstammen anses befinna sig p˚a niv˚a 0 och de första förgreningarna är rekursionsniv˚a 1, osv. I det fall niv˚an är explicit s˚a skrivs CurveRes0

(10)

och CurveRes1. Ett postfix V anv¨ands f¨or att indikera en slumpterm som adderas

till tillh¨orande parameter. Observera att parametrar skrivs med CamelCasing och bold italic och kan antas finnas f¨ordefinierade.

För att ta ett exempel: SplitAngle_noch SplitAngleV_nbetyder att den resulterande parametern blir φ = SplitAngle_n+ Random(SplitAngleV_n) där Random() returnerar i intervallet [−SplitAngleV_n, SplitAngleV_n]. I formler skrivs enbart SplitAngle_n± SplitAngleV_n för att mena samma sak. Alla vinklar och längdenheter är i grader och meter, om inget annat anges.

2.1.2. Stamkurvan

Modellen bygger p˚a tv˚a element; stammarna och löven. En “stam” är i modellen en generell term för trädstammen och alla grenar och kvistar. Varje stam har sitt eget koordinatsystem med sin centrala axel parallellt med sin lokala y-axel. Det globala ko-ordinatsystemet är ett högerhandssystem med marken som xz-planet och y-axeln pekar upp mot skyn. Observera att [5] l˚ater istället z-axeln vara den axel som är vinkelrätt med markplanet.

En stam delas in i flera “segment” som best˚ar av flera punkter formade i ett semi-cirkulärt mönster. Dessa segment är de som kopplas samman för att rita en triangulär mesh.

Antalet segment per stam för en given rekursionsniv˚a n bestäms av parametern CurveResn. Varje segment har i sin tur en egen orientering relativt föreg˚aende

seg-ment. Detta best¨ams av ett antal parametrar p˚a f¨oljande vis:

i f ( CurveBack [ n ] == 0 ) a n g l e = Curve [ n ] / CurveRes [ n ] ; e l s e { i f ( s e g m e n t s < ( CurveRes [ n ] + 1 ) / 2 ) a n g l e = 2 . 0 ∗ Curve [ n ] / CurveRes [ n ] ; e l s e a n g l e = 2 . 0 ∗ CurveBack [ n ] / CurveRes [ n ] ; }

F¨or att f˚a lite variation adderas CurveVnenligt:

i f ( CurveV [ n ] >= 0 ) {

f l o a t v a r = random ( CurveV [ n ] ) ; // [−CurveV , CurveV ]

a n g l e += v a r / CurveRes [ n ] ;

} // S p e c i a l mode

e l s e a n g l e = CurveVary [ n ] ; // − form a s a h e l i x

Varje segment roterar sig runt sin lokala x-axel angle grader relativt det föreg˚aende segmentet. Antalet segment som hittils skapats anges av segments och används för att rotera ena halvan av segment p˚a ett vis och andra halvan p˚a ett annat. Detta ger möjlighet till en S-formad kurva för stammen.

(11)

2.1.3. F¨orgreningar

Trädet best˚ar av en trädstam med en varierande kurvstruktur som liknar en kon. Denna struktur kan i sig dela sig längs sin egen längd enligt de olika typerna av förgreningar (se figur2.2) och som formar respektive antingen “kloner” (stem splits) eller “barn” (stem branches), vilka i sin tur kan dela sig p˚a liknande vis och s˚a vidare.

Figur 2.2.: Olika typer av f¨orgreningar: (I) Splitting (II) Branching 2.1.3.1. Klonade stammar (splitting)

Längs längden av en stam kan flera kloner bildas som anses befinna sig p˚a samma rekursiva niv˚a som sin tvilling och ärver alla dess egenskaper. Frekvensen av splittringar för en stam anges av SegSplits_n. Detta är oftast ett värde mellan 0 - 1 där 1 betyder en vanlig tudelning p˚a alla segment. Ett värde av 2 indikerar en tredelning.

Som Weber et al. [5] poängterar s˚a kan andelen splittringar snabbt n˚a oönskade värden. Ett exempel ges med CurveResn= 5 och SegSplitsn= 2 vilket resulterar i att en enda

stam splittras till 81 separata kloner: (SegSplits_n+ 1)CurveResn−1 _{= 3}4 _{= 81}

En ytterligare parameter BaseSplits_n fungerar p˚a samma vis som SegSplits_n men används enbart p˚a första segmentet p˚a själva trädstammen. P˚a s˚a vis kan man modellera träd som enbart splittras vid rötterna och som sedan ej har n˚agra splittringar för resten av trädet.

För att distributionen av splittringar ska fördelas jämnt längs stammen används en teknik liknande Floyd-Steinberg Error Diffusion [3]. Mer detaljer om detta hänvisas till [5].

(12)

Klonerna roteras bort φsplitgrader fr˚an sin y-axel relativt y-axeln till det segment som

skapade dem, enligt: − →_{v = R}   0 1 0   φdeclination = 180 arccos −→vy π (grader)

φsplit= max (0, (SplitAnglen± SplitAngleVn) − φdeclination) (grader) (2.1)

där −→v är stammens riktningsvektor i sitt globala koordinatsystem (d.v.s. enhetsvektorn parallell med lokala y-axeln som transformerats av segmentets globala rotationsmatris R). Vinkeln φdeclination definieras som vinkeln mellan en stam och trädets y-axel.

Ori-ginalstammen och dess kloner roterar runt en axel parallell med den globala y-axeln, enligt: φrotate= ± 20 + 3 4(30 + |φdeclination− 90|) ε 2 (grader) (2.2) d¨ar ε slumpas mellan [0, 1].

Ekvation 2.2 beskriver hur tv˚a horisontella grenar (φdeclination = 90 ± 10)

diverge-rar fr˚an varandra mellan 20 – 50 grader runt den parallella axeln och vertikala grenar (φdeclination = 0 ± 40) mellan 20 – 140 grader. Detta d˚a horisontella grenar tenderar att

se onaturliga ut om de divergerar med f¨or stora vinklar. 2.1.3.2. Barnstammar (branching)

Barnstammar är stammar som skapats via en vanlig förgrening fr˚an stam till gren, gren till kvistar, kvistar till löv. Till skillnad fr˚an klonade stammar (splitting) där stammar-na delade sig och fortsatte under samma rekursionsniv˚a anses barnstammar vara en rekursionsniv˚a under sin förälder. Oftast har ett träd enbart 4 rekursionsniv˚aer, där hu-vudstammen är 0, grenarna 1, kvistarna 2 och löven 3. Däremot ställs inga begränsningar vad gäller algoritmen utan det är bara vad som används för de flesta trädarter. Skulle ett träd använda sig av fler rekursionsniv˚aer än vad som definierats s˚a används sista niv˚an till nästföljande förgreningar.

Det maximala antalet barn-stammar som en stam kan skapa under f¨orloppet av alla sina segment anges av stemsmax = Branchesn+1. Det faktiska antalet kan vara mindre

¨

an detta värde. Andelen barn-stammar för en stam beräknas: stems = stemsmax

0.2 + 0.8 lengthchild

lengthparentlengthchildmax

(2.3) f¨or rekursionsniv˚a 1, och

stems = stemsmax

1.0 − 0.5 of f setchild lengthparent

(13)

för resterande. D˚a huvudstammen ej har n˚agon förälder anges antalet barnstammar enligt stems = stemsmax.

of f setchild ¨ar barnstammens position angivet i meter och utg˚ar fr˚an basen av sin

förälder. Barnstammens maximala längd lengthchildmax definieras relativt sin förälders

längd som en faktor [0,1] och anges som Length_n± LengthV_n. Barnstammens längd lengthchild givet en normaliserad position ratio [0,1] beräknas:

lengthchild= lengthtrunk· lengthchildmax· ShapeRatio (Shape, ratio) (2.5)

f¨or f¨orsta rekursionsniv˚an, och

lengthchild= lengthchildmax (lengthparent− 0.6 · of f setchild) (2.6)

f¨or resterande.

Trädstammens längd lengthtrunkoch längden av trädstammens nedre region lengthbase

anges i meter och definieras enligt:

lengthtrunk = (Length0± LengthV0) (Scale ± ScaleV) (2.7)

lengthbase = BaseSize (Scale ± ScaleV) (2.8)

vilket efter den normaliserade positionen ratio kan ber¨aknas: ratio = lengthtrunk− of f setchild

lengthtrunk− lengthbase

(2.9) Funktionen ShapeRatio används för att f˚a en viss distinkt form p˚a grenarna som utg˚ar fr˚an trädstammen. Relationerna redovisas i tabell 2.1.

Tabell 2.1.: Definition av ShapeRatio()

Shape Resultat

0 (conical) 0.2 + 0.8 ∗ ratio

1 (spherical) 0.2 + 0.8 ∗ sin(π ∗ ratio) 2 (hemispherical) 0.2 + 0.8 ∗ sin(0.5 ∗ π ∗ ratio) 3 (cylindrical) 1.0

4 (tapered cylindrical) 0.5 + 0.5 ∗ ratio

5 (flame) ratio/0.7 (ratio ≤ 0.7)

(1.0 − ratio)/0.3 (ratio > 0.7) 6 (inverse conical) 1.0 − 0.8 ∗ ratio

7 (tend flame) 0.5 + 0.5 ∗ ratio/0.7 (ratio ≤ 0.7) 0.5 + 0.5 ∗ (1.0 − ratio)/0.3 (ratio > 0.7)

En ytterligare Shape = 8 (pruning envelope) beskrivs i [5]. Parametern används för att klippa överflödig längd p˚a stammar p˚a träd som inte riktigt lämpar sig för längdberäkningen ovan. Metoden implementeras ej i detta examensarbete.

(14)

Orienteringen av en barnstam anges av en vinkel downanglechild som ¨ar

rotatio-nen längs barnstammens x-axel relativt förälderns y-axel. Om DownAngle_n är positiv beräknas vinkeln enligt DownAngle_n± DownAngleV_n, men om negativ beräknas den p˚a följande vis:

r = 1 − 2 · ShapeRatio

0,lengthparent− of f setchild lengthparent− lengthbase

downanglechild= DownAnglen± (r DownAngleVn) (2.10)

Detta uttryck används för att linjärt kunna p˚averka vinkeln baserat p˚a positionen av barnstammen längs en förälder. P˚a s˚a vis kan man f˚a grenar att böja sig ned˚at längs nedre del av en stam och som sedan allt mer böjer sig lodrätt ju högre upp i stammen barnstammarna växer. Jämför beteendet med en gran.

2.1.4. Stamradie

D˚a radien för stammar (vid segmentet de skapades vid) ej f˚ar överskrida sin förälders stamradie definieras radien som en funktion av föräldens. Detta gäller som vanligt inte huvudstammen d˚a den ej har n˚agon förälder, utan definieras istället proportionellt mot skalan för hela trädet. Huvudstammen definieras enligt

radiustrunk = lengthtrunk· Ratio · Scale0 (2.11)

och ¨ovriga enligt

radiuschild= radiusparent

lengthchild

lengthparent

RatioPower

(2.12)

2.1.4.1. Avsmalning (tapering)

Radien för en stam kan även smalnas av längs sin egen längd enligt olika metoder redo-visade i tabell2.2. Detta görs d˚a trädarter kan ha helt olika utseede p˚a sina stammar. En periodisk avsmalning används främst för kaktusar och palmer. Algoritmen som beräknar radien för ett segment för en given normaliserad position Y längs en stam redovisas i listing2.1.

Tabell 2.2.: Metoder f¨or avsmalning Taper_n Effekt

0 Ingen avsmalning

1 Avsmalnar till en punkt (kon) 2 Avsmalnar till en sf¨arisk ¨and

(15)

Listing 2.1: Avsmalning l¨angs l¨angden av en stam f l o a t t a p e r = Taper [ t h i s −>l e v e l ] ; f l o a t u n i t t a p e r = 0 . 0 ; i f ( t a p e r < 1 ) u n i t t a p e r = t a p e r ; e l s e i f ( t a p e r < 2 ) u n i t t a p e r = 2− t a p e r ; /∗ ’Y ’ d e f i n e d e l s e w h e r e a s t h e u n i t p o s i t i o n [ 0 , 1 ] ∗/ f l o a t r a d i u s = t h i s −>r a d i u s ∗ (1− u n i t t a p e r ∗Y) ; i f ( t a p e r >= 1 ) { f l o a t Y2 = (1−Y) ∗ t h i s −>l e n g t h ; /∗ p e r i o d i c t a p e r i n g ∗/ f l o a t depth ; i f ( t a p e r <2 | | Y2<r a d i u s ) depth = 1 ; e l s e depth = t a p e r −2; f l o a t Y3 ; i f ( t a p e r <2) Y3 = Y2 ; e l s e Y3 = s t d : : f a b s ( Y2 − 2∗ r a d i u s ∗ i n t ( Y2 / 2 . 0 / r a d i u s + 0 . 5 ) ) ; i f ( t a p e r >=2 | | Y3<r a d i u s ) r a d i u s = (1− depth ) ∗ r a d i u s +

depth ∗ s t d : : s q r t ( r a d i u s ∗ r a d i u s − ( Y3−r a d i u s ) ∗ ( Y3−r a d i u s ) ) ; }

2.1.4.2. Exponentiell expansion av basstammen (flaring)

Radien i trädets nedre region tenderar att variera kraftigt vilket varför en exponentiell utveckling av segment appliceras med en varierande radie beräknad som f (r, Y ) med stamradie r och en normaliserad position Y [0,1] längs stambasen. Se figur 2.3 för ett exempel med CurveRes0 = 10.

Funktionen f (r, Y ) definieras enligt f (r, Y ) = z = max (0, 1 − 8 ∗ Y ) f lare = 1 + Flare (100₁₀₀z−1) = r · f lare (2.13) vilket skalar radien med en faktor f lare begr¨ansad i intervallet [1, 1 + Flare).

(16)

Figur 2.3.: Exponentiell expansion vid tr¨adets nedre region. 2.1.4.3. Sv¨angande radie (lobing)

“Lobing” är en term som används inom elektromagnetism och innebär en variation av min- och max-niv˚aer 1. Här innebär det en variation av radien för varje punkt i ett segment hos trädstammen för att f˚a ett mer organiskt utseende i trädets nedre region.

För varje punkt adderas till radien en procentuell andel LobeDepth ∗ sin(Lobes ∗ i ∗ angle) vilket resulterar i en sinuskurva med Lobes antal perioder och en amplitud som svänger runt originalradien med en LobeDepth procentuell ökning och minskning. Figur 2.4 visar hur LobeDepth p˚averkar radien för tv˚a olika värden. Ett värde som LobeDepth = 0.0 innebär helt enkelt att radien minskar och ökar med 0.0% av den ursprungliga radien, medan ett värde som 1.0 skulle innebära en radie som svänger fr˚an 0.0 till dubbla radien. Algoritmen redovisas i listing2.2.

(17)

Figur 2.4.: T.v. LobeDepth = 0.0; T.h. LobeDepth = 0.1

Listing 2.2: Implementation av “Lobing” som varierar radien f¨or varje punkt i ett seg-ment. f l o a t a n g l e = 2 . 0 ∗ math : : PI / P o i n t s [ l e v e l ] ; f o r ( i n t i =0; i <P o i n t s [ l e v e l ] ; i ++) { f l o a t l o b e d r a d i u s = r a d i u s ∗ ( 1 . 0 + LobeDepth ∗ s i n ( Lobes ∗ i ∗ a n g l e ) ) ; x = c o s ( i ∗ a n g l e ) ∗ l o b e d r a d i u s ; y = 0 . 0 ; z = s i n ( i ∗ a n g l e ) ∗ l o b e d r a d i u s ; l o c a l p o i n t s [ i ] = V e c 3 t ( x , y , z ) ; } 2.1.5. L¨ov 2.1.5.1. Distribution

En parameter Levels används för att definiera det maximala antalet niv˚aer som ett träd har och när det ska börja växa löv istället för fler grenar. När maxniv˚an n˚as används para-metrarna DownAngle_n, DownAngleV_n, Rotatenoch RotateVnfr˚an förra niv˚an för

att orientera l¨ovet. Antalet l¨ov anges av Leaves som motsvarar parametern Branchesn

för att definiera tätheten för skapande av löv. Det faktiska antalet löv per stam beräknas enligt

leaves = Leaves · ShapeRatio

4, of f setchild lengthparent

· quality (2.14) där quality är en faktor som kan användas till att finjustera antalet efter behov. En definition av ShapeRatio redovisades i tabell2.1.

(18)

I [5] diskuteras även ett specialläge när Leaves är negativ för att f˚a löven att dis-tribueras fr˚an en central punkt liknande palmblad. Metoden implementeras ej i detta arbete.

Löven kan visualiseras som olika geometriska figurer enligt en parameter LeafShape. Bland figurerna finns en sexkantig oval, triangel eller mer komplicerade figurer som liknar lönnblad. Varje figur sparas med en normaliserad längd och bredd där de faktiska värdena beräknas under genereringen enligt följande skalningsfaktorer:

lengthscale= LeafScale/

p

quality widthscale= (LeafScale · LeafScaleX) /

p

quality (2.15)

2.1.5.2. Orientering

I verkligheten tenderar löv att orientera sig med ovansidan upp˚at och ut˚at med den mest tänkbara anledningen att optimera mängden solljus. Detta simuleras genom att orientera löven relativt det segment som skapade dem och mot en riktning s˚a lövets normal hamnar vinkelrätt mot stammens lokala y-axel.

Vinklarna ber¨aknas enligt

θposition= arctan2(pz, px)

θbend= θposition− arctan2(nz, nx)

φbend= arctan2 p n2 x+ n2z, ny (2.16)

där p är lövets position och n är lövets normal. Rotationen runt den lokala y-axeln och lokala x-axeln anges respektive av θbendoch φbend.

2.1.6. Vindp˚averkan

Vindkrafterna simuleras som en oscillering för varje enstaka stam med ett segment fixerat i ena änden. Svängningen beräknas för varje segment längs en stam vid en viss tidpunkt time (sekunder) och roteras relativt det föreg˚aende segmentet runt x- och z-axeln med vinklarna −→ψswayx och

− →

ψswayz och ber¨aknas enligt

− → b =−→ψof f set+ radiusstem lengthstem   1 0 1   time 15 − → ψsway = a1 sin − → b + a2 sin 0.7−→b CurveResn (2.17)

d¨ar koefficienterna a1 och a2 definieras enligt

a0 = 4 ∗ lengthstem (1 − Y ) /radiusy

a1 = windspeed/50 ∗ a0

a2 = windgust/50 ∗ a0+ a1/2

(19)

där Y är den normaliserade positionen längs stammen och radiusy är det aktiva

seg-mentets radie.

Den totala vindkraften anges av (windspeed+ windgust) d¨ar windgust kan anv¨andas

till att introducera hastiga vindpustar. En f¨orskjutning i x- och z-led angivet av−→ψof f set

slumpas f¨or varje stam. Ett mer praktiskt exempel av ovan ges i listing4.1.

2.2. Multitr˚

adning

En “tr˚ad” (thread ) inom datateknik är en förkortning för thread of execution och innebär att tv˚a eller flera processer exekverar samtidigt (simulerad samtidighet eller fysisk). Multitr˚adad programmering innebär att man delar upp arbete i flera tr˚adar för att förhoppningsvis förbättra prestandan.

Ett av de m˚anga problem som kan uppst˚a är när tv˚a eller fler tr˚adar använder sig av delade resurser samtidigt. Om en tr˚ad skriver till resursen och en annan samtidigt läser, eller om b˚ada tr˚adar skriver till resursen samtidigt blir resultatet odefinierat [2].

2.2.1. Kritiskt omr˚ade

Ett kritiskt omr˚ade (critical section) är det omr˚ade i koden som en och endast en tr˚ad ˚at g˚angen f˚ar befinna sig i när den använder sig av en delad resurs. För att garantera detta m˚aste olika typer av synkronisering tillämpas, antingen mjukvarubaserade eller h˚ardvarubaserade.

Detta omr˚ade är ytterst viktig att vara s˚a optimal som möjligt d˚a andra tr˚adar kan ej utföra n˚agot arbete under tiden om de kräver tillg˚ang till samma resurs [2].

2.2.2. ¨Omsesidig uteslutning

För att garantera att en och endast en tr˚ad ˚at g˚angen läser eller skriver till en delad resurs krävs olika typer av synkronisering. En av de mest grundläggande formerna av synkronisering är en s˚a kallad “mutex” (mutual exclusion) eller ömsesidig uteslutning p˚a svenska. Genom att först l˚asa den mutex som hör till resursen före resursen används garanteras att ingen annan tr˚ad läser fr˚an eller skriver till samma resurs – förutsatt att l˚asningen görs varje g˚ang resursen används.

2.2.2.1. L˚asningsstrategier

Det finns i huvudsak tre olika l˚asningsstrategier f¨or en mutex. Dessa ¨ar: • Lock

• Try Lock • Timed Lock

(20)

En vanlig Lock fungerar s˚a att när en tr˚ad lyckats l˚asa en resurs s˚a blockeras de andra tr˚adarna som försöker l˚asa resursen under tiden l˚aset är aktivt. När l˚aset upphör s˚a f˚ar nästa tr˚ad chansen att l˚asa och de andra väntar. En Try Lock testar först om en mutex är l˚ast och l˚aser den om den lyckas. Exekveringen fortsätter som vanligt oavsett om resursen var l˚ast eller ej, vilket efter man kan testa om den lyckades l˚asa. Fördelen med detta är att tr˚aden ej blockeras om resursen skulle visa sig vara l˚ast, utan tr˚aden kan fortsätta med n˚agot annat under tiden. En Timed Lock är en hybrid mellan dem b˚ada där den först blockerar och sedan fortsätter exekverar om den inte skulle lyckas l˚asa resursen inom rimlig tid.

2.2.3. Vanliga f¨allor

Inte nog med att det kan vara sv˚art att synkronisera delade resurser enligt ovan s˚a kan synkroniseringarna i sig ställa till stora problem. Nedan beskrivs kortfattat ett urval av de vanligaste fällorna men detta är l˚angt ifr˚an alla.

2.2.3.1. Deadlock

En “deadlock” innebär att tv˚a eller fler tr˚adar väntar p˚a varandra i ett s˚adant tillst˚and att de väntar i all evighet. Detta kan inträffa om l˚asningar av resurser görs i omvänd ordning vilket illustreras bäst av ett litet exempel:

• Tr˚ad 1 l˚aser A • Tr˚ad 2 l˚aser B

• Tr˚ad 1 l˚aser B – B redan l˚ast, v¨antar... • Tr˚ad 2 l˚aser A – A redan l˚ast, v¨antar...

Ovanst˚aende problem skulle lösas genom att l˚asa resurserna i samma ordning för b˚ada tr˚adar men detta är inte alltid s˚a enkelt i praktiken.

2.2.3.2. Starvation

Begreppet “starvation” innebär att en tr˚ad väntar p˚a n˚agot som kanske aldrig inträffar. Om en tr˚ad har rättigheterna till en resurs som en annan behöver men den ena tr˚aden ger aldrig ifr˚an sig den s˚a är det en form av starvation (som namnet antyder; den andra tr˚aden “svälter ihjäl”). Detta kan även ses som en form av deadlock men skillnaden är att med deadlock väntar tr˚adar p˚a varandra medan starvation är det en tr˚ad som vägrar ge ifr˚an sig nödvändiga resurser.

2.2.3.3. Race condition

En “race condition” inträffar när flera tr˚adar begär tillträde till samma resurs och ordningen de tilldelas tillträde sker p˚a ett oberäkneligt vis. Detta kan ställa till med sv˚arupptäckta problem när ordningen tr˚adarna exekverar är viktigt [2].

(21)

2.2.4. Interlock-operationer

Interlock-operationer är en form av synkronisering som görs i h˚ardvara. Det kan vara operationer som swap/compare/exchange av data i minnet som m˚aste exekvera atomiskt. En atomisk operation innebär att den är odelbar i det avseendet att ingen annan proces-s/tr˚ad kan läsa eller modifiera det data som en annan tr˚ad använder. I och med att detta görs i h˚ardvara s˚a är det mycket snabbare än vanlig mjukvarusynkronisering i form av en mutex eller semafor. Detta är däremot inget som ersätter traditionell synkronisering utan ¨

ar mer ett komplement. Kritiska omr˚aden har sina tillämpningar när hela datastrukturer m˚aste synkroniseras medan interlock-operationer kommer till användning för att imple-mentera s˚a kallade lock-free and wait-free algorithms 2. D˚a lock-free-programmering är s˚a otroligt komplicerat implementeras istället enkla datastrukturer som en stack, kö eller länkad lista. Dessa kan sedan användas utan n˚agon form av extern synkronisering — alla tr˚adar kan modifiera strukturen samtidigt.

2.3. Realtidsrendering

2.3.1. Utgallring

Utgallring är en mängd olika metoder för att förbättra prestandan genom att endast rendera s˚ant som verkligen syns p˚a skärmen. Detta kan vara tekniker som back-face culling som endast renderar fram˚atvända trianglar, eller frustum culling som jämför om ett objekts gränser befinner sig inom kamerans vyfrustum. Andra tekniker kan vara occlusion culling som beräknar objekt som skyms av större objekt och kan p˚a s˚a vis utesluta dem ur renderingen.

Den algoritm som är mest användbar för träd skulle vara frustum culling där ett rätblock eller en sfär (vanligen benämnt bounding box och bounding sphere) beräknas som innesluter hela trädet och som jämförs med kamerans sex stycken s˚a kallade vyfrustum-plan. Om boxen eller sfären visar sig ligga utanför alla sex plan s˚a ritas trädet inte ut [1].

2.3.2. Level of Detail

D˚a objekt som befinner sig l˚angt ifr˚an bektraktaren och upptar en väldigt liten del av skärmytan s˚a kan detta accelereras genom att rendera en förenklad modell av objektet. Dessa tekniker kallas för “Level of Detail” (LOD) och finns i alla möjliga former. En av de enklaste kallas för Discrete LOD (DLOD) och innebär att objektet byts ut s˚a fort den anses befinna sig p˚a ett visst avst˚and fr˚an betraktaren. Ett ökänt problem med DLOD-algoritmer är artefakter som popping när bytet mellan en niv˚a till en annan blir synlig. Detta kan förbättras genom att göra bytet mer progressivt med blending.

Till mer avancerade algoritmer hör “Continuous LOD” (CLOD) och “Geomorph LOD” som dynamiskt förenklar geometrin och interpolerar punkterna emellan niv˚aerna för att undvika popping [1].

2

(22)

2.3.3. Impostoring

En impostor är en billboard som skapas dynamiskt genom att rendera ett komplicerat 3d-objekt till en textur fr˚an den aktiva vyn som sedan mappas till billboarden [1]. Istället för att rendera tusentals trianglar blir komplexiteten istället det antal pixlar objektet upptar p˚a skärmen. Detta fungerar bäst för statiska objekt och objekt som befinner sig p˚a l˚angt avst˚and d˚a annars m˚aste impostorn uppdateras oftare för att illusionen inte ska g˚a förlorad.

Impostorn skapas genom att rendera objektet till en offscreen buffer med vyn orien-terad s˚a att den kollar i objektets bounding box centrum. En polygon med texturen mappad sätts att peka i betraktarens riktning. Detta g˚ar göra väldigt effektivt med dagens grafikkort d˚a renderingen kan göras direkt till texturen.

2.3.4. Instancing

En användbar optimeringsteknik är en metod som kallas instancing (se figur 2.5). Tek-niken innebär att man använder samma geometriska data för flera instanser av objekt. Detta accelererar renderingen avsevärt d˚a man enbart behöver skicka geometrin till gra-fikkortet en enda g˚ang för ett unikt objekt och flera instanser. Dessa instanser kan f˚as att ha en helt annan skala, orientering, position, material, textur, shader, osv. Men änd˚a gemensamt använda samma geometri. Detta är speciellt fördelaktigt för objekt som träd d˚a det kan vara väldigt sv˚art att se att det faktiskt är samma geometri.

(23)

3. Metod

3.1. Val av metod

Implementationen bygger p˚a ett och samma paper för trädgenerering med viss modifika-tion för att uppn˚a realtidsprestanda. Vindsvaj valdes att implementeras p˚a CPU:n med hjälp av multitr˚adade tekniker.

Det programspr˚ak som användes var C++. För ˚atkomst till grafikh˚ardvaran användes OpenGL och GLSL. Utvecklingsmiljön bestod av Emacs, gcc, gdb och SCons. Även MS Visual Studio 2005 användes m˚attligt för testning vad gäller m˚alen ställda i 1.3.2. Versionshantering gjordes genom Subversion. Rapporten är typsatt med LA_TEX.

3.2. Kritik till vald metod

Enligt kraven p˚a portabilitet följer vissa kompromisser. Däribland tekniker som interlock-operationer (se 2.2.4) som ej finns tillgängligt i linux under userspace pga att vissa arkitekturer ej har stöd för det. Detta gjorde att det inte var möjligt att testa olika tekniker av synkronisering.

¨

Aven valet av att implementera vindsvaj p˚a CPU:n hade varit intressant att implemen-tera p˚a grafikkortet (GPU:n) för att jämföra prestanda. Andra praktiska tillämpningar hade varit önskvärt att testa som möjligheten att befinna sig i en “oändlig” skog där nya träd genereras under körning.

3.3. Bibliotek

Av de bibliotek jag anv¨ant mig av fogar sig efter m˚alen st¨allda i1.3.2.

3.3.1. Allm¨anna ¨andam˚al

Boost 1 är en organisation som strävar efter att skriva användbara och portabla C++-bibliotek av hög kvalité som lämpar sig för eventuell standardisering. N˚agra av utveck-larna är medlemmar i C++ Standards Committee Library Working Group. I skrivande stund har tio Boost-bibliotek inkluderats i Standard C++ Library Technical Report 1 (TR1), vilket innebär att de kommer i en eller annan form vara del av nästa standardisering av standardbiblioteket till C++. Ytterligare bibliotek har föreslagits till TR2.

Bland biblioteken i Boost h¨or saker som (ej en fullst¨andig lista):

(24)

• Regulj¨ara uttryck

• Generaliserade funktioner (funktio-ner/objekt/pekare och medlemsfunk-tioner)

• Lambda-uttryck • Signaler

• Algebra / Linj¨ar algebra

• Slumptal • Smart pointers

• Portabel ˚atkomst av filsystem • Portabel multitr˚adning • Hashmaps och hashfunktioner Alla bibliotek i Boost bygger p˚a öppen källkod och är fritt att använda för b˚ade kommerciella och icke-kommerciella syften.

3.3.2. Multitr˚adad programmering

I Standard C++ finns ännu ingen möjlighet att skriva tr˚adade program. Enda utvägen har varit att använda sig av rutinerna tillgängliga för respektive operativsystem eller att använda sig av ett portabelt bibliotek.

Pthreads ing˚ar i POSIX-standarden och är ett API skrivit i C. Pthreads används främst p˚a UNIX-varianter av operativsystem men implementationer för Windows finns att tillg˚a. Pthreads är dock varken en C- eller en C++-standard vilket innebär att det ej finns p˚a alla plattformar som t ex spelkonsoler [?].

Boost.Threads är ett i mängden användbara bibliotek som hör till Boost. Boost.Threads möjligör att skriva tr˚adade och portabla objekt-orienterade program i C++. Tekniker som Scoped Locking garanterar att l˚asningen av l˚asta resurser upphävs vid ett inträffande av en exception eller en “kortsluten exekvering” via return/break/continue. Detta imple-menteras med hjälp av spr˚akmekaniker som konstruktion/destruktion.

¨

Aven funktioner i C++ som templates och funktionsobjekt används flitigt. Fördelarna med att använda fullfjädrade funktionsobjekt framför vanliga funktionspekare är att objekten kan spara tillst˚and. När man startar en ny tr˚ad kan man skicka med ett funk-tionsobjekt och p˚a s˚a vis även p˚a ett praktiskt vis skicka med data till tr˚aden.

Boost.Threads är det bibliotek som valdes till detta examensarbete dels p˚a grund av att det är relativt enkelt att sätta sig in i och dels av anledning av ovan nämnda finesser och dess höga portabilitet. Att det även kommer med stor sannolikhet inkluderas i n˚agon form till standardbiblioteket i framtiden gjorde Boost.Threads till ett självklart alternativ.

3.3.3. ¨Ovrigt

• F¨onsterhantering/input: SDL2

2

(25)

• Texturinladdning: DevIL 3

• Fontrendering: FreeType 4

3

http://openil.sourceforge.net/ 4_{http://freetype.sourceforge.net/}

(26)

4. Resultat

Examensarbetet resulterade i en applikation där man kan g˚a runt i en lagom stor skog och alla träd runt omkring svajar i vinden. Ett specialläge där ett träd kan konstrueras fr˚an grunden i realtid implementerades i testsyfte.

4.1. Implementation

Vid uppstart läses ett antal fördefinierade trädarter in ifr˚an textfiler och en dedikerad tr˚ad drar ig˚ang som har till uppgift att generera geometri av dessa definitioner som enbart inneh˚aller parametrar enligt2.1. Detta kan även göras under körning där träden genereras i bakgrunden.

Efter att träden genererats färdigt s˚a g˚ar tr˚aden över till att uppdatera geometrin enligt en algoritm för vindp˚averkan som beskrivs i 2.1.6och implementeras i 4.1.1.

Här görs även ett optimeringspass där en renderingsteknik väljs efter avst˚and till be-traktaren och en impostor eller en 3d-mesh väljs att renderas. Observera att renderingen görs i en skild tr˚ad.

När ett träd har uppdaterats s˚a kopieras geometrin till en buffert. Denna buffert används gemensamt mellan tr˚adarna. Synkroniseringen sker enbart när pekaradressen byts ut att peka p˚a den nya bufferten. Samtidigt som tr˚aden bygger geometrin och fyller bufferten s˚a kan renderingen ske parallellt.

Om renderingstr˚aden lyckas l˚asa resursen s˚a streamas geometrin till grafikkortet via en VBO (Vertex Buffer Object ) [4]. Om resursen skulle vara l˚ast s˚a tillämpar tr˚aden en Try Lock-strategi och fortsätter renderingen med att rendera föreg˚aende uppdatering av trädet. Ingen överföring är nödvändig d˚a geometrin finns redan sparad p˚a grafikkortet.

F¨or att optimera uppdateringen och renderingen s˚a existerar enbart en handfull unika tr¨ad som sedan klonas till hundratals.

4.1.1. Vindp˚averkan

En absolut tid time (i sekunder) beräknas in i algoritmen nedan. Funktionen evalueras p˚a varje segment som hör till en viss stam, där radiusY betecknar den aktuella radien vid ett segment och Y är en normaliserad position [0,1] längs stammen. Den resulterande orienteringen för ett segment används till nästföljande segment i den ordning som de ursprungligen skapades. Parametern orientation är en quaternion som representerar en orientering av föreg˚aende segment.

Listing 4.1: Implementation av vindsvaj

(27)

f l o a t radiusY , f l o a t Y) { /∗ w i n d s p e e d / w i n d g u s t a r e c o n s t a n t ∗/ f l o a t a0 = 4∗ t h i s −>l e n g t h ∗(1−Y) / r a d i u s Y ; f l o a t a1 = w i n d s p e e d /50∗ a0 ; f l o a t a2 = w i n d g u s t /50∗ a0 + a1 / 2 ;

/∗ NOTE: Weber & Penn d o e s n o t mention t h e f a c t o r 1 0 0 0 , t h o u g h i t was deemed n e c e s s a r y . Perhaps t h e i r ’ t i m e ’ was a c t u a l l y d e f i n e d i n m i l l i s e c o n d s ? ∗/ f l o a t tmp = t h i s −>r a d i u s / t h i s −>l e n g t h ∗ t i m e / 1 5 ∗ 1 0 0 0 ; /∗ s w a y o f f s e t x d e f i n e d e l s e w h e r e ∗/ /∗ s w a y o f f s e t z d e f i n e d e l s e w h e r e ∗/ f l o a t bx = s w a y o f f s e t x + tmp ; f l o a t bz = s w a y o f f s e t z + tmp ;

f l o a t sway x = ( a1 ∗ s i n ( bx )+a2 ∗ s i n ( 0 . 7 ∗ bx ) ) / CurveRes [ l e v e l ] ; f l o a t s w a y z = ( a1 ∗ s i n ( bz )+a2 ∗ s i n ( 0 . 7 ∗ bz ) ) / CurveRes [ l e v e l ] ;

/∗ r o t a t i o n around X a x i s ∗/

Q u a t t rotX =

Q u a t t : : fromAxisRot ( math : : VEC3 UNIT X , sway x ) ;

/∗ r o t a t i o n around Z a x i s ∗/

Q u a t t r o t Z =

Q u a t t : : fromAxisRot ( math : : VEC3 UNIT Z , s w a y z ) ; o r i e n t a t i o n = o r i e n t a t i o n ∗ rotX ∗ r o t Z ;

}

4.2. Portabilitet

Applikationen kompilerar med GNU C++ (gcc/g++) 4.1.1-r3 och även MS Visual C++ 8 (vc8). Flaggorna -ansi och -pedantic användes i gcc. Applikationen följer med andra ord strikt ANSI/ISO-standard.

Körning av applikationen fungerar utan problem under Gentoo GNU/Linux x86 64 och Windows XP SP2 (Win32) som är de plattformar som varit tillgängliga för testning. Därmed fullföljs m˚alen som ställdes i 1.3.2.

Applikationen lär där med även utan större sv˚arigheter kunna portas till de flesta UNIX-baserade system som *BSD, Solaris och Mac OS X.

(28)

4.3. Prestanda

Testburken som anv¨andes under utvecklingen bestod av en AMD Athlon64 X2 Dual-Core “Manchester” 3800+ 2.0GHz med 1GB RAM samt ett NVIDIA GeForce 7600 GT med 256MB grafikminne.

Testet gjordes med ett träd som har 17430 trianglar. Enheten som användes var “mil-lisekunder per frame” (mspf). Lägre är bättre.

Antal unika tr¨ad Rendering (mspf) Uppdatering (mspf)

1 1.54 10.70 2 2.32 22.73 3 3.08 35.09 4 3.90 47.62 5 4.40 57.14 10 10.31 117.65 20 14.81 222.23 40 27.78 500.00 80 -

-Näst sista mätningen med 40 träd resulterade i ungefär 36 fps för renderingen och 2 fps uppdatering. Man kan snabbt dra slutsatsen att ökningen är linjär för b˚ade rendering och uppdatering, men där uppdateringen snabbt blir oacceptabel d˚a varje träd tar ca 10 ms att uppdatera. Med 80 träd tog minnet slut.

Genom att h˚alla sig till n˚agra f˚atal unika träd och istället rendera träden flera ggr som kloner s˚a kan ett mycket bättre resultat f˚as utan att för den sakens skull lägga märke till att träden är klonade.

För att göra en bedömning om antalet renderade träd p˚averkar uppdateringstr˚aden s˚a gjordes följande test med 1 unikt träd och som sedan klonades flera ggr för rendering.

Antal kloner Rendering (mspf) Uppdatering (mspf)

1 1.53 10.58 2 2.92 10.81 3 4.55 10.58 4 5.88 10.58 5 7.46 10.31 10 14.39 10.47 20 28.57 10.25 40 54.05 11.11 80 105.26 10.93

Här kan man konstatera att uppdateringen p˚averkas knappt alls medan renderingen blev l˚angsammare än förra testet. Detta kan bero p˚a att mängden synkroniseringar till

(29)

en och samma resurs ¨okade.

Mätdata för en enkeltr˚adad lösning blir knappt lönt d˚a andelen unika träd ökar. Vid en villkorlig kompilering där all beräkning och rendering skedde i 1 tr˚ad och med 40 unika träd hamnade renderingen p˚a 250 mspf (∼ 4 fps) och den multitr˚adade renderade samma scen p˚a 51 mspf (∼ 19 fps).

4.4. Utseende

Av m˚alen ställda s˚a uppfyller applikationen delvis kravet p˚a utseende med per-pixelbelysning och bumpmapping. Skuggor, terräng och annan form av vegetation utelämnades p˚a grund av tidsbrist. Geometriskt sett är procedurell generering väldigt tacksamt för pro-grammerare som saknar grafisk talang. Tyvärr undkommer man aldrig texturer vilket gör att utseendet p˚averkas dramatiskt och träden blir inte särskilt imponerande.

(30)

5. Analys och diskussion

5.1. Tr¨

adgenerering

Algoritmen för trädgenereringen funkar bra och det g˚ar f˚ar till en mängd olika trädarter. M˚anga saker beskrivna i originalrapporten hann tyvärr inte implementeras. Löven är tänkt att vara riktig geometri med en mängd polygoner men implementerades här enbart som en enkel quad med en textur. Detta gör att orienteringen av löven ser ganska konstigt ut d˚a det är sv˚art att f˚a placeringen p˚a löven att hamna s˚a det ser ut som lövet verkligen växer p˚a kvisten.

Min implementation har vissa artefakter som jag inte blivit klok p˚a. Däribland att längden p˚a grenarna verkar inte stämma riktigt vilket p˚averkar mängden löv och fortsatta niv˚aer av grenar. Även slumptermen som adderas verkar ställa till problem för vissa random seeds. Om detta är en artefakt som jag orsakat eller originalrapporten förblir oklart.

Mängden trädarter som jag testat har varit ganska begränsat d˚a enbart ett par stycken färdiga trädarter fanns tillgängliga. Fler implementationer finns med en mängd olika arter men konvertering mellan mitt filformat och deras hade d˚a varit nödvändig vilket p˚a grund av tidsbrist aldrig blev av.

5.2. Multitr˚

adning

När geometrin skapas s˚a kopieras detta till en separat buffert som sedan kopieras in till en VBO. Detta skulle kunna förbättras genom att mappa minnet mellan VBO:n och klientapplikationen och kopiera rakt in i VBO:n fr˚an uppdateringstr˚aden. Detta är däremot sv˚art att genomföra d˚a en renderingskontext g˚ar ej vanligen att dela mellan olika tr˚adar. Idealt hade man velat att uppdateringstr˚aden mappar bufferten till grafikkortet utan mellanhänder.

Det finns möjlighet att dela renderingskontext mellan olika tr˚adar men detta är inget som finns tillgängligt via SDL. För att byta renderingskontext skulle man f˚a anropa glXMakeCurrent och liknande plattformsberoende funktioner. En annan möjlighet vore för renderingstr˚aden att mappa bufferten och l˚ata uppdateringstr˚aden streama direkt till VBO:n. Detta är tänkbart men problem som hur renderingstr˚aden vet när den ska kunna unmappa bufferten igen dyker upp. Under tiden bufferten är mappad s˚a kan inte grafikkortet utföra n˚agot arbete.

Den enklaste lösningen valdes istället där uppdateringstr˚aden allokerar en buffert och kopierar över geometrin. Pekaren till denna buffert delas med renderingstr˚aden som streamar över geometrin till grafikkortet. Nästa uppdatering allokeras en ny buffert och

(31)

den gamla avallokeras. Detta skulle kunna optimeras rejält eftersom antalet vertexar är konstant fr˚an frame till frame, men d˚a har man inte längre möjlighet att kunna variera mängden vertexar p˚a ett flexibelt vis i syfte att snabba upp uppdateringen/renderingen. I 2.2.4 nämns interlock-operationer men detta är inget jag kan se n˚agon användning av d˚a tekniken används främst till cirkulära bufferts där en tr˚ad fyller i ena änden och en annan tömmer i andra. Kanske för att visualisera en “animering” av ett träds uppbyggnad kunde vara relevant i detta avseende. Samtidigt nämns i 3.2 att detta ej finns tillgängligt i userspace linux vilket varför jag ej kunnat använda mig av detta.

5.3. Vindp˚

averkan

Enligt [5] krävs att träden genereras om med samma random seed för att uppdatera positionerna efter en viss tid med vind aktiverat. Om man analyserar lite vad som egentligen ändras s˚a räcker det att uppdatera orienteringen i en viss ordning. Under genereringspasset sparar jag undan de stammar och löv som ett visst segment har skapat och kan p˚a s˚a vis rekursivt traversera igenom hela trädet i samma ordning som de skapades. Ingen omberäkning av radier, längder eller annat är nödvändigt. Detta bör vara en relativt bra optimering men inga profileringar har utförts för att bevisa detta.

5.4. Level of Detail

Ett metod vore att helt enkelt generera om träden med ett färre antal polygoner beroende p˚a avst˚and fr˚an objektet till betraktaren. Detta motsvarar tekniker som Discrete LOD (DLOD) men skillnaden är att man genererar LOD-niv˚aer dynamiskt istället för att spara det som förgjorda modeller. Träden genereras med samma random seed.

Detta diskuteras även i [5] med argument som att genereringen tar mellan 1 - 10 sekunder för ett enstaka träd och s˚aledes oacceptabelt. Istället valde de att beh˚alla den geometriska datan intakt och omtolka datan p˚a olika vis. Avst˚and som varierar fr˚an medel till l˚anga kan man utan problem rendera träden som enbart en trädstam och löv utan att det blir n˚agon större märkbar skillnad. Denna lösning har ett problem; de förutsätter att renderingen görs med immediate mode rendering där man lätt kan hoppa ¨

over enstaka niv˚aer av grenar. De n¨amner heller ingenting om krav p˚a realtid.

Min metod med att generera om träden visar sig inte vara n˚agot problem med da-gens processorer. En generering av ett högupplöst träd görs bara p˚a n˚agon br˚akdel av en sekund och genom att även kombinera detta med multitr˚adning kan man undvika ryckigheter under tiden träden genereras. Tyvärr lämpar sig inte metoden när kloner av träd är inblandade d˚a alla kloner använder sig av samma geometri.

5.5. Instancing

I skrivande stund har enbart Direct3D 9 stöd för s˚a kallad Hardware Instancing där alla instanser kan ritas via ett enda ritanrop och sedan anger man hur var och en ska transformeras individuellt. Detta sägs dock inte vara n˚agot som behövs med OpenGL

(32)

d˚a ett ritanrop anses var mindre kostsamt än motsvarande i Direct3D. En extension för OpenGL finns tydligen utvecklad av NVIDIA som heter NVX instanced arrays1och som möjligör äkta hardware instancing. Vill man uppn˚a ett liknande resultat i OpenGL utan att förlita sig p˚a h˚ardvaruspecifika extensions s˚a finns en teknik kallad pseudo-instancing

2_{. Ingen av metoderna har testats i arbetet och huruvida dessa p˚}_{averkar prestandan ¨}_ar

ok¨ant.

1_{http://developer.nvidia.com/object/opengl-nvidia-extensions-gdc-2006.html} 2

http://developer.download.nvidia.com/SDK/9.5/Samples/DEMOS/OpenGL/src/ glsl pseudo instancing/docs/glsl pseudo instancing.pdf

(33)

6. Slutsatser

Detta examensarbete har resulterat i en applikation som uppfyllde de uppsatta kraven med att generera träd helt procedurellt vid uppstart och rendera träden med p˚averkan av vind i realtid med hjälp av multitr˚adade tekniker.

Metoden med att uppdatera geometri i en skild tr˚ad och rendering i en annan förbeh˚aller sig ganska naturlig d˚a det kan ske nästintill helt parallellt utan n˚agra större synkronise-ringsproblem. N˚agra av fördelarna med att implementera det hela p˚a CPU:n kan vara att man avlastar grafikkortet och kan p˚a s˚a vis ägna stora delar p˚a grafiska effekter. Däremot är det inte sagt att detta är en optimal metod och ett bättre resultat hade förmodligen kunnat ˚astadkommas genom att beräkna all uppdatering av geometri p˚a grafikkortet.

Av de fr˚agor ställda om en multitr˚adad lösning presterar bättre en den enkeltr˚adade varianten s˚a är svaret definitivt ja, men för att uppn˚a bra prestanda i spel s˚a är en GPU-baserad lösning att föredra.

(34)

Litteraturf¨

orteckning

[1] Akenine-M¨oller, Tomas, Eric Haines. “Real-Time Rendering”, Second Edition. Wel-lesley, MA, USA. A K Peters, Ltd., 2002.

[2] Deitel, Harvey M., Paul J. Deitel, David R. Choffnes. “Operating Systems”, Third Edition. Prentice Hall, 2003.

[3] Floyd, R.W., L. Steinberg, “An adaptive algorithm for spatial grey scale”. Procee-dings of the Society of Information Display 17, 75-77, 1976.

[4] Shreiner, Dave, Mason Woo, Jackie Neider, Tom Davis. “OpenGL(R) Program-ming Guide: The Official Guide to Learning OpenGL(R), Version 2”, Fifth Edition. Addison-Wesley Professional, 2005.

[5] Weber, Jason, Joseph Penn. “Creation and Rendering of Realistic Trees”, Computer Graphics (Proc. Siggraph 95), ACM Press, New York, 1995.

(35)

A. Sk¨

armdumpar

(36)

(37)

B. Exempelkod

B.1. Uppdatering

Listing B.1: tree.cpp

void Tree : : update ( ) {

params−>r e s e t s e e d ( ) ; t i m e = t i m e r −>s e c o n d s ( ) ;

/∗ u p d a t e t r u n k stem and a l l i t s sub−s t e m s r e c u r s i v e l y ∗/

T r a n s f o r m a t i o n t r f = s e g m e n t b e y o n d f l a r i n g −>t r a n s f o r m a t i o n ( ) ; t r u n k −>update ( t r f ) ; /∗ u p d a t e c o m p l e t e , c o n s t r u c t mesh ∗/ f i l l b u f f e r s ( ) ; } void Tree : : f i l l b u f f e r s ( ) { Mesh b r a n c h e s ; { Mesh & tmp = b r a n c h e s ; /∗ p o i n t e r o f f s e t s ∗/ tmp . n p o i n t s = t o t a l p o i n t s ; tmp . v s i z e = s i z e o f ( math : : V e c 3 t ) ∗tmp . n p o i n t s ; tmp . t s i z e = s i z e o f ( math : : V e c 2 t ) ∗tmp . n p o i n t s ; tmp . i s i z e = s i z e o f ( unsigned i n t ) ∗tmp . n p o i n t s ∗ 6 ; tmp . n s i z e = s i z e o f ( math : : V e c 3 t ) ∗tmp . n p o i n t s ; /∗ a l l o c a t e b u f f e r ∗/ tmp . b u f f e r = ( unsigned char ∗ ) m a l l o c ( tmp . v s i z e + tmp . t s i z e + tmp . n s i z e + tmp . i s i z e ) ; tmp . v b u f = ( math : : V e c 3 t ∗ ) tmp . b u f f e r ; tmp . t b u f = ( math : : V e c 2 t ∗ ) ( tmp . b u f f e r+tmp . v s i z e ) ;

tmp . nbuf = ( math : : V e c 3 t ∗ ) ( tmp . b u f f e r+tmp . v s i z e+tmp . t s i z e ) ; tmp . i b u f = ( unsigned i n t ∗ ) ( tmp . b u f f e r+tmp . v s i z e+ tmp . t s i z e+tmp . n s i z e ) ; math : : V e c 3 t ∗ v b u f = tmp . v b u f ; unsigned i n t ∗ i b u f = tmp . i b u f ; unsigned i n t o f f s e t = 0 ; math : : V e c 2 t ∗ t b u f = tmp . t b u f ;

(38)

math : : V e c 3 t ∗ nbuf = tmp . nbuf ;

/∗ f i l l b u f f e r s r e c u r s i v e l y ∗/

t r u n k −> f i l l b r a n c h b u f f e r s (&vbuf , &i b u f , &o f f s e t , &t b u f , &nbuf ) ; a s s e r t ( v b u f <= tmp . v b u f+tmp . v s i z e ) ; a s s e r t ( t b u f <= tmp . t b u f+tmp . t s i z e ) ; a s s e r t ( nbuf <= tmp . nbuf+tmp . n s i z e ) ; a s s e r t ( i b u f <= tmp . i b u f+tmp . i s i z e ) ; } Mesh l e a v e s ; { Mesh & tmp = l e a v e s ; /∗ p o i n t e r o f f s e t s ∗/ tmp . n p o i n t s = t o t a l l e a v e s ; tmp . v s i z e = s i z e o f ( math : : V e c 3 t ) ∗4∗ t o t a l l e a v e s ; tmp . t s i z e = s i z e o f ( math : : V e c 2 t ) ∗4∗ t o t a l l e a v e s ; tmp . n s i z e = s i z e o f ( math : : V e c 3 t ) ∗4∗ t o t a l l e a v e s ; /∗ a l l o c a t e b u f f e r ∗/ tmp . b u f f e r = ( unsigned char ∗ ) m a l l o c ( tmp . v s i z e + tmp . t s i z e + tmp . n s i z e ) ; tmp . v b u f = ( math : : V e c 3 t ∗ ) tmp . b u f f e r ; tmp . t b u f = ( math : : V e c 2 t ∗ ) ( tmp . b u f f e r + tmp . v s i z e ) ; tmp . nbuf = ( math : : V e c 3 t ∗ ) ( tmp . b u f f e r + tmp . v s i z e + tmp . t s i z e ) ; math : : V e c 3 t ∗ v b u f = tmp . v b u f ; unsigned i n t ∗ i b u f = tmp . i b u f ; unsigned i n t o f f s e t = 0 ; math : : V e c 2 t ∗ t b u f = tmp . t b u f ; math : : V e c 3 t ∗ nbuf = tmp . nbuf ;

/∗ f i l l b u f f e r s r e c u r s i v e l y ∗/

t r u n k −> f i l l l e a f b u f f e r s (&vbuf , &i b u f , &o f f s e t , &t b u f , &nbuf ) ; a s s e r t ( v b u f <= tmp . v b u f+tmp . v s i z e ) ; a s s e r t ( t b u f <= tmp . t b u f+tmp . t s i z e ) ; a s s e r t ( nbuf <= tmp . nbuf+tmp . n s i z e ) ; a s s e r t ( i b u f <= tmp . i b u f+tmp . i s i z e ) ; } /∗ copy t o s h a r e d memory ( c r i t i c a l s e c t i o n ) ∗/ { /∗ b r a n c h e s ∗/ { b o o s t : : t r y m u t e x : : s c o p e d l o c k L1 ( b r a n c h e s . mutex ) ; f r e e ( b r a n c h e s . b u f f e r ) ; b r a n c h e s = b r a n c h e s ; }

(39)

/∗ l e a v e s ∗/ { b o o s t : : t r y m u t e x : : s c o p e d l o c k L2 ( l e a v e s . mutex ) ; f r e e ( l e a v e s . b u f f e r ) ; l e a v e s = l e a v e s ; } } } Listing B.2: stem.cpp

void Stem : : update ( const T r a n s f o r m a t i o n & a t r f ) { const i n t n c u r v e r e s = p a r −>nCurveRes [ l e v e l ] ; t r f = a t r f ; S e g m e n t p t r l a s t s e g m e n t = u p d a t e l a s t s e g m e n t ; S e g m e n t i t e r a t o r n e x t s e g m e n t = u p d a t e n e x t s e g m e n t ; l a s t s e g m e n t −>make ( t r f , l a s t s e g m e n t −> r a d i u s ) ; f o r ( i n t i =1; i <n c u r v e r e s ; ++i ) { T r a n s f o r m a t i o n t r f = s t e m d i r e c t i o n ( l a s t s e g m e n t −> t r f , i ) ; S e g m e n t p t r ps = ∗ n e x t s e g m e n t ++;

wind sway (& t r f , ps−> r a d i u s , Re al ( i ) / Re al ( n c u r v e r e s −1) , t r e e −> t i m e ) ; ps−>update ( t r f , ps−> r a d i u s ) ; typedef s t d : : v e c t o r <Stem ∗ > : : i t e r a t o r S t e m i t e r ; f o r ( S t e m i t e r j=ps−> s p a w n e d s u b s t e m s . b e g i n ( ) ; j != ps−> s p a w n e d s u b s t e m s . end ( ) ; ++j ) { Stem ∗ stem = ∗ j ; V e c 3 t s u b s t e m o r i g i n = t r f . g l o b a l o r i g i n + t r f . o r i e n t a t i o n ∗ V e c 3 t ( 0 , stem−> o f f s e t , 0 ) ; stem−>update ( T r a n s f o r m a t i o n ( t r f . o r i e n t a t i o n ∗ stem−> q u a t , math : : VEC3 ZERO, s u b s t e m o r i g i n ) ) ;

} typedef s t d : : v e c t o r <L e a f ∗ > : : i t e r a t o r L e a f i t e r ; f o r ( L e a f i t e r k=ps−> s p a w n e d l e a v e s . b e g i n ( ) ; k!= ps−> s p a w n e d l e a v e s . end ( ) ; ++k ) { L e a f ∗ l e a f = ∗k ; V e c 3 t l e a f o r i g i n = t r f . g l o b a l o r i g i n + t r f . o r i e n t a t i o n ∗ V e c 3 t ( 0 , l e a f −> o f f s e t , 0 ) ;

(40)

l e a f −>make ( T r a n s f o r m a t i o n ( l e a f −> q u a t ∗ t r f . o r i e n t a t i o n , math : : VEC3 ZERO, l e a f o r i g i n ) ) ;

}

l a s t s e g m e n t = ps ; }

}

B.2. Rendering

Listing B.3: mesh technique.cpp

void M e s h t e c h n i q u e : : d r a w b r a n c h e s ( const t r e e : : Mesh & b r a n c h e s ) { { l o c k t y p e L ( b r a n c h e s . mutex ) ; i f ( L . l o c k e d ( ) ) s t r e a m c o p y t o v b o ( b r a n c h e s ) ; } g l B i n d B u f f e r (GL ARRAY BUFFER, b r a n c h e s v b o [ 0 ] ) ; g l V e r t e x P o i n t e r ( 3 , GL FLOAT, 0 , 0 ) ; g l E n a b l e C l i e n t S t a t e (GL VERTEX ARRAY) ; g l B i n d B u f f e r (GL ARRAY BUFFER, b r a n c h e s v b o [ 0 ] ) ; g l T e x C o o r d P o i n t e r ( 2 , GL FLOAT, 0 , ( char ∗ ) b r a n c h e s p a s s . v s i z e ) ; g l E n a b l e C l i e n t S t a t e (GL TEXTURE COORD ARRAY) ;

g l B i n d B u f f e r (GL ARRAY BUFFER, b r a n c h e s v b o [ 0 ] ) ;

g l N o r m a l P o i n t e r (GL FLOAT, 0 , ( char ∗ ) b r a n c h e s p a s s . v s i z e+ b r a n c h e s p a s s . t s i z e ) ;

g l E n a b l e C l i e n t S t a t e (GL NORMAL ARRAY) ;

g l B i n d B u f f e r (GL ELEMENT ARRAY BUFFER, b r a n c h e s v b o [ 1 ] ) ; g l E n a b l e C l i e n t S t a t e (GL INDEX ARRAY) ;

glDrawElements (GL TRIANGLES, b r a n c h e s p a s s . n p o i n t s ∗ 6 , GL UNSIGNED INT , 0 ) ;

g l D i s a b l e C l i e n t S t a t e (GL VERTEX ARRAY) ; g l D i s a b l e C l i e n t S t a t e (GL INDEX ARRAY) ;

g l D i s a b l e C l i e n t S t a t e (GL TEXTURE COORD ARRAY) ; g l D i s a b l e C l i e n t S t a t e (GL NORMAL ARRAY) ;

}

void M e s h t e c h n i q u e : : s t r e a m c o p y t o v b o ( const t r e e : : Mesh & b r a n c h e s ) {

(41)

b r a n c h e s p a s s . n p o i n t s = b r a n c h e s . n p o i n t s ; b r a n c h e s p a s s . v s i z e = b r a n c h e s . v s i z e ; b r a n c h e s p a s s . t s i z e = b r a n c h e s . t s i z e ;

g l B i n d B u f f e r (GL ARRAY BUFFER, b r a n c h e s v b o [ 0 ] ) ;

g l B u f f e r D a t a (GL ARRAY BUFFER, b r a n c h e s . v s i z e + b r a n c h e s . t s i z e + b r a n c h e s . n s i z e , NULL, GL STREAM DRAW) ;

GLvoid ∗ v b u f = g l M a p B u f f e r (GL ARRAY BUFFER, GL WRITE ONLY) ; g l B i n d B u f f e r (GL ELEMENT ARRAY BUFFER, b r a n c h e s v b o [ 1 ] ) ; g l B u f f e r D a t a (GL ELEMENT ARRAY BUFFER, b r a n c h e s . i s i z e , NULL,

GL STREAM DRAW) ;

GLvoid ∗ i b u f = g l M a p B u f f e r (GL ELEMENT ARRAY BUFFER, GL WRITE ONLY) ;

/∗ s a n i t y c h e c k ( v b u f != NULL && i b u f != NULL) ∗/

memcpy ( vbuf , b r a n c h e s . b u f f e r , b r a n c h e s . v s i z e + b r a n c h e s . t s i z e + b r a n c h e s . n s i z e ) ;

memcpy ( i b u f , b r a n c h e s . i b u f , b r a n c h e s . i s i z e ) ; g l B i n d B u f f e r (GL ARRAY BUFFER, b r a n c h e s v b o [ 0 ] ) ; GLboolean v s t a t u s = glUnmapBuffer (GL ARRAY BUFFER) ; g l B i n d B u f f e r (GL ELEMENT ARRAY BUFFER, b r a n c h e s v b o [ 1 ] ) ; GLboolean i s t a t u s = glUnmapBuffer (GL ELEMENT ARRAY BUFFER) ;

/∗ s a n i t y c h e c k ( v s t a t u s == GL TRUE && i s t a t u s == GL TRUE) ∗/