Segmentering och klassificering av LiDAR-data

(1)

Institutionen för systemteknik

Department of Electrical Engineering

Examensarbete

Segmentering och klassificering av LiDAR-data

Examensarbete utfört i Reglerteknik vid Tekniska högskolan i Linköping

av

Jonas Landgård

LITH-ISY-EX--05/3729--SE

Linköping 2005

Department of Electrical Engineering Linköpings tekniska högskola

Linköpings universitet Linköpings universitet

(2)

(3)

Segmentering och klassificering av LiDAR-data

Examensarbete utfört i Reglerteknik

vid Tekniska högskolan i Linköping

av

Jonas Landgård

LITH-ISY-EX--05/3729--SE

Handledare: Christina Grönwall

ISY, Linköpigs universitet

Ulf Söderman

FOI

Examinator: Fredrik Gustavsson

ISY, Linköpigs universitet

(4)

(5)

Avdelning, Institution

Division, Department

Division of Automatic Control Department of Electrical Engineering Linköpings universitet S-581 83 Linköping, Sweden Datum Date 2005-18-11 Språk Language Svenska/Swedish Engelska/English Rapporttyp Report category Licentiatavhandling Examensarbete C-uppsats D-uppsats Övrig rapport

URL för elektronisk version

http://www.control.isy.liu.se http://www.ep.liu.se/2005/3729 ISBN — ISRN LITH-ISY-EX--05/3729--SE

Serietitel och serienummer

Title of series, numbering

ISSN

—

Titel

Title

Segmentering och klassificering av LiDAR-data Segmentation and Classification of LiDAR-data

Författare

Author

Jonas Landgård

Sammanfattning

Abstract

With numerous applications in both military and civilian life, the demand for accurate 3D models of real world environments increases rapidly. Using an airborne laser scanner for the raw data acquisition and robust methods for data processing, the researchers at the Swedish Defence Research Agency (FOI) in Linköping hope to fully automate the modeling process.

The work of this thesis has mainly been focused on three areas: ground

esti-mation, image segmentation and classification. Procedures have in each of these

areas been developed, leading to a new algorithm for ground estimation, a number of segmentation methods as well as a full comparison of various decision values for an object based classification.

The ground estimation algorithm developed has yielded good results compared to the method based on active contours previously elaborated at FOI. The compu-tational effort needed by the new method has been greatly reduced compared to the former, as performance, particularly in urban areas, has been improved. The segmentation methods introduced have shown promising results in separating dif-ferent types of objects. A new set of decision values and descriptors for the object based classifier has been suggested, which, according to tests, prove to be more efficient than the set p reviously used.

Nyckelord

Keywords LiDAR, Laser Radar, Segmentation, Classification, Ground Estimation, Local Ori-entation, Watershed Segmentation

(6)

(7)

Abstract

With numerous applications in both military and civilian life, the demand for accurate 3D models of real world environments increases rapidly. Using an airborne laser scanner for the raw data acquisition and robust methods for data processing, the researchers at the Swedish Defence Research Agency (FOI) in Linköping hope to fully automate the modeling process.

The work of this thesis has mainly been focused on three areas: ground

estimation, image segmentation and classification. Procedures have in each

of these areas been developed, leading to a new algorithm for ground esti-mation, a number of segmentation methods as well as a full comparison of various decision values for an object based classification.

The ground estimation algorithm developed has yielded good results com-pared to the method based on active contours previously elaborated at FOI. The computational effort needed by the new method has been greatly re-duced compared to the former, as performance, particularly in urban areas, has been improved. The segmentation methods introduced have shown pro-mising results in separating different types of objects. A new set of decision values and descriptors for the object based classifier has been suggested, which, according to tests, prove to be more efficient than the set p reviously used.

(8)

(9)

Sammanfattning

Med många tillämpningar både inom det civila och militära, ökar efter-frågan på noggranna och korrekta omvärldesmodeller snabbt. Forskare på FOI, Totalförsvarets Forskningsinstitut, arbetar med att fullt ut kunna au-tomatisera den process som genererar dessa tredimensionella modeller av verkliga miljöer. En luftburen laserradar används för datainsamlingen och robusta metoder är under ständig utveckling för den efterföljande databe-handlingen.

Arbetet som presenteras i denna rapport kan delas in i tre huvudområden:

skattning av markyta, segmentering av data samt klassificering. Metoder

in-om varje in-område har utvecklats vilket lett fram till en ny algoritm för mar-kestimering, en rad metoder för segmentering samt en noggrann jämförelse av olika beslutsvärden för en objektbaserad klassificering.

Markskattningsalgoritmen har visat sig vara effektiv i jämförelse med en metod baserad på aktiva konturer som sedan tidigare utvecklats på FOI. Beräkningsbördan för den nya metoden är endast en bråkdel av den förra, samtidigt som prestandan, särskilt i urbana miljöer, har kunnat förbättras. De segmenteringsmetoder som introducerats har visat på lovande resultat vad gäller möjligheten att särskilja olika typer av objekt. Slutligen har en ny uppsättning deskriptorer och beslutsvärden till den objektbaserade klas-sificeraren föreslagits. Den har enligt de tester som presenteras i rapporten visats sig vara mer effektiv än den uppsättning som använts fram till idag.

(10)

(11)

Tack

Jag vill börja med att tacka min handledare Ulf Söderman och FOI för att de givit mig möjligheten och resurserna för att genomföra mitt examensarbete. Vidare hade jag inte kommit långt utan de många diskussionerna jag haft med Gustav Tolt och Åsa Persson, ett stort tack till er. Min handledare vid Linköpings universitet, Christina Grönwall, tackas för att ha varit en stor tillgång under rapportskrivande och planering. Slutligen vill jag tacka mina medarbetare Magnus Elmqvist och Simon Ahlberg för att de delat med sig av sitt kunnande och min examinator Fredrik Gustavsson.

(12)

(13)

Innehåll

1 Inledning 1 1.1 Bakgrund . . . 1 1.2 Mål . . . 1 1.3 Disposition . . . 2 2 Insamling av laserdata 3 2.1 Bakgrund . . . 3 2.2 Skanning av höjddata . . . 3 3 Teori 5 3.1 Introduktion . . . 5 3.2 Derivatorer . . . 6 3.2.1 Gradient . . . 6 3.2.2 Laplacian . . . 6 3.3 Morfologiska operationer . . . 7

3.3.1 Öppning och slutning . . . 7

3.3.2 Avståndskarta . . . 8 3.4 Lokal Orientering . . . 8 3.4.1 Dubblavinkelrepresentation . . . 9 3.4.2 Rotationssymmetrier . . . 10 3.5 Lokal frekvens . . . 11 3.6 Segmenteringsmetoder . . . 12 3.6.1 Watershedsegmentering . . . 12 3.6.2 Region growing-segmentering . . . 13 4 Utvecklade metoder 17 4.1 Inledning . . . 17 4.2 Markestimering . . . 17

4.2.1 Markestimering med aktiva konturer . . . 18

4.2.2 Markestimering baserad på region growning-segmentering . . . 19

4.2.3 Ytterligare filtrering . . . 22 xi

(14)

xii Innehåll

4.3 Segmentering . . . 23

4.3.1 Segmentering baserad på höjdskillnad . . . 24

4.3.2 Segmentering baserad på geometri . . . 27

4.3.3 Segmentering baserad på lokal orientering . . . 29

4.4 Egenskapsextraktion . . . 31

4.4.1 Permeabilitet . . . 34

4.4.2 Plana strukturer i objektytan . . . 37

4.4.3 Linjära strukturer i objektkanten . . . 37

5 Resultat 39 5.1 Inledning . . . 39 5.2 Markestimering . . . 40 5.2.1 Resultat . . . 40 5.2.2 För- och nackdelar . . . 44 5.3 Segmentering . . . 44 5.3.1 Watershedsegmentering av gradientbilden . . . 45

5.3.2 Segmentering baserad på geometri . . . 45

5.3.3 Segmentering baserad på lokal orientering . . . 47

5.4 Egenskapsextraktion . . . 49

5.4.1 Permeabilitet . . . 50

5.4.2 Plana strukturer i objektytan . . . 55

5.4.3 Linjära strukturer i objektkanten . . . 55

6 Diskusion 59

7 Slutsater 61

(15)

Figurer

2.1 Dataskanning och multipla ekon. . . 4

3.1 Sobeloperatorn i x- respektive y-led. . . 6

3.2 Laplaceoperatorn för en 3 × 3 omgivning. . . 7

3.3 Exempel på krympning och växning. . . 8

3.4 Exempel på avståndskarta av ett objekt. . . 9

3.5 Lokal orientering med dubblavinkelrepresentation. . . 9

3.6 Exempel på lokal orientering. . . 10

3.7 Lokal frekvens: exempel på två lognormfilter. . . 11

3.8 Resultat av uppskattning av lokal frekvens. . . 12

3.9 Watershedsegmentering i 1D. . . 13

3.10 Resultat av watershedsegmentering av gradientbild. . . 14

4.1 Ytmodel, marktmodell och normaliserad ytmodell. . . 18

4.2 Flödesdiagram för markestimering. . . 21

4.3 Vinkelrestriktionen vid marksegmentering . . . 22

4.4 Roberts operator. . . 24

4.5 Geodesisk transform. . . 25

4.6 Exempel på segmentering baserad på höjdskillnad. . . 28

4.7 Flödesdiagram för segmentering baserad på geometri och höjd. 29 4.8 Kontur av byggnad med intilliggande träd. . . 30

4.9 Topografisk representation av avståndskarta. . . 30

4.10 Flödesdiagram för segmentering med lokal orientering. . . 32

4.11 Exempel på segmentering med lokal orientering. . . 33

4.12 Jämförelse av olika deskriptorer för täthet. . . 36

5.1 Testområden för markestimering. . . 40

5.2 Resultat av markskattning av ett skogsområde. . . 41

5.3 Tvärnsitt av markskattning i skogsområde. . . 42

5.4 NDSM:er av stadsmiljö enligt respektive markskattningsmetod. 43 5.5 Tvärsnitt av markskattning i stadsmiljö. . . 43

5.6 Storstadsmiljö och fröområden för segmentering. . . 46

5.7 Resultat av watershedsegmentering av geodesisk transform. . 46 xiii

(16)

5.8 Ett bostadsområde nära vattentornet i Linköping. . . 47

5.9 Resultat av watershedsegmentering av geodesisk transform. . 48

5.10 Resultat av geometrisegmentering. . . 48

5.11 Resultat av segmentering baserad på lokal orientering. . . 50

5.12 Testområde för egenskapsextraktion. . . 51

5.13 Resultat av beslutsvärden för permeabilitet. . . 53

5.14 Resultat av alternativa beslutsvärden. . . 54

5.15 Resultat av beslutsvärden till lokal orientering. . . 56

5.16 Resultat av beslutsvärden för permeabilitet och lokal orien-tering. . . 57

5.17 Resultat av beslutsvärden för maximum slope mot Houghvärde. 58 6.1 Uppskattning av trädbetäckt yta i ett skogsområde. . . 60

(17)

1

Inledning

1.1 Bakgrund

Efterfrågan på högt upplösta omvärldsmodeller blir idag allt större. Tillämp-ningarna är många, både civilt och inom försvaret. På institutionen för la-sersystem på FOI i Linköping pågår arbetet med att ta fram metoder för att automatiskt skapa sådana 3D-modeller med hjälp av data från högupplöst flygburen laserradar, vanligen kallad LiDAR (Light Detection and Ranging). Dessa modeller kan sedan användas för militära ändamål som till exempel ruttplanering och träning av soldater i en virtuell miljö eller för civilt bruk som vid planering av väg- och järnvägsnät, katastrofsimulering och stads-planering. Arbetet som utförts på FOI fram till idag kan sammanfattas av: estimering av markytmodeller, lokalisering och modellering av byggna-der samt trädigenkänning. Den sistnämnda innefattar även artbestämning (lövträd eller barrträd), uppskattning av position och kronstorlek. Liknande projekt pågår på andra platser i Europa och världen med det gemensamma målet att fullt kunna automatisera den process som genererar omvärldsmo-dellen. Mycket arbete har lagts ner för att åstadkomma detta, men mycket återstår. Med bättre och robustare algoritmer och med högre upplösning på laserdatan skapas möjligheter för att detta snart ska kunna ske.

1.2 Mål

Dagens metoder för segmentering och klassificering av data från flygburen laser görs vanligtvis i flera steg. Det i särklass vanligaste tillvägagångssättet bygger på att först göra en uppskattning av markytan, en så kallad mark-modell eller DTM (Digital Terrain Model), vilken man sedan utnyttjar vid klassificering av objekt, såsom vegetation och byggnader. Det största pro-blem denna metod möter är att estimeringen av markmodellen blir kritisk;

(18)

2 Inledning

en felaktig markmodell resulterar i en felaktig klassificering.

Att det idag, trots flera internationella forskningsprojekt på området, inte existerar en tillfredsställande beräkningsmodell för markestimering ifråga-sätter det ovan beskrivna tillvägagångssättet. Frågan som ställs är om det inte borde gå att utnyttja information om objekt och strukturer i laser-datan i ett tidigare skede. Om markestimeringen kan vävas samman med segmenteringen och på så vis bli mer »intelligent« skulle en säkrare skatt-ning kunna erhållas. En sådan metod skulle eventuellt, genom att i större utsträckning utnyttja informationen i bilden, kunna bli mycket stabilare än dagens metoder, men kraven på en korrekt segmentering av datat blir samtidigt högre.

Syftet med det här examensarbetet är att utveckla och jämföra nya al-ternativa metoder för markestimering, segmentering och klassificering samt att jämföra dessa med befintliga algoritmer. Målet är inte att presentera en allomfattande lösning till hela klassificeringsprocessen, utan snarare en verktygslåda att använda vid fortsatt arbete.

1.3 Disposition

Denna rapport är indelad i sju kapitel där det första (detta) ämnar ge en introduktion till ämnet. Kapitel 2 beskriver insamlingen av rådata samt de system som används i samband med denna. Kapitel 3 ägnas åt grund-läggande bildbehandlingsteori och beskrivning av vanliga bildbehandlings-verktyg. Detta kapitel kan med fördel hoppas över eller skummas igenom av läsare som redan är förtrogna med bildbehandling och analys av bilder. Vidare presenteras i kapitel 4 egenutvecklade metoder för markestimering, segmentering och klassificering. I kapitel 5 ges resultat av en rad tester på metoderna. Framtida utvecklingsmöjligheter diskuteras i kapitel 6 och slutsatser presenteras i kapitel 7.

(19)

2

Insamling av laserdata

2.1 Bakgrund

De första experimenten med laserradar genomfördes i början av 1970-talet och har genom åren lett fram till dagens högprecisionssystem. Högfrekvent laser skjuts mot en punkt på marken och tiden för laserekot att återvända mäts. Med vetskap om sensorns position i rummet och med kännedomen att ljusets hastighet är konstant i alla system kan positionen för den av laserstrålen träffade ytan räknas fram med enkel geometri.

2.2 Skanning av höjddata

Top-Eye1 _{är ett Göteborgsbaserat företag som har specialiserat sig på att} samla in topografiska data och har anlitats för att samla in de data som använts till det här examensarbetet. För att samla in höjddatat används en på en helikopter monterad LiDAR-skanner. Helikoptern flygs på 60-900 meters höjd samtidigt som marken skannas av lasern, antingen i ett sicksack-mönster eller som i nyare system i eliptiska spiralbanor (se figur 2.1).

Datat som har använts i det här examensarbetet kommer från det tidigare systemet och har en punkttäthet på omkring 16 punkter/m2_.

För att bestämma helikopterns exakta position och dess lutning i för-hållande till markytan är den utrustad med en GPS (Global Positioning System) samt en INS (Inertial Navigator System). Med hjälp av dessa kan positionen för laseravtrycket bestämmas med en noggrannhet på cirka 10 cm i varje riktning; ostlig, nordlig och i höjdled.

Systemet klarar även att lagra andra typer av data. Dels kan intensi-teten på den reflekterade laserpulsen mätas och dels kan mer än ett eko

1_{URL: www.topeye.com}

(20)

4 Insamling av laserdata

FIGUR 2.1: Vänster: I TopEyes system läser en helikoptermonterad laser av

markytan i ett sicksack-mönster. Höger: Till vänster i bilden illustreras uppkoms-ten av multipla ekon. En enskild laserstråle penetrerar här delvis trädkronan och ekon återvänder från både marken och lövverket. I bildens högra del visas ett exempel på hur multipla svar kan uppkomma. Här har tre laserstrålar, på grund av husväggens vertikala utbredning, reflekterats på olika höjd men i samma ko-ordinat.

per puls detekteras. Så kallade multipla ekon uppstår då laserstrålen, på grund av att laseravtrycket ej är punktformigt, reflekteras i flera områden på olika höjd. Detta kan till exempel uppstå i kanter på byggnader eller då strålen delvis penetrerar en trädkrona. Multipla svar uppkommer då laserstrålen reflekteras på olika höjd men i samma koordinat. En illustra-tion över uppkomsten av multipla ekon och multipla svar kan ses i figur 2.1. För närvarande detekteras enbart det första och sista ekot i varje punkt, men metoder för att detektera samtliga ekon i en återvändande laserpuls är under utveckling.

Rådatat som levereras från systemet består av en lista med koordina-ter med tillhörande höjdvärde. Efkoordina-tersom datat inte är regelbundet samplat är det praktiskt att först göra en omsampling till ett regelbundet rutnät, vad som vanligen brukar ses som en digital bild. Detta görs för att under-lätta utveckling och implementation av de bildbehandlingsalgoritmer som används vid analysen av höjddatat.

Utöver laserskannern är TopEyes helikopter utrustad med en högupplöst digitalkamera. Informationen som bilderna från kameran ger skulle kunna komma till nytta i det fortsatta klassificerings- och segmenteringsarbetet. För att bilderna ska kunna komma till användning krävs att de först

ortorek-tifieras, det vill säga transformeras från perspektiv- till ortogonalprojektion.

Detta är nödvändigt då bilderna är tagna på en ändlig höjd över marken. I detta examensarbete kommer dock enbart laserdata att beaktas.

(21)

3

Teori

3.1 Introduktion

I detta avsnitt behandlas den teori som ligger till grund för de metoder som beskrivs i kommande kapitel. Läsaren förväntas ha grundläggande kunska-per inom signalbehandling. Den som sedan tidigare har erfarenheter av bildbehandling och bildanalys kan med fördel snabbt skumma igenom det-ta kapitel. För ytterligare information om grundläggande tvådimensionell signalbehandling hänvisas läsaren till exempelvis [Dan03] eller [HS92]. På nätet finns [FPWW94] som är en referensdatabas för bildbehandling där de flesta av de metoder som här beskrivs finns utförligt förklarade.

En digital bild är i sin enklaste form en signal i två dimensioner som kan representeras av en funktion f : Z2 → R∞_{, där f (x, y) är bildens} gråskalevärde i punkten x, y. Denna beteckning är den samma genom hela rapporten om inte annat anges.

Inom bildbehandlingen analyseras ofta bilder genom att de filtreras i en lokal omgivning, som generellt sett består av ett symmetriskt område om a × a pixlar. I princip innebär detta att förhållandet mellan en aktuell pixel i centrum av en lokal omgivning och närliggande pixlar innefattade i omgivningen analyseras. Linjär filtrering kan utföras i både spatial- och frekvensdomänen och innefattar främst olika typer av hög-, låg-, och band-passfiltreringar. De flesta bildanalysproblem är dock svåra att lösa utan icke-linjär filtrering som inte går att beskriva som en linjärt viktad summa av ingångspixlarna och därmed heller inte går att utföra i frekvensdomänen. En vanlig icke-linjär filtreringsmetod är medianfiltrering som producerar medianen av en omgivning.

(22)

6 Teori

3.2 Derivatorer

Deriveringsoperatorer är lämpliga för att beskriva lokala variationer i en bild och kommer till användning vid bland annat kantdetektering och estimering av lokal orientering som beskrivs senare i detta kapitel. För en utförlig beskrivning av derivata av samplade signaler, se [Dan03].

3.2.1 Gradient

Gradienten ¯g(x, y) till en funktion f (x, y) definieras som bekant:

¯ g(x, y) = ∂f ∂x , ∂f ∂y T . (3.1)

Den partiella derivtan i x- respektive y-led approximeras ofta genom falt-ning med den så kallade Sobeloperatorn som består av två faltfalt-ningsfönster med storleken 3 × 3, vilka visas i figur 3.1. Tvådimensionell faltning är en utvidgning av endimensionell faltning och definieras som:

(f ∗ g)(x, y) = ∞ Z −∞ ∞ Z −∞ f (x − α, y − β) · g(α, β)dαdβ. (3.2)

I många fall är enbart beloppet på gradienten intressant, men vid es-timering av lokal orientering, som presenteras längre ned, är det främst riktningen θ = arctan ∂f ∂y/ ∂f ∂x (3.3) på gradienten som är av intresse.

gx=   −1 0 1 −2 0 2 −1 0 1  , gy=   1 2 1 0 0 0 −1 −2 −1  

FIGUR3.1:Sobeloperatorn i x- respektive y-led.

3.2.2 Laplacian

Laplacianen till en tvådimensionell funktion f (x, y) definieras: ∇2_{f (x, y) =} ∂

2_f ∂x2 +

∂2f

(23)

3.3 Morfologiska operationer 7

En approximation av ekvation 3.4 kan ske genom faltning med Laplaceo-peratorn, som betecknar faltningsfönstret i figur 3.2 och ger ett approxima-tivt mått på andraderivatan i en lokal omgivning. Faltning med Laplaceo-peratorn används främst för att detektera områden med snabba skiftningar i intensitet, eller som i detta examensarbete, avstånd.

  0 −1 0 −1 4 −1 0 −1 0  

FIGUR3.2:Laplaceoperatorn för en 3 × 3 omgivning.

3.3 Morfologiska operationer

För att kunna säga något om ett objekt eller område i en bild som önskas analyseras krävs att man förr eller senare isolerar det från dess omgivning. Detta sker vanligtvis med någon form av tröskelsättning. Exempelvis inne-bär konventionell tröskling att alla pixlar i inbilden som har ett värde över en viss tröskel sätts till ett, medan resterande pixlar nollställs. På grund av onoggrannheter i inbilden blir resultatet av tröskelsättningen sällan det önskade. Binärt brus i form av hål i objekten och små ettställda områden utanför objekten kan bildas, vilket kräver viss efterbehandling.

3.3.1 Öppning och slutning

De morfologiska operationerna öppning och slutning avser eliminera det binära brus som ofta uppstår till följd av en tröskelsättning. Öppning och slutning bygger i sin tur på växning (eng. expansion) och krympning (eng. dilation, erosion).

Växning innebär att en region av intilliggande pixlar i en binär bild försto-ras. En kärna eller strukturelement, som typiskt består av ett kvadratiskt område där varje element ges värdet ett eller noll, avgör hur växningen kom-mer att ske. Kärnans centrum placeras i varje ettställd pixel i inbilden och alla pixlar som täcks av kärnan sätts till ett i resultatbilden. Krympning fungerar på liknande sätt: en kärna placeras i varje ettställd pixel, men en-bart om alla pixlar som täcks av kärnan är ettställda ettställs den aktuella pixeln i resultatbilden. Ett exempel på hur krympning och växning fungerar syns i figur 3.3.

Vanligtvis används växning och krympning i kombination och kallas då öppning och slutning. Öppning åstadkoms med en krympning följt av en växning. Detta resulterar i att små fragment och tunna linjer elimineras.

(24)

8 Teori

FIGUR 3.3: Exempel på krympning och växning där ⊕ och

represente-rar expansions- respektive krympningsoperatorn och punkten indikerepresente-rar origo för strukturelementet. Observera att en expansion följt av en krympning inte åter-ställer ursprungsobjektet.

Slutning i sin tur används för att fylla hål i objekt och åstadkoms genom en växning följt av en krympning. Dessa operationer har en relativt liten effekt på stora objekt, men är effektiva för att eliminera binärt brus.

3.3.2 Avståndskarta

En avståndskarta är resultatet till en avståndstransformation av en bi-när bild. Varje objektpixel tilldelas i resultatbilden ett värde motsvarande närmsta avståndet från den aktuella pixeln till bakgrunden. I den slutgilti-ga avståndskartan har då varje objektpixel ett värde mellan 1 och objektets maximala radie, medan samtliga bakgrundspixlar har värdet 0. Ett exempel på avståndstransform av ett objekt kan ses i figur 3.4.

Användningsområdena för avståndskartor är många. Mittpunkter till objekt kan identifieras som lokala maxima till avståndskartan och kanterna till objekt kan erhållas som alla ettställda pixlar i avståndskartan. Längre fram i rapporten presenteras även en metod för att separera objekt med hjälp av avståndstransformation.

3.4 Lokal Orientering

Orienteringen i en punkt definieras som den riktning i vilken gradienten till punkten pekar, eller med andra ord, i den riktning signalen varierar mest. Lokal orientering kan till exempel användas för att beskriva strukturer i en bild, se rotationssymmetrier nedan, eller homogena ytor där gradientbilden själv inte ger tillräcklig information.

(25)

3.4 Lokal Orientering 9 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 00 0 0 00 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 3 3 3 3 3 3 3 3 3 3 3 3 3 4 4 4 4 4 4 3

FIGUR 3.4: Exempel på avståndskartering av ett objekt. Pixlar i bakgrunden

sätts till 0 medan pixlar i objektet får ett värde motsvarande närmaste avståndet till bakgrunden.

3.4.1 Dubblavinkelrepresentation

En första ansats för att representera lokal orientering är att i varje punkt räkna ut den vinkel i vilken gradienten pekar. Ett diskontinuitetsproblem uppstår då eftersom denna vinkelrepresentation är cyklisk med 2π. En gradientriktning med vinkel θ är ju den samma som θ + 2π och en diskonti-nuitet fås vid övergången 2π − 0. För att undvika diskontidiskonti-nuitetsproblemet krävs en cirkulär deskriptor. En sådan är representation med dubblavinkel [GK95] som definieras som det komplexa talet z = cei2θ, där θ är vinkeln på den lokala orienteringen. En illustration av z som deskriptor för lokal orientering syns i figur 3.5

z

FIGUR 3.5: Representation av lokal orientering med dubblavinkeln i form av

ett komplext talz . Strecken utanför cirkeln illustrerar den typ av struktur som motsvarande talzbeskriver. Se vidare figur 3.6

(26)

10 Teori

Denna representation har fördelen att ge samma deskriptor oavsett om den lokala orienteringen ges av vinkeln θ eller θ + π. Dessutom avbildas två maximalt olika orienteringar (som skiljer sig åt med π/2 radianer i orientering) på maximalt olika deskriptorer (z och −z) vilket tidigare inte var fallet. Som resultat fås en deskriptor som även är medelvärdesbildbar. Till sist kan även normen av z, det vill säga c, låtas beskriva säkerheten i orienteringen. En lokal orientering kan estimeras även i områden där signalen är närmast konstant med endast små variationer i form av brus, som till exempel är fallet i plana hustak. Eftersom det i dessa fall enbart är bruset i bilden som avgör den uppskattade orienteringen är det intressant att införa ett mått på säkerheten i uppskattningen. I områden där signalen varierar långsamt blir säkerheten lägre, som till exempel i fallet med de plana hustaken. Vanligen väljs beloppet av gradienten som säkerhetsmått.

-5 -2.5 0 2.5 5

-2.5 2.5

FIGUR3.6:Funktionenf (x, y) = sin(r2₎_{, där}_{r =}_px2_{+ y}2_{med motsvarande}

lokal orientering enligt dubblavinkelrepresentationen överlagrad. Orienteringen beskrivs med denna representation i varje punkt av ett komplext tal som här illustreras med ett vektorfält (realdelen längs abskissan och imaginärdelen längs ordinatan).

3.4.2 Rotationssymmetrier

Rotationssymmetrier är ett kraftfullt verktyg för objektidentifiering. Teorin om rotationssymmetrier beskrivs utförligt i [GK95] och bygger på att vissa objekt kan beskrivas utifrån hur den lokala orienteringen varierar över

(27)

ob-3.5 Lokal frekvens 11

jektet. Som exempel kan nämnas att träd oftast har en orienteringsriktning in mot dess centrum, om detta kan antas vara positionen för trädets högsta punkt. En modell eller rotationssymmetri för detektering av ett träd skulle med dubbla vinkelrepresentationen se ut som vektorfältet i figur 3.6. Om orienteringsfältet beskrivs av komplexa tal identifieras strukturer i bilden liknande den för modellen av objektet, genom att falta med komplexkonju-gatet till motsvarande rotationssymmetri.

3.5 Lokal frekvens

Teorin om lokal frekvens beskrivs utförligt i [GK95] och kommer här endast att behandlas ytligt. Information om frekvensen är ett viktigt redskap vid analys av lokala strukturer, exempelvis vid texturanalys.

Kortfattat kan den lokala frekvensen i en bild uppskattas genom kvoten av två så kallade lognormfilter. Dessa bandpassfilter definieras i Fourierdo-mänen som:

Ri(ρ) = e−

ln2(ρ ρi)

2·ln 2 , (3.5)

där ρ är normen av frekvensvektorn och ρifiltrets centrumfrekvens. Van-ligen väljs ρi+1= 2 · ρi, som illustreras i figur 3.7.

0 2,5 5 0,5 1 ρ 1 R 2 R ρ 2 ρ 1

FIGUR 3.7: Exempel på två lognormfilter med centrumfrekvenserρ1 = 1

re-spektiveρ2= 2.

Den lokala frekvensen ρ kan sedan uppskattas enligt: ρ = ρ(ij)

qj qi

(28)

12 Teori

där ρ(ij)=√ρiρj och qi och qj svaren från filter Ri respektive Rj.

FIGUR 3.8: Exempel på lokal frekvens. Vänster: funktionenf (x, y) = sin(r2), därr =px2_{+ y}2_._{Med origo i bildens centrum. Höger: Estimerad lokal frekvens,}

där svart indikerar låg och vitt indikerar hög frekvens.

För att beräkna lokal frekvens på höjdmodellen krävs att denna först interpoleras om det finns områden med saknade data. Beräkningen förut-sätter ju att Fouriertransformen kan appliceras på höjddatat, vilket annars inte är möjligt.

3.6 Segmenteringsmetoder

För att kunna klassificera objekten i en bild är det vanligt att dessa först isoleras från varandra och från bakgrunden. Ett vanligt förfarande är att först dela upp bilden i mindre regioner utifrån förutbestämda regler, vilket kallas segmentering. En väl utförd segmentering, där varje segment enbart innehåller ett objekt är viktig för att efterkommande klassificeringen skall bli korrekt. Här ges en kortare introduktion till två segmenteringsmetoder som ligger till grund för de metoder som presenteras i nästkommande kapitel.

3.6.1 Watershedsegmentering

Denna segmenteringsmetod lämpar sig kanske allra bäst för topografiska bilder eftersom den tolkar gråskalevärdena i en bild som höjddata. Waters-hedalgoritmen beskrivs enklast genom att man i varje punkt i bilden släpper en vattendroppe som sedan kommer att rinna mot ett lokalt minimum. Al-la pixAl-lar vars vattendroppar slutar i samma punkt bildar ett segment. Ett

(29)

3.6 Segmenteringsmetoder 13

illustrerande exempel i en dimension kan ses i figur 3.9. Watershedsegmente-ring leder lätt till översegmenteWatershedsegmente-ring, speciellt om ursprungsbilden innehåller brus, eftersom varje litet lokalt minimum då ger upphov till ett segment. Inbilden bör således lågpassfiltreras innan segmenteringen sker.

Segment 1 Segment 2

FIGUR 3.9: Endimensionellt exempel på watershedsegmentering. Observera

hur det lokala maximat utgör en gräns mellan segmenten.

Watershedsegmentering behöver nödvändigtvis inte användas på höjdda-ta uhöjdda-tan kan även ge goda resulhöjdda-tat med andra former av indahöjdda-ta. Exempelvis kan gradientbilder effektivt segmenteras eftersom objekt över marknivå i gradientbilden kan efterliknas en bassäng som då lätt fylls av watershedal-goritmen. Ett exempel på detta kan ses i figur 3.10 där en gradientbild watershedsegmenteras. För en utförligare beskrivning av watershedalgorit-men och dess implewatershedalgorit-mentation hänvisas läsaren till [Beu92].

3.6.2 Region growing-segmentering

Metoden bygger på att förena pixlar med liknande egenskaper till samman-hängande segment. Föreningen kan ske utifrån pixlarnas gråskalevärde, men också från annan typ av information, så som till pixlarna associerade vektorer, för att ge ett exempel.

Utgångspunkten är så kallade fröpunkter eller fröområden som valts med lämplig metod. Från en fröpunkt kontrolleras vilka intilliggande pixlar som har egenskaper som faller inom de gränser som satts upp. Dessa pixlar läggs till segmentet och sökande fortgår tills inga av segmentets grannpixlar

(30)

14 Teori

FIGUR3.10:Överst: Beloppet av gradienten till ett område med låga hus med närliggande träd. Byggnaderna framträder som rektangulära bassänger. Ne-derst: resultatet av watershedsegmentering på bilden ovan. Varje färg repre-senterar ett segment. Notera hur byggnaderna bildat stora segment till skillnad från de flesta träden.

(31)

3.6 Segmenteringsmetoder 15

uppfyller kravet. Det största problemet med denna segmenteringsmetod är att hitta lämpliga fröpunkter.

Vektorklustring

Ett vektorfält kan till exempel beskriva den lokala orienteringen eller olika frekvenskomponenter i varje punkt i en bild. Denna information kan ibland vara önskvärd att använda vid segmentering av en bild. Utgångspunkten är enligt ovan från en fröpunkt. Skalärmultiplicerars den till fröpunkten hörande vektorn med inttilligande vektorer fås ett mått på hur likriktade vektorerna i omgivningen runt fröpunkten är med frövektorn. Alla grann-vektorer som är tillräckligt likriktade med frövektorn läggs till segmentet varefter förfarandet itereras på samma sätt som ovan. Denna klustrings-metod kräver ett normerat fält och fungerar bra även i högre dimensioner, men är relativt bruskänslig.

(32)

(33)

4

Utvecklade metoder

4.1 Inledning

Detta kapitel är indelat i tre avsnitt: markestimering, segmentering och egenskapsextraktion. Ett alternativ till den markestimeringsalgoritm som idag används på FOI har utvecklats och avser väva samman segmentering och markskattning. Vidare presenteras en rad nya segmenteringsalgorit-mer för att i större utsträckning kunna särskilja objekten från varandra. Slutligen har objektspecifika egenskaper identifierats och deskriptorer samt beslutsmått för dessa tagits fram. Dessa deskriptorer ämnar beskriva skill-nader mellan vegetation och byggskill-nader. De metoder och mått som pre-senteras i detta kapitel har, om ej annat anges, utvecklats under detta examensarbete.

4.2 Markestimering

Klassificering av laserdata baseras generellt sett på en inledande uppskatt-ning av markytan, en så kallad DTM (Digital Terrain Model), som genereras utifrån höjddata, som i sin tur även kallas DSM (Digital Surface Model). Med markytan menas i detta avseende markens höjd över havet som funk-tion av posifunk-tionen. Denna DTM används sedan för att göra höjddatat inva-riant mot lokala variationer i terrängen och en så kallad Normalised Digital Surface Model (NDSM) erhålls som underlättar klassificeringssteget. Figur 4.1 illustrerar förhållandena mellan DSM, DTM och NDSM. Objekten i en NDSM kan sedan enkelt segmenteras från marken enbart genom enkel trös-kelsättning. Problem med detta tillvägagångssätt nämndes i kapitel 1 och här presenteras en något annorlunda lösningsmetod.

Markmodellen är fortfarande viktig att ta fram då den även har andra syften. Vid generering av en 3D-modell kan markmodellen ses som en grund

(34)

18 Utvecklade metoder

på vilken modellerade objekt kan placeras. En rad andra användningsom-råden är tänkbara, så som planering av vägarbeten och järnvägsbyggen. Den skulle dessutom kunna bli ett viktigt verktyg vid stadsplanering. En markestimeringsmetod har därför utvecklats och förloppet för den kan ses i flödesschemat i figur 4.2.

FIGUR4.1:Överst: Illustration av en möjlig scen med byggnader och träd. Mit-ten: Digital Surface Model (DSM), dvs. de data som laserskannern registrerar. En Digital Terrain Model (DTM) representeras här av den för lasern synliga markkon-turen samt dess uppskattade förlängning (streckad linje). Underst: Normaliserad DSM (NDSM), dvs. DSM minus DTM. Notera hur ytan på träd och byggnader som står i sluttningar förvrängs till följd av normaliseringen.

4.2.1 Markestimering med aktiva konturer

Den markestimeringsmetod som idag används på FOI bygger på teorin om aktiva konturer och utvecklades av Magnus Elmqvist, för detaljer se [Elm00]. Kortfattat kan den beskrivas som att en klibbig och elastisk gum-miduk pressas upp underifrån ytmodellen och fastnar vid markpunkterna. Dukens elasticitet samt en gravitationskraft kontrollerar hur snävt duken tillåts växa. Algoritmen arbetar iterativt och slutar då duken har nått sitt jämviktstillstånd eller då det maximala antalet iterationer uppnåtts. I skogsområden och på landsbygden har denna metod visat sig fungera nästin-till felfritt. Där den däremot stöter på problem är i tätorter med många och stora byggnader. Här har vissa områden iakttagits där markmodellen växer in i byggnader, särskilt då dessa befinner sig intill kanterna i bilden. Detta resulterar i en felaktig markmodell, samt att diskontinuiteter lätt uppstår vid sammanfogning av olika »kartsegment«.

(35)

4.2 Markestimering 19

4.2.2 Markestimering baserad på

region growning-segmentering

Här nedan presenteras en algoritm för markestimering som först identifierar och särskiljer mark- och objektpixlar för att sedan enkelt kunna interpolera fram den resterande markytan. Metoden bygger på en region growing seg-mentering och utgår från ett antal fröpunkter som väljs så att de tillhör den synliga marken. Från fröpunkterna växes sedan sammanhängande områden utan skarpa kanter fram. Metoden utgår från interpolerade data, men en eventuell vidareutveckling som skulle kunna användas direkt på rådata dis-kuteras i kapitel 6. Som nämndes i kapitel 3.6.2 är det initiala problemet vid region growing-segmentering att hitta fröpunkterna, och för att kunna göra detta har följande antaganden gjorts:

1. Det finns alltid minst ett marksegment i varje bild. 2. Den lägsta punkten i bilden är en markpunkt.

3. Den lägsta punkten i varje segment av en watershedsegmentering av bilden är en markpunkt.

Det har visat sig att dessa antaganden inte alltid är sanna varför vissa ytterligare villkor, som fortsättningsvis diskuteras, har lagts till.

Det första antagandet kan ses som en förutsättning för att man över-huvudtaget ska kunna prata om att skatta markytan. Varje enskilt bild mäter normalt 100 × 100 meter och det antas finnas väldigt få byggnader som är så pass stora saknar innergårdar eller andra typer av ljusinsläpp ner till marknivå. Ett möjligt problem är visserligen att stora industrier eller lagerlokaler kan ha en utsträckning som överskrider bildernas, men det förefaller föga troligt. Vid behov kan dessutom bildernas storlek ändras.

Det andra antagandet är naturligt att göra såvida det första stämmer. Inga verkliga situationer har identifierats då detta inte skulle vara sant även om det naturligtvis vore teoretiskt möjligt att skapa ett sådant fall. Förvisso förekommer ibland så kallade outliers som här kan skapa problem. En outlier kan uppstå då laserstrålen reflekteras från till exempel en fågel eller annat flygande objekt och resulterar då i en falsk punkt över marken. De kan också uppstå om laserstrålen »studsar« mot en blank yta för att sedan träffa ett annat område från vilket reflektionen når mottagaren. La-serstrålen har då till synes tagit en väg som är längre än den verkliga vilket resulterar i en outlier som ligger under den egentliga ytan. Fortsättnings-vis benämns en bild där varje pixelvärde består av den högsta registrerade höjden i korresponderande koordinat zMax. Motsvarande bild där varje pix-elvärde består av den lägsta registrerade höjden benäms zMin. För att i så hög grad som möjligt undvika outliers medianfiltreras zMax-bilden i en cirka 1 × 1 meters omgivning och resultatet används för identifiering av fröpunk-ter samt region growing-segmenfröpunk-teringen. Att använda zMax-datat i stället

(36)

för zMin-datat innebär i sig också att outliers under marknivå undertrycks. Medianfiltreringen introducerar visserligen ett litet fel, men undviker i de flesta fall det tidskrävande arbetet att manuellt identifiera och eliminera outliers.

Det tredje antagandet är det starkaste och kan inte uppfyllas utan vissa bivillkor som kommer att beskrivas nedan. Idén som sådan är att mänskligt skapade objekt endast i undantagsfall antas vara konkava i höjdprofil. Det är tämligen irrationellt att konstruera en sådan byggnad med tanke på den nederbörd i form av snö och regn samt skräp och löv som då kommer att ansamlas där. Lokala minima kan förekomma i trädkronor och förvisso även på horisontella hustak som i vissa fall omges av låga kanter. Därför krävs att dessa punkter kan identifieras och sedan uteslutas som fröpunkter. Val av fröpunkter

Inledningsvis görs en watershedsegmentering av höjdbilden, medianfiltrerad för att undvika översegmentering. Segmenten sorteras sedan efter den lägsta punkten i varje segment och dessa punkter blir fröpunkter. Således kommer den lägsta punkten i bilden att väljas som den första fröpunkten till region growing- segmenteringen.

För att avgöra om en fröpunkt verkligen tillhör marken sätts ett villkor på hur brant vinkeln får vara mellan den närmaste punkten till tidigare identifierade marksegment och den nya fröpunktskandidaten får vara. Ef-tersom region growing-segmenteringen börjar i bildens lägsta punkt kommer det första segmentet enligt antagande (1) ovan att säkert tillhöra marken. Om nu nästa fröpunkt inte tillhör marken mäts avståndet till den närmaste punkten i det första marksegmentet. Vinkeln kan sedan beräknas med vet-skap om höjdskillnaden mellan fröpunkten och närmaste markpunkt samt avståndet mellan dessa, vilket illustreras i figur 4.3.

Segmentering

Vid identifieringen av markpixlar görs en adaptiv region growing-segment-ering. Detta innebär att en pixel läggs till ett segment om dess höjdvärde ligger inom ett förutbestämt intervall (här har en tröskel på 0,3 meter an-vänts) i förhållande till intilliggande pixlar som redan tillhör segmentet (en icke adaptiv region growing-segmentering baseras på varje pixels förhållan-de till förhållan-den ursprungliga fröpunkten). På så vis kan segmentet tillåtas växa uppför sluttningar men inte över skarpare kanter. Från varje fröpunkt som identifierats som en markpixel växer nu ett marksegment fram.

Interpolering

När alla marksegment är funna kan resterande delar av bilden ses som om-råden med okända data. Dessa »hål« kan sedan relativt enkelt interpoleras

(37)

4.2 Markestimering 21

Höjddata

Median-filtrering Identifiera fröpunkts-kandidater

Utför region growing-segmentering från

aktuell fröpunkt

Lägg till det identifi-erade området till tidigare markområden Interpolera områden som ej är identifierade som mark Giltig frö-punkt enligt vinkelrestrik-tionen? Ytterligare Fröpunktskan-didater? Watershed-segmentering Nej Nej Ja Ja

DTM

FIGUR 4.2: Flödesdiagram för markestimering med region

(38)

22 Utvecklade metoder Fröpunktskandidater

Redan funna marksegment Byggnad m. platt tak

α β

FIGUR 4.3: Sidovy av en byggnad med platt tak och intilligande flygel för

att illustrera vinkelrestriktionen för identifiering av fröpunkter till marksegmente-ring. Anses någon av vinklarna α eller β vara för stor förkastas motsvarande fröpunktskandidat.

fram. En linjärinterpolation har valts att göras genom att först utföra en Delaunaytriangulering [Dan03] där de yttre konturpunkterna till områdena med okänd data används som kärnpunkter till trianguleringen. Triangu-leringen innebär kortfattat att ett antal kärnpunkter »knyts« samman till ett nät, där varje kärnpunkt utgör en nod i nätet och där samtliga av nä-tets celler är triangulära till formen. När trianguleringen är utförd har det okända området indelats i en mängd trianglar vars hörn är markpunkter med kända höjddata. Höjddatat över varje triangel kan enkelt interpoleras linjärt och på så vis även hela det okända området.

För att utnyttja att laserstrålen ofta penetrerar vegetation och når än-da ner till marken är denna interpolering en iterativ process. När ett in-terpoleringssteg är slutfört jämförs resultatet med zmin-bilden. Pixlar i

zmin-bilden som hamnar tillräckligt nära den interpolerade ytan

(lämpli-gen används samma tröskel som vid region growing-segmenterin(lämpli-gen, här 0,3 m) läggs till trianguleringspunkterna och en ny triangulering följt av inter-polation utförs till dess att inga nya punkter tillräckligt nära ytan hittas.

4.2.3 Ytterligare filtrering

Båda metoden som bygger på aktiva konturer och den som bygger på regi-on growing-segmentering lider av att små objekt ibland klassas som mark. Dessa typer av objekt kan vara mindre stenar, små häckar och framför allt bilar. När man i ett senare skede skapar omvärldsmodellen är det önskvärt att bilar eliminerats från DTM:en eftersom dessa annars uppträder som

(39)

4.3 Segmentering 23

bulor i vägarna.

I metoden Elmqvists metod kan en elasticitetskoefficient ändras för att styra dess beteende. Ju högre elasticitet desto noggrannare blir markesti-meringen, men därmed ökar också risken för att små objekt blir en del av markytan. Med metoden som här presenteras kan tröskelvärdet vid region growing-segmenteringen sänkas, vilket leder till en grövre markmodell, men minskar metodens säkerhet i kuperad teräng.

I det dataset som använts i detta examensarbetet har bilar och liknande objekt utgjorts av så få pixlar att det varit alltför svårt att särskilja dessa. Därför har en alternativ metod, som presenteras nedan, utvecklats för att lösa detta problem. Om upplösningen i framtida dataset kan ökas borde det dock vara möjligt att även identifiera och klassificera dessa mindre objekt med större säkerhet.

I stället för att anpassa markestimeringsmetoden, vilket leder till andra oönskade effekter, kan man i efterhand effektivt filtrera bort bilar och även andra icke önskvärda objekt från markmodellen genom att använda rota-tionssymmetrier, som beskrevs i kapitel 3.4.2. En bil kan grovt liknas vid en liten halvsfärisk kulle med en lokal orientering som pekar in mot dess centrum. Bilen skulle således i en orienteringsbild kunna liknas vid den ro-tationssymmetri som representeras av vektorfältet i figur 3.6. Bilarna kan sedan identifieras genom att falta orienteringsbilden av markmodellen med konjugatet till rotationssymmetrin vald till en storlek som motsvarar storle-ken av en traditionell personbil. Här har en storlek på filterkärnan valts till 3 × 3 meter. Därefter trösklas resultatet av faltningen, och lokala maxima i de kvarvarande områdena söks för att finna bilarnas positioner. För att eli-minera bilarna från markmodellen används en cirkulär mask vars diameter väljs något större än en konventionell personbils längd. Här har en diameter på fyra meter använts. Maskens centrum placeras i den funna positionen för bilen och marken som täcks av masken interpoleras fram med samma metod som beskrevs i kapitel 4.2.2. Eftersom marken kan antas variera i det närmaste linjärt på de ställen där bilar identifierats (parkeringsplatser, vägar etc.) är det ett rimligt antagande att inga stora fel introduceras vid interpolationen.

Denna filtreringsmetod filtrerar, som nämndes ovan, även bort andra ty-per av små objekt med orienteringsegenskaty-per liknande den hos bilar. Bran-din och Hamrén presenterade i [BH03] en metod för att klassificera vägar. Resultatet från denna kan då användas som en mask för filtreringen om enbart bilar önskas elimineras.

4.3 Segmentering

Det initiala problem man ställs inför vid klassificering av laserdata, med syfte att identifiera objekt som exempelvis träd och byggnader, är hur man

(40)

skall dela upp eller segmentera bilden. Objektpixlar har i tidigare metoder identifierats som de pixlar i höjdmodellen som ligger mer än en viss trös-kelnivå över marken. Därefter har segmenterings- och klassificeringsarbetet inletts. Problemet med detta tillvägagångssätt är att markestimeringen blir kritisk för den fortsatta klassificeringen; fallerar den blir även fortsatta re-sultat felaktiga.

Här nedan presenteras tre segmenteringsmetoder som utvecklats för att på ett tidigare stadium isolera objekt i bilden. De kan sammanfattas av: identifiering av marksegment samt uppdelning av icke marksegment i ob-jektsegment som enbart består av en typ av objekt; träd eller byggnad.

Den nya markestimeringsalgoritmen ger förutom markmodellen också en avskiljning av objektpixlar från markpixlar. Många av de segment som bildats består dock fortfarande av flera olika typer av objekt varför en för-finad segmentering är nödvändig för att sedan kunna klassificera objekten i bilden. Med ett segment menas här sammanhängande objektpixlar av-gränsade av antingen bildens kanter eller av markpixlar. Den metod som utvecklades av Brandin och Hamrén och som sedan tidigare används vid FOI har byggt denna segmentering kring de ekon som ofta, men inte alltid, uppstår vid kanter till byggnader och i vegetation. För att ytterligare dela upp varje segment togs en mask fram med hjälp av dessa ekon och en rad morfologiska operationer tänkt att fungera som en skiljelinjer mellan ob-jekten. Det finns två huvudsakliga nackdelar med detta tillvägagångssätt: dels är inte informationen om ekon alltid tillgänglig, dels innebär för många morfologiska operationer att annan information lätt går förlorad.

Här nedan presenteras tre nya alternativa metoder för denna uppdelning, varav den ena bygger på höjdskillnader mellan objekt medan den andra har inspirerats från vi människors ypperliga förmåga att se sammansättningar av olika geometriska former. Den tredje använder sig av lokal orientering och har visat sig effektiv då det gäller att separera träd som står väldigt tätt inpå byggnader.

4.3.1 Segmentering baserad på höjdskillnad

Den första uppdelningen använder sig av Roberts kantförbättringsoperator för bilder, som kan ses i figur 4.4. I likhet med Sobeloperatorn ger Roberts operator en skattning av beloppet av gradienten (egentligen mellan pixlarna i operatorn), men med en mindre kärna för större noggrannhet.

0 −1 1 0 , 1 0 0 −1

FIGUR 4.4: Roberts kantförbättring är ekvivalent med en faltning med dessa

(41)

Den med Roberts operator filtrerade bilden, g(x, y), segmenteras sedan med watershedalgoritmen. Ett exempel på detta kan ses i figur 4.6. Det faktum att faltningskärnan är så pass liten får till följd att gradientesti-meringen blir relativt bruskänslig. Som synes i figur 4.6 är också resultatet av den initiala watershedtransformen översegmenterat. En mängd oönskade mindre segment har bildats på grund av små lokala minima i gradientbilden varför viss efterbehandling är nödvändig.

Genom att eliminera de lokala minima i g(x, y) som ger upphov till oöns-kade segment erhålls en ny gradientbild g0(x, y). Watershedtransformen kan sedan appliceras på g0(x, y) och på så vis undviks översegmenteringen effek-tivt. Denna modifiering benämnes enligt Beucher [Beu92] den geodesiska

transformen och principen för denna illustreras i figur 4.5.

Modifieringen av gradientbilden har valts att utföras genom att varje oönskat segment från den initiala watershedtransformen »fylls igen« ge-nom linjärinterpolation med Delaunaytriangulering över segmentets rand. Eftersom avgränsningslinjerna till en watershedsegmentering enligt kapi-tel 3.6.1 utgörs av åsar till inbilden kommer det lokala minimat således att elimineras. Emellertid uppstår nästan alltid nya lokala minima efter ovanstående modifikation, varför processen upprepas iterativt till dess att inga förändringar sker.

Fröområden f ’

f

FIGUR 4.5:Ursprunglig funktion f (heldragen) samt modifierad funktion f0_som

är identisk med f förutom i de streckade områdena.

Val av fröområden

Olika kriterier kan ställas upp för om ett segment skall anses vara önskat eller ej. Enklast är som i figur 4.5 att definiera fröområden, där varje

(42)

frö-26 Utvecklade metoder

område kommer motsvaras av ett segment i den slutliga segmenteringen. Inbilden till den initiala watershedsegmenteringen modifieras först genom att sätta alla pixelvärden tillhörande fröpunkter till bildens globala mini-mumvärde för att garantera att fröområdena innesluts av ett segment. Alla segment som inte innesluter ett fröområde anses därefter vara icke önskvär-da och deras lokala minima elimineras enligt metoden ovan, varpå en ny watershedsegmentering sker.

Valet av fröområden har här valts att göras enligt följande:

1. Gör en watershedsegmentering av gradientbilden till höjddatat och sätt de segment som antas vara större än en minsta beboelig yta till ett, här har 5 m2 använts. Övriga segment nollställs.

2. Skapa en avståndskarta över de nollställda områdena från steg (1). (Generellt består dessa områden av träd, där segment över 5 m2 är synnerligen ovanliga, och kanter till byggnader.)

3. Tröskla avståndskartan där avstånd större än motsvarande en meter sätts till ett. (Detta ger generellt sett ingen effekt på byggnadskanter, men lägger till fröområden i trädkronor större än ca 2 m.)

4. Sätt fröområden till unionen av resultaten från (1) och (3).

Då fås fröområden som generellt ger ett fröområde till varje byggnad, eller ett fröområde per husblock i de fall då huskroppen består av flera husblock i olika höjdnivåer. Valet av fröområden är givetvis kritiskt och det är viktigt att det blir korrekt utfört för att få en så riktig segmentering som möjligt. Därför har det valts att göras med så få morfologiska operationer som möjligt, då dessa alltid introducerar en viss osäkerhet.

För att träd som är högre än en intilliggande byggnad skall kunna separe-ras från byggnaden krävs att det i varje sådant träd finns minst ett fröom-råde, vilket söker åstadkommas i och med steg (3). Finns inget fröområde är det sannolikt att trädet och byggnaden i den slutgiltiga segmenteringen hamnar i samma segment. På samma vis kommer ett träd lägre än en intil-liggande byggnad utan fröpunkt att hamna i samma segment som marken runt trädet, detta framgår av utformningen av den geodesiska transformen. Ovan presenterade metod har valts för att ge en god segmentering av fram-förallt byggnader och skall ses som en första grov segmentering. Därför kan mindre träd inledningsvis tillåtas höra till samma segment som marken för att identifieras i ett senare skede. I figur 4.6 ses ett tvådimensionellt exem-pel på resultatet av en watershedsegmentering före och efter den geodesiska transformen och i figur 4.7 syns ett flödesschema för denna segmenterings-metod.

Förutom att definiera fröområden kan segmentens storlek och djup, som kan definieras som den lägsta punkten på randen till segmentet minus seg-mentets lägsta punkt, också användas som kriterier. För små eller för grun-da segment förkastas i stället för att initialt definiera fröområden. Det har

(43)

det dock visat sig svårt att med dessa kriterier allmänt få resultat likvärdiga med de som fås genom att först ange fröområden.

Eftersom denna segmentering är helt oberoende av en markmodellen kan den utföras parallellt med markestimeringen och på så vis göra hela proces-sen mer beräkningseffektiv.

4.3.2 Segmentering baserad på geometri

Den här segmenteringsmetoden baseras enbart på geometrin hos tidigare identifierade segment och bygger på avståndskartering som tidigare nämnts i kapitel 3.3.2. Tanken är att olika typer av objekt med liknande egenskaper, som befinner sig så pass nära varandra att de inte kunnat separeras med hjälp av tidigare metoder, i många fall kan delas upp tack vara deras geo-metriska sammansättning. Ett träd som står alldeles intill en byggnad kan i det enkla fallet ses som en cirkel placerad något över en rektangel, som visas i figur 4.8. Trots att cirkeln är delvis inskriven i rektangeln kan vi människor lätt skilja de båda objekten tack vare deras geometriska former. Genom att enbart iaktta den gemensamma konturen är det dock omöjligt att säga vilket objekt som ligger överst, men vi kan ändå göra en grov uppdelning. Det enklaste sättet att separera objekten vore att dra en rät linje längs rektangelns högra kortsida genom cirkeln (Den raka streckade linjen i undre delen av figur 4.8). För att en korrekt uppdelning skall ske krävs då att cirkeln befinner sig under rektangeln vilket i praktiken sällan är fallet. I stället är det i de flesta fall trädet (cirkeln) som ligger över huset. Den egentliga separationen som i samma figur illustreras av den bågformade streckade linjen är dock betydligt svårare att åstadkomma. Det har dessutom visat sig vara mindre träd som är de svåraste att separera från byggnader och att det från dessa blir kvar en liten del i byggnadssegmentet får antas vara godtagbart.

För att få datorn att göra motsvarande segmentering som vi människor så enkelt gör beräknas en avståndskarta för den gemensamma konturen. Om en tydlig avgränsning finns får avståndskartan två lokala maxima: ett i rektangelns centrum och ett i mitten av cirkeln. Avståndskartan kan då ses som ett berg med två toppar avskiljda av något som skulle kunna liknas ett bergspass, se figur 4.9. Genom att invertera eller vända upp och ned på avståndskartan kommer detta pass att bilda en ås. Om nu denna inverterade avståndskarta watershedsegmenteras kommer det bildas två segment, med en skiljelinje mellan segmenten som går längs åsen.

I praktiken har goda resultat uppnåtts med denna segmenteringsmetod även om vissa restriktioner har införts för att undvika översegmentering. På grund av ojämna kanter i objektkonturen uppstår ofta flera lokala max-ima till varje objekt i avståndsbilden. Detta problem åtgärdas genom att sätta alla pixlar motsvarande ett avstånd mindre än 0,5 meter i avstånds-kartan till 0,5 meter. Större och komplexa byggnader som består av många

(44)

FIGUR 4.6: Exempel på segmentering baserad på höjdskillnad över ett

områ-de med stora bostadshus med tillhöranområ-de innergårdar. Överst vänster: Detalj av initial segmentering av gradientbild enligt det kvadratiska utsnittet i den undre bilden. Här har vita skiljelinjer projicerats på höjddatat. Notera hur små segment bildats i kanterna till byggnaderna, men också till stor del i mitten på huskroppar-na. Överst höger: Fröområden, vita, som valts enligt kapitel 4.3.1. Underst: Slut-giltig watershedsegmentering efter topografisk modifiering av gradientbilden. Mörka skiljelinjer mellan segmenten är projicerade på höjddatat.

(45)

Segmenterad

bild

Tidigare grov-segmentering Multiplicera m. -1 Sätt alla pixlar större

än ett förutbestämt tröskelvärde till samma tröskelvärde Watershed-segmentera Avståndskartera Höjddata

Segmenterad

bild

Filtrering m. Roberts operator Val av fröområden enligt kap. 4.3.1 Geodesisk transform Watershedsegmentering

FIGUR4.7:Vänster: flödesdiagram för geometrisk segmentering. Höger: flödes-diagram för segmentering baserad på höjdskillnad.

huskroppar kommer ibland att delas upp även om de egentligen tillhör sam-ma objekt. Denna uppdelning sker då i naturliga avgränsningar och på-verkar således inte nämnvärt den fortsatta klassificeringen. Avståndskartan modifieras dessutom så att alla avstånd större än en förutbestämd tröskel sätts till samma värde, lämpligen samma som tröskelvärdet. På så vis und-viker man att dela upp alltför stora objekt, då osäkerheten i uppdelningen är större. Flödesdiagram för segmentering baserad på geometri syns i figur 4.7.

4.3.3 Segmentering baserad på lokal orientering

Efter de två första segmenteringstegen som beskrivits ovan kan det fortfa-rande finnas kvar segment där byggnader inte separerats från träd. Detta är vanligt i villaområden där träd ofta står tätt inpå husen. Genom att utnyttja att byggnader ofta består av lutande plan kan en ytterligare seg-mentering ske med hjälp av klustring av vektorfält som beskriver den lokala orienteringen. Denna metod utnyttjar resultatet från ovanstående segmen-teringsmetoder som fortsättningsvis kommer att kallas den föregående seg-menteringen.

(46)

und-30 Utvecklade metoder

byggnadens utsträckning

trädets utsträckning

verklig skiljelinje uppskattad skiljelinje

FIGUR 4.8: Principskiss över en byggnad med ett träd som delvis växer över

byggnadens tak. Underst visas den gemensamma konturen sett ovanifrån samt två linjer för att skilja objekten åt.

(a) avståndskata. (b) samma avståndskarta inverterad

FIGUR4.9:Topografisk representation av avståndskarta. Triangeln illustrerar av-gränsningen mellan objekten efter watershedsegmenteringen.

(47)

4.4 Egenskapsextraktion 31

vika en översegmentering av orienteringsbilden utgår klustringen från ett antal fröpunkter. Först skapas en avståndskarta av inversen till resulta-tet av Cannys kantdetekteringsalgoritm applicerad på orienteringsbilden. Kortfattat identifieras kantpixlar med denna metod som nollgenomgångar-na till andraderivatan i gradientens riktning. (För mer information samt implementation av Cannys kantdetektering hänvisas läsaren till [Dan03]). Avståndskartan trösklas sedan, där avstånd större än motsvarande en me-ter sätts till ett. Denna tröskling eliminerar många små områden som anses vara för små för att vara beboeliga. Fröpunkterna väljs sedan till de lokala maxima hos avståndstransformen som samtidigt tillhör ett område i den föregående segmenteringen. Punkterna hamnar i mitten av områden där den lokala orienteringen varierar långsamt, se figur 4.11d. Från fröpunkter-na klustras sedan orienteringsvektorer med likfröpunkter-nande riktningar, figur 4.11e. Att inte alla fröpunkter resulterat i ett segment beror på att segmenten i dessa fall blivit så pass små att de inte säkert kunnat klassas som en sammanhängade yta och har därför förkastats. Figur 4.10 visar ett flödes-diagram för segmentering baserad på lokal orientering.

Då klustringen av orienteringsvektorerna skapar »hål« i objekten är det nödvändigt att utföra en rad morfologiska operationer på bilden. Inled-ningsvis görs en stängning för att fylla hålen. Eftersom den lokala orien-teringen är osäker för plana objekt (exempelvis hus med horisontella tak) läggs pixlar med låg säkerhet i orienteringsbilden till den segmenterade bil-den. Därefter utförs en kontroll av alla fragment som eliminerats från den föregående segmenteringen. På grund av onogrannheter av mätningarna kring kanterna till objekten kan fragment från dessa ibland falla bort. Där-för undersöks Där-för varje sådant fragment om det är troligt att det är ett träd eller en kant tillhörande en byggnad. Principen bygger på att ett högt och smalt segment troligare är en kant till en byggnad än ett träd.

4.4 Egenskapsextraktion

Inom klassificering skiljer man på objektbaserad och regionsbaserad klassi-ficering. En objektbaserad klassificering har fördelen att man kan jämföra olika egenskaper mellan hela objekt medan en regionsbaserad klassificering enbart bygger på att analysera omgivningen till den aktuella pixeln och därur sluta sig till vilken objekttyp pixeln tillhör. Dessutom finns metoder för pixelbaserad klassificering som då enbart tar hänsyn till den aktuella pixeln. För att kunna göra en objektbaserad klassificering så förutsätts att man har gjort en segmentering av bilden där varje segment innehåller ett enskilt objekt.

En egenskap kan generellt sett inte enskilt skilja olika typer av objekt åt utan en kombination av olika egenskaper krävs ofta för att ge tillförlitliga resultat. Därför är det viktigt att identifiera egenskaper som är så pass

(48)

Höjddata

Beräkna lokal orientering Beräkna invers till Cannys kantdetektering Identifiera frö-punkter som lokala max. Avståndskartera Multiplicera Segment identifi-erade med tidigare

metoder (mask)

Segmenterad

bild

Utför morfologiska operationer Klustra orienterings-vektorer utifrån

aktu-ell fröpunkt

Fröpunk-ter kvar?

Nej Ja

(49)

4.4 Egenskapsextraktion 33

(a) (b) (c)

(d) (e) (f)

FIGUR4.11: Exempel på ett område där vegetationen delvis växer över bygg-nader. (a) höjddata. (b) realdelen av den lokala orienteringen. (c) resultat av Cannys kantdetektering. (d) resultat från föregående segmentering (oran-ge/grått) samt fröpunkter (vita). (e) resultat av klustring av orienteringsvektorer. (f) färdig segmentering efter morfologiska operationer.

olika varandra som möjligt, men som ändå beskriver skillnaderna mellan objekten väl.

Utgående från vissa antaganden om de olika objekttyperna (byggnader och vegetation) har egenskaper här försökts identifieras som på ett så bra sätt som möjligt beskriver skillnader mellan objekten. Följande egenskaper har identifierats:

Byggnader

• Har ofta raka kanter, med vissa undantag.

• Har ett begränsat antal orienteringsriktningar i taken. • Är ogenomträngliga för laserstrålen.

Träd

(50)

• Orienteringen varierar i alla riktningar. • Är delvis transparanta för laserstrålen.

I detta avsnitt görs en distinktion mellan en egenskap till ett objekt och de deskriptorer som beskriver egenskapen. Att identifiera nya objektspecifika egenskaper är oftast viktigare än att hitta flera deskriptorer för en och samma egenskap. Som exempel kan nämnas egenskapen att vegetation ofta är genomtränglig för laserstrålen, vilket resulterar i stor variation i höjdled. Denna variation kan beskrivas med en rad matematiska metoder. För att nämna några: första- och andraderivata, varians och frekvens, som alla ger höga utslag vid stor variation i höjdled. Eftersom dessa deskriptorer beskriver samma egenskap hos objekten är det också rimligt att anta att resultaten från dessa är korrelerade. En sekundär deskriptor till en egenskap borde alltså enbart bidra med en begränsad mängd ytterligare information vid klassificeringen.

Följande egenskaper kommer att behandlas i detta avsnitt: objektets permeabilitet eller med andra ord genomtränglighet för laserstrålen, samt förekomster av linjära strukturer i dess yta och rand.

4.4.1 Permeabilitet

Som nämndes ovan finns det en rad matematiska deskriptorer för att beskri-va ett objekts täthet. Samtliga deskriptorer som presenteras och jämförs i detta avsnitt beskriver de lokala variationerna i höjdled. För att kun-na använda resultatet av egenskapsektraktionen vid en klassificering måste deskriptorn för egenskapen översättas till ett beslutmått som tilldelas var-je obvar-jekt. I detta avsnitt räknas beslutsmåttet B ut som medelvärdet av deskriptorfunktionen f (i) över objektet O enligt:

B = P if (i) P ii , i ∈ O, där i är alla pixlar hörande till objektet O.

Gradient

Gradienten i en bild approximeras enklast med Sobeloperatorn som beskrevs i kapitel 3.2.1. Dessa estimerar förstaderivatan i x- respektive y-led i en lokal omgivning. Fördelen med att använda gradienten som deskriptor är att den väl beskriver lokala variationer och ger ett svar som är proportionellt mot dessa. Den främsta nackdelen är den även ger utslag för lutande plan så som hustak, där små svar generellt sett önskas. Se figur 4.12b.

(51)

4.4 Egenskapsextraktion 35 Andraderivata

Andraderivatan approximeras enligt kapitel 3.2.2 med Laplaceoperatorn. Andraderivata ger till skillnad från förstaderivata inget svar över områden med konstant lutning. Detta innebär att Laplaceoperatorn ger låga svar över hustak, horisontella så väl som sluttande, samtidigt som den ger höga svar i områden med icke-linjära variationer som är vanliga i trädkronor. Se figur 4.12c.

Lokal varians

Variansen i en lokal omgivning till varje pixel ger ett mått på hur mycket signalen varierar. Även lokal varians ger utslag för lutande tak. Variansen V (X) för en stokastisk variabel X definieras som bekant:

V (X) = E[(X − µ)2], (4.1)

där µ = E(X), det vill säga väntevärdet av X. Se figur 4.12d.

Lokal frekvens

Den lokala frekvensen kan i en bild estimeras enligt kapitel 3.5. Beroende på hur centrumfrekvenserna för de två bandpassfiltren väljs, fås en deskriptor som är känslig i olika frekvensintervall. Fördelen med att använda frekven-sen som deskriptor jämfört med tidigare metoder är att den är känslig även för små variationer då den är oberoende av amplituden i bilden. Denna egenskap innebär att liknande strukturer i bilden, som exempelvis husväg-gar, kommer att ge samma svar oberoende av hur höga dessa är i förhållande till omgivningen. Lokal frekvens ger på så vis ett beslutsmått baserat enbart på ett objekts struktur och inte dess höjd över marken. Se figur 4.12e.

Maximum Slope

Maximum Slope-filtret introducerades av Persson i [Per01] och har i denna rapport använts i jämförande syfte. Svaret beräknas från två bilder: zM ax, där varje pixelvärde består av den högsta registrerade höjden i varje koordi-nat och zM in där varje pixelvärde består av den lägsta registrerade höjden i motsvarande koordinat. Maximum Slope, M S(x, y) räknas sedan ut enligt:

M S(x, y) = max i,j |zM ax(x, y) − zM in(x + i, y + j|) p(i · dx)2_{+ (j · dy)}2 ! (4.2)

där i, j ∈ {−1, 0, −1} och (i, j) 6= (0, 0). dx är pixelstorleken i x-riktningen och dy i y-riktningen.