Objektdetektering i SAR- och IR-bilder

(1)

Institutionen för systemteknik

Department of Electrical Engineering

Examensarbete

Objektdetektering i SAR- och IR-bilder

Examensarbete utfört i Kommunikationssystem vid Tekniska högskolan i Linköping

av Peter Aronsson LITH-ISY-EX--08/4070--SE

Linköping 2008

Department of Electrical Engineering Linköpings tekniska högskola Linköpings universitet Linköpings universitet SE-581 83 Linköping, Sweden 581 83 Linköping

(2)

(3)

Objektdetektering i SAR- och IR-bilder

Examensarbete utfört i Kommunikationssystem

vid Tekniska högskolan i Linköping

av

Peter Aronsson LITH-ISY-EX--08/4070--SE

Handledare: Ulf Erlandsson

Saab Bofors Dynamics

Examinator: Mikael Olofsson

isy, Linköpings universitet

(4)

(5)

Avdelning, Institution Division, Department

Division of Communication Systems Department of Electrical Engineering Linköpings universitet

SE-581 83 Linköping, Sweden

Datum Date 2008-06-04 Språk Language Svenska/Swedish Engelska/English Rapporttyp Report category Licentiatavhandling Examensarbete C-uppsats D-uppsats Övrig rapport

URL för elektronisk version

http://commsys.isy.liu.se/ http://www.ep.liu.se/ ISBN ISRN LITH-ISY-EX--08/4070--SE Serietitel och serienummer Title of series, numbering ISSN

Titel

Title Objektdetektering i SAR- och IR-bilder_{Detection of objects in SAR- and IR-pictures}

Författare

Author Peter Aronsson Sammanfattning Abstract

This report treats detection in IR-pictures taken from airplanes over the ground. The detection is divided in two parts. First there is a detection with lterkernels with the task to point on targets and objects that look like targets. The second part is a discriminator that demands more calculations and has the task to sort out the false alarms from the discriminator. Both the detector and the discrimi-nator contain thresholds thats been trained from trainingsets of data. The results from the detector was better then expected hence it wasnt possible to test the diskriminator properly.

Nyckelord

(6)

(7)

Abstract

This report treats detection in IR-pictures taken from airplanes over the ground. The detection is divided in two parts. First there is a detection with lterkernels with the task to point on targets and objects that look like targets. The second part is a discriminator that demands more calculations and has the task to sort out the false alarms from the discriminator. Both the detector and the discrimi-nator contain thresholds thats been trained from trainingsets of data. The results from the detector was better then expected hence it wasnt possible to test the diskriminator properly.

Sammanfattning

Den här rapporten behandlar detektering i IR-bilder som är tagna från ygplan över marken. Detekteringen är i det här arbetet uppdelat i två delar. Först görs en detektering med lterkärnor som har till uppgift att peka ut mål och målliknande objekt. Den andra delen är en diskriminator som är något mer beräkningskrävan-de och har till uppgift att sortera bort beräkningskrävan-de falskmål som beräkningskrävan-detektorn fått med. Båberäkningskrävan-de detektorn och diskriminatorn innehåller trösklar som har tränats fram med trä-ningsdata. Detektorn gav bättre resultat än väntat och diskriminatorn har därför inte kunnat testas ordentligt.

(8)

(9)

Innehåll

1 Introduktion 1 1.1 Bakgrund . . . 1 1.2 Uppgift . . . 1 1.3 Arbetet . . . 1 1.4 Grunder . . . 2 2 Data 5 2.1 Inledning . . . 5 2.2 SAR-bilder . . . 5 2.3 IR-bilder . . . 7 2.3.1 GSIM . . . 8 3 Algoritmer 13 3.1 Inledning . . . 13 3.2 Detektor . . . 13 3.2.1 γkärnor . . . 14 3.2.2 Trimning av γCFAR . . . 18 3.2.3 Individuell storleksestimering . . . 20 3.2.4 Användande av γCFAR . . . 20 3.2.5 Tröskelsättning av γCFAR . . . 20 3.3 Diskriminator . . . 21 3.3.1 QGD . . . 21

3.3.2 Träning och tröskelsättning av QGD . . . 22

4 Resultat 25 4.1 Inledning . . . 25 4.2 Detektorn . . . 25 4.2.1 Inledning . . . 25 4.2.2 Resultat Detektorn . . . 26 4.3 Diskriminatorn . . . 28 4.3.1 Inledning . . . 28 4.3.2 Resultat Diskriminatorn . . . 28 4.4 Ytterligare resultat . . . 28 5 Slutsatser 37 vii

(10)

viii Innehåll 6 Fortsatta studier 39 Litteraturförteckning 41 A Optimal detektor 43 B Linjär diskriminator 45 C PCA 47

(11)

Kapitel 1

Introduktion

1.1 Bakgrund

På SAAB Bofors Dynamics har det tidigare studerats algoritmer för att auto-matiskt detektera markmål i syntetisk aperturradar (SAR). I samband med att dessa algoritmer implementerades kom tankar på att göra samma sak för infrarö-da(IR) bilder. Det gjordes då en undersökning om detta i referens [1]. De bilder som då utnyttjades var av en något annorlunda karaktär. Efter den studien har det implementerats matlabkod för att automatiskt detektera mål i SAR-bilder. En tanke var då att det skulle kunna gå att använda koden även för IR-bilder efter de anpassningar som kunde behövas.

1.2 Uppgift

Målet med examensarbetet har varit att undersöka om det i IR-bilder automatiskt går att detektera markmål. Som utgångspunkt nns sedan tidigare algoritmer i matlab för SAR-bilder. För att få dessa att passa för IR-bilder kommer den bentliga koden modieras och det kommer implementeras algoritmer som ger optimala parametrar. Vidare ska det testas om det går att träna trösklarna med simulerade data och sedan använda det på uppmätta data. I nästa steg som är en diskriminator där en övergång sker från pixelbaserad detektering till blobb-baserad detektering. Slutligen ska träningen göras iterativ innan koden översätts från matlab till C/C++.

1.3 Arbetet

I detta examensarbete behandlas detektering och diskriminering av mål i bilder. Bilderna genereras av en IR-kamera. Kameran sitter placerad på en ygande far-kost som endast betraktar markmål, t.ex. bilar eller militära fordon. För att de-tektera de intressanta målen delas arbetet upp i två delar, detektering och diskri-minering. Detekteringen ska detektera alla mål, vilket ger till följd att även några

(12)

2 Introduktion målliknande objekt kan detekteras. Diskrimineringen har till uppgift att identiera falska mål och bortse från dessa. Många algoritmer för såväl detektering som dis-kriminering för SAR-bilder fanns i matlab att utgå från. Dessa algoritmer har i det här arbetet anpassats till IR-bilder. Optimering av parametrar för första steget, γCFARen, gjordes på ett nytt sätt genom att använda algoritmförslag från referens [9]. Detta gav tvetydiga resultat som kräver fortsatt undersökning. Under träning och anpassning av algoritmerna har endast simulerade bilder använts. Även till tester har det använts simulerade bilder men ett fåtal tester på riktiga data har genomförts. Diskrimineringen har ändrats från att koncentrera sig på pixlar till att istället använda hela blobbar för resultatredovisning. Detta är ett nödvändigt steg om detektorn ska kunna förbättras genom att utöka antalet särdrag. Det blev tyvärr ingen tid över varken till att göra träningen iterativ eller övergå till C/C++ kod.

1.4 Grunder

För att automatiskt detektera målobjekt i IR-bilder så används i den här studien en tvåstegsprocess. Den första delen är en detektor som har till uppgift att detek-tera målobjekt. Den andra delen är en diskriminator som testar alla detekdetek-terade mål från steg 1 och försöker sortera ut eventuella falskmål. Principen beskrivs i gur 1.1 där detektorn går under namnet prescreener och diskriminatorn kallas discriminator. För att detektera mål i en bild väljs ett testområde och ett

(13)

1.4 Grunder 3 rensområde (se gur 1.2). Vanligtvis väljer man att testa alla pixlar, var och en för sig. Referensområdet väljs runt de pixlar som skall testas. Om skillnaden i intensi-tet mellan dessa två områden är större än en viss tröskel antas den testade pixeln vara en del av ett mål. För att bestämma hur referensområdet ska se ut nns det olika metoder att använda, i senare kapitel beskrivs tre olika metoder. Metoderna är 1-parametrisk CFAR (CA-CFAR), 2-parametrisk och slutligen γCFAR som är den metod som har använts i studien. CFAR är en förkortning för constant false alarm rate. Hur långt ifrån testpixeln det yttre området nns påverkar resultatet.

(a)

(b)

Figur 1.2. Figur a visar CFAR i 3D och gur b i 2D, gur a är hämtad från [6]

Väljs det för långt bort från testpixeln är det inte aktuellt för den testade pixeln och väljs det för nära kan statistiken för området bli för lika det testade. Genom

(14)

4 Introduktion att träna på målbilder kan det yttre området bestämmas och en tröskel tas fram. Hela bilden gås igenom, pixel för pixel, och jämförs med ett yttre område. Om skillnaden överstiger det tränade tröskelvärdet anses det vara ett mål, om inte så räknas det som bakgrund. Detta genererar en binär bild som tillsammans med IR-bilden används i diskrimineringen.

Efter detta genomgår bilden en diskrimineringsalgoritm som har till uppgift att hit-ta pixlar som har detekterats som falskmål och sortera bort dessa. Diskriminatorn är en utvidgning av γCFAR-detektorn. Även här behöver ett tröskelvärde tränas fram. Träningen utförs med bakgrundsbilder, dvs bilder som inte innehåller några mål men målliknande objekt. Varje träningsbild genomgår detektionsalgoritmen ovan med en något sänkt tröskel. Alla områden som då har detekterats som mål är falskmål och används tillsammans med målchip för att träna diskriminatorn. Såväl detektor som diskriminator beskrivs djupare i avsnitt 3.

(15)

Kapitel 2

Data

2.1 Inledning

I detta arbete används IR-bilder, i referensliteraturen används mestadels SAR-bilder. Här ges en kort introduktion till hur SAR- och IR-bilder fungerar, en grundligare beskrivning kan fås i [1]. Det råder brist på bilder med scener som passar för dessa typer av studier för såväl SAR- som IR-bilder. Det krävs ganska stora mängder data med kontrollerade scener för en sådan här uppgift vilket gör att det istället används simulerade bilder för träning och testning.

2.2 SAR-bilder

SAR står för syntetisk aperturradar och är en typ av radarbehandling som sitter på tex ygande farkoster och tar bilder över markmål. Med hjälp av en radar i rörelse kan man genom signalbehandling åstadkomma en större antennapertur, därav namnet syntetisk apertur. Med en större antennapertur kan man få bättre upplösning och få en bra avbildning av markområden. SAR-bilderna är resultat av mätningar från elektromagnetisk reektion. Det nns olika metoder för att ta fram SAR-bilder punkt(spot), remsa(strip) och skanning(scan). Punkt- och remsmeto-derna visas i gur 2.1. Punktmetoden koncentrerar sig på en punkt(litet område) och skapar en bild över den punkten. Remsmetoden håller antennen fast i yglin-jen och skapar då en remsa parallellt med yglinyglin-jen. Skanningmetoden gör även den remsor, men i olika vinklar från planets linje. Med skanningmetoden kan man göra båda de andra två, men den kräver en komplexare behandling av mottagen data. Punktmetoden används främst då stor noggrannhet behövs för något mål medans remsmetoden är bättre då stora ytor ska täckas. Efter behandling av sig-nalen består en SAR-bild av ett komplext tal för varje pixel. För att få fram en bild av informationen behöver varje pixel absolutsummeras och kvadreras. Upplösning-en för SAR-bilder skiljer sig åt beroUpplösning-ende på vilkUpplösning-en metod som används mUpplösning-en för punktmetoden är den ungefär en decimeter. I gur 2.2 visas en SAR-bild som är hämtad från en MSTAR-databas. MSTAR står för moving and stationary target

(16)

6 Data recognition och är en öppen databas för simulerade SAR-bilder.

(a) Punktmetoden

(b) Remsmetoden

(17)

2.3 IR-bilder 7

Figur 2.2. Ett exempel på en SAR-bild

2.3 IR-bilder

Infraröda bilder skapas ur registreringar av den infraröda strålningen från olika ob-jekt. Det är hur mycket värme som ett objekt utstrålar som avgör hur det redovisas på en IR-bild. Tex ger ett kallt mål inte större utslag än en kall gräsyta. Samtidigt kan en sten eller berghäll bli uppvärmd av solen och därmed detekteras som mål. En IR-bild innehåller ingen information om avstånd till eller storlek på målen, vil-ket är en stor nackdel jämfört med SAR-bilder. Det nns olika metoder för att ta fram IR-bilder två av dessa är Microbolometer- och QWIP(Quantum Well Infra-red Photodetector)-kamera. IR-sensorer kräver ofta aktiv kylning för att minska det termiska bruset. På senare tid har microbolometer-kameror kommit som inte kräver aktiv kylning. Dessa har sämre SNR och kräver högre integrationstid än kylda kameror. Det innebär att de ger rörelseoskärpa men är billigare, lättare och mer energisnåla än kylda sensorer. En bild med okyld respektive kyld sensor nns i gur 2.3. Antalet riktiga IR-bilder för arbetets ändamål är begränsat och därför har istället bilder för träning och testning simulerats i en dator. Simuleringen görs i programmet GSIM genom att objekt läggs på en känd bakgrund som sedan ygs över och skapar bilder. Mer om IR-bilder i referens [8].

(18)

8 Data

(a) Bild tagen av en okyld microbolometerkamera

(b) Bild tagen av en kyld QWIP-kamera

Figur 2.3. Båda bilderna är tagna med en stirrande sensorer

2.3.1 GSIM

GSIM är ett internt simulerings-program utvecklat av Saab som körs under matlab. GSIM används för att simulera IR-bilder. Idén går ut på att välja en bakgrund, placera ut ett eller era mål på denna och sedan skapa en ygning över den skapade bilden. Under ygningen tas bilder i de vinklar som önskas. På detta sätt går det att få simulerade bilder över tex ett önskat objekt mot en viss bakgrund från olika vinklar. Ur GSIM har olika bilder tagits fram med olika vinklar och intensiteter. Till träning och tester används olika vinklar, vad gäller intensiteten så är det intensiteten för fordonet som är ändrat. Dels varierar intensiteten för hela fordonet där det tagits bort någon viss procent från alla pixlars värde. Här kallas det för

(19)

2.3 IR-bilder 9 blekning av en viss procent. Bilder där fordonens maximala intensitet har minskats har också ändrats, tex att alla värden för fordonet över 292 har sänkts till just 292. Några olika varianter visas i gur 2.4-2.7. Det som använts i träningen är den oförändrade varianten i gur 2.4

(20)

10 Data

Figur 2.5. Blekt 99% och maximalt värde 292

(21)

2.3 IR-bilder 11

(22)

(23)

Kapitel 3

Algoritmer

3.1 Inledning

Här beskrivs de algoritmer som används för detektion och diskriminering av mål. Under tidigare försök [1] och [6] gjordes undersökningar som visade på att detek-torn γCFAR i kombination med diskriminadetek-torn Quadratic Gamma Discriminator (QGD) är en bra kombination. Detta används även i [9], där algoritmerna utökas med en anpassning av γCFAR detektorn. CFAR är en förkortning för constant fal-se alarm rate, vilket betyder att algoritmen ska generera konstant antal falsklarm ur en bakgrund för en bestämd tröskel. För att se att γCFAR är en optimal in-tensitetsdetektor i bilder med gaussfördelad bakgrund hänvisas till referens [9]. Att γCFAR och den 2-parametriska CFARen faktiskt är sanna CFAR innebär att testfunktionens sannolikhetsfunktion är oberoende av väntevärdet och variansen (se referens [3] och [9]). Här används endast γCFAR och QGD, därför är det bara de som beskrivs i det här arbetet.

3.2 Detektor

Målet med detektionsalgoritmer är att få hög detektionssannolikhet men med låg falsklarmsnivå. En av de enklaste detektorerna är Cell Average CFAR och princi-pen visas i gur 3.1. CA-detektorn är en 1-parametrisk detektor där beslutskriteriet är

x − ˆµ ≥ T (3.1)

ˆ

µär medelvärdet över pixlarna i referensområdet, x är värdet för den testade pixeln och T är ett tröskelvärde. Den 1-parametriska detektorn utökas till 2 parametrar genom att ta hänsyn till standardavvikelsen. Med samma denitioner ges kriteriet av

x − ˆµ ˆ

σ ≥ T (3.2)

ˆ

σ är standardavvikelsen över referensområdet. Tröskeln T skiljer sig för de två olika detektorerna. Nackdelen med dessa detektorer är att den omgivande ramen

(24)

14 Algoritmer

Figur 3.1. 2D CFAR

som används för beräkningen av ˆµ är fyrkantig. En fyrkantig ram är inte rotations-invariant vilket gör den något sämre än den detektorn som används här istället, nämligen γCFAR-detektorn. Men den stora förbättringen är att den inre kärnans form styrs av parametrar som kan tränas fram.

3.2.1 γkärnor

γCFAR detektorn bygger liksom 1- och 2-parametriska detektorerna på två om-råden, en testpixel och ett referensområde. För γCFAR består inte testpixeln av enbart en pixel, istället är det ett område som testas. Områdena fås genom att multiplicera bilden med en funktion som kallas γkärna. γkärnan benämns Gk och

dess element beräknas ur: gk,µ(i, j) = µk+1 2πk!( p i2_{+ j}2₎k−1_{exp (−µ}p i2_{+ j}2₎ (3.3)

k är ordningen på kärnan och µ är en parameter för att bestämma utseendet på kärnan. (i,j) är koordinaterna för en pixel där (0,0) motsvarar testad pixel. I gur 3.2 visas två kärnor för olika µ och k. I gur 3.3 redovisas två st tvådimensionella kärnor den ena med varierande µ-värde och den andra med varierande k. Det an-vänds en inre och en yttre kärna, den inre benämns Gtoch den yttre Gc. γkärnorna

fås genom att i 3.3 beteckna inre kärnan med t och den yttre kärnan med c. Som en jämförelse med den 2-parametriska CFAR-detektorn ersätts i ekvation 3.2 x med Gt⊗ X, ˆµ ersätts med Gc⊗ X (⊗ denierar faltning där det i kanterna av

bilden sker spegling vid beräkningarna). Slutligen beräknas standardavvikelsen ˆσ som pGc⊗ X2− (Gc⊗ X)2. Det ger:

t = Gt⊗ X − Gc⊗ X pGc⊗ X2− (Gc⊗ X)2 = Gm1,µm1 ⊗ X − Gn2,µn2⊗ X q Gn2,µn2⊗ X 2_{− (G} n2,µn2⊗ X) 2 (3.4)

(25)

3.2 Detektor 15

(a) k = 1 och µ = 2.02

(b) k = 15 och µ = 1.1344

(26)

16 Algoritmer

(a) Olika γkärnor där µ = 1 och k varierar

(b) Olika γkärnor där k = 7 och µ varierar

(27)

3.2 Detektor 17 För olika val av ordningen på kärnorna fås olika utseende. För k = 1 ges en topp i origo medans större k-värde ger en kärna längre ut från centrum. Beroende på vilket µ-värde som väljs så fås olika spetsiga kärnor. En viktig fråga blir nu hur parametrarna för kärnorna ska väljas. I gur 3.4 ses en γdetektor med kärnor för valen k = 1 och k = 15. I Appendix A visas att teststatistiken för t i 3.4 är en

Figur 3.4. γ-CFAR detektorn, guren hämtad från [9]

optimal intensitetsdetektor då formen på inre kärnan är känd. Det visar sig även att γ-funktionen har en form som approximativt är den maximala egenvektorn som fås från PCA-analys. Utgångspunkten är att gt = ht är cirkulärt

symmet-risk. Korrelationen mellan en 2D kontinuerlig bild f(x, y) med bakgrundsbruset borttaget och med ovan nämnda kärna kan skrivas:

t = Z Z

h(x, y)f (x, y)dxdy (3.5) Den 2D symmetriska gammakärnan ersätts här med en 1D kärna genom att ersätta h(x, y)med dess polära motsvarighet h(r, θ).

t = Z Z

h(r, θ)f (r, θ)rdrdθ (3.6) Då gammakärnan är cirkulärt symmmetrisk så är den oberoende av θ vilket får till följd att h(r, θ) går att skriva som h(r).

t = Z rh(r)fR(r)dr = Z ˜ h(r)fR(r)dr (3.7) ˜ h(r) = rh(r) fR(r) = 2π Z 0 f (r, θ)dθ

(28)

18 Algoritmer som för något r = r0 kan skrivas

1

2πfR(r0) = R2π

0 f (r0, θ)r0dθ

2πr0 (3.8)

Detta är en projicering av bilden till en radiell vektor. De bilder som används här är diskreta vilket innebär att det istället kommer bli

fR[r] =

X

i,j:i2_+j2_=r2

f [i, j]/NR(r) (3.9)

där NR(r)är antalet punkter som ligger på avståndet r från centrum och [i,j] är

en punkt i bilden. Exempel för hur en sådan radiell projektion ser ut visas i gur 3.5(a) för ett målchip och i gur 3.5(b) för ett chip utan mål. Ett chip är en mindre del av en bild, för målchip är det ett urklipp ur en bild så att ett mål kommer i mitten. Nu beräknas principalkomponentanalys (PCA) (se Appendix C eller [2]) som ger en egenvektor u så att:

J = argmin u N −1 X i=0 xi− uuTxi 2 ! (3.10) Där u är egenvektorn med störst egenvärden av korrelationsmatrisen P xi(xi)T.

xi är den vektor som erhålls från den radiella projektionen av bilden Xi. Istället

för att beräkna detta så kan man använda γkärnorna för att modellera intensitets-modellen, vilket görs här. J = argmin k,µ N −1 X i=0 xi− aig˜k,µ 2 ! ai= xTig˜k,µ (3.11) ˜ gk,µ= r · gk,µ= r · µk+1 2πk!(r) k−1_{exp (−µr)} _(3.12)

Detta uttryck minimeras och de k och µ som ger minimum används sedan till den inre gammakärnan för just denna typ av mål. Detta är en träning som utförs för de målchip som nns, er bilder ger en ökad summa och ett nogrannare värde för µ.

3.2.2 Trimning av γCFAR

För att hitta µ och k trimmas γCFAR:en enligt följande tre steg. 1. Skapa målchip så att den intensivaste punkten nns i mitten.

2. Ta fram den endimensionella projektionen av målchippet med hjälp av ekvation 3.9.

3. Hitta de k- och µ-värden som ger minst värden enligt ekvation 3.11 genom direkt sökning.

(29)

3.2 Detektor 19

(a) Radiell projektion av ett målchip

(b) Radiell projektion av ett bakgrundschip

Figur 3.5. Radiell projektion, avstånd från mittpunkt på x-axeln och medelvärde på y-axeln.

(30)

20 Algoritmer

3.2.3 Individuell storleksestimering

Tidigare har det använts en allmän storlek på den yttre gammakärnan för samtliga mål. För att algoritmen ska ge ett så bra resultat som möjligt bör denna storlek ändras beroende på typ av mål. I [9] har det tagits fram en algoritm för att hitta dessa individuella storlekar. Denna algoritm beskrivs i följande steg:

1. ˆµ = gT

cx. Först beräknas det lokala medelvärdet ˆµ där gammakärnan gc ska

vara större än det största målet som ska kunna upptäckas. x = vect{X} och gc= vect{Gc} ger vid multiplikationen ˆµ. vect{}-operatorn bildar en

vektor av en matris genom att lägga matriskolumnerna efter varandra så att kolumn två kommer efter kolumn ett och så vidare.

2. Beräkna Xgt= Gt⊗ X där ⊗ är samma faltning som i avsnitt 3.2.1. Detta

är en faltning av orginalbilden med den inre gammakärnan och är en ltrering av bilden.

3. Hitta den radiella representationen xR[r]av den ltrerade bilden Xgt från

(2). xR[r] = X i,j:i2_+j2_=r2 x[i, j] N (r) (3.13)

4. Hitta det minsta r som uppfyller xR[r] ≤ ˆµ

3.2.4 Användande av γCFAR

När man söker efter detektioner i en bild används ekvation 3.4. Om detta värde t överstiger en viss tröskel så tolkas den pixeln som en del av ett mål. Av detta skapas en binär bild som innehåller en etta för de pixlar som detekterats som mål och nolla för övriga pixlar.

3.2.5 Tröskelsättning av γCFAR

För att bestämma vilken tröskel som ska användas genomförs träning med målchip. Ett målchip är en bild som är något mindre (här 60x60 pixlar) och som i mitten av bilden har ett mål. Det används ett ganska stort antal målchip för att få fram en bra tröskel, alla chip gås igenom med γCFAR med en från början låg tröskel. Tröskeln höjs och när det inte längre detekteras något mål i ett chip antas tröskeln vara funnen. Tröskelsättningen kan också förklaras med hjälp av en ROC-kurva (Receiver Operating Characteristic) som visas i gur 3.6. Genom att variera tröskeln kommer man att röra sig utmed ROC-kurvan. När man uppnått ett önskat värde på Pd används detta tröskelvärde T . Pd är

(31)

3.3 Diskriminator 21

Figur 3.6. Illustration av en ROC-kurva.

3.3 Diskriminator

Diskriminatorn används för att upptäcka och diskriminera de eventuella falskmål som γCFAR indikerar. Som diskriminator används QGD, qudratic gamma discriminator.

3.3.1 QGD

QGD:n är en utvidgning av γCFAR (se appendix B eller referens [7]) och är en generell linjär diskriminator där några komponentfunktioner innehåller

kvadratiska termer av faltningsresultaten(se ekvation 3.15). En generell linjär diskrimineringsfunktion har normalt utseendet

g(X) = w1f1(x) + w2f2(x) + · · · + wnfn(x) + wn+1= WTF (3.14)

där F = [f1(x) f2(x) . . . fn(x) 1]T är en reellvärd vektor och

W = [w1w2 . . . wn+1]T är en viktvektor. Genom att i ekvation 3.14 välja

F = [gmi⊗ X gnj ⊗ X gmi⊗ X 2 _g nj ⊗ X 2 _(g mi⊗ X) 2 (gnj ⊗ X) 2 _(g mi⊗ X) · (gnj ⊗ X) 1] T _(3.15) och W = [w1w2w3w4w5w6w7w8]T

(32)

22 Algoritmer fås den kvadratiska detektorn som

y = WTF = w1(gm⊗ X) + w2(gn⊗ X) + w3(gm⊗ X2) + w4(gn⊗ X2) +

+ w5(gm⊗ X)2+ w6(gn⊗ X)2+ w7(gm⊗ X) · (gn⊗ X) + w8 (3.16)

Detta görs för varje enskilt område som detekterats som mål. Varje detekterat område är antingen ett mål eller ett falskmål men värdena för pixlarna inom respektive område kan variera. Därför har här provats två metoder. I den ena tilldeles varje sådan pixel medelvärdet över dess område och i den andra tilldelades istället varje pixel det maximala värdet i dess område. Detta gör att när det sedan ska jämföras med en tröskel så kommer inte delar av ett mål att försvinna. För att avgöra om y innehåller något mål så görs jämförelsen y > T . Om y är större än en viss tröskel T så antas det vara ett mål. För att kunna använda denna metod behövs viktvektorn W , som fås genom träning.

3.3.2 Träning och tröskelsättning av QGD

För att få fram viktvektorn W så används träning, och då utgår man från en referensvektor d, därefter löser man det överbestämda minstakvadratproblemet

min

w

d − WTF ₂ (3.17) Detta görs genom att använda ett ganska stort antal bakgrundsbilder, alla bilder gås igenom med γCFAR med en något sänkt tröskel. De bakgrundsbilder som då ger måldetektering innehåller alltså något som liknar mål. Dessa mål klipps ut så att de blir centrerade i ett bakgrundschip. Bakgrundshipen används sedan för att lösa ekvation 3.17, och därmed hitta viktvektorn W . Ekvationen som ska lösas blir på formen:      F11 . . . F18 F21 . . . F28 F31 . . . F38 ... ... ...           W1 W2 ... W8      =      1 0 1 ...      (3.18) där F kommer från 3.15 och löses för klotterchip (bakgrundsbilder som

innehåller målliknande objekt) och målchip. W är den sökta vektorn och i vektorn d = [1 0 1 . . .]T

motsvarar 1 = målchip och 0 = klotterchip. Efter träningen fungerar den linjära diskriminatorn som ett enkelt neuralt nätverk (se referens [4]). Se gur 3.7 där även träningsmetodiken framgår. När ekvation 3.17 är löst så ska tröskeln T tas fram. Vilket kan göras genom att beräkna

QGD-svaret för ett stort antal bakgrundschip med målliknande objekt i mitten och för ett antal målchip. Detta ritas ut som gur och där gränsen mellan bakgrundschip och målchip går väljs tröskeln. Ett mer systematiskt sätt att hitta tröskeln är att producera en ROC-kurva för QGD:n över träningsmängden på samma sätt som för γCFARen.

(33)

3.3 Diskriminator 23

(34)

(35)

Kapitel 4

Resultat

4.1 Inledning

De algoritmer som är beskrivna i tidigare kapitel är framtagna i första hand för SAR-bilder. Några av algoritmerna har sedan tidigare studerats och testats på SAR-bilder. Här har målet istället varit att se om de fungerar även för IR-bilder och för att se om de nya algoritmerna passar för IR-bilder. Algoritmerna har behövt anpassas för att passa för IR-bilder och parametervalen har även de ändrats. Störst vikt har lagts vid att hitta en bra modell för träning av µ-värden för inre respektive yttre γkärnan och träningen av diskriminatorn. Algoritmerna har testats på ett fåtal riktiga IR-bilder, något som endast redovisas utan orginalbilder i detta dokument. Istället har en större mängd data använts som simulerats i GSIM enligt kapitel 2.

4.2 Detektorn

4.2.1 Inledning

Bilderna som skapats i GSIM är något snällare än en riktig bild, detta då skillnaden mellan mål och bakgrund är ganska stor. För att algoritmerna ska fungera för det allmänna fallet skulle det behövas statistik för varje måltyp från olika höjder och vinklar. I den här rapporten har endast behandlats höjden 400 meter och med en betraktningsvinkel på 45◦ _{i förhållande till marken. Målet har}

betraktats från olika vinklar i förhållande till målets riktning, t.ex. framifrån, från sidan och bakifrån. Kanske går det att skala om höjden för att få det mer allmänt, detta har dock inte testats här. I den här studien har enbart en sorts måltyp studerats, även här är det önskvärt med en utökning, något som är lite tidskrävande men inte borde ställa till några problem.

(36)

26 Resultat

4.2.2 Resultat Detektorn

Inre kärnan

Den teoretiska metoden som beskrivs i avsnitt 3.2.2 för att hitta ordning och µ-värde på inre γkärnan visade sig inte fungera på ett bra sätt för de IR-bilder som användes. Det återstår att reda ut varför det blev så men det är något som inte hanns med i detta arbete. En enkel justering genom att plocka bort r i ˜

gk,µ= r · gk,µ och därmed istället använda ˜gk,µ= gk,µ gav rimligare och bättre

resultat. Utan modieringen gav träningen för k = 1 ett µ = 0.04. Efter modieringen fås nu µ = 2.02. De två olika γkärnorna illustreras i gur 4.1.

(a)

(b)

(37)

4.2 Detektorn 27 Yttre kärnan

Den yttre kärnan togs fram enligt den i avsnitt 3.2.3 beskrivna modellen. Det gav µ = 2.8359 och radien r = 5.2893, vilket tenderar att ge en för liten radie koncentrerad runt de intensivaste pixlarna för de simulerade IR-målen. Istället behöver denna funktion anpassas och detta har gjorts genom att radien har skalats om. Efter testning konstaterades att en faktor 2,5 gjorde att hela målet kom innanför cirkeln och inte enbart de ljusaste punkterna. Detta ger istället µ = 1.1344 och r = 13.2232

(a)

(b)

Figur 4.2. Figur a visar yttre γkärnan utan skalfaktor och gur b skalerat med en faktor 2,5.

(38)

28 Resultat Hitta tröskel för γCFAR

Den tröskel som gav 100% detektionssannolikhet för alla simulerade mål blev 6.3 för γCFARen. Det är denna tröskel sedan bör användas vid test mot uppmätta scener för att se hur väl det går att trimma γCFAR mot simulerade mål. I gur 4.4-4.7 följer några exemel mot simulerade mål där tröskel och intensiteten har varierats något.

4.3 Diskriminatorn

4.3.1 Inledning

Mot simulerade mål och bakgrund med tröskel enligt avsnitt 4.2.2 fungerade γCFAR ensam mycket bra. Det fanns därför i själva verket inget behov av en efterföljande diskriminator. Om bilderna däremot blir något sämre så kan tröskeln behöva sänkas lite för att med stor sannolikhet detektera alla mål. Denna sänkning medför att målliknande objekt detekteras och markeras som mål. Som resultat ska dessa inte vara med och det gäller då att sålla bort falskmål. Genom att använda diskriminatorn i kapitel 3.3 kommer falskmål med en kvadratisk funktion (ekvation 3.14) upptäckas och sållas ut.

4.3.2 Resultat Diskriminatorn

Efter att ha tagit fram en viktvektor W enligt avsnitt 3.17 applicerades QGD:n på testdata som bestod av två olika typer. Diskriminatorn tränades mot simulerade mål och falskmål ur bakgrunden som valts ut med en något sänkt tröskel. Allt som allt tränades mot 59 st falsklarm och 150 st simulerade mål. Den totala detektorn med QGD gav då ett svar som visas i gur 4.3. Genom att variera en tröskel går det att erhålla en ROC-kurva (ROC:Receiver Operating Characteristics) ur vilken en tröskel kan fås. Tröskeln väljs utifrån vilken detektionssannolikhet som önskas. Här väljs stor säkerhet utan något missat målchip vilket ger en tröskel T ≈ 0.75. Som tidigare nämnts fungerar γCFAR i sig tillräckligt bra utan diskriminatorn. För att testa QGD:ns funktionalitet gjordes tester med en mycket låg nivå på tröskeln för γCFAR. Här har använts t = 1.5på samma bild som i gur 4.4. Resultatet för detta redovisas i gur 4.5. Nu appliceras QGD:n med tröskeln T = 0.75. Resultatet visas i gur 4.9. Som guren visar lyckas QGD:n i det här fallet diskriminera alla falsklarm utom ett. Anledningen till att det blir kvar är att när γCFAR-tröskeln sänkts så mycket är relevansen mellan de mål som QGD:n tränats på och de objekt som nns här ganska liten. Detta problem är svårt att undgå med de testdata som använts.

4.4 Ytterligare resultat

Utöver de resultat som redovisats tidigare i detta kapitel har tester gjorts även på bilder med andra fordon och på riktiga scener. I gur 4.8 har två fordon placerats ut. Det målet som γCFAR och QGD är tränat mot är t72. Den stora

(39)

4.4 Ytterligare resultat 29

Figur 4.3. Test för att hitta tröskeln T

blobben i mitten är en t72 medan den lilla pricken är en btr70. Som ses i guren så detekterar γCFAR båda fordonen medans QGD:n diskriminerar btr70. I gur 4.10 redovisas resultatet då γCFAR är applicerad på en riktig IR-bild

innehållandes tre målobjekt. QGD:n testades på bilden men lyckades sålla bort samtliga mål och lämnade inget utdata. Det är inte är så konstigt då målobjekten i bilden skiljer sig från de simulerade objekten som det har tränats mot.

(40)

30 Resultat

(a) Originalbilden

(b) Det binära resultatet efter γCFAR med t = 6.3

(41)

(a) Det binära resultatet efter γCFAR med t = 4.7

(42)

32 Resultat

(43)

(a) Det binära resultatet efter γCFAR med t = 3.0

(44)

34 Resultat

(a) Resultat efter γCFAR

(b) Resultat efter QGD

(45)

Figur 4.9. Resultat efter QGD som utförts på gur 4.5(b)

(46)

(47)

Kapitel 5

Slutsatser

γCFAR-algoritmen fungerar främst för simulerade IR-bilder men har även i de få tester som gjorts på riktiga IR-bilder gett önskat resultat även där.

Diskrimineringen har inte kunnat testas ordentligt då utdatat från detektorn inte varit av sådan karaktär att det funnits behov av diskriminering.

Uppgiften bestod till huvudsak av två delar, att anpassa bentliga algoritmer för IR-bilder och att implementera några nya algoritmer för att träna speciellt γCFARen. Anpassningen har gått bra medan implementeringen har varit problematiskt varför tid inte funnits för vare sig iterativ träning eller översättning av koden från Matlab till C/C++.

Bilder för testning och träning har tagits fram med GSIM som är ett

matlabverktyg. Bilderna har varit något annorlunda jämfört med en SAR-bild. I förhållande till de få riktiga scener som funnits till förfogande har de simulerade bilderna visat sig stämma relativt bra men med skillnader i nivåer. Den

skillnaden har visat sig göra att QGD:n inte fyllt någon funktion för de bilder som här simulerats.

(48)

(49)

Kapitel 6

Fortsatta studier

Arbetet lämnar en del intressanta saker att göra i framtiden. Till att börja med skulle det behöva tränas och testas på riktiga IR-scener, något som i nuläget saknas i tillräckligt stor omfattning. Algoritmerna behöver även anpassas för att passa mer allmänna fall. Här används endast en höjd, en vinkel och därmed ett avstånd. En anpassning för att klara olika inställningar kan göras. Det är även intressant att se om det går att detektera olika måltyper vilket kräver ny träning för att hitta trösklar.

För att systemet ska klara realtidskörning så behöver de delar som inte har utförts i detta arbete göras. Det är i första steget implementering av iterativ träning för QGD:n och sedan en översättning från Matlab till C/C++.

(50)

(51)

Litteraturförteckning

[1] Linus Ahlström. Algoritmer för objektdetektering i sar och ir-bilder. Exmensarbete LiTH-ISY-EX-3320-2003, 2003.

[2] Richard Duda, Peter E Hart, and David G Stork. Pattern Classication. Wileyinterscience, 2 edition, 2001. ISBN 0-471-05669-3.

[3] Gene B Goldstein. False-alarm regulation in log-normal and weibull clutter. IEEE Transactions on aerospace and electronic systems, AES-9(1), January 1993.

[4] Simon Haykin. Neural Networks. Prentice-Hall, 2 edition, 1999. ISBN 0-13-273350-1.

[5] Todd K Moon and Wynn C Stirling. Mathematical Methods and Algorithms for Signal Processing. Prentice Hall, 1 edition, 2000. ISBN 0-201-36186-8. [6] Kim Munchurl. Focus of attention based on gamma kernels for automatic

target recognition.

http://www.cnel.u.edu/bib/pdf_dissertation/kim_dissertation.pdf, 1996. Besökt: 2008-04-07.

[7] J Principe, A Radisavljevic, J Fisher, and L Novak. Target prescreening based on a quadratic gamma discriminator. IEEE Transactions on Aerospace and Electronic Systems, 34(3): 706-715, July 1998.

[8] Monroe Schlessinger. Infrared technology fundamentals. Marcell Dekker, 2 edition, 1995. ISBN 0-8247-9259-9.

[9] Li-Kang Yen. Focus of attention for millimeter and ultra wideband synthetic aperture radar imagery.

http://www.cnel.u.edu/bib/pdf_dissertation/yen_dissertation.pdf, 1998. Besökt: 2008-04-07.

(52)

(53)

Bilaga A

Optimal detektor

Här visas att teststatistiken för t i ekvation A.1 är en optimal intensitetsdetektor då formen på inre kärnan är känd. Det är en något förenklad version av vad som beskrivs i [9] (kapitel 3). I avsnitt 3.2.1 beräknas tröskeln t som:

t = Gt⊗ X − Gc⊗ X pGc⊗ X2− (Gc⊗ X)2

(A.1) Här används vektorform för att visa på att detektorn är optimal när den

intensivaste punkten redan är centrerad till mitten av cirkeln. Att testet sker för bara den centrerade punkten leder till att faltningen kan ersättas med en skalärprodukt. t = g T tx − gTcx pgT c(x x) − (gcTx)2 (A.2) där x = vect{X}, gt= vect{Gt} och gc= vect{Gc}(se referens [5]). ⊗ är

faltning och är punktvis multiplikation.

Detta kan ses som en detektion av intensitet och kan formuleras som ett hypotestest:

H1: x = aht+ w w ∼ N (mi, σ2i)

H0: x = w w ∼ N (mi, σ2i)

htär en känd intensitetskärna som ger maximal detektion, a är amplituden, x är

en vektor innehållandes alla värden av bilden och i är en enhetsvektor som är lika stor som x. w antas vara vitt gaussiskt brus. Utan att tappa någon generalitet sätts hT

ti = 1

Därmed kan testfunktionen skrivas som t = P r(x | H1) P r(x | H0) =exp(− 1 2σ2 k x − aht− mi k2) exp(− 1 2σ2 k x − mi k2)

Genom att logaritmera båda sidorna och utveckla högerledet fås: t = a 2σ2(2h T tx − ah T tht− 2hTtmi) = a σ2h T t(x − mi) − η 2a _(A.3) 43

(54)

44 Optimal detektor där η =k htk2. Nu används maximum likelihood för att skatta a:

t = argmax a a σ2 h hT_t(x − mi) −η 2a i (A.4) vilket ger: ˆ a = 1 ηh T t(x − mi)

Nu stoppas ˆa in i A.3 och båda sidor multipliceras med 2η, då fås: t = ηˆa σ 2 = h T tx − m σ 2 (A.5) Högerledet kan inte vara mindre än noll, vilket innebär att det går bra att ta roten ur båda sidor och istället få:

t = h

T tx − m

σ (A.6)

Om det nu nns ytterligare en intensitetskärna, hc som är disjunkt från htså går

det att uppskatta m och σ som: ˆ m = hT_cx ˆ σ2= chT_c[˜x ˜x] x = x − ˆ˜ mi (A.7) där c = 1 (1−hT

chc). Variansen kan ytterligare utvecklas till:

ˆ

σ2= c[hT_c(x x) − (hT_cx)2] (A.8) Utnyttja A.7 och A.8 i A.6 så fås:

t = h T tx − h T cx q hT_c(x x) − (hT_cx)2 (A.9)

(55)

Bilaga B

Linjär diskriminator

γCFARen skrivs i avsnitt 3.2.1 som

t = Gt⊗ X − Gc⊗ X pGc⊗ X2− (Gc⊗ X)2

(B.1) Funktionen skrivs om som

(Gt⊗ X)2− 2(Gc⊗ X)(Gt⊗ X) + (Gc⊗ X)2

−t2(Gc⊗ X2) + t2(Gc⊗ X)2≶ 0 (B.2)

En generell linjär diskrimineringsfunktion i n-dimensioner skrivs på formen g(X) = w1x1+ w2x2+ · · · + wnxn+ wn+1

= WTX + wn+1 (B.3)

där W är viktvektorn och wn+1är vikten på tröskeln. I det enklaste fallet

används endast två beslutsregioner. Välj w1 om g(x) > 0 och w2 om g(x) < 0.

Om det istället används era beslutsregioner så tilldelas X till wi om

gi(X) > gj(X)för alla j 6= i där g(X) = WTX + wn+1. Om gi(X) = gj(X)så

blir X odenierat. Ekvation B.3 kan utökas och istället skrivas som g(X) = w1f1(X) + w2f2(X) + · · · + wnfn(X) + wn+1 = WTX (B.4) där F = [f1(X) f2(X) . . . fn(X) 1]T. En kvadratisk diskriminator i d dimensioner är g(X) = d X j=1 wt_jjx2_j+ d−1 X j=1 d X k=j+1 wjkxjxk+ d X j=1 wjxj+ wd+1 (B.5)

där w är anpassningsbara parametrar. För att utveckla γCFAR till QGD så utnyttjas de kvadratiska och linjära termerna av gc⊗ X och gt⊗ X i B.1. Med

(56)

46 Linjär diskriminator de termerna fås F = [gm⊗ X gn⊗ X gm⊗ X2 gn⊗ X2 (gm⊗ X)2 (gn⊗ X)2 (gm⊗ X) · (gn⊗ X) 1]T (B.6) Detta ger QGD:n y = WTF = w1(gm⊗ X) + w2(gn⊗ X) + w3(gm⊗ X2) + w4(gn⊗ X2) + + w5(gm⊗ X)2+ w6(gn⊗ X)2+ w7(gm⊗ X) · (gn⊗ X) + w8 (B.7) med W = [w1 w2 w3 w4 w5 w6 w7 w8]T.

Om det istället skulle användas

W = [0 0 0 − t2 ₁ _t2 _{− 2} _0]T

(57)

Bilaga C

PCA

För att minska dimensionen så vill vi representera n st d-dimensionella vektorer x1, . . . , xn med endast en vektor x0. Detta kan också beskrivas som att vi vill

hitta en vektor x0 så att den kvadratiska skillnaden mellan x0 och de olika xk

blir så liten som möjligt. Problemet går att beskrivas som ett minstakvadratfelsproblem och uttrycks som:

J0(x0) = n X k=1 kx0− xkk 2 (C.1) Nu ska det x0som minimerar ekvation C.1 hittas. Lösningen är ganska enkel och

ges av x0= mdär m är sampelmedelvärdet. m = 1 n n X k=1 xk (C.2)

Detta verieras genom

J0(x0) = n X k=1 k(x0− m) − (xk− m)k 2 = n X k=1 kx0− mk 2 − 2 n X k=1 (x0− m)t(xk− m) + n X k=1 kxk− mk 2 = n X k=1 kx0− mk 2 − 2(x0− m)t n X k=1 (xk− m) + n X k=1 kxk− mk 2 = n X k=1 kx0− mk 2 + n X k=1 kxk− mk 2 (C.3) I sista steget är den andra summan oberoende av x0 vilket innebär att summan

minimeras av den första summan som ger minimum då x0= m.

(58)

48 PCA Sampelmedelvärdet är en nolldimensionär representation vilket inte medger några större variationsmöjligheter. Istället vill vi införa en endimensionell representation. Nu beskrivs istället vektorn x som

x0= m + ae (C.4)

där a är en reellvärd skalär som representerar avståndet från x till m och e är enhetsvektorn. J1(a1, . . . , an, e) = n X k=1 k(m + ake) − xkk 2 = n X k=1 kake − (xk− m)k 2 = n X k=1 a2kkek 2 − 2 n X k=1 aket(xk− m) + n X k=1 kxk− mk 2 (C.5) Genom att derivera C.5 med avseende på ak fås

∂J ∂ak = 2 n X k=1 akkek 2 − 2 n X k=1 et(xk− m) (C.6)

Sätt C.6 till 0 och använd att kek2

= 1 vilket då ger ak= et(xk− m). (C.7) Nu appliceras C.7 i C.5 J1(e) = n X k=1 a2_k− 2 n X k=1 a2_k+ n X k=1 kxk− mk 2 = − n X k=1 [et(xk− m)]2+ n X k=1 kxk− mk2 = − n X k=1 et(xk− m(xk− m)te + n X k=1 kxk− mk2 = −etSe + n X k=1 kxk− m)k 2 _(C.8) där S = Pn k=1(xk− m)(xk− m) t _{som är sampelkovariansmatrisen}

multiplicerad med en faktor n-1. Den vektor e som minimerar J1 är samma

vektor som maximerar et_Se_{. För att maximera detta används}

Lagrange-multiplikatorer och vetskapen om att kek2

= 1.

(59)

49 Derivering med avseende på e ger

∂u

∂e = 2Se − 2λe (C.10)

Gradientvektorn sätts nu till 0 och då fås att e måste vara en egenvektor till vektorn S

Se = λe (C.11)

Alltså, för att maximera et_Se_{(och därmed minimera J}

1) ska den egenvektor e