Slutsats

Den av de tre prövade segmenteringsalgoritmerna som fungerade bäst i flera olika bilder utan att vara optimerad för den bilden som algoritmen prövades på var MSER. Med bäst ansågs i det här sammanhanget vara att ha mest andel korrekta träffar sammtidigt som så få falska träffar som möjligt eftersträvades. MSER kom av den anledningen att användas för att finna objekt i kamerabilder.

3.3 Stereo 23

3.3 Stereo

Efter problemen med att segmentera objekt i kamerabilden som också kunde fin- nas i SONAR-bilden, genomfördes mindre tester med stereobilder. Som tidigare beskrivits byggs kamerabilderna ihop utav ett antal olika fotografier, idéen var att undersöka om det var möjligt att använd dessa för att extrahera höjdinforma- tion. Problemet med att göra detta är att Sapphires utvärderingsprogram som datan till examensarbetet hämtades från inte var tänkt att kunna exportera något annat än den färdiga kamerabilden. Detta medförde att bilderna till kamerase- rien var tvugna att exporteras manuellt vilket var tidskrävande och något som måste göras av en anställd på SAAB Dynamics. Dessutom saknade dessa expor- ter information om geografiska referenser.

Höjdkartan har två intressanta användningsområden inom examensarbetets ra- mar som skulle vara intressanta att undersöka vidare. Dels skulle det kunna an- vändas till att stötta vilka objekt framtagna ur kamerabilden som har en hög trolighet att synas i SONAR-bilden. Eller att helt ersätta metoden att finna objekt i kamerabilden genom segmentering i kamerabilden, med att leta objekt i höjdkartan. Det andra som skulle vara intressant var om Sapphires planerade att passera intressanta föremål från samma riktning som SONAR-bilden i området är tagen från. Detta skulle troligen göra att kanter på mer komplexa föremål skulle avbildas liknande i höjdkartan som i SONAR-bilden. Det skulle kunna leda till en möjlighet att avgöra om ett komplext föremål finns med i bilden. Ett stort problem med att försöka passera från samma riktning är att det idag planeras efter minsta sannolikheten att Sapphires ska köra in i snabbt skiftande botten.

3.3.1 Stereorigg

Med en stereorigg menas två monterade kameror som är riktade mot ett föremål. Med en rektifierad stereorigg menas en uppsättning med två identiska kameror som är riktade parallellt och sitter på en baslinje som är ortogonal mot kamera- riktningen, se fig. 3.4.

Som tidigare beskrivits byggs kamerabilden ihop utav flera bilder tagna i en över- lappande serie. Sapphires är en så stabil farkost att för bildserien som undersöks så finns det endast förflyttning mellan bilderna i en riktning, dvs Sapphires be- ter sig som rektifierad kamerarigg. Från stereobilder är det möjligt att återskapa avstånd till punkter i bilderna.

Teorin bakom hur avstånd tas fram från stereobilder presenteras i [13]. Förenk- lat fungerar det genom att avståndet avståndetZ mellan baslinjen och ett objekt, beräknas enligt ekvationen 3.1 för uppsättning enligt fig. 3.5 därh är avståndet till ett koordinatsytem placerat på baslinjen med origo mellan kamerapositioner- na,f är brännvidden och x₁0, x₂0 är x-koordinaterna i bildplanen för respektive kameraposition föreställande samma objekt.

Figur 3.4: Kameraförflyttning mellan två punkter med gemensam baslinje och kamerariktning.

Figur 3.5:Stereo kamerauppsättning

Z = f · 2h x₁0 −_x0

3.3 Stereo 25

3.3.2 Resultat

För att ta fram höjdkartor användes openCV:s blockmatchningsalgoritm för stereobilder, StereoBM [14]. Figurerna 3.6 och 3.7 är bilder tagna i två olika kamerapositioner i en kameraserie, som i fig.3.4. Resultatet från StereoBM från dessa bilder är i fig. 3.8 markerat i rött, vilket visar vad som har en avvikande höjd från bakgrunden dvs botten i detta fallet.

I fig.3.8 syns tydligt begränsningen med att använda StereoBM för att automatiskt konstruera en höjdkarta. Stången som breder ut sig i rörelseriktningen kan inte detekteras som höjdavikande då blockmatchnings-algoritmen som används för att hitta motsvarande punkter inte kan identifiera några specifika förändring- ar i detta område mellan bilder. Dock har mycket få områden som inte önskas detekteras givet några falska höjdförändringar.

Fig. 3.9 visar resultatet från 198 bilder som jämförts och där resultatet har pla- cerats i en gemensam bild som har trösklats för att tydligt visa alla registrerade höjdskillnader. Då varje punkt av botten finns med i fler än ett bildpar, fanns en förhoppning om att kunna minska felaktiga detektioner genom att bara ta med höjdskillnader för en punkt om den fanns med i fler än ett bildpar. Detta testa- des genom att kräva att en höjdskillnad skulle detekteras i minst två undersökta bildpar. Resultatet från denna test kan ses i fig. 3.10 där merparten av de små detekterade områdena i fig. 3.9 har försvunnit. Fig.3.11 föreställer den samman- fogade kamerabilden över samma område och visar på en sandbotten med ett antal större föremål på. Detta skulle kunna tyda på att de många små bortfiltre- rade områdena filtrerats bort korrekt.

Fig.3.11 är exporterad från tidigare nämnda verktyg och bygger på den kameraserie som dom 198 bilderna är hämtad från. Tyvärr överstämmer bilderna inte helt områdesmässigt, vilket beror på att de olika metoderna som används för att exportera bilderna från rådatan skiljer sig åt. Vilket gör att olika start och slut- punkter från fotoserien används.

Fig.3.12 är den otrösklade höjdkartan till området som syns i fig.3.11 och ser ut att innehålla alla intressanta större föremål. Denna metod lyckades på en serie av stenar, som inte kan presenteras på grund av försvarmässigt känsligt områ- de, totalt utklassa segmenteringsalgoritmerna i att detektera stenar och ignorera skuggor. Detta gör att det skulle vara den mest intressanta metoden att undersö- ka i ett senare projekt där även de georafiska referenserna skulle kunna läggas till.

Figur 3.6:Kameraposition1 Figur 3.7:Kameraposition2

Figur 3.8:Identifierade upphöjningar från kameraposition 1 och 2, markerade i rött.

3.3 Stereo 27

Figur 3.9:Utan att filtrera på antal upptäckter

Figur 3.10:Med filtrering på antal upptäckter

Figur 3.11:Kamerabild stativ

Figur 3.12: Höjdprofil till kamerabild stativ

4

SONAR-bilden

I detta kapitel kommer en beskrivning av hur objekt har tagits fram ur SONAR- bilden.

4.1 Bakgrund

På grund av att den tidigare nämnda skuggan i kap 2.3, som demonstreras i fig. 2.7, skapas bakom ett större objekt i en SONAR-bild, så utnyttjar många klassi- ficeringsalgoritmer själva skuggan istället, se kap.7 i [6], för att titta på starkare intensiteter i bilden för att avgöra om det är den typen av objekt som eftersöks. I det här examensarbetet är det inte möjligt att förlita sig på något liknande då stenar och liknande föremål som eftersöks många gånger sticker upp så pass lite att ingen direkt skugga är synliga i SONAR-bilden för dessa objekt.

SONAR-bilden som exporteras från utvärderingsverktyget 4.1 har anpassats för att studeras av människor. Alla SONAR-bilder har omvandlats till gråskalebilder, se fig. 4.2.

Figur 4.1:SONAR-bilden som exporteras från utvärderingsverktyget.

4.2 Identifiering av objekt 31

4.2 Identifiering av objekt

Objekten i SONAR-bilden identifieras i genom att låta SONAR-bilden genomgå två steg. Det första steget är att tröskla bilden. Detta görs för att separera om- råden på botten som har reflekterat ljudpulserna starkare än omgivningen. Det andra steget tittar på de områden som har starkare reflektioner och med hjälp av MSER identifieras troliga objekt bland dessa.

Figur 4.3:Histogram till SONAR-bilden i gråskala

4.2.1 Maxtröskling

En första analys av histogrammen till SONAR-bilderna visade att starka intensiteter, som innebär starka reflektioner, skiljer sig markant mellan troliga objekt och botten. I fig. 4.3 visas histogrammet till 4.2. Genom att tröskla histogrammet under maxintensiteten har det varit möjligt att identifiera de områden som representerar någon form av reflekterande föremål. Då ingen data som beskriver den korrekta fördelningen av föremål har varit tillgänglig, har bedömningen att korrekta områden är markerade bedömts av en människa.

På grund av att SONAR-bilden genomgår ett antal steg efter det att den exporterats ut ur Sapphires har en marginal på 10% från det högsta värdet tagits med som marginal för att få med delar av objekt som smetats ut på grund av filtre- ringar som sker innan bilderna har exporterats från utvärderingsverktyget till Sapphires. Områdena från fig. 4.2 som identifieras som tillhörande objekt från histogrammet i fig. 4.3 med hjälp av denna metod återfinns i fig. 4.4 markerade med rött.

Figur 4.4:Trösklade områden markerade med rött

4.2.2 Objekt

Den trösklade bilden innehåller bara information om var det finns troliga objekt. Denna information måste tolkas för att finna objekt. Som tidigare nämnts så finns det inget sätt att avgöra vilken del av ett okänt föremål som avbildats i SONAR-bilden, därför modelleras ett föremål som ett objekt bestående av en cir- kel med en diameter som motsvarar storleken på vad som syns i SONAR-bilden. Det har för de föremålen som har identifierats i både SONAR-bilden och kamerabilden, visat sig vara en rimlig tolkning. Den trösklade bilden har filtrerats med ett Gauss-filter för att försöka bryta isär närliggande stenar i stenkluster genom att efter filtreringen utnyttja MSER för att klassificera bilden till objekt. Fig. 4.5 visar en minimal särbrytning av områdena med hjälp av Gauss-filtret, vilket re- sulterar i att det stora området med stenar i den nedre högra halvan av bilden tolkas som ett enda stort sammanhängande objekt. Samma område med stenar i fig. 4.6 är uppdelat i hundratals områden som är så pass små att det knappt är möjligt att uppfatta de röda cirklarna kring objekten, utan området ser mer ut som om det har färgats rött.

4.2 Identifiering av objekt 33

Figur 4.5:Av MSER identifieraden objekt. Inställning för stora objekt.

5

Korrelation

För att kunna bestämma om kamerabilden är tagen på den plats relativt SONAR- bilden som antagits behövs en metod som jämför information från dem båda. Som nämnts tidigare i kap 2.4 har objektrepresentationen till kamerabilden och SONAR-bilden valts som cirklar med en specificerad mittpunkt och en radie.

5.1 Bakgrund

I [15] beskrivs hur objekt kan identifieras i en bild utgående från en mall av det sökta objektet. Som tidigare nämnts i kap. 2.3 är det svårt att hitta objekt som avbildas liknande i kamera och SONAR-bilder, utan det är det spatiella relationerna mellan objekt som kommer undersökas. Det skulle dock gå att se mönstren som skapas som bilder som ska jämföras. Som beskrivet i kap 1.3 har bilderna från Sapphires den stora fördelen att dess riktning och reella upplösning finns beskrivet. Så det enda som skiljer mellan bildernas interna koordinatsystem är en translation. Därför går det att jämföra bilderna utan att behöva använda skalpy- ramider eller undersöka olika orienteringar.

Ett stort problem är att mönstren från kamera och SONAR-bilderna endast i mycket sällsynta fall har en exakt överensstämmelse. Detta beror på ett antal olika oberoende orsaker.

• Samma objekt kan ha identifierats med olika storlekar i kamerabilden respektive SONAR-bilden. T.ex. beroende på att endast en del av ett stort fö- remål finns med i kamerabilden, eller att SONAR:en observerat ett avlångt föremål från den kortaste sidan.

• Föremål kan synas i den ena bilden men inte i den andra. Detta beror i

SONAR-bildens fall på SONAR:ens markpenetrerande egenskaper och i kamerabildens fall på att t.ex. sjögräs och skuggor inte syns i SONAR-bilden. • Som det beskrivs i kap 2.3 så kan position för ett objekt skilja mellan bilder-

na beroende på hur stort föremålet är.

5.2 Metod

Eftersom det inte har varit möjligt att avgöra på förhand vilka föremål som går att identifera i båda bilderna, har metoden som använts testat alla föremål från båda bilderna mot varandra. Att göra på det viset är kostsamt beräkningsmässigt och skulle kunna gå att undvika, tex genom RANSAC, sida 461-464 i [13], eller att minska antalet objekt i SONAR-bilden genom att bara koncentrera sökningen i en mindre region kring den förväntade positionen för farkosten. Dock har det i den begränsade mängden dataset som använts inte funnits behov av att minska beräkningskostnaderna då endast ett fåtal objekt har kunnat identifierats i kamerabilderna.

Från objekten i kamera och SONAR-bilden skapas två set med objekt, set C och C’. Ett objekt i C väljs ut, i fig. 5.1 kallad A. På samma sätt väljs ett objekt i C’ ut, i fig. 5.1 kallad B. En hypotes skapas, som går ut på att A och B representerar samma objekt i C respektive C´. För att undersöka troligheten i denna hypotes tas translationen mellan A och B fram, så att A och B får samma koordinater i de respektive koordinatsystemen. Övriga objekt i C translateras med samma translation. Sedan jämförs objekten i C med objekten i C’ genom att kontrollera för alla objekt i C ifall det överlappar ett objekt i C’. Ifall ett par av matchande objekt finns, ger det ett poäng. Ifall samma objekt i C överlappas av flera objekt i C’ ges minuspoäng eftersom det finns en osäkerhet i området, vilket främst verkar ske i områden med ansamlingar av föremål där vilka mönster som helst kan matchas in. Med överlapp menas att två objekts radie överlappar varandra i någon punkt. Detta gör att stora förmål, se exempel i fig. 2.8, som varierar stort i placering beroende på betraktarens riktning till föremålet, tillåts variera mer i avstånd än små föremål. Tillvägagångssättet finns beskrivet i 1. De hypoteser med högst antal poäng anses vara de mest troliga positionerna för C i C’.

Exempel

Datan som representeras i exemplet bygger på verkliga bilder. I fig. 5.2 visas objekt framtagna från en SONAR-bild enligt metoden beskriven i kap. 4. Motsvaran- de objekt från kamerabilden presenteras i 5.3. I fig. 5.4 representeras kameraobjekten med röda cirklar. Kameraobjekten är translaterade för att testa hypotesen att detta är den korrekta positionen. Som synes i bilden är det inte troligt att detta är en korrekt position då endast ett par objekten överensstämmer, vilket är det paret som translationen har utgått efter. I detta exemplet lyckas algoritmen endast med att som bäst para ihop 3 par objekt, av maximalt 7, för ett antal po- sitioner som utgör hypoteserna. I fig. 5.5 presenteras dessa hypoteser. Siffrorna motsvarar den individuella summan för varje hypotes att motsvarande objekt har

5.2 Metod 37

Algorithm 1Matching Code

Fori = 1 to maximum number of points in C Forj = 1 to maximum number of points in C’

vectorsearchFrame = GetSearchParameters( the differens in positon between the points ci and c

0 j);

vectorpointsInFrame = GetAllPointsInSearchFrame(

C,seartchFrame); //Returns the points in C that is in the search area. vectorusedCriteria[number of points in C’] = false;

intmatchScore = 0;

Forix = 1 to maximum number of points in pointsInFrame Foriy = 1 to maximum number of points in C’

IfComparePoints(pointsI nFrame[ix] and c0_iy+ translation) == true IfusedCriteria[iy] == false

//This point in the camera image have not been used to make a match. usedCriteria[iy] = true;

matchScore = matchScore +1; Else

//This point is already used. matchScore = matchScore - 1; IfmatchScore < 0

matchScore = 0;

Figur 5.1:Translationen mellan bilderna tas fram genom skillnaden mellan A och B

Figur 5.2:Objekt funna i SONAR-bild

identifierats. En svaghet med metoden kan ses i fig. 5.6, där en stor mängd stenar gör att ett stort antal felaktiga objekt stämmer överens med varandra. Den korrekta positionen visas i fig. 5.7.

5.2 Metod 39

Figur 5.3:Objekt funna i kamerabild

Figur 5.4:Objekten från KB har translaterats med hypotesen att två objekt är samma. Det är inte troligt att denna hypotes är korrekt.

Figur 5.5:De mest troliga hypoteserna.

5.2 Metod 41

6

Utvärdering

För att utvärdera det sammansatta systemet har två olika kamerabilder tillhöran- de en SONAR-bild undersökts. Målet med uppgiften har varit att identifiera den korrekta positionen för var kamerabilderna är placerade relativt SONAR-bilden. Bilderna kommer från två olika passager av Sapphires och dessa vissas i fig. 6.1. Den första kamerabilden innehåller stenar och liknar de bilder som använts för att utveckla metoden. Den andra bilden innehåller delar av en struktur som till- hör ett stativ placerat på botten. Den senare bilden kommer visa på begränsning- arna i den lösningsmetod som framtagits.

Figur 6.1:Kamerapassager över botten. Inlagda efter Sapphires uppskatt- ning av sin position.

6.1 Enkla former

Stenarna i fig. 6.2 utgör vad som kommer att beskrivas som enkla former. Enkla former beskriver utformningen på föremål som har egenskaperna att de är:

• Relativt små objekt

• I huvudsak konvexa i utformningen Dessa egenskaper leder till:

• Ökad sannolikhet att segmenteringen i kamerabilden representerar ett fö- remål som ett sammanhängade objekt

• Positionen i SONAR-bilden kommer inte att variera så mycket inbördes mellan objekten relativt kamerabilden

Utvärdering

Fig. 6.2 visar kamerabilden med identifierade objekt markerade. Det syns tydligt att det största föremålet i bilden korrekt markerats som ett objekt, men också att ett antal mindre föremål inte har identiferats. I SONAR-bilden, fig. 6.3, har merparten av vad som kan bedömmas vara objekt markerats korrekt. De troligaste hypoteserna om korrekt placering utgående från kamera och SONAR-objekten presenteras i fig. 6.4 där den korrekta positionen finns med i resultatet vilket visas genom att jämföra fig. 6.5 med fig. 6.6. Där fig. 6.5 visar kameraobjektens position efter att dessa har translaterats med den translationen som tillhör en av de troligaste hypoteserna och fig. 6.6 visar var Sapphires anser att bilden tagits. De två positionerna överensstämmer väl, vilket visar att ett korrekt resultat är möjligt att uppnå även när algoritmen inte är speciellt framtagen för det unika testfallet.

6.1 Enkla former 45

6.1 Enkla former 47

Figur 6.4:De troligaste överensstämmande objekten, där siffrorna står för objektens identifikationssiffra i kamerabilden respektive SONAR-bilden

Figur 6.5: Kameraobjekten translaterade efter överensstämmande objekt(kameraobjekt 3 och SONAR-objekt 399 från fig. 6.4)

6.1 Enkla former 49

6.2 Komplexa former

I fig. 6.7 finns exempel på vad som kommer att beskrivas somkomplexa former. Till skillnad frånenkla former så defineras komplexa former av:

• Relativt stora objekt

• Avlånga, konkava eller annan form av ojämt fördelad yta Dessa egenskaper leder till:

• Ökad sannolikhet att segmenteringen i kamerabilden representerar ett fö- remål som flera olika objekt

• Stora föremål ger även större sannolikhet att skuggor uppstår som segmen- teras som objekt

• Positionen i SONAR-bilden kommer att variera mycket inbördes mellan objekten relativt kamerabilden

• Stora föremål med uppstickande delar kan i SONAR-bilden delas upp i flera olika objekt

Utvärdering

Försök med att identifiera positionen för fig. 6.7, som innehåller ettkomplext fö- remål, visar att en stor del av de förväntade problemen uppstår. I den övre delen av stativet missar segmenteringen att finna det övre fundamentet som stativet vilar på. På grund av riktningen till SONAR:en syns inte fundamentet heller i SONAR-bilden, fig. 6.3. Men istället delades stången mellan fundamenten upp i flera delar. Resultatet med de högst rankade hypoteserna är presenterade i fig. 6.8. Ingen av de högst rankade hypoteserna var korrekta. Dock fanns det bland lägre rankade hypoteser korrekta lösningar. Den informationen ger inte mycket om positionen är helt okänd men dessa punkter sammanfaller med vart naviga- tionen från Sapphires anser att kamerabildens position ska vara, se fig. 6.9. Det här visar att metoden inte hanterar komplexa former med någon säkerhet. Men att om föremålet har delar som kan ses som ett antal enkla former, alternativt att sådana uppträder i andra delar av bilden, kan det tillsammans med en jämförelse med farkostens navigationsuppskattning ge ett visst stöd i hur sannolikt det är att farkosten befunnit sig i ett specifikt område.

6.2 Komplexa former 51

6.2 Komplexa former 53

7

Kapitlet innehåller slutsater dragna under exjobbet och, utgående från dessa, för- slag på framtida arbeten.

7.1 Frågeställningen

Examensarbetet lyckades med att visa att det går att jämföra informationen från kamera och SONAR-bilden. Detta genom att visa att det går att få svar på de frågeställningarna presenterade i kap. 2.5.2.

Går det att automatiskt finna föremål i kamerabilden?

Kapitel 3 visar att det är möjligt att automatiskt finna objekt som skiljer sig från

In document Korrelering mellan optiskt och akustiskt avbildade objekt på havsbotten (Page 34-71)