Automatisk detektering av förutbestämda former i olika miljöer

(1)

DEGREE PROJECT, IN , FIRST LEVEL STOCKHOLM, SWEDEN 2014

Automatisk detektering av

förutbestämda former i olika miljöer

JOAKIM FORSLUND

(2)

Automatisk detektering av förutbestämmda former i olika miljöer

Degree project in Information and Software systems Stockholm, Sweden 2014 Joakim Forslund

(3)

Automatisk detektering av f¨ orutbest¨ ammda former i olika milj¨ oer

Joakim Forslund, joforsl@kth.se Handledare: Fredrik Lundevall, flu@kth.se Examinator: Johan Montelius, johanmon@kth.se

Med f¨orstudie skriven gemensamt med: Gustav Lundstr¨om, guslun@kth.se March 31, 2014

(4)

Abstract

Den här rapporten mäter i vilka miljöer det g˚ar att hitta förutbestämda former med OpenCV och en ”off-the-shelf” webkamera.

This project measures in which environments a predetermined shape can be found with OpenCV and ”off-the-shelf” webcameras.

(5)

F¨ orord

Jag vill tacka Gustav Lundström som jag har jobbat tillsammans med under projektet. Han hoppade p˚a med kort varsel och var snabbt tvungen att sätta sig in i koden. Tack även till Davis Ersson, vart arbete med DotDetector denna rapport baseras p˚a.

(6)

Inneh˚ all

Abstract i

F¨orord ii

1 Introduktion 1

1.1 Bakgrund och problemmotivering . . . 1

1.2 Overgripande syfte . . . .¨ 2

1.3 Avgr¨ansningar . . . 2

1.4 M˚al . . . 2

1.5 Rapportens struktur . . . 3

2 Tidigare arbete 4 2.1 Lasertraq . . . 4

2.2 Laser Pointer Tracking in Projector-Augmented Architectural Environments . . . 4

2.3 Laser Point Interaction . . . 5

2.4 A Practical System for Laser Pointer Interaction on Large Displays . . . 5

3 Teori 6 3.1 Bildomvandling . . . 6

3.1.1 Gr˚askalning . . . 6

3.1.2 Thresholding . . . 7

3.2 Konturanalys . . . 8

3.2.1 H¨amta konturdata fr˚an bild . . . 8

3.2.2 Polygon-f¨orenkling . . . 8

4 Metod 9 4.1 Tester av systemet . . . 9

5 Konstruktion 10 5.1 Multipla Thresholds . . . 11

5.2 Dynamiska Thresholds . . . 11

5.3 H¨orn-detektering . . . 12

(7)

6 Resultat 13

6.1 M¨atresultat . . . 14

7 Slutsatser 16 7.1 Analys . . . 16

7.2 Diskussion . . . 17

7.3 Konsekvensanalys . . . 18

7.4 Framtida arbete . . . 18

(8)

Kapitel 1

Introduktion

Denna rapport bygger vidare p˚a ett projekt kallat DotDetector, i huvudsak kodat av David Ersson. DotDetector är ett system som, med hjälp av en webkamera, kan hitta pricken fr˚an en laserpekare p˚a en vägg och använda den som en HID (Human Input Device).

DotDetector fungerar i nuläget s˚a väl att det g˚ar att använda p˚a ett vettigt sätt. Men för att använda det krävs att man är ganska insatt i hur systemet fungerar. I början av varje körning m˚aste vissa delar av systemet kalibreras beroende p˚a hur miljön ser ut i rummet där det används. De viktiga miljö- faktorerna är ljuset i rummet, och vinkeln mellan kameran och väggen som använs som rityta för laserpekaren. Beroende p˚a hur dessa tv˚a faktorer ser ut m˚aste systemet ställa in en viss exponeringstid för kameran, och skapa en transformationsmatris som kompenserar för kamerans vinkel mot väggen.

I nuläget är denna kalibrering manuell och inte helt trivial. Jag har f˚att i uppdrag att utöka funktionaliteten hos DotDetector genom att automatisera den geometriska kalibreringen. Detta har jag löst genom att visa en testbild med en förutbestämd symbol i varje hörn (härefter kallade ’kalibrerings- former’). Sedan har jag skrivit mjukvara som hittar dessa kalibrerings- former, och skickar deras positioner till rutinen som beräknar den sökta transformationsmatrisen. Som systemet fungerade innan var användaren själv tvungen att i en bild markera positionerna för ritytans hörn.

1.1 Bakgrund och problemmotivering

Grunden till DotDetector lades för ungefär tv˚a och ett halv ˚ar sedan. D˚a fick jag och n˚agra studiekamrater möjlighet att använda tekniken p˚a Naturhis- toriska Riksmuseét’s planetarium Cosmonova. Författaren lyckades övertyga personalen p˚a museét att l˚ata oss anordna aktiviteter där under sektionens mottagning av nya studenter i slutet av sommaren 2012. D˚a vi funderade

(9)

p˚a vad vi skulle vilja göra för aktiviteter för de nya studenterna lades en ide fram om att bygga ett spel liknande Nintendo’s gammla klassiker ”Duck Hunt”. Vi ville använda en laserpekare som HID (Human Input Device) eftersom det skulle till˚ata m˚anga spelare sammtidigt och passade bra till förutsättningarna i själva lokalen. Det har (tyvärr) inte blivit n˚agot spel till Cosmonova än, men det projektet utvecklades till DotDetector-projektet, som denna rapport i sin tur bygger p˚a.

Anledningen till att vi vill vidareutveckla DotDetector i denna rapport är främst att öka användarvänligheten. Om DotDetector ska kunna användas av gemene man, som inte är intresserad eller insatt i hur systemet fungerar, m˚aste det vara enklare att komma ig˚ang. M˚albilden är att DotDetector bara ska vara ett genomskinligt interface mellan h˚ardvara och applikationer. Det ska inte behövas n˚agon handp˚aläggning fr˚an användaren för att det ska fungera.

1.2 Overgripande syfte ¨

Syftet för detta arbete är att bygga ett system som automatiskt kan sköta den geometriska kalibreringen av DotDetector-programmet.

1.3 Avgr¨ ansningar

I denna rapport har jag valt att arbeta under vissa begränsningar för vilken h˚ardvara som f˚ar användas, och under hur sv˚ara förh˚allanden som detekteringen m˚aste fungera. Endast ”off-the-shelf” projektorer och webkameror används, och kameran ska inte ha högre upplösning än 640 X 480 pixlar.

Processorkraften som krävs för bildbehandlingen f˚ar inte överstiga vad som kan förväntas av en vanlig dussin-laptop. Detekteringen ska fungera med hög träffsäkerhet under normal rumsbelysning.

1.4 M˚ al

M˚alet med denna rapport är att reda ut inom vilka environment-parameters man, med god träffsäkerhet, automatisk i mjukvara kan identifiera förut- bestämmda geometriska former i digitala bilder.

(10)

1.5 Rapportens struktur

I kapitel 3 redovisas tidigare arbete innom ¨amnet.

Kapitel 4 beskriver grundläggande teori som behövs för att först˚a rapporten.

Kaptiel 5 beskriver hur arbetet har bedrivits och hur programmet har testats.

Kaptiel 6 beskriver hur ShapeDetector fungerar.

Kapitel 7 redovisar resultaten av de m¨atningar som gjorts.

Kaptiel 8 beskriver f¨orfattarens egna slutsatser kring projektet.

(11)

Kapitel 2

Tidigare arbete

Att kalibrera kameror med hjälp av mönsterigenkänning är ett välkänt problem. Det används i m˚anga olika typer av Augmented Reality implementa- tioner. Fr˚an enkla system som DotDetector med stöd för en kamera, till system som täcker alla väggar i ett rum och använder flera, ibland roterande, kameror.

2.1 Lasertraq

Ett tidigare projekt som liknar v˚art är LaserTraq. Det är ocks˚a gjort för att just hitta pricken fr˚an en laser-pekare m.h.a en kamera och använda den som Human Input Device. Det har stöd för att använda laserpekare i olika färger samtidigt, och kan hantera inläsning fr˚an mer än en kamera. Det har dock ingen autokonfigurering utan b˚ade geometri- och kamerainställningar m˚aste göras manuellt. LaserTraq-projektet har laddats ner totalt ca 1450 g˚anger och uppdaterades senast 2008¹.

2.2 Laser Pointer Tracking in Projector-Augmented Architectural Environments

Artikeln Laser Pointer Tracking in Projector-Augmented Architectural En- vironments² beskriver ett system för att hitta en laser-prick, och projicera bilder p˚a alla väggar i ett rum. Systemet använder b˚ade en rörligt s.k. PTZ- kamera och en fast kamera som en typ av referenspunkt. Här m˚aste b˚ade interna parametrar i den rörliga kameran och ”rumsberoende” parametrar konfigureras.

1https://code.google.com/p/lasertraq/, 2014-04-17

2http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.88.2730&rep=rep1&type=pdf, 2014-03-24

(12)

2.3 Laser Point Interaction

Laser Point Interaction³ beskriver ett system som är väldigt likt DotDetec- tor. Det hittar en laser-prick, med en kamera, p˚a en vägg. De använder dock ett mönster med 25 prickar för kalibrering av kameran, istället för 4 former som i DotDetector. Det framg˚ar inte om kalibreringen är automatisk eller inte.

2.4 A Practical System for Laser Pointer Interac- tion on Large Displays

Systemet i denna artikel är även det mycket likt DotDetector och det som beskrivs i 3.3⁴. Här används en bild med horisomtella och vertikala linjer som kalibrerings-bild. Detta för att systemet ska kunna kompensera även för förvrängning i bilden som uppst˚ar p.g.a. ”fish-eye” effekter i kamerans lins. Vi har inte märkt av n˚agra problem med s˚adan förvrängning i DotDe- tector.

Författarna har även uppmärksammat problemet med att använda ett kon- stant Threshold-värde. De har dock en annan lösning. Under kalibreringen tas ett antal bilder där projektorn visar en helt vit p˚a ritytan. Dessa bilder används sedan som en referens i den senare detektionen. För att hitta laser- pricken försöker systemet hitta en punkt vars ljusstyrka ligger ett visst värde

¨

over referens-v¨ardet.

3http://icie.cs.byu.edu/Papers/LaserPointer.pdf, 2014-03-24

4http://dl.acm.org/citation.cfm?id=1101637

(13)

Kapitel 3

Teori

Om man vill först˚a de tekniska detaljerna kring hur problemet har lösts kräv lite förkunskap i tv˚a omr˚aden: hur en bild omvandlas fr˚an färgskala till svart-vit, och hur mjukvara analyserar en bild för att hitta konturer. För mer detaljer hänvisas läsaren till OpenCV’s dokumentation¹.

Grundtanken i systemet är att en bild läses in fr˚an kameran och behand- las för att skapa en bild enbart best˚aende av helt svarta och helt vita pixlar. Denna behandlade bild analyseras sedan för att hitta mönster. Hur man väljer att göra konturanalysen och bildbehandlingen har mycket stor p˚averkan p˚a slutresultatet. I slutändan är det konturanalysen som faktiskt hittar de former vi letar efter, men bildbehandlingen bestämmer hur effektiv denna analys kan vara. Det är därför viktigt att optimera b˚ada dessa steg för det tänkta användningsomr˚adet.

3.1 Bildomvandling

Syftet med bildbehandlningen är att, fr˚an den inlästa bilden, skapa en ny bild med s˚a mycket kontrast som möjligt mellan de former vi är intresserade av att hitta, och bakgrunden. Detta sker i tv˚a steg, varav det första är ganska trivialt.

3.1.1 Gr˚askalning

I första steget gör vi om bilden till gr˚askala i en enkel transformation. Varje pixel i den gr˚askalade bilden bestäms av RBG värderna i orginalbilden.

Gr˚askalningen är anpassad för att beh˚alla s˚a mycket av informationen om ljuset i bilden som möjligt. Detta passar v˚ar tillämpning bra d˚a vi vill f˚a fram mycket kontrast i bilden.

(14)

3.1.2 Thresholding

Nästa steg är betydligt viktigare för den efterföljande konturanalysen än gr˚askalningen. När vi är klara med gr˚askalningen har vi en bild där varje pixel har ett värde mellan 0 och 255. För konturanalysen vill vi dock ha en bild där varje pixel antingen har värdet 0 eller 255. Detta kallar vi för en

’binär bild’, eftersom varje pixel har ett av endast tv˚a möjliga värden.

Konverterigen fr˚an gr˚askala till binär bild sker genom att vi först väljer ett värde mellan 0 och 255. Detta kallar vi v˚art ’tröskelvärde’, eller p˚a engelska

’threshold value’. Sedan g˚ar vi igenom den gr˚askalade bilden pixel f¨or pixel.

Varje pixel i den gr˚askalade bilden som har ett värde under tröskelvärdet sätts till vit, och alla pixlar över tröskelvärdet sätts till svart (eller tvärtom om s˚a önskas, det spelar ingen roll för konturanalysen). Valet av tröskelvärde har mycket stor p˚averkan p˚a hur effektiv konturanalysen är.

Figure 3.1: Tv˚a binära bilder skapade fr˚an samma orginalbild med olika Threshold-värden. Olika konturer framträder i de olika bilderna.

(15)

3.2 Konturanalys

När den binära bilden är klar kan vi p˚abörja konturanalysen. Precis som med bildomvandlingen sker detta i tv˚a steg, varav det första är ganska trivialt.

Först hämtar vi alla konturer vi hittar i bilden, sedan analyserar vi dem för att plocka ut de former vi är intresserade av.

3.2.1 H¨amta konturdata fr˚an bild

När vi tar ut konturerna ur den binära bilden kommer alla slutna omr˚aden i bilden räknas som en kontur. Varje kontur sparas i en datastruktur kallad

’CvSeq’. En CvSeq best˚ar i sin tur av en serie koordinat-punkter (i x,y rymd), där varje koordinat är ett ’hörn’ av konturen. En kontur kan ha godtyckligt antal hörn. Algoritmen som letar efter konturer strävar efter att ge varje kontur s˚a m˚anga hörn som möjligt, d˚a detta ger oss mer exakt data p˚a hur objekten i bilden ser ut.

3.2.2 Polygon-f¨orenkling

Efter att konturerna har hämtats ur bilden förenklas dem med hjälp av Ramer–Douglas–Peucker’s algoritm². Denna förenkling reducerar, p˚a ett intelligent sätt, antalet hörn i varje kontur. Förenklingen görs för att f˚a ut mer korrekta former fr˚an koturdatat. P˚a grund av brus och d˚alig upplösing p˚a bildkällan kan en kontur f˚a fler punkter än vad den motsvarande formen i bilden har hörn. Bruset och bild-artefakter kommer ofta med i den binära bilden och ger upphov till störningar när vi gör konturanalysen. Känsligheten p˚a förenklingsalgoritmen har stor inverkan p˚a hur korrekt form-detektering systemet uppn˚ar.

Figure 3.2: Afrikas kontur f¨orenklad med RDP-algoritmen

(16)

Kapitel 4

Metod

Utvecklingen har skett uteslutande i C med Linux som operativsystem i botten. Detta val kom ganska naturligt eftersom DotDetektor är byggt p˚a samma sätt. D˚a de b˚ada systemen ska kopplas samman i slutändan kändes det lämpligt att göra dem s˚a kompatibla som möjligt fr˚an början.

C som programmeringsspr˚ak lämpar sig även ganska väl för detta projekt, eftersom kalibreringsrutinen m˚aste göra relativt tunga beräkningar i realtid och C är ett mycket snabbt spr˚ak. Vissa lösningar hade varit enklare att implementera i t.ex. Java, men författaren gör bedömmningen (detta har dock inte testats) att prestandan hade f˚att lida i s˚a fall.

4.1 Tester av systemet

Mycket av utvecklingstiden har lagts p˚a att testa systemet. Eftersom det

¨

ar väldigt sv˚art att p˚a förhand bedömma exakt vad en ändring av en del av system kommer f˚a för effekt p˚a slutresultatet, var det betydligt enklare att

’känna sig fram’ när parametrar skulle optimeras eller tv˚a olika lösningar stod mot varandra. Efter varje ändring s˚a kördes systemet i en stabil testmiljö och en bedömmning gjordes om detekteringen blev bättre eller sämmre.

Ett par olika miljöer har används för tester. Den första, och kanske mest relevanta, var IN-Sektionen’s sektionslokal Kistan i Forum-byggnaden. Sys- temet har testats med en i lokalen monterad projektor av vanlig kontorsmod- ell och varierad bakgrundsbelysning. Denna miljö är en bra approxima- tion p˚a en kontorsmiljö där systemet är tänkt att användas. Sedan har tester ocks˚a gjorts i miljöer med betydligt mindre ljus än i Kistan, främst i författarens lägenhet. I de mest p˚afrestande tester som gjorts var lägenheten helt nedsläckt. Endast ljuset fr˚an ett par datorskärmar var tillräckligt för att systemet skulle hitta en förutbestämmd form ritad p˚a ett anteckningsblock, ungefär 5x5cm stor, p˚a ett avst˚and av 40-50cm.

(17)

Kapitel 5

Konstruktion

För att lösa uppgiften har jag utvecklat ett system kallat ShapeDetec- tor. Den största ansträngningen under utvecklingen har varit att f˚a systemet helt automatiskt. Ett av kraven är som sagt att konfigureringen ska ske helt utan handp˚aläggning fr˚an användaren. De liknande projekt som vi fann under litteraturstudien krävde alla n˚agon form av manuella inställningar. Det största problemet var att systemet m˚aste g˚a att använda i varierande ljusförh˚allanden, och det visade sig snabbt vara omöjligt att hitta en inställning som fungerade tillräckligt bra i alla miljöer. Systemet behöver med andra ord dynamiskt kunna hitta ett Threshold-värde som passar för de aktuella förh˚allandena. Först därefter kan det börja söka efter de former som ska hittas. Detta m˚aste ocks˚a ske inom en rimlig tid ur användarsynpunkt.

Det var med andra ord flera del-problem som beh¨ovde l¨osas:

1. Hur ska systemet automatiskt hitta ett Thresholding-värde där alla konturer som behövs för konfigureringen syns i den binära bilden?

2. Hur ska systemet skilja p˚a konfigurerings-konturer och ¨ovriga konturer?

3. Kan systemet l¨osa dessa uppgifter p˚a ett tidsspann av ett par sekunder?

Varje fr˚aga har f˚att en mekanik i systemet som l¨oser just den uppgiften.

Underrubrikerna 6.1, 6.2 och 6.3 svarar p˚a fr˚aga 3, fr˚aga 1 och fr˚aga 2 re- spektive. Anledningen till att fr˚agorna och svaren inte st˚ar i samma ordning

¨

ar att rapporten som helhet blir mer lättförst˚aelig om systemet förklaras i den ordningen.

(18)

5.1 Multipla Thresholds

Som beskrevs i rubrik 4.1 sker konturanalysen inte p˚a bilden systemet h¨amtar fr˚an kameran utan p˚a en bin¨ar bild med enbart svarta och vita pixlar.

Aven om omvandlingen fr˚¨ an r˚a kamera-bild till binär bild inte är helt trivial beräkningsmässigt, s˚a tar det betydligt längre tid för kameran att ex- ponera en ny bild än vad dessa beräkningar tar. Tiden mellan att binär- konverteringen är klar och att systemet f˚ar in en ny bild fr˚an kameran är bortslösad beräkningstid. I en naiv implementation skulle systemet i detta läge ligga och vänta p˚a en ny bild i ett blockerande anrop till kameran.

ShapeDetector använder denna tid till n˚agot användbart. Istället för att bara generera en binär bild per bildruta fr˚an kameran, använder ShapeDe- tector m˚anga olika värden för att generera lika m˚anga olika binära bilder.

Varje binär bild analseras sedan separat av konturanalys-algoritmen. P˚a författarens laptop hinner upp till 20 binära bilder genereras per bildruta om kamerans exponerinstid är 1/30 sekunder.

Multipla Thresholds hjälper oss p˚a s˚a sätt att vi f˚ar ut mer konturinfor- mation per bildruta per tidsenhet än om vi bara använt ett värde. Det kan ungefär liknas vid att ta en bild med m˚anga olika exponeringstider.

Beroende p˚a hur ljuset i rummet ser ut, kommer vissa detaljer i bilden framträda tydligare vid vissa exponeringstider. P˚a samma sätt framträder olika konturer vid olika Threshold-värden. De multipla binära bilderna blir som olika lager av ljus som söks av var för sig. En kalibrerings-kontur kan vara helt osynlig i ett lager men fullt synligt i ett annat.

5.2 Dynamiska Thresholds

För att kunna hantera olika ljusförh˚allanden utan n˚agon manuell inställning, krävs att systemet själv dynamiskt kan avgöra vilka Threshold-värden som

¨

ar lämpliga under körning. Detta löser ShapeDetector genom att implementera en feedback-loop i mekanismen som beskrivs i kapitel 6.1 ovan.

När konturanalysen av ett Threshold-lager i mekanism 6.1 är avslutad, rap- porterar rutinen som gör konturanalysen ett mätvärde tillbaka till en central arbitrator. Mätvärdet best˚ar av hur m˚anga meningsfulla konturer som hit- tades i lagret. Meningsfulla i det här fallet betyder konturer som har en area större än 50 pixlar, för att filtera ut brus. Arbitrators uppgift är sedan att s˚alla ut lager som inte har tillräcligt bra mätvärden och ge ut nya Threshold- värden som dessa lager ska arbeta med i nästa bildruta.

Det finns tv˚a fall d˚a arbitratorn ändrar Threshold-värdet för ett lager. Först,

(19)

om mätvärdet för ett lager är under ett minsta till˚atna värde. Eller, om inget lager ligger under det minsta till˚atna värdet, s˚a ändras istället Threshold- värdet för det lager med lägst mätvärde. I det först fallet kan Threshold- värdet för alla lager ändras mellan tv˚a bildrutor. Om inget lager ligger under det minsta värdet ändras bara ett lager, det med lägst mätvärde. Ett specialfall är om ett lager har hittat en kalibrerings-form. Lagret kommer rapportera detta tillbaka till arbitratorn, som d˚a inte kommer att ändra p˚a det lagrets Threshold-värde mellan den nuvarande och nästföljande bildruta oavsett lagrets mätvärde. Nya Threshold-värden för lager som skall ändras slumpas fram i intervallet 0 till 255. En kontroll görs sedan s˚a att inget annat lager använder den framslumpade siffran som Threshold just nu. En ny siffra slumpas fram om en krock har uppst˚att. Tv˚a lager kan allts˚a aldrig ha samma Threshold-värde. Med denna algoritm kan arbitratorn g˚a fr˚an att ha 0 i mätvärde i samtliga lager, till att hitta samtliga kalibreringsformer i bilden, p˚a 6-7 bildrutor.

5.3 H¨ orn-detektering

I varje binär bild som genereras försöker ShapeDetector hitta fyra stycken kalibrerings-former, en för varje hörn p˚a ritytan. När alla 4 hörn syns i en bild skickas deras positioner till rutinen som beräknar transformationsmatrisen. För att matrisen ska bli rätt m˚aste ShapeDetector dock lista ut vilken kalibreringsform som motsvarar vilket hörn. Allts˚a vilken form som

¨

ar övre vänstra hörnet, vilken som är det nedre högra, osv. Detta löser den med en enkel implementation av pythagoras sats. Den kalibreringsform som ligger närmast ett visst hörn i bilden fr˚an kameran anses vara motsvarande hörn p˚a ritytan. Om kameran st˚ar n˚agorlunda plant relativt ritytan fungerar denna algoritm mycket bra. Men om kameran roteras över 45 grader med- eller moturs (eller plaseras upp-och-ner) blir den förvirrad.

(20)

Kapitel 6

Resultat

För att se hur väl ShapeDetector klara uppgiften behöver vi ett objektivt m˚att p˚a detta. Jag har valt att mäta hur m˚anga bildrutor det tar för systemet att göra en geometrisk kalibrering. Exponeringstiden för kameran

¨

ar inställd p˚a 45ms under alla mätningar. Mätningarna har gjorts i IN- Sektionens sektionslokal Kistan, p˚a olika avst˚and fr˚an ritytan och med olika ljusniv˚aer i rummet. Belysningen best˚ar av lysrör kopplade till en dimmer, s˚a det är relativt enkelt att justera bakgrundsbelysningen.

4 olika mätningar gjordes för att testa olika scenarion. I mätning 1 och 2 stog kameran vinkelrätt mot väggen p˚a 4.5m avst˚and. Mätning 2 gjordes även den med kameran vinkelrätt mot väggen, men p˚a 6.5m avst˚and. Mätning 3 gjordes p˚a 4m avst˚and med kameran placerad i ca 45 graders vinkel mot väggen.

4,5m valdes som avst˚and d˚a det känns som ett avst˚and som skulle kunna användas i en vanlig kontorsmiljö. 6,5m och 4m valdes för att det var det längsta avst˚andet kameran kunde placeras fr˚an ritytan i 90 resp. 45 graders vinkel, p˚a grund av lokalens fysiska utformning och dess tekniska utrustning.

Resultaten i mätning 1 och 2 skiljer sig väldigt mycket ˚at trots att de till synes utfördes under samma förutsättningar. Det blev s˚a för att det uppen- barades ett fenomen under mätning 1 som ShapeDetector inte var tänkt att hantera. Detta analyserars i mer detalj i stycke 8.1 och f˚ar där sin förklaring.

(21)

6.1 M¨ atresultat

Mätvärdet anger hur m˚anga bildrutor ShapeDetector behövde för en kalibrering.

Mätning 1: 4.5m avst˚and, vinkelrätt mot väggen.

1-10 11-100 100+ Lyckades ej

0 2 4 6 8 10

0 0 0

10 10

0 0 0

antal bildrutor

antalm¨atningar

Belysning t¨and Belysning sl¨ackt

1-10 11-100 100+ Lyckades ej

0 2 4 6 8 10

7

2

1

0 10

0 0 0

antal bildrutor

antalm¨atningar

(22)

M¨atning 3: 4.5m avst˚and, 45 grader vinkel.

1-10 11-100 100+ Lyckades ej

0 2 4 6 8 10

2

6

2

0 10

0 0 0

antal bildrutor

antalm¨atningar

1-10 11-100 100+ Lyckades ej

0 2 4 6 8 10

0 0 0

10 10

0 0 0

antal bildrutor

antalm¨atningar

(23)

Kapitel 7

Slutsatser

7.1 Analys

Fr˚an mätningarna i Kistan vill jag dra ett par slutsatser. Först, att Shape- Detector klarar kalibering i nedsläckta rum bra. Den klarar konsekvent att hitta alla 4 kalibrerings-former i första bildrutan b˚ade p˚a 4,5 och 6,5 meters avst˚and, även om kameran inte placeras vinkelrätt mot väggen.

Sedan n¨ar vi ¨okar bakgrundsbelysningen kan vi se ett par intressanta fenomen.

Fr˚an mätning 2 ser vi att p˚a 4,5m avst˚and lyckas kalibreringen, men efter betydligt fler bildrutor. 9 av 10 mätningar ligger p˚a under en sekund (med 45ms exponeringstid blir en sekund ungefär 22 bildrutor), och en mätning p˚a strax över 2 sekunder. Jag tror att denna variation beror p˚a vilka värden som den dynamiska Threshold-mekanismen (beskriven i stycke 6.2) slumpar fram. I den mätningen med högt värde har arbitratorn satt ”fel”

Thresholding-värden för lagrena under längre tid än i de mätningarna med l˚aga värden. Det här fenomenet syns tydligare i resultaten fr˚an mätning 3.

Detta visar att arbitratorn bör förbättras för att ge mer konsekventa resultat. Till exempel genom att man mäter den totala ljusstyrkan i bilden och viktar arbitratorn mot högre eller lägre Threshold-värden beroende p˚a hur ljusstark bilden är.

Resultaten fr˚an mätning 1 visar ocks˚a en intressant sak. I den mätningen föll det sig att takbelysningen skapade en ganska skarp skugga som föll över halva kalibreringsformen i övre högra hörnet. När mätningarna gjordes s˚a kunde jag se att det var just den formen som var sv˚ar att hitta. Jag kunde

¨

aven se att den del av formen som var skuggad tolkades som en form, medan den ljusare delen tolkades som en annan, separat form. Systemet är allts˚a känsligt för skiftande ljusstyrka i olika delar av samma kalibreringsform.

Detta stämmer ocks˚a väl överens med vad vi vet om konturdetekteringen i

(24)

formen att synas i olika binära bilder. Med lite tur hittar kanske arbitratorn till slut ett Threshold-värde där hela formen änd˚a syns i bilden. Men d˚a kalibreringen i mätning 1 aldrig lyckades, oavsett hur länge arbitratorn fick försöka, s˚a verkar det kunna falla sig s˚a illa att för stora ljusskillnader inte kan hanteras om binära bilder används som grund för konturdetekteringen.

Det finns helt enkelt inget Threshold-v¨arde d¨ar hela formen syns i en bild.

Detta är inte ett enkelt problem att lösa, d˚a det i s˚a fall skulle krävas att systemet kan pussla ihop en kalibrerings-form fr˚an olika delar som hittas i olika Threshold-lager. En annan sak värd att notera är att jag löste problemet med den störande skuggan genom att göra fönstret som visar kalibrerings- bilden mindre p˚a ritytan, för att p˚a s˚a vis undvika den skuggade delen av väggen. Trots att kalibrerings-formerna gjordes mindre s˚a förbättrades re- sultatet avsevärt. Systemet är allts˚a betydligt mer känsligt för skuggor över kalibrerings-former än för storleken p˚a formerna.

I mätning 3 ser vi ocks˚a att det är jobbigare för systemet att göra en kalibrering i skarpa vinklar mot väggen. Jag tror detta beror p˚a att kalibrerings- formerna blir mindre i bilden fr˚an kameran ju skarpare vinkeln till väggen

¨ ar.

7.2 Diskussion

Overlag klarar ShapeDetector sin uppgift bra. M˚¨ alet var att undersöka i vilka förh˚allanden man med god träffsäkerhet kan urskilja förutbestämda former med mjukvara. Även om det fortfarande finns m˚anga förbättringar att göra, s˚a tycker jag att ShapeDetector klarar av ett relativt brett spann av förutsättningar utan n˚agon manuell konfiguration. Den klarar av variationer i ljusförh˚allanden, kameras position relativt de former som ska upptäckas, och variationer i formernas storlek och utseende. Den ger även väldigt ex- akta och stabila koordinater för formens position, och det är väldigt liten risk för ”false positives”. ShapeDetector klarar dessutom av sin uppgift väldigt snabbt även med billig h˚ardvara.

Framför allt bör arbitratorn som väljer ut Threshold-värden förbättras. Fr˚an mätresultaten tycker jag att det tydligt framg˚ar att det är l˚angt ifr˚an op- timalt att slupa fram nya värden. Medelvärdet för hur m˚anga bildrutor en kalibrering tar är ganska ok, men det är för stor variation mellan högsta och lägsta värdet. En arbitrator som p˚a ett mer intelligent sätt kan röra sig mot optimala Threshold-värden verkar enligt mig vara det bästa sättet att lösa detta. Den borde ocks˚a kunna utföra en kalibrering även om kalibrerings- formerna hittas i olika Threshold-lager. Om den kunde det s˚a tror jag att kalibreringar skulle lyckas i ännu sämmre förh˚allanden, och antagligen ocks˚a snabbare.

(25)

7.3 Konsekvensanalys

Förhoppningsvis kan denna typ av autokalibrering göra nya sätt att inter- agera med datorer mer tillgängliga för allmänheten.

7.4 Framtida arbete

1. Förbättra sättet som arbitratorn väljer Threshold-värden. Istället för att slumpa fram dem bör de väljas p˚a ett mer intelligent sätt. N˚agon typ av viktning mot högre eller lägre värden beroende p˚a hur totala ljuset i bilden är ett alternativ.

2. Se till att systemet kan avl¨asa former som delvis ¨ar skuggade.

3. Implementera n˚agon typ av brus-reducering.

(26)

TRITA ICT-EX-2014:69