• No results found

Evaluation of Methods for Image Analysis with the Purpose of Imitating Subjective Quality Assessment

N/A
N/A
Protected

Academic year: 2021

Share "Evaluation of Methods for Image Analysis with the Purpose of Imitating Subjective Quality Assessment"

Copied!
52
0
0

Loading.... (view fulltext now)

Full text

(1)LiU-ITN-TEK-A--21/005 SE. Utvärdering av metoder för bildanalys i syfte att efterlikna subjektiv kvalitetsbedömning Felix Grönborg Otto Ortega 2021-03-11. Department of Science and Technology Linköping University SE-601 74 Norrköping , Sw eden. Institutionen för teknik och naturvetenskap Linköpings universitet 601 74 Norrköping.

(2) LiU-ITN-TEK-A--21/005 SE. Utvärdering av metoder för bildanalys i syfte att efterlikna subjektiv kvalitetsbedömning Examensarbete utfört i Medieteknik vid Tekniska högskolan vid Linköpings universitet. Felix Grönborg Otto Ortega Norrköping 2021-03-11. Department of Science and Technology Linköping University SE-601 74 Norrköping , Sw eden. Institutionen för teknik och naturvetenskap Linköpings universitet 601 74 Norrköping.

(3) Sammanfattning Detta examensarbete gjordes i samarbete med Husfoto AB där syftet var att undersöka potentialen i att använda maskininlärniningsalgoritmer för att utföra automatiska klassificeringar mellan godkända och icke-godkända bilder enligt en subjektivt framställd kvalitetsstandard. Både metoder som använder maskininlärning, samt mer traditionella bildanalysmetoder användes, testades och jämfördes inom kvalitetsmåtten precision, känslighet, träffsäkerhet och balanserad träffsäkerhet. Maskininlärningsmetoder som användes var en linjär och en icke-linjär variant av Support Vector Machine (SVM), samt XGboost. De manuella metoderna var en variant av White Patch, samt två egna metoder framtagna för projektet. Bildfelen som undersöktes var vitbalans och färgen på himmel för exteriörbilder, och datan samlades in och annoterades parallellt med arbetet. Trots att mängden data var begränsad så erhölls bättre resultat än förväntat, vilket ger en indikation på att maskininlärning kan användas för klassificeringar med subjektiva bedömningar som referensmått med gott resultat. Resultaten visar att kvalitetsmåtten för flera metoder presterar relativt likvärdigt i många fall med vissa avvikande skillnader. Genom att använda den subjektiva bedömningen av Husfoto för att skapa ett objektivt mått med metoderna som används så visar resultatet att metoderna för vissa fel kommer upp i över 80% träffsäkerhet..

(4) Författarens tack Vi vill passa på att tacka vår handledare Gabriel Eilertsen för kontinuerligt stöd och för en pedagogisk attityd som uppmanat oss att hitta bra och relevanta metoder och lösningar. Vi vill även tacka vår examinator Daniel Nyström för givande dialoger och tydlig insikt i vilka mål som är relevanta att följa. Till sist vill vi tacka Husfoto för möjligheten att utföra detta intressanta arbete och för ett öppet bemötande gällande våra idéer och tankar.. iv.

(5) Innehåll Sammanfattning. iii. Författarens tack. iv. Innehåll. v. Figurer. vii. Tabeller. viii. 1 Introduktion 1.1 Bakgrund . . . . . . . . . 1.2 Syfte . . . . . . . . . . . 1.3 Avgränsningar . . . . . . 1.4 Frågeställningar . . . . . 1.5 Rapportens Disposition. . . . . .. . . . . .. . . . . .. . . . . .. . . . . .. . . . . .. . . . . .. . . . . .. . . . . .. . . . . .. . . . . .. . . . . .. . . . . .. . . . . .. . . . . .. . . . . .. . . . . .. . . . . .. . . . . .. . . . . .. . . . . .. . . . . .. . . . . .. . . . . .. . . . . .. . . . . .. . . . . .. 1 1 1 2 2 3. 2 Teoretiskt ramverk 2.1 Metoder för analys av bildkvalitet 2.2 Relaterade arbeten . . . . . . . . . 2.3 Kamera . . . . . . . . . . . . . . . . 2.4 Bildtyper . . . . . . . . . . . . . . . 2.5 Data . . . . . . . . . . . . . . . . . . 2.6 Histogram . . . . . . . . . . . . . . 2.7 Färgrymder . . . . . . . . . . . . . 2.8 Förvirringsmatris . . . . . . . . . . 2.9 Maskininlärning . . . . . . . . . . .. . . . . . . . . .. . . . . . . . . .. . . . . . . . . .. . . . . . . . . .. . . . . . . . . .. . . . . . . . . .. . . . . . . . . .. . . . . . . . . .. . . . . . . . . .. . . . . . . . . .. . . . . . . . . .. . . . . . . . . .. . . . . . . . . .. . . . . . . . . .. . . . . . . . . .. . . . . . . . . .. . . . . . . . . .. . . . . . . . . .. . . . . . . . . .. . . . . . . . . .. . . . . . . . . .. . . . . . . . . .. . . . . . . . . .. . . . . . . . . .. . . . . . . . . .. . . . . . . . . .. 4 4 4 5 7 7 8 9 10 12. 3 Metod 3.1 Bildfel . . . . . . . . . . . . . . . . . . . 3.2 Datainsamling . . . . . . . . . . . . . . 3.3 White Patch . . . . . . . . . . . . . . . 3.4 Låg mättnad . . . . . . . . . . . . . . . 3.5 Detektion och bedömning av himmel 3.6 Maskininlärning . . . . . . . . . . . . .. . . . . . .. . . . . . .. . . . . . .. . . . . . .. . . . . . .. . . . . . .. . . . . . .. . . . . . .. . . . . . .. . . . . . .. . . . . . .. . . . . . .. . . . . . .. . . . . . .. . . . . . .. . . . . . .. . . . . . .. . . . . . .. . . . . . .. . . . . . .. . . . . . .. . . . . . .. . . . . . .. . . . . . .. 15 15 22 23 23 24 25. 4 Resultat 4.1 Blå himmel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.2 Vitbalans . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 26 26 30. 5 Diskussion 5.1 Blå himmel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.2 Vitbalans . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 37 37 38. . . . . .. . . . . .. . . . . .. . . . . .. . . . . .. v.

(6) 6 Slutsats 6.1 Svar på frågeställningar . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6.2 Vidareutveckling . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 39 39 41. Litteratur. 43. vi.

(7) Figurer 2.1 2.2 2.3 2.4 2.5 2.6. Förhållande mellan bländare och skärpedjup. . . . . . . . . . . . . . . . . . . . . . . Förhållande mellan bländare och exponering. . . . . . . . . . . . . . . . . . . . . . . Exempel på hur slutartiden påverkar bildens rörelseskärpa. . . . . . . . . . . . . . En typisk representation av bilddata inom fotografi. . . . . . . . . . . . . . . . . . . Synliga uttryck av exponeringsfel i bildhistogram. . . . . . . . . . . . . . . . . . . . RGB color solid cube av wikipedia användare SharkD (CC BY-SA 3.0). Representation av hur RGB är en additiv färgmodell. . . . . . . . . . . . . . . . . . . . . . . . 2.7 HSL color solid cylinder saturation gray av wikipedia användare SharkD (CC BYSA 3.0). Visuell representation av HSL. . . . . . . . . . . . . . . . . . . . . . . . . . . 2.8 HSV color solid cylinder saturation gray av wikipedia användare SharkD (CC BYSA 3.0). Visuell representation av HSV. . . . . . . . . . . . . . . . . . . . . . . . . . . 2.9 En förvirringsmatris med prediktiva värden vågrätt och faktiska värden lodrätt. . 2.10 Svm separating hyperplanes av wikipedia användare ZackWeinberg (CC BY-SA 3.0). Diagram som visar hur en support vector machine skulle välja ett separerande hyperplan för två klasser, bestående av punkter i 2D. H1 separerar inte klasserna. H2 separerar dem, men bara med liten marginal. H3 separerar dem med maximal marignal. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 13. 3.1 3.2 3.3 3.4 3.5 3.6 3.7. En bild med ett snett perspektiv. Överexponerade fönster. . . . . . Gul färgstick. . . . . . . . . . . . Grå himmel. . . . . . . . . . . . . Slagskugga av taklampa. . . . . . Oskärpa. . . . . . . . . . . . . . . Reflekterande fönster. . . . . . . .. . . . . . . .. 16 17 18 19 20 21 22. 4.1 4.2. 28. 4.9. Medelvärden och standardavvikelser för XGBoost och SVM med alla bilder. . . . . Medelvärden och standardavvikelser för XGBoost och SVM med bara bilder tagna utomhus. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Medelvärden och standardavvikelser för XGBoost och SVM med bara bilder med himmel. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Grafer över balanserade träffsäkerheter för tröskelvärden från 1,0 till 1,2 med steget 0,0002 för låg mättnad- och white patch-metoderna med alla bilder. . . . . . . . Medelvärden och standardavvikelser för XGBoost och SVM för alla bilder. . . . . . Grafer över balanserade träffsäkerheter för tröskelvärden från 1,0 till 1,2 med steget 0,0002 för låg mättnad- och white patch-metoderna med bilder inomhus. . . . Medelvärden och standardavvikelser för XGBoost och SVM för bilder inomhus. . . Grafer över balanserade träffsäkerheter för tröskelvärden från 1,0 till 1,2 med steget 0,0002 för låg mättnad- och white patch-metoderna med bilder utomhus. . . . Medelvärden och standardavvikelser för XGBoost och SVM för bilder utomhus. .. 6.1. Märkbar skillnad mellan suddiga och skarpa bilder med Fourier transform. . . . .. 4.3 4.4 4.5 4.6 4.7 4.8. . . . . . . .. . . . . . . .. . . . . . . .. . . . . . . .. . . . . . . .. vii. . . . . . . .. . . . . . . .. . . . . . . .. . . . . . . .. . . . . . . .. . . . . . . .. . . . . . . .. . . . . . . .. . . . . . . .. . . . . . . .. . . . . . . .. . . . . . . .. . . . . . . .. . . . . . . .. . . . . . . .. . . . . . . .. . . . . . . .. . . . . . . .. . . . . . . .. . . . . . . .. . . . . . . .. . . . . . . .. . . . . . . .. 6 6 7 8 8 9 10 10 11. 29 30 31 32 33 34 35 36 42.

(8) Tabeller 3.1 3.2 3.3. Tabell med frekvensen av olika bildfel som samlades in. . . . . . . . . . . . . . . . . Tabell över de tröskelvärden som uppskattats för att definiera himmel. . . . . . . . Tabell över de tröskelvärden som definierar om en himmel är godkänd . . . . . . .. 4.1. Tabell med resultat av olika metoder som använts för att bedöma om himmeln i bilderna är blå, där godkända bilder kan vara inomhus och/eller inte innehålla himmel. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Tabell med resultat av olika metoder som använts för att bedöma om himmeln i bilderna är blå, där vissa godkända bilder inte innehåller himmel, men alla är tagna utomhus. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Tabell med resultat av olika metoder som använts för att bedöma om himmeln i bilderna är blå, där alla godkända bilder är utomhus och innehåller himmel. . . . . Tabell med resultat av olika metoder som använts för att bedöma om vitbalansen i bilderna, med bilder tagna både utomhus och inomhus. . . . . . . . . . . . . . . . Tabell med resultat av olika metoder som använts för att bedöma vitbalansen i bilderna, med bara bilder inomhus. . . . . . . . . . . . . . . . . . . . . . . . . . . . . Tabell med resultat av olika metoder som använts för att bedöma vitbalansen i bilderna, med bara bilder utomhus. . . . . . . . . . . . . . . . . . . . . . . . . . . .. 4.2. 4.3 4.4 4.5 4.6. viii. 23 24 25. 27. 28 29 31 32 34.

(9) Kapitel 1. Introduktion Det här examensarbetet genomfördes på institutionen för teknik- och naturvetenskap på Linköpings Universitet i samarbete med företaget Husfoto AB, hädanefter refererat till som “Husfoto” eller “företaget”. Det följande, inledande, kapitlet täcker bakgrund, syfte och mål med arbetet, samt de frågeställningar som har lett arbetet och vissa avgränsningar som har gjorts.. 1.1. Bakgrund. Husfoto är ett företag i Linköping som genom frilansfotografer samlar in bostadsrelaterade digitala bilder på ett professionellt sätt i syfte att sälja dessa. Om fotografen som anlitas för jobbet är oerfaren eller gör tekniska misstag så vill Husfoto inte att de bilderna ska bli publika och representera deras företag, så de behöver kontinuerligt leta efter och identifiera de bilder som inte uppfyller deras subjektiva kvalitetsstandard. I dagsläget sitter en person, med kunskap och egen åsikt om vad som gör en bild “bra” eller “dålig”, och bläddrar igenom de bilder som kommer in från fotograferna, tillsammans med tillhörande EXIF-data, för att försöka identifiera de bilder som inte uppfyller företagets standard. Detta görs vanligtvis genom att den anställde slumpmässigt väljer ut en mindre mängd bilder bland de nyinkomna bilderna och bedömer dessa och de som tillhör samma set eller objekt, baserat på utslag av stickproven. För att snabbare och mer pålitligt kunna identifiera dessa bristfälliga bilder vill Husfoto ha hjälp med att ta fram en automatisk process för att flagga bilder som inte uppfyller företagets standard så att personen som utför kvalitetskontroller lättare kan hitta relevanta bilder att bedöma. Ett annat önskvärt mål är att detta, i framtiden, ska kunna användas som en grund eller metod för att ge återkoppling till fotograferna genom att identifiera vad som är bra eller dåligt med bilderna som de har tagit. I det här projektet har flera olika metoder, som kan användas för att evaluera en eller flera typer av bilder, hittats eller skapats och sedan testats och jämförts med varandra för att utvärdera kvaliteten på resultaten i enlighet med Husfotos standard.. 1.2. Syfte. Syftet med projektet är att hitta eller skapa olika metoder för att identifiera olika, vanliga, bildfel, jämföra metodernas precision med varandra och utreda vilka metoder som fungerar i vilka sammanhang och varför de fungerar eller inte. Detta görs för att få insikt i hur olika egenskaper och variation i bilderna påverkar resultaten av de olika bildanalysmetoderna och hur man kan hantera dessa i en vidareutveckling. Husfotos mål för framtiden är att kunna göra empiriska val i utvecklingen av ett system som identifierar bildfel i bilder som kommer in till företaget för att undvika oavsiktlig försäljning av bilder som ligger under Husfotos subjektiva standard. Innan projektets början så bedömdes bilderna helt och hållet av en anställd på Husfoto och det är den bedömningen som kommer att vara grunden för utvärderingen av 1.

(10) 1.3. Avgränsningar metoderna. Målet är att kontrollanten på Husfoto ska spendera mindre tid på att leta igenom alla bilder för att hitta de som har otillräckligt hög kvalitet, och istället kunna spendera den tiden på att bedöma de flaggade bilderna och ge konstruktiv återkoppling till fotograferna. De godkända bilderna kan säljas vidare till kund och de bilder som inte säljs vidare kan tas bort eller användas i andra ändamål, såsom återkoppling till fotografen som tog bilden, eller exempel vid utbildning av nya fotografer. Därför ska olika metoder analyseras och testas för att se hur träffsäkra de är och kan bli i enlighet med kontrollantens bedömning.. 1.3. Avgränsningar. Då projektet är tidsbegränsat så har avgränsningar, vissa tillsammans med handledare och vissa med Husfoto, gjorts för att försäkra att projektets storlek inte överskrider projektets tidsram. I utvecklingen av projektet har författarna använt sina egna bärbara datorer, vars prestanda är förhållandevis låg. Dessutom har datainsamling skett parallellt med projektets gång vilket innebär att det i början av projektet fanns få data att ha tillgång till och det gick inte att förutspå hur mycket data som skulle kunna göras tillgänglig. Av dessa anledningar har metoder som neurala nätverk, som kräver relativt hög prestanda och mycket data för att effektivt tränas upp, uteslutits ur den praktiska delen av projektet. Följande är de avgränsningar som gjorts på projektet: • Undersökning och fokus har avgränsats till två bildfel; vitbalans och blå himmel. Dessa bildfel var några av de bildfel som förekom flest gånger enligt datainsamlingen som gjordes. I mån av tid och behov så kommer andra fel att diskuteras spekulativt. • Brist på datatillgänglighet gör det svårt att hinna med att bygga och träna neurala nätverk och andra maskininlärnings-metoder, så dessa kommer, om alls, att diskuteras spekulativt i syfte av vidareutveckling. • Det som kan förekomma (men inte annoterades) är fler fel än ett på en och samma bild. En studie om fler fel i samma bild i en liknande applikation kan vara önskvärt i ett framtida arbete för att kunna dra vidare slutsatser, men det här projektet kommer enbart att hantera ett fel åt gången. • Den subjektiva standarden är baserad på Husfotos önskemål. En undersökning på anpassningsbarhet för andra syften görs ej. Den subjektiva standarden som är framtaget av Husfoto hanteras i projektet som ett objektivt referenssystem.. 1.4. Frågeställningar. Inför projektet så ställdes ett antal frågeställningar, i syfte att inleda och leda projektet i önskad vetenskaplig riktning. • Vilka estetiska eller tekniska faktorer påverkar metodernas träffsäkerhet bland bilderna och hur kan man hantera dessa? • Hur kan bildernas EXIF-data användas för att identifiera fel? • Hur väl kan objektiva metoder användas för att identifiera subjektiva fel? • På vilka sätt kan man förbehandla eller processa data för att underlätta automatisk igenkänning av fel i bilderna?. 2.

(11) 1.5. Rapportens Disposition. 1.5. Rapportens Disposition. Dispositionens syfte är att guida läsaren genom rapporten och dess olika delar. Rapporten består av 6 huvudsakliga kapitel, vilka beskrivs nedan. Det första kapitlet är ett inledande kapitel som förklarar projektets bakgrund och syfte. De frågeställningar som lett projektet presenteras också. I kapitel två presenteras den teori som lagt den teoretiska grunden för projektet, tillsammans med relaterade arbeten. Tekniska variabler som kan påverka kvaliteten på en bild som är relevant för projektet förklaras och läsaren får information om hur en bild skapas och hur olika inställningar i kameror kan påverka kvaliteten, samt information om de kvalitetsmått som använts för att jämföra metoderna. Kapitel tre presenterar de bildfel som är mest relevanta för projektet. Läsaren får även information om de manuella och maskininlärnings-metoderna som har testats och jämförts. I kapitel 4 presenteras resultaten som erhölls vid mätningar och tester av metoderna. Resultaten har delats upp i ordning om relevans av data och presenteras i enlighet därmed. Kapitel 5 är ett där tidigare presenterade resultat diskuteras och analyseras. Eventuella orsaker till resultaten undersöks också. I kapitel 6 diskuteras svar på de frågeställningar som ställdes i början av projektet tillsammans med potentiella vidare användningsområden för upptäckter som gjorts under projektets gång.. 3.

(12) Kapitel 2. Teoretiskt ramverk Följande kapitel kommer att gå igenom relaterade arbeten, förklara metoder som kan vara relevanta för arbetet och beskriva felen som kan uppstå vid fotografering.. 2.1. Metoder för analys av bildkvalitet. Generellt sätt så kan analys av bildkvalitet delas upp i två huvudsakliga metoder; referensanalys och referens-fri analys. Metoder som är baserade i analys med referens har som syfte att göra jämförelser mellan två bilder; en utmärkt referensbild som antas vara av god kvalitet, och en distorderad bild, vars kvalitet utvärderas i jämförelse med referensbilden. Referens-analys utförs framförallt som ett mått av kvalitet på bildkompressionsmetoder. Komprimerade bilder kräver mindre lagringsutrymme, men för att uppnå detta tas information i bilden bort. Ju mer bilden komprimeras, desto sämre blir bildkvaliteten jämfört med referensbilden och metoder som är balanserade i referens-analys kan då användas för att få ett mått på hur bra den komprimerade bilden ser ut i jämförelse med dess okomprimerade motsvarighet. Vid referens-fri analys finns ingen sådan referensbild att jämföra med, och metoderna som är baserade i referens-fri analys används oftast i andra syften än de metoder som använder referens. Metoder som är baserade på referens-fri analys använder alltså bara den specifika bildens data och egenskaper för att utföra analysen. I detta projekt så är frågan om kvaliteten på varje individuell bild, och ingen bild har någon referensbild. Alla metoder som används i detta projektet är därför av den referens-fria typen.. 2.2. Relaterade arbeten. Relaterade arbeten är andra projekt som har någon eller några gemensamma faktorer med, eller på annat sätt har kunnat ge inspiration till, detta projekt. Vid komprimering av bilder är bildens kvalitet av stor relevans. Vid icke-förstörande komprimering behålls bildens originella kvalitet, men bildens komprimerade storlek blir oftast större än vid förstörande komprimering [18], i vilken information i bilden tas bort för att minska storleken [13]. Denna information kan inte återskapas, vilket minskar kvaliteten på bilden men också tillåter en högre kompressionsgrad och därmed mindre datamängd. Under alla år av bildkomprimering har undersökningar och experiment har utförts i syfte att öka kompressionsgraden med minimal kvalitetsförlust i syfte att spara datautrymme. Under senare år har undersökningar, med användning av maskininlärning och Support Vector Machines (SVM), gjorts för att automatiskt utvärdera full-referens analys av komprimerade bilder och klassificera dessa på en kvalitetsskala 1-5 [4]. Även förlust-komprimerade bilder är av intresse för analys av bildkvalitet. Dessa analyser kan, som ovan, göras med full-referens analys där den komprimerade bilden jämförs med originalet för att se hur lika de är. Andra metoder använder sig av referens-fri analys 4.

(13) 2.3. Kamera av JPEG-komprimerade bilder med hjälp av Extreme Learning Machine (ELM), där de komprimerade bilderna annoteras med information om bildens visuella aspekter baserade på mänsklig syn (human visual system, HVS [6]) [16]. Liknande har gjorts på en mer generell skala för att, genom icke-väglätt lärande, uppskatta hur en mänsklig åskådare skulle uppfatta bildens kvalitet utan att metoden skulle matas med information om eventuell distorsion i bilden. Resultaten visade sig jämförbara med dåtidens tidigare kända metoder [15]. Det har även varit av intresse att undersöka om bildkvalitet kan utvärderas utan mänsklig referens på vad som gör en bild bra eller dålig. En metod som kan användas för detta kallas Quality Aware Clustering, vilken delar upp bilden i olika delar och sorterar dem enligt mängd förgrunds-information i en så kallad Patch Extraction [8]. Dessa delar distorteras sedan med olika distortions-metoder och någon typ av kvalitetsanalys utförs på varje varje del av bilden. Därefter används en clustering metod, så som K-means clustering [2] för att utvärdera kvaliteten på varje del och därmed hela bilden. Denna metod har använts både för foton [20] och för textdokument [1].. 2.3. Kamera. Kvaliteten på en bild kan variera mycket beroende på vilken kamera fotografen använder och vilka inställningar som har valts för kameran. I många fall skiljer sig kameror från olika tillverkare på olika sätt och en fotograf som försöker ta samma bild med samma inställningar på två olika kameror kan få två bilder som inte ser helt likadana ut. Utöver det så skiljer det på två olika bilder tagna med samma kamera, men med olika inställningar. Tre av dessa inställningar, som drastiskt kan påverka hur den slutgiltiga bilden ser ut, är följande: • Bländarens storlek • Slutartiden • ISO-talet Bländaren är den delen av kameran som bestämmer skärpedjupet i bilden. Ett mindre bländartal ger en större bländare med kortare skärpedjup, vilket resulterar i att en mindre del av bilden är i fokus. Om bländartalet är större så är bländaren mindre och skärpedjupet längre, och mer av bilden är skarp och därmed i fokus. Förhållandet mellan bländarens storlek och djupet på skärpan ses i figur 2.1. Bländarens storlek påverkar också hur mycket ljus som släpps in under tiden som slutaren är öppen. Större bländare tar in mer ljus än en mindre bländare, likt pupiller i ögat, som automatiskt öppnar och stänger sig för att släppa in mer eller mindre ljus. Figur 2.2 visar hur bländartalet påverkar ljuset i bilden. Om fotografen väljer ett bländartal som släpper in för lite eller för mycket ljus så måste hen ofta kompensera för detta med någon av de andra två ovan nämna inställningarna.. 5.

(14) 2.3. Kamera. Figur 2.1: Förhållande mellan bländare och skärpedjup.. Figur 2.2: Förhållande mellan bländare och exponering. Slutartiden är den tiden, i sekunder, som slutaren är öppen vid ett fotografi. När en bild tas så öppnas en slutare som då släpper in ljus tills den stängs igen. Ju längre tid den är öppen, desto mer ljus tas upp av kameran. Slutartiden varieras för att få mer eller mindre rörelseoskärpa i bilden. För att få en skarp bild på, till exempel, en golfsving eller en fotboll som är på väg in i mål, så vill man i regel ha en kortare slutartid så att golfklubban eller fotbollen hinner röra sig så lite som möjligt under tiden som bilden tas. En längre slutartid kan användas för att avsiktligt göra rörliga objekt i bilden suddiga, som till exempel vid panorering av en rallybil för att bakgrunden ska bli suddig för att få en känsla av rörelse. I figur 2.3 visas det hur rörelseskärpan i en bild kan påverkas av slutartiden, bilarna i första bilden, samt trädgrenen är i skärpa i bilden trots rörelse. I andra bilden är trädgrenen suddig då vinden har rört den under tiden som bilden togs, och man kan skymta en vit linje i bildens övre del som kan vara resultatet av att en buss åkte förbi under tiden som bilden togs. ISO är ett mått på bildsensorns känslighet. Ett högre ISO-värde ökar mängden ljus i hela bilden utan att öka slutartiden eller storleken på bländaren. Det görs genom att ta ljuset som finns i bilden och multiplicera det med ett värde som beror på ISO-värdet. Problemet som kan 6.

(15) 2.4. Bildtyper. Figur 2.3: Exempel på hur slutartiden påverkar bildens rörelseskärpa. uppstå med detta är att sådana artefakter i bilden som inte eller knappt hade varit synliga med ISO-värdet 100 blir förstärkta med högre värden och bilden kan då se grynig ut.. 2.4. Bildtyper. För att särskilja på bilder och vilka krav som ställs på kvaliteten på varje individuell bild så kan de delas in i olika typer. För bostadsfotografering så är följande fyra bildtyper vanligast och det förekommer oftast minst en bild av varje typ per objekt vid professionell fotografering. Vissa bildfel varierar i relevans mellan olika bildtyper, vilket är en dimension som behöver tas hänsyn till i test och analys.. Interiör och Exteriör Bilder tagna utomhus eller inomhus. Exteriör-bilder förväntas att ha blå himmel. En viss flexibilitet ges till temperaturen i bilden, där exteriör-bilder kan ha en kallare temperatur, medan interiör-bilder kan ha en varmare.. Helhetsperspektiv Större ytor (vardagsrum exempelvis), där fokusavvikelser inte godkänns. Hela bilden bör ha genomgående skarpt fokus och inte ha suddiga partier. I en analys av suddighet är detta väsentligt att ha i åtanke, där kreativt uttrymme ges till andra bildtyper som de med detaljperspektiv.. Detaljperspektiv Stiliserade foton på estetiskt märkvärdiga partier i en bostad (exempelvis en läshörna eller en fruktskål). Fokuset varierar ofta mellan förgrund och bakgrund bland dessa bilder vilket är en önskad egenskap.. 2.5. Data. Exchangeable image file format (EXIF) är information som medföljer digitala bilder när de tas. I EXIF-datan finns oftast metainformation om, bland annat, filens namn, kamerainställningar, bildformat, storlek och upplösning. Fotograferna använder olika delar av kameran för olika typer av scen, och dessa registreras och sparas i meta-datan. Det finns även utrymme för att manuellt ändra och föra in ytterligare information om så önskas. Vid redigering av bilder kan vissa datapunkter i EXIF-data tas bort och kvar blir en bild med ofullständig information. 7.

(16) 2.6. Histogram. 2.6. Histogram. Ett histogram är ett diagram som visar hur många enheter det finns av en viss egenskap i ett intervall. Inom fotografi och bildbehandling används histogram för att beskriva och undersöka hur många pixlar som har ett visst värde i en specifik färgkanal. Detta kan användas i bildens gråskale-kanal för att få en överblick på om bilden är rätt exponerad. Inom fotografisk analys används kategoriserade termer som Blacks, Shadows, Midtones, Highlights och Whites, i referens till en bilds histogram; se figur 2.4. Denna indelning är, för fotografen, värdefull kunskap då hen kan titta på histogrammet på kameraskärmen och direkt få information om vad som fångades upp eller vad som saknas.. Figur 2.4: En typisk representation av bilddata inom fotografi. Histogram kan i sig ge information om potentiella fel i bilder. De vanligaste felen som brukar kopplas till histogram är över- och underexponering, vilket innebär att information i bilden har gått förlorad på grund av att kameran fick för mycket eller för lite ljus när bilden skapades. Förlorad och distorderad information, som uppkommer som resultat av felexponering, visar synliga utslag på ett histogram. Ett tydligt exempel på exponeringsfel är när det finns många pixlar som har värden i ena änden av histogrammet, vilket kan ses i figur 2.5.. (a) Histogram av underexponerad bild.. (b) Histogram av överexponerad bild.. Figur 2.5: Synliga uttryck av exponeringsfel i bildhistogram.. 8.

(17) 2.7. Färgrymder. 2.7. Färgrymder. En färgrymd är den kombination av värden som beskriver hur en bild ser ut. Det finns många olika sätt att beskriva en färgbild och följande delkapitel kommer att förklara de som är mest relevanta för projektet.. RGB Den vanligaste färgrymden är den additiva färgmodellen RGB (red, green, blue) som oftast används för kommersiell media som tv- och datorskärmar, där varje pixel i skärmen utgörs av 3 separata, men tätt samlade lampor, en röd, en grön och en blå, som tillsammans på ett tillräckligt avstånd uppger illusionen av en gemensam solid färg. Att en modell är additiv innebär att summan av alla färgkanaler, där värdet är detsamma i varje kanal, blir vitt eller gråskala. Genom att addera olika värden på de olika kanalerna i RGB-rymden kan man skapa alla färger som utgörs av olika kombinationer av grundfärgerna röd, grön och blå, vilket visas i figur 2.6.. Figur 2.6: RGB color solid cube av wikipedia användare SharkD (CC BY-SA 3.0). Representation av hur RGB är en additiv färgmodell.. HSV/HSL Alternativa representationer till färgmodellen RGB kan ge upphov till information som inte är uppenbart synlig annars. Att omvandla bilden från RGB till exempelvis HSV (Hue, Saturation, Value) eller HSL (Hue Saturation, Lightness), kan ge upphov till insikter i relationer mellan andra egenskaper i bilden, utan att bilden i sig ändras. I fallet med HSV och HSL kan betraktaren få insikt i varje pixels färgton (Hue), mättnad (Saturation) och ljusstyrka eller additivt värde (Lightness/Value). Representationer för dessa kan ses i figur 2.7 för HSL och figur 2.8 för HSV. Skillnaden mellan dessa färgrymder är tydligast vid jämförelse av respektive färgrymders färgmaximum. Färgmaximum för HSV kan analogiskt förklaras som att låta en vit ljuskälla lysa upp ett färgat objekt (där objektet fortfarande uppfattas som rött men med mer ljusintensitet), jämfört med HSL där färgmaximum är helt vitt. Nackdelen för båda färgymden är att det inte går att effektivt separera färgen till dess komponenter i enlighet med människans perception av färg. I det här projektet användes HSV av anledningen att det 9.

(18) 2.8. Förvirringsmatris intuitivt ansågs vara mer intuitiv att förstå och analysera vilket var en viktig förutsättning i utformnigen av metoderna.. Figur 2.7: HSL color solid cylinder saturation gray av wikipedia användare SharkD (CC BYSA 3.0). Visuell representation av HSL.. Figur 2.8: HSV color solid cylinder saturation gray av wikipedia användare SharkD (CC BYSA 3.0). Visuell representation av HSV.. 2.8. Förvirringsmatris. Förvirringsmatriser[17] (confusion matrix) är en term som kommer från maskininlärning[21]. Det är en metod som används för att utvärdera kvaliteten av prediktioner gjorda av en klassifieringsalgoritm. För en binär klassificering används en 2x2 matris i vilken man ställer upp resultaten från klassifieringarna - exempel i figur 2.9. Raderna i matrisen i figuren uppgörs av de faktiska värdena och kolumnerna av de, av algoritmen, uppskattade värdena. Korsningen mellan rader och kolumner ger 4 värden; Sanna negativa, falska positiva, falska negativa och sanna positiva (True negative, false positive, false negative och true positive). Sanna negativa är de objekt som korrekt inte har klassificerats, alltså de objekt som inte skulle klassificeras som sanna och algoritmen inte har klassificerat. Falska negativa är sådana objekt som skulle har klassificerats sanna, men som algoritmen inte har klassificerat. Falska positiva är objekt som inte skulle ha klassificerats sanna, men som al-. 10.

(19) 2.8. Förvirringsmatris. Figur 2.9: En förvirringsmatris med prediktiva värden vågrätt och faktiska värden lodrätt. goritmen har klassificerat, och sanna positiva är sådana objekt som korrekt har klassificerats sanna. Föreställ en algoritm som är utformad att hitta bilder på hundar, och den ska testas på 165 bilder, varav 105 är hundar och 60 är katter, likt exemplet i figuren ovan. Den klassificerar 110 bilder som hundar (positiva) och 55 som inte hundar (negativa). Utav de 110 som har klassificerats som hundar så det bara 100 som är hundar och resterande 10 är katter. Av de 55 som inte har klassificerats så är 5 hundar och resterande 50 katter. Detta innebär att algoritmens uppskattningar har 100 sanna positiva (hundar som korrekt klassificerats som hundar), 10 falska positiv (katter som inkorrekt klassificerats som hundar), 50 sanna negativa (katter som korrekt inte klassificerats som hundar) och 5 falska negativa (hundar som inkorrekt inte har klassificerats som hundar).. Precision och känslighet Från resultaten i förvirringsmatrisen kan, bland annat, modellens precision och känslighet (precision and recall) beräknas. Precisionen på en modell representerar hur stor del av de objekt som klassificerats som sanna är relevanta, och kan beskrivas med ekvation 2.1, där P är modellens precision, sp är antalet sanna positiva klassificeringar och f p är antalet falska positiva klassificeringar. P=. sp sp + f p. (2.1). Applicerat på exemplet med bilder på hundar ovan, kan frågan “Hur många av de bilder som klassificerats som hundar, är faktiskt hundar?” ställas, och svaret hade varit P = 100 110 = 0.909 = 90, 9%. Känsligheten på modellen representerar hur stor del av de relevanta objekten som har klassificerats korrekt, och kan beskrivas med ekvation 2.2, där K är modellens känslighet och f n är antalet falska negativa klassificeringar. K=. sp sp + f n. (2.2). I samma exempel ovan så hade frågan varit “Hur många av alla hundar har klassificerats som hundar?” och svaret hade varit K = 100 105 = 0, 952 = 95, 2%. 11.

(20) 2.9. Maskininlärning. Träffsäkerhet En annan metod, för att mäta kvaliteten på en algoritm, är träffsäkerhet. Träffsäkerheten på en algoritm motsvarar hur många av uppskattningarna som gjordes var korrekta. I ekvation 2.3 kan man se hur modellens träffsäkerhet, betecknad T räknas ut med hjälp av data från förrvirringsmatrisen. Variablerna sp, f p och f n representerar samma värden som de gör i ekvation 2.1 och 2.2 och sn är de sanna negativa objekt som modellen klassificerat. T=. sp + sn sp + f p + sn + f n. (2.3). Ett problem med träffsäkerhet kan dyka upp när metoden testas på en obalanserad mängd data, där det är många fler negativa data än positiva, eller tvärt om. Om en metod, till exempel, ska klassificera 200 bilder på bilar i syfte att hitta blå bilar, men bara 10 av bilderna är på blå bilar och resterande 190 är röda bilar, så kan metoden klassificera alla bilar som negativa (inte blå) och då få en träffsäkerhet som är T = 190 200 = 0, 95 = 95%.. Balanserad Träffsäkerhet För att kompensera för obalanserad mängd data kan man använda en variant av träffsäkerhet som kallas balanserad träffsäkerhet[10], betecknat bT i ekvation 2.4, där SPF och SNF står för sanna positiva-förhållande och sanna negativa-förhållande, respektive. SPF och SNF beräknas i sin tur med ekvationer 2.5 och 2.6 och de beskriver hur stor del av alla riktiga positiva värden som har klassificerats som positiva och hur många av alla riktiga negativa värden som har klassificerats som negativa. Detta gör att både de positiva och negativa klassificeringarna väger lika tungt i kvalitetsbedömningen av modellen, oavsett mängd positiv eller negativ testdata. bT =. SPF + SNF 2. (2.4). SPF =. sp sp + f n. (2.5). SNF =. sn sn + f p. (2.6). I fallet med bilderna på bilar skulle då samma metod, som klassificerar alla bilder som negativa få en balancerad träffsäkerhet på bT = 0, 5 = 50% eftersom den klassificerar alla blå bilar fel och alla röda bilar rätt. Maximala värdet på balancerad träffsäkerhet är 1, eller 100%.. 2.9. Maskininlärning. Maskininlärning är ett delområde inom artificiell intelligens, där datoralgoritmer lär sig och förbättras genom träning eller erfarenhet. Genom att använda data som träning kan en algoritm som inte är designad med ett specifikt problem i åtanke lära sig att se mönster i träningsdatan som den sedan kan applicera på annan data av samma typ. Det finns flera olika typer av maskininlärnings-algoritmer och två av de vanligaste typerna är väglett lärande och icke-väglett lärande. Under typen väglett lärande faller alla de algoritmer som tränas genom att matas med indata och utdata i par. Detta för att algoritmen ska lära sig att se mönster och relationer mellan en viss typ av indata med en viss typ av utdata för att sedan kunna lära sig att förutspå utdatan som ej tillhör tidigare klassificerad indata. Metoder som använder icke-väglett lärande får inte, med sin indata, tillhörande utdata, utan brukar istället försöka att gruppera liknande instanser av indata med varandra och på så sätt skapa olika grupper av data där datapunkterna i varje grupp verkar likna varandra. 12.

(21) 2.9. Maskininlärning. Support Vector Machine Support Vector Machine (SVM) är en maskininlärnings-algoritm som använder sig av väglett lärande och som kan användas som metod för både klassificering och regression [12]. Målet är, för binärt separerbara data, att designa ett hyperplan som klassificerar alla träningsvektorer i två klasser. Ett hyperplan är ett plan som kan definieras i exakt en dimension mindre än det utrymme planet i sig befinner sig i. I ett två-dimensionellt diagram så är hyperplanet en linje, som i fallet av SVM ska separera två grupperade klasser som befinner sig inom diagrammet. Det hyperplan som har maximal distansmarginal från de närmsta objekten för vardera klass väljes som optimal modell, se figur 2.10.. Figur 2.10: Svm separating hyperplanes av wikipedia användare ZackWeinberg (CC BY-SA 3.0). Diagram som visar hur en support vector machine skulle välja ett separerande hyperplan för två klasser, bestående av punkter i 2D. H1 separerar inte klasserna. H2 separerar dem, men bara med liten marginal. H3 separerar dem med maximal marignal. Nyttan med SVM ligger i förmågan att använda kernelization, vilket innebär att man mappar ut olinjära funktionsvärden av datapunkter i dimensionsfältet för att lättare kunna segregera klasserna med ett hyperplan. För denna klassficeringsmetod är enbart positionen för stödvektorerna är väsentliga; punkter utanför marginalet som är på korrekt sida leder inte till ändringar i klassificeringsmodellen. Tekniskt sätt är det för att punkterna inte bidrar till loss function som används till inlärningen, därför spelar inte position eller nummer roll eftersom de inte korsar marginalet. Denna okänslighet till det exakta beteendet av avlägsna punkter är en av styrkorna med en SVM modell. En SVM sätts upp först genom att definiera ett hyperplan som separerar datapunkterna i två. En optimal hyperplan eftersöks vilket innebär att marginalen från de närmsta datapunkterna från respektive klasserna maximeras och sätts exakt i mitten. Ekvationen för hyperplanet är enligt ekvation 2.7 . y = WT x + b. (2.7). Därefter sätts stödvektorer upp enligt ekvation 2.8 och 2.9. Distansen skalas så att de närmsta datapunkterna är exakt 1 längdenhet ifrån hyperplanet. WT x + b = 1. (2.8) 13.

(22) 2.9. Maskininlärning. W T x + b = ´1. (2.9). För den linjära kärnan, är ekvationen enligt 2.10. Där F ( x ) = b + sum( ai ˚ ( x, xi )). (2.10). För fall där det inte går att linjärt separera datapunkterna kan kärntricket användas. Den mest använda kärnfunktionen är Radial Basis Function. I Radial Basis Function hamnar alla världen mellan x = [-1,1], blir värdet 1, annars 0 och definieras enligt ekvation 2.11. Där täljaren är den euklidiska distansen mellan feature-vektorerna och σ är en fri parameter. K ( x, x1 ) = exp(. ||x ´ x1 ||2 ) 2σ2. (2.11). XGBoost XGBoost är en beslutsträd-baserad maskininlärningsalgoritm och har växt i popularitet på grund av den höga träffsäkerheten och effektiviteten jämfört med andra framträdande metoder[19]. Detta uppmärksammades i en blogg av maskininlärningssidan Kaggle som håller i utmaningar där bäst lösning vinner. Av 29 utmaningar har 17 av de vinnande bidragen använt XGBoost (publicerat i Kaggles blogg år 2015), jämfört med den näst mest använda, djupa neuronnät, som användes i 11 lösningar. XGBoost är en förlängning av gradient boost, med tillägg av variabler som lambda (regularization parameter), Gamma (auto-pruning tröskel) och Eta (konvergeringshastighet). Den generella idén är att en klassificering kan göras baserat på flera mindre träffsäkra modeller för att sedan dra en kollektiv slutsats på vilken klass en datapunkt tillhör. Olika maskininlärningsalgoritmer implementeras och körs sekventiellt på datan. Till skillnad från bagging som är en parallell ensemble så är boosting en sekventiell sådan. I den sekventiella ordningen turas olika modeller om att träna och testa på datan. En basmodell utför ett test på datapunkterna och en similarity score beräknas enligt ekvation 2.12.. (Summan Av Residualer )2 (2.12) Antal Residualer + λ Residualerna avgrenas sedan till olika blad baserat på simpla kriterier på datapunkterna för att på nytt beräkna similarity score för varje avgrening av basnoden. Om Similarity score för avgreningen, dividerat med Similarity score för basnoden, är lägre än Gamma, så görs en ny avgrening. (enligt ekvation) Efter testningen utför nästa modell en ny träning och test på residualerna av föregående modellens prediktion. Den nya prediktionen beräknas enligt ekvation 2.13. Similarity Score =. Ny Prediktion = Tidigare Prediktion + LearningRate( Eta) ˚ Output. (2.13). Lambda används som kontroll mot överträning och till viss grad för att hantera avvikande värden. Ju högre värde på lambda, desto mer aggressiv blir kontrollen. Eta är learning rate, vilket oftast sätts till 0.3.. 14.

(23) Kapitel 3. Metod Följande kapitel innehåller information om hur arbetet byggdes upp och beskrivningar av de vanligaste felen som Husfoto behöver hantera, samt hur de felen blir till. Dessutom beskrivning av de bildanalysmetoder som skapades och användes för att undersöka och utvärdera bilderna och metoderna som använts för att utvärdera dessa bildanalysmetoder. Projektet delades upp i två delar. Under den första delen låg fokus på att utreda hur felen dyker upp i bilderna och undersöka hur man skulle kunna hitta dessa. Datan som fanns tillgänglig hos Husfoto samlades in parallellt med projektarbetet i form av en lista med relevanta bildfel och sorterades därefter enligt frekvens. Detta ledde till att prioriteringar på vilka fel som var viktigast att upptäcka kunde göras baserat på de fel som var mest frekventa. Därefter skapades eller implementerades minst en metod vardera för de prioriterade felen. Under den andra delen, när mer data fanns tillgänglig, låg fokus på att hitta alternativa metoder, som krävde eller kunde dra nytta av större mängd data, för att identifiera bildfelen. Därefter jämfördes de olika metoderna för att se hur väl de presterade i relation till varandra.. 3.1. Bildfel. I följande delkapitel kommer de, som Husfoto har utpekat som de allvarligaste och vanligaste, felen att förklaras utan inbördes ordning.. Sneda Linjer Om kameran inte är riktad fullständigt horisontellt när bilderna tas, så kan det se ut som att väggar och andra vertikala linjer i bilden är sneda. Vertikala linjer som ligger nära bildens höger- och vänsterkanter, och horisontella linjer som ligger nära de övre och undre kanterna i bilden är väldigt lätta att identifiera om de är sneda, även för en ej tränad observatör, då bildens hörn alltid är 90 grader och kanterna alltid är fullständigt horisontella eller vertikala. Linjens längd spelar också roll i hur dess rakhet uppfattas. Det är generellt lättare att se om en lång linje är sned, jämfört med en kortare linje. Sneda linjer kan, enligt Husfoto, upplevas som störande och är därför oönskade vid den här typen av fotografering. Ett exempel på detta visas i Figur 3.1.. 15.

(24) 3.1. Bildfel. Figur 3.1: En bild med ett snett perspektiv. Exponeringsfel Begreppet används synonymt till hur mycket ljus det finns i en bild. Bildens exponering beror framförallt på de tre kamerainställningar, som nämndes i 2.3, som användes för att ta bilden. Dessa tre inställningar är det upp till fotografen och kameran att balansera för att bildens exponering ska bli korrekt. Om någon eller flera av dessa inställningar är fel så kan hela eller delar av bilden bli för ljus eller för mörk och det kallas då över- och underexponering. Den insamlade informationen i vid fototagning passerar tröskelvärdena 0 eller 255 så att information förloras och inte kan återskapas. Den tekniska förklaringen är att information förloras i bilden på grund av distorsion. Detta syns tydligt som en avvikelse på de yttersta staplarna i ett bildhistogram. Exempel på en överexponerad bild kan ses i figur 3.2.. 16.

(25) 3.1. Bildfel. Figur 3.2: Överexponerade fönster.. Vitbalans Om en bild har fel vitbalans så innebär det att det finns ytor i bilden som upplevs vara missfärgade. Det är relativt lätt för en någorlunda van människa att att känna igen en bild med dålig vitbalans, då man kan leta efter föremål i bilden som vanligtvis ska vara helt vita eller gråa och genom att titta på färgen dessa föremål har i bilden kan man avgöra om vitbalansen är korrekt eller inte. Ett vanligt exempel är i ett rum med furutak eller väggar där allt annat i rummet blir gul-färgat i bilden. Detta kan motverkas dels med kamerainställningar, och dels i efterbehandling av bilden. Ett vanligt ord som brukar användas i sammanhanget vitbalans är “temperatur”. Detta är för att en bild som är mer blå upplevs som kall och en bild som är mer röd upplevs som varm. Figur 3.3 föreställer ett rum med furutak, som gör att hela bilden ser gulaktig ut. Detta trots att väggarna kan antas vara vita i verkligheten.. 17.

(26) 3.1. Bildfel. Figur 3.3: Gul färgstick.. Blå Himmel En del av fotografierna som Husfoto säljer är utomhusbilder. Om en bild innehåller himmel så är det, enligt Husfoto, viktigt att himlen är blå, då det är mer estetiskt tilltalande. Bilder som inte godkänns är exteriörbilder vars himmel inte är tillräckligt blå, exempelvis när himlen är heltäckt av moln, eller på annat sätt inte visar en tydlig blå himmel. En digital redigering av en icke-godkänd bild brukar göras genom att färga himlen blå. Figur 3.4 är exempel på en annars godkänd bild, vars himmel inte är blå.. 18.

(27) 3.1. Bildfel. Figur 3.4: Grå himmel.. Slagskugga Fotograferna har ofta en extern blixt som inte sitter fast på kameran. Om blixten är placerad olämpligt i förhållande till kameran så kan det bildas onaturliga skuggor av inredningen i rummet, vilket är distraherande och oönskat. Skuggor som kommer från naturliga ljuskällor resulterar inte i ett underkännande, däremot så underkänns bilder med synliga skuggor som den fotografiska blixten gav upphov till. I figur 3.5 ses en bild där taklampan i rummet kastar en onaturlig skugga på väggen och taket över gardinen.. 19.

(28) 3.1. Bildfel. Figur 3.5: Slagskugga av taklampa.. Suddighet Suddighet i bilden kan vara önskvärt i så kallade detaljbilder, i vilka ett specifikt objekt i bilden ska vara i fokus, och annat ska vara ur fokus. Detaljbilder utgör dock en minoritet av alla bilder och de vanligaste bilderna är helhetsbilder, vilka inte ska vara suddiga alls, utan hela bilden ska vara i fokus. Exempel på en bild med oavsiktlig oskärpa ses i figur 3.6. 20.

(29) 3.1. Bildfel. Figur 3.6: Oskärpa.. 21.

(30) 3.2. Datainsamling. Reflektion Reflektion i det här sammanhanget refererar till oönskade reflektioner på insidan av fönster, glas eller på glasmöbler som kan upplevas som störande för observatören och är därför oönskade i fotot. Figur 3.7 föreställer en hall med ett reflekterande fönster.. Figur 3.7: Reflekterande fönster.. Tunnformig Distorsion Tunnformig distorsion är ett fenomen som kan uppstå beroende på kamerans lins och objektiv. Det kallas ibland även för “fish eye”-effekt, vilket innebär att det ser ut som att fotot är konvext. Det ser alltså ut som att de vertikala linjerna i kanten på bilden buktar utåt, likt plankorna i en tunna. En djupare analys av bildfel bör ha i åtanke att algoritmer som flaggar bilder för sneda linjer kan påverkas av bilder med tunnformig distorsion.. 3.2. Datainsamling. Insamlingen av data resulterade i totalt 984 icke-godkända bilder, med markerade bildfel enligt tabell 3.1. Totalt 4805 bilder samlades in som markerades som godkända överlag, det vill säga att dessa bilder är helt felfria.. 22.

(31) 3.3. White Patch Tabell 3.1: Tabell med frekvensen av olika bildfel som samlades in. Felfrekvens Vitbalans: 427 Blå himmel: 209 Sneda linjer: 148 Exponeringsfel: 85 Slagskugga: 64 Reflektion: 36 Tunnformig distorsion: 15. 3.3. White Patch. White Patch är en metod i vilken man antar att det i varje bild finns minst en punkt, vars RGB-färgkanal representerar ljuset från ljuskällan som belyser bilden[3]. Denna eller dessa punkter är de punkter som har det högsta gråskale-värdet i bilden; alltså de ljusaste pixlarna. Vitbalansen i bilden påverkas av vilken typ av ljus som belyser rummet där bilden tas och genom att hitta en punkt i bilden som representerar ljuskällan ska man då, dela det högsta värdet av punktens färgkanaler med det lägsta värdet, enligt ekvation 3.1 kunna räkna ut om bilden har en bra vitbalans, då R, G och B är den ljusaste punktens röda, gröna och blåa värden, respektive; dev är punkens avvikelse från en motsvarande gråskale-punkt och används som mått på bildens vitbalans. Ett värde på dev = 1 innebär att punkten som valts är i gråskala och bildens vitbalans antas därför vara objektivt perfekt. Ju längre värdet är från 1, desto sämre antas bildens vitbalans vara. dev =. max ( R, G, B) min( R, G, B). (3.1). I det här projektet har en variant av white patch använts, där 15% av bildens pixlar med högst gråskale-värde väljes ut och man räknar ut tre medelvärden; ett för var och en av de röda, gröna och blå kanalerna, för samma pixlar. Genom att dela det största av medelvärdena med det minsta, så får man bildens avvikelse. Följande ekvation 3.2 visar hur avvikelsen(dev) räknas ut med hjälp av medelvärdena för de röda(avgR), gröna(avgG) och blå(avgB) kanalerna av de 15% ljusaste pixlarna i en bild. dev =. 3.4. max ( avgR, avgG, avgB) min( avgR, avgG, avgB). (3.2). Låg mättnad. Följande metod är en egen metod, framtagen för att undersöka vitbalansen i en bild. Vid undersökning av bilderna i början av projektet upptäcktes det att vid bilder tagna inomhus med dålig vitbalans, så var det enklast för det mänskliga ögat att känna igen felet i områden som hade låg mättnad. Områden som avsiktligt är färgade, så som tyger på möbler, fotografier eller tapeter har oftast en högre mättnad än de områden som i verkligheten är vita, men som i bilden upplevs färgade av sin omgivning eller belysning. Vanligt är att en vit inredning eller tapet får en lätt ton av någon annan möbel när blixten från kameran slår till och ljuset reflekteras via någon avsiktligt färgad möbel, matta eller liknande. Låg mättnad-metoden använder bildens medel-mättnad över alla pixlar för att skapa ett tröskelvärde och sedan isolera de pixlar som ligger under det värdet, och därmed har låg mättnad. Tröskelvärdet räknas ut enligt ekvation 3.3, där thresh är bildens tröskelvärde och. 23.

(32) 3.5. Detektion och bedömning av himmel avgS är bildens medel-mättnad i S-kanalen då bilden konverterats till HSV-färgrymd. Nämnaren i ekvationen är framtagen genom manuella tester på ett fåtal bilder för att öka relevansen av de isolerade bildpunktera. thresh =. avgS 1, 5. (3.3). När de bildpunkter som ligger under tröskelvärdet har identifierats körs samma process som från white patch-metoden, där ett avvikelse-värde räknas ut med hjälp av medelvärden av de röda, gröna och blå kanalerna från alla pixlar under tröskelvärdet enligt ekvation 3.2.. 3.5. Detektion och bedömning av himmel. För att kunna bedöma om himlen i en bild är bra eller dålig måste kriterierna för vad som är en bra och en dålig himmel definieras. Från Husfoto erhölls bilder som undersökts av deras anställda och annoterats med en av kategorierna “saknar blå himmel” eller “ok”. För att fastställa kriterierna för bra eller dålig himmel, samplades himmel från cirka 5-10 bilder genom att manuellt markera och klippa ut så mycket himmel, och bara himmel, som möjligt från bilderna. Dessa segment klistrades sedan in i en ny, tom bild som till slut innehöll bara dålig eller bara bra himmel. Detta gjordes två gånger; en gång för respektive kategori av himmel. Dessa samlingsbilder av himmel användes först för att identifiera de kriterier som definierar himmel i bilderna. Genom att skapa och visa diagram för olika kanaler i bilden kunde en modell för hur himmel ser ut tas fram och användas för att automatiskt isolera himmel i samtliga bilder. Kriterierna som togs fram var i form av tröskelvärden i bildens RGB- och HSL-kanaler. De tröskelvärdena beskrivs i tabell 3.2 nedan. Tabell 3.2: Tabell över de tröskelvärden som uppskattats för att definiera himmel. Tröskelvärden för vad som definierar himmel Nedre värde< Kanal <Övre värde 150< B 90< H <185 ELLER 0< H <12 130< L Samma samlingsbilder användes sedan även för att skapa data som skulle representera den generella bilden för bra och dålig himmel. Denna data var en samling av min-, max-, medel- och medianvärden för följande kanaler i bilden: • Röd • Grön • Blå • Hue (Färgton) • Saturation (Mättnad) • Lightness (Ljushet) Med hjälp av dessa värden kunde tröskelvärden tas fram, som skulle definiera en gräns mellan godkänd och icke godkänd himmel. Tabell 3.3 visar de värden som användes för att klassificera en bild som “godkänd”. 24.

(33) 3.6. Maskininlärning Tabell 3.3: Tabell över de tröskelvärden som definierar om en himmel är godkänd Tröskelvärden för godkänd himmel. B > G+10 B > R+20 S > 70 L < 230. För att en bild ska klassificeras som “godkänd” gäller alltså att den upptäckta himmelns medelvärdes B-, S- och L-kanaler uppfyller alla krav i ovanstående tabell.. 3.6. Maskininlärning. Histogramdata ansågs vara värdefull information till en ansats med XGBoost och SVM, därigenom även olika representationer av histogram för färgrymderna RGB och HSV. För både XGBoost och SVM så extraherades histogramdata ur samtliga bilder i 5 bins för varje färgkanal, enligt figur 2.4, vilket resulterade i 30 variabler. Tanken var att låta maskininlärningsalgoritmerna hitta normerade korrelationer mellan black, shadows, midtones, highlights och whites inom färgkanalen och mellan färgkanalerna. Hypotesen var att olika typer av bilder (exempelvis exteriör med blå himmel och exteriör utan blå himmel) kan ha olika liknande abstrakta representationer av dessa korrelationer. Variablerna är alltså antal pixlar med pixelintensitetsvärden som hamnar mellan olika gränser satta av antalet bins i bildhistogrammen. Ett fixt värde på 0.2 valdes till fördelningen mellan träning och test för båda metoderna så att en ordentlig jämförelse kunde utföras. Det innebär dessvärre att inga slutsatser kunde dras ifall detta värde är optimalt för experimentet och om jämförelsen hade sett annorlunda ut om sådana värden hade använts istället. Lika många datapunkter importerades bland de godkända bilderna som de ickegodkända bilderna för att undvika fördelaktighet i träningen. Detta innebär att för vissa bildfel så blir träningsdatan relativt liten jämfört med andra bildfel och kan ge upphov till sämre resultat. Detta är en begränsning som kan hävas med fler insamlade icke-godkända bilder. Två SVM-modeller med olika kärnfunktioner användes, en linjär och Gaussian Radial Basis Function [11]. Detta gjordes för att undersöka om en icke-linjär separation kan resultera i en bättre klassificering.. 25.

(34) Kapitel 4. Resultat Följande kapitel kommer att presentera och förklara de resultat som erhölls med hjälp av de metoder som beskrevs i kapitel 3. Diskussion om resultaten hittas i senare kapitel. Alla resultat är baserade på den subjektiva bedömning av bilder från anställda på Husfoto och det är denna bedömning av bilder som har lagt grunden för eventuella kvalitetsmått som kommer att presenteras. Flera olika testrundor har utförts för olika bildtyper för att undersöka om en segregering av dessa resulterar i ett bättre resultat och om det är nödvändigt att separera dessa, exempelvis exteriör-bilder och interiör-bilder för detektion av vitbalans, inför en träning. Alla tabeller kommer att se ut på liknande sätt med 9 kolumner, 2 titelrader och en rad av värden för varje metod som använts för felet. Första titelraden förklarar vad tabellen representerar. Andra titelraden innehåller 8 titlar: “sp”, som står för sanna positiva, representerar hur många bilder som korrekt markerats som dåliga; “ f p”, som står för falska positiva, representerar hur många bilder som inkorrekt markerats som dåliga; “sn”, som står för sanna negativa, representerar hur många bilder som korrekt inte har markerats som dåliga; “ f n”, som står för falska negativa, representerar hur många bilder som inkorrekt inte har markerats som dåliga; “P”, som står för precision, representerar hur stor del av alla markerade icke godkända bilder faktiskt var icke godkända; “K”, som står för känslighet, representerar hur stor del av alla faktiskt icke godkända bilder som korrekt markerats som icke godkända; ´´T”, som står för träffsäkerhet, representerar hur stor del av metodens alla markeringar som faktiskt var korrekt; och ´´bT”, som står för balanserad träffsäkerhet, representerar hur stor del av metodens alla markeringar som faktiskt var korrekt, men med hänsyn till obalanserad data.. 4.1. Blå himmel. Följande är de resultat som erhölls av metoderna anpassade för att känna igen brist på blå himmel i bilder. Dessa resultat kommer att presenteras i olika iterationer av data-filtrering. De godkända bilderna som erhölls var alla grupperade tillsammans utan inbördes sortering eller annotering. Av denna anledningen har metoderna körts flera gånger i följd; varje gång med samma dataset av icke godkända bilder, men olika, handutvalda dataset av godkända bilder. Första tabellen visar de resultat som erhölls då alla bilder, som tagits emot, har använts. Följande tabeller efter det visar resultaten då färre godkända bilder av olika relevans testades. Då mängden data var obalanserad, vad gäller förhållandet mellan godkända och icke godkända bilder, så har de metoder som kan påverkas av detta tränats och testats på en balanserad delmängd av datan. För att kompensera för eventuella avvikelser som kan dyka upp när man tränar och testar på en delmängd av datan så har dessa metoder tränats och testats 10 gånger var; varje gång med en slumpmässigt vald delmängd av datan. De resultat som presenteras i tabellerna nedan är summan av dessa 10 tester och metodens precision, känslighet, träffsäkerhet och balanserade träffsäkerhet är beräknade för summan av alla sanna- och falska positiva och negativa klassificeringar gjorda av metoderna. Medelvärden och standar26.

(35) 4.1. Blå himmel davvikelser på precision, känslighet, träffsäkerhet och balanserad träffsäkerhet för varje av metodernas 10 mätningar presenteras i figurer i respektive delkapitel. Alla bilder Tabell 4.1 visar de resultat som erhölls då tester utfördes på alla godkända bilder från Husfoto. Inga bilder har filtrerats bort. Då den data som tillhandahållits innehåller en större mängd godkända bilder än icke godkända bilder för varje fel, så har datan för de maskininlärningsmetoder som är benägna för partiskhet, balanserats så att det finns ungefär lika många godkända som icke godkända bilder att träna och testa på. Detta gör att mängden bilder kan skilja mellan de olika metoderna som presenteras. De manuella metoderna som använts har testats på alla tillgängliga bilder, då de inte är benägna för partiskhet. Tabell 4.1: Tabell med resultat av olika metoder som använts för att bedöma om himmeln i bilderna är blå, där godkända bilder kan vara inomhus och/eller inte innehålla himmel.. Egen Metod XGBoost SVM (Linjär) SVM (RBF). Resultat för Blå Himmel, med alla godkända bilder. sp fp sn fn P K 205 3565 1242 4 5,4% 98,1% 346 67 368 69 83,77% 83,37% 385 103 322 39 78,89% 90,8% 390 102 323 36 79,27% 91,55%. T 28,8% 84.0% 83,27% 83,78%. bT 62,0% 83,98% 83,28% 83,77%. De metoder som har tränats och testats med balanserad mängd data har gjorts så 10 gånger. Resultaten som visas i tabellen är summan av resultaten från dessa 10 mätningar. I figur 4.1 visas medelvärden av de mätningar som gjordes, tillsammans med standardavvikelse för dessa värden.. 27.

(36) 4.1. Blå himmel. Figur 4.1: Medelvärden och standardavvikelser för XGBoost och SVM med alla bilder. Bilder utomhus I tabell 4.2 visas resultaten som erhölls då de bilder som var helt eller mestadels inomhus tagits bort och kvar var alla bilder som tydligt är tagna utomhus. Tränings- och testdatan har som tidigare balanserats så att det är en jämn fördelning av godkända och icke godkända bilder.. Egen Metod XGBoost SVM (Linjär) SVM (RBF). sp 205 368 354 357. Resultat för Blå Himmel, med bilder utomhus. fp sn fn P K 659 1198 4 23,7% 98,1% 68 343 71 84,40% 83,83% 108 339 49 76,62% 87,84% 93 354 47 79,33% 88,37%. T 67,9% 83,65% 81,53% 83,55%. bT 81,3% 83,64% 81,84% 83,78%. Tabell 4.2: Tabell med resultat av olika metoder som använts för att bedöma om himmeln i bilderna är blå, där vissa godkända bilder inte innehåller himmel, men alla är tagna utomhus.. Figur 4.2 visar de medelvärden och standardavvikelser som erhölls från resultaten av 10 tester med olika tränings- och testdata med bara bilder tagna utomhus.. 28.

(37) 4.1. Blå himmel. Figur 4.2: Medelvärden och standardavvikelser för XGBoost och SVM med bara bilder tagna utomhus. Bilder utomhus med himmel Tabell 4.3 beskriver resultaten från tester där alla godkända bilder är utomhus och innehåller himmel. Bilder inomhus och bilder utomhus som ej tydligt innehåller himmel har filtrerats bort. Återigen så har mängden data balanserats och metoden har tränats och testats 10 gånger med slumpmässigt vald tränings- och testdata varje gång. Tabell 4.3: Tabell med resultat av olika metoder som använts för att bedöma om himmeln i bilderna är blå, där alla godkända bilder är utomhus och innehåller himmel.. Egen Metod XGBoost SVM (Linjär) SVM (RBF). Resultat för Blå Himmel, med bilder med himmel. sp fp sn fn P K 205 393 1099 4 34,3% 98,1% 370 92 328 67 80,09% 84,67% 398 92 315 45 81,22% 89,84% 396 74 333 47 84,26% 89,39%. T 76,7% 81,45% 83,88% 85,76%. bT 85,9% 81,38% 83,62% 85,6%. Figur 4.3 visar de medelvärden och standardavvikelser som erhölls från resultaten av 10 tester med olika tränings- och testdata med bara bilder tagna utomhus och där alla bilder innehöll himmel.. 29.

(38) 4.2. Vitbalans. Figur 4.3: Medelvärden och standardavvikelser för XGBoost och SVM med bara bilder med himmel.. 4.2. Vitbalans. Följande är de resultat av metoderna som använts för att hitta bilder med dålig vitbalans. I jämförande syfte har både de godkända och de icke godkända bilderna delats upp grupper om alla bilder, bara bilder utomhus och bara bilder inomhus. Metoderna har sedan, i relevanta fall, tränats och sedan testats på alla dessa grupper av bilder separat. Tröskelvärdena för vad som definierar en bra eller dålig bild i metoderna “white patch” och vår egna låg mättnad-metod har tagits fram genom att öka tröskelvärdet för bildens avvikelse, benämnda som dev i ekvationer 3.1 och 3.2, från och med 1 till och med 1,2 med steget 0,0002 och jämfört metodens balanserade träffsäkerhet för alla tröskelvärden. Resultaten som presenteras nedan är de som erhölls när det tröskelvärde som gav högst balanserad träffsäkerhet användes. Grafer över den balanserade träffsäkerheten över alla tröskelvärden på avvikelser kan ses i figurer under respektive delkapitel. Även för vitbalans var datan obalanserad och maskininlärnings-metoderna XGBoost och SVM har därför, som i fallet med himmel, tränats och testats 10 gånger per gruppering av bilder och var gång så har en balanserad del av bilderna slumpmässigt valts ut och sedan delats upp i träning- och testdata. Tabellerna liknar de i 4.1 och förklaring av förkortningar hittas där.. Alla bilder Följande är de resultat som erhölls då alla godkända bilder och alla bilder med dålig vitbalans har använts. I fallen med maskininlärning så har en del av de godkända bilderna slumpmässigt sorterats ut för att balansera mängden godkända och icke godkända bilder. Tabell 4.4 visar de resultaten som erhölls då alla bilder fanns till förfogande för samtliga metoder. För 30.

References

Related documents

(e) altfå kan Tabell wårket nyttjas, till en profwefien, hwarnf man kan finna, antingen näringsmedlen ftåi jåmnwigt, eller icke , antingen wifia. närings¬ medel åro for ymnige,

Detta kan förklara de stora procentuellmässiga skillnaderna i utdelningarna som studien tittat på där resultatet för ett bolags utdelning över en konjunkturcykel ofta är

2 Visa fl iken Fält (Fields) och klicka på något av alternativen i gruppen Lägg till och ta bort (Add &amp; Delete) för att lägga till ett fält av mot- svarande datatyp. 3

Belysning god under mörker totalt men mer i högre nivår - kontinuerlig belysning längs med gatan med hängande lampor från ena sidan till andra - men mer tänkt för bilen - dock ger

In addition to the quality scores (QS) the participants were asked to provide a confidence score (CS) on a 5-point scale, as a measure of how difficult is was to judge the quality of

We have made the gaze patterns from the eye tracking experiment publicly available in the Visual Attention for Image Quality (VAIQ) database, in order to facilitate and encourage

database to reveal that the considered test images created by the wireless link model indeed pose a difficult problem for current objective image quality metrics.. Finally, by

Visual Fixation Patterns in Subjective Quality Assessment: The Relative Impact of Image Content and Structural Distortions.. Ulrich Engelke, Hans-Jürgen Zepernick,