Analys av inskannade arkiverade dokument med hjälp av objektdetektering uppbyggt på AI Malin Svedberg

(1)

AKADEMIN FÖR TEKNIK OCH MILJÖ

Avdelningen för datavetenskap och samhällsbyggnad

Analys av inskannade arkiverade dokument med

hjälp av objektdetektering uppbyggt på AI

Malin Svedberg

2020

Examensarbete, Grundnivå (högskoleexamen), 15 hp Datavetenskap

Dataingenjörsprogrammet

(2)

(3)

Abstrakt

Runt om i världen finns det en stor mängd historiska dokument som endast finns i pappersform. Genom att digitalisera dessa dokument förenklas bland annat förvaring och spridning av dokumenten. Vid digitalisering av dokument räcker det oftast inte att enbart skanna in dokumenten och förvara dem som en bild, oftast finns det önskemål att kunna hantera informationen som dokumenten innehåller på olika vis. Det kan t.ex. vara att söka efter en viss information eller att sortera dokumenten utifrån informationen dem innehåller. Det finns olika sätt att digitalisera dokument och extrahera den information som finns på dem.

I denna studie används metoden objektdetektering av typen YOLOv3 för att hitta och urskilja olika områden på historiska dokument i form av gamla registerkort för gamla svenska fordon. Objektdetekteringen tränas på ett egenskapat träningsdataset och träningen av objektdetekteringen sker via ramverket Darknet.

(4)

(5)

Innehållsförteckning

Abstrakt ... i Innehållsförteckning ... iii 1 Inledning ... 4 1.1 Bakgrund ... 4 1.1.1 Registerkort ... 5 1.2 Syfte ... 7 1.3 Frågeställning ... 7 1.4 Avgränsningar ... 8

1.5 Relaterade arbeten och metoder ... 8

1.5.1 Digitalisering av dokument ... 8

1.5.2 YOLO och Darknet ... 10

(6)

1 Inledning

1.1 Bakgrund

Runt om i världen finns det mängder av dokument som innehåller värdefull information men som endast finns i pappersform. Svårigheterna med information som endast finns att tillgå i pappersform är dels att den är svåråtkomlig för dem allra flesta och den är svår att delge andra. Dessutom kan det vara svårt att hitta den information som eftersöks om den befinner sig bland en större mängd dokument. Dessa problem upplevs bland annat på Stockholms stadsarkiv där det finns

hundratusentals av gamla registerkort för svenska fordon som innehåller information om olika fordon. Men alla dessa registerkort som finns är nästintill oanvändbara om det är någon specifik information som eftersöks då det kan ta oerhörd lång tid att leta igenom dessa registerkort för att hitta just den informationen. Det är dessa registerkort som kommer användas i denna studie, mer beskrivning om dessa kort finns i avsnitt 1.1.1.

(7)

1.1.1 Registerkort

I Sverige finns en stor mängd av gamla registerkort för gamla svenska fordon av olika slag, endast i Stockholm finns det hundratusentals exemplar av dessa registerkort. Registerkorten innehåller information som kan vara intressant för allmänheten t.ex. information om fordonet som registreringsnummer, motornummer, fabrikat m.m. men även information om ägaren till fordonet. Men i dagsläget är det svårt för allmänheten att ta tillvara på den information som finns då dessa registerkort endast finns i pappersform eller som inskannade bilder. Det innebär att det inte går att varken söka eller sortera korten på något vis vilket leder till att vid efterfrågan av en specifik information krävs det att alla registerkort gås igenom manuellt.

(8)

(9)

Figur 3 - Bild på ovandel av ett skadat registerkort för en tung motorcykel.

1.2 Syfte

Syftet med detta arbete är att testa objektdetektering med lämplig machine learning baserad metod för att hitta olika områden på registerkort för gamla fordon i Sverige och analysera resultatet. Detta utförs för att kunna utvärdera om objektdetektering ger tillräckligt bra resultat för att utföra fortsatt utveckling av metoden för framtida arbeten med att analysera och extrahera information ifrån dokument.

Arbetet syftar även till att få en inblick i hur skillnaden på träningsdataset påverkar resultatet av objektdetekteringen då olika träningsdataset används vid

implementeringen av objektdetekteringen.

Arbetet i sin helhet syftar till att bidra till en liten del av dem steg som krävs för att digitalisera dokument. Detta är ett område som gynnar samhället ur flera

perspektiv. Dels så bevaras information bättre om den finns digitalt då papper tenderar att missta färg samt trasa sönder. Utöver detta underlättas även eventuell önskad spridning av informationen till samhället eller övriga intresenter om informationen finns digitalt.

1.3 Frågeställning

Frågeställningarna som ska besvaras i detta arbete är följande två frågor:

- Vilken träffsäkerhet kan uppnås i automatiskt detektering av olika fälttyper i gamla registerkort genom metoder som bygger på maskininlärning?

(10)

1.4 Avgränsningar

För att digitalisera dokument krävs det att rätt information först lokaliseras och sedan tolkas. Detta arbete kommer endast att fokusera på att hitta var en viss information befinner sig på dokumentet och inte försöka tolka informationen på något sätt.

Detta arbete kommer endast att testa objektdetektering av typen YOLOv3 och endast på registerkort för svenska fordon av typen motorcykel, bil, buss och lastbil. På dessa kort är det endast fyra olika områden som kommer att ingå i

objektdetekteringen. Arbetet kommer att använda sig av en färdig implementation av en objektdetekteringsmetod som består av ett neuralt nätverk och inga justeringar på detta nätverk kommer att ske. Träningen av detta nätverk kommer att ske med en begränsad mängd träningsdata då den behöver tas fram manuellt och det är en tidskrävande process.

1.5 Relaterade arbeten och metoder 1.5.1 Digitalisering av dokument

För att kunna digitalisera dokument på en mer avancerad nivå än att bara skanna in dem krävs det att dokumenten analyseras för att kunna extrahera och hantera informationen som finns. Det finns olika metoder för att segmentera och klassificera olika delar i dokument. Första steget som är att segmentera dokument i olika

(11)

När ett dokument delats upp i olika beståndsdelar är det dags att klassificera vad vardera beståndsdel är för typ av del. Författarna av [3] klassificerar t.ex. alla delar som gynnats ut ifrån segmenteringen till att vara antingen text, bild eller linje. För att göra detta använder författarna av [3] sig av ”feature analysis”, vilket innebär att algoritmen kollar på ett områdes olika egenskaper, i kombination med en ”rule-based approach” som innebär att ett antal regler sätts upp innan som olika

egenskaper matchas med. Dessa metoder kan anses vara mer “hårdkodad” jämfört med andra metoder som använder sig av machine learning för att känna igen och hitta olika regioner i ett dokument. Ett exempel där machine learning används är i [4] där en KNN-algoritm används för att klassificera olika delar i dokument. För att kunna använda sig av machine learning algoritmer krävs det dock en del träningsdata att utgå ifrån för att algoritmen ska kunna veta hur delarna ska klassas. Ett annat exempel där dem använder sig av träningsdata och artificiell intelligens är i [5] där författarna använder sig av ett convolutional neural network för att klassificera delarna i dokument. Datasetet som användes i [5] bestod av dem 999 första sidorna i första volymen av “Enciclopedia Treccani”. Även författarna av [6] har använt sig av convolutional neural networks för att hitta olika delar i dokument. De olika klasser som användes var textrad, formel, figur och tabell och sökningen av dessa delar gav ett resultat på ett recall mellan 83,2-94,1%. Det dataset som användes i [6] bestod av 1 100 olika vetenskapliga artiklar.

Det gemensamma med metoderna som nämnts ovan är att de resulterar i dokument som är uppdelade och klassificerade på en sådan nivå att det går att veta om det är text, en bild, en tabell, en titel m.m. Problemet med detta är att för vissa dokument räcker det inte att veta att det är en text utan det skulle underlätta att veta vad det är för text. Detta gäller t.ex. för registerkorten som nämnts tidigare, dem innehåller olika områden med rubriker och tillhörande text, då räcker det inte att veta var det finns text utan det krävs vetskap om till vilken rubrik de olika textstyckena hör till. För att kunna kunna veta vilken text som finns var finns det andra metoder att använda sig av. Template matching är en sådan metod, det innebär att algoritmen använder sig av någon form av mönster som matchas emot ett dokument. Template matching har en stor roll i ”pattern recognition” och ”object detection”[7]. Denna metod kollar då mycket på skillnaden på pixlars intensitet för att matcha mönstret mot dokumentet.

Författarna av [8] tar upp en del vanliga metoder för att analysera bilder och text som använder sig av convolutional neural networks. En av dessa metoder är YOLO som beskrivs i nästa avsnitt. Huang et al [9] har använt sig av YOLOv3 för att detektera tabeller i dokument de har gjort tester på två olika dataset (ICDAR 2017 POD, ICDAR 2013 Table Competition dataset) och har fått ett resultat där

(12)

1.5.2 YOLO och Darknet

YOLO som står för ”you only look once” är en ”state-of-the-art”

objektdetekteringsalgoritm [10] som innebär att objektdetekteringen endast kollar på den berörda bilden en gång medan många andra metoder kollar igenom bilden flertalet gånger. YOLO är en av de snabbaste objektdetekteringsmetoderna som finns och ger även hög träffsäkerhet. Författarna av [11] beskriver i detalj hur YOLOv3, som var den nyaste versionen av YOLO när detta arbete utfördes, är uppbyggt och fungerar. I korta drag kan det beskrivas att YOLO använder sig av ett neuralt nätverk som tränas för att känna igen objekt och som sedan används för att detektera objekt i bilder eller filmer. YOLO använder sig av ramverket Darknet för träning och testning av objektdetekteringen [11]. Darknet är ett ”open source” ramverk för neurala nätverk som kan användas både på CPU och GPU [12]. I andra studier [13],[14] har dem använt sig av YOLO som objektdetekteringmetod för att hitta olika trädsorter respektive logotyper på produkter. Båda dessa

objektdetekteringar arbetar med olika objekt som är relativt lika varandra vilket visar att YOLO ger bra resultat även för objekt som till utseende är lika varandra. För att kunna använda YOLO som objektdetekteringsmetod krävs det att modellen först tränas på de objekt som är önskade.Till träningen krävs det en mängd

träningsdata som består av bilder samt en textfil till vardera bild som anger var på bilden ett visst objekt befinner sig. Vid testning av objektdetektering krävs det även en mängd testdata som det finns facit till likt träningsdatat för att få möjlighet att validera hur bra detekteringen är. Vid träning av en modell skapas det viktfiler som motsvarar själva modellen. Det är denna viktfil som används vid körningen av objektdetekteringen så olika viktfiler ger olika resultat.

Kort beskrivet är YOLO en objektdetekteringsalgoritm och YOLOv3 är en variant på en implementation av YOLO algoritmen. YOLOv3 använder sig av en modell som motsvaras av en viktfil för att utföra objektdetekteringen. Det är viktfilen som anger hur det neurala nätverket ska arbeta och för att skapa egna viktfiler som kan användas på egna objekt används ramverket Darknet för att träna nätverket och skapa viktfilen. Darknet används även sedan för att testköra YOLOv3

(13)

1.5.3 Validering av objektdetektering

För att ta reda på hur bra en objektdetektering fungerar krävs det beräkningar av olika slag. Några vanliga metoder för att validera träffsäkerheten hos en

objektdetektering är IoU, precision och recall. IoU som står för ”intersection over union” innebär att man beräknar överlapp av det detekterade området med det korrekta områden och dividerar med unionen av bådas områden [15]. IoU ger ett värde mellan 0 och 1 där 1 är bra och noll är dåligt. Se Figur 4för förklaring av IoU, de två kvadraterna motsvarar det detekterade området respektive det korrekta området för ett objekt. För att kunna beräkna precision och recall behöver först alla detekteringar eller frånvaro av detektering klassificeras som antingen TP(En korrekt detektering), FP(En icke korrekt detektering) , TN (Korrekt frånvaro av

detektering) eller FN( icke korrekt frånvaro av detektering). Dessa begrepp samt beräkning av precision och recall förklaras i Figur 5. Precision anger hur stor del av dem dektekteringar som gjorts som är korrekta medan recall anger hur stor del av dem faktiskta objekten som hittats. TN som står för True negative kommer inte att användas i studien men beskrivs i Figur 5 ändå på grund av att TN hör ihop med de andra tre olika klassificeringarna.

Figur 4 - Beskrivning av beräkning av IoU [15].

𝑃𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 = 𝑇𝑃 𝑇𝑃 + 𝐹𝑃

TP = True positive

TN = True negative

𝑅𝑒𝑐𝑎𝑙𝑙 = 𝑇𝑃 𝑇𝑃 + 𝐹𝑁

FP = False positive

FN = False negative

(14)

2 Metod

Den metod som valts att användas i denna studie är objektdetektering av typen YOLO och mer precist YOLOv3 som är en version av YOLO. YOLOv3 kommer att vara implementerad med ramverket Darknet. YOLOv3 valdes dels på grund av att YOLOv3 är en objektdetekterings metod som ligger i framkant och som har både snabbhet och träffsäkerhet [11]. YOLO har i tidigare arbeten visat goda resultat både i dokument [9] och för objekt som i det stora hela är väldigt lika varandra [13][14]. En annan anledning att YOLO och Darknet valdes var att koden finns som open source och det finns mycket fakta och handledningar att få tag på vilket breddar användarkretsen. Det gör att denna metod är möjlig att använda för alla oavsett om det är en privatperson eller ett företag av varierande storlek.

2.1 Träningsdata

Träningsdatat som använts i detta arbete består av sammanlagt 232 bilder fördelade på följande sätt:

- Motorcykel 96 st - Personbil 82 st - Lastbil 5 st - Buss 49 st

Dessa bilder delades upp i två olika dataset där det ena består av bilder endast på motorcykelkort och det andra datasetet består av alla dessa bilder. Detta för att undersöka eventuella skillnader i resultat av objektdetektering på alla typer av kort för en modell som är tränad på endast motorcykelkort jämfört med en modell som är tränad på alla typer av kort.

(15)

- Endast motorcykelkort i svartvit som kommer benämnas som EndastMC_Svartvit

- Alla fordonstyper i färg som kommer benämnas som AllaFordon_Färg - Alla fordonstyper i svartvit som kommer benämnas som AllaFordon_Svartvit Träningsdatan har skapats manuellt via ett open source program vid namn labelimg [18]. Objekten som finns med i träningsdatat är begränsat till 4 olika objekt och dessa är registreringsnr, modell, ramnr och motornr. I Figur 6visas ett exempel på hur en bild till träningsdatat kan se ut med dem fyra olika objekten markerade i ovankant på bilden.

Figur 6 - Bild på ett registerkort för en tung motorcykel med utmarkerad områden till träningsdata. 2.2 Träning av modeller

(16)

2.3 Testdata

För att kunna utvärdera resultatet av objektdetekteringen krävs det en mängd testdata som har facit för vart de olika objekten finns. Testdata har skapats på samma sätt som träningsdatat och består av sammanlagt 335 bilder.

- 199 motorcykel - 10 lastbil - 76 personbil - 50 buss

För att kunna se hur bra objektdetekteringen fungerar på de olika typerna av korten har testdatat delats upp i olika partier som genererar separata resultat för vardera parti. Dem uppdelningar som gjorts är först och främst vardera fordonstyp för sig och sedan har motorcykelkorten och personbilkorten delats upp ännu mer. När det kommer till motorcykelkorten har först dem registerkort som är skadade sorterats för sig och sedan har resten sorterats upp beroende på färg då dem finns i både röda, gröna och blåa varianter. Registerkorten för personbil har delats upp i två olika varianter där den ena har en stor ruta för chassinr och saknar ruta för motornr, se Figur 7. Den andra varianten har en liten ruta för chassinr och även en liten ruta för motornr, se Figur 8. Utöver dessa partier användes även ett parti som innehöll all testdata, detta resulterar i 9 olika partier av testdata.

(17)

2.4 Validering

För att kunna validera objektdetekteringen krävs det att resultatet ifrån

detekteringen jämförs med facit för testdatat. Objektdetekteringen genererar en textfil med de olika detekteringar som gjorts för det testdata som skickats in. Filen anger vilket objekt som hittats, dess position och storlek, säkerheten på

detekteringen i % samt på vilken bild detekteringen gjorts. Ett pythonscript skapades för att jämföra den genererade textfilen med facit för testbilderna som också var i formatet textfil. Informationen i dessa textfiler extraherades för att sedan användas i beräkning av IoU för vardera detektering samt för klassifiering av TP, TN, FP och FN. Dessa klassificeringar användes sedan till att beräkna precision och recall för dem olika testpartierna. Resultatet av beräkningar skrevs ut i ett excel-ark för att sedan kunna användas till att jämföra och visualisera resultaten.

I beräkningarna av resultatet tog endast detekteringar med säkerhet på 50% eller mer med. För att kunna beräkna precision och recall krävs det beräkning av totala antalet ”TP”, ”TN”, ”FP” och ”FN”. För att avgöra om en detektering ska klassas som TP eller FP så användes en gräns på 0,5 på IoU där ett värde större eller lika med 0,5 på IoU gav en klassificering som TP och ett värde under 0,5 klassificerades som FP. Anledningen att 0,5 valdes som gräns är att det är en vanligt förekommande gräns, t.ex. så använder Redmon et al. IoU = 0,5 som gräns för att klassificera detekteringar som korrekta i sin artikel om YOLO [20].

I valideringen används ett antal olika testfall då vardera testparti ska testas med vardera modell som skapats, det ger 36 olika testfall. Dessa testfall redogörs och numreras i Tabell 1. För varje testfall finns det även 8 olika viktfiler som

representerar hur många cykler modellen är tränad.

Tabell 1 - Förklaring och numrering av dem olika testfall som använts i studien.

(18)

3 Resultat

3.1 Påverkan av träningsdata 3.1.1 Färg vs Svartvit

Bilaga 1 visar resultat i form av grafer för recall, precision och IoU för dem fem testpartierna Bil_Litet_Ramnr, Bil_Stort_Ramnr, Lastbilar, Bussar samt Alla för dem två modellerna EndastMC_Färg och EndastMC_Svartvit. Vardera sida i bilaga 1 representerar resultatet för en av testpartierna och innehåller 6 olika grafer

uppdelade på 3 rader och 2 kolumner där rad 1 redovisar recall, rad 2 precision och rad 3 IoU. Kolumn 1 redovisar dessa resultat för modellen EndastMC_Färg och kolumn 2 för modellen EndastMC_Svartvit.

Graferna i bilaga 1 visar en tendens till att recall ökar för 3 av dem 4 objekten för modellen EndastMC_Svartvit jämfört med modellen EndastMC_Färg. Det objekt som har en tendens till minskat recall för samma jämförelse är ”modell”. Objektet där recall ökar mest för med modellen EndastMC_Svartvit jämfört med

(19)

Figur 10 - Grafer som visar recall för testparti Alla för modellerna EndastMC_Färg och EndastMC_Svartvit. När det kommer till precision håller det sig relativt högt och likadant för alla objekten för bägge modellerna EndastMC_Färg och EndastMC_Svartvit. Figur 11 visar resultatet av precision på testpartiet ”Alla” för dem bägge modellerna.

Figur 11 - Grafer som visar precision för testparti Alla för modellerna EndastMC_Färg och EndastMC_Svartvit.

(20)

Figur 12 – Grafer som visar IoU för testparti Bil_Stort_Ramnr för modellerna EndastMC_Färg och EndastMC_Svartvit

Figur 13 - Grafer som visar IoU för testparti Lastbilar för modellerna EndastMC_Färg och EndastMC_Svartvit 3.1.2 EndastMC vs AllaFordon

Den största skillnaden i resultat mellan dem olika modellerna

EndastMC_Färg/Svartvit och AllaFordon_Färg/Svartvit är recallvärdet. De

(21)

Figur 14 - Grafer som visar recall för testparti Alla för modellerna EndastMC_Färg och AllaFordon_Färg.

Figur 15 - Grafer som visar recall för testparti Alla för modellerna EndastMC_Svartvit och AllaFordon_Svartvit.

(22)

3.2 Påverkan av träningsmängd

Påverkan av träningsmängden i antal cykler på recall gav olika resultat beroende på vilket träningsdata som användes samt på vilket testdata det kördes. Graferna i bilaga 1 och 2 visar exempel på hur resultatet för recall, precision och IoU varierar

beronde på antal cykler för några av dem olika testpartierna. Nedan kommer tre tabeller visas som redovisar antal cykler som gav bäst resultat för dem 36 olika testfallen som ingått i studien.

Tabell 2 visar resultat över hur många cykler som genererat bäst recall för flest antal testfall.

Tabell 2 – Resultat över vilket antal cykler som ger bäst recall.

Tabell 3 visar resultat över hur många cykler som genererat bäst precision för flest antal testfall.

Antal cykler Antal testfall med bäst recall

8000 5 7000 5 6000 11 5000 6 4000 4 3000 3 2000 2 1000 0

Antal cykler Antal testfall med bäst precision

(23)

Tabell 4 - Resultat över vilket antal cykler som ger bäst IoU. 3.3 Träffsäkerhet

Träffsäkerhet anges i denna studie som IoU och för alla de olika modellerna som testas ges ungefär samma resultat. För testparti ”Alla” ligger IoU på omkring 80 för alla modellerna. Figur 17 och Figur 18 visar grafer för IoU för testparti ”Alla” för alla fyra modellerna. Fler grafer som visar IoU för andra testpartier går att se i bilaga 1.

Figur 17 - Grafer som visar IoU för testparti Alla för modellerna EndastMC_Färg och AllaFordon_Färg.

Antal cykler Antal testfall med bäst IoU

(24)

Figur 18 - Grafer som visar IoU för testparti Alla för modellerna EndastMC_Svartvit och AllaFordon_Svartvit. Den verkliga skillnaden som blir beroende på IoU går att se i Figur 19, Figur 20 och Figur 21, dem alla innehar flera detekteringar men det är detekteringen på objektet modell som är av intresse i dessa figurer. Figur 19 visar en detektering på objektet modell med IoU på 54, Figur 20 en detektering med IoU på 80 och Figur 21 visar en detektering med IoU 93 för objektet modell.

(25)

(26)

4 Diskussion

4.1 Resultat 4.1.1 Träffsäkerhet

Som svar på frågan om träffsäkerhet så visar resultatet att YOLOv3 i

original-implementering ger ett värde på IoU kring 80 för dem träningsdataset som använts i studien. Det visar även en tendens till att IoU ökar ju fler träningscykler som utförts vilket gör att om ännu fler träningscykler hade använts kanske IoU hade ökat en del. Det hade även varit intressant att även mäta träffsäkerheten på andra vis som att t.ex. mäta förskjutningen på detekteringarna för att se om det finns någon trend som visar att alla detekteringar är något förskjutna åt ett visst håll.

Det bästa recall som uppnås för testpartiet Alla är för modellen AllaFordon_Färg och når då ett värde på 0,965 vilket är ett relativt högt värde. Men trots det skulle ett högre värde önskas uppnås för dessa dokument då ingen information önskas försvinna i digitaliseringsprocessen.

4.1.2 Träningsdataset

Resultatet visar även att i det stora hela så ökar recall, precision och IoU för ett träningsdataset som innehåller fler och mer varierande bilder. Dock kan bättre resultas uppnås på specifika testpartier om modellen är tränade på samma specifika grupp.

Att använda ett träningsdataset med svartvita bilder kan förbättra resultatet för en del av testpartierna som inte representeras i träningsdatasetet. Mer konkret så kan det bli bättre resultat för registerkort för bilar med ett träningsdataset med svartvita motorcykelkort än ett träningsdataset med motorcykelkort i färg. Men ännu bättre resultat ges om bilkorten finns representerade i träningsdatasetet. Om det dock saknas möjlighet att skapa ett varierande träningsdataset kan det i vissa fall vara lönsamt att använda svartvita bilder. Detta resultat kan dock vara begränsat till ett sådant dataset där dem olika objekten mest varierar i färg men har samma

(27)

4.1.3 Träningsmängd

Resultaten visar att bästa recall nås vid 6000 cykler medan för precision och IoU så nås bäst resultat vid 8000 cykler. Därför hade det varit intressant att testa träna ännu fler cykler för att se om trenderna för dem olika värdena fortsätter på samma vis.

4.2 Metod

Det största valet när det kommer till metod är valet av YOLOv3 som

objektdetekteringsmetod. Det hade varit intressant att även testa någon annan objketdetekteringsmetod då finns andra som kan ge bättre resultat men som är långsammare.

(28)

5 Slutsatser

De resultat som visats i denna studie antyder att objektdetektering går att använda vid digitalisering av dokument. Resultatet är dock i nuläget inte helt tillfredställande då en del av önskade detekteringar uteblir vilket gör att en del information kan missas. Men genom att optimera metod på olika vis går det säkert att nå bättre resultat ur den synvinkeln. De optimeringar som kan behöva göras är dels optimering av arkitekturen på objektdetekteringens neurala nätverk samt

optimering av det träningsdataset som ska användas. Det kan dessutom vara önskvärt att kombinera denna metod med något annat tillägg som fångar upp dem missade detekteringarna om det är stora krav på att ingen information får missas.

Objektdetektering som metod kan vara svår att få helt hundraprocenting även om det går att få bra resultat. Därför kan det vara mer lämpligt att använda sig av någon annan metod i vissa lägen. Det som kan anses som en fördel med objektdetektering av den typ som används i denna studie är att den är relativt enkel att komma igång med och att använda jämfört med en del andra metoder. Det gör att även om

resultatet inte alltid blir helt optimalt med objektdetektering så är det en metod som skapar möjlighet för flera att komma igång med en digitaliseringsprocess av sina dokument.

(29)

Referenser

[1] B. Kruatrachue, N. Moongfangklang, and K. Siriboon, “Fast Document Segmentation Using Contour and X-Y Cut Technique.”

[2] B. Kruatrachue and P. Suthaphan, “A fast and efficient method for document segmentation for OCR,” in IEEE Region 10 International Conference on Electrical and Electronic Technology, 2001, pp. 381–383, doi:

10.1109/tencon.2001.949618.

[3] S. Tangwongsan and C. Boondireke, “A highly effective approach for

document page layout extraction system,” in 2013 10th International Computer Conference on Wavelet Active Media Technology and Information Processing,

ICCWAMTIP 2013, 2013, pp. 85–90, doi: 10.1109/ICCWAMTIP.2013.6716605.

[4] M. R. Bouguelia, Y. Belaïd, and A. Belaïd, “Document image and zone classification through incremental learning,” in 2013 IEEE International Conference on Image Processing, ICIP 2013 - Proceedings, 2013, pp. 4230–4234, doi: 10.1109/ICIP.2013.6738871.

[5] A. Corbelli, L. Baraldi, C. Grana, and R. Cucchiara, “Historical Document Digitization through Layout Analysis and Deep Content Classification.” [6] X. Yi, L. Gao, Y. Liao, X. Zhang, R. Liu, and Z. Jiang, “CNN Based Page

Object Detection in Document Images,” in Proceedings of the International Conference on Document Analysis and Recognition, ICDAR, Jul. 2017, vol. 1, pp. 230–235, doi: 10.1109/ICDAR.2017.46.

[7] S. En, C. Petitjean, S. Nicolas, L. Heutte, and F. Jurie, “Pattern localization in historical document images via template matching,” in Proceedings - International Conference on Pattern Recognition, Jan. 2016, vol. 0, pp. 2054– 2059, doi: 10.1109/ICPR.2016.7899938.

[8] R. Suresh and N. Keshava, “A Survey of Popular Image and Text analysis Techniques,” in CSITSS 2019 - 2019 4th International Conference on

Computational Systems and Information Technology for Sustainable Solution, Proceedings, Dec. 2019, doi: 10.1109/CSITSS47250.2019.9031023.

[9] Y. Huang et al., “A YOLO-based table detection method,” in Proceedings of the International Conference on Document Analysis and Recognition, ICDAR, Sep. 2019, pp. 813–818, doi: 10.1109/ICDAR.2019.00135.

[10] “YOLO: Real-Time Object Detection.”

https://pjreddie.com/darknet/yolo/ (accessed May 21, 2020). [11] J. Redmon and A. Farhadi, “YOLOv3: An Incremental Improvement.”

Accessed: May 19, 2020. [Online]. Available: https://pjreddie.com/yolo/. [12] “Darknet: Open Source Neural Networks in C.”

(30)

[13] S. Norling, “Tree species classification with YOLOv3,” 2019.

[14] A. Eldho, T. Francis, and C. V. Hari, “YOLO based logo detection,” in Proceedings of the 2019 9th International Conference on Advances in Computing and Communication, ICACC 2019, Nov. 2019, pp. 283–289, doi:

10.1109/ICACC48162.2019.8986207.

[15] “Object Detection : Simplified - Towards Data Science.”

https://towardsdatascience.com/object-detection-simplified-e07aa3830954 (accessed Apr. 29, 2020).

[16] “mAP (mean Average Precision) for Object Detection - Jonathan Hui - Medium.” https://medium.com/@jonathan_hui/map-mean-average-precision-for-object-detection-45c121a31173 (accessed May 22, 2020). [17] P. Karan, “Tutorial : Building a custom OCR using YOLO and Tesseract.”

https://medium.com/saarthi-ai/how-to-build-your-own-ocr-a5bb91b622ba (accessed May 19, 2020).

[18] “GitHub - tzutalin/labelImg: 🖍️ LabelImg is a graphical image annotation tool and label object bounding boxes in images.”

https://github.com/tzutalin/labelImg (accessed May 23, 2020). [19] “Training YOLOv3 on your custom dataset - Anirudh Chakravarthy -

Medium.” https://medium.com/@anirudh.s.chakravarthy/training-yolov3-on-your-custom-dataset-19a1abbdaf09 (accessed May 22, 2020).

(31)

(32)

(33)

(34)

(35)

(36)

(37)

(38)