• No results found

Testteman

In document Hur ser framtiden ut för OCR? (Page 39-63)

Jag har valt ut några olika testteman för att se vilken typ av artiklar som lämpar sig för OCR- tolkning samt se hur den arbetar vid olika typer av dokument. Jag har valt ut några artiklar från ett flertal branscher för att se hur bra den tolkar för var och en bransch men även om tolkningsproblem återkommer vid de olika artiklarna. Artiklarna som jag har valt ut ska vara vanliga artiklar som man kan tänkas ha vid arkivering och vara sökbara. Jag har alltså inte valt ut de enklaste eller de svåraste artiklarna. Men de måste ha en viss svårighet, exempelvis måste de ha någon typ av bild/illustration, alltså inte bara text i artikeln, detta för att se hur bra den kan tolka artiklarna. De olika testteman som jag har valt ut är följande:

• Matematiktest (maskinskriven tentamen samt en handskriven lösning) • Fotbollstidning (artikel från en tidning)

• Damtidningstidning (artikel från en tidning) • Dagstidning (artikel från en tidning) • Speltidning (artikel från en tidning) • PC-tidning (artikel från en tidning)

• Handskriven text (som jag har skrivit själv)

11.1.1 Matematiktest

I detta testtema har jag valt att testa dels en maskinskriven tentamen från kursen Linjär algebra med statistik samt en handskriven lösning på en matematikfråga. Detta för att jag vill se hur bra den tolkar en maskinskriven text jämfört med en handskriven text. Arkiveringsbehovet är mest med tanke på studenter och för min egen del att kunna ha tentamensskrivningar digitalt. Nedan ser man hur de ser ut inskannade, först den handskrivna texten på en uppgift och den maskinskrivna texten därefter.

Lund, 2007-03-13

Figur 16 Så här ser de inskannade sidorna ut, till vänster är den handskrivna lösningen på en matematikuppgift och till höger den maskinskrivna tentamen. Notera dokumentens respektive svårigheter, handskriven text och färgat papper och matematiska symboler.

Testresultatet av de två inskannade bilderna gick väldigt olika, det blev helt olika slutresultat. Den handskrivna texten hade FineReader stora problem med, dels att det var matematiksymboler som var okända för lexikonet samt de stora parenteserna (se maskinskriven text, uppgift 4a). Det som kan ha varit problem vid tolkningen är att det vid tentamensskrivningar används färgat papper, medan det vid min skrivning användes grönt papper, vilket i kombination med handskriven text gjorde antagligen att tolkningen inte gick så bra som jag hade förhoppningar på. Det som den tolkade bra vid den maskinskrivna texten var att rättningen tolkades korrekt, den hade med röd färg vid bokstaven ”R” samt poängsumman. En liten sak, men det visar att den kan tolka texten även om den har svårt på en del ställen.

Lund, 2007-03-10

Figur 17 Bild på hur tolkningen av den handskrivna texten, till vänster den inskannade texten och till höger resultatet vid kontrollering av texten.

Den maskinskrivna tentamen klarade sig bra tycker jag, den klarade av att tolka nästan allt som fanns på sidan. Det som den hade svårigheter med var just de matematiska symbolerna (exempelvis x1,x2,x3) och de stora parenteserna som fanns på sidan.

Testet visade också det som jag hade mina misstankar om, att handskrivna texter är svårt för OCR- program att tolka riktigt bra, den gör sitt bästa men vid svåra texter som en matematiktentamen blir det för svårt för att förstå och känna igen vissa tecken.

11.1.2 Fotbollstidningstest

I detta test har jag valt att testa en artikel från en fotbollstidning för att se om artiklar från fotbollstidningar skulle kunna använda sig av OCR, för att exempelvis göra artiklar sökbara.

Lund, 2007-03-13

Figur 18 Så här ser testsidan ut från en fotbollstidning som FineReader ska OCR-tolka. Testningen av fotbollsartikeln gick väldigt bra, FineReader kunde tolka och förstå det mesta från artikeln. Det som den hade problem med var framförallt bindestreck i meningarna, den ville oftast ha ett eget tecken för bindestreck. Ett annat tolkningsproblem var bokstaven ”H” som ofta tolkades som två separata bokstäver, bokstaven ”I”, vilket man lätt kan ändra men upprepande gånger blir det irriterande.

Slutresultatet blev väldigt likt originalet men med fördelen att texten är sökbar.

Lund, 2007-03-13

Lund, 2007-03-13

Figur 20 FineReaders problem med bokstaven ”H”, här i Magnus Hedman där bokstaven blir två bokstäver, nämligen ”I”.

Lund, 2007-03-13

Figur 21 Så här blev testresultatet av fotbollstidningen, ett väldigt bra resultat. Helheten av artikeln ser bra ut samt tolkningen av texten gick bra.

11.1.3 Damtidningstest

Damtidningstestet gjorde jag för att jag ville se hur en typisk artikel ur en sådan tidning skulle klara sig vid en OCR-tolkning. Denna artikel innehåller nämligen lite svårare element på sidan jämfört med matematiktestet och fotbollstidningstestet. Den har exempelvis text på färgad bakgrund.

Lund, 2007-03-14

Figur 22 Så här ser testsidan för damtidningen ut inskannad, många olika objekt som kan ge problem för FineReader att tolka rätt.

Testningen gick helt ok med tanke på att artikeln var svårare än de tidigare bedömda. Det som var bra med denna testning var att den klarade av att tolka mycket av texten samt några av bilderna. En sak som jag blev lite förvånad över var att den försökte tolka texterna på förpackningarna, det är väldigt liten textgrad men den kunde tolka något ord på förpackningen men inte helt och hållet. Det dåliga var att alla bilder inte fanns med vid slutresultatet. Exempelvis försvann alla bilder på ansiktscremerna (tuberna på höger sida av bilden, se figur 22).

Lund, 2007-03-14

Figur 23 Detta blev testresultatet, inte så dåligt med tanke på att det var en svår artikel att OCR-tolka. Den hade problem med bilderna på ansiktscremerna på högersidan (försvann helt vid testningen).

11.1.4 Dagstidningstest

I dagstidningstestet valde jag ut en intressant artikel att testa, den innehåller både mindre texter innehållande tonade färger samt några bilder med tillhörande bildtexter.

Lund, 2007-03-17

Figur 24 Så här ser dagstidningsartikeln ut som skulle OCR-testas för att se hur bra den tolkade en dagstidning.

Testningen gick helt ok, FineReader kunde tolka det mesta av innehållet i artikeln. Det som inte gick så bra var texterna runt en bild, texten tolkades en aning fel men det kunde man rätta till vid stavningskontrollen.

Lund, 2007-03-17

Figur 25 Så här ser den OCR-tolkade texten ut, helt ok resultat. Den hade inte så stora problem med texterna utan mest bilderna och textrutorna (som var cirklar vid inskanningen och blev rektanglar vid testningen). FineReader fick även med många av färgnyanserna i den inskannade texten, även mejladresserna är blåmarkerade vid slutresultatet.

11.1.5 Speltidningstest

Testet av en speltidning gick ut på att välja en typisk artikel som skulle OCR-tolkas, i detta fall en titt på ett kommande spel. Svårigheten med denna artikel var att det fanns en del detaljer som FineReader kanske skulle få svårt med att tolka, exempelvis text ovanpå bilder.

Testningen gick väldigt bra om man endast tittar på tolkningen av texten. Det som inte gick så bra var att den stora bilden försvann förutom texterna ovanpå bilden. Det var inte många feltolkningar som FineReader gjorde av texten, vilket är bra. Däremot ville den tolka tecken som inte finns från svärdet i den stora bilden.

Lund, 2007-03-17

Figur 26 I denna bild ser man hur teckentolkningen har tolkats en aning fel, texten ligger ovanpå en bild och det kan ha påverkat OCR-tolkningen. Detta fel kan lätt korrigera genom att markera texten som är fel och ersätta med den text man istället vill ha.

Lund, 2007-03-17

Figur 27 Testningen av speltidningen blev detta resultat, FineReader tolkade texten bra men hade problem med den stora bilden som försvann samt att en del smådetaljer har tolkats fel, exempelvis hur helheten förändras jämfört med den inskannade artikeln.

Jag testade även funktionen automatisering som gör att man kan automatisera OCR-tolkningen. Man kan automatisera hela förloppet från inskanning till vilket format man vill spara det som. Automationstestningen gick betydligt fortare än det vanliga testförloppet där man kan kontrollera hur OCR-tolkningen gick, exempelvis rätta ord som har tolkats fel. Man sparade en hel del tid

jämfört med den vanliga testningen (1 minut mot ca 10 minuter), det som inte blev så bra var att fel smugits fel i texten samt att helhetssynen av dokumentet såg lite sämre ut. Automatiseringen lämpar sig bättre till dokument med bara texter för bästa resultat och där man inte behöva vara noggrann om något har tolkats fel eller inte.

Lund, 2007-03-17

Figur 28 Så här ser den automatiska OCR-tolkningen ut, den tolkade ungefär lika bra som den vanliga tolkningen på en del saker, exempelvis rubriken och spelinformationen. Det som den inte tolkade lika bra var att oklarheter vid OCR-tolkningen har smugits med i artikeln, detta ser man vid den stora bilden och vid texten ”Redan nu är spelet något av det snyggaste vi sett”. Detta är saker som man kan redigera manuellt vid vanlig testning (stavningskontrollen) och därmed slippa sådana uppenbara tolkningsfel.

11.1.6 PC-tidningstest

I detta test har jag valt ut en artikel som har ett test med i sin artikel. De har med ett prestanda- diagram med liten textstorlek på en del ställen för att se hur bra den tolkar det. Artikeln har även en viss svårighet med att två rubriktexter ligger ovanpå bilder vilket ska bli intressant se hur de tolkade det och om det gick bra eller inte. Jag har beskurit artikeln på grund av att vid skanning så kommer inte hela texten med på högersidan och det skulle medföra att OCR-tolkning på den texten inte skulle vara rättvis, eftersom inte hela texten kommer med.

Testningen gick väldigt bra, FineReader tolkade det mesta som fanns i artikeln korrekt. Det som inte blev särskilt lyckat var vid jämförelsestestet som innehöll stapeldiagram som tolkades som tecken av FineReader samt att några värden tolkades fel i diagramtexten, detta kunde man dock rätta till ganska enkelt vid stavningskontrollen.

Lund, 2007-03-16

Figur 29 Även i PC-tidningstestet blev bindestrecken tolkade till en egen variant av bindestreck.

Lund, 2007-03-16

Figur 30 FineReader försöker i denna bild tolka stapeldiagrammen som tecken, som om de innehöll någon text, vilket de inte gjorde.

Lund, 2007-03-16

Figur 31 Här är resultatet av den inskannade PC-tidningen, den tolkade ganska bra vad gäller texten som helhet men den hade problem med stapeldiagrammen och texten kring dem.

11.1.7 Handskriven test

Val av att testa en enbart handskriven text gjordes för att se hur FineReader skulle tolka en sådan text. Jag testade en text från en miljöföreläsning i en kurs som jag läste i årskurs två. Texten innehåller förutom handskriven text även mina egna symboler som jag använder vid anteckningar och gärna med olika färger för att förtydliga läsningen. Symbolerna i denna text var olika varianter av punktlistor (olika färger och mönster) som jag själv gjorde för att markera saker i texten. I översta delen av texten finns det även med en tabell (blå kant) med textinnehåll, alla dessa små saker ska det bli intressant hur FineReader skulle hantera detta.

Jag har förutom en vanlig testning (med stavningskontroll) även testat automatiseringsfunktionen för att se hur OCR-tolkningen blir utan min hjälp vid osäker OCR-tolkning av FineReader. Den vanliga testningen gick inte så jättebra, FineReader hade stora problem med mitt handskrivna dokument. Den hade svårigheter med i princip nästan alla delar i dokumentet, från den blå tabellen,

mina symboler och den handskrivna texten. Svårast hade programmet nog med tabellen samt symbolerna, tabellen blev till två vertikala svarta streck medan symbolerna försvann helt.

Den handskrivna texten gick väldigt upp och ner, vissa ord kunde den gissa sig till vad det var som jag kunde rätta till i stavningskontrollen medan andra ord gick inte alls. Följderna blev att

sammanhanget av texten försvann och kvar blev ofullständiga meningar som hänger fritt i dokumentet som är svårt att förstå om man inte har tillgång till originaldokumentet (det som skannades in).

Den automatiska testningen gick inte bättre än den vanliga testningen, den kunde visserligen känna av fler ord vid själva OCR-tolkningen men problemet var att texten inte hade kontrollerats vilket resulterade till helt otydbara ord/meningar. Det enda som jag kunde uttyda från tesresultatet var siffrorna i slutet på dokumentet, de hade tolkats korrekt men resten gick inte att läsa.

Lund, 2007-03-21

Figur 32 Bilden till vänster visar det handskrivna resultatet och till höger det automatiska resultatet. OCR-programmet hade svårigheter med min handskrivna text, varken texten som jag kontrollerade eller den automatiskt OCR-tolkade texten blev riktigt bra tolkad. Den manuellt kontrollerade dokumentet blev lite bättre tack vare att jag kunde rätta till oklarheter som uppstod vid OCR-tolkningen. Den automatiskt tolkade dokumentet är för mig väldigt svårläst, antingen så är orden helt oläsbara (orden existerar inte) eller att orden är ryckta ur sitt

12

Resultat

Jag har klargjort OCRs framtidsområden i avsnittet användningsområden. De användningsområden där OCR-tekniken används till arkivering, läsande pennor, referensnummer på fakturor och som OCR-läsare för blinda.

Arkivering används för att man med OCR-teknik kan göra dokument sök- och redigerbara. OCR på fakturor är till för att ha ett referensnummer som läses in. De läsande pennorna används för att skanna in textavsnitt och en möjlighet att använda sig av lexikon eller ordböcker. OCR-läsare används för att underlätta för blinda vardagliga saker som de tidigare varit beroende av hjälp från assistent eller hjälpsamma personer. OCR-läsaren Blind Reader hjälper blinda med att läsa material som flygbiljettsinformation.

Fördelen med OCR-tekniken är att man kan få sökbara dokument av inskannade sidor. Det är bra om man vill skapa arkiv eller ha möjligheten att söka på dokument. En annan fördel med OCR är att den kan lära sig att tolka rätt, schablonmatchningen som är en inlärningsprocess eftersom schablontecknen kan ändras.

Nackdelarna med OCR är att resultatet av tolkningen inte alltid är bra om dokumentet är handskrivet eller i dålig kvalitet. I OCR-programmet som jag testade var det stor skillnad vid testresultat av maskinskriven text och handskriven text.

13

Diskussion

Det som är bra med OCR-tekniken är att den kan tolka tecken från inskannade dokument som möjliggör att man kan söka i dokumenten. Däremot är det inte bra att tolkningen har svårigheter med handskrivna texter, något som gör att företag i arkiveringsbranschen inte kan använda sig av OCR fullt ut eftersom slutresultatet inte blir bra och att man behöver kontrollera det tolkade resultatet. Det är svårare att tolka handskriven text eftersom variationerna av hur man skriver kan skilja sig ganska mycket åt men en förbättring av tolkning av handskrivna texter vore något som tillverkare av OCR-program borde satsa på.

Framtiden för användningsområdet OCR-läsare för blinda tror jag kommer att bli större i framtiden eftersom tekniken med att tolka material såväl som tryckta dokument är ovärderligt för blinda som kan ha nytta av den när de inte har tillgång till OCR-program som Dolphin Cicero. Cicero kan bli en läsmaskin som ett användbart stöd till blinda/synskadade och kan kopplas till en talsyntes som läser upp den OCR-tolkade texten.

Framtiden för OCR som referensnummer på fakturor kommer vara kvar tills de elektroniska fakturorna tar över och då behövs inte inskanningsdelen överhuvudtaget och OCR blir överflödigt. Läsande pennors framtid kommer att behövas så länge man har dokument som behöver inskannas och tolkas.

Arkiveringens framtid hänger på om OCR-tekniken blir bättre på att tolka handskrivna texter eftersom många som erbjuder arkiveringstjänster tycker att OCR har svårigheter med sådana texter. Jag hade tänkt mig i början att ha med ett avsnitt om affärssystem och hur kopplingen med OCR sker. Jag har därför ställt frågor om hur de använder sig av OCR och hur de kopplar samman detta med OCR. Men jag har inte fått ut svar som jag hade velat ha för att skriva om affärssystem i examensarbetet. Kopplingen mellan affärssystem och hur OCR används blir därför inte lika tydlig och det kändes onödigt att fördjupa sig i ämnet.

14

Sammanfattning

Framtiden för OCR är att använda tekniken i befintliga tekniker för att klara sig när mer och mer dokument är digitala från början och inskanningsdelen inte längre behövs. OCR-tekniken skulle även behöva förbättras vid tolkning av handskrivna texter och dokument i dåligt skick, något som underlättar för att fler ska använda sig av OCR.

Fördelarna med OCR är möjligheten att göra inskannade dokument sök- och redigerbara. Därför används OCR-tekniken av exempelvis företag som har arkiveringsbehov eller erbjuder

arkiveringstjänster.

Nackdelarna med OCR är kombinationen med handskrivna texter eller dokument i dåligt skick eftersom resultatet inte blir lika bra som vid maskinskrivna texter med bra dokumentkvalitet. Jag har studerat vilka användningsområden för OCR och konstaterat att det finns många fler användningsområden än till fakturor som ett referensnummer. Det finns exempelvis OCR-teknik till läsbara pennor som tolkar text som läses in. OCR används även som hjälp för blinda och synskadade då OCR tolkar text som läses upp av talsyntes.

Jag har skickat ut några frågor till företag innan examensarbetet påbörjades inom olika branscher för att se hur de använder sig av OCR och det har hjälpt mig med hur de använder sig av OCR men även vad de tycker om tekniken. Det har på så sätt gett mig en ökad förståelse inför ämnet och genom att jag skickade ut detta innan examensarbetet påbörjades fick jag en inblick hur det används och vad de svarade på mina frågor.

Jag har tittat närmare på ett företag inom den grafiska branschen använder sig av OCR för att se vilka användningsområden som de använder sig av men även förklara hur de använder det. Mina slutsatser är att OCR har en framtid men tekniken har en del förbättringsmöjligheter,

exempelvis tolkningen av handskrivna texter. OCR kan finnas kvar även när mer och mer material blir digitala om det integreras i befintliga tekniker, som i ett spam-filter för att tolka texten i bilden. Den nuvarande OCR-tekniken fungerar bra om materialet är maskinskrivet eller i bra skick men tekniken måste bli bättre på att tolka handskrivna texter för att kunna användas vid

arkiveringsbehov av sådana texter.

Om jag hade haft mer tid till examensarbetet hade jag velat se hur programmet Smartscore fungerar, jag har än så länge bara läst om det på deras hemsida. Smartscore skannar in

musikstycken. En annan sak som jag hade velat testa är andra OCR-program, dels för att jämföra hur bra de testar olika dokument men även se hur bra en gratisvariant och ett professionellt program är för att se skillnader i testresultatet.

15

Referensförteckning

Skriftliga källor

McGraw-Hill Encyclopedia of Science & Technology:2002. Band 3. 9:e upplagan. New York:McGraw-Hill. ISBN:0-07-913665-6.

Elektroniska källor

Webmaster, 2007: Inventor of the Week: Archive. http://web.mit.edu/invent/iow/kurzweil.html, 2007-02-10

Webmaster, 2007: Kurzweil Computer Products. http://www.kurzweiltech.com/kcp.html, 2007-02- 10

Webmaster, 2007: The Kurzweil-National Federation of the Blind Reader. http://www.knfbreader.com/pdf/knfb_reader_brochure.pdf, 2007-02-23 Webmaster, 2007: Portable Gadget Reads Text Aloud to the Blind. http://www.knfbreader.com/pdf/WSJ_072606.pdf, 2007-02-23

Webmaster, 2007: The Kurzweil-National Federation of the Blind Reader. http://www.knfbreader.com/pdf/KNFB_Spec_sheet.pdf, 2007-02-23

Webmaster, 2007: The Kurzweil-National Federation of the Blind Reader, user guide. http://www.knfbreader.com/pdf/user_guide.pdf, 2007-02-23

Webmaster, 2007: C-Pen 20, Snabbguide.

http://www.cpen.com/htdocs/cpen/files/users%20guides/C-Pen20Guide.pdf, 2007-02-20 Webmaster, 2007: C-Pen 20. http://www.cpen.com/Products/Desktop/d2, 2007-02-19 Webmaster, 2007: C-Pen 20, användarmanual.

http://www.cpen.com/htdocs/cpen/files/users%20guides/cpen800C_SE.pdf, 2007-02-19 Webmaster, 2007: C-Pen 800C. http://www.cpen.com/Products/Portable/p3, 2007-02-19 Webmaster, 2007: Register till kyrkoböcker/ministerialböcker.

In document Hur ser framtiden ut för OCR? (Page 39-63)

Related documents