• No results found

Hur ser framtiden ut för OCR?

N/A
N/A
Protected

Academic year: 2021

Share "Hur ser framtiden ut för OCR?"

Copied!
63
0
0

Loading.... (view fulltext now)

Full text

(1)

Hur ser framtiden ut för OCR?

Mikael Lund

(2)

Sammandrag

Examensarbetet handlar om OCR (Optical Character Recognition). OCR-tekniken går ut på att konvertera inskannade bilder från maskinskriven eller handskriven text (siffror, bokstäver och symboler) till datorformat.

Syftet med detta examensarbete är att utforska OCRs framtid och vilka

användningsområden som finns idag för tekniken. Det intressanta är att se hur OCR klarar sig när mer och mer material är digitala.

Genomförandet till detta examensarbete har gjorts med information från böcker, Internet, mejl och genom att tittat närmare på ett företag inom den grafiska branschen som använder sig av OCR, nämligen Aftonbladet. Jag har även testat ett OCR-program, ABBYYs

FineReader 8 och gjort tester med några testteman, exempelvis matematiktest och olika tester på artiklar från några tidningar.

Mina slutsatser är att OCR har en framtid men tekniken har en del förbättringsmöjligheter, exempelvis tolkning av handskrivna texter. OCR kan finnas kvar även när mer och mer material blir digitala om det integreras i befintliga tekniker, som i ett spam-filter för att tolka texten i bilden. Den nuvarande OCR-tekniken fungerar bra om materialet är maskinskrivet och i bra skick men den måste bli bättre på att tolka handskrivna texter för att kunna användas vid arkiveringsbehov av sådana texter.

Nyckelord

OCR, hur tekniken fungerar, OCR-program, användningsområden, test av FineReader, Raymond Kurzweil

(3)

Abstract

How is the future of OCR?

My examination subject is about OCR (Optical Character Recognition). The idea of

OCR-technology is to convert scanned images of machine-printed or handwritten text (numerals, letters and symbols) into a computer-processable format.

The purpose of my examination subject is to explore the future of OCR and why to use it today. It’s interesting to see if OCR survives when more and more material is digital.

The implementations to the examination subject have been made from books, Internet, e-mail and I have discovered how a company in the graphic industry are using OCR, namely Aftonbladet. I have also tested an OCR-program, ABBYYs FineReader 8, and done some testing with some test themes, for example mathematics test and different tests on articles from a few magazines.

My conclusions are that OCR has a future but the technology needs some improvements, for example interpreting handwritten texts. OCR can exist, even when more and more material is digital, if its integrated with existing technologies, for example with a spam-filter to interpret the text within in the picture. The current OCR-technology works fine with machine-printed material, and when the document quality is good. However it needs to be on handwritten text to be used for archiving needs.

Keywords

OCR, how the technology works, OCR-program, areas of use, test of FineReader, Raymond Kurzweil

(4)

Innehållsförteckning

1 Inledning ... 5 1.1 Syfte... 5 1.2 Bakgrund ... 5 1.3 Frågeställningar ... 5 1.4 Avgränsningar... 5 1.5 Målgrupp ... 5 1.6 Disposition ... 6 2 Metod ... 7 2.1 Litteraturstudie... 7 2.2 Fallstudie ... 7 2.3 Prediktion ... 7 2.4 Intervju ... 7 2.5 Enkät... 7 3 Historia... 9 3.1 Raymond Kurzweil... 9

3.1.1 Kurzweils läsande maskin... 9

4 Hur tekniken fungerar ... 11

4.1 Bildskannern ... 11 4.2 Dokumentanalys ... 11 4.3 Teckenigenkänningsalgoritmer... 12 4.4 Sammanhangsprocess... 14 4.5 Utmatningsgränssnittet... 14 4.6 Applikationer ... 15 5 Användningsområden ... 17

5.1 Portabel OCR-läsare för blinda... 17

5.1.1 Funktioner ... 17

5.1.2 Begränsningar ... 18

5.2 C-Pen – den läsande pennan ... 18

5.2.1 Skrivbords C-Pen... 18

5.3 Bärbar C-Pen... 20

5.4 Arkivering ... 20

5.4.1 Register till kyrkoböcker i Stockholms stadsarkiv... 20

5.4.2 Svensk tidskrift för musikforskning... 21

5.5 Fakturering ... 22

5.5.1 OCR-referensnummer ... 22

5.5.2 Skatteverkets användning av OCR-referensnummer ... 23

5.5.3 Fakturor ... 23

5.5.4 Betalningsexempel ... 24

6 Framtiden ... 25

6.1 Mobilkamera med OCR-funktioner ... 25

6.1.1 Hur tekniken fungerar ... 25

(5)

6.2.1 Copyrightproblem ... 26

6.3 OCR-teknik som filter mot spam-bilder... 26

6.3.1 Slumpmässigt skapade spam ... 27

6.3.2 Skannersignatur ... 27

7 Fördelar med OCR ... 29

7.1 Sökbara arkiv/dokument ... 29

8 Nackdelar med OCR ... 30

8.1 Handskrivna texter... 30

8.1.1 Lunds landsarkiv ... 30

8.1.2 Riksarkivet ... 31

8.2 Träffsäkerhet ... 31

8.2.1 Statens musikbibliotek, raritetssamlingarna ... 31

9 OCR-program ... 32

9.1 Dolphin Cicero... 32

9.1.1 Funktioner hos Cicero ... 32

9.2 ReadSoft Invoices... 33

10 Aftonbladet ... 36

10.1 Hur de använder OCR ... 36

11 Test av ABBYY´s FineReader 8 ... 38

11.1 Testteman ... 38 11.1.1 Matematiktest ... 38 11.1.2 Fotbollstidningstest ... 40 11.1.3 Damtidningstest... 42 11.1.4 Dagstidningstest ... 44 11.1.5 Speltidningstest... 46 11.1.6 PC-tidningstest ... 48 11.1.7 Handskriven test ... 50 12 Resultat... 52 13 Diskussion... 53 14 Sammanfattning... 54 15 Referensförteckning ... 56

(6)

1

Inledning

OCR-teknik möjliggör att skannade dokument blir sökbara och redigerbara. Med denna teknik möjliggörs att skapa digitala arkiv av inskannade dokument. Alla dokument kan inte OCR-behandlas, exempelvis handskrivna texter och dokument där kvaliteten inte är den bästa. Min förhoppning är att läsaren ska få en inblick i OCRs olika användningsområden som finns och vad som kan bli intressant i framtiden.

1.1

Syfte

Syftet med rapporten är att klargöra OCRs användningsområden, vilka för- och nackdelar som finns och hur framtiden ser ut.

1.2

Bakgrund

Då många grafiska företag inte använder sig av OCR kommer frågan varför? Varför behövs inte tekniken? Hur framtiden ser ut för OCR tas upp i examensarbetet och vilka användningsområden där tekniken kan användas.

1.3

Frågeställningar

Hur ser framtiden ut för OCR? Hur fungerar tekniken? Vad finns det för fördelar respektive nackdelar med OCR-tekniken?

1.4

Avgränsningar

Om jag hade haft mer tid till examensarbetet hade jag velat testa fler OCR-program, dels för att jämföra hur bra de löser olika dokument men även se hur bra en gratisvariant och jämfört med ett professionellt program.

1.5

Målgrupp

(7)

1.6

Disposition

Examensarbetet inleds med en introduktion av personer som har varit med och utvecklat OCR-tekniken, ett historieavsnitt. Därefter kommer en teoridel om hur tekniken fungerar för att man ska förstå de andra avsnitten om OCR bättre. Efter det kommer det användningsområden som visar var och hur OCR används.

Efter detta kommer ett avsnitt om framtiden och vilka användningsområden som OCR-teknik kan användas. Efterföljande avsnitt handlar om fördelar och nackdelar för OCR för att se vad tekniken kan användas till och vad det inte går bra att använda till. Därefter tas det upp två OCR-program som används av företag som har svarat på mejlfrågorna. Efter det kommer avsnittet om ett företag i den grafiska branschen som använder sig av OCR, Aftonbladet. Därefter kommer det ett kapitel om ett test av ett OCR-program, ABBYYs FineReader 8, där det testas artiklarna som är handskrivna och maskinskrivna för att se hur den tolkar respektive artikel. De sista delarna är resultat,

(8)

2

Metod

2.1

Litteraturstudie

Jag behöver använda mig av denna metod på grund av att jag behöver information Internet men även information från böcker. Denna typ av metod ger mig en bra inblick av ämnet handlar om, en bra introduktion och något som jag kommer att använda till största delen av mitt examensarbete.

2.2

Fallstudie

Med denna typ av metod vill jag få ut information från längre frågor via e-post. Denna metod kommer förhoppningsvis att ge mig mer information om företaget Aftonbladet som jag vill titta lite närmare på om hur de använder sig av OCR, det kan man inte göra genom att enbart titta på deras hemsida eller titta i en bok utan man måste försöka prata med dem som arbetar med OCR.

2.3

Prediktion

Jag vill med denna metodstudie försöka se vilken funktion OCR kommer att ha i framtiden och se vad som kan göra att OCR tappar/vinner mark i framtiden. Jag har använt denna metod genom att leta efter information om framtida användningsområden för OCR och därmed se vad OCR kan användas till i framtiden.

2.4

Intervju

Jag har intervjuat två personer på Aftonbladet (ett företag inom den grafiska branschen) som arbetar med OCR/har kunskap om OCR för att få deras synvinkel på ämnet. Det har gett mig även en djupare förståelse hur de använder sig av OCR. Jag har intervjuat via e-post.

2.5

Enkät

Enkäter gör att jag kan jämföra svaren från flera olika företag som jag vill skicka ut frågorna till. Genom att analysera svaren hoppas jag komma till en slutsats. Jag har redan gjort ett mejlutskick innan examensarbetet påbörjades till ett antal företag och det har gjort att jag har fått en bättre uppfattning vad företag använder OCR till och vilka typer av företag som använder OCR. För mig

(9)

har denna typ av metod redan gjort att jag har fått en djupare förståelse av ämnet men även att jag har kommit i kontakt med flera företag som använder sig av OCR.

(10)

3

Historia

I detta avsnitt kommer det att tas upp en framstående person som har bidragit med utvecklingen från tidiga och enkla läsande maskiner till dagens avancerade maskiner som kan hantera bland annat handskriven text såväl som maskinskriven.

3.1

Raymond Kurzweil

Raymond Kurzweil föddes i New York 1948. Vid 15 års ålder började han intressera sig för mönsterigenkänning, eftersom han ville lära maskiner att se och känna igen olika typer av mönster. På gymnasiet kom han i kontakt med Marvin Minsky som var specialist inom artificiell intelligens på MIT (Massachusetts Institute of Technology). Han kom sedan att studera på MIT med inriktning på datavetenskap och kreativt skrivande. (http://web.mit.edu, 2007-02-10)

3.1.1

Kurzweils läsande maskin

1970 startades Kurzweil Computer Products, företaget som skulle uppfinna Kurzweils läsande maskin för blinda. Den läsande maskinen innehöll CCD (Charged Coupled Device), planskrivare och den första OCR (Optical Character Recognition) mjukvara som kunde hantera vilket typsnitt som helst. Maskinen skannade en rad åt gången och kunde känna igen tecken genom att tecken hade lagrats i minnet. Den kunde även läsa upp texten genom att bestämma uttalet genom förbestämda ljudenliga regler. Detta gjordes med hjälp av ett talprogram som kunde skapa ljud. Kurzweils läsbara maskin kom 1976 och har kallats som den första kommersiella maskin som framgångsrikt använts sig av artificiell intelligens. (http://web.mit.edu, 2007-02-10)

1980 köpte Xerox upp Kurzweils skannings- och OCR-teknik, idag finns det kvar i företaget Nuance som bland annat har hand om taligenkänning och OCR. (www.kurzweiltech.com, 2007-02-10)

(11)

Figur 1 Raymond Kurzweils läsbara maskin från 1976, maskinen som kunde skanna böcker, tidningar och annat tryckt material och sedan läsa upp det för användaren.

(12)

4

Hur tekniken fungerar

Processen att konvertera inskannade bilder från maskinskriven eller handskriven text (siffror, bokstäver och symboler) till datorformat även känt som optisk teckenigenkänning (OCR). Ett typiskt OCR-system (se figur 2) består av tre logiska komponenter. En bildskanner, OCR program- och hårdvara samt ett utmatningsgränssnitt. Bildskannern avbildar textsidor optiskt för

igenkänning. Textavbilder processas med OCR program- och hårdvara. Processen innefattar tre operationer, dokumentanalys (hämta individuella teckenavbilder), igenkänning av dessa avbilder (baserat på form) samt sammanhangsprocess (antingen för att rätta fel gjorda av

igenkänningsalgoritmerna eller för att begränsa igenkänningsalternativen). Utmatningsgränssnittet ansvarar för att resultatet av OCR-systemet överförs till omvärlden. (McGraw-Hill Encyclopedia of Science & Technology, s. 752-753)

4.1

Bildskannern

Fyra grundläggande delar utgör bildskannerns funktion. En detektor (och tillhörande elektronik), en ljuskälla, en lins samt en dokumenttransportör. Dokumenttransportören placerar dokumentet i skannytan, ljuskällan belyser objektet, och linsen skapar objektets bild i detektorn. Detektorn består av en grupp av objekt som var och en konverterar inkommande ljus till en analog signal. Dessa analoga signaler konverteras därefter till en bild. Skanning utförs av detektorn och textobjektets rörelse anpassas till detektorn. Efter att en bild är avbildad kommer dokumentet att tas bort från skannytan. (McGraw-Hill Encyclopedia of Science & Technology, s. 753)

Utvecklingen av skannertekniken har medfört högre upplösning, ofta upp till 300 – 400 pixel per tum (ppi). Igenkänningsmetoderna som använder kännetecken (motsatsen till mallmatchning) använder upplösningar på åtminstone 200 ppi och omsorgsfull hantering av gråskalan. Lägre upplösning och enklare tröskelfunktion (med andra ord, begränsningar baserade på en pixels mörkhet överskrider ett givet tröskelvärde) verkar för att bryta tunna linjer eller för att fylla

tomrum, samt också att eliminera kännetecken. (McGraw-Hill Encyclopedia of Science & Technology, s. 753)

4.2

Dokumentanalys

I denna process utvinns text från dokumentbilden. Pålitlig teckensegmentering och igenkänning beror på både originalets dokumentkvalitet och detekterad bildkvalitet. Processer som försöker

(13)

kompensera för dålig originalkvalitet eller dålig skannerkvalitet inkluderar bildförbättring, borttagning av understrykningar och brusreducering. Bildförbättringsmetoder betonar särskiljning mellan tecken och objekt som inte är tecken. Understrykningsborttagning raderar tryckta riktlinjer och andra linjer som kommer i närheten av tecken och påverkar teckenigenkänning.

Brusreducering raderar delar av bilden som inte är tecken. (McGraw-Hill Encyclopedia of Science & Technology, s. 753)

Innan teckenigenkänning är det nödvändigt att isolera individuella tecken från textavbilden. Många OCR-system använder anslutna komponenter för denna process. För dessa anslutna komponenter som representerar multipla eller partiella tecken, används mera komplicerade algoritmer. I

lågkvalitet eller icke homogena textavbilder kan dessa komplicerade algoritmer inte alltid utvinna tecken vilket medför att fel uppstår. Igenkänning av obegränsad handskriven text kan vara mycket svår eftersom tecknen inte kan isoleras säkert, speciellt när texten är skriven med skrivstil.

(McGraw-Hill Encyclopedia of Science & Technology, s. 753)

4.3

Teckenigenkänningsalgoritmer

Två viktiga komponenter i en teckenigenkänningsalgoritm är känneteckensutvinnaren och sorteringsapparaten. Känneteckensanalysen fastställer beskrivningen eller egenskapsdelarna som används för alla tecken. Känneteckensutvinnaren härleder egenskaperna som just den aktuella teckenavbilden har. De härledda egenskaperna används sedan som indata för

teckenklassificeringen. (McGraw-Hill Encyclopedia of Science & Technology, s. 753)

Schablonmatchning eller matrismatchning är en av de mest vanliga klassificeringsmetoderna. I schablonsmatchning används individuella bildpixlar som kännetecken. Klassifikation utförs genom att jämföra en inläst teckenavbild med en grupp schabloner eller prototyper från varje teckenklass. Varje jämförelse resulterar i en likhetsmätning mellan inläst tecken och schablonen. En mätning ökar sannolikheten för likhet när en pixel i det observerade tecknet är identiskt med samma pixel i schablonbilden. Om pixeln skiljer så minskar sannolikheten. Efter att alla schabloner har jämförts med den observerade teckenavbilden tilldelas tecknets identitet den identitet som den lika

schablonen har. (McGraw-Hill Encyclopedia of Science & Technology, s. 753)

Schablonmatchning är en inlärningsprocess eftersom schablontecken kan ändras. I många

kommersiella system lagrar PROM, programmerbara read-only minnen, schabloner som innehåller enskilda fonter. För att omskola algoritmen ersätts nuvarande PROM med PROM som innehåller bilder på nya fonter. Dessutom om ett passande PROM finns för en font, så kan schablonmatchning tränas att känna igen denna font. Likhetsmätningen för schablonmatchning kan också förändras,

(14)

men vanligt för kommersiella OCR system är att dessa inte tillåter detta. (McGraw-Hill Encyclopedia of Science & Technology, s. 753-754)

Strukturella klassificeringsmetoder utnyttjar strukturella egenskaper och beslutsregler för att klassificera tecken. Strukturella egenskaper kan definieras på grundval av teckenstreck, teckenhål samt andra teckenattribut som konkavitet. Till exempel bokstaven kan P beskrivas som ett vertikalt streck med ett hål fäst på övre höger sida. Vid en textavbilds inmatning utvinns de strukturella egenskaperna och ett regelbaserat system tillämpas för att klassificera tecknen. Strukturella metoder är också möjliga att använda med inlärning. Dock kan konstruktionen av bra egenskapsuppsättningar och regelbaser ta lång tid. (McGraw-Hill Encyclopedia of Science & Technology, s. 754)

Många teckenigenkännare baseras på matematiska formler som minimerar felklassificeringen. Dessa igenkännare kan använda pixelbaserade egenskaper eller strukturella. Några exempel är särbehandlingsfunktions klassificering, Bayesiska klassificering, artificiell neurala nätverk samt schablonmatchning. (McGraw-Hill Encyclopedia of Science & Technology, s. 754)

Särbehandlingsfunktions klassificering använder hyperytskikt för att separera tecknens beskrivningsegenskaper från olika semantiska klasser och i processen reducera

medelkvadratavvikelsen. (McGraw-Hill Encyclopedia of Science & Technology, s. 754)

Bayesiska metoder försöker minimera förlusterna som åtföljer felklassificering genom att använda sannolikhetsteorier. (McGraw-Hill Encyclopedia of Science & Technology, s. 754)

Artificiell neurala nätverk, som liknar teorier om mänsklig iakttagelseförmåga, använder matematiska minimeringstekniker. (McGraw-Hill Encyclopedia of Science & Technology, s. 754)

Både särbehandlingsfunktioner och artificiella neurala nätverk används i kommersiella OCR- system. (McGraw-Hill Encyclopedia of Science & Technology, s. 754)

Felklassificering av kommer från två källor, dålig teckenbildkvalitet och dåliga

särskiljningsmöjligheter. Dålig dokumentkvalitet vid bildskanning och förbehandling kan försämra prestanda genom att lämna dålig teckenbildkvalitet. Däremot så kan teckenigenkänningsmetoden inte vara inlärd för tecknen som orsakar problemen. Denna typ av fel är svåra att komma runt eftersom igenkänningsmetoden kan ha begränsningar och samtliga möjliga teckenbilder kan omöjligt vara med vid inlärning av klassificeringen. (McGraw-Hill Encyclopedia of Science & Technology, s. 754)

(15)

Igenkänningsgraden för maskinskrivna tecken kan vara mer än 99 %, men vid handskrivna tecken är denna typiskt lägre eftersom alla personer skriver olika. Denna slumpartade natur resulterar ofta i felklassificeringar. (McGraw-Hill Encyclopedia of Science & Technology, s. 754)

4.4

Sammanhangsprocess

Sammanhangsinformation kan användas vid igenkänning. Antalet ordval för ett givet fält kan begränsas genom att veta innehållet av ett annat fält. Exempelvis vid igenkänning av ett gatunamn i en adress, gatunamnens val kan begränsas till en ordlista genom att först korrekt känna igen

postkoden. Alternativt resultatet av igenkänningen kan efterbehandlas för att korrigera eventuella fel. En metod som används för att efterbehandla igenkänningsresultat är att använda en

stavningskontroll för att verifiera ordstavningen. På liknande sätt använder andra

efterbehandlingsprocesser ordlistor för att verifiera de föreslagna orden. Eller så kan resultaten verifieras interaktivt direkt med användaren. (McGraw-Hill Encyclopedia of Science & Technology, s. 754)

Angående icke latinsk teckenigenkänning finns det 26 olika aktiva skrivtecken varianter av icke latinska tecken. Några har inte varit använda vid igenkänning exempelvis Kanada, medan mycket arbeta har lagts ner på andra, exempelvis Japanska. (McGraw-Hill Encyclopedia of Science & Technology, s. 754)

Med tillägg av alfanumeriska tecken så används japanska Kanji-tecken, kinesiska, samt Kana, japanska stavelser. Därför är det så mycket svårare att igenkänna japansk text eftersom

teckenuppsättningen storlek, ofta mer är 3300 tecken och komplexiteten samt likheten med Kanji-tecknens struktur. (McGraw-Hill Encyclopedia of Science & Technology, s. 754)

Låg datakvalitet är ett extra problem i alla OCR-system. En japansk OCR är normallt utrustad med två individuella klassificerare, förklassificering och efterklassificering. Förklassificeraren utför en snabb rå klassificering för att reducera teckenuppsättningens storlek till en kort kandidatlista, normalt mindre än 100 kandidater. Den sekundära klassificeringen använder sedan mera komplexa egenskaper för att bestämma vilka av kandidaterna i listan som är den närmaste matchningen.

(McGraw-Hill Encyclopedia of Science & Technology, s. 754)

4.5

Utmatningsgränssnittet

Utmatningsgränssnittet tillåter teckenigenkänningsresultatet att bli elektroniskt överfört till domänen som ska använda resultatet. Exempelvis så tillåter många kommersiella system

(16)

igenkänningsresultatet att bli placerat direkt i kalkylark, databaser och textbehandlare. Andra kommersiella system använder igenkänningsresultatet direkt i ytterligare automatiska processer och förkastar igenkänningsresultatet när processen är klar. Utmatningsgränssnittet kan vara simpelt men är nödvändigt för OCR-systemens framgång eftersom det kommunicerar med omvärlden.

(McGraw-Hill Encyclopedia of Science & Technology, s. 754)

4.6

Applikationer

Kommersiella OCR-system kan i stort grupperas i två kategorier, uppdragsspecifika läsare och generella sidläsare. En uppdragsspecifik läsare hanterar endast specifika dokumenttyper. Några av de mest vanliga uppdragsspecifika läsarna läser bankcheckar, brevpost, kreditkortremsor. Dessa läsare utnyttjar vanligtvis specialanpassad bildlyftnings-hårdvara som fångar endast några få förutbestämda dokumentregioner. (McGraw-Hill Encyclopedia of Science & Technology, s. 754)

Exempelvis kanske en bankchecksläsare skannar endast området där summan är handskriven. Ett postanpassat OCR-system kanske bara skannar adressytan på ett brev. Dessa system framhäver hög genomströmningsgrad och låg felprocent. Applikationer som brevläsare läser 12 brev i sekunden med en felprocent på mindre än 2 %. Teckenigenkännaren i många uppdragsspecifika läsare kan igenkänna både handskrivna och maskinskrivna texter. (McGraw-Hill Encyclopedia of Science & Technology, s. 754)

(17)

Figur 2 Ett typiskt OCR-system består av tre huvudsakliga komponenter, En bildskanner, OCR program- och hårdvara samt ett utmatningsgränssnitt. Bildskannern skannar in

dokumentet så att texter samt bilder kan tolkas. Därefter behandlas textbilderna med hjälp av OCR-mjukvara och hårdvara i tre steg. Dessa steg är dokumentanalys, teckenigenkänning och sammanhangsprocess. Därefter skickas det OCR-tolkade dokumentet vidare till valfritt program som man vill använda sig av det färdiga resultatet. (McGraw-Hill Encyclopedia of

(18)

5

Användningsområden

OCR används inte bara till fakturor som ett referensnummer utan har även fler

användningsområden som förklaras närmare i detta kapitel. Exempel på användningsområden är sökning av inskannade dokument, som används vid arkiveringsbehov.

5.1

Portabel OCR-läsare för blinda

Blind Reader är en handdator med digitalkamera som har en inbyggd OCR-funktion med talprogram som kan läsa upp den OCR-tolkade texten. Blind Reader fungerar genom att hålla kameran över det valda textavsnittet (exempelvis en flygbiljett eller ett medicinrecept), därefter tar man en bild av texten med hjälp av kameran och inläsningen av texten kan börja. När inläsningen är klar kan man höra den spelas upp i högtalare eller hörlur med hjälp av talprogram som finns inbyggt i Blind Reader. (www.knfbreader.com, 2007-02-23)

5.1.1

Funktioner

I Blind Reader finns det två olika indelningar på vad man kan läsa för typ av information, den första läser böcker, artiklar och etiketter. Den andra läser räkningar och minnesanteckningar.

(www.knfbreader.com, 2007-02-23)

Med Blind Reader kan en blind person klara många saker som tidigare varit beroende av hjälp från assistent eller hjälpsamma personer med vanliga saker som flygbiljettsinformation och räkning på restaurang. Detta görs möjligt med att Blind Reader kan läsa det mesta som är tryckt och sedan läsa upp det för användaren. (www.knfbreader.com, 2007-02-23)

Dokument som har lästs in kan sparas antingen som en ljudfil (Wav-format) eller som en bild (jpeg) och det finns plats för cirka 900 stycken bilder och ljudfiler på hårddisken.

(www.knfbreader.com, 2007-02-23)

Blind Reader kan även läsa upp dokument från datorn, till exempel ett Word-dokument, på samma sätt som den kan ta emot dokument, kan den även exportera dokument till en dator.

(19)

5.1.2

Begränsningar

Blind Reader kan tyvärr inte läsa all tryckt material som finns, det som kan vara svårt att läsa är bland annat följande:

• Matförpackningar • Medicinflaskor

• Graverad tryck, som serienummer på maskiner

Blind Reader har svårigheter med att läsa matförpackningar på grund av att de ofta har konstnärliga texter på framsidan och en kompakt och komplicerad text på baksidan. (www.knfbreader.com, 2007-02-23)

Figur 3 Blind Reader, OCR-läsare som kan läsa många olika trycksaker, alltifrån från brev, böcker och medicinrecept. Den inlästa texten läses sedan upp av ett talprogram som kan spelas upp antingen i hörlurar eller i högtalare.(www.knfbreader.com, 2007-02-23)

5.2

C-Pen – den läsande pennan

C-Pen är en penna som skannar in text och tolkar det som läses in. C-Pen har ett flertal lexikon som ingår som kan hjälpa en med att översätta textavsnitt som man har markerat med C-Pen.

5.2.1

Skrivbords C-Pen

Skrivbords C-Pen läser in ett textdokument med hjälp av en skanningsfunktion som finns i

läspennan. C-Pen börjar läsa när den automatiska avtryckaren är tryckt mot ytan och den läser tills den släpps från ytan. Det fungerar på samma sätt som när man skriver med en penna, lyfter man pennan skriver man inte längre på pappret. (www.cpen.com, 2007-02-20)

(20)

Figur 4 Ritning över hur C-Pen 20 fungerar och vilka komponenter som ingår i läspennan.

(www.cpen.com, 2007-02-20)

Figur 5 Hur man ska hålla C-Pen 20 för att den ska kunna läsa texten på ett korrekt sätt. Det är viktigt att komma ihåg att placera spetsen före texten som ska läsas, annars kan inläsningen bli fel. (www.cpen.com, 2007-02-20)

Figur 6 C-Pen 20, en skrivbordsläspenna som är ansluten till en dator. Denna variant av C-Pen kan hantera 167 olika språk, läsa streckkoder, OCR-nummer och siffror. (www.cpen.com, 2007-02-19)

Figur 7 Funktioner som man kan välja till C-Pen 20 genom att högerklicka på ikonen vid aktivitetsfönstret.

(21)

5.3

Bärbar C-Pen

C-Pen läser text genom att använda sig av OCR. När man flyttar C-Pen över ett textstycke belyser pennans ljuskälla tecknen och en kamera tar en bild av texten. Under OCR-processen analyserar C-Pen bilderna som tagits med kameran och omvandlar dem till texttecken. (www.cpen.com, 2007-02-19)

Figur 8 C-Pen 800c, en bärbar läspenna som kan översätta och spara text som läses in. Det finns ett flertal lexikon som ingår i C-Pen, exempelvis Norstedts Ordbok och Merriam Webster som hanterar flera olika språk.

(www.cpen.com, 2007-02-19)

5.4

Arkivering

OCR-teknik kan användas för att skapa sökbara arkiv av dokument. Det är fördelaktigt att ha sökbara arkiv om man vill digitalisera till exempel sin egen samling av dokument.

5.4.1

Register till kyrkoböcker i Stockholms stadsarkiv

Stockholms stadsarkiv har digitaliserat sitt register till församlingarnas kyrkoböcker. De har skannats in och med hjälp av OCR-tolkning kan man även söka i texterna efter information. De OCR-tolkade dokumenten är sparade i PDF, man kan därför använda sig av Acrobat för att söka på sökord på samma sätt som söker på i vanliga fall. En sak som man får ta hänsyn till vid sökning på de här kyrkoböckerna är att innehållet är inte korrekturläst. Det använda OCR-programmet kan ha tolkat tecken fel, därför kan det vara bra att söka på delar av ordet för att hitta det man letar efter. Man kan söka på exempelvis på namn på personer, efter yrken och var de föddes. Vad man kan söka på beror även på i vilken typ av kyrkobok som man letar i, det finns ett flertal kyrkoböcker som man kan söka i och olika innehåll. Några av de kyrkoböcker som finns digitalt är dessa:

• Adolf Fredriks församling • Bromma församling • Brännkyrka församling

(22)

• Stockholm stads militärkår • Finska gardesregementet • Göta livgarde

Kyrkoböckerna finns från 1700-talet till 1800-talet, en del finns bara från 1800-talet.

(www.ssa.stockholm.se, 2007-02-28)

Figur 9 Register från Stockholms stads militärkår, på detta exempel kan man söka på exempelvis namn, titel och födelseort.(www.ssa.stockholm.se, 2007-02-28)

Stockholms stadsarkiv har även använt OCR-tolkning när de har skannat maskinskrivna

kortkataloger för att skapa digitala register. De har även experimenterat med OCR-tolkad text som komplement till handskrivna originaltexter från 1600-talet. Stockholms stadsarkiv använder OCR när det går och när det finns behov av att söka på arkivmaterial. (Fogelvik, 2007-03-05)

5.4.2

Svensk tidskrift för musikforskning

Svensk tidskrift för musikforskning (STM) ges ut av Svenska samfundet för musikforskning. Den har utgetts sedan 1919 och är en av Europas äldsta tidskrifter inom musikvetenskap. Den innehåller förutom vetenskapliga texter, recensioner även studentuppsatser av studenter från musikhögskolor. Arkiveringen är dels till för forskning men även för allmänheten som kan ta del av tidskrifterna. Man kan söka i en databas på samtliga tidskrifter som har gjorts digitala eller klicka på de årtalen för att direkt komma till en sökbar PDF-fil, se figur 10 för grafisk förklaring. (www.muslib.se, 2007-02-28)

(23)

Figur 10 Bild på hur man kan söka på STM-tidskrifter, klickar man på ett årtal kommer man till en hemsida som visar vilka artiklar, recensioner som utgavs det året. Väljer man fritextsökning kan man söka i alla åren, bra när man är osäker vilket år det utgavs.(www.muslib.se, 2007-02-28)

Arkiveringen görs med OCR-programmet Adobe Acrobat Capture. Programmet har använts för att man kan bevara den skannade texten som den är och den sökbara texten ligger som ett lager bakom. (www.muslib.se, 2007-02-28)

5.5

Fakturering

OCR förknippas mest med att användas vid fakturor och som referensnummer på fakturor. I detta kapitel förklaras närmare hur referensnumret fungerar, vilka steg som sker från fakturainbetalning till att den skannas och läses in.

5.5.1

OCR-referensnummer

OCR-referensnummer är det referensbegrepp som används i kundreskontran för att identifiera varje specifik betalning. Kundreskontran är ett register med en post (rad) för varje försäljning, företagets alla fordringar på kunderna finns i kundreskontran. Kundens skuld är noterad i kundreskontran. Företaget skapar en faktura per kund eller per försäljning ur kundreskontran. När kunden sedan gjort en inbetalning till företaget, prickar företaget av detta i kundreskontran. Företaget tar bort sin fordran på kunden. Kundens skuld är betald och borttagen. (Weijne, 2007-03-28)

OCR-referensnumret måste uppfylla följande regler:

• Det ska innehålla 2 till 25 siffror inklusive checksiffran och eventuell längdsiffra. • Det ska vara numeriskt.

• Sista siffran ska vara en checksiffra enligt 10-modul (mellanskillnaden mellan en slutsumma och närmsta högre tiotal, exempelvis 28 som avrundas upp till 30).

(24)

Figur 11 Här är ett exempel på ett OCR-referensnummers olika delar. Del A är referensnummert, exempelvis ett fakturanummer som identifierar betalningen hos betalningsmottagaren. Del B visar längdsiffran för hela OCR-referensnummert, alltså antalet siffror. Den sista delen är checksiffran och är alltid den sista siffran.

Checksiffran finns för att kontrollera att uppgifterna är korrekta (undvika fel) och används bland annat till personnummer och organisationsnummer. (www.bankgirot.se/,

2007-03-30)

5.5.2

Skatteverkets användning av OCR-referensnummer

Vid skatteinbetalningar kan dessa göras till Skatteverkets Plusgiro eller Bankgiro. OCR eller referensnummer är ett unikt nummer för varje skattskyldig för att säkerställa att betalningen hamnar just på rätt person. (Karlsson, 2007-03-07)

När skattekontosystemet som omfattar de flesta betalningar, infördes 1998, byggdes nya

referensnummer via Plusgirot respektive Bankgirot. Numren är något olika uppbyggda. Plusgirots referensnummer består av 14 siffror och Bankgirots av 13 siffror. (Karlsson, 2007-03-07)

Referensnumret används av Plusgirot och Bankgirot för att identifiera och läsa in uppgifterna för att därefter via elektronisk fil till Skatteverket rapportera inbetalt skattebelopp för respektive person. (Karlsson, 2007-03-07)

5.5.3

Fakturor

Alla betalningsblanketter (inte elektroniska) har OCR-tryck i någon form. En del har en helt förtryckt OCR-rad med betalningsbelopp, betalningsmottagarens gironummer och

betalningsmottagarens OCR-referensnummer. Det är bara i flödet för blankettbetalningar som OCR-tekniken används. Alla girokuvert och blankettbetalningar från postkontor/bankkontor skickas för central skanning. Central skanning sker hos Bankgirots respektive Plusgirots partners/underleverantörer Privatgirot respektive WM-data. Efter central skanning skickas

betalningsunderlag och digitala bilder till Bankgirot respektive Plusgirot för betalningsförmedling. Efter att betalningen hanterats skapas redovisning. Redovisningen kan i vissa innehålla bilden av det ursprungliga den betalningsblanketten. All betalningsinformation och alla blankettbilder arkiveras i 10 år. (Weijne, 2007-03-28)

(25)

5.5.4

Betalningsexempel

Den bankkund som är betalningsmottagare kan skicka ut en faktura till sin kund, tillsammans med medföljande betalningsblankett. Betalningsblanketten kan ha en helt förtryckt OCR-rad med ett OCR-referensnummer. Detta OCR-referensnummer följer med hela betalningsförmedlingen och vidare i redovisningen till betalningsmottagaren när betalningen är gjord. Med hjälp av OCR-referensnumret kan betalningsmottagaren känna igen fakturan och pricka av betalningen i sin kundreskontra. När detta är gjort vet betalningsmottagaren att kunden har betalat. (Weijne, 2007-03-28)

(26)

6

Framtiden

I detta kapitel ges det exempel på framtida användningsområden för OCR. OCR-tekniken kommer alltmer att integreras i annan teknik, exempelvis mobilkameror för att tolka bilder som tas.

6.1

Mobilkamera med OCR-funktioner

Med ny teknik kan man ta bilder med sin mobilkamera på en whiteboard, dokument (exempelvis anteckningar) och visitkort och därefter skickar man bilden till företaget ScanR som OCR-tolkar dokumentet som sedan skickar tillbaka som en sökbar PDF-fil till dig. (www.scanr.com, 2007-02-28)

Det som krävs av din mobilkamera är följande: • Whiteboardbilder: minst 1 megapixel • Dokumentbilder: minst 2 megapixel • Visitkortsbilder: minst 2 megapixel

Det är även bra att tänka på att ställa in högsta upplösningen och att använda bästa kvalité på sin mobilkamera. (www.scanr.com, 2007-02-28)

6.1.1

Hur tekniken fungerar

Det första steget är att man ställer in sin mobilkamera på det önskade området man vill ha. Om området är stort, till exempel en whiteboardtavla är det en bra idé att ta flera bilder för att få med det man vill ha med. En viktig detalj som man inte ska glömma är att stänga av blixten då man tar sin/sina bilder.

Det andra steget är att skicka sin/sina bilder till ScanR, man kan välja hur man ska skicka till dem. Man kan exempelvis skicka via MMS eller e-post.

Det tredje och sista steget är att ScanR skickar det OCR-tolkade dokumentet till dig, detta kan skickas till din e-post om du har angett det. (www.scanr.com, 2007-02-28)

6.2

Mobilkameror som högprecisionsskanners

Ny teknik utvecklad av NEC (Japanskt elektronikföretag) och Nara Institute of Science and Technology (NAIST) i Japan har tagit ett steg framåt i utvecklingen av mobilkameror. De har

(27)

uppfunnit tekniken att kunna skanna hela dokument genom att föra mobilkameran över dokumentet. (http://www.newscientist.com, 2007-03-01)

Japanska pendlare retar redan nu upp ägare av bokaffärer och tidningsstånd med att använda dagens program till mobilen. De försöker ta bilder av dagstidningar och artiklar i tidningar i ett försök att kunna läsa färdigt det på resan till jobbet.

Det finns idag några mobiltelefoner som idag innehåller enkel OCR-tolkning som möjliggör mindre textavsnitt att bli OCR-behandlade.

Den nya tekniken som har tagits fram möjliggör att hela dokument kan OCR-tolkas, inte bara delar av den. Tekniken fungerar som så att när mobilkameran förs över dokumentet tas bilder

allteftersom och dessa bilder slås sedan tillsammans till en stor bild som sedan OCR-tolkas. Tekniken kan även upptäcka om pappret är snett/krokigt och kan rätta till den förvridningen som har skett. (http://www.newscientist.com, 2007-03-01)

För att skanna, krävs det minst en megapixel mobilkamera som man håller minst 20 cm avstånd från dokumentet. En A4-sida tar mellan 3-5 sekunder att skanna, i bakgrunden tas det mellan 21 till 35 bilder som OCR-programmet slår samman och påbörjar sedan OCR-tolkningen av texten. Syftet med den nya tekniken är att mobiltelefoner ska kunna fungera som en portabel fax eller skanner som man kan använda när det behövs. (http://www.newscientist.com, 2007-03-01)

6.2.1

Copyrightproblem

Det som kan bli ett stort problem för utgivningsföretag som förlag är att de kan drabbas lika hårt som musikindustrin har drabbats av med spridningen av olagliga musikfiler. Det som kan bli ett problem i framtiden är möjligheten för personer att kopiera tryckt material som de inte har köpt med sin mobilkamera. För att försöka undvika copyrightproblem ska NEC ha med ett alarm som ger ifrån sig ett ljud när mobilkameran används på copyright skyddat material. NEC och NAIST kommer troligtvis inte att börja tillverka denna teknologi förrän om tre år från år 2005.

(http://www.newscientist.com, 2007-03-01)

6.3

OCR-teknik som filter mot spam-bilder

Datorsäkerhetsexperter har svårt att hänga med den nya tekniken som spammare använder sig av nuförtiden. De skickar meddelanden som bilder och inte som text och kommer därför förbi vanliga spam-filter. (www.newscientisttech.com, 2007-03-03)

(28)

Spam, även kallat skräppost är en benämning för reklamutskick och mejl som du inte har bett om och som du inte vill ha (www.ecofuture.org, 2007-06-04). Spam-bilder har ökat dramatiskt säger Carole Theriault, senior consultant på Sophos som är ett IT- säkerhetsföretag i London. Enligt Sophos beräkningar har oönskade mejl ökat från 18 % till 40 % på ett år.

Vanliga spam-filter kontrollerar innehållet i mejl genom att se om det finns vanliga ord som spam brukar innehålla, exempelvis Viagra. Filtren använder sedan kontrollen för att bedöma om det är spam eller inte. När spam skickas istället som en bild fungerar inte denna kontroll. Man får istället använda sig av andra av tekniker för att lösa problemet. Paul Bacca, spam- och virusexpert på Sophos säger att ett effektivt sätt att blockera sådan typ av spam är att blockera datorerna som skickar det. När det görs blockeras ungefär 80 % av spammen enligt Bacca.

(www.newscientisttech.com, 2007-03-03)

6.3.1

Slumpmässigt skapade spam

Det återstår fortfarande en hel del spam som kommer igenom spam-filtret. Spammare har även blivit smartare med hur man kan komma runt filtret. En teknik är att stämma överens bilder med dem som finns i databaser. Detta har spammare kommit runt med att använda sig av ett textlager ovanför ett lager av slumpmässigt generad bakgrund för varje ny bild. (www.newscientisttech.com, 2007-03-03)

Samma teknik används ofta av datorsäkerhetsexperter för att förhindra spambots (program som letar upp e-postadresser) som vill utnyttja tjänster som gratis e-post. Tekniken går ut på att när man vill gå med kommer det upp en bild av tecken som är i oordning som gör det svårt för en dator att se men rätt så lätt för en människa att urskilja. Denna teknik kallas för CAPTCHA (Completely Automated Public Turing test to tell Computers and Humans Apart, helt automatiskt Turing test för att skilja på datorer och människor). CAPTCHA utvecklades av Luis von Ahn tillsammans med hans kollegor på Carnegie Mellon University i USA. (www.newscientisttech.com, 2007-03-03)

6.3.2

Skannersignatur

En bra nyhet är att spam-bilder har en svag punkt som spam-filtren har börjat använda sig av. Många av bilderna skannas nämligen in och därför innehåller de information, exempelvis vilka färger som används eller hur många pixlar som finns. Spam-filtren kontrollerar därefter dessa värden för att se om e-posten är spam eller inte. (www.newscientisttech.com, 2007-03-03)

Längre fram är målsättningen att kunna använda sig av OCR-teknik som kan läsa texten som finns inuti bilden för att kunna använda sig av vanligt spam-filter. Ahn tror att det dröjer alltifrån 10 år

(29)

till 30 år innan OCR kan användas på det önskade sättet, som en del av ett spam-filter. Bacca menar att det skulle bli en oerhörd mängd beräknande av OCR med miljontals mejl som ska kontrolleras av spam-filter. (www.newscientisttech.com, 2007-03-03)

Lund, 2007-03-05

Figur 12 Spammejl kommer allt oftare som bilder och inte som text, därför har spam-filter svårare att upptäcka om det är spam eller inte. Om OCR-teknik skulle implementeras i ett spam-filter skulle detta kunna upptäcka vad som står i texten och på sätt klassificera mejlet som spam.

(30)

7

Fördelar med OCR

Fördelarna med OCR är att man kan skapa sökbara dokument som är användbart vid arkivering.

7.1

Sökbara arkiv/dokument

Utan OCR-teknik ser datorn en inskannad sida, pixlar som man inte kan söka i. Med OCR kan man söka efter exempelvis böcker genom att använda sig av nyckelcitat jämfört med att man måste veta hela titeln.

Enligt Robert Weideman, senior marketing vice-president för Nuance som har gjort OCR-programmet Omnipage, är det en trend att fler och fler kontor går mot ett digitalt system (mindre användning av papper). De efterfrågar OCR-teknik för att tolka inskannade texter.

(31)

8

Nackdelar med OCR

Nackdelar med OCR är tolkningen av handskriven text och träffsäkerheten på tolkningsresultatet. OCR-tekniken ligger efter vid tolkning av handskriven text jämfört med maskinskrivna texter. Handskrivna texter kan variera sig mycket mer, alla personer har en egen handstil och därför blir det svårare för OCR-programmet att tolka rätt. Träffsäkerheten beror på dels vilket skick

dokumentet är i men även programmets skicklighet på att hantera detta.

8.1

Handskrivna texter

Handskrivna texter är svårt att kombinera med OCR-teknik och det beror på att handskriven text kan varieras betydligt mer än maskinskriven text genom att alla har en personlig handstil gör det svårt för OCR-program att tolka rätt. Ett annat problem är texter som skrivs i skrivstil, det är samma problem här, programmet känner inte igen bokstäverna och felprocenten blir hög.

8.1.1

Lunds landsarkiv

Lunds landsarkiv använder sig inte av OCR, orsaken till detta är att större delen av deras arkiv där det skulle vara önskvärt - att en OCR-tolkning skulle kunna utföras - hindras av att de är

handskrifter. Det krävs därför stora resurser.

De variationer som förkommer i texterna - dels variationer på grund av personlig fallenhet och kunnighet när det gäller skrivandets konst och dels variationer beroende på handstilarnas

utformning och variation över tiden - gör att de inte kan använda sig av dagens OCR-tolkning. Om OCR-tolkning likväl skulle ske, så skulle efterarbetet med att säkerställa validiteten i den digitala kopian vara så omfattande att någon större tidsbesparing inte skulle vinnas jämfört med att en direkt avskrift gjordes av samma handling.

OCR-tolkning skulle möjligen kunna ske med de nyare maskinskrivna handlingarna men det är för närvarande inte aktuellt på grund av brist på resurser. (Sundberg, 2007-03-01)

(32)

8.1.2

Riksarkivet

Vi använder oss inte av OCR på grund av att det är problematiskt att tyda handskriven information vilket det ofta är i äldre arkivhandlingar, som måste vara över 100 år för att vi ska få publicera dessa på Internet. (Nordström, 2007-04-02)

8.2

Träffsäkerhet

Träffsäkerheten vid OCR-tolkning beror på flera faktorer, en viktig faktor är i vilket skick dokumentet är i. Dokumentet kan ha blivit skrynkligt, blekt och smutsigt.

En annan faktor som avgör kvaliteten på resultatet är OCR-programmet, vissa program kan klara av att dokumentet inte är i det bästa skicket. En del program kan exempelvis automatiskt justera fel som att dokumentet har skannats in snett och ta bort smuts som inte ska vara med.

Dokumentets skick har betydelse vid OCR-tolkning genom att feltolkningen ökar, det blir alltså svårare för OCR-programmet att tolka rätt. (http://quod.lib.umich.edu, 2007-04-09)

8.2.1

Statens musikbibliotek, raritetssamlingarna

Vi använder inte OCR vid digitaliseringen av våra samlingar. I den form denna teknik för närvarande existerar tror jag att det skulle bli problem med handskrifter av väldigt olika

papperskvalitet och läslighet. Våra digitaliseringsprojekt har hittills antingen webpublicerats som PDF-fil eller som JPEG-bilder. (Lundberg, 2007-02-28)

(33)

9

OCR-program

I detta avsnitt har jag tittat närmare två program som företag som har svarat på mina frågor om OCR. Det första är ett stöd personer med lässvårigheter som kan skanna dokument och läsa upp det för användaren med OCR-teknik. Det andra programmet handlar om att automatisera

fakturahanteringen och det beskrivs steg för steg vad som sker i processen för att automatisera detta.

9.1

Dolphin Cicero

Cicero är ett OCR-program som kan skanna in och tolka alla typer av dokument på ett flertal språk, däribland svenska, engelska och tyska. Det finns en möjlighet att få texten uppläst av en talsyntes och/eller en punktdisplay. Detta gör att Cicero kan bli en läsmaskin som ett användbart stöd till exempelvis blinda och personer med lässvårigheter med att läsa upp vanliga dokument såsom tidningar, reklamblad och sidor från böcker. (www.dolphinse.com, 2007-03-12)

9.1.1

Funktioner hos Cicero

• Cicero innehåller en tolkningsmotor från ABBYY FineReader.

• Cicero kan själv avgöra textsidans orientering, programmet kan också dela upp och tolka innehåll i kolumner.

• Inskannade dokument kan man exportera för att redigera i ett valfritt ordbehandlingsprogram.

• Talsyntesen som läser upp texten är synkroniserat med en färgad markering som löper fram över skärmen.

• Färg, storlek och markeringsfärg på den inskannade texten kan justeras allt enligt egna önskemål. Bakgrundsfärg kan ställas in separat.

• Cicero stöder styrning av punktdisplay om detta finns ansluten. All text på skärmen visas på punktdisplayen. Under uppläsning visas även texten på punktdisplayen i samma hastighet som talsyntesen läser. (www.dolphinse.com, 2007-03-12)

(34)

Figur 13 Här ser man hur en text som läses upp markeras i en annan färg, markeringsfärgen är dessutom synkroniserad med talsyntesen så att man kan följa med när texten läses upp. (www.dolphinse.com, 2007-03-12)

9.2

ReadSoft Invoices

1997 uppfann ReadSoft en teknik för automatisk fakturahantering. ReadSofts Invoices

automatiserar din fakturahantering vilket gör att man sparar tid. Invoices funktioner är följande: • Ta emot information från dina inkommande fakturor, både digitala och manuella

fakturor.

• Klassificera och sortera fakturorna automatiskt.

• Kontrollera uppgifter på fakturorna jämfört med ditt affärssystem automatiskt. • Täcker hela området kring fakturahantering, från att hämta fakturorna (digitalt eller

manuellt) till betalning. (www.readsoft.se, 2007-03-09)

Lund, 2007-03-12

Figur 14 Fakturahanteringen i ReadSofts Invoices sker i fem steg, från Capture till

Interchange. Invoices börjar med inläsning av dokumentet, därefter tolkning och koppling till affärssystem som SAP och Oracle. Man kan även skicka säker (krypterad) e-post i steget Interchange vilket ger en säker dokumenttransport.

Capture

I detta första steg sker själva inläsningen av fakturan/fakturorna. Den kan läsa in fakturorna på ett flertal sätt, dels handskrivna som kan skannas in men även filer som finns på Internet, exempelvis i

(35)

ett mejl eller som en PDF-fil. Programmet har även en funktion som hanterar färger i dokument som gör att tolkningen av dokumentet blir bättre med färre fel.

Den kan läsa in elektroniska dokument på följande sätt: • E-post (även bifogade filer)

• XML • Webbsidor • PDF

Programmet kan läsa in bildfiler från följande: • Skannat papper

• Fax

• Digitala pennor

• Importerade bildfiler (www.readsoft.se, 2007-03-09)

Understand

I steg två tolkas och kontrolleras information som finns på fakturan. Programmet sorterar efter dina inställningar hur du vill ha det. Man kan exempelvis sortera dokument i kategorier för att kunna använda sig av arkivering. (www.readsoft.se, 2007-03-09)

Invoices är självlärande, vilket menas att den blir bättre och snabbare ju oftare du använder programmet. Den lär sig hur du vill ha det helt enkelt. (www.readsoft.se, 2007-03-09)

Manage

I steget Manage kan man kontrollera den tolkade informationen, exempelvis kontrollera

datakvalitén. Man kan ställa in hur mycket som ska ske automatiskt, något som kan ge en snabbare, effektivare dokumenthantering.

Det finns även möjligheter att använda sig av ett webbaserat korttidsarkiv som gör att man kommer åt sina filer oavsett var man befinner sig. Filerna lagras i en gemensam databas. (www.readsoft.se, 2007-03-09)

Integrate

I steget Integrate kan man integrera sina fakturor med affärssystem såsom SAP och Oracle. Man kan även koppla ihop sina fakturor med dokumenthanteringsystem som IXOS. Fördelarna är att

(36)

det blir mindre hanteringstid, mindre manuellt arbete och tidsbesparande. (www.readsoft.se, 2007-03-09)

Interchange

I det sista steget, Interchange kan man automatisera sina e-postärenden med hjälp av EDI

(Electronic Data Interchange). Det betyder att man skicka krypterad e-post vilket gör att skickandet av dokument blir säkrare. (www.readsoft.se, 2007-03-10)

(37)

10

Aftonbladet

Aftonbladet använder OCR någon gång i månaden eftersom bland annat myndigheter inte vill lämna ut offentliga uppgifter digitalt, exempelvis domslut och avtal. De har använt sig av OCR i ungefär 10 år och de använder programmen Omnipage och Kofax. Fördelarna med att använda sig av OCR är att dokumenten blir sök- och redigerbart. De ser inga direkta nackdelar med OCR om inte originaldokumenten är i för dålig kvalité vilket leder till hög felprocent i tolkningen.

Aftonbladet använder sig inte av OCR för att arkivera äldre artiklar och dokument men de har ett digitalt arkiv sedan 1994. Artiklar äldre än så har de sparade på antingen mikrofiche eller

mikrofilm. (Lindblom, 2007-02-19)

10.1

Hur de använder OCR

Genom att skanna dokument via Aftonbladets kopieringsapparater och välja ”E-post”-ikonen kan man få dokumentet skickat till sin egen e-post som en PDF-fil. PDF-filen är dock inte sökbar eller redigerbar. För att lösa det problemet kan man mejla PDF-dokumentet till en mejladress. Efter en liten stund får man tillbaka en nytt PDF-dokument som har OCR-tolkats och nu kan man söka och kopiera i texten. (Vännman, 2006-11-01)

Programmet som sköter detta heter P3ocr och finns på en Windows-Server. Programmet läser ett POP3-konto och OCR-behandlar alla bilagor som skickas till kontot. Sen skickar programmet de OCR-behandlade dokumenten till svarsadressen. (Vännman, 2007-03-26)

POP3 är en förkortning av Post Office Protocol och är det vanligaste kommunikationsprotokollet för att hämta mejl från en server till ett e-postprogram. (http://sv.wikipedia.org, 2007-06-04)

(38)

Lund, 2007-04-03

Figur 15 Grafisk illustration över hur Aftonbladet använder sig av OCR och Windows-servern P3ocr. P3ocr automatiserar flödet från en icke sökbar och redigerbar PDF-fil till en OCR-tolkad PDF-fil genom att man skickar ett mejl till en e-postadress.

(39)

11

Test av ABBYY´s FineReader 8

Jag har fått chansen att testa ett riktigt OCR-program och har valt ut några olika testteman för att se hur bra den tolkar olika artiklar/dokument. Mina testteman är lite olika, det är dels artiklar från några tidningar men även handskrivna texter testas samt en matematiktentamen.

11.1

Testteman

Jag har valt ut några olika testteman för att se vilken typ av artiklar som lämpar sig för OCR-tolkning samt se hur den arbetar vid olika typer av dokument. Jag har valt ut några artiklar från ett flertal branscher för att se hur bra den tolkar för var och en bransch men även om tolkningsproblem återkommer vid de olika artiklarna. Artiklarna som jag har valt ut ska vara vanliga artiklar som man kan tänkas ha vid arkivering och vara sökbara. Jag har alltså inte valt ut de enklaste eller de svåraste artiklarna. Men de måste ha en viss svårighet, exempelvis måste de ha någon typ av bild/illustration, alltså inte bara text i artikeln, detta för att se hur bra den kan tolka artiklarna. De olika testteman som jag har valt ut är följande:

• Matematiktest (maskinskriven tentamen samt en handskriven lösning) • Fotbollstidning (artikel från en tidning)

• Damtidningstidning (artikel från en tidning) • Dagstidning (artikel från en tidning) • Speltidning (artikel från en tidning) • PC-tidning (artikel från en tidning)

• Handskriven text (som jag har skrivit själv)

11.1.1 Matematiktest

I detta testtema har jag valt att testa dels en maskinskriven tentamen från kursen Linjär algebra med statistik samt en handskriven lösning på en matematikfråga. Detta för att jag vill se hur bra den tolkar en maskinskriven text jämfört med en handskriven text. Arkiveringsbehovet är mest med tanke på studenter och för min egen del att kunna ha tentamensskrivningar digitalt. Nedan ser man hur de ser ut inskannade, först den handskrivna texten på en uppgift och den maskinskrivna texten därefter.

(40)

Lund, 2007-03-13

Figur 16 Så här ser de inskannade sidorna ut, till vänster är den handskrivna lösningen på en matematikuppgift och till höger den maskinskrivna tentamen. Notera dokumentens respektive svårigheter, handskriven text och färgat papper och matematiska symboler.

Testresultatet av de två inskannade bilderna gick väldigt olika, det blev helt olika slutresultat. Den handskrivna texten hade FineReader stora problem med, dels att det var matematiksymboler som var okända för lexikonet samt de stora parenteserna (se maskinskriven text, uppgift 4a). Det som kan ha varit problem vid tolkningen är att det vid tentamensskrivningar används färgat papper, medan det vid min skrivning användes grönt papper, vilket i kombination med handskriven text gjorde antagligen att tolkningen inte gick så bra som jag hade förhoppningar på. Det som den tolkade bra vid den maskinskrivna texten var att rättningen tolkades korrekt, den hade med röd färg vid bokstaven ”R” samt poängsumman. En liten sak, men det visar att den kan tolka texten även om den har svårt på en del ställen.

(41)

Lund, 2007-03-10

Figur 17 Bild på hur tolkningen av den handskrivna texten, till vänster den inskannade texten och till höger resultatet vid kontrollering av texten.

Den maskinskrivna tentamen klarade sig bra tycker jag, den klarade av att tolka nästan allt som fanns på sidan. Det som den hade svårigheter med var just de matematiska symbolerna (exempelvis x1,x2,x3) och de stora parenteserna som fanns på sidan.

Testet visade också det som jag hade mina misstankar om, att handskrivna texter är svårt för OCR-program att tolka riktigt bra, den gör sitt bästa men vid svåra texter som en matematiktentamen blir det för svårt för att förstå och känna igen vissa tecken.

11.1.2 Fotbollstidningstest

I detta test har jag valt att testa en artikel från en fotbollstidning för att se om artiklar från fotbollstidningar skulle kunna använda sig av OCR, för att exempelvis göra artiklar sökbara.

(42)

Lund, 2007-03-13

Figur 18 Så här ser testsidan ut från en fotbollstidning som FineReader ska OCR-tolka. Testningen av fotbollsartikeln gick väldigt bra, FineReader kunde tolka och förstå det mesta från artikeln. Det som den hade problem med var framförallt bindestreck i meningarna, den ville oftast ha ett eget tecken för bindestreck. Ett annat tolkningsproblem var bokstaven ”H” som ofta tolkades som två separata bokstäver, bokstaven ”I”, vilket man lätt kan ändra men upprepande gånger blir det irriterande.

Slutresultatet blev väldigt likt originalet men med fördelen att texten är sökbar.

Lund, 2007-03-13

(43)

Lund, 2007-03-13

Figur 20 FineReaders problem med bokstaven ”H”, här i Magnus Hedman där bokstaven blir två bokstäver, nämligen ”I”.

Lund, 2007-03-13

Figur 21 Så här blev testresultatet av fotbollstidningen, ett väldigt bra resultat. Helheten av artikeln ser bra ut samt tolkningen av texten gick bra.

11.1.3 Damtidningstest

Damtidningstestet gjorde jag för att jag ville se hur en typisk artikel ur en sådan tidning skulle klara sig vid en OCR-tolkning. Denna artikel innehåller nämligen lite svårare element på sidan jämfört med matematiktestet och fotbollstidningstestet. Den har exempelvis text på färgad bakgrund.

(44)

Lund, 2007-03-14

Figur 22 Så här ser testsidan för damtidningen ut inskannad, många olika objekt som kan ge problem för FineReader att tolka rätt.

Testningen gick helt ok med tanke på att artikeln var svårare än de tidigare bedömda. Det som var bra med denna testning var att den klarade av att tolka mycket av texten samt några av bilderna. En sak som jag blev lite förvånad över var att den försökte tolka texterna på förpackningarna, det är väldigt liten textgrad men den kunde tolka något ord på förpackningen men inte helt och hållet. Det dåliga var att alla bilder inte fanns med vid slutresultatet. Exempelvis försvann alla bilder på ansiktscremerna (tuberna på höger sida av bilden, se figur 22).

(45)

Lund, 2007-03-14

Figur 23 Detta blev testresultatet, inte så dåligt med tanke på att det var en svår artikel att OCR-tolka. Den hade problem med bilderna på ansiktscremerna på högersidan (försvann helt vid testningen).

11.1.4 Dagstidningstest

I dagstidningstestet valde jag ut en intressant artikel att testa, den innehåller både mindre texter innehållande tonade färger samt några bilder med tillhörande bildtexter.

(46)

Lund, 2007-03-17

Figur 24 Så här ser dagstidningsartikeln ut som skulle OCR-testas för att se hur bra den tolkade en dagstidning.

Testningen gick helt ok, FineReader kunde tolka det mesta av innehållet i artikeln. Det som inte gick så bra var texterna runt en bild, texten tolkades en aning fel men det kunde man rätta till vid stavningskontrollen.

(47)

Lund, 2007-03-17

Figur 25 Så här ser den OCR-tolkade texten ut, helt ok resultat. Den hade inte så stora problem med texterna utan mest bilderna och textrutorna (som var cirklar vid inskanningen och blev rektanglar vid testningen). FineReader fick även med många av färgnyanserna i den inskannade texten, även mejladresserna är blåmarkerade vid slutresultatet.

11.1.5 Speltidningstest

Testet av en speltidning gick ut på att välja en typisk artikel som skulle OCR-tolkas, i detta fall en titt på ett kommande spel. Svårigheten med denna artikel var att det fanns en del detaljer som FineReader kanske skulle få svårt med att tolka, exempelvis text ovanpå bilder.

Testningen gick väldigt bra om man endast tittar på tolkningen av texten. Det som inte gick så bra var att den stora bilden försvann förutom texterna ovanpå bilden. Det var inte många feltolkningar som FineReader gjorde av texten, vilket är bra. Däremot ville den tolka tecken som inte finns från svärdet i den stora bilden.

(48)

Lund, 2007-03-17

Figur 26 I denna bild ser man hur teckentolkningen har tolkats en aning fel, texten ligger ovanpå en bild och det kan ha påverkat OCR-tolkningen. Detta fel kan lätt korrigera genom att markera texten som är fel och ersätta med den text man istället vill ha.

Lund, 2007-03-17

Figur 27 Testningen av speltidningen blev detta resultat, FineReader tolkade texten bra men hade problem med den stora bilden som försvann samt att en del smådetaljer har tolkats fel, exempelvis hur helheten förändras jämfört med den inskannade artikeln.

Jag testade även funktionen automatisering som gör att man kan automatisera OCR-tolkningen. Man kan automatisera hela förloppet från inskanning till vilket format man vill spara det som. Automationstestningen gick betydligt fortare än det vanliga testförloppet där man kan kontrollera hur OCR-tolkningen gick, exempelvis rätta ord som har tolkats fel. Man sparade en hel del tid

(49)

jämfört med den vanliga testningen (1 minut mot ca 10 minuter), det som inte blev så bra var att fel smugits fel i texten samt att helhetssynen av dokumentet såg lite sämre ut. Automatiseringen lämpar sig bättre till dokument med bara texter för bästa resultat och där man inte behöva vara noggrann om något har tolkats fel eller inte.

Lund, 2007-03-17

Figur 28 Så här ser den automatiska OCR-tolkningen ut, den tolkade ungefär lika bra som den vanliga tolkningen på en del saker, exempelvis rubriken och spelinformationen. Det som den inte tolkade lika bra var att oklarheter vid OCR-tolkningen har smugits med i artikeln, detta ser man vid den stora bilden och vid texten ”Redan nu är spelet något av det snyggaste vi sett”. Detta är saker som man kan redigera manuellt vid vanlig testning (stavningskontrollen) och därmed slippa sådana uppenbara tolkningsfel.

11.1.6 PC-tidningstest

I detta test har jag valt ut en artikel som har ett test med i sin artikel. De har med ett prestanda-diagram med liten textstorlek på en del ställen för att se hur bra den tolkar det. Artikeln har även en viss svårighet med att två rubriktexter ligger ovanpå bilder vilket ska bli intressant se hur de tolkade det och om det gick bra eller inte. Jag har beskurit artikeln på grund av att vid skanning så kommer inte hela texten med på högersidan och det skulle medföra att OCR-tolkning på den texten inte skulle vara rättvis, eftersom inte hela texten kommer med.

(50)

Testningen gick väldigt bra, FineReader tolkade det mesta som fanns i artikeln korrekt. Det som inte blev särskilt lyckat var vid jämförelsestestet som innehöll stapeldiagram som tolkades som tecken av FineReader samt att några värden tolkades fel i diagramtexten, detta kunde man dock rätta till ganska enkelt vid stavningskontrollen.

Lund, 2007-03-16

Figur 29 Även i PC-tidningstestet blev bindestrecken tolkade till en egen variant av bindestreck.

Lund, 2007-03-16

Figur 30 FineReader försöker i denna bild tolka stapeldiagrammen som tecken, som om de innehöll någon text, vilket de inte gjorde.

(51)

Lund, 2007-03-16

Figur 31 Här är resultatet av den inskannade PC-tidningen, den tolkade ganska bra vad gäller texten som helhet men den hade problem med stapeldiagrammen och texten kring dem.

11.1.7 Handskriven test

Val av att testa en enbart handskriven text gjordes för att se hur FineReader skulle tolka en sådan text. Jag testade en text från en miljöföreläsning i en kurs som jag läste i årskurs två. Texten innehåller förutom handskriven text även mina egna symboler som jag använder vid anteckningar och gärna med olika färger för att förtydliga läsningen. Symbolerna i denna text var olika varianter av punktlistor (olika färger och mönster) som jag själv gjorde för att markera saker i texten. I översta delen av texten finns det även med en tabell (blå kant) med textinnehåll, alla dessa små saker ska det bli intressant hur FineReader skulle hantera detta.

Jag har förutom en vanlig testning (med stavningskontroll) även testat automatiseringsfunktionen för att se hur OCR-tolkningen blir utan min hjälp vid osäker OCR-tolkning av FineReader. Den vanliga testningen gick inte så jättebra, FineReader hade stora problem med mitt handskrivna dokument. Den hade svårigheter med i princip nästan alla delar i dokumentet, från den blå tabellen,

(52)

mina symboler och den handskrivna texten. Svårast hade programmet nog med tabellen samt symbolerna, tabellen blev till två vertikala svarta streck medan symbolerna försvann helt.

Den handskrivna texten gick väldigt upp och ner, vissa ord kunde den gissa sig till vad det var som jag kunde rätta till i stavningskontrollen medan andra ord gick inte alls. Följderna blev att

sammanhanget av texten försvann och kvar blev ofullständiga meningar som hänger fritt i dokumentet som är svårt att förstå om man inte har tillgång till originaldokumentet (det som skannades in).

Den automatiska testningen gick inte bättre än den vanliga testningen, den kunde visserligen känna av fler ord vid själva OCR-tolkningen men problemet var att texten inte hade kontrollerats vilket resulterade till helt otydbara ord/meningar. Det enda som jag kunde uttyda från tesresultatet var siffrorna i slutet på dokumentet, de hade tolkats korrekt men resten gick inte att läsa.

Lund, 2007-03-21

Figur 32 Bilden till vänster visar det handskrivna resultatet och till höger det automatiska resultatet. OCR-programmet hade svårigheter med min handskrivna text, varken texten som jag kontrollerade eller den automatiskt OCR-tolkade texten blev riktigt bra tolkad. Den manuellt kontrollerade dokumentet blev lite bättre tack vare att jag kunde rätta till oklarheter som uppstod vid OCR-tolkningen. Den automatiskt tolkade dokumentet är för mig väldigt svårläst, antingen så är orden helt oläsbara (orden existerar inte) eller att orden är ryckta ur sitt

References

Outline

Related documents

En annan slutsats i studien är att föreningarna för att uppnå sina sportsliga mål kommer att behöva anställa personal eftersom föreningsarbetet blivit mer komplext

Bland annat ansåg en rektor vid namn Gustaf Abraham Silfverstolpe år 1809 att en gemensam skola för hela folket skulle kunna leda till demokratisering, större social

För tillfället så erbjuder ett flertal banker och finansiella institutioner gratis utbildningar inom ämnet mainframes och COBOL just på grund av detta problem, för att försöka

avgörande för var investeringar läggs eller vart verksamheter flyttas.. Möt din

förmedlas meddelandet antingen som ett fys iskt brev, utskrivet och kuverterat hos Posten, samt utburet via brev- bärare, eller som ett elektroniskt meddelande via stardator,

Svenska småbrukaren Marie Johansson har över hundra gånger så mycket mark som många jordbrukare i Ecuador. Men hon drabbas av samma slags problem som sina kollegor på andra

Kraven på att den rika världen ska betala utvecklingsländerna för att jordens återstående tropiska skogar inte ska avverkas eller brännas och om- vandlas till betes-

Mikroindex beräknas som genom- snittet av nettotalen (säsongsrensade och standardiserade) för frågorna om den egna ekonomin, i nuläget respektive på tolv månaders sikt,