#BLBMÈǲTLÈ QSÈDF

(1)

**)4503$,Å$) 5&95ƾ 4 7:6Ç*5¶.**

13"7%Ɠ10%0#/045/¶$) .0%&-ƾ

#BLBMÈǲTLÈ QSÈDF

4UVEJKOÓ QSPHSBN # o *OGPSNBǏOÓ UFDIOPMPHJF 4UVEJKOÓ PCPS 3 o *OGPSNBǏOÓ UFDIOPMPHJF

"VUPS QSÈDF 5PNÈÝ ,PVOPWTLâ 7FEPVDÓ QSÈDF QSPG *OH +BO /PV[B $4D

(2)

**"650."5$ &%5*/( 0' 4$"//&%**

**)4503$"- 5&954 #"4&% 0/ 130#"#-45*$**

.0%&-4

#BDIFMPS UIFTJT

4UVEZ QSPHSBNNF # o *OGPSNBUJPO 5FDIOPMPHZ 4UVEZ CSBODI 3 o *OGPSNBUJPO 5FDIOPMPHZ

"VUIPS 5PNÈÝ ,PVOPWTLâ

4VQFSWJTPS QSPG *OH +BO /PV[B $4D

(3)

(4)

(5)

(6)

Podˇ ekov´ an´ı

Rád bych podˇekoval mému vedouc´ımu, Prof. Ing. Janu Nouzovi, CSc., za nab´ıdku tohoto zaj´ımavého tématu a odbornou pomoc pˇri jeho ˇreˇsen´ı. Sleˇcnˇe Jaroslavˇe Ryb´ınové za ne- skuteˇcnou trpˇelivost a pomoc pˇri vytváˇren´ı této dokumentace. A nakonec bych rád podˇekoval Prof. Dr. Zoraidˇe Callejas Carrión za konzultaci a uˇziteˇcné rady.

Acknowledgement

I would like to thank my supervisor, Prof. Ing. Jan Nouza, CSc., for offering me this interesting topic and for his professional support in progress of this thesis. To Ms. Jaroslava Ryb´ınov´a for immense patience and support through the making of this documentation. And lastly I would like to thank Prof. Dr. Zoraida Callejas Carri´on for consultation and helpful insights.

(7)

Tato práce se zabývá problematikou vyuˇzit´ı OCR pro digitalizaci historických text˚u, konkrétnˇe plnˇe automatickými post-OCR opravami chyb. Práce se zamˇeˇruje hlavnˇe na vyuˇzit´ı pravdˇepo- dobnostn´ıch metod, jako jsou statistiky znakových zámˇen a pravdˇepodobnostn´ı jazykové mo- dely. C´ılem této práce je vytvoˇren´ı a zhodnocen´ı postup˚u a nástroj˚u, jenˇz umoˇzn´ı co nej- spolehlivˇeji sn´ıˇzit procento neslovných chyb zp˚usobených digitalizac´ı roˇcn´ık˚u 1945 aˇz 1983 den´ıku Rudé Právo. Výsledkem práce jsou dva systémy, pomoc´ı nichˇz byly provedeny auto- matické opravy na výˇse zm´ınˇených textových dokumentech. Prvn´ı z nich, zaloˇzen na výpoˇctu pravdˇepodobnosti, zvládá opravit aˇz 6,97 % vstupn´ıch chyb pˇri spolehlivosti oprav aˇz 83 %.

Druhý systém, vyuˇz´ıvaj´ıc´ı algoritmus zaloˇzený na vlastn´ı skórovac´ı metodˇe, zvládá opravit aˇz 5,7 % vstupn´ıch chyb pˇri spolehlivosti oprav aˇz 92 %.

Kl´ıˇ cov´ a slova

OCR, post-procesing, plnˇe automatické opravy, statistiky znakových zámˇen, pravdˇepodob- nostn´ı jazykový model, Rudé Právo, historické texty

Abstract

This thesis is dealing with the problematics of historical document digitization via OCR, specifically with fully automated post-OCR error corrections. The thesis is focused mainly on the utilization of probability-based methods, such as character confusion statistics and probabilistic language models. Goal of this thesis is the creation and evaluation of procedures and tools for the purpose of reliably reducing the amount of OCR generated non-word errors in the digitized version of the

”Rud´e Pr´avo“ newspaper with prints dating from 1945 to 1983.

The thesis results in two systems, which were used in fully automated correction of the afore- mentioned text documents. First system, based on probability calculations, has a correction rate of up to 6,97 % with a reliability of up to 83 %. The second system, based on a personal scoring method, has a correction rate of up to 5,7 % with a reliability of up to 92 %.

Keywords

OCR, post-processing, fully automated error corrections, character confusion statistics, probability language model, Rud´e Pr´avo, historical documents

(8)

OBSAH

Obsah

Seznam obr´azk˚u 8

Seznam tabulek 8

1 Uvod´ 9

1.1 Motivace . . . 9

1.2 OCR . . . 10

1.2.1 Zp˚usobovan´e chyby . . . 10

1.2.2 Metody pro zlepˇsen´ı kvality . . . 11

1.3 Pˇribl´ıˇzen´ı podklad˚u . . . 13

1.3.1 Datab´aze digitalizovan´eho den´ıku . . . 13

1.3.2 Slovn´ık . . . 14

2 Pouˇzité metody pro automatické opravy 15 2.1 Porovnáván´ı se slovn´ıkem . . . 15

2.2 Statistika znakov´ych z´amˇen . . . 15

2.3 N-gramov´y jazykov´y model . . . 18

3 Postup práce 20 3.1 Pˇr´ıpravná ˇcást . . . 20

3.2 Anal´yza . . . 23

3.3 Vývoj nástroj˚u pro automatické opravy – Prvn´ı systém . . . 25

3.3.1 Architektura . . . 25

3.3.2 Testov´an´ı . . . 26

3.3.3 V´ysledky . . . 29

3.4 Vývoj nástroj˚u pro automatické opravy – Druhý systém . . . 32

3.4.1 Architektura . . . 32

3.4.2 Testov´an´ı . . . 33

3.4.3 V´ysledky . . . 34

3.5 Distribuce oprav do textu . . . 36

4 Zhodnocen´ı 37 5 Z´avˇer 40 5.1 Budouc´ı pr´ace . . . 40

Pouˇzit´a literatura 41

Pˇr´ılohy 42

(9)

Seznam obr´ azk˚ u

1 Statistika roˇcn´ık˚u Rudého Práva: Poˇcet ˇretˇezc˚u a stran v závislosti na roˇcn´ıku 13

2 Vývojový diagram: Prvn´ı analýza . . . 20

3 Vývojový diagram: Druhá analýza . . . 23

4 Vývojový diagram: Prvn´ı algoritmus pro automatické opravy . . . 26

5 Vývojový diagram: Druhý algoritmus pro automatické opravy . . . 32

6 V´yvojov´y diagram: Distribuce oprav do textu . . . 36

Seznam tabulek

1 Prvn´ı analýza textové databáze . . . 21

2 Ukázka nejˇcastˇejˇs´ıch neznámých ˇretˇezc˚u . . . 21

3 Druhá analýza textové databáze . . . 22

4 Poˇcet statisticky významných chyb vybraných k opravˇe . . . 25

5 Porovnán´ı systém˚u s p˚uvodn´ı a vynucenou velikost´ı p´ısmen; M = 100, N = 1000 27 6 Kvantita a kvalita oprav pˇri r˚uzných hodnotách M . . . 28

7 Redukce chyb v z´avislosti na poˇctu iterac´ı . . . 29

8 V´ysledky prvn´ıho syst´emu: Kvantita . . . 30

9 V´ysledky prvn´ıho syst´emu: Kvalita . . . 30

10 Výsledky prvn´ıho systému: Doba bˇehu (v minutách) . . . 31

11 Výsledky druhého systému: Kvantita . . . 34

12 Výsledky druhého systému: Kvalita . . . 35

13 Výsledky druhého systému: Doba bˇehu (v hodinách) . . . 35

14 Srovn´an´ı obou syst´em˚u . . . 37

15 Analýza databáze po opravˇe druhým systémem . . . 37

16 Ukázka nˇekterých nových ˇretˇezc˚u do slovn´ıku . . . 42

17 Ukázka správnˇe vytvoˇrených oprav prvn´ıho systému . . . 42

18 Ukázka správnˇe vytvoˇrených oprav druhého systému: . . . 42

19 Ukázka ˇspatnˇe vytvoˇrených oprav prvn´ıho systému: . . . 43

20 Ukázka ˇspatnˇe vytvoˇrených oprav druhého systému: . . . 43

(10)

1 UVOD´

1 Uvod ´

1.1 Motivace

Jiˇz od ˇsedesátých let dvacátého stolet´ı se OCR (Optical Character Recognition – optické rozpoznáván´ı znak˚u) vyuˇz´ıvá pro automatizovaný pˇrevod psaných a tiˇstˇených dokument˚u do digitáln´ı textové podoby. Skladován´ı textových soubor˚u pˇrináˇs´ı na rozd´ıl od skladován´ı fyzických výtisk˚u ˇci naskenovaných stran nepop´ıratelné výhody, napˇr. menˇs´ı velikost databáz´ı, rychlejˇs´ı pˇr´ıstup k dat˚um a moˇznost snadného automatického vyhledáván´ı a porovnáván´ı v textu. Prvn´ım krokem k takové digitalizaci je skenován´ı dokumentu. Poté je aplikováno OCR, jenˇz rozpozná jednotlivé znaky a pˇrevede je do digitáln´ı textové podoby. Proces OCR vˇsak nen´ı dokonalý a ne vˇzdy je schopen vytvoˇrit pˇresnou kopii p˚uvodn´ıho textu. D´ıky mnoha faktor˚um (napˇr. kvalita skenu ˇci pouˇzitý font) se m˚uˇze OCR splést a rozpoznat znak mylnˇe.

Modern´ı OCR maj´ı schopnost rozpoznat aˇz 99 % vˇsech znak˚u správnˇe. Pokud uvaˇzujeme pr˚umˇernou délku slova 5 znak˚u, kaˇzdé dvacáté slovo bude rozpoznáno ˇspatnˇe, coˇz vede k 5%

chybovosti ve výsledném textu. Tato hodnota pak bude jeˇstˇe vyˇsˇs´ı pro historické dokumenty, jejichˇz kvalita tisku bývá obvykle horˇs´ı.

Tyto chyby je samozˇrejmˇe záhodno naj´ıt a opravit. Opravy OCR generovaného textu jsou bˇeˇznˇe troj´ıho typu – manuáln´ı, kdy chyby hledá a opravuje ˇclovˇek, ˇcásteˇcnˇe automatické, kdy chyby hledá stroj a ˇclovˇeku nab´ız´ı jejich nejpravdˇepodobnˇejˇs´ı opravy, a plnˇe automatické, kdy vyhledáván´ı a opravu chyb vykonává pouze stroj. Kv˚uli bˇeˇznˇe velkému poˇctu a velikosti digitalizovaných dokument˚u obvykle nepˇripadaj´ı prvn´ı dvˇe moˇznosti v úvahu. Stejnˇe tak tomu je i v pˇr´ıpadˇe historického den´ıku Rudé Právo, jehoˇz roˇcn´ıky 1945 aˇz 1983 byly pomoc´ı OCR pˇrevedeny do textového formátu. I pˇres vysokou kvalitu vyuˇzitého OCR a následný post-procesing se v textech stále vyskytuj´ı chyby, jejichˇz opravou pomoc´ı plnˇe automatického systému se tato bakaláˇrská práce zabývá. Plnˇe automatické opravován´ı chyb v textu má ˇ

radu výhod, hlavnˇe z hlediska rychlosti, s jakou jsou schopny dneˇsn´ı systémy text procházet a opravovat - to, co by jednomu ˇclovˇeku trvalo roky, je pˇr´ıstroj schopen opravit v ˇrádu hodin. Má vˇsak i nˇekolik problém˚u, které je nutno minimalizovat – nejvˇetˇs´ı z nich obvykle zastává nemoˇznost opravovat naprosto spolehlivˇe ˇci nemoˇznost opravit vˇsechny chyby. Z tohoto d˚uvodu byla vyvinuta ˇrada r˚uznˇe úspˇeˇsných metod a algoritm˚u, které pomáhaj´ı tyto nedostatky sn´ıˇzit a zlepˇsit tak úspˇeˇsnost plnˇe automatických systém˚u pro post-OCR opravy chyb.

Jedn´ım z moˇzných pˇr´ıstup˚u je vyuˇz´ıván´ı statistik a výpoˇct˚u pravdˇepodobnost´ı. Tohoto pˇr´ıstupu vyuˇzili, mimo jiných, pánové Tong a Evans v roce 1996 [1]. Na základˇe metod statistik nejˇcastˇejˇs´ıch znakových zámˇen a pravdˇepodobnostn´ıho jazykového modelu dokázal jejich systém dosáhnout aˇz 60,2% redukce slovných a neslovných chyb na testovac´ım korpusu

(11)

(70 stran z ˇcasopisu o výpoˇcetn´ı technice, v angliˇctinˇe). Tato práce vyuˇz´ıvá jejich poznatk˚u pˇri implementaci systému pro co nejspolehlivˇejˇs´ı sn´ıˇzen´ı poˇctu neslovných chyb vyskytuj´ıc´ıch se v textové databázi den´ıku Rudé Právo.

1.2 OCR

OCR se dnes bˇeˇznˇe vyuˇz´ıvá k ˇradˇe r˚uzných úˇcel˚u, napˇr´ıklad pro automatické rozpoznáván´ı SPZ, asistenci slepých a zrakovˇe postiˇzených, extrakci psaných dat z formuláˇr˚u ˇci obcházen´ı CAPTCHA anti-bot systém˚u. Tato práce je zamˇeˇrena na zlepˇsen´ı kvality OCR pˇri archivaci historických text˚u, je tedy nutno uvést druhy relevantn´ıch chyb a zp˚usoby, které se pouˇz´ıvaj´ı k jejich odstranˇen´ı.

1.2.1 Zp˚usobovan´e chyby

Vˇetˇsina aplikac´ı vyuˇz´ıvaj´ıc´ı OCR vyˇzaduje pro správnou funkci vysokou pˇresnost OCR procesu. Ten vˇsak nen´ı dokonalý a vlivem faktor˚u jako kvalita skenu, pouˇzitý font nebo nepˇresný úhel zarovnán´ı skenované stránky vznikaj´ı chyby v podobˇe ˇspatnˇe rozpoznaných znak˚u. Tyto chyby se obvykle klasifikuj´ı do dvou hlavn´ıch kategori´ı:

Neslovn´e chyby Neslovn´a chyba (z angl.

”non-word error“, dosl.

”ne-slovo chyba“) vzniká, kdyˇz OCR procesem rozpoznaný ˇretˇezec v daném jazyce neexistuje (napˇr. ˇretˇezec

”mili´on“ je rozpozn´an jako

”miliún“). Neslovné chyby obvykle zastávaj´ı vˇetˇsinu chyb vyskytuj´ıc´ıch se v textu. Zároveˇn jdou snázeji opravit, nebot’ tyto ˇretˇezce (obvykle) nejsou obsaˇzeny v ˇzádném slovn´ıku. To umoˇzˇnuje algoritmu takovou chybu snadno naj´ıt a pomoc´ı r˚uzných metod vybrat nejvhodnˇejˇs´ı opravu, která bude pouˇzita.

Slovn´e chyby Slovn´a chyba (z angl.

”real-word error“, dosl.

”reálné-slovo chyba“) vzniká, kdyˇz OCR procesem rozpoznaný ˇretˇezec v daném jazyce existuje, ale nekoresponduje s origináln´ım ˇ

retˇezcem (napˇr. ˇretˇezec

”ˇrekl“ je rozpozn´an jako

”utekl“). Oprava slovných chyb je tˇeˇzˇs´ı neˇz oprava chyb neslovných, nebot’ k nalezen´ı nejvhodnˇejˇs´ı opravy je nutno brát v potaz kontext.

Tyto dvˇe hlavn´ı kategorie mohou být dle potˇreb aplikace rozdˇeleny do ˇrady podkategori´ı, napˇr´ıklad Segmentace, tedy rozpojen´ı ˇci spojen´ı ˇretˇezc˚u, Interpunkˇcn´ı chyby, tedy zámˇeny, vkládán´ı a mazán´ı interpunkˇcn´ıch znamének a jiné.

(12)

1 UVOD´

1.2.2 Metody pro zlepˇsen´ı kvality

Kvalita OCR se dá vylepˇsit ve tˇrech kroc´ıch: pre-procesingu, samotné OCR ˇcásti a v post–

procesingu [2].

Pre-procesing

Aby mohl OCR proces správnˇe rozpoznávat znaky a ˇretˇezce, mus´ı m´ıt k dispozici co nejlepˇs´ı vstupn´ı obraz. K vylepˇsen´ı kvality vstupn´ıho obrazu se vyuˇz´ıvá ˇrady technik, napˇr´ıklad za- rovnán´ı, které opravuje pootoˇcené nebo ohnuté stránky, nebo odstranˇen´ı ˇsumu, jenˇz potlaˇcuje nechtˇené artefakty vytvoˇrené ˇsp´ınou ˇci nepˇresnost´ı pˇri skenován´ı. Nejd˚uleˇzitˇejˇs´ımi metodami pˇri digitalizaci historických novin jsou analýza rozvrˇzen´ı textu (také známo jako

”zónován´ı“), pˇri které se text rozdˇeluje do logických blok˚u (napˇr. sloupce ˇclánk˚u), a analýza

slitých/rozbitých znak˚u, pˇri které se hledaj´ı a správnˇe rozdˇeluj´ı/zceluj´ı poˇskozené znaky.

OCR

Pro kaˇzdý znak vstupn´ıho obrazu je provedena analýza a na základˇe pouˇzitého algoritmu je vygenerován list kandidát˚u. Kaˇzdý znak v tomto listu je ohodnocen ˇc´ıslem, které udává, jak moc si je OCR algoritmus jistý, ˇze se jedná o stejný znak jako v p˚uvodn´ım dokumentu.

V zásadˇe existuj´ı dva typy algoritm˚u – maticové porovnáván´ı a extrakce charakteristických rys˚u. Maticové porovnáván´ı bere pixelovou mˇr´ıˇzku daného znaku tak jak je a porovnává ji s databáz´ı ˇsablon znak˚u. Výsledné skóre toho kterého znaku je urˇceno na základˇe podobnosti jednotlivých pixel˚u. Extrakce charakteristických rys˚u vyuˇz´ıvá rozloˇzen´ı vstupn´ıho obrazu na charakteristické rysy, jako jsou linky, jejich smˇer, kruˇznice a body protnut´ı. Pomoc´ı tˇechto rys˚u a databáze známých rys˚u se pak algoritmus snaˇz´ı vhodnou metodou klasifikovat vstupn´ı znak.

Tato metoda je pouˇz´ıvána ve vˇetˇsinˇe ICR (Intelligent Character Recognition – inteligentn´ı rozpoznáván´ı znak˚u, obvykle zamˇeˇrené na ruˇcnˇe psané p´ısmo) a lepˇs´ıch OCR, nebot’ poskytuje vˇetˇs´ı flexibilitu a moˇznost rozpoznávat vysoce odliˇsnˇe napsané/vytiˇstˇené znaky. Tato metoda také umoˇzˇnuje samovolné uˇcen´ı systému na daném korpusu dat, coˇz dokáˇze vylepˇsit výsledky rozpoznáván´ı neobvyklých font˚u nebo nekvalitn´ıch sken˚u.

Pro vylepˇsen´ı kvality OCR se ˇcasto pouˇz´ıvaj´ı slovn´ıky, které mohou pomoci v pˇr´ıpadˇe nejistého rozpoznán´ı ˇretˇezc˚u. Slovn´ıky mohou být úplné, nebo specializované na obor, ze kterého rozpoznávaný dokument pocház´ı. Nutno podotknout, ˇze slovn´ıkový pˇr´ıstup nemus´ı být optimáln´ı, pokud se v dokumentu vyskytuj´ı neznámé ˇretˇezce, napˇr´ıklad vlastn´ı jména.

Výsledek tohoto procesu je obvykle ukládán ve formátu ˇcistého textu (TXT). Kvalitnˇejˇs´ı OCR programy vˇsak mohou ukládat text do formát˚u vyuˇz´ıvaj´ıc´ıch metadata k anotaci obsahu, napˇr. PDF nebo DOC, coˇz m˚uˇze v dalˇs´ı fázi pomoci s automatickou opravou.

(13)

Post-procesing

Post-procesing se zabývá úpravou textových dokument˚u vyˇslých z OCR aplikace. Jedná se tedy obvykle o práci s ˇcistˇe textovými soubory, konkrétnˇe hledán´ı a opravu chyb. Post- procesing je hlavn´ı nápln´ı této bakaláˇrské práce. Dˇr´ıve v této kapitole byly pˇredstaveny dva základn´ı typy chyb – slovné a neslovné. Oba typy chyb maj´ı své specifické metody oprav, tato práce se vˇsak zabývá pouze chybami neslovnými.

Obvyklý pˇr´ıstup k opravám neslovných chyb je pomoc´ı slovn´ıku, který obsahuje správnˇe napsané ˇretˇezce v daném jazyce. Nejprve je tˇreba chyby nalézt. Textový dokument je rozdˇelen na jednotlivé ˇretˇezce a ty jsou porovnávány se slovn´ıkem. Pokud se v nˇem nenalézaj´ı, pak se pravdˇepodobnˇe jedná o neslovnou chybu. Druhým krokem je z´ıskán´ı ˇretˇezc˚u ze slovn´ıku jako kandidát˚u k opravˇe a jejich porovnán´ı. Nejlepˇs´ı by samozˇrejmˇe bylo porovnávat s chybou vˇsechny ˇretˇezce, které slovn´ık obsahuje. Tento pˇr´ıstup je vˇsak znaˇcnˇe neefektivn´ı, zvláˇstˇe u vˇetˇs´ıch slovn´ık˚u. Proto se vyuˇz´ıvá r˚uzných metod, které z´ıskaj´ı ze slovn´ıku pouze ty ˇretˇezce, které jsou zkoumané chybˇe nˇejak podobné.

K tomuto úˇcelu lze napˇr´ıklad vyuˇz´ıt Soundex algoritmu pán˚u Rusella a Odella [3], který mapuje ˇretˇezce podle zvuku jednotlivých znak˚u, nebo algoritmu Pollocka a Zamory [4], který redukuje ˇretˇezce do formy obsahuj´ıc´ı pouze strukturálnˇe d˚uleˇzité znaky. V této práci je vyuˇz´ıváno z´ıskáván´ı kandidát˚u pomoc´ı vektorového prostoru, pˇredstaveno Saltonem [5], které vyuˇz´ıvá indexace pomoc´ı znakových n-gram˚u.

N-gram

N-gram je souvislá sekvence N prvk˚u v dané posloupnosti. V oboru komputaˇcn´ı lingvis- tiky se ˇcasto jedná o sekvenci znak˚u v ˇretˇezci nebo ˇretˇezc˚u v souboru. Pro N = 2 se vˇzil název

”bigram“ a pro N = 3 se pouˇz´ıv´a n´azev

”trigram“. Ostatn´ı N se zapisuj´ı pomoc´ı ˇ

c´ısla, e.g.

”5-gram“.

Po z´ıskán´ı seznamu kandidát˚u k opravˇe je nutno vybrat z nich toho nejvhodnˇejˇs´ıho. To obvykle zaˇrizuje skórovac´ı funkce, která jednotlivé kandidáty ohodnocuje dle daného kritéria, napˇr´ıklad podobnosti s chybným ˇretˇezcem. Mezi ˇcasto vyuˇz´ıvané funkce patˇr´ı Levenshteinská vzdálenost [6], která udává nejmenˇs´ı moˇzné mnoˇzstv´ı povolených operac´ı (zámˇena, vloˇzen´ı nebo smazán´ı jednoho znaku), které je potˇreba k transformaci ˇretˇezce a na ˇretˇezec b.

Existuje nˇekolik r˚uzných variant Levenshteinské vzdálenosti, napˇr. Damerau-Levenshteinská vzdálenost [7], jenˇz pˇridává operaci zámˇeny dvou sousedn´ıch znak˚u, nebo LCS (Longest Com- mon Subsequence; Nejdelˇs´ı spoleˇcná subsekvence), která umoˇzˇnuje pouze operace pˇridán´ı a odebrán´ı znaku. Dále se kaˇzdé operaci dá nastavit rozd´ılná váha a t´ım z´ıskat optimalizova- nou vzdálenost pro specifickou úlohu. Tyto algoritmy jsou mimo jiné schopny sestavit seznam

(14)

1 UVOD´

krok˚u k transformaci ˇretˇezce a na ˇretˇezec b, ˇcehoˇz m˚uˇze být vyuˇzito pˇri porovnáván´ı ˇretˇezc˚u.

Dalˇs´ı formou porovnáván´ı podobnosti ˇretˇezc˚u je porovnáván´ı znakových n-gram˚u. Tˇech se dá vyuˇz´ıt k mˇeˇren´ı podobnosti ˇretˇezc˚u jiˇz napˇr´ıklad jednoduchým skórován´ım tak, ˇze seˇcteme poˇcet spoleˇcných znakových n-gram˚u ˇretˇezce a a ˇretˇezce b. Druhá moˇzná metoda je mˇeˇren´ı koeficientu podobnosti, tedy pod´ıl shodných a unikátn´ıch znakových n-gram˚u z obou slov.

Metody vyuˇzité v této práci jsou detailnˇeji popsány v kapitole 2.

1.3 Pˇribl´ıˇzen´ı podklad˚u

Pro tuto práci byly poskytnuty dva hlavn´ı podklady – databáze soubor˚u vytvoˇrená digitalizac´ı den´ıku Rudé Právo a slovn´ık známých, historicky podm´ınˇených ˇretˇezc˚u. Ani jeden z tˇechto podklad˚u se nesm´ı veˇrejnˇe ˇs´ıˇrit a z tohoto d˚uvodu nen´ı po dohodˇe s vedouc´ım práce obsaˇzen na pˇriloˇzeném datovém médiu.

1.3.1 Datab´aze digitalizovan´eho den´ıku

Tato databáze obsahuje stránky den´ıku Rudé Právo v naskenované i textové formˇe. Pro tuto práci jsou d˚uleˇzité pouze textové soubory, skeny stránek slouˇz´ı jen pro kontrolu výsledk˚u pˇri testován´ı.

V databázi se vyskytuje celkem 302 432 156 ˇretˇezc˚u v 69 662 textových souborech, rozloˇze- ných do 39 roˇcn´ık˚u dle obrázku 1.

Obrázek 1: Statistika roˇcn´ık˚u Rudého Práva: Poˇcet ˇretˇezc˚u a stran v závislosti na roˇcn´ıku

(15)

Zaj´ımavost´ı je, ˇze nˇekter´e str´anky chyb´ı (napˇr. 21. a 22. kvˇetna 1945, a tis´ıce dalˇs´ıch).

Tento fakt je nejsp´ıˇse zapˇr´ıˇcinˇen t´ım, ˇze se nˇekteré strany nedochovaly ve fyzické formˇe, nebo byly po OCR procesu tak poˇskozeny, ˇze oprava nebyla moˇzná a byly tud´ıˇz vyˇrazeny. Obrázek 1 je tedy reprezentac´ı rozloˇzen´ı ˇretˇezc˚u v datovém korpusu, nikoliv v reálném den´ıku Rudé Právo.

Pouˇz´ıvaným jazykem je pˇreváˇznˇe ˇceˇstina vyuˇz´ıvaná v daném historickém obdob´ı, okrajovˇe se pak vyskytuj´ı pasáˇze psané slovensky. Pouˇz´ıvaný jazyk se v pr˚ubˇehu let nepatrnˇe mˇen´ı, celý archiv tedy obsahuje ˇradu r˚uzných textových variac´ı. Kv˚uli p˚uvodu dokument˚u se v textu také nalézá ˇrada r˚uzných témat, coˇz ztˇeˇzuje úkol nalezen´ı a opravy chyb, nebot’ nelze pouˇz´ıt specializovaného slovn´ıku.

1.3.2 Slovn´ık

Druhým pˇrijatým podkladem byl slovn´ık známých, historicky podm´ınˇených ˇretˇezc˚u. V tom- to slovn´ıku se nacházelo celkem 570 424 ˇretˇezc˚u. Vˇsechny ˇretˇezce jsou v nˇem zapsány malými znaky, s výjimkou vlastn´ıch jmen a akronym˚u.

Obvyklý postup pˇri vytváˇren´ı takového slovn´ıku

”od nuly“ je v´ypoˇcet TF (Term frequency;

frekvence výskyt˚u) unikátn´ıch ˇretˇezc˚u v textových souborech. Dá se pˇredpokládat, ˇze ˇcasto se vyskytuj´ıc´ı ˇretˇezce jsou ˇretˇezce správnˇe rozpoznané a pro slovn´ık d˚uleˇzité. Kaˇzdý unikátn´ı ˇ

retˇezec s poˇctem v´yskyt˚u nad urˇcitou hranici je pak zaps´an do slovn´ıku.

Nutno podotknout, ˇze je zapotˇreb´ı nesm´ırné mnoˇzstv´ı práce, aby byl slovn´ık opravdu kvalitn´ı a obsahoval pouze správné ˇretˇezce. A právˇe správnˇe vyvoˇrený kvalitn´ı slovn´ık je tou nejd˚uleˇzitˇejˇs´ı souˇcást´ı drtivé vˇetˇsiny systém˚u pro automatické opravy textu.

Jedn´ım z c´ıl˚u této práce je tento slovn´ık rozˇs´ıˇrit o dalˇs´ı historicky podm´ınˇené, v textu se vyskytuj´ıc´ı ˇretˇezce.

(16)

2 POU ˇZIT ´E METODY PRO AUTOMATICK ´E OPRAVY

2 Pouˇ zit´ e metody pro automatick´ e opravy

2.1 Porovn´av´an´ı se slovn´ıkem

Jak je popsáno v kapitole 1.2.2, porovnávat testovaný chybný ˇretˇezec s celým slovn´ıkem by bylo vysoce neefektivn´ı. Je tedy záhodno vyuˇz´ıt metody, která omez´ı mnoˇzinu porovnávaných ˇ

retˇezc˚u ze slovn´ıku pouze na ty, jenˇz sd´ılej´ı s p˚uvodn´ım chybn´ym ˇretˇezcem nˇejakou podobnost.

Tato práce vyuˇz´ıvá pro výbˇer takové mnoˇziny indexaci pomoc´ı vektorového prostoru, kterou definoval Salton [5]. Vˇsechny ˇretˇezce ve slovn´ıku jsou indexovány pomoc´ı znakových

n-gram˚u. Chybný ˇretˇezec je rozloˇzen na znakové n-gramy stejné délky a ty pak slouˇz´ı k z´ıskán´ı podobných slovn´ıkových ˇretˇezc˚u.

Vˇsechny ˇretˇezce ve slovn´ıku jsou indexov´any pomoc´ı znakov´ych trigram˚u a bigram˚u.

Napˇr´ıklad:

”nebo”->{#ne, neb, ebo, bo#, #n, ne, eb, bo, o#}

Chybný ˇretˇezec je rozloˇzen na znakové bigramy, pokud je kratˇs´ı neˇz 4 znaky, jinak je rozloˇzen na znakové trigramy. Pro kaˇzdý takový n-gram je z databáze z´ıskána skupina ˇretˇezc˚u, jenˇz daný n-gram obsahuj´ı. U vˇsech z´ıskaných ˇretˇezc˚u je uchovávána informace o tom, kolikrát byly z databáze pˇrijaty. Toto TF skóre, které je zároveˇn souˇctem vˇsech sd´ılených n-gram˚u, slouˇz´ı k urˇcen´ı základn´ı podobnosti mezi chybným ˇretˇezcem a ˇretˇezcem ze slovn´ıku. Napˇr´ıklad byl v textu nalezen chybný ˇretˇezec

”nebc“:

”nebc”->{#ne, neb, ebc, bc#}

Pˇri porovnán´ı se slovn´ıkem byl, mimo jiné, z´ıskán ˇretˇezec

”nebo“ se sk´ore 2.

2.2 Statistika znakov´ych z´amˇen

Mˇejme ˇretˇezec W , sloˇzený ze znak˚u w₁,...,w_n, jenˇz zastupuje ˇretˇezec v p˚uvodn´ım dokumentu. Dále mˇejme ˇretˇezec S, sloˇzený ze znak˚u s₁,...,s_n, zastupuj´ıc´ı ˇretˇezec rozpoznaný OCR procesem. Na základˇe statistik znakových zámˇen m˚uˇzeme vypoˇc´ıtat p(S|W ), tedy pravdˇepodobnost, ˇze ˇretˇezec W byl OCR procesem rozpoznán jako ˇretˇezec S.

Tong a Evans vyuˇz´ıvaj´ı k výpoˇctu této pravdˇepodobnosti algoritmu podobného tomu, jaký definoval Wagner [8]. Tento algoritmus vyuˇz´ıvá stejných operac´ı jako Levenshtein, tedy a) vloˇzen´ı znaku, b) smazán´ı znaku a c) zámˇena znaku za jiný znak. Pˇri digitalizaci historických výtisk˚u se vˇsak stává, ˇze jsou dva aˇz tˇri znaky slity dohromady (napˇr. ˇretˇezec

”ˇri“ je rozpozn´an jako znak

”n“), nebo naopak, jeden znak je rozloˇzen na dva aˇz tˇri znaky (napˇr. znak

(17)

”m“ je rozloˇzen na ˇretˇezec

”iii“). Toto umoˇzˇnuje brát v potaz algoritmus známý jako Ratcliff- Obershelpovo rozpoznáván´ı vzor˚u [9] (dále jen RO). Jedná se o rekurzivn´ı algoritmus, který hledá v ˇretˇezc´ıch nejdelˇs´ı spoleˇcnou subsekvenci, rozdˇeluje oba ˇretˇezce na ˇcást pˇred a po na- lezené shodné subsekvenci a na obˇe tyto ˇcásti aplikuje znovu sám sebe. Výsledkem tohoto algoritmu je nejmenˇs´ı poˇcet krok˚u k transformaci ˇretˇezce a na ˇretˇezec b s t´ım, ˇze Leven- shteinská operace zámˇeny znaku je zmˇenˇena na zámˇenu ˇretˇezc˚u libovolné délky N > 0.

Napˇr´ıklad: Mˇejme ˇretˇezec a =

”Stochastika“ a ˇretˇezec b =

”Sochaˇrstv´ı“. RO zjist´ı tyto kroky transformace ˇretˇezce a na ˇretˇezec b:

”S“ z˚ust´av´a

”S“

”t“ smaz´ano

”ocha“ z˚ust´av´a

”ocha“

vloˇzeno

”ˇr“

”st“ z˚ust´av´a

”st“

”ika“ zmˇenˇeno na

”v´ı“

Nejprve se vˇsak mus´ı definovat ˇreˇsen´ı zámˇen v´ıceznakových ˇretˇezc˚u. Mˇejme napˇr´ıklad krok transformace - zámˇena ˇretˇezce a =

”abcd“ ˇretˇezcem b =

”efghijklm“. Pro spr´avnou maxi- malizaci pravdˇepodobnosti p(

”efghijklm“|

”abcd“) by bylo nutno provést tzv. vyˇcerpávaj´ıc´ı porovnán´ı, pˇri kterém by byly vyzkouˇseny vˇsechny moˇzné kombinace zámˇen znak˚u a ˇretˇezc˚u.

To by vˇsak bylo komputaˇcnˇe pˇr´ıliˇs nároˇcné, proto jsou takové pravdˇepodobnosti zaokrouh- lovány na

p(b|a) = p(b|a)max(len(a),len(b)) (1) za pˇredpokladu, ˇze

len(a) <= 3 a z´aroveˇn len(b) <= 3 kde

len(a) oznaˇcuje d´elku ˇretˇezce a (stejnˇe pro b)

Toto rozhodnut´ı je zaloˇzeno na pozorován´ı, ˇze málokdy jsou takto ˇspatnˇe rozpoznány ˇretˇezce o v´ıce neˇz 3 znac´ıch. Kaˇzdá zámˇena obsahuj´ıc´ı v´ıce znak˚u je brána jako neznámá zámˇena, popsáno dál.

(18)

Pro v´ypoˇcet pravdˇepodobnosti p(S|W ) pro kroky k₁ aˇz k_n transformace podle RO je pouˇzito rovnice

p(S|W ) =

n

Y

k=1

p(s_k|w_k) (2)

kde

p(s_k|w_k) =

n

Y

i=1

p(s_i|w_i) (3)

pokud len(sk) = len(wk), jinak cel´e dle rovnice 1 kde

k je ˇc´ıslo kroku

sk je podˇretˇezec ˇretˇezce S vyuˇz´ıv´an v kroku k (podobnˇe pro wk) s_i je znak na indexu i v podˇretˇezci s_k (podobnˇe pro w_i)

Problém neznámých zámˇen je ˇreˇsen stejnˇe, jak ho ˇreˇs´ı Tong a Evans. Tedy pokud je pravdˇepodobnost p(y|x) neznámá, pˇredpokládá se univerzáln´ı pravdˇepodobnost

p(y|x) =

( α pokud x = y

(1−α)

N pokud x 6= y (4)

p(del(x)) = p(ins(x)) = (1 − α)

N (5)

kde

N je poˇcet tisknuteln´ych znak˚u

α je pˇredpokládaná pravdˇepodobnost, ˇze znak byl rozpoznán korektnˇe del(x) je smazán´ı znaku x

ins(x) je vloˇzen´ı znaku x

Za pˇredpokladu, ˇze OCR nedˇelá chyby náhodnˇe, se dá pravdˇepodobnost jednotlivých krok˚u vypoˇc´ıtat ze statistik znakových zámˇen jako

p(y|x) = num(sub(x, y))

num(x) (6)

p(del(x)) =num(del(x))

num(x) (7)

p(ins(x)) = num(ins(x))

num(ins) (8)

kde

num(x) je celkový poˇcet x sub(x, y) je poˇcet zámˇen y za x num(ins) je celkový poˇcet vloˇzen´ı

(19)

Statistika znakových zámˇen se samozˇrejmˇe mus´ı nejprve z´ıskat. Prvn´ı algoritmus imple- mentovaný v této práci vyuˇz´ıvá stejného iterativn´ıho zp˚usobu

”uˇcen´ı se z opravován´ı“, jaký pouˇzili Tong a Evans. Algoritmus se tedy statistiky znakových zámˇen uˇc´ı z vlastn´ıch oprav.

Tento mechanismus umoˇzˇnuje algoritmu nauˇcit se pravdˇepodobnosti zámˇen znak˚u a ˇretˇezc˚u u specifických OCR prostˇred´ı a t´ım vylepˇsit své schopnosti oprav.

K této ˇcásti se vztahuje i ˇcást algoritmu pro porovnán´ı délky ˇretˇezc˚u. Tento vzorec pro

´

upravu pravdˇepodobnosti byl pˇridán z d˚uvod˚u popsaných v kapitole 3.3.2. Úprava pravdˇepo- dobnosti na základˇe porovnán´ı délky je aplikována pomoc´ı rovnice

p(S|W ) = p(S|W ) ∗ 0, 1|len(S)–len(W )|

(9) tedy výsledná pravdˇepodobnost je sn´ıˇzena o jeden ˇrád pro kaˇzdou jednotku rozd´ılu délky.

Retˇˇ ezce liˇs´ıc´ı se o délku jednoho znaku budou m´ıt o ˇrád niˇzˇs´ı pravdˇepodobnost, ˇretˇezce liˇs´ıc´ı se o délku dvou znak˚u budou m´ıt o dva ˇrády niˇzˇs´ı pravdˇepodobnost atd.

2.3 N-gramov´y jazykov´y model

Tong a Evans definovali ˇcást svého problému jako vypoˇcten´ı pravdˇepodobnosti výskytu ˇ

retˇezc˚u v celé vˇetˇe v závislosti na pˇredchoz´ıch ˇretˇezc´ıch. Bran´ı kontextu v potaz jim umoˇznilo opravovat jak neslovné, tak slovné chyby. Tato práce se zamˇeˇruje pouze na neslovné chyby, tento problém je tedy moˇzno redukovat pouze na výpoˇcet bezprostˇredn´ı pravdˇepodobnosti.

Architektura opravného procesu taktéˇz zaruˇcuje, ˇze celá databáze známých n-gram˚u bude pˇri automatických opravách k dispozici.

Pˇredpokládejme bigramový jazykový model. Mˇejme sekvenci ˇretˇezc˚u w1, w2 a w3. Bez- prostˇredn´ı pravdˇepodobnost výskytu ˇretˇezce w₂ se dá spoˇc´ıtat jako pravdˇepodobnost, ˇze se ˇ

retˇezec w₂ vyskytne za ˇretˇezcem w₁ a ˇze se ˇretˇezec w₃ vyskytne pr´avˇe za ˇretˇezcem w₂. Pˇri aplikaci promˇenn´ych tedy

p(w_n) = p(w_n|w_n−1) ∗ p(w_n+1|w_n) (10) coˇz je implementov´ano jako

p(wn) = num(wn−1+ wn)

num(w_n−1) ∗num(wn+ wn+1)

num(w_n+1) (11)

kde

num(wn+ wn−1) je poˇcet výskyt˚u ˇretˇezce wn−1 následovaného ˇretˇezcem wn

num(w_n−1) je poˇcet v´yskyt˚u samotn´eho w_n−1 analogicky pro wn+1

(20)

Kombinace obou metod maximalizuje pravdˇepodobnost výskytu kandidáta na m´ısto chyb- ného ˇretˇezce v závislosti na bezprostˇredn´ım kontextu z obou stran. Jediným problémem je, podobnˇe jako u statistiky znakových zámˇen, odhad pravdˇepodobnosti pˇri neznámých statis- tikách

n-gram˚u v textu. Tento problém se dá vyˇreˇsit napˇr´ıklad jednoduchou metodou pˇridán´ı kon- stanty pro neznámé prvky. Pokud algoritmus naraz´ı na n-gram, který nemá v databázi, sub- stituuje jeho pravdˇepodobnost za

p(wn|w_n−1) = 0, 01

max(num(wn−1)) (12)

a

p(wn+1|w_n) = 0, 01

max(num(w_n+1)) (13)

T´ım je zaruˇceno, ˇze sekvence ˇretˇezc˚u, jenˇz nebyla nikdy pozorována, bude m´ıt minimálnˇe o dva ˇrády niˇzˇs´ı pravdˇepodobnost neˇz nejménˇe pravdˇepodobná sekvence, jenˇz pozorována byla.

Druhý algoritmus vyuˇz´ıvá jiné rovnice pro implementaci jazykového modelu:

Sc_n= (ln(num(wn−1+ wn))

5 + 2) ∗ Sc_z (14)

a

Sc_n= (ln(num(w_n+ w_n+1))

5 + 2) ∗ Sc_z (15)

kde

Sc_n je nové skóre Scz je základn´ı skóre

(21)

3 Postup pr´ ace

Tato ˇcást popisuje, jak byla práce ˇreˇsena z praktického hlediska. Jak vypadá architektura hlavn´ıch ˇcást´ı nástroj˚u pro analýzu a automatickou opravu, jak prob´ıhal jejich vývoj a jaké problémy bylo nutno vyˇreˇsit.

Veˇskeré nástroje byly implementovány v programovac´ım jazyku Python verze 2.7.6, 32-bit.

O výhodách a nevýhodách tohoto rozhodnut´ı pojednávám v´ıce v kapitole 4.

Veˇskerý vývoj, testy a fináln´ı opravy databáze prob´ıhaly na jediném poˇc´ıtaˇci s procesorem o taktu 1,65 GHz a operaˇcn´ım systémem Windows 7.

3.1 Pˇr´ıpravn´a ˇc´ast

Nejprve bylo potˇreba zjistit, s jakými typy chyb se bude muset algoritmus pro automatickou opravu potýkat. Proto byla implementována jednoduchá analýza textu dle obrázku 2

Obrázek 2: Vývojový diagram: Prvn´ı analýza

(22)

3 POSTUP PR ´ACE

Kaˇzdý textový soubor ve zvoleném úseku databáze je pˇreˇcten a jeho obsah rozdˇelen na sekvenci ˇretˇezc˚u podle mezer. Kaˇzdý ˇretˇezec je porovnán se slovn´ıkem ve vˇsech moˇzných tvarech (s interpunkc´ı a bez, zapsán pouze malými p´ısmeny, velkými p´ısmeny atd.) Pokud se nevyskytuje ve slovn´ıku v ˇzádné formˇe, je brán jako neznámý (ˇspatnˇe rozpoznaný) ˇretˇezec a je zapoˇc´ıtán do seznamu chyb a poˇctu jejich výskyt˚u. Celá databáze byla rozdˇelena na pˇetileté

´

useky a zanalyzov´ana. Tabulka 1 ukazuje d˚uleˇzit´e hodnoty:

Tabulka 1: Prvn´ı analýza textové databáze

Roky Chybovost Poˇcet ˇretˇezc˚u Poˇcet chyb Poˇcet stran

45-49 5,293457 % 21756802 1151687 5575

50-54 3,353954 % 36619192 1228191 8001

55-59 4,134854 % 37420548 1547285 8162

60-64 5,307494 % 38860503 2062519 8300

65-69 4,663874 % 44582166 2079256 10236

70-74 4,245049 % 40747393 1729747 9885

75-79 4,363819 % 44896038 1959182 10558

80-83 3,889701 % 37549514 1460564 8945

Celkem 4,370710 % 302432156 13218431 69662

D˚uleˇzitá data z prvn´ı analýzy jsou k dispozici na pˇriloˇzeném datovém médiu. V tabulce 2 pro ukázku 10 nejˇcastˇejˇs´ıch chyb.

Tabulka 2: Ukázka nejˇcastˇejˇs´ıch neznámých ˇretˇezc˚u Retˇˇ ezec Poˇcet výskyt˚u

l 171816

M. 79887

e 61568

L. 54635

B. 53840

t 49881

ie 46979

n. 45400

F. 45149

t. 44779

Majorita tˇechto ˇretˇezc˚u je chybnˇe rozpoznaná, nicménˇe se v tomto seznamu vyskytuje velké mnoˇzstv´ı r˚uzných existuj´ıc´ıch a správnˇe rozpoznaných ˇretˇezc˚u, které nebyly zastoupeny ve slovn´ıku. Hojnˇe se zde vyskytuj´ı ˇr´ımské ˇc´ıslice, r˚uzné druhy zkratek (napˇr.

”soudr.“ -

”soudruh“), akronym˚u (

”UNV“ -´

”Ustˇ´ redn´ı Národn´ı Výbor“), dvou slov spojených ˇcárkou (”Praha-Varˇsava“), ale i celých slov (

”Titovci“ - n´azev knihy z roku 1963). Tento seznam

(23)

tedy bylo nutno prvek po prvku proj´ıt a kaˇzdý ˇretˇezec podrobit bliˇzˇs´ımu prozkoumán´ı. Hlavn´ı otázkou bylo, zda ˇretˇezec skuteˇcnˇe existoval v daném historickém obdob´ı, co pˇresnˇe znamenal a jak se pouˇz´ıval.

Takto byla podrobena manuáln´ı analýze vˇetˇsina ˇretˇezc˚u, jenˇz se vyskytovaly v celém korpusu v´ıce neˇz 500x. To zahrnuje prvn´ıch cca 1000 ˇretˇezc˚u z celkového poˇctu 5 367 002 unikátn´ıch ˇretˇezc˚u. Unikátn´ıch ˇretˇezc˚u s malým poˇctem výskyt˚u je drtivá vˇetˇsina, ze sta- tistického hlediska vˇsak mohou být zanedbány – pokud se ˇretˇezec za 39 let výtisk˚u den´ıku vyskytl pouze 10x, nebude m´ıt na celý korpus velký vliv.

Nˇekteré neznámé ˇretˇezce zastupuj´ı v´ıceslovná spojen´ı, jako napˇr´ıklad

”Ban´ık-Sparta“. Ta nejsou ve slovn´ıku obvykle obsaˇzena, nebot’ moˇzn´ych kombinac´ı je pˇr´ıliˇs velk´e mnoˇzstv´ı. Pro

´

uˇcely analýzy jsou tato spojen´ı ignorována podobnˇe jako ˇr´ımské ˇc´ıslice.

Celkovˇe bylo do slovn´ıku pˇridáno 53 nových, nejˇcastˇeji se objevuj´ıc´ıch historicky podm´ınˇe- ných ˇretˇezc˚u, které jsou k vidˇen´ı na pˇriloˇzeném datové médiu. V tabulce 3 je k vidˇen´ı analýza pˇetiletek po pˇridán´ı kódu pro rozpoznáván´ı ˇr´ımských ˇc´ıslic a aktualizaci slovn´ıku.

Tabulka 3: Druhá analýza textové databáze

Roky Chybovost Poˇcet ˇretˇezc˚u Poˇcet chyb Poˇcet stran

45-49 4,542005 % 21756802 988195 5575

50-54 2,809090 % 36619192 1028666 8001

55-59 3,541263 % 37420548 1325160 8162

60-64 4,733091 % 38860503 1839303 8300

65-69 4,117732 % 44582166 1835774 10236

70-74 3,694631 % 40747393 1505466 9885

75-79 3,840608 % 44896038 1724281 10558

80-83 3,419168 % 37549514 1283881 8945

Celkem 3,812665 % 302432156 11530726 69662

Rozd´ıl 0,558044 % 0 1687705 0

Jak je vidno z rozd´ılu, správná klasifikace chyb je d˚uleˇzitou souˇcást´ı pˇr´ıprav. Výˇse uvedené zmˇeny zp˚usobily pokles vypoˇctené chybovosti o 0,56 % a poˇcet chyb k opravˇe klesl o v´ıce neˇz milión a p˚ul.

(24)

3 POSTUP PR ´ACE

3.2 Anal´yza

Tong a Evans implementovali sv˚uj algoritmus jako iterátor nad celým textovým korpusem.

Pro jejich úˇcely to bylo zapotˇreb´ı, pro vyuˇzit´ı v této práci je to vˇsak vysoce neefektivn´ı.

Algoritmus pro automatické opravy by musel pˇri kaˇzdé z mnoha iterac´ı testovat kaˇzdý z v´ıce neˇz 302 milión˚u ˇretˇezc˚u, nemluvˇe o sbˇeru statistik znakových zámˇen a spolu se vyskytuj´ıc´ıch n-gram˚u, viz kapitola 2. Daleko výhodnˇejˇs´ı je iterovat nad celým textovým korpusem pouze dvakrát – jednou pˇri sbˇeru statistik a chyb a podruhé pˇri distribuci oprav. Mnoho unikátn´ıch chybnˇe rozpoznaných ˇretˇezc˚u se také v textu vyskytuje v´ıcekrát, a to dokonce se stejným bez- prostˇredn´ım kontextem. Sbˇer chybných ˇretˇezc˚u umoˇzˇnuje takové ˇretˇezce slouˇcit a opravovat pouze jednou. Proto byl implementován upravený algoritmus pro analýzu textu dle obrázku 3.

Obrázek 3: Vývojový diagram: Druhá analýza

(25)

Tento nástroj umoˇzˇnuje pˇri jediné iteraci nad textovým korpusem sbˇer následuj´ıc´ıch dat:

• Chybnˇe rozpoznané ˇretˇezce a jejich kontext jako n-gramy specifikované délky

• Sekvence správnˇe rozpoznaných ˇretˇezc˚u jako n-gramy optimáln´ı délky

• Statistika správnˇe rozpoznaných znak˚u (vzhledem k tomu, ˇze automatické opravy pra- cuj´ı pouze s chybnˇe rozpoznanými ˇretˇezci, slouˇz´ı tato statistika jako nemˇenný základ pro automatické opravy)

• R˚uzné statistiky textového korpusu – poˇcet soubor˚u, poˇcet ˇretˇezc˚u celkem, správnˇe a chybnˇe rozpoznaných, jejich distribuce v textu dle délky (poˇctu znak˚u), celková chybovost v procentech

• Rychlost zpracován´ı korpusu, pamˇet’ová a ˇcasová nároˇcnost nástroje

Tento nástroj umoˇzˇnuje nastaven´ı délky sb´ıraných n-gram˚u a nastaven´ı prahového ˇc´ısla, urˇcuj´ıc´ıho kolikrát se unikátn´ı chybnˇe rozpoznaný ˇretˇezec mus´ı v textu objevit, aby byl zapsán na výstup. Vynechán´ım statisticky zanedbatelných ˇretˇezc˚u se radikálnˇe sn´ıˇz´ı poˇcet chyb k opravˇe a t´ım i ˇcasové nároky proveden´ı automatických oprav. Podobnˇe bylo nutno vzhledem k pamˇet’ovým nárok˚um omezit databázi správnˇe rozpoznaných sekvenc´ı. Nástroj pro analýzu ukládá na disk vˇsechny vidˇené sekvence, pˇri automatických opravách se vˇsak vyuˇz´ıvá redukovaná verze, která obsahuje pouze sekvence vidˇené v´ıce neˇz jednou.

V textovém korpusu se vyskytuje mnoho ˇretˇezc˚u, které nejsou ve slovn´ıku, ale zároveˇn nejsou ˇspatnˇe rozpoznané. Nejvˇetˇs´ı a nejproblémovˇejˇs´ı mnoˇzinu z nich tvoˇr´ı zkratky. Proto tento nástroj implementuje algoritmus pro rozpoznáván´ı zkratek, které jsou zapisovány do samostatného vedlejˇs´ıho souboru, který nebyl pro automatické opravy pouˇzit.

Textová databáze byla opˇet rozdˇelena na pˇetileté úseky a zanalyzována t´ımto nástrojem.

Experimentálnˇe bylo zjiˇstˇeno, ˇze pro oba implementované algoritmy automatických oprav je nejlepˇs´ı sbˇer trigram˚u pro chybné ˇretˇezce a tedy bigram˚u pro ˇretˇezce správné. Sbˇer 5- gram˚u a v´ıce je vhodnˇejˇs´ı pro lidské opraváˇre, nebot’ maj´ı k dispozici v´ıce kontextu. Zvýˇsen´ı délky n-gram˚u má vˇsak za následek prudké zvýˇsen´ı pamˇet’ové nároˇcnosti, komputaˇcn´ıho ˇcasu a celkové sn´ıˇzen´ı poˇctu oprav pro automatické opravy pˇri pouze nepatrném zvýˇsen´ı kvality oprav. To je následkem niˇzˇs´ıho poˇctu stejných n-gram˚u pro chybné i správné ˇretˇezce a t´ım pádem i sn´ıˇzen´ı

”rozhodnosti“ a rychlosti cel´eho syst´emu.

Tabulka 4 ukazuje, kolik chyb v kaˇzdém pˇetiletém bloku bylo shromáˇzdˇeno a pˇripraveno k opravˇe. Tˇemito chybami byly pouze statisticky významné chyby, tedy neznámé ˇretˇezce pozorované v´ıce neˇz 10x. Mezi tyto ˇretˇezce nejsou poˇc´ıtány ˇretˇezce rozpoznané jako zkratky.

(26)

3 POSTUP PR ´ACE

Tabulka 4: Poˇcet statisticky významných chyb vybraných k opravˇe

Roky Chyb

celkem

Vybran´ych chyb

Unik´atn´ıch n-gram˚u

Unik´atn´ıch ˇretˇezc˚u

45-49 988195 184109 165794 3807

50-54 1028666 212698 175936 5174

55-59 1325160 285645 249578 6162

60-64 1839303 537888 477934 9330

65-69 1835774 503080 432490 8907

70-74 1505466 388744 327199 7382

75-79 1724281 448978 382724 8986

80-83 1283881 293653 244645 6532

Celkem 11530726 2854795

% celkem 100 24,76

3.3 Vývoj nástroj˚u pro automatické opravy – Prvn´ı systém

3.3.1 Architektura

Na základˇe technologi´ı popsaných v kapitole 2 byl implementován nástroj pro automatické opravy dle Obrázku 4.

Pro kaˇzdý unikátn´ı chybnˇe rozpoznaný ˇretˇezec je ze slovn´ıku z´ıskána skupina podobných ˇ

retˇezc˚u. Nejpodobnˇejˇs´ıch N ˇretˇezc˚u je oznaˇceno za kandidáty k opravˇe a porovnáno s ori- gináln´ım ˇretˇezcem. Na základˇe statistik znakových zámˇen a délkové podobnosti je jim vypoˇcte- no základn´ı ohodnocen´ı (skóre) – pravdˇepodobnost, ˇze jsou t´ım hledaným ˇretˇezcem, který byl OCR procesem chybnˇe rozpoznán. Tato ˇcást je komputaˇcnˇe nejnároˇcnˇejˇs´ı, proto se vyuˇz´ıvá pouze prvn´ıch N kandidát˚u – zbytek je zahozen. Tento list je pro kaˇzdý unikátn´ı chybný ˇ

retˇezec vygenerován pouze jednou a vytvoˇrená tabulka základn´ıch ohodnocen´ı se jiˇz nemˇen´ı.

Algoritmus dále pracuje s r˚uznými variacemi kontextu chybného ˇretˇezce. Pro kaˇzdý unikátn´ı chybný n-gram (tj. chybný ˇretˇezec a jeho bezprostˇredn´ı kontext) je vytvoˇrena kopie seznamu kandidát˚u. Na základˇe n-gramového jazykového modelu je vypoˇc´ıtána úprava ohodnocen´ı vˇsech kandidát˚u v této kopii.

Poté je upravený list kandidát˚u seˇrazen sestupnˇe dle ohodnocen´ı a kandidát s nejvyˇsˇs´ım skóre je porovnán s druhým v ˇradˇe. Pokud je jeho skóre M -krát vˇetˇs´ı neˇz skóre druhého kandidáta, je zvolen za správnou opravu a je pro nˇej vygenerován záznam do seznamu oprav.

Po skonˇcen´ı hlavn´ıho opravného bloku se odstran´ı dosavadn´ı statistiky znakových zámˇen a z vygenerovaného seznamu oprav se systém uˇc´ı statistiky nové. Mˇen´ı se tedy pouze statistiky z´ıskané z automatických oprav a statistiky vycházej´ıc´ı z analýzy z˚ustávaj´ı nemˇenné.

(27)

Obrázek 4: Vývojový diagram: Prvn´ı algoritmus pro automatické opravy Systém provád´ı tento cyklus K-krát, dle specifikovaného K.

3.3.2 Testov´an´ı

Pˇri vývoji a testován´ı bylo zjiˇstˇeno, ˇze má tento systém velké problémy pˇri hledán´ı oprav ˇ

retˇezc˚u kratˇs´ıch neˇz 4 znaky. To do textu zanáˇselo velké mnoˇzstv´ı ˇspatnˇe opravených ˇretˇezc˚u, proto se systém snaˇz´ı opravovat pouze ˇretˇezce délky 4 znak˚u a v´ıce. Vzhledem k povaze chyb vyskytuj´ıc´ıch se v textové databázi to vˇsak znamená, ˇze se systém zpravidla pokus´ı opravit pouze tˇretinu ze vˇsech reálných chyb.

Dalˇs´ım nedostatkem bylo to, ˇze pˇri testován´ı systém ˇcasto ˇspatnˇe opravoval vlastn´ı jména a jejich tvary, napˇr. ˇretˇezec

”Pariz“ byl opraven jako

”Paˇrez“. Tento nedostatek byl zm´ırnˇen tak, ˇze kaˇzdé opravené vlastn´ı jméno je zapsáno do sekundárn´ıho souboru, podobnˇe jako zkratky nalezené v analýze. Tento sekundárn´ı soubor nen´ı zapoˇc´ıtán pˇri zhodnocen´ı systému

(28)

3 POSTUP PR ´ACE

do opravených ˇretˇezc˚u a samotný systém se z nˇej neuˇc´ı statistiky znakových zámˇen. Za vlastn´ı jméno je povaˇzován kaˇzdý ˇretˇezec, jehoˇz prvn´ı znak je velkým p´ısmenem, vˇetˇsina dalˇs´ıch znak˚u malými p´ısmeny a zároveˇn pˇred sebou nemá znak ukonˇcuj´ıc´ı vˇetu. Necelá tˇretina vˇsech oprav jsou obvykle takto klasifikovaná vlastn´ı jména.

Velice zaj´ımavé bylo zjiˇstˇen´ı, jak systém reaguje na zámˇeny velkých a malých znak˚u. Vzhle- dem k tomu, ˇze opravovaným korpusem je denn´ı tisk, nˇekteré ˇspatnˇe rozpoznané ˇretˇezce byly obsaˇzeny v nadpisech ˇclánk˚u, a tedy napsány celé velkými p´ısmeny. S t´ım je úzce spjat problém opravován´ı ˇretˇezc˚u, jenˇz zaˇc´ınaj´ı velkým p´ısmenem. Takový ˇretˇezec m˚uˇze a nemus´ı být chybnˇe rozpoznaný v závislosti na tom, zda se jedná o prvn´ı slovo ve vˇetˇe nebo vlastn´ı jméno. To je obt´ıˇzné zjistit, proto byl tento algoritmus implementován tak, aby vˇsechny tes- tované ˇretˇezce pˇrevádˇel na malé znaky. T´ım se ztrác´ı informace o zámˇenách malých a velkých znak˚u, nicménˇe testován´ı na malém a stˇrednˇe velkém korpusu dat ukázalo, ˇze potlaˇcen´ım velikosti znak˚u systém neztrác´ı na spolehlivosti, viz Tabulka 5. Byla také implementována metoda, která transformuje ˇretˇezec vkládaný do oprav tak, aby souhlasil s nejpravdˇepodobnˇejˇs´ı formou ˇretˇezce v p˚uvodn´ım dokumentu.

Tabulka 5: Porovnán´ı systém˚u s p˚uvodn´ı a vynucenou velikost´ı p´ısmen; M = 100, N = 1000 P˚uvodn´ı velikost Vˇse malými znaky

Stran Chyb Opraveno Pˇresnost Opraveno Pˇresnost

70 1903 330 54,6 % 353 55,0 %

200 5940 882 58,0 % 957 59,0 %

Podobný problém pˇredstavovala interpunkˇcn´ı znaménka. Ta se mohou v textu vyskytovat pˇrirozenˇe, nebo mohou vznikat chybným rozpoznán´ım znaku. Výsledný algoritmus vyj´ımá z extrémn´ıch konc˚u testovaného ˇretˇezce interpunkˇcn´ı znaménka, jenˇz se tam obvykle vyskytuj´ı. Neobvykle um´ıstˇená znaménka (napˇr. teˇcka uprostˇred ˇretˇezce) z˚ustávaj´ı a jsou tedy pˇredmˇetem oprav. Po nalezen´ı opravy se takto vyjmutá interpunkce vkládá zpˇet na pozoro- vané m´ısto, ˇc´ımˇz je zachována vˇetná integrita p˚uvodn´ıho textu.

Dále bylo zjiˇstˇeno, ˇze systém je citlivý na hodnoty N a M . ˇC´ım vˇetˇs´ı je hodnota N , t´ım v´ıce kandidát˚u je zvoleno k porovnán´ı s chybným ˇretˇezcem. To zajiˇst’uje vyˇsˇs´ı pravdˇepodobnost, ˇze mezi kandidáty k opravˇe bude i hledaný správný ˇretˇezec. Porovnáván´ı dvou ˇretˇezc˚u je vˇsak výpoˇcetnˇe velmi nároˇcná operace a tedy ˇc´ım vyˇsˇs´ı je hodnota N , t´ım déle trvá vypoˇc´ıtat vˇsem kandidát˚um základn´ı skóre. Tong s Evansem brali v potaz pouze 10 nejpodobnˇejˇs´ıch kandidát˚u, nicménˇe jejich slovn´ık byl pˇribliˇznˇe 6x menˇs´ı a operace z´ıskán´ı podobných ˇretˇezc˚u jim vracela v ˇrádu stovek záznam˚u. V mém pˇr´ıpadˇe vrac´ı porovnán´ı se slovn´ıkem obvykle mezi 1 000 a 60 000 ˇretˇezci. V tom hraje, kromˇe samotné velikosti slovn´ıku, velkou roli ˇceský jazyk,

(29)

který k vˇetˇsinˇe základn´ıch slov pˇridává r˚uzné tvary v závislosti na pádu, ˇcasu, rodu, vzoru a ˇc´ıslu. Orientaˇcnˇe plat´ı, ˇze desetinásobné N zp˚usob´ı desetinásobný ˇcas potˇrebný k opravˇe korpusu. Pro fináln´ı systém byla urˇcena hodnota N = 1000.

K vlastnostem ˇceského jazyka se vztahuje i ˇcást délkového porovnán´ı ˇretˇezc˚u. Spousta ˇ

retˇezc˚u je OCR procesem rozpozn´ana tak, ˇze se stanou podˇretˇezcem jin´eho ˇretˇezce. Napˇr´ıklad ˇ

retˇezec

”roku“ byl OCR rozpozn´an jako

”reku“. Systém bez porovnán´ı délky ˇretˇezc˚u vyhodno- til jako správnou opravu ˇretˇezec

”rekordu“, patrnˇe d´ıky ˇcasto vidˇen´emu spoleˇcn´emu kontextu.

Po aplikaci vzorce pro sn´ıˇzen´ı skóre pˇri rozd´ılné délce byl tento problém zm´ırnˇen, nikoliv vˇsak eradikován.

C´ıslo M , tedy hodnota urˇˇ cuj´ıc´ı kolikrát mus´ı být skóre nejlepˇs´ıho kandidáta vyˇsˇs´ı neˇz skóre druhého nejlepˇs´ıho kandidáta, ovlivˇnuje poˇcet a kvalitu oprav. Tong s Evansem volili k opravˇe vˇzdy kandidáta s nejlepˇs´ım skóre. To si mohli dovolit, nebot’ jejich systém opravoval i slovné chyby a tedy kaˇzdá chyba, kterou jejich systém do textu zanesl, mohla být v následuj´ıc´ı iteraci opravena. Takovou moˇznost m˚uj systém nenab´ız´ı, mus´ı být tedy zvolena dostateˇcnˇe pˇr´ısná podm´ınka pro pˇrijet´ı ˇretˇezce k opravˇe. ˇC´ım vyˇsˇs´ı je hodnota M , t´ım jistˇejˇs´ı oprava mus´ı být, aby mohla být pˇrijata. Samozˇrejmˇe vyˇsˇs´ı hodnota M má negativn´ı vliv na poˇcet vytvoˇrených oprav. Pˇri testován´ı bylo zjiˇstˇeno, ˇze extrémn´ı hodnoty jsou neoptimáln´ı. Pˇri M = 1 bylo opraveno nejv´ıce chyb, ale s velmi n´ızkou kvalitou. Obdobnˇe u M = 1 x 10¹² a v´ıce bylo opraveno velmi málo ˇretˇezc˚u, zat´ımco kvalita oprav se jiˇz pˇr´ıliˇs nezvyˇsovala, viz Tabulka 6.

Dalˇs´ı zvyˇsován´ı hodnoty M jiˇz nezvyˇsuje kvalitu oprav, coˇz poukazuje na fakt, ˇze k dalˇs´ımu zvýˇsen´ı kvantity a kvality oprav by bylo potˇreba zvyˇsovat hodnotu N . Základn´ı hodnota byla zvolena jako M = 1 x 10⁹.

Tabulka 6: Kvantita a kvalita oprav pˇri r˚uzných hodnotách M M Poˇcet oprav Redukce chyb Minimáln´ı

spolehlivost

Maxim´aln´ı spolehlivost

1 57773 31,380 % 45,6 % 60,6 %

1000 32029 17,397 % 61,6 % 75,6 %

1 x 10⁶ 21186 11,507 % 72,0 % 83,0 %

1 x 10⁹ 14954 8,122 % 75,6 % 83,0 %

1 x 10¹² 10858 5,898 % 77,0 % 85,0 %

Zaj´ımavou promˇennou je α, tedy umˇelá pravdˇepodobnost, ˇze OCR rozpoznalo daný znak správnˇe. Zat´ımco systém Tonga a Evanse byl na tuto hodnotu vysoce citlivý, obvzláˇstˇe pˇri opravován´ı slovných chyb, zde implementovaný systém pˇri zmˇenˇe základn´ıho α reaguje mi- nimálnˇe. D˚uvod je pravdˇepodobnˇe ten, ˇze od hodnoty α se odvozuje distribuce pravˇepodobnos- ti pro liˇs´ıc´ı se znaky podle rovnice (1 − α)/H, kde H je poˇcet tisknutelných znak˚u. Vˇsechny

(30)

3 POSTUP PR ´ACE

textové dokumenty jsou kódovány pomoc´ı znakové sady Windows-1250, která obsahuje 256 znak˚u vˇcetnˇe kontroln´ıch a nevyuˇzitých. Pˇri vysokých poˇctech ˇretˇezc˚u zahrnutých ve statistice znakových zámˇen se vˇsak stává, ˇze neznámá zámˇena, pro kterou je z´ıskána defaultn´ı pravdˇepodobnost pomoc´ı výˇse zm´ınˇené rovnice, má daleko vyˇsˇs´ı pravdˇepodobnost, neˇz zámˇena známá. To je nutno kompenzovat pomoc´ı zmˇeny distribuce pravdˇepodobnosti u neznámých zámˇen, podobnˇe jako u neznámých n-gram˚u v jazykovém modelu. Systém tedy na zaˇcátku hlavn´ıho bloku pˇrepoˇc´ıtává tuto umˇelou pravdˇepodobnost na základˇe známých statistik zna- kových zámˇen. Základn´ı nastaven´ı je α = 0, 99.

Promˇenná K urˇcuje poˇcet iterac´ı nad seznamem chyb. Poˇcet opravených chyb a kvalita oprav na testovaném korpusu v závislosti na iteraci je v tabulce 7:

Tabulka 7: Redukce chyb v z´avislosti na poˇctu iterac´ı Chyb

Iterace Opraveno Zb´yv´a Redukce chyb

1. 35288 250357 12,354 %

2. 39491 246154 13,825 %

3. 40556 245089 14,198 %

4. 40718 244927 14,255 %

5. 40773 244872 14,274 %

Tento výsledek reflektuje poznatky Tonga a Evanse, tedy pˇr´ınosné je vyuˇz´ıvat dohromady tˇr´ı iterac´ı. Dalˇs´ı iterace nepˇrináˇsej´ı dostateˇcnˇe pozitivn´ı efekt. Defaultn´ı nastaven´ı je K = 3.

Vˇsechny tyto parametry lze pˇri startu n´astroje libovolnˇe nastavit.

3.3.3 V´ysledky

Tato ˇcást se zabývá kvantitou, kvalitou a rychlost´ı proveden´ı oprav na databázi den´ıku Rudé Právo. Vˇsechny opravy byly uskuteˇcnˇeny se základn´ım nastaven´ım systému.

Poˇcet opravených ˇretˇezc˚u vzhledem k poˇctu statisticky významných chyb a celkovému korpusu je vidˇet v tabulce 8.

(31)

Tabulka 8: Výsledky prvn´ıho systému: Kvantita Roky Chyb celkem Vybraných

chyb

Opraven´ych chyb

Redukce chyb

Redukce chyb celkem

45-49 988195 184109 12229 6,642 % 1,238 %

50-54 1028666 212698 18924 8,897 % 1,840 %

55-59 1325160 285645 21560 7,548 % 1,627 %

60-64 1839303 537888 39587 7,360 % 2,152 %

65-69 1835774 503080 29043 5,773 % 1,582 %

70-74 1505466 388744 24712 6,357 % 1,641 %

75-79 1724281 448978 34225 7,623 % 1,985 %

80-83 1283881 293653 18694 6,366 % 1,456 %

Celkem 11530726 2854795 198974 6,970 % 1,726 %

Systém dosahuje 6,97% redukce pˇredloˇzených chyb a 1,73% redukce chyb celkových.

Pro úˇcel posouzen´ı kvality byla ruˇcnˇe evaluována ˇcást automaticky vytvoˇrených oprav pro kaˇzdý pˇetiletý blok. Výsledky zhodnocen´ı jsou k vidˇen´ı v tabulce 9.

Tabulka 9: Výsledky prvn´ıho systému: Kvalita Roky Opravených

chyb

Poˇcet ANO

Poˇcet NEV´IM

Poˇcet NE

Minim´aln´ı spolehlivost oprav

Maxim´aln´ı spolehlivost oprav

45-49 12229 370 32 98 74,0 % 80,4 %

50-54 18924 370 48 82 74,0 % 83,6 %

55-59 21560 375 42 83 75,0 % 83,4 %

60-64 39587 415 35 50 83,0 % 90,0 %

65-69 29043 405 27 68 81,0 % 86,4 %

70-74 24712 353 47 100 70,6 % 80,0 %

75-79 34225 363 55 82 72,6 % 83,6 %

80-83 18694 328 52 120 65,6 % 76,0 %

Celkem 198974 2979 338 683 74,475 % 82,925 %

Pˇri urˇcován´ı spolehlivosti systému hraje velkou roli schopnost ˇclovˇeka rozeznat správnˇe a ˇspatnˇe vytvoˇrené opravy. Opravy byly rozdˇeleny do tˇr´ı kategori´ı – správné, ˇspatné a

”nev´ım“.

Posuzuj´ıc´ı ˇclovˇek oznaˇcil za správné nebo ˇspatné pouze ty opravy, kterými si byl absolutnˇe jist. Opravy, u kterých si jist nebyl, napˇr. jména nebo slovn´ı spojen´ı, k jejichˇz posouzen´ı je potˇreba v´ıce kontextu, byly oznaˇceny jako

”nev´ım“. Pro úˇcely výpoˇctu spolehlivosti systému byl zvolen striktn´ı pˇr´ıstup – vˇsechny opravy oznaˇcené jako

”nev´ım“ jsou povaˇzovány za ˇspatnˇe vytvoˇrené. T´ım vzniká don´ı hranice spolehlivosti systému. Pro úplnost je uvedena i horn´ı hranice spolehlivosti systému, pˇri které jsou vˇsechna

”nev´ım“ brána jako správnˇe vytvoˇrené

(32)

3 POSTUP PR ´ACE

opravy. Reálná spolehlivost systému je patrnˇe nˇekde mezi minimáln´ı a maximáln´ı spolehlivost´ı, pro úˇcely posuzován´ı kvality je vˇzdy brána v potaz hodnota minimáln´ı spolehlivosti systému.

Jak je vidˇet, systém dosahuje pr˚umˇernˇe 74,475% spolehlivosti a maximálnˇe aˇz 83% spolehlivosti pˇri vytváˇren´ı oprav.

Posledn´ım testovaným faktorem je rychlost provádˇen´ı automatických oprav. Ta se pˇri iteraci nad korpusem chyb mˇen´ı, nebot’ seznam chyb je seˇrazen sestupnˇe dle poˇctu výskyt˚u.

Chybnˇe rozpoznané ˇretˇezce na vrcholu seznamu maj´ı obvykle velké mnoˇzstv´ı r˚uzného kontextu a tedy velké mnoˇzstv´ı unikátn´ıch n-gram˚u. U prvn´ıch ˇretˇezc˚u je ˇcastˇeji provádˇena ˇcasovˇe ménˇe nároˇcná operace porovnáván´ı kontextu. Ke konci seznamu se vˇsak stále ˇcastˇeji provád´ı ˇcasovˇe nároˇcná operace výpoˇctu základn´ıho skóre a rychlost provádˇen´ı oprav tedy ke konci korpusu chyb klesá. Pr˚umˇerná doba bˇehu systému a rychlost opravován´ı vzhledem k poˇctu chyb jednotlivých blok˚u je k vidˇen´ı v tabulce 10.

Tabulka 10: Výsledky prvn´ıho systému: Doba bˇehu (v minutách) Doba bˇehu

Roky Vybran´ych

chyb 1. iterace 2. iterace 3. iterace Celkem Chyb za sekundu 45-49 184109 15,5739 15,5943 17,0125 48,1807 63,68698116 50-54 212698 23,0564 24,4328 24,5708 72,0600 49,19465260 55-59 285645 24,4296 26,0351 26,2210 76,6857 62,08132677 60-64 537888 40,1162 42,6092 42,7283 125,4537 71,45903230 65-69 503080 36,7256 38,9659 39,0656 114,7571 73,06446979 70-74 388744 27,7924 29,5759 29,6542 87,0225 74,45277562 75-79 448978 36,6330 38,6613 38,2263 113,5206 65,91725790 80-83 293653 24,7218 26,3832 26,3640 77,4690 63,17645338 Celkem 2854795 229,0489 242,2577 243,8427 715,1493 66,53144549 Celkem

v ho-

din´ach

3,8175 4,0376 4,0640 11,9192

Systém dokázal otestovat vˇsech 2 854 795 chybných ˇretˇezc˚u za 11,92 hodin. Pr˚umˇerná rychlost opravován´ı byla 66,53 chyb za sekundu.

(33)

3.4 Vývoj nástroj˚u pro automatické opravy – Druhý systém

Ke zlepˇsen´ı kvality oprav prvn´ıho algoritmu by bylo zapotˇreb´ı porovnávat v´ıce kandidát˚u, coˇz by zp˚usobilo vysoké ˇcasové nároky. K dosaˇzen´ı lepˇs´ıho pomˇeru kvantita:kvalita:rychlost byla navrˇzena a implementována vlastn´ı varianta algoritmu pro automatické opravy.

3.4.1 Architektura

Systém je imlementován dle obrázku 5:

Obrázek 5: Vývojový diagram: Druhý algoritmus pro automatické opravy

Oproti prvn´ımu algoritmu jsou implementovány tˇri hlavn´ı zmˇeny: jiný systém skórován´ı, vynechán´ı statistik znakových zámˇen a testován´ı vˇsech ˇretˇezc˚u z´ıskaných ze slovn´ıku.

(34)

3 POSTUP PR ´ACE

Prvn´ı algoritmus vyuˇz´ıvá multiplikativn´ıho skórovac´ıho systému pˇri výpoˇctu pravdˇepodob- nosti. V zásadˇe tedy maj´ı na zaˇcátku vˇsichni kandidáti stejné skóre, které je v kaˇzdém kroku sniˇzováno. Kandidát, kterému zbude nejvyˇsˇs´ı skóre, má nejvyˇsˇs´ı pravdˇepodobnost být souˇcást´ı opravy. Tento algoritmus vyuˇz´ıvá opaˇcného, aditivn´ıho pˇr´ıstupu.

Pro kaˇzdý unikátn´ı chybnˇe rozpoznaný ˇretˇezec je z´ıskán seznam podobných ˇretˇezc˚u ze slovn´ıku pomoc´ı vektorového prostoru. Za kandidáty k opravˇe jsou povaˇzovány vˇsechny takto z´ıskané ˇretˇezce. Základn´ı skóre je jim vypoˇc´ıtáno jako souˇcet poˇctu spoleˇcných znakových n-gram˚u, upravený na základˇe délkové podobnosti – ˇc´ım v´ıce jsou si ˇretˇezce délkovˇe podobné, t´ım vˇetˇs´ı skóre jim je pˇriˇrazeno. List kandidát˚u je následnˇe seˇrazen sestupnˇe dle skóre. Tento list je pro kaˇzdý unikátn´ı chybný ˇretˇezec vygenerován pouze jednou a vytvoˇrená tabulka základn´ıch ohodnocen´ı se jiˇz nemˇen´ı.

Dále systém postupuje podobnˇe jako u prvn´ıho algoritmu pˇri porovnáván´ı kontextu s malý- mi zmˇenami úpravy skóre, popsanými v kapitole 2.3. Pro kaˇzdý unikátn´ı chybný n-gram (tj.

chybný ˇretˇezec a jeho bezprostˇredn´ı kontext) je vypoˇc´ıtáno skóre vˇsech relevantn´ıch kan- didát˚u. Skóre kandidát˚u, jenˇz v tomto kontextu nebyli pozorováni, se nemˇen´ı.

Výbˇer kandidáta k opravˇe je vyˇreˇsen stejnˇe jako u prvn´ıho systému, tedy list kandidát˚u je seˇrazen sestupnˇe dle skóre a kandidát s nejvyˇsˇs´ım skóre je porovnán s druhým v ˇradˇe. Pokud je skóre prvn´ıho kandidáta M -krát vyˇsˇs´ı neˇz skóre druhého kandidáta, je zvolen za správnou opravu a je pro nˇej vygenerován záznam do seznamu oprav.

3.4.2 Testov´an´ı

Pˇri testován´ı bylo zjiˇstˇeno, ˇze tento systém dokáˇze spolehlivˇe opravovat chybnˇe rozpoznané ˇ

retˇezce jiˇz od délky dvou znak˚u. To systému umoˇzˇnuje pokusit se opravit zpravidla dvˇe tˇretiny vˇsech chyb vyskytuj´ıc´ıch se v reálném datovém korpusu. Taktéˇz je systém vˇetˇsinou schopen oprav vlastn´ıch jmen a nen´ı u nˇej tedy nutno takové opravy oddˇelovat.

Z d˚uvod˚u popsaných v kapitole 3.3.2 je i zde potlaˇcena informace o velikosti znak˚u. Stejným pˇr´ıstupem je ˇreˇsen i problém interpunkce.

Výpoˇctem základn´ıho skóre pomoc´ı vektorového prostoru z´ıskal systém moˇznost vypuˇstˇen´ı výpoˇcetnˇe nároˇcné operace porovnáván´ı ˇretˇezc˚u. T´ım také systém z´ıskal moˇznost ohodnotit vˇsechny podobné ˇretˇezce z´ıskané ze slovn´ıku, coˇz maximalizuje pravdˇepodobnost nalezen´ı správné opravy. Toto rozhodnut´ı má negativn´ı dopad na rychlost oprav, nebot’ pro kaˇzdý unikátn´ı ˇretˇezec je nutno vypoˇc´ıtat skóre ˇrádovˇe des´ıtek tis´ıc záznam˚u. D´ıky architektuˇre systému je vˇsak tento fakt kompenzován ˇradou efektivn´ıch zrychlen´ı. Systém se napˇr´ıklad nemus´ı uˇcit vlastnosti OCR prostˇred´ı kv˚uli statistice znakových zámˇen, nen´ı tedy ˇzádný d˚uvod

(35)

iterovat nad korpusem chyb v´ıce neˇz jednou. Ke zvýˇsen´ı rychlosti systému také pˇrisp´ıvá zp˚usob ˇ

reˇsen´ı úpravy skóre v závislosti na kontextu. Upravuje se pouze skóre tˇech kandidát˚u, jenˇz byli v daném kontextu dˇr´ıve pozorováni. Tˇech jsou ˇrádovˇe des´ıtky aˇz stovky, coˇz umoˇzˇnuje zapisovat upravené (zvýˇsené) skóre do nezávislé datové struktury. To je ve výsledku rychlejˇs´ı neˇz kop´ırován´ı celého seznamu kandidát˚u pro kaˇzdý unikátn´ı n-gram.

Hodnota M , tedy hodnota urˇcuj´ıc´ı kolikrát mus´ı být skóre nejlepˇs´ıho kandidáta vyˇsˇs´ı neˇz skóre druhého nejlepˇs´ıho kandidáta, je pro tento systém stejnˇe d˚uleˇzitá jako pro systém prvn´ı.

Pˇr´ıliˇs n´ızké M (M = 1) zp˚usobuje, ˇze je opraveno v´ıce chyb s n´ızkou kvalitou. Pˇr´ıliˇs vysoké M (M = 10 a v´ıce) zp˚usobuje opak, tedy malé mnoˇzstv´ı opravených ˇretˇezc˚u pˇri minimáln´ım zvýˇsen´ı kvality. Kvalitativn´ı

”strop“ je vˇsak u tohoto systému výˇse neˇz u systému prvn´ıho, jak ukazuj´ı výsledky v kapitole 3.4.3. Defaultnˇe je hodnota M nastavena jako M = 2. Tuto hodnotu lze samozˇrejmˇe pˇri startu nástroje libovolnˇe nastavit.

3.4.3 V´ysledky

Stejnˇe jako u prvn´ıho algoritmu se tato ˇcást zabývá kvantitou, kvalitou a rychlost´ı proveden´ı oprav na databázi den´ıku Rudé Právo. Sestaven´ı výsledk˚u prob´ıhalo stejným zp˚usobem jako u prvn´ıho systému v kapitole 3.3.3.

Poˇcet opravených ˇretˇezc˚u vzhledem k poˇctu statisticky významných chyb a celkovému korpusu je vidˇet v tabulce 11.

Tabulka 11: Výsledky druhého systému: Kvantita Roky Chyb celkem Vybraných

chyb

Opraven´ych chyb

Redukce chyb

Redukce chyb celkem

45-49 988195 184109 11401 6,193 % 1,154 %

50-54 1028666 212698 12237 5,753 % 1,190 %

55-59 1325160 285645 16710 5,850 % 1,261 %

60-64 1839303 537888 34044 6,329 % 1,851 %

65-69 1835774 503080 25450 5,059 % 1,386 %

70-74 1505466 388744 21199 5,453 % 1,408 %

75-79 1724281 448978 26127 5,819 % 1,515 %

80-83 1283881 293653 15507 5,281 % 1,208 %

Celkem 11530726 2854795 162675 5,698 % 1,411 %

Systém dosahuje 5,7% redukce pˇredloˇzených chyb a 1,4% redukce chyb celkových.

V´ysledky zhodnocen´ı kvality jsou k vidˇen´ı v tabulce 12.

(36)

3 POSTUP PR ´ACE

Tabulka 12: Výsledky druhého systému: Kvalita Roky Opravených

chyb

Poˇcet ANO

Poˇcet NEV´IM

Poˇcet NE

Minim´aln´ı spolehlivost oprav

Maxim´aln´ı spolehlivost oprav

45-49 11401 433 40 27 86,6 % 94,6 %

50-54 12237 426 42 32 85,2 % 93,6 %

55-59 16710 435 45 20 87,0 % 96,0 %

60-64 34044 460 25 15 92,0 % 97,0 %

65-69 25450 436 32 32 87,2 % 93,6 %

70-74 21199 435 25 40 87,0 % 92,0 %

75-79 26127 430 35 35 86,0 % 93,0 %

80-83 15507 441 37 22 88,2 % 95,6 %

Celkem 162675 3496 281 223 87,4 % 94,425 %

Jak je vidˇet, systém dosahuje pr˚umˇernˇe 87,4% spolehlivosti a maximálnˇe aˇz 92% spolehlivosti pˇri vytváˇren´ı oprav.

Pr˚umˇerná rychlost opravován´ı vzhledem k poˇctu chyb jednotlivých blok˚u je k vidˇen´ı v tabulce 13.

Tabulka 13: Výsledky druhého systému: Doba bˇehu (v hodinách) Roky Vybraných

chyb Doba bˇehu Chyb za sekundu

45-49 184109 2,3528 21,74

50-54 212698 3,2738 18,05

55-59 285645 3,8943 20,37

60-64 537888 7,0738 21,12

65-69 503080 7,0861 19,72

70-74 388744 5,1768 20,86

75-79 448978 6,6548 18,74

80-83 293653 3,7348 21,84

Celkem 2854795 39,2472 20,21

Systém dokázal otestovat vˇsech 2 854 795 chybných ˇretˇezc˚u za 39,25 hodin. Pr˚umˇerná rychlost opravován´ı byla 20,2 chyb za sekundu.

Srovnán´ım výsledk˚u obou systém˚u se zabývá kapitola 4.

(37)

3.5 Distribuce oprav do textu

Posledn´ı zbývaj´ıc´ı ˇcást´ı je distribuce vytvoˇrených oprav zpˇet do textových soubor˚u. K tomuto úˇcelu byl implementován algoritmus dle Obrázek 6:

Obrázek 6: Vývojový diagram: Distribuce oprav do textu

Vnitˇrn´ı implementace je velice podobná nástroji pro analýzu. Kaˇzdý textový soubor ve zvoleném úseku databáze je pˇreˇcten a jeho obsah rozdˇelen na sekvenci ˇretˇezc˚u podle mezer.

Tato sekvence je nejprve zkop´ırována do nové promˇenné. Algoritmus pak procház´ı p˚uvodn´ı sekvenci po n-gramech se zamˇeˇren´ım na prostˇredn´ı ˇretˇezec. Pokud se testovaný n-gram vyskytuje v databázi oprav, prostˇredn´ı ˇretˇezec na stejné pozici v nové sekvenci je nahrazen ˇ

retˇezcem urˇcen´ym danou konkr´etn´ı opravou.

Tato metoda pˇrepisován´ı textu zajiˇst’uje, ˇze jedna provedená oprava neznemoˇzn´ı jiné opravˇe jej´ı vyuˇzit´ı kv˚uli pˇrepsán´ı kontextu.

#BLBMÈǲTLÈ QSÈDF

)*4503*$,Å$) 5&95ƾ 4 7:6Ç*5¶.

13"7%Ɠ10%0#/045/¶$) .0%&-ƾ