Technick´a univerzita v Liberci

(1)

Fakulta mechatroniky a mezioborov´ ych inˇ zen´ yrsk´ ych studi´ı

Studijn´ı program:

Studijn´ı obor:

N 2612 – Elektrotechnika a informatika 1802T007 – Informaˇ cn´ı technologie

Oprava pˇ reklep˚ u dotaz˚ u zad´ avan´ ych do vyhled´ avaˇ ce

Spell correction of web search queries

Diplomov´ a pr´ ace

Autor: Bc. Stanislav Nowak

Vedouc´ı diplomov´ e pr´ ace: Mgr. Jiˇr´ı Vran´ y Konzultant: Ing. Radim ˇ Skrob

V Liberci dne 16. 5. 2008

(2)

2

(3)

Byl jsem seznámen(a) s t´ım, ˇze na mou diplomovou práci se plnˇe vztahuje zákon ˇ

c. 121/2000 o právu autorském, zejména § 60 (ˇskoln´ı d´ılo).

Beru na vˇedom´ı, ˇze TUL má právo na uzavˇren´ı licenˇcn´ı smlouvy o uˇzit´ı mé di- plomové práce a prohlaˇsuji, ˇze souhlas´ım s pˇr´ıpadným uˇzit´ım mé diplomové práce (prodej, zap˚ujˇcen´ı apod.).

Jsem si vˇedom(a) toho, ˇze uˇz´ıt své diplomové práce ˇci poskytnout licenci k jej´ımu vyuˇzit´ı mohu jen se souhlasem TUL, která má právo ode mnˇe poˇzadovat pˇrimˇeˇrený pˇr´ıspˇevek na úhradu náklad˚u, vynaloˇzených univerzitou na vytvoˇren´ı d´ıla (aˇz do jej´ı skuteˇcné výˇse).

Diplomovou práci jsem vypracoval(a) samostatnˇe s pouˇzit´ım uvedené literatury a na základe konzultac´ı s vedouc´ım bakaláˇrské práce a konzultantem.

Datum

Podpis

3

(4)

Na tomto m´ıstˇe bych chtˇel podˇekovat zejména vedouc´ımu své práce Mgr. Jiˇr´ımu Vranému.

Rovnˇeˇz bych rád podˇekoval i Ing. ˇStˇepánu ˇSrobovi a Mgr. Radimu ˇReh˚urkovi ze spoleˇcnosti Seznam.cz za poskytnuté podklady, bez kterých by diplomová práce ne- mohla vzniknout.

4

(5)

C´ılem práce bylo vytvoˇrit korektor pˇreklep˚u uˇzivatelských dotaz˚u zadávaných do in- ternetového vyhledávaˇce. Korektory pˇreklep˚u v dotazech se vyuˇz´ıvaj´ı pˇredevˇs´ım pro zvýˇsen´ı uˇzivatelského komfortu pˇri pouˇz´ıván´ı vyhledávaˇce. Za svou souˇcasnou popu- laritu vdˇeˇc´ı pˇredevˇs´ım vyhledávaˇci spoleˇcnosti Google. Dnes jiˇz patˇr´ı korektor dotaz˚u mezi standardn´ı funkce a setkáme se s n´ım i na vˇetˇsinˇe ˇceských vyhledávaˇc˚u.

Korektor pˇreklep˚u pro vyhledávaˇc se od tˇech, které známe napˇr´ıklad z textových procesor˚u, liˇs´ı v nˇekolika ohledech. Pˇredevˇs´ım jsou na nˇej kladeny podstatnˇe vyˇsˇs´ı výkonnostn´ı nároky a rovnˇeˇz se mus´ı umˇet vypoˇrádat se specifickým druhem jazyka dotaz˚u zadávaných do vyhledávaˇce. Diplomová práce stav´ı na poznatc´ıch statistické lingvistiky a byla ˇreˇsena na základˇe bayesovského pˇr´ıstupu. Korektor se tak rozdˇelil na dvˇe samostatné ˇcásti, a to jazykový a chybový model. Pro jazykové modelován´ı byl vyuˇzit stochastický n-gramový model. Chybový model je zaloˇzen na principu minimáln´ı editaˇcn´ı vzdálenosti a nejpravdˇepodobnˇejˇs´ıho zarovnán´ı ˇretˇezc˚u.

K trénovan´ı obou model˚u byla pouˇzita data sestavená ze záznam˚u uˇzivatelských dotaz˚u zadávaných do vyhledávaˇce spoleˇcnosti Seznam.cz. Pˇri testován´ı dosáhl imple- mentovaný korektor uspokojivých výsledk˚u, pˇresto vˇsak z˚ustává prostor pro mnohá vylepˇsen´ı.

Kl´ıˇcová slova: oprava pˇreklep˚u, statistická lingvistika, zpracován´ı pˇrirozeného jazyka, vyhledávaˇc

5

(6)

The goal of this diploma thesis was to develop a spelling correction program of web search queries. The spelling correction of search queries is used to provide a richer user experience. Its current popularity was gained thanks to Google search engine.

Nowadays the spelling correction became a standard feature of many search engines and we can see it at Czech search engines too.

Search query correction differs from ones that we use for example in text processor in several ways. It must be able to deal with high performance requirements and also with a specific type of language of web search queries.

The diploma thesis is based on computational linguistics and Bayesian approach. By using Bayesian method we get two separated components: language and error model.

For the language model we use stochastic n-gram based model. The error model is based on minimal string distance and maximum probability alignment.

For training of both models were used data build from search queries logs of Se- znam.cz search engine. Testing shows satisfactory results however there are still several improvements that can be made.

Keywords: spell correction, computational linguistics, NLP, search engine

6

(7)

2 Lingvistika

... 11

2.1 Matematick´a lingvistika ... 11

2.1.1 Kvantitativn´ı (statistick´a) lingvistika... 11

2.1.2 Algebraick´a lingvistika... 12

2.1.3 Poˇc´ıtaˇcov´a (strojov´a) lingvistika... 12

3 Teoretick´ y rozbor

... 13

3.1 Pˇrehled statistick´ych pojm˚u ... 13

3.2 Bayesovsk´y pˇr´ıstup k opravˇe pˇreklep˚u ... 14

3.3 Jazykov´y model ... 15

3.3.1 n-gramov´e modely ... 16

3.3.2 Unigramov´y model ... 17

3.3.3 Bigramov´y model... 17

3.3.4 Pˇr´ıprava, vlastnosti a vady jazykov´eho modelu... 18

3.3.5 Vyhlazov´an´ı ... 18

3.3.6 Kvalita jazykov´eho modelu... 21

3.3.7 Jazykov´e modelov´an´ı ˇceˇstiny... 22

3.3.8 Jazykové modelován´ı pro vyhledávaˇc ... 23

3.4 Chybov´y model ... 24

3.4.1 Klasifikace chyb... 25

3.4.2 Pˇr´ıstup na z´akladˇe editaˇcn´ı vzd´alenosti... 25

3.4.3 Pˇr´ıstup na z´akladˇe fonetick´e podobnosti ... 31

3.4.4 Dalˇs´ı pˇr´ıstupy ... 32

3.5 Algoritmus korekce ... 33

3.5.1 Zpracov´an´ı dotazu... 33

3.5.2 Vytvoˇren´ı seznamu kandid´at˚u ... 34

3.5.3 Ohodnocen´ı kandid´at˚u dle chybov´eho modelu ... 34

3.5.4 Ohodnocen´ı kandid´at˚u dle jazykov´eho modelu ... 34

3.5.5 V´ybˇer nejvhodnˇejˇs´ıho kandid´ata... 35

3.5.6 Pˇr´ıklad ... 35

3.6 Dalˇs´ı algoritmy ... 36

3.6.1 Ispell... 36

3.6.2 GNU Aspell... 36

(8)

3.6.3 Myspell... 37

3.6.4 Hunspell... 37

4 Implementace

... 38

4.1 Python... 38

4.1.1 Z´akladn´ı rysy jazyka... 38

4.1.2 Technick´e rysy jazyka ... 40

4.2 Programov´e vybaven´ı... 42

4.3 Bal´ıˇcek spell-correction ... 42

4.3.1 language model... 42

4.3.2 error model... 45

4.3.3 error analysis... 46

4.3.4 edit distance... 48

4.3.5 utils... 48

4.3.6 corrector... 49

4.4 Skripty ... 50

4.5 Pˇr´ıprava jazykov´eho modelu ... 50

4.6 Pˇr´ıprava chybov´eho modelu ... 51

4.7 Pˇr´ıprava test˚u korekce ... 51

4.8 Demonstraˇcn´ı skript ... 51

5 Testov´ an´ı

... 52

5.1 Vstupn´ı data jazykov´eho modelu ... 52

5.2 Vstupn´ı data chybov´eho modelu ... 52

5.3 Testy ... 53

5.3.1 Test izolovan´ych slov ... 54

5.3.2 Test bˇeˇzn´ych dotaz˚u... 55

5.3.3 Test konzervativnosti... 55

6 Z´ avˇ er

... 57

SEZNAM POUˇ ZIT´ E LITERATURY

... 59

(9)

1 Uvod ´

Pˇrestoˇze výzkumné práce v oblasti automatických oprav textu zapoˇcaly jiˇz zaˇcátkem 60. let dvacátého stolet´ı, dodnes je toto téma ˇzivé a vˇenuje se mu velké úsil´ı a pozornost.

Bylo dosaˇzeno d´ılˇc´ıch úspˇech˚u a v souˇcasnosti máme k dispozici nˇekolik velmi kva- litn´ıch akademických i komerˇcn´ıch korektor˚u. Stále vˇsak z˚ustává prostor pro zlepˇsen´ı, zejména v oblasti úspˇeˇsnosti oprav a schopnosti vypoˇrádat se s obecným tématem.

D˚uleˇzitou hnac´ı silou pro dalˇs´ı vývoj je i zvyˇsován´ı výkonu výpoˇcetn´ıch prostˇredk˚u.

Uˇz v ˇsedesátých letech byla známa ˇrada algoritm˚u, které nemohly být implementovány z d˚uvodu vysoké výpoˇcetn´ı nároˇcnosti a dostalo se na nˇe aˇz relativnˇe nedávno.

Kromˇe bˇeˇzných text˚u se objevuj´ı nové výzvy vyˇzaduj´ıc´ı specifický pˇr´ıstup. Tako- vou úlohou je i oprava pˇreklep˚u uˇzivatelských dotaz˚u zadávaných do internetového vy- hledávaˇce s vyuˇzit´ım kontextu. Na korektor dotaz˚u pro vyhledávaˇc jsou kladeny velké výkonnost´ı nároky a mus´ı úˇcinnˇe pracovat pod velkou zátˇeˇz´ı. S t´ımto poˇzadavkem se dnes dokáˇzeme relativnˇe snadno vypoˇrádat pouˇzit´ım optimalizovaných algoritm˚u, speciáln´ıch datových struktur nebo zvýˇsen´ım výkonu výpoˇcetn´ıch prostˇredk˚u.

Závaˇznˇejˇs´ım problémem z˚ustává jazyk dotaz˚u vkládaných do vyhledávaˇce. Jazy- ková struktura dotazu se zásadnˇe liˇs´ı od stavby bˇeˇzné ˇceské vˇety. Dotaz se v pr˚umˇeru skládá ze tˇr´ı slov, a je tedy o poznán´ı kratˇs´ı neˇz pr˚umˇerná ˇceská vˇeta. Mezi slovn´ımi druhy pˇrevaˇzuj´ı podstatná jména, pˇr´ıdavná jména a pˇr´ıslovce, zat´ımco poˇcet sloves je výraznˇe niˇzˇs´ı. Charakteristický je i velký výskyt cizojazyˇcných výraz˚u, pˇreváˇznˇe ang- lických. V zadávaných dotazech se ˇcasto objevuj´ı názvy obchodn´ıch znaˇcek a výrobk˚u, jejich modelových a typových ˇrad, nebo dokonce celé www adresy. Frekvence výskyt˚u pˇreklep˚u je rovnˇeˇz vyˇsˇs´ı neˇz v bˇeˇzném textu.

V historii automatických oprav se objevilo nˇekolik cest k ˇreˇsen´ı zadané úlohy. Jako nejúˇcinnˇejˇs´ı se ukázal pˇr´ıstup postavený na statistických metodách. V souˇcasnosti se s jinými postupy setkáme jen výjimeˇcnˇe. Pro tvorbu korektoru byl zvolen bayesovský pˇr´ıstup. Ten nám umoˇznil rozdˇelit úlohu na dvˇe samostatné ˇcásti, které mohou být trénovány a testovány nezávisle. Dvˇe zm´ınˇené ˇcásti jsou: jazykový a chybový model.

Jedn´ım z poˇzadavk˚u na korektor bylo, aby umˇel vyˇz´ıt kontextu okoln´ıch slov dotazu.

Toho jsme dosáhli pouˇzit´ım n−gramového modelu jako jazykového modelu.

Pro tvorbu chybového modelu byl zvolen princip zaloˇzený na minimáln´ı editaˇcn´ı vzdálenosti a nejpravdˇepodobnˇejˇs´ıho zarovnán´ı ˇretˇezc˚u. Pˇrednost´ı tohoto pˇr´ıstupu je, ˇ

ze pomoc´ı editaˇcn´ıch operac´ı pˇrirozen´ym zp˚usobem popisuje uˇzivatelsk´e pˇreklepy v dotazech.

(10)

Pˇri pˇr´ıpravˇe podklad˚u se nepodaˇrilo zajistit ˇzádný ˇceský zdroj zamˇeˇrený pˇr´ımo na opravu pˇreklep˚u. V ˇradˇe prac´ı byly popsány jen ˇcásteˇcné informace vyuˇzitelné pro tvorbu korektoru, napˇr´ıklad jazykové modelovan´ı. V kontrastu jsou anglické zdroje, ze kterých se podaˇrilo z´ıskat velké mnoˇzstv´ı pouˇzitelných podklad˚u a informac´ı. Z toho d˚uvodu se diplomová práce snaˇz´ı být uceleným ˇcesky psaným shrnut´ım v oblasti korekce pˇreklep˚u. V práci jsou proto nejdˇr´ıve podrobnˇe rozebrány obecné principy opravy pˇreklep˚u a na nˇe navazuje popis specifických ˇreˇsen´ı pro vyhledávaˇc.

Uloha korekce pˇreklep˚´ u spadá do oblasti statistické lingvistiky, proto je prvn´ı ka- pitola vˇenována právˇe lingvistice. Krátce si ji pop´ıˇseme, zamˇeˇr´ıme se pˇredevˇs´ım na matematickou lingvistiku a pˇredstav´ıme si jej´ı základn´ı discipl´ıny.

V druhé kapitole se seznám´ıme s teoretickým aparátem, na kterém je vybudován korektor pˇreklep˚u. Postupnˇe budeme procházet jednotlivé ˇcásti, podrobnˇe rozebereme jejich teoretické zázem´ı a nakonec vˇse spoj´ıme dohromady a z´ıskáme tak korekˇcn´ı algoritmus. V kapitole jsou zm´ınˇeny a krátce popsány i dalˇs´ı moˇzné pˇr´ıstupy k opravˇe pˇreklep˚u.

Souˇcást´ı zadán´ı práce bylo vytvoˇren´ı funkˇcn´ıho prototypu korektoru. Jeho implementace je popsána v praktické ˇcásti, která slouˇz´ı zároveˇn jako dokumentace k programu. Dále se zm´ın´ıme o pˇr´ıpravˇe a tvorbˇe jazykového a chybového modelu.

V pˇredposledn´ı kapitole ovˇeˇr´ıme kvalitu návrhu a implementace korektoru na roz- manitých úlohách. Zamˇeˇr´ıme se hlavnˇe na úspˇeˇsnost za pouˇzit´ı r˚uznˇe velkých jazy- kových model˚u a nastaven´ı úrovn´ı pˇresnosti chybového modelu.

Na závˇer shrneme a okomentujeme výsledky testován´ı. Rovnˇeˇz se zm´ın´ıme o moˇzných zlepˇsen´ıch a doporuˇc´ıme smˇer dalˇs´ıho vývoje.

(11)

2 Lingvistika

D˚uleˇzitým zdrojem poznatk˚u pouˇzitých v diplomové práci se stala právˇe lingvistika, proto se o n´ı krátce rozep´ıˇseme a zamˇeˇr´ıme se na matematickou lingvistiku. Informace pro tuto kapitolu byly ˇcerpány pˇredevˇs´ım z [1].

Lingvistika neboli jazykovˇeda (lingua je latinsky jazyk) je vˇeda o jazyc´ıch, jejich tˇr´ıdˇen´ı, stavbˇe a zvukové i psané podobˇe. Jako samostatná vˇeda vznikla zaˇcátkem 19. stolet´ı. Jej´ı zásadn´ı pr˚ulom nastal aˇz ve druhé polovinˇe 20. stolet´ı, kdy doˇslo ve vˇedˇe k výrazné zmˇenˇe a zaˇcal se klást velký d˚uraz na pomezn´ı discipl´ıny.

Jestliˇze se v dˇr´ıvˇejˇs´ıch obdob´ıch lingvisté zabývali bud’ systémem jazyka (struktu- ralismus), nebo nˇekterou z jeho ˇcást´ı (srovnávac´ı a historická gramatika), pak v druhé polovinˇe 20. stolet´ı pˇreváˇzil zájem o takové discipl´ıny, v nichˇz se s úspˇechem kombi- nuj´ı otázky lingvistiky s tématy a metodami, jako je matematika, logika, psychologie, neurologie, sociologie atd.

Vznikla tak ˇrada pomezn´ıch discipl´ın, které v souˇcasné lingvistice z´ıskaly domi- nantn´ı postaven´ı a dnes stoj´ı v samém centru jej´ıho zájmu. ˇRad´ıme do nich zejména matematickou lingvistiku, psycholingvistiku, sociolingvistiku a mnohé dalˇs´ı.

2.1 Matematick´ a lingvistika

Term´ınem matematická lingvistika se dnes oznaˇcuj´ı takové discipl´ıny, v nichˇz se pˇri výzkumu jazyka pouˇz´ıvaj´ı matematické metody. Protoˇze je aplikace matematických metod mnohostranná, rozliˇsuj´ı se v rámci matematické lingvistiky tˇri d´ılˇc´ı discipl´ıny – lingvistika kvantitativn´ı, algebraická a poˇc´ıtaˇcová. Prvn´ı dvˇe jsou pˇreváˇznˇe teoretické, tˇret´ı aplikuje jejich poznatky v praxi, zejména pˇri poˇc´ıtaˇcovém pˇrekladu.

2.1.1 Kvantitativn´ı (statistick´a) lingvistika

Kvantitativn´ı lingvistika popisuje jazyk pomoc´ı statistických metod. Tato discipl´ına má delˇs´ı tradici neˇz algebraická a poˇc´ıtaˇcová, protoˇze statistické metody se v lingvistice objevovaly uˇz od konce 19. stolet´ı. ˇRada lingvist˚u si vˇsimla, ˇze jednotlivé jazykové jevy (hlásky, p´ısmena, slabiky, gramatické kategorie, slovn´ı spojen´ı atd.) se vysky- tuj´ı s r˚uznou nerovnomˇernou frekvenc´ı. Znalosti frekvenc´ı jednotlivých jev˚u umoˇznily pouˇzit´ı teorie pravdˇepodobnosti k popisu jazyka.

Statistické metody dostaly v padesátých letech 20. stolet´ı nový impuls v podobˇe teorie komunikace a informace, které do lingvistiky zavedly takové pojmy, jako napˇr´ıklad

(12)

entropie, perplexita, redundance, bit a ˇsum.

Vˇetˇsina poznatk˚u a metod pouˇzitých v diplomové práci pocház´ı právˇe z této discipl´ıny.

2.1.2 Algebraick´a lingvistika

Algebraická lingvistika je název pro jazykové teorie op´ıraj´ıc´ı se o jiné matematické metody, neˇz jsou kvantitativn´ı. Pˇreváˇznˇe se jedná o metody algebraické a logické, které pˇristupuj´ı k jazyku jako k formáln´ımu modelu.

Reprezentativn´ım pˇr´ıkladem je transformaˇcn´ı a generativn´ı gramatika Noama Chomského, která pˇredstavuje jeden z nejpropracovanˇejˇs´ıch model˚u jazyka. S úspˇechem se aplikuje obzvláˇstˇe na jazyky s pevným slovosledem a chudou morfologi´ı, jako je an- gliˇctina.

2.1.3 Poˇc´ıtaˇcov´a (strojov´a) lingvistika

Neobyˇcejný rozvoj poˇc´ıtaˇc˚u v druhé polovinˇe 20. stolet´ı zp˚usobil znaˇcné zmˇeny v me- todách vˇedeckého výzkumu v nejr˚uznˇejˇs´ıch discipl´ınách, mezi jinými také v lingvistice.

Pro celou ˇradu operac´ı lingvistického charakteru, které se provádˇej´ı na poˇc´ıtaˇc´ıch, se pouˇz´ıvá souhrnný název – poˇc´ıtaˇcová lingvistika. Ta v praxi vyuˇz´ıvá poznatky kvantitativn´ı a algebraické lingvistiky a zpˇetnˇe ovlivˇnuje rozvoj obou discipl´ın.

Nejznámˇejˇs´ı ˇcinnost´ı strojové lingvistiky je strojový pˇreklad – jeho c´ılem je pˇrevést text výchoz´ıho jazyka na jazyk c´ılový. Kromˇe strojového pˇrekladu se poˇc´ıtaˇce v lingvistice s úspˇechem uplatˇnuj´ı i pˇri jiných ˇcinnostech, jako je napˇr. spektráln´ı analýza mluvené ˇreˇci, zpracován´ı frekvenˇcn´ıch seznam˚u, rozpoznán´ı psaného slova nebo oprava pˇreklep˚u.

Korpusov´a lingvistika

Jedná se o mladé odvˇetv´ı, v souˇcasnosti spadaj´ıc´ı do oboru poˇc´ıtaˇcové lingvistiky, jehoˇz rozvoj je spjat s pˇr´ıchodem poˇc´ıtaˇc˚u a informaˇcn´ıch technologi´ı. Tato discipl´ına zkoumá jazyk pomoc´ı elektronických jazykových korpus˚u a zabývá se i výstavbou tˇechto korpus˚u, jejich zpracován´ım a pˇr´ısluˇsnou metodologi´ı. V souˇcasnosti se korpusem rozum´ı rozsáhlý vnitˇrnˇe strukturovaný a ucelený soubor text˚u daného jazyka, elektronicky uloˇzený a zpracovávaný.

(13)

3 Teoretick´ y rozbor

V této kapitole se zamˇeˇr´ıme na teoretický aparát, který stoj´ı za opravou pˇreklep˚u.

Budeme se op´ırat pˇredevˇs´ım o statistické metody a hned v úvodu sjednot´ıme termino- logii. Uˇzit´ım bayesovského pˇr´ıstupu rozdˇel´ıme úlohu na dvˇe samostatné ˇcásti. Jazykový i chybový model d˚ukladnˇe pop´ıˇseme a uvedeme problémy spojené s jejich tvorbou. Na závˇer obˇe ˇcásti opˇet spoj´ıme a z´ıskáme korekˇcn´ı algoritmus. V krátkosti se budeme vˇenovat i dalˇs´ım rozˇs´ıˇreným korekˇcn´ım algoritm˚um a metodám.

3.1 Pˇ rehled statistick´ ych pojm˚ u

Kr´atk´y exkurs do statistiky slouˇz´ı pˇredevˇs´ım k sjednocen´ı terminologie a notace.

Deterministický dˇej pozorován´ı nebo pokus, který má v daných podm´ınkách jed- noznaˇcný výsledek

Stochastický (náhodný) dˇej pozorován´ı nebo pokus, který m˚uˇze v daných podm´ın- kách vést k r˚uzným výsledk˚um

Náhodný pokus stochastický dˇej, který je za týchˇz podm´ınek nekoneˇcnˇe opakova- telný

Náhodný jev A výsledek náhodného pokusu, o nˇemˇz lze jednoznaˇcnˇe ˇr´ıci, ˇze nastal, nebo nenastal

Statistická definice pravdˇepodobnosti Opakujme náhodný pokus N −krát, pˇriˇcemˇz pˇredpokládejme, ˇze výskyt náhodného jevu A pozorujeme v K pˇr´ıpadech. ˇC´ıslo K se nazývá ˇcetnost´ı jevu A. Pomˇer se pak oznaˇcuje jako pomˇerná ˇci relativn´ı ˇ

cetnost jevu A. Jestliˇze se s rostouc´ım N , tedy se zvyˇsován´ım poˇctu opakován´ı pokusu, relativn´ı ˇcetnost bl´ıˇz´ı nˇejakému ˇc´ıslu, pak toto ˇc´ıslo m˚uˇzeme povaˇzovat za pravdˇepodobnost daného jevu.

P (A) = lim

N →∞

K

N (1)

Sdruˇzená pravdˇepodobnost oznaˇcuje pravdˇepodobnost, ˇze náhodné jevy A a B nastanou souˇcasnˇe

P (A|B) = P (A, B) = P (AB) (2)

(14)

Podm´ınˇen´a pravdˇepodobnost oznaˇcuje pravdˇepodobnost, zda se jev A m˚uˇze vyskytnout pouze tehdy, vyskytl-li se jev B, jehoˇz pravdˇepodobnost je P (B) > 0

P (A|B) = P (A ∩ B)

P (B) (3)

Bayes˚uv vzorec udává, jakým zp˚usobem vypoˇc´ıtáme pravdˇepodobnosti P (A|B) jevu A za podm´ınky, ˇze nastal jev B, jestliˇze známe apriorn´ı pravdˇepodobnosti P (A) a podm´ınˇenou pravdˇepodobnost P (B|A). Bayes˚uv vzorec má tvar:

P (A|B) = P (B|A) P (A)

P (B) . (4)

3.2 Bayesovsk´ y pˇ r´ıstup k opravˇ e pˇ reklep˚ u

Pˇri ˇreˇsen´ı úlohy opravy pˇreklep˚u vyuˇz´ıváme statistické metody. Pˇredpokládejme, ˇze W = {w₁, w₂, w₃, . . . , w_N} je posloupnost N slov pˇredstavuj´ıc´ı dotaz zadaný do vy- hledávaˇce. Dále necht’ je C = {c₁, c₂, c₃, . . . , c_N} opravená posloupnost slov.

C´ılem je nal´ezt nejpravdˇepodobnˇejˇs´ı opravenou posloupnost slov C pro dotaz W :

C = argmaxˆ _CP (C|W ), (5)

kde P (C|W ) je podm´ınˇená pravdˇepodobnost, ˇze C je oprava dotazu W a funkce argmax_C v tomto vztahu znamená nalezen´ı posloupnosti C takové, pro kterou je P (C|W ) maximáln´ı. Uvedený vztah vˇsak nedokáˇzeme nikterak ohodnotit. Napˇr´ıklad pokud máme chybné slovo porledn´ı, z uvedeného vztahu nedovedeme urˇcit, zda je správnˇejˇs´ı oprava posledn´ı nebo poledn´ı.

V pˇr´ıpadˇe, ˇze pouˇzijeme Bayesovo pravidlo, plat´ı:

C = argmaxˆ _CP (C)P (W |C)

P (W ) , (6)

kde P (C) je apriorn´ı pravdˇepodobnost posloupnosti slov C, tedy pravdˇepodobnost, s jakou uˇzivatel zadá do vyhledávaˇce pravdˇepodobnost slov C. P (W |C) vyjadˇruje pravdˇepodobnost, ˇze byla zadána chybná posloupnost W , pokud mˇela být správnˇe zadána posloupnost C. P (W ) je apriorn´ı pravdˇepodobnost chyby a vzhledem k tomu, ˇ

ze je konstantn´ı, m˚uˇzeme ji pˇri hledán´ı maxima ignorovat. Výsledná rovnice má tedy tvar:

(15)

C = argmaxˆ _CP (C)P (W |C). (7) Z tohoto vztahu vyplývá, ˇze problém nalezen´ı nejlepˇs´ı opravy C k zadané posloupnosti W lze ˇreˇsit pomoc´ı dvou oddˇelených pravdˇepodobnost´ı P (C) a P (W |C), které mohou být modelovány a trénovány nezávisle na sobˇe. Apriorn´ı pravdˇepodobnost P (C) nese informaci o jazykovém modelu a podm´ınˇená pravdˇepodobnost P (W |C) o chy- bovém modelu.

Z uvedeného výkladu vyplývá, ˇze úloha opravy pˇreklepu m˚uˇze být tedy rozdˇelena do tˇr´ı d´ılˇc´ıch úloh:

1. vytvoˇren´ı jazykov´eho modelu P (C) 2. vytvoˇren´ı chybov´eho modelu P (W |C)

3. nalezen´ı nejpravdˇepodobnˇejˇs´ı posloupnosti slov

3.3 Jazykov´ y model

Uˇćelem jazykového modelu je nalézt urˇcitá pravidla a stanovit taková omezen´ı, pomoc´ı nichˇz m˚uˇzeme v modelovaném jazyce ze slov sestavit vˇetu. K modelován´ı jazyka m˚uˇzeme pˇristupovat dvˇema zp˚usoby a to deterministickým a stochastickým. V ˇreˇsené

´

uloze se budeme drˇzet v´yhradnˇe stochastick´eho tedy pravdˇepodobnostn´ıho pˇr´ıstupu.

Pomoc´ı stochastického jazykového modelu stanov´ıme pro kaˇzdou posloupnost slov W = {w₁, w₂, w₃, . . . , w_k} apriorn´ı pravdˇepodobnost P (W ), kterou zjist´ıme ze vztahu pomoc´ı ˇretˇezového pravidla:

P (W ) = P (w₁^k) = P (w₁, w₂, w₃, . . . , w_k)

= P (w₁)P (w₂|w₁)P (w₃|w₁, w₂) . . . P (w_n|w₁, w₂, . . . , w_k−1)

=

k

Y

i=1

P (w_i|w₁, w₂, . . . , w_i−1). (8)

V uvedeném rozkladu pravdˇepodobnosti P (W ) jsou podm´ınˇené pravdˇepodobnosti výskytu slova w_i podm´ınˇeny pouze svou histori´ı, tj. posloupnost´ı slov w₁. . . w_i−2w_i−1.

(16)

3.3.1 n-gramov´e modely

Aby bylo moˇzné vytvoˇrit jazykový model podle vztahu 8, museli bychom urˇcit apriorn´ı pravdˇepodobnost P (w^k₁) vˇsech moˇzných posloupnost´ı slov do délky k. Tyto posloupnosti je vˇsak velmi obt´ıˇzné urˇcit a témˇeˇr nemoˇzné ohodnotit. Podle Markovova pˇredpokladu, který ˇr´ıká, ˇze bl´ızkou budoucnost lze odhadnou z krátkodobé historie, budeme jazykový model aproximovat Markovovým modelem (n − 1)−vého ˇrádu. Tyto modely se nazývaj´ı n−gramové. Term´ınem n−gram se rozum´ı posloupnost n za sebou jdouc´ıch slov z´ıskaných napˇr´ıklad z trénovac´ıho korpusu. n−gramy s n = 0 nazýváme zerogramy a n−gramy s n = 1 unigramy. Mezi pouˇz´ıvanˇejˇs´ı n−gramy patˇr´ı bigramy (kde n = 2) a trigramy (n = 3). Intuice nám ˇr´ıká, ˇze ˇc´ım bude n vˇetˇs´ı, t´ım lépe bude aproximován daný jazykový model. Z praktických d˚uvod˚u se za n nejˇcastˇeji vol´ı 2 (bigramový model) nebo 3 (trigramový model).

V n−gramovém modelu je podm´ınˇená pravdˇepodobnost P (w_k|w₁, w₂, . . . , w_k−1) slova w_k závislá pouze na n − 1 pˇredchoz´ıch slovech a aproximuje se vztahem:

P (w_k|w₁, w₂, . . . , w_k−1) ≈ P (w_k|w_k−n+1, w₂, . . . , w_k−1). (9) Pro P (w₁^k) tady plat´ı:

P (w₁^k) ≈

k

Y

i=1

P (w_i|w_i−n+1, w₂, . . . , w_i−1). (10)

Jazykové n−gramové modely jsou vhodné pˇredevˇs´ım pro jazyky s relativnˇe pevným poˇrad´ım slov ve vˇetˇe, nebot’ zde existuj´ı silné statistické závislosti mezi výskyty za sebou následuj´ıc´ıch slov.

Mezi dalˇs´ı pˇrednosti patˇr´ı, ˇze algoritmus výpoˇctu n−gramové statistiky je nezávislý na jazyku.

Jeˇstˇe poznamenáme, ˇze tvorba jazykového modelu pro ˇceˇstinu je výraznˇe nároˇcnˇejˇs´ı

´

uloha neˇz napˇr´ıklad pro angliˇctinu. Na vinˇe je pˇredevˇs´ım velk´a morfologick´a bohatost ˇ

ceˇstiny a volný poˇrádek slov ve vˇetˇe. Této problematice je vˇenována samostatná ˇcást.

V ˇreˇsené úloze budeme pouˇz´ıvat unigramový a bigramový model.

(17)

3.3.2 Unigramov´y model

Unigramový model lze chápat jako frekvenˇcn´ı slovn´ık jednotlivých slov v trénovac´ıch datech. Z unigramového modelu se urˇcuje apriorn´ı pravdˇepodobnost jednotlivých slov.

Pravdˇepodobnosti unigram˚u z´ısk´ame ze vztahu:

P (w) = C(w)

N . (11)

C(w) je ˇcetnost slova w a N je celkov´y poˇcet unigram˚u.

3.3.3 Bigramov´y model

Základn´ı nevyhlazený bigramový jazykový model má podobu matice, kde ˇrádky a sloupce jsou oznaˇceny slovy z unigramového modelu. Jej´ı prvky jsou podm´ınˇené pravdˇepo- dobnost´ı urˇcené pro vˇsechny moˇzné dvojice sousedn´ıch slov, které se objev´ı v trénovac´ıch datech. Posloupnosti slov, které se v trénovac´ıch datech neobjev´ı, maj´ı hodnotu pravdˇepo- dobnosti rovnu nule. Takto vytvoˇrený jazykový model je výchoz´ı pro vˇsechny vyhlazovac´ı metody. Bigramový model pouˇz´ıváme k uloˇzen´ı kontextu mezi slovy.

Podm´ınˇené pravdˇepodobnos-ti prvk˚u matice vyjádˇr´ıme z ˇcetnost´ı z´ıskaných z trénova- c´ıch dat podle vztahu:

P (w_n−1w_n) = C(wn−1wn)

C(w_n−1) , (12)

nebo tak´e jinak zaps´ano:

P (w_n|w_n−1) = C(w_n|w_n−1)

C(wn−1) , (13)

kde C(wn − 1) je poˇcet v´yskyt˚u slova wn−1 a C(wn−1, wn) je poˇcet v´yskyt˚u dvojic slov w_n−1, w_n.

P (w_n|w_n−1) hodnota vyjadˇruje pravdˇepodobnost, ˇze slovo w_n bude následovat po slovˇe w_n−1. V naˇs´ı úloze budeme potˇrebovat znát i pravdˇepodobnost, ˇze slovo w_n−1 pˇredcház´ı wn. Vyuˇzijeme vztahu:

P (w_n−1|w_n) = C(w_n|w_n−1)

C(w_n) . (14)

(18)

Prvky bigramové matice se nazývaj´ı parametry a jejich poˇcet a struktura patˇr´ı mez´ı d˚uleˇzité charakteristiky jazykového modelu.

M´ıru zastoupen´ı nulov´ych prvk˚u matice budeme oznaˇcovat jako ˇr´ıdkost.

3.3.4 Pˇr´ıprava, vlastnosti a vady jazykov´eho modelu

Data, ze kterých se buduje jazykový model, se nazývaj´ı trénovac´ı data nebo také trénovac´ı korpus. Parametry jazykového modelu se lad´ı uˇzit´ım heldout dat a úˇcinnost modelu se ovˇeˇruje pomoc´ı testovac´ıch dat.

Trénovac´ı korpus nebo data jsou v podstatˇe velmi rozsáhlý soubor textu. Z trénovac´ı- ho korpusu z´ıskáme informace o frekvenc´ıch jednotlivých slov a jejich ˇretˇezc˚u. Ze seznamu nejfrekventovanˇejˇs´ıch slov se sestavuje slovn´ık a unigramový model. Z frekvenc´ı dvojic slov se poˇc´ıtá bigramový jazykový model.

Pˇr´ıprava a výbˇer trénovac´ıch dat má zásadn´ı pod´ıl na kvalitˇe jazykového modelu, a tedy i úspˇeˇsnosti opravy pˇreklep˚u. Trénovac´ı korpus se ˇcasto sestavuje tematicky uˇsitý na m´ıru dané úloze. Pokud se napˇr´ıklad ˇreˇsená úloha zabývá medic´ınou, budeme korpus sestavovat z lékaˇrských ˇclánk˚u a skript a slovn´ık bude obsahovat pˇredevˇs´ım lékaˇrské term´ıny. Pˇr´ıliˇs úzce specializovaná trénovac´ı data a omezený slovn´ık zp˚usob´ı, ˇ

ze jazykový model bude muset ˇcasto ˇreˇsit problém s neznámými slovy. O této vadˇe mluv´ıme jako o sn´ıˇzené citlivosti modelu.

V pˇr´ıpadˇe, ˇze bude jazykový model obsahovat pˇr´ıliˇs rozsáhlý slovn´ık, zvýˇs´ı se poˇcet jeho parametr˚u, ˇr´ıdkost a výpoˇcetn´ı nároˇcnost ˇreˇsené úlohy. Pokud nebudeme m´ıt dostateˇcný objem dat pro trénován´ı modelu s vysokým poˇctem parametr˚u, budou jejich hodnoty statisticky nevˇerohodné. A naopak, nadmˇernˇe objemný korpus zp˚usob´ı neˇzádouc´ı zvýˇsen´ı výpoˇcetn´ı nároˇcnosti úlohy.

Jak je vidˇet, pˇri tvorbˇe jazykového modelu je nezbytné zvaˇzovat mnoho navzájem se ovliˇnuj´ıc´ıch hledisek. Nastaven´ı jazykového modelu má velký pod´ıl na úspˇeˇsnosti ˇreˇsené úlohy.

Jeˇstˇe poznamenáme, ˇze oprava pˇreklep˚u nen´ı na ˇr´ıdkost trénovac´ıch dat a nastaven´ı parametr˚u tolik citlivá, jako napˇr´ıklad rozpoznáván´ı mluveného nebo psaného slova [2].

3.3.5 Vyhlazov´an´ı

Pˇri tvorbˇe jazykového modelu vycház´ıme pouze z omezeného mnoˇzstv´ı trénovac´ıch dat a nedokáˇzeme pokrýt vˇsechna moˇzná slova a jejich posloupnosti, které se mohou v modelovaném jazyce vyskytnout. V pˇr´ıpadˇe, ˇze se daná posloupnost slov nebo

(19)

slovo v trénovac´ım korpusu neobjevily, uloˇz´ıme na pˇr´ısluˇsnou pozici v n−gramové matice nulovou hodnotu. n−gramové matice jsou pak ˇcasto ˇr´ıdké a obsahuj´ı velký poˇcet nulových hodnot. Pokud by se v testovac´ım korpusu objevila posloupnost slov, pro kterou je v jazykovém modelu uvedena nulová hodnota, doˇslo by ke znaˇcnému zkreslen´ı výsledk˚u. Proto se vyuˇz´ıvaj´ı vyhlazovac´ı algoritmy, jeˇz nulovým hodnotám v matici pˇriˇrad´ı nenulové pravdˇepodobnosti. Vyhlazován´ı se rovnˇeˇz pouˇz´ıvá pro ladˇen´ı parametr˚u jazykového modelu.

Je nutné zm´ınit, ˇze vyhlazován´ı zp˚usobuje opaˇcný problém a pˇriˇrad´ı nenulovou hodnotu i velkému mnoˇzstv´ı n−gram˚u, které v modelovaném jazyce neexistuj´ı. I pˇres tento fakt bylo experimentálnˇe ovˇeˇreno, ˇze pˇresnost oprav se vyhlazen´ım jazykového modelu výraznˇe zvýˇs´ı [2].

Add-One

Add-One je nejjednoduˇsˇs´ı, ale ne pˇr´ıliˇs úˇcinná metoda vyhlazován´ı. Jej´ı princip spoˇc´ıvá v tom, ˇze ˇcetnost vˇsech n−gram˚u zvýˇs´ıme o jedna a následnˇe spoˇc´ıtáme jejich pravdˇepo- dobnost.

Nejdˇr´ıve si princip algoritmu pˇredvedeme na vyhlazován´ı unigram˚u. V je velikost slovn´ıku, která odpov´ıdá poˇctu r˚uzných unigram˚u. Pravdˇepodobnost pro vyhlazený unigram se vypoˇc´ıtá dle vztahu:

P₊₁(w) = C(w) + 1

N + V . (15)

Pro vyhlazen´y bigram plat´ı:

P₊₁(w_n−1w_n) = C(w_n−1w_n) + 1

C(w_n−1) + V . (16)

Tento algoritmus neposkytuje pˇr´ıliˇs dobré výsledky vyhlazován´ı a pouˇz´ıvá se jen výjimeˇcnˇe. Rozdˇeluje pˇr´ıliˇs velké mnoˇzstv´ı pravdˇepodobnostn´ı masy. Pravdˇepodobnost pro nevidˇené n−gramy je nadhodnocená, zat´ımco pro vidˇené je podhodnocená. Vˇsechny nevidˇené n−gramy maj´ı stejnou pravdˇepodobnost.

Add lambda

Tato metoda vycház´ı pˇr´ımo z Add-One a ˇcásteˇcnˇe ˇreˇs´ı jej´ı problém s rozdˇelen´ım pˇr´ıliˇs velkého mnoˇzstv´ı pravdˇepodobnosti. M´ısto jedna se k ˇcetnostem n−gram˚u pˇriˇcte konstanta λ v rozsahu od nuly do jedné. Nedojde tak k neúmˇernému zvýhodnˇen´ı ne-

(20)

vidˇených n−gram˚u pˇred vidˇenými. Konstanta se vˇetˇsinou z´ıskává z hold-out dat.

Vztah pro vyhlazen´ı unigramu m´a podobu:

P+λ(w) = C(w) + λ

N + λV . (17)

a obdobnˇe pro bigram:

P_+λ(w_n−1w_n) = C(w_n−1w_n) + λ

C(wn−1) + λV . (18)

Aˇc tato metoda odstraˇnuje nejpalˇcivˇejˇs´ı problémy svého pˇredch˚udce, stále mezi nevidˇené n−gramy rozdˇeluje stejné mnoˇzstv´ı pravdˇepodobnosti. Podávanými výsledky se nem˚uˇze vyrovnat sofistikovanˇejˇs´ım metodám.

Witten-Bell

Mezi pokroˇcilejˇs´ı metody vyhlazov´an´ı patˇr´ı Witten-Bell. Metoda je zaloˇzena na myˇslence, ˇ

ze pravdˇepodobnost dosud nevidˇených n−gram˚u m˚uˇze být modelována pomoc´ı pravdˇe- podobnosti, ˇze uvid´ıme n−gram poprvé. D´ıky tomuto pˇredpokladu mohou být pravdˇepo- dobnosti n−gram˚u s nulovým výskytem odvozeny od pravdˇepodobnost´ı n−gram˚u s jedn´ım výskytem, nebot’ oba jevy jsou si velmi bl´ızké.

Celkovou pravdˇepodobnost unigram˚u s nulovým výskytem z´ıskáme ze vztahu:

X

i:c=0

p^∗_i = T

(N + T ). (19)

N je celkový poˇcet unigram˚u a T je poˇcet nenulových r˚uzných unigram˚u.

Tuto pravdˇepodobnost rovnomˇernˇe rozdˇel´ıme mezi nulové unigramy, kde Z pˇredstavuje poˇcet r˚uzných nulových unigram˚u:

Z = X

i:c=0

1 (20)

p^∗_i = T

Z(N + T )if (c_i = 0). (21)

Masu pravdˇepodobnosti, kterou jsme rozdˇelili, mus´ıme ubrat z nenulových unigram˚u, a proto pˇrepoˇc´ıtáme pravdˇepodobnost nenulových unigram˚u pomoc´ı následuj´ıc´ıho vztahu:

(21)

p^∗_i = c_i

Z(N + T )if (c_i > 0). (22)

Pro bigramy plat´ı podobné vztahy, ale zmˇen´ı se význam symbol˚u. Z(w_x) je poˇcet r˚uzných nulových bigram˚u zaˇc´ınaj´ıc´ıch slovem w_x, T (w_x) pˇredstavuje poˇcet r˚uzných ne- nulových bigram˚u zaˇc´ınaj´ıc´ıch slovem w_xa N (w_x) urˇcuje poˇcet bigram˚u, které zaˇc´ınaj´ı slovem w_x. Celkovou pravdˇepodobnost, kterou budeme rozdˇelovat, uˇc´ıme za vztahu:

X

i:c(wxwi)=0

p^∗(w_i|w_x) = T (w_x)

N (w_x) + T (w_x). (23) Tuto pravdˇepodobnost rozdˇel´ıme mezi nulov´e bigramy:

Z(w_x) = X

i:c(wxwi)=0

1, (24)

p^∗(w_i|w_i−1) = T (wi−1)

Z(w_i−1)(N + T (w_i−1))if (c_i > 0). (25) A kv˚uli pˇrerozdˇelen´ı pravdˇepodobnosti pˇrepoˇc´ıt´ame a sn´ıˇz´ıme hodnoty nenulov´ych bigram˚u:

X

i:c(wxwi)>0

p^∗(w_i|w_x) = c(w_xw_i)

c(w_x) + T (w_x). (26) Pravdˇepodobnosti jsou rozdˇelovány na základˇe kontextu jednotlivých slov a nebu- dou pro vˇsechny n−gramy stejné, jak tomu bylo u pˇredchoz´ıch metod.

3.3.6 Kvalita jazykov´eho modelu

Existuje velké mnoˇzstv´ı postup˚u, jak vytvoˇrit jazykový model, a podobná situace plat´ı i pro metody vyhlazován´ı. Abychom mohli porovnat r˚uzné jazykové modely, je potˇreba m´ıt k dispozici metodu pro mˇeˇren´ı kvalitu jazykového modelu.

Asi nejlepˇs´ım zp˚usobem by bylo r˚uzné modely zapojit do korektoru pˇreklep˚u, provést sadu test˚u a porovnat výsledky úspˇeˇsnosti oprav. Takový pˇr´ıstup je vˇsak velmi zdlouhavý a ˇcasto je výhodné mˇeˇrit kvalitu jazykového modelu oddˇelenˇe od ostatn´ıch ˇ

c´ast´ı korektoru.

Nejpouˇz´ıvanˇejˇs´ı m´ırou pro ohodnocen´ı kvality jazykového modelu je veliˇcina zvaná perplexita. Tu m˚uˇzeme pˇreloˇzit do ˇceˇstiny jako sloˇzitost a je definována:

(22)

P P = 1

KpP (w1w2. . . wK). (27) Perplexitu si m˚uˇzeme pˇredstavit jako pr˚umˇerný poˇcet slov, mezi kterými se korektor rozhoduje v procesu opravy, pouˇz´ıvá-li daný jazykový model. Rovnˇeˇz m˚uˇzeme ˇr´ıci, ˇ

ze perplexita daného jazykového modelu odpov´ıdá velkosti slovn´ıku ekvivalentn´ıho ja- zykového uniformn´ıho modelu. Uniformn´ı model je sloˇzený ze stejnˇe pravdˇepodobných slov následuj´ıc´ıch za sebou v libovolném, ale stejnˇe pravdˇepodobném poˇrad´ı.

Perplexita se ˇcasto poˇc´ıt´a pro tr´enovac´ı i pro testovac´ı korpus.

Mezi hlavn´ı pˇrednosti perplexity patˇr´ı nez´avislost na velikosti korpusu. M˚uˇzeme tak porovn´avat modely s rozd´ılnou velikost´ı.

Pokud zlogaritmujeme perplexitu logaritmem se základem 2, z´ıskáme dalˇs´ı d˚uleˇzitou veliˇcinu – entropii, která vyjadˇruje m´ıru neuspoˇrádanosti:

LP = log₂P P = −1 K

K

X

i=1

log₂P (w_i|w₁w₂. . . w_i−1). (28)

Velká hodnota perplexity m˚uˇze poukazovat na nekvalitn´ı model, ale také m˚uˇze spoˇc´ıvat ve velké neuspoˇrádanosti (entropii) modelovaného jazyka. Jazyk s volnˇejˇs´ımi pravidly bude m´ıt obecnˇe vˇetˇs´ı m´ıru neuspoˇrádanosti neˇz jazyk s pevnými vazbami[3].

3.3.7 Jazykov´e modelov´an´ı ˇceˇstiny

Popsané metody tvorby jazykového modelu a vyhlazován´ı jsou urˇceny pˇredevˇs´ım s ohle- dem na angliˇctinu. Problém ˇr´ıdkosti trénovac´ıch dat je podstatnˇe závaˇznˇejˇs´ı pro mo- delován´ı ˇceského jazyka.

Ohebnost

Ceˇstina, podobnˇˇ e jako ostatn´ı slovanské jazyky, patˇr´ı mezi vysoce ohebné jazyky. To znamená, ˇze pro kaˇzdý základn´ı tvar (lemma) existuje velké mnoˇzstv´ı morfologických tvar˚u. Vlivem tˇechto zmˇen m˚uˇze teoreticky vzniknout aˇz 300 morfologických variant pro sloveso, 20 variant pro podstatné jméno a 200 variant pro pˇr´ıdavné jméno.

Ve skuteˇcnosti jsou tato ˇc´ısla podstatnˇe niˇzˇs´ı. Pˇresto pˇredstavuje ohebnost závaˇzný problém, nebot’ kaˇzdý tvar je v modelu uloˇzen jako samostatné slovo. Velikost slovn´ıku proto s nar˚ustaj´ıc´ım objemem trénovac´ıho korpusu roste a zp˚usob´ı významné zvýˇsen´ı poˇctu parametr˚u n−gramového modelu, který pak trp´ı nedostatkem dat pro natrénován´ı.

(23)

Pokusy o vytvoˇren´ı modelu zaloˇzeného na morfologických principech se ukázaly být jako neefektivn´ı. Za cenu znaˇcného zvýˇsen´ı sloˇzitosti implementace nedoˇslo k výraznému zlepˇsen´ı úˇcinnosti na testovac´ıch úlohách[2].

Voln´y poˇr´adek slov ve vˇetˇe

Dalˇs´ı nepˇr´ıjemnou vlastnost´ı pro jazykové modelován´ı ˇceˇstiny je volný poˇrádek slov ve vˇetˇe. Po bliˇzˇs´ım prozkoumán´ı se ukazuje, ˇze jde sp´ıˇse o slovosled variabiln´ı, který se ˇr´ıd´ı sadou ustálených pravidel. Aby tato variabilita nemˇela negativn´ı vliv na srozumitelnost sdˇelen´ı, vyuˇz´ıvá ˇceˇstina v hojné m´ıˇre shodu mezi morfologickými kategoriemi jednot- livých vˇetných ˇclen˚u. Napˇr´ıklad podmˇet se mus´ı shodovat s pˇr´ısudkem v osobˇe (muˇz psal), ˇc´ısle a rodu, podstatné jméno a jeho pˇr´ıvlastek mus´ı m´ıt stejný pád, ˇc´ıslo a rod (mladé d´ıvce). Nab´ız´ı se tedy vyuˇzit´ı morfologické shody pˇri jazykovém modelován´ı.

Ke kaˇzdému slovu m˚uˇzeme pˇripojit znaˇcku s popisem jednotlivých morfologických kategori´ı. Na základˇe tˇechto znaˇcek m˚uˇzeme shlukovat slova do tˇr´ıd a jazyk modelovat pomoc´ı závislost´ı mezi tˇr´ıdami m´ısto mezi slovy. Takto vytvoˇrený model vykazuje vlastnosti typické pro modely zaloˇzené na tˇr´ıdách – má menˇs´ı poˇcet parametr˚u a m˚uˇze být robustnˇe natrénován, ovˇsem za cenu ztráty rozliˇsovac´ı schopnosti. Pˇri testován´ı tohoto modelu na spisovné ˇceˇstinˇe bylo dosaˇzeno slibných výsledk˚u [2].

Nespisovn´y jazyk

Váˇzným problémem specifickým pro jazykové modelován´ı ˇceˇstiny je znaˇcný rozd´ıl mezi spisovnou a nespisovnou ˇceˇstinou. Vzhledem k tomu, ˇze v ˇceˇstinˇe dominuje fonetický princip, nejsou nespisovná slova pouhými výslovnostn´ımi variantami slov spisovných, ale tvoˇr´ı samostatné morfologické tvary (aut’ák, starej ), coˇz nadále zvˇetˇsuje rozsah slovn´ıku.

3.3.8 Jazykové modelován´ı pro vyhledávaˇc

Jazykový model pouˇzitý v úloze opravy dotaz˚u zadávaných do vyhledávaˇce se buduje z korpusu sestaveného z dotaz˚u zadávaných do vyhledávaˇce. S pouˇzit´ım takového typu dat se zajist´ı, ˇze jazykový model bude vˇernˇeji odpov´ıdat povaze ˇreˇsené úlohy. Data z´ıskaná z dotaz˚u jsou vˇsak velmi specifická a zp˚usobuj´ı ˇradu problém˚u, které zapˇr´ıˇcin´ı dalˇs´ı zvýˇsen´ı ˇr´ıdkosti trénovac´ıch dat.

V mnoha úlohách se pro tvorbu jazykových model˚u vyuˇz´ıvaj´ı tematicky zamˇeˇrené korpusy s omezeným slovn´ıkem. Takový pˇr´ıstup nen´ı v ˇreˇsené úloze moˇzný, nebot’

(24)

zadávané dotazy pokrývaj´ı ˇsiroký zábˇer obor˚u a model mus´ı být vybaven obsáhlým slovn´ıkem.

Pro trénovac´ı data je charakteristický i velký výskyt cizojazyˇcných výraz˚u, pˇreváˇznˇe anglických. V zadávaných dotazech se ˇcasto objevuj´ı názvy obchodn´ıch znaˇcek a výrobk˚u, jejich modelových a typových ˇrad. ˇRada uˇzivatel˚u vkládá do vyhledávaˇce i www adresy.

Ve vˇetˇsinˇe pˇr´ıpadech neproˇsla trénovac´ı data ˇzádnou jazykovou kontrolou a obsahuj´ı mnoˇzstv´ı pˇreklep˚u a chyb. Tyto chyby nen´ı moˇzné technicky opravit nebo odstranit kv˚uli ˇcastému výskytu ciz´ıch slov. Kaˇzdá chyba pak tvoˇr´ı samostatný slovn´ı tvar.

Problematickým a ˇcastým jevem je vynecháván´ı diakritiky. Pokud v d˚usledku této chyby z´ıskáme nový slovn´ı tvar (ˇreˇricha na rericha), dojde k neˇzádouc´ımu zvýˇsen´ı parametr˚u jazykového modelu. Vynechán´ı diakritiky, jej´ımˇz zavinˇen´ım vznikne korektn´ı známé slovo (bˇeˇz na bez ), zp˚usob´ı zkreslen´ı parametr˚u.

V ˇradˇe dotaz˚u se setk´ame i ˇceskou fonetickou transkripc´ı anglick´ych slov, napˇr´ıklad:

google na gugl, notebook na noutbuk nebo cool na kul. Tyto tvary opˇet zvyˇsuj´ı poˇcet parametr˚u modelu.

Specifickým rysem dat z´ıskaných z dotaz˚u je krátká historie slov, zastoupen´ı slovn´ıch druh˚u a skladba. Uˇzivatelský dotaz se v pr˚umˇeru skládá ze tˇr´ı slov, coˇz je ménˇe neˇz pr˚umˇerná délka ˇceské vˇety. Mezi slovn´ımi druhy pˇrevaˇzuj´ı podstatná jména, pˇr´ıdavná jména a pˇr´ıslovce. Výskyt sloves je výraznˇe niˇzˇs´ı neˇz v bˇeˇzném jazyce. Mezi vˇetným vztahy pˇrevaˇzuje pˇr´ıvlastková a pˇr´ısloveˇcná vazba. Jak se uvedené skuteˇcnosti projev´ı na kvalitˇe jazykového modelu, nebylo zjiˇstˇeno.

Pouˇzitý trénovac´ı korpus je synchronn´ı a jeho sloˇzen´ı odpov´ıdá aktuáln´ımu spoleˇcen- skému, kulturn´ımu, sportovn´ımu, politickému a technickému dˇen´ı. Pro zachován´ı úˇci- nnosti je vhodné korpus pravidelnˇe aktualizovat.

3.4 Chybov´ y model

Chybový model se skládá z pravidel a vztah˚u popisuj´ıc´ıch, jak se ze správného slova stane chyba.

Pomoc´ı chybového modelu se pokus´ıme z chybnˇe napsaného tvaru odvodit seznam kandidát˚u slova, které chtˇel uˇzivatel p˚uvodnˇe napsat. Seznam moˇzných kandidát˚u m˚uˇze být velmi rozsáhlý, a proto je mus´ıme umˇet ohodnotit. Protoˇze se v ˇreˇsené úloze drˇz´ıme pˇredevˇs´ım stochastických princip˚u, budeme kandidáty ohodnocovat pˇredevˇs´ım pravdˇepodobnost´ı.

(25)

3.4.1 Klasifikace chyb

Chyby m˚uˇzeme rozdˇelit pomoc´ı r˚uzných hledisek do nˇekolika kategori´ı. R˚uzné typy chyb vyˇzaduj´ı specifické metody k jejich detekci a korekci.

Literatura zabývaj´ıc´ı se opravou pˇreklep˚u nejˇcastˇeji rozdˇeluje chyby podle pisate- lova zavinˇen´ı na kognitivn´ı chyby a pˇreklepy. U pˇreklep˚u uˇzivatel zná správný tvar slova, ale napˇr´ıklad pˇrehmatem na klávesnici jej napsal chybnˇe (p5eklep). Kognitivn´ı chyby jsou zp˚usobeny neznalost´ı správného tvaru slova (bilina) a jedná se pˇredevˇs´ım o gramatické chyby.

Speciáln´ım druhem kognitivn´ıch chyb jsou chyby homofonn´ı, kdy pisatel zamˇeˇnuje znaky, nebo dokonce celá slova za stejnˇe znˇej´ıc´ı. Tento druh chyb je charakteris- tický zejména pro angliˇctinu a francouzˇstinu[4]. Pˇr´ıklady nˇekterých anglických zámˇen jsou: base a bass, two a too, break a brake, piece a peace. Existuje nˇekolik algoritm˚u (Soundex, Metaphone), které se speciálnˇe zamˇeˇruj´ı na fonetické chyby a dosahuj´ı vysoké úspˇeˇsnosti. Rozˇs´ıˇrený nástroj Aspell s úspˇechem vyuˇz´ıvá algoritmu Metaphone pro korekci anglických text˚u. V ˇceském jazyce je frekvence výskytu tohoto druhu chyb zanedbatelná a pˇreváˇznˇe se jedná o zámˇenu s a z.

Znalost, zda je chyba kognitivn´ı nebo pˇreklep, by nám usnadnila korekci. U kognitivn´ıch chyb bychom se zamˇeˇrili na gramatické vztahy a u pˇreklep˚u m˚uˇzeme vycházet z rozloˇzen´ı klávesnice. Bohuˇzel ve vˇetˇsinˇe pˇr´ıpadech nejsme schopni urˇcit, o jaký druh chyby se jedná, proto v rámci diplomové práce provedeme zjednoduˇsen´ı a oba typy chyb budeme povaˇzovat za pˇreklepy.

Velmi problematická je kategorie chyb zp˚usobuj´ıc´ı rozdˇelen´ı (roz vod ) nebo spojen´ı slov (vpˇr´ırodˇe). K jejich korekci je potˇreba pouˇz´ıt sofistikované metody. Statistiky ukazuj´ı, ˇze tento druh chyb nen´ı pˇr´ıliˇs ˇcastý, a proto je ˇrada korektor˚u ignoruje[5].

Mezi nejzáludnˇejˇs´ı patˇr´ı chyby, jejichˇz výsledkem je opˇet správné slovo. V angliˇctinˇe se tento druh oznaˇcuje term´ınem real-word errors. Takovou chybu z´ıskáme napˇr´ıklad, pokud ve slovˇe p´ıseˇn zamˇen´ıme ˇn za k, a z´ıskáme tak p´ısek. S t´ımto druhem chyb se um´ı korektor úˇcinnˇe vypoˇrádat pouze v pˇr´ıpadˇe, ˇze vyuˇzije kontext okoln´ıch slov. Pak je zˇrejmé, ˇze hudebn´ık sloˇzil p´ıseˇn.

3.4.2 Pˇr´ıstup na z´akladˇe editaˇcn´ı vzd´alenosti

Abychom umˇeli popsat vzájemnou odliˇsnost dvou r˚uzných ˇretˇezc˚u, mus´ıme zavést vhodnou metriku. Metriky pouˇz´ıvané v korektorech pˇreklep˚u bývaj´ı ˇcasto zaloˇzené na minimáln´ı editaˇcn´ı vzdálenosti. Editaˇcn´ı vzdálenost se definuje pomoc´ı sady ope-

(26)

rac´ı, které umoˇzˇnuj´ı pˇreveden´ı jednoho ˇretˇezce na druhý. Takto definovaná metrika je vhodná pro popis pˇreklep˚u, nebot’ jednotlivé operace ˇcasto koresponduj´ı s r˚uznými druhy pˇreklep˚u. Nejpouˇz´ıvanˇejˇs´ı metrikou je Damerau-levenshteinova vzdálenost.

Damerau-levenshteinova vzdálenost. Jedná se o minimáln´ı poˇcet editaˇcn´ıch operac´ı, které mus´ıme vykonat, abychom pˇrevedli ˇretˇezec w na c, kde editaˇcn´ı operace jsou zámˇena (pˇrepsán´ı) znak˚u, smazán´ı znaku, vloˇzen´ı znaku a transpozice dvou sousedn´ıch znak˚u.

Tabulka 1. Pˇr´ıklady editaˇcn´ıch operac´ı Editaˇcn´ı operace chyba

z´amˇena chiba

smaz´an´ı ch ba

vloˇzen´ı chyrba transpozice chbya

V literatuˇre se ˇcasto setkáme i s pojmem Levenshteinova vzdálenost. Ta se od Damerau-levenshteinovy vzdálenosti liˇs´ı t´ım, ˇze mezi editaˇcn´ı operace nezaˇrazuje trans- pozici znak˚u.

Algorimus pro výpoˇcet minimáln´ı editaˇcn´ı vzdálenosti si pop´ıˇseme a pˇredvedeme pro Levenshteinovu vzdálenost, nebot’ je názornˇejˇs´ı a jednoduˇsˇs´ı. S drobnou úpravou lze algoritmus vyuˇz´ıt i pro výpoˇcet Damerau-levenshteinovy vzdálenosti.

Algoritmus pro v´ypoˇcet Levenshteinovy vzd´alenosti

Pro výpoˇcet Levenshteinovy vzdálenosti se pouˇz´ıvá algoritmus zaloˇzený na principu dynamického programován´ı. Dynamické programován´ı je oznaˇcen´ı pro tˇr´ıdu tabul- kovˇe ˇr´ızených algoritm˚u, které ˇreˇs´ı rozsáhlé problémy vhodnou kombinac´ı ˇreˇsen´ı pod- problém˚u, jejichˇz výsledky jsou uloˇzeny v tabulce.

Algoritmus pro výpoˇcet Levenshteinovy vzdálenosti nejdˇr´ıve vytvoˇr´ı matici, ve které poˇcet ˇrádk˚u odpov´ıdá délce zdrojového ˇretˇezce a poˇcet sloupc˚u délce c´ılového ˇretˇezce.

Kaˇzdý prvek matice na pozici i a j bude obsahovat vzdálenost mezi prvn´ımi i znaky zdrojového a prvn´ımi j znaky c´ılového ˇretˇezce. Výpoˇcet prvk˚u matice zaˇc´ıná v levném horn´ım rohu a konˇc´ı v pravém doln´ım rohu, ve kterém je uloˇzena výsledná minimáln´ı vzdálenost. Hodnota jednotlivých prvk˚u se vˇzdy urˇc´ı ze tˇr´ı okoln´ıch jednoduchou funkc´ı, kdy vyb´ıráme nejmenˇs´ı ze tˇr´ı moˇzných cest pˇri pr˚uchodu matic´ı:

(27)

matice[i, j] = min











matice[i − 1, j] + cena mazani matice[i − 1, j − 1] + cena zameny matice[i, j − 1] + cena vlozeni

(29)

Algoritmus zapsaný v pseudokódu vypadá následovnˇe:

function levenshtein_distance(target, source) returns min_distance n= length(target)

m = length(source)

create a distance matrix distance[n+1, m+1]

distance[0,0] = 0

for each column i from 0 to n do for each column j from 0 to m do

distance[i, j] = min(distance[i-1,j] + DEL_COST, //deletion distance[i-1,j-1] + SUB_COST, //subtition distance[i,j-1] + INS_COST)) //insertion Na obrázku 1. je uveden pˇr´ıklad výpoˇctu vzdálenosti slov hyab a chyba. Význam ˇsipek bude osvˇetlen záhy.

Casto potˇrebujeme nejen vˇˇ edˇet jaká je mezi ˇretˇezci vzdálenost, ale i jak se vzájemnˇe liˇs´ı. K popisu rozd´ıl˚u mezi ˇretˇezci se pouˇz´ıvaj´ı nejˇcastˇeji dva zp˚usoby: zarovnán´ı a seznam operac´ı.

Zarovnán´ı – Pˇri zarovnán´ı uprav´ıme ˇretˇezce tak, aby mˇely stejnou délku. Pˇri operaci smazán´ı vloˇz´ıme prázdný znak do c´ılového slova (tunel a t nel ), pˇri vkládán´ı do slova zdrojového (tu nel tuunel ).

Seznam operac´ı – Posloupnost editaˇcn´ıch operac´ı potˇrebných k tomu, abychom pˇre- vedli zdrojové slovo na c´ılové.

Oba popisy rozd´ıl˚u mezi ˇretˇezci snadno z´ıskáme z matice pro výpoˇcet minimáln´ı editaˇcn´ı vzdálenosti. Zaˇcneme v pravém doln´ım rohu a vˇzdy budeme vyb´ırat nejmenˇs´ı ze tˇr´ı moˇzných cest, dokud se nedostaneme do levého horn´ıho rohu. Krok vlevo znamená pˇridán´ı znaku, pˇri kroku vpravo znak maˇzeme a cestou po diagonále znak mˇen´ıme.

Mus´ıme dát pozor na to, ˇze zarovnán´ı a seznam operac´ı z´ıskáme v opaˇcném poˇrad´ı a mus´ıme je otoˇcit.

(28)

Obrázek 1. Pˇr´ıklad výpoˇctu levenstainovy vzdálenosti

V p˚uvodn´ım pˇr´ıkladu jsou nakresleny ˇsipky, které zobrazuj´ı moˇzné cesty. Jak je vidˇet, cesta nemus´ı být vˇzdy jednoznaˇcná, a m˚uˇzeme tak z´ıskat nˇekolik r˚uzných za- rovnán´ı a seznam˚u operac´ı.

Jestliˇze se v uvedeném pˇr´ıkladu vydáme po nevyplnˇené ˇsipce, z´ıskáme následuj´ıc´ı zarovnán´ı:

hyab a chyba a seznam operac´ı:

• vloˇzen´ı c

• z´amˇena a za b

• z´amˇena b za a.

Nyn´ı se vrát´ıme k Damerau-levenshteinovy vzdálenosti. Jak uˇz bylo napsáno výˇse, liˇs´ı se od Levenshteinovy vzdálenosti t´ım, ˇze nav´ıc obsahuje operaci transpozice, kterou jednoduˇse dopln´ıme.

(29)

function damerau_levenshtein_dist(target, source) returns min_dist n = length(target)

m = length(source)

create a distance matrix distance[n+1, m+1]

distance[0,0] = 0

for each column i from 0 to n do for each column j from 0 to m do

distance[i, j] = min(distance[i-1,j] + DEL_COST, //deletion distance[i-1,j-1] + SUB_COST, //subtition distance[i,j-1] + INS_COST)) //insertion if(i > 1 and j > 1 and source[i] = targer[j-1]

and source[i-1] = target[j]) then distance[i,j] = min(distance[i, j],

distance[i-2,j-2]+TRN_COST)//transposition Výˇse uvedený pˇr´ıklad by mˇel Damerau-levenshteinovu vzdálenost 2 a seznam operac´ı by byl:

• vloˇzen´ı c

• transpozice b za a.

Cena operac´ı

Vˇetˇsinou pˇredpokládáme, ˇze cena vˇsech operac´ı je stejná, tedy 1. V nˇekteré literatuˇre se doporuˇcuje zvýˇsit cenu zámˇeny znak˚u na 2, nebot’ jedna zámˇena nahrad´ı dvojici operac´ı pˇridán´ı a smazán´ı[4]. ˇCasto se vyuˇz´ıvá i komplexnˇejˇs´ıho ohodnocen´ı operac´ı, napˇr´ıklad pomoc´ı pravdˇepodobnost´ı. Pˇri ohodnocen´ı pravdˇepodobnost´ı uˇz nebudeme o mluvit o minimáln´ı editaˇcn´ı vzdálenosti, ale o nejpravdˇepodobnˇejˇs´ım zarovnán´ı ˇretˇezc˚u. Nej- pravdˇepodobnˇejˇs´ıho zarovnán´ı vyuˇz´ıváme i v naˇsem korektoru.

Z´ısk´an´ı kandid´at˚u

Jedn´ım z úkolu chybového modelu je odvozen´ı seznamu moˇzných kandidát˚u na opravu z chybného slova. Pˇri metodˇe zaloˇzené na minimáln´ı editaˇcn´ı vzdálenosti samozˇrejmˇe vyuˇzijeme editaˇcn´ı operace.

Seznam kandidát˚u z´ıskáme k-násobnou aplikac´ı vˇsech moˇzných variant editaˇcn´ıch operac´ı na opravované slovo, kde k je zvolená editaˇcn´ı vzdálenost. Takto vygenerovaný

(30)

seznam obsahuje vˇsechny moˇzné slovn´ı tvary do editaˇcn´ı vzdálenosti k, ze kterých mohlo opravované slovo vzniknout. To znamená, ˇze napˇr´ıklad pro k = 1 pˇri operaci vkládán´ı vloˇz´ıme postupnˇe na vˇsechny pozice opravovaného slova vˇsechny znaky pouˇzité abecedy. Pˇri mazán´ı odebereme z kaˇzdé pozice jeden znak slova.

Výsledný seznam je velmi rozsáhlý a jen pro vzdálenost 1 existuje (2r + 2)n + r moˇzných tvar˚u, kde n je délka slova a r poˇcet znak˚u pouˇzité abecedy. Pokud bychom uvaˇzovali pouze anglickou abecedu, bude se jednat o 54n + 26 slovn´ıch tvar˚u. V pˇr´ıpadˇe ˇ

cesk´e abecedy poˇcet stoupne dokonce na 88n + 43.

Ohodnocen´ı kandid´at˚u

Ohodnocován´ı kandidát˚u pomoc´ı chybového modelu nen´ı nic jiného neˇz výpoˇcet nej- pravdˇepodobnˇejˇs´ıho zarovnán´ı kandidáta a p˚uvodn´ıho slova. Pˇri ohodnocován´ı kan- didát˚u budeme vycházet z parametr˚u, podle kterých byl kandidát vygenerován. Kan- didáta lze ohodnotit r˚uznou úrovn´ı pˇresnosti. Pˇri nejjednoduˇsˇs´ım ohodnocen´ı vezmeme v potaz pouze editaˇcn´ı vzdálenost.

Pro zvýˇsen´ı pˇresnosti m˚uˇzeme uvaˇzovat i typy editaˇcn´ıch operac´ı pouˇzitých pˇri generován´ı kandidáta, napˇr´ıklad jestli byl kandidát z´ıskán smazán´ım, nebo vloˇzen´ım znaku.

Pokud bychom chtˇeli dosáhnout dalˇs´ıho zvýˇsen´ı pˇresnosti, zahrneme do ohodnocen´ı i znaky, na které byly editaˇcn´ı operace aplikovány, pˇr´ıpadnˇe i jejich pozici ve slovˇe.

V tomto pˇr´ıpadˇe vyuˇzijeme znalosti, kdy v´ıme, ˇze z´amˇena znak˚u i a y je mnohem ˇ

castˇejˇs´ı neˇz napˇr´ıklad z´amˇena r za t nebo r za y.

Vzorec pro výpoˇcet ohodnocen´ı kandidáta dle chybového modelu vypadá následovnˇe:

P (w|c) =

l

Y

i=1 k

Y

j=1

P (eij), (30)

kde k je editaˇcn´ı vzd´alenost a l ´uroveˇn pˇresnosti.

Nˇekteré pokroˇcilejˇs´ı metody s úspˇechem vyuˇz´ıvaj´ı k ohodnocen´ı i kontext okoln´ıch znak˚u a mohou vyuˇz´ıt znalosti, kdy napˇr´ıklad vˇed´ı, ˇze y je ˇcastˇeji smazané po b neˇz po a.

(31)

Tr´enovan´ı chybov´eho modelu

Pˇri trénovan´ı chybového modelu nejˇcastˇeji vyuˇz´ıváme seznam dvojic, které se skládaj´ı vˇzdy ze správného tvaru a pˇreklepu. Na základˇe tohoto seznamu pak udˇeláme statis- tickou analýzu chyb, kterou pouˇzijeme na tvorbu chybového modelu.

3.4.3 Pˇr´ıstup na z´akladˇe fonetick´e podobnosti

Pˇrestoˇze metody zaloˇzené na fonetické podobnosti nejsou pˇr´ıliˇs úˇcinné pro ˇceský jazyk, s úspˇechem se pouˇz´ıvaj´ı pro opravy anglických text˚u. Tyto metody jsou ˇcasto zmiˇnovány v literatuˇre vˇenuj´ıc´ı se opravˇe pˇreklep˚u a setkáme se s nimi i v ˇrade do- stupných korektor˚u, napˇr´ıklad v Aspellu. Proto si o dvou z nich ˇrekneme nˇekolik slov a krátce si je pop´ıˇseme.

Soundex

Tento algoritmus vznikl jiˇz v roce 1922 a slouˇzil pro indexaci jmen v kartotékách pro telefonn´ı operátory. Jména se indexovala podle výslovnosti, a operátor tak mohl vyhledat záznam volaj´ıc´ıho rychleji, neˇz kdyby se jméno hláskovalo.

Algoritmus pˇrevede kaˇzdé slovo na ˇctyˇrznakový kód, který zaˇc´ıná p´ısmenem následo- vaným tˇremi ˇc´ıslicemi. Kód se z´ıská tak, ˇze se prvn´ı p´ısmeno znaku ponechá a ostatn´ı se pˇrevedenou podle tabulky 2 na ˇc´ısla. Znaky, které nejsou v tabulce, se vynechaj´ı, stejnˇe jako po sobˇe se opakuj´ıc´ı ˇc´ıslice, vyjma prvn´ı. Z takto z´ıskaného tvaru se ponechaj´ı pouze prvn´ı ˇctyˇri znaky. V pˇr´ıpadˇe, ˇze je kód pˇr´ıliˇs krátký, dopln´ı se nulami. Napˇr´ıklad pro jméno Robert bude kód R163.

Tabulka 2. Pravidla pˇrevodu Soundex

Znak K´od

A, E, I, O, U, H, W, Y -

B, F, P, V 1

C, G, J, K, Q, S, X, Z 2

D,T 3

L 4

M, N 5

R 6

V pˇr´ıpadˇe, ˇze bychom chtˇeli vyuˇz´ıt Soundex pro modelován´ı chyb, pak seznam kandidát˚u na opravu sestav´ıme ze slov se stejným kódem. Soundex neumoˇzˇnuje

(32)

kandid´aty ohodnotit.

Pˇrestoˇze je Soundex zastaralý a pro opravu chyb témˇeˇr nepouˇzitelný, byl prvn´ı a stal se vzorem pro modern´ı algoritmy zaloˇzenými na fonetické podobnosti.

Metaphone

Metaphone vycház´ı z algoritmu Soundex a opravuje ˇradu jeho nedostatk˚u. Posky- tuje pˇresnˇejˇs´ı fonetické kódovan´ı slov, nebot’ vyuˇz´ıvá propracovanˇejˇs´ı a rozsáhlejˇs´ı sadu pravidel pro pˇrepis výslovnosti. Základem algoritmu je ˇsestnáctiznaková abeceda: B X S K J T F H L M N P R 0 W Y. Pravidla nebudeme kv˚uli jejich rozsahu uvádˇet, ale daj´ı se naj´ıt napˇr´ıklad na [6]. Výsledný kód slova nemá na rozd´ıl od Soundex pevnˇe stanovenou délku.

V chybovém modelu bychom vyuˇzili Metaphone podobnˇe jako Soundex, kde kandidáty z´ıskáme jako slova se stejným kódem. Metaphone je velmi výkonný algoritmus a s úspˇechem je vyuˇz´ıván v programu Aspell.

3.4.4 Dalˇs´ı pˇr´ıstupy

V literatuˇre vˇenuj´ıc´ı se korektuˇre pˇreklep˚u ˇcasto naraz´ıme na ˇradu dalˇs´ıch metod.

Vˇetˇsinou se vˇsak jedná o obmˇenu nebo kombinaci dvou výˇse uvedených princip˚u. Na- jdou se vˇsak i metody výraznˇe odliˇsné od tˇech, se kterými jsme se doposud seznámili.

n-gramov´y pˇr´ıstup

V chybov´em modelov´an´ı budeme pod term´ınem n−gram rozumˇet posloupnost znak˚u.

Napˇr´ıklad slovo fakta bude rozdˇeleno na následuj´ıc´ı bigramy: -f fa ak kt ta a- a trigramy: -fa fak akt kta ta-. n−gramový pˇr´ıstup zahrnuje celou ˇskálu r˚uzných metod jak deterministických, tak stochastických.

Pokud bychom chtˇeli pouˇz´ıt n−gramový pˇr´ıstup ke z´ıskán´ı kandidát˚u, museli bychom napˇr´ıklad z chybové analýzy zjistit jaké n−gramy se ˇcasto zamˇeˇnuj´ı, nebo bychom mohli vyuˇz´ıt editaˇcn´ı vzdálenosti, na opravované slovo aplikovat editaˇcn´ı operace a nás- lednˇe jej rozloˇzit na n−gramy.

Ohodnocen´ı je moˇzné udˇelat podle znakového n−gramového modelu nebo urˇcit podobnost kandidáta s p˚uvodn´ım slovem. Podle nejjednoduˇsˇs´ıho vztahu se podobnost dvou n−gram˚u spoˇc´ıtá jako poˇcet shodných n−gram˚u dˇelených celkovým poˇctem n−gram˚u.

(33)

n−gramové metody nejsou pˇr´ıliˇs úˇcinné na krátká slova a nefunguj´ı na asijské jazyky.

Umˇel´a inteligence

Vˇetˇsina úvah, ohlednˇe vyuˇzit´ı umˇelé inteligence pro opravu pˇreklep˚u, stále z˚ustává v teoretických rovinách. Funkˇcn´ı prototypy, pˇrestoˇze dosahuj´ı dobrých výsledk˚u, jsou kv˚uli problém˚um s trénován´ım omezené na specifická témata a obecnˇe nepouˇzitelné[4].

D´ılˇc´ıch úspˇech˚u se povedlo dosáhnout v oblasti strojového uˇcen´ı pouˇzit´ım algoritmu Winnow. Úspˇeˇsnost tohoto korektoru pˇrekonává algoritmy zaloˇzené na statistických metodách i pro obecné texty. Bliˇzˇs´ı popis algoritmu je mimo rozsah práce. Podrobnosti lze nalézt v [7].

3.5 Algoritmus korekce

Nyn´ı uˇz jsme se sezn´amili se vˇsemi pil´ıˇri korektoru a m˚uˇzeme pˇrej´ıt k vlastn´ımu algoritmu.

Zadaný uˇzivatelský dotaz se nejdˇr´ıve vyˇcist´ı a rozdˇel´ı na slova. Následnˇe se jednot- livá slova postupnˇe procházej´ı a pomoc´ı korekˇcn´ıho algoritmu se snaˇz´ıme naj´ıt jejich správný tvar. Jakmile oprav´ıme vˇsechna slova, sloˇz´ıme z nich zpˇet opravený dotaz.

Algoritmus korekce slova prob´ıh´a ve ˇctyˇrech f´az´ıch:

1. vytvoˇren´ı seznamu kandid´at˚u

2. ohodnocen´ı kandidát˚u dle chybového modelu 3. ohodnocen´ı kandidát˚u dle jazykového modelu 4. výbˇer nejvhodnˇejˇs´ıho kandidáta

3.5.1 Zpracov´an´ı dotazu

Dotaz se rozdˇel´ı podle b´ılých znak˚u, ˇcárek, teˇcek a podtrˇz´ıtek na jednotlivá slova, která se následnˇe pˇrevedou na malá p´ısmena. Slova obsahuj´ıc´ı v´ıce neˇz 50% ˇc´ıslovek se stejnˇe jako jednop´ısmenné tvary pˇreskakuj´ı.

(34)

3.5.2 Vytvoˇren´ı seznamu kandid´at˚u

Pouˇzitý chybový model je zaloˇzen na editaˇcn´ı vzdálenosti a kandidáty tedy z´ıskáme pomoc´ı editaˇcn´ıch operac´ı. Z výkonnostn´ıch d˚uvod˚u budeme generovat kandidáty pouze do vzdálenosti 2 a ponecháme si jen ty, které známe z unigramového modelu.

3.5.3 Ohodnocen´ı kandid´at˚u dle chybov´eho modelu

Kandidáty budeme ohodnocovat na ˇctyˇrech úrovn´ıch pˇresnosti. Vyˇsˇs´ı úroveˇn by mˇela zajistit pˇresnˇejˇs´ı ohodnocen´ı, ale je nároˇcnˇejˇs´ı na výpoˇcetn´ı výkon.

Nultá úroveˇn pˇredstavuje naivn´ı pˇr´ıstup. Pokud se opravované slovo nacház´ı v uni- gramovém modelu, je povaˇzováno za jediného kandidáta. Jestliˇze je opravované slovo neznámé, algoritmus se pod´ıvá, zda existuj´ı kandidáti do vzdálenosti 1. V kladném pˇr´ıpadˇe postoup´ı tyto kandidáty do dalˇs´ı fáze algoritmu a stávaj´ıc´ı fáze je ukonˇcena.

V opaˇcném pˇr´ıpadˇe se pod´ıvá po kandidátech do vzdálenosti 2. Pokud je i tento seznam prázdný, je oprava ukonˇcena. Pˇrednost´ı této úrovnˇe je rychlost a jednoduchost, ale je zˇrejmé, ˇze nebere v potaz z´ıskané chybové statistiky. Jak uvid´ıme pozdˇeji, jej´ı

´

uspˇeˇsnost nen´ı pˇr´ıliˇs vysok´a.

Na prvn´ı úrovni pˇresnosti se pˇri ohodnocován´ı kandidát˚u bere v potaz pouze jejich editaˇcn´ı vzdálenost.

Druhá úroveˇn uˇz do ohodnocován´ı kandidát˚u zapoˇc´ıtává i pouˇzitou editaˇcn´ı operaci. Pokud je vzdálenost kandidáta vˇetˇs´ı neˇz 1, je tato hodnota z d˚uvodu výpoˇcetn´ı nároˇcnosti aproximována pr˚umˇernou cenou operac´ı.

Tˇret´ı úroveˇn bere v úvahu i parametr editaˇcn´ı operace, tedy konkrétn´ı znak. Stejnˇe jako u pˇredchoz´ı úrovnˇe je tato hodnota u kandidát˚u se vzdálenost´ı 2 a v´ıce aproxi- mována.

3.5.4 Ohodnocen´ı kandid´at˚u dle jazykov´eho modelu

Z jazykového modelu urˇc´ıme apriorn´ı pravdˇepodobnost kandidáta. Budeme rozliˇsovat, zda je opravované slovo izolované, nebo se nacház´ı v kontextu dalˇs´ıch slov. Pokud je slovo izolované, pˇriˇrad´ıme kandidátovi pravdˇepodobnost z unigramového modelu.

V pˇr´ıpadˇe, ˇze se opravované slovo nacház´ı v kontextu dalˇs´ıho slova, urˇc´ıme podm´ınˇe- nou pravdˇepodobnost dvojice z bigramového modelu. V tomto výpoˇctu na nás ˇceká drobná záludnost. Vˇetˇsinou pˇredpokládáme, ˇze opravované slovo následuje po kon- textovém slovˇe. Prvn´ı slovo dotazu vˇsak nemá ˇzádný pˇredcházej´ıc´ı kontext, ale má

(35)

n´asleduj´ıc´ı. Pro prvn´ı slovo dotazu budeme tedy poˇc´ıtat podm´ınˇenou pravdˇepodobnost, ˇ

ze opravované slovo bude následováno kontextovým.

3.5.5 V´ybˇer nejvhodnˇejˇs´ıho kandid´ata

V posledn´ım kroku jednoduˇse vybereme kandidáta, jehoˇz souˇcin ohodnocen´ı je dle jazykového a chybového modelu nejvˇetˇs´ı.

3.5.6 Pˇr´ıklad

Abychom z´ıskali lepˇs´ı pˇredstavu o principu, na jak´em algoritmus funguje, pˇredvedeme si jednoduch´y pˇr´ıklad.

Uˇzivatel do vyhled´avaˇce vloˇzil dotaz Kertl Gott. Je zˇrejm´e, ˇze uˇzivatel chtˇel p˚uvodnˇe napsat Karel Gott, ale omylem se dopustil dvou pˇreklep˚u.

Nejprve dotaz rozdˇel´ıme na slova, která následnˇe pˇrevedeme na malá p´ısmena, a z´ıskáme: kertl a gott.

Nyn´ı uˇz m˚uˇzeme pouˇz´ıt opravn´y algoritmus na slovo kertl.

1. Nejdˇr´ıve vygenerujeme seznam moˇzn´ych kandid´at˚u na opravu.

Pro editaˇcn´ı vzdálenost 1 jsme z´ıskali následuj´ıc´ı kandidáty (slova jsou ze skuteˇcné- ho jazykového modelu):

kert (smaz´an´ı l), kartl (z´amˇena e za a), mertl (zamˇena k za m) ...

Poˇcet kandidát˚u pro editaˇcn´ı vzdálenost bude podstatnˇe vyˇsˇs´ı, ale vybereme jen prvn´ıch pár:

kuril (zámˇena e za u; zámˇena t za i), certe (zámˇena k za c; zámˇena t za i), karel (zámˇena e za a; zámˇena t za e) ...

2. Kandid´aty ohodnot´ıme dle chybov´eho modelu.

Ze statistiky v´ıme, ˇze kandid´ati do vzd´alenosti 1 jsou pravdˇepodobnˇejˇs´ı neˇz do 2, ˇze nahrazen´ı znak˚u je pravdˇepodobnˇejˇs´ı neˇz transpozice atd.

kert (0, 0096), kartl (0, 0224), mertl (0, 00167)

kuril (0, 0000256), certe (0, 0000743), karel (0, 000315)

3. Kandid´aty ohodnot´ıme dle jazykov´eho modelu s vyuˇzit´ım kontextu slova gott kert (1, 84.10⁻⁶), kartl (5, 78.10⁻⁵), mertl (1, 84.10⁻⁶)

kuril (3, 98.10⁻⁴), certe (2, 8.10⁻⁴), karel (3, 57.10⁻³)