Vyuˇzit´ı algoritm˚u dataminingu pro rozpoznáván´ı pojmenovaných entit

(1)

Vyuˇ zit´ı algoritm˚ u dataminingu pro rozpozn´ av´ an´ı pojmenovan´ ych entit

Diplomov´ a pr´ ace

Studijn´ı program: N2612 – Elektrotechnika a informatika Studijn´ı obor: 1802T007 – Informaˇcn´ı technologie Autor pr´ace: Bc. Vojtˇech Houˇzviˇcka

Vedouc´ı pr´ace: Ing. Pavel Tyl

(2)

Datamining algorithms for named entity recognition

Diploma thesis

Study programme: N2612 – Electrical engineering and informatics Study branch: 1802T007 – Information technology

Author: Bc. Vojtˇech Houˇzviˇcka Supervisor: Ing. Pavel Tyl

(3)

Tento list nahrad’te

origin´ alem zad´ an´ı.

(4)

Prohl´ aˇ sen´ı

Byl jsem seznámen s t´ım, ˇze na mou diplomovou práci se plnˇe vzta- huje zákon ˇc. 121/2000 Sb., o právu autorském, zejména § 60 – ˇskoln´ı d´ılo.

Beru na vˇedom´ı, ˇze Technická univerzita v Liberci (TUL) neza- sahuje do mých autorských práv uˇzit´ım mé diplomové práce pro vnitˇrn´ı potˇrebu TUL.

Uˇziji-li diplomovou pr´aci nebo poskytnu-li licenci k jej´ımu vyuˇzit´ı, jsem si vˇedom povinnosti informovat o t´eto skuteˇcnosti TUL;

v tomto pˇr´ıpadˇe má TUL právo ode mne poˇzadovat úhradu náklad˚u, které vynaloˇzila na vytvoˇren´ı d´ıla, aˇz do jejich skuteˇcné výˇse.

Diplomovou práci jsem vypracoval samostatnˇe s pouˇzit´ım uvedené literatury a na základˇe konzultac´ı s vedouc´ım mé diplomové práce a konzultantem.

Souˇcasnˇe ˇcestnˇe prohlaˇsuji, ˇze tiˇstˇen´a verze pr´ace se shoduje s elek- tronickou verz´ı, vloˇzenou do IS STAG.

Datum:

Podpis:

(5)

Abstrakt

Tato práce se zabývá vyhledáván´ım pojmenovaných entit v textu pomoc´ı dataminingových algoritm˚u a jej´ım c´ılem je navrhnout nástroj, který by tento problém ˇreˇsil. Souˇcást´ı práce je reˇserˇse existuj´ıc´ıch nástroj˚u a algoritm˚u, které se danou problematikou zabývaj´ı.

Dále byl navrˇzen a implementován nástroj, který vyuˇz´ıvá nˇekolik dataminingových algoritm˚u zároveˇn a kombinuje tak jejich výhody.

Konkrétn´ı algoritmy jsou realizovány pomoc´ı extern´ıch kniho- ven a výsledky vyhledáván´ı jednotlivých algoritm˚u jsou slouˇceny pomoc´ı vlastn´ı navrˇzené metody. Tato metoda bere v potaz pˇredchoz´ı úspˇeˇsnost nástroj˚u a vyb´ırá ze vˇsech výsledk˚u ten nejv´ıce pravdˇepodobný. Práce také popisuje vytvoˇren´ı datového modelu pro nauˇcen´ı nástroje. Pomoc´ı vlastn´ıho modelu lze nástroj pouˇz´ıt nad libovolnou doménou dat. Celý nástroj je uzp˚usobený na vy- hledáván´ı entit v ˇceském jazyce. V závˇeru práce je nástroj na vy- tvoˇreném datovém modelu otestován pomoc´ı pˇresnosti a úplnosti.

Kl´ıˇ cov´ a slova

Vyhledáván´ı pojmenovaných entit, datamining, dolován´ı dat, stro- jové uˇcen´ı, extrakce informace, algoritmy dataminingu, morfolo- gická analýza, pojmenovaná entita

(6)

Abstract

This thesis concerns itself with named entity recognition and use of data mining algorithms for this purpose. Its main objective is to design and implement a tool, that solves the problem of named entity recognition. This thesis contains research of existing tools for named entity recognition and research of data mining algorithms.

A new tool for named entity recognition was designed and implemented. This tool combines several data mining algorithms and dictionary method and takes advantage of their strong points by merging their results using own designed method. Each algorithm is implemented by external tool. The method for results merging uses previous precision of included tools to determine most proba- ble results. The thesis also covers the topic of creating own training data set. The tool was trained and tested using data set created within the diploma thesis.

Key words

Named entity recognition, data mining, machine learning, information extraction, data mining algorithms, morphological analysis, named entity

(7)

Podˇ ekov´ an´ı

Dˇekuji vedouc´ımu práce Ing. Pavlu Tylovi za cenné rady, vˇecné pˇripom´ınky a vstˇr´ıcnost pˇri konzultac´ıch a pˇri vypracován´ı diplo- mové práce.

Dˇekuji svým rodiˇc˚um, Janovi a Jitce, za jejich duchovn´ı i materiáln´ı podporu a poskytnut´ı zázem´ı pro odpoˇcinek a nab´ırán´ı nových sil v samém srdci ˇCeského stˇredohoˇr´ı.

Dˇekuji také sleˇcnˇe Markétˇe Kostelencové, za ˇcastou motivaci k práci, podporu ve chv´ıl´ıch nejistoty a pomoc s korekturami textu.

(8)

Obsah

Seznam zkratek . . . 12

1 Uvod´ 13 2 Pojmenované entity a dataminingové algoritmy 14 2.1 Uloha rozpozn´´ aván´ı pojmenovaných entit v textu . . . 14

2.2 Bˇeˇzný postup pˇri vyhledáván´ı pojmenovaných entit . . . 15

2.3 Zp˚usoby rozpoznáván´ı pojmenovaných entit v textu . . . 16

2.3.1 Slovn´ıkov´e metody . . . 16

2.3.2 Metody zaloˇzen´e na statistick´em modelu . . . 16

2.4 Metriky pro mˇeˇren´ı ´uspˇeˇsnosti NER n´astroje . . . 17

2.5 Strojové uˇcen´ı a hledán´ı pojmenovaných entit . . . 18

2.6 Uskal´ı vyhled´´ av´an´ı pojmenovan´ych entit . . . 18

2.7 Algoritmy pro vyhledáván´ı pojmenovaných entit v textu . . . 19

2.7.1 Support Vector Machines . . . 20

2.7.2 Hidden Markov Model . . . 21

(9)

2.7.3 Conditional Random Fields . . . 22

3 Nástroje pro vyhledáván´ı pojmenovaných entit v textu 23 3.1 Cizojazyˇcné nástroje . . . 24

3.2 Cesk´ˇ e n´astroje . . . 25

4 Návrh a implementace nástroje pro NER 28 4.1 Popis navrˇzené implementace . . . 28

4.1.1 F´aze uˇcen´ı . . . 28

4.1.2 Fáze rozpoznáván´ı . . . 29

4.2 Pouˇzit´y datov´y korpus . . . 30

4.3 Pouˇzit´e znaˇcen´ı pojmenovan´ych entit . . . 33

4.4 Tvorba slovn´ıku z dat z ˇCSFD . . . 34

4.5 Pˇr´ıprava tr´enovac´ı a testovac´ı sady . . . 34

4.5.1 Automatické rozˇsiˇrován´ı trénovac´ı sady . . . 35

4.5.2 Tr´enovac´ı data pro n´astroj LIBSVM . . . 35

4.5.3 Ruˇcn´ı anotace dat . . . 37

4.6 Trénován´ı NER nástroj˚u . . . 39

4.7 Testov´an´ı NER n´astroj˚u . . . 40

4.8 Pouˇzit´ı NER n´astroj˚u samostatnˇe . . . 40

5 Testován´ı navrˇzeného nástroje 42

6 Z´avˇer 46

(10)

Seznam obr´ azk˚ u

2.1 Bˇeˇzný postup pˇri rozpoznáván´ı pojmenovaných entit . . . 15

2.2 Hledán´ı optimáln´ı nadroviny v úloze SVM . . . 20

2.3 Transformace line´arnˇe neseparovateln´ych dat . . . 21

2.4 Grafické znázornˇen´ı podm´ınˇených náhodných pol´ı s ˇretˇezovou struk- turou. . . 22

4.1 N´avrh implementace n´astroje pro NER . . . 29

4.2 Struktura staˇzen´ych dat . . . 31

5.1 Porovnán´ı F-m´ıry nástroje MANER s jednotlivými nástroji . . . 45

(11)

Seznam tabulek

3.1 Srovnán´ı vybraných nástroj˚u pro NER . . . 27

4.1 Udaje o staˇ´ zen´ych datech . . . 31

4.2 Znaˇcen´ı druh˚u vyhled´avan´ych entit . . . 33

4.3 V´yznam morfologick´ych znaˇcek pro slovo Praha . . . 36

4.4 Udaje o tr´´ enovac´ı a testovac´ı sadˇe . . . 38

4.5 Konfigurace poˇc´ıtaˇce, na kterém bylo provádˇeno testován´ı . . . 39

4.6 Doba trván´ı trénován´ı jednotlivých nástroj˚u . . . 40

5.1 Výsledky testován´ı nástroje MANER pˇred automatickým rozˇs´ıˇren´ım trénovac´ı sady . . . 42

5.2 Váhy pouˇzité pˇri testován´ı nástroje MANER pˇred automatickým rozˇs´ıˇren´ım trénovac´ı sady . . . 43

5.3 Výsledky testován´ı nástroje MANER po automatickém rozˇs´ıˇren´ı trénovac´ı sady . . . 44

5.4 Váhy pouˇzité pˇri testován´ı nástroje MANER po automatickém rozˇs´ıˇren´ım trénovac´ı sady . . . 44

5.5 Vliv paralelizace na rychlost bˇehu programu . . . 45

(12)

Seznam zkratek

API Application Interface

CNEC Czech Named Entity Corpus CRF Conditional Random Field CSS Cascading Style Sheets

CSFDˇ Cesko-Slovensk´ˇ a Filmov´a Datab´aze

DOM Document Object Model

HMM Hidden Markov Model

HTML HyperText Markup Language

ICDM International Conference on Data Mining

IP Internet Protocol

JS JavaScript

LIPI LIng PIpe

MANER Multiple Algorithm Named Entity Recognizer MorphoDiTa Morphological Dictionary and Tagger

MUC Message Understanding Conference

NE Named Entity

NER Named Entity Recognition NLP Natural Language Processing

RAM Random Access Memory

SNER Stanford Named Entity Recognition SVM Support Vector Machines

XML eXtended Markup Language

(13)

1 Uvod ´

Informace je ropou 21. stolet´ı a anal´yza spalovac´ım motorem.

Peter Sondergaard, Gartner Research

Podle sedmé výroˇcn´ı studie EMC Digital Universe objem dat obsaˇzených v di- gitáln´ım svˇetˇe vzroste desetkrát do roku 2020 [1]. Aˇckoliv data nesou sama o sobˇe uˇziteˇcné informace, jejich analýzou lze z´ıskat informace nové, nacházet dˇr´ıve ne- vidˇené vztahy a objevovat nové souvislosti. A tak data (informace) v dneˇsn´ı dobˇe tvoˇr´ı jednu z nejvzácnˇejˇs´ıch komodit.

Nechat data bez analýzy znamená ztrácet jejich potenciáln´ı hodnotu. Nejedná se pouze o prvoplánovˇe uˇziteˇcná data, ale také o takzvané datové zplodiny, neuˇziteˇcná data, ze kterých lze jejich analýzou z´ıskat uˇziteˇcné informace. Tento pojem je pouˇzit v knize Big Data [2], kde je uveden na názorném pˇr´ıkladu shromaˇzd’ován´ı informac´ı o chován´ı ˇctenáˇre elektronické knihy. Jak dlouho stráv´ı ˇcten´ım jedné stránky, kde ˇctou, kde si podtrhnou nˇejakou pasáˇz atd. Výrobce elektronických knih pak tyto informace shromáˇzd´ı, analyzuje a pokus´ı se poskytnout ˇctenáˇri jeˇstˇe lepˇs´ı záˇzitek ze ˇcten´ı. Jiný pˇr´ıklad uˇzit´ı je analýza známých dat o zákazn´ıc´ıch finanˇcn´ı spoleˇcnosti, na základˇe které pak spoleˇcnost pˇredv´ıdá, zda novému zákazn´ıkovi udˇel´ı p˚ujˇcku ˇci nikoliv [3].

Tento proces, kdy se z dat tˇeˇz´ı nová netriviáln´ı data, se nazývá datamining (do- slova dolován´ı dat). A právˇe s rychlým nár˚ustem digitáln´ıho obsahu stoupá vyuˇzit´ı a obliba dataminingu. Jednou z mnoha oblast´ı, kterou se datamining zabývá, je extrakce informace z textu, konkrétnˇeji vyhledáván´ı pojmenovaných entit v textu.

O tom, jaké nástroje a postupy datamining pˇri vyhledáván´ı pojmenovaných entit nab´ız´ı, pojednává tato diplomová práce. Zamˇeˇruji se v n´ı pˇredevˇs´ım na to, které konkrétn´ı algoritmy pro dolován´ı dat jsou k této ˇcinnosti vhodné a jak je pouˇz´ıt.

(14)

2 Pojmenovan´ e entity a dataminingov´ e algoritmy

Oznaˇcen´ım pojmenovaná entita rozum´ıme slovo nebo v´ıceslovné spojen´ı, které jed- noznaˇcnˇe identifikuje objekt ˇci entitu. Tˇemito entitami jsou nejˇcastˇeji osoby, organizace, mˇesta, geografická územ´ı, data nebo ˇcasová rozmez´ı, výrazy mnoˇzstv´ı a jiné [4].

Term´ın pojmenovaná entita byl zaveden v roce 1996 na ˇsesté Message Under- standing conference. Tato konference, která se poprvé konala roku 1987, se or- ganizuje za úˇcelem lepˇs´ıho porozumˇen´ı a vyvinut´ı pˇresnˇejˇs´ıch metod pro extrakci informace. Konference je zaloˇzena na principu soutˇeˇzen´ı nˇekolika tým˚u o nejlepˇs´ı výsledky v adaptován´ı r˚uzných postup˚u pˇri snaze o extrakci informace z textu [5].

2.1 Uloha rozpozn´ ´ av´ an´ı pojmenovan´ ych entit v textu

Rozpoznáván´ı pojmenovaných entit (NER) je jedna z úloh pouˇz´ıvaných v dataminingu. Jej´ım c´ılem je odhalit, kde se v textu nacház´ı pojmenované entity. Vstupem pro vyhledáván´ı je blok textu a výsledkem pak stejný blok textu, ve kterém jsou anotovány pojmenované entity. Napˇr´ıklad pro vstup:

Roy Raymond, zakladatel znaˇcky Victoria’s Secret, která má k datu 1. ledna 2014 cenu zhruba pˇet miliard dolar˚u, spáchal v roce 1993 sebevraˇzdu skokem z Golden Gate Bridge deset let poté, co znaˇcku prodal Lesliemu Wexnerovi za ˇctyˇri miliony dolar˚u.

M˚uˇze b´yt v´ystupem:

[Roy Raymond]_Osoba, zakladatel znaˇcky [Victoria’s Secret]_znaˇ_cka, která má k datu [1. ledna 2014]_Datumcenu zhruba [pˇet miliard dolar˚u]_mnoˇ_zstv´ı, spáchal v roce [1993]_Datum

(15)

sebevraˇzdu skokem z [Golden Gate Bridge]_stavba [deset let]_ˇ_casov´_{y ´}_udaj pot´e, co znaˇcku prodal [Lesliemu Wexnerovi]_osoba za [ˇctyˇri miliony dolar˚u]_mnoˇ_zstv´ı.

V tomto pˇr´ıpadˇe bylo ve vˇetˇe detekováno a klasifikováno osm pojmenovaných entit. Atomické ˇcásti názvu entity (slova, interpunkˇcn´ı znaménka) jsou oznaˇcovány jako tokeny. Toto pojmenován´ı se do ˇceˇstiny nepˇrekládá. Pojmenovaná entita Gol- den Gate Bridge je tˇr´ıtokenová a klasifikována tˇr´ıdou stavba. Zároveˇn je patrné, ˇze jediná pojmenovaná entita m˚uˇze být definována mnoha r˚uznými úseky textu (Roy Raymond, zakladatel znaˇcky Victoria’s Secret) a entity mohou být do sebe vnoˇrené ([zakladatel znaˇcky [Victoria’s Secret]znaˇcka]Osoba). Jak budeme entitu vn´ımat, pak zcela záleˇz´ı na tom, za jakým úˇcelem text zkoumáme.

2.2 Bˇ eˇ zn´ y postup pˇ ri vyhled´ av´ an´ı pojmenovan´ ych entit

Obrázek 2.1 popisuje, jak se zpravidla postupuje pˇri rozpoznáván´ı pojmenovaných entit. Vstupn´ı text se nejprve rozdˇel´ı na vˇetné celky (lemmatizace), následnˇe se se rozdˇel´ı na tokeny (tokenizace), provede se vyhledáván´ı pojmenovaných entit pomoc´ı slovn´ık˚u a poté pomoc´ı statistických metod. Výsledkem je oznaˇckovaný vstupn´ı text, s nalezenými pojmenovanými entitami. Obrázek 2.1 popisuje zp˚usob, jakým funguje hybridn´ı nástroj (nástroj kombinuje uˇzit´ı slovn´ıkových a statistických metod).

Obrázek 2.1: Bˇeˇzný postup pˇri rozpoznáván´ı pojmenovaných entit

(16)

2.3 Zp˚ usoby rozpozn´ av´ an´ı pojmenovan´ ych entit v textu

Pˇr´ıstup k rozpozn´an´ı pojmenovan´ych entit je dvoj´ı:

Slovn´ıkov´e metody

Metody zaloˇzen´e na statistick´em modelu

2.3.1 Slovn´ıkov´ e metody

Slovn´ıkové metody vyuˇz´ıvaj´ı k nalezen´ı entit v textu pˇredem definovaný slovn´ık pojm˚u. Obvykle dosahuj´ı vˇetˇs´ı pˇresnosti neˇz metody zaloˇzené na statistickém modelu, za cenu ˇcasu stráveného pˇri pˇr´ıpravˇe slovn´ıku – jeho vytvoˇren´ı m˚uˇze zabrat i mˇes´ıce práce. Pomoc´ı tohoto pˇr´ıstupu lze nalézt pouze entity definované slovn´ıkem a pokryt´ı je tedy omezené. Dalˇs´ım úskal´ım (nejen této metody) jsou zaˇcátky vˇet, kde nelze rozhodnout, zda velké p´ısmeno oznaˇcuje zaˇcátek vˇety, nebo se jedná o vlastn´ı jméno. Napˇr´ıklad:

Neˇcas zahalil krajinu neproniknutelnou z´aclonou deˇstˇe.

Neˇcas podal demisi 17. ˇcervna 2013.

ˇZe se ve druhém pˇr´ıpadˇe jedná o ˇceského politika, tedy o pojmenovanou entitu, zjist´ıme pouze z kontextu vˇety. Stroj by v obou pˇr´ıpadech rozhodl stejnˇe – oznaˇcil by výraz Neˇcas jako pojmenovanou entitu bud’ v obou vˇetách, nebo v ˇzádné. V obou pˇr´ıpadech by se tak dopustil chyby.

2.3.2 Metody zaloˇ zen´ e na statistick´ em modelu

Metody zaloˇzené na statistickém modelu k rozpoznán´ı entit vyuˇz´ıvaj´ı strojové uˇcen´ı, pˇri kterém je anotována pouze malá ˇcást trénovac´ıch dat. Stroj vyuˇzije tuto trénovac´ı sadu, aby se z n´ı nauˇcil pracovat s daty, která v této sadˇe nejsou. K uˇcen´ı se pouˇz´ıvá nˇekterý z dataminingových algoritm˚u, který se vyb´ırá podle typu a zamˇeˇren´ı úlohy.

Pˇresnost této metody je vˇzdy menˇs´ı neˇz pˇresnost slovn´ıkové metody. Tato metoda je naopak flexibilnˇejˇs´ı, protoˇze dokáˇze rozhodovat i o datech, která nejsou v trénovac´ı

(17)

sadˇe – má tedy vˇetˇs´ı pokryt´ı. V pˇr´ıkladu uvedeném v kapitole 2.3.1 by statistický model uˇz mohl rozhodnout správnˇe v obou pˇr´ıpadech, pokud by k rozpoznáván´ı pojmenovaných entit vyuˇzil napˇr´ıklad ˇsirˇs´ıho kontextu vˇety.

2.4 Metriky pro mˇ eˇ ren´ı ´ uspˇ eˇ snosti NER n´ astroje

Aby jednotlivé nástroje bylo moˇzné mezi sebou porovnávat, byly zavedeny ukazatele pro mˇeˇren´ı jejich výkonu [6]. Tyto ukazatele vycház´ı z následuj´ıc´ıch hodnot namˇeˇrených pˇri práci nástroje.

True Positive (TP) – stroj spr´avnˇe oznaˇcil v´yraz jako pojmenovanou entitu.

False Negative (FN) – výraz, který je pojmenovanou entitou, nebyl strojem rozpoznán.

False Positive (FP) – stroj oznaˇcil v´yraz za pojmenovanou entitu, aˇckoliv se o pojmenovanou entitu nejedn´a.

Pomoc´ı tˇechto hodnot se vypoˇctou tˇri ukazatele, které urˇcuj´ı kvalitu pouˇzité metody pro rozpoznán´ı pojmenovaných entit. Tˇemito ukazateli jsou:

Pˇresnost (precision) – dána jako pomˇer TP / (TP + FP), udává pomˇer správnˇe nalezených pojmenovaných entit v˚uˇci vˇsem nalezeným entitám.

Úplnost (recall) – definováno jako TP / (TP + FN), udává pomˇer entit, které byly správnˇe oznaˇceny jako pojmenované entity, v˚uˇci vˇsem entitám v textu.

F-m´ıra (F-measure) – je nejˇcastˇeji definována jako harmonický pr˚umˇer pˇresnosti a úplnosti. Tedy vztahem:

F1 = 2 · precision · recall

precision + recall (2.1)

F-m´ıra zahrnuje pˇresnost i úplnost a má nejpˇresnˇejˇs´ı vypov´ıdac´ı hodnotu o pouˇzité metodˇe. Ve výˇse uvedeném vzorci je na pˇresnost i úplnost kladen stejnˇe velký d˚uraz. Nˇekdy se pouˇz´ıvá vyjádˇren´ı, které klade vˇetˇs´ı d˚uraz na

(18)

pˇresnost (napˇr. F_0,5) nebo na úplnost (napˇr. F₂). Výsledná F-m´ıra se pak dopoˇc´ıtává podle vztahu:

F_λ = (1 + λ²) · precision · recall

(λ²· precision) + recall (2.2) Tyto ukazatele se vz´ajemnˇe doplˇnuj´ı v tom smyslu, ˇze souvis´ı s opaˇcn´ym typem chyb.

2.5 Strojov´ e uˇ cen´ı a hled´ an´ı pojmenovan´ ych entit

Strojové uˇcen´ı je vˇedecká discipl´ına, která se zabývá algoritmy, pomoc´ı nichˇz se stroj dokáˇze nauˇcit samostatnému rozhodován´ı. Uˇcen´ı prob´ıhá následuj´ıc´ım zp˚usobem: Stroji je pˇredloˇzena sada trénovac´ıch dat, ze kterých vytvoˇr´ı model. Na základˇe tohoto modelu je pak schopen rozhodnout, jak zacházet s novými daty, aniˇz by se tato data nacházela v trénovac´ı sadˇe. Uˇcen´ı prob´ıhá nˇekterou z obecných technik strojového uˇcen´ı, typicky za vyuˇzit´ı algoritmu SVM (Support Vector Machines), HMM (Skryté Markovovy Modely) nebo CRF (Conditional Random Fields).

V úloze hledán´ı pojmenovaných entit tvoˇr´ı trénovac´ı sadu text, ve kterém jsou pojmenované entity anotovány. Z tohoto textu stroj vytvoˇr´ı model, pomoc´ı kterého klasifikuje pojmenované entity v neanotovaném textu. Úˇcinnost tohoto pˇr´ıstupu je podm´ınˇena jak velkým mnoˇzstv´ım anotovaných dat, tak algoritmem poˇzitým pro uˇcen´ı a rozhodován´ı stroje. Aby se pˇredeˇslo zbyteˇcnému úsil´ı vˇenovanému anotaci dat, pouˇz´ıvá se takzvaný semisupervised pˇr´ıstup – kombinace strojového uˇcen´ı s uˇcitelem a bez uˇcitele – anotovaná data tvoˇr´ı pouze malou ˇcást trénovac´ı sady, zbytek dat je neanotovaný.

Nˇekteré nástroje mohou tyto metody kombinovat a ze správnˇe urˇcených entit vytváˇret slovn´ıky, ze kterých se dále uˇc´ı a pouˇz´ıvaj´ı je pˇri budouc´ıch vyhledáván´ıch.

2.6 Uskal´ı vyhled´ ´ av´ an´ı pojmenovan´ ych entit

Aˇckoliv se na úloze NER pracuje jiˇz od devadesátých let, jsou dnes systémy NER stále omezené v tom smyslu, ˇze systém vyvinutý pro konkrétn´ı doménu text˚u nebude

(19)

ideálnˇe fungovat nad jinou doménou. Pˇretvoˇren´ı systému tak, aby fungoval nad novou doménou, m˚uˇze stát stejné úsil´ı jako tvorba nového systému. To plat´ı jak pro systémy vyuˇz´ıvaj´ıc´ı statistický model, tak pro systémy zaloˇzené na slovn´ıkových metodách.

Stˇeˇzejn´ı domény, kterými se dnes NER zabývá jsou: novinové ˇclánky, bioinfor- matika, molekulárn´ı biologie, vojenské zprávy, dotazy zadávané do vyhledávaˇc˚u, lékaˇrské zprávy atd.

Dalˇs´ım úskal´ım je rozd´ılnost jazyk˚u a jejich bohatost na r˚uzné výjimky. V ˇceˇstinˇe se jediná entita m˚uˇze vyskytovat v mnoha r˚uzných tvarech a je potˇreba, aby ji systém vˇzdy klasifikoval správnˇe. Jiným specifikem jsou jazyky, jejichˇz abecedy obsahuj´ı velké mnoˇzstv´ı znak˚u, jako napˇr´ıklad ˇc´ınˇstina se zhruba padesáti tis´ıci znaky.

2.7 Algoritmy pro vyhled´ av´ an´ı pojmenovan´ ych entit v textu

Obecnˇe je dataminingový algoritmus koneˇcná sada pravidel, která ze vstupn´ıch dat vytvoˇr´ı statistický model. Tento model je dále vyuˇzit ke klasifikaci neznámých dat.

Pouˇzitelnost algoritmu závis´ı na povaze dataminingové úlohy – algoritmus vhodný pro jednu úlohu, nemus´ı být vhodný pro jinou. Neexistuje tedy takový algoritmus, který by byl pouˇzitelný na vˇsechny typy úloh a zároveˇn vykazoval u vˇsech nejlepˇs´ı výsledky.

Pro rozpoznáván´ı pojmenovaných entit je vhodných algoritm˚u v´ıce. Nejˇcastˇeji pouˇz´ıvané a ˇcasem ovˇeˇrené jsou algoritmus podp˚urných vektor˚u (Support Vector Ma- chines – SVM), Skrytý Markov˚uv model (Hidden Markov Model – HMM) a podm´ınˇe- ná náhodná pole (Conditional Random Fields – CRF). Tyto algoritmy jsem také vyuˇzil pˇri realizaci vlastn´ı implementace nástroje pro NER. Algoritmy jsem vybral na základˇe výsledk˚u práce ICDM, která srovnává nejpouˇz´ıvanˇejˇs´ı základn´ı algoritmy dataminingu [7].

(20)

2.7.1 Support Vector Machines

Algoritmus podp˚urných vektor˚u je relativnˇe novým pˇr´ıstupem ke strojovému uˇcen´ı, který umoˇzˇnuje ˇreˇsit problém rozdˇelen´ı do dvou tˇr´ıd (jedná se tedy o binárn´ı kla- sifikátor). Podp˚urný vektor je reprezentant trénovac´ı sady, který slouˇz´ı k vytvoˇren´ı rozhodovac´ı nadroviny, podle které algoritmus rozdˇeluje vstupn´ı vektory do tˇr´ıd.

Tˇechto rozhodovac´ıch nadrovin m˚uˇzeme nalézt v´ıce neˇz jednu, proto je hledán´ı rozhodovac´ı roviny optimalizaˇcn´ı úloha, viz obrázek 2.2. Podp˚urné vektory jsou právˇe body, které tuto rovinu popisuj´ı.

(a) Optim´aln´ı nadrovina (b) Neoptim´aln´ı nadrovina

Obrázek 2.2: Hledán´ı optimáln´ı nadroviny v úloze SVM

Mˇejme sadu trénovac´ıch dat, která jsou klasifikována do dvou tˇr´ıd:

(x₁, Y₁) ... (x_n, Y_n), Y_i ∈ -1, +1

kde x_i ∈ Rⁿje vektor vlastnost´ı i-tého vzorku ze sady trénovac´ıch dat a Y_ije tˇr´ıda do které x_i náleˇz´ı. C´ılem algoritmu je nalézt rozhodovac´ı funkci, která s dostateˇcnou pˇresnost´ı urˇc´ı tˇr´ıdu Y pro vstupn´ı vektor x. Nelineárn´ı SVM klasifikátor pˇriˇrad´ı kaˇzdému vstupn´ımu vektoru xi rozhodovac´ı funkci f (x) = sign(g(x)), kde

g(x) =

m

X

i=1

w_iK(x, s_i) + b

Pokud je pro vstupn´ı vektor x f (x) = 1, znamená to, ˇze x je prvkem tˇr´ıdy Y , pokud f (x) = −1, pak x nen´ı prvkem tˇr´ıdy Y . Symbol s_i oznaˇcuje podp˚urný vektor a m je poˇcet podp˚urných vektor˚u. Výpoˇcetn´ı sloˇzitost funkce g(x) je tedy pˇr´ımo

´

umˇerná ˇc´ıslu m. K(x, si) je jádro, které mapuje vstupn´ı vektory do prostoru s vyˇsˇs´ı

(21)

dimenz´ı, neˇz je dimenze vektoru. Umoˇzˇnuje tak separovat lineárnˇe neseparovatelná data transformac´ı ze vstupn´ıho prostoru (viz obrázek 2.3 vlevo) do prostoru s vyˇsˇs´ı dimenz´ı, ve kterém jsou data separovatelná (viz obrázek 2.3 vpravo).

Obrázek 2.3: Transformace lineárnˇe neseparovatelných dat

Jádrových funkc´ı pouˇz´ıvaných v SVM je nˇekolik. ˇCasto se pouˇz´ıvaj´ı jádra, která vyuˇz´ıvaj´ı skalárn´ı souˇcin a jsou definována pˇredpisem

K(x, s_i) = k(x· s_i)

Dalˇs´ı, ménˇe uˇz´ıvané jádro je napˇr´ıklad polynomické jádro, definované pˇredpisem K(x, s_i) = (1 + x)^d

Promˇenná d je zadávána uˇzivatelem. Volba jádra a jeho implementace zásadnˇe ovlivˇnuje výkonnost SVM algoritmu.

2.7.2 Hidden Markov Model

Skrytý Markov˚uv model je statistická metoda, která modeluje systém se skrytými stavy. Ze systému je tedy pozorovateli viditelný pouze jeho výstup. Vnitˇrn´ı stav systému, který je pozorovateli skrytý, má na výstup pravdˇepodobnostn´ı vliv. Mate- matické základy modelu vyvinul v roce 1966 Leonard E. Baum [8]. Mimo extrakci informace z textu a POS tagging je skrytý Markov˚uv model vhodný také pro roz- poznáván´ı ˇreˇci, ruˇcnˇe psaného textu ˇci gest.

(22)

2.7.3 Conditional Random Fields

Metoda podm´ınˇených náhodných pol´ı je opˇet statistická modelovac´ı metoda. Na poli NLP je obl´ıbená zejména proto, ˇze na rozd´ıl od bˇeˇzných klasifikátor˚u dokáˇze vz´ıt v potaz sousedn´ı vzorky klasifikovaného vzorku. V pˇr´ıpadˇe NER se tedy jedná o kontext, ve kterém je klasifikované slovo zm´ınˇeno. Vyuˇzit´ı této vlastnosti je názornˇe ukázáno v kapitole 2.3.1. ˇCasté vyuˇzit´ı CRF je právˇe v oblasti NLP, dále v oblasti poˇc´ıtaˇcového vidˇen´ı (segmentace obrazu, rozpoznán´ı objekt˚u) nebo vyhledáván´ı gen˚u.

Na CRF se lze d´ıvat jako na pravdˇepodobnostn´ı grafický model, který znázorˇnuje známé závislostn´ı vztahy mezi jednotlivými pozorován´ımi [9], nebo jako na Marko- vova náhodná pole [10]. Tento model je závislý na náhodné promˇenné X, která pˇredstavuje posloupnost pozorován´ı. Uvaˇzujeme neorientovaný graf

G = (V, E), kde {v ∈ V } jsou vrcholy grafu G a {e ∈ E} jsou jeho hrany.

Kaˇzdý vrchol v pˇredstavuje jednu z náhodných promˇenných y_v ∈ Y . Pokud kaˇzdá promˇenná y_v zachová Markovovu vlastnost vzhledem ke grafu G, pak (Y, X) je podm´ınˇené náhodné pole. Struktura grafu G m˚uˇze být teoreticky libovolná. V praxi se vˇsak pˇri modelován´ı posloupnost´ı nejˇcastˇeji vyuˇz´ıvá takové struktury, ve které vrcholy v pˇredstavuj´ıc´ı prvky Y , tvoˇr´ı jednoduchý ˇretˇez prvn´ıho ˇrádu. Toto seˇrazen´ı je ilustrováno na obrázku 2.4 – vyˇsrafované promˇenné jsou generovány modelem, b´ılé nejsou. Obrázek je pˇrevzat z [10].

Obrázek 2.4: Grafické znázornˇen´ı podm´ınˇených náhodných pol´ı s ˇretˇezovou struk- turou.

(23)

3 N´ astroje pro vyhled´ av´ an´ı pojmenovan´ ych entit v textu

Nástroj˚u pro NER existuje celá ˇrada. N´ıˇze jsou uvedeny nˇekteré z nejznámˇejˇs´ıch, které jsou dostupné veˇrejnosti zdarma pro vˇedecké úˇcely [11]. Tyto nástroje se liˇs´ı v mnoha ohledech:

Metody, kterými nástroje pracuj´ı – slovn´ıkové, automatické se strojovým uˇce- n´ım nebo hybridn´ı, které kombinuj´ı slovn´ıkové a statistické metody.

Tˇr´ıdy entit, které nástroj vyhledává a rozpoznává.

Doménový rozsah – nˇekteré mohou být obecné a aplikovatelné na jakýkoliv text, jiné naopak specificky zamˇeˇrené na konkrétn´ı doménu.

Implementace – nˇekteré se pouˇz´ıvaj´ı ve formˇe knihovny nebo plugin˚u, jiné jako webové sluˇzby atd.

Výstup – jelikoˇz neexistuje standard pro zadáván´ı pojmenovaných entit, i vý- stupy nástroj˚u se liˇs´ı. Vˇetˇsinou je výstup ve formˇe objekt˚u nebo textových soubor˚u.

Aˇckoliv se mohou nástroje pro NER v mnohém liˇsit, jedno maj´ı spoleˇcné – pouˇzitý slovn´ık, trénovac´ı sada a dataminingový algoritmus maj´ı zásadn´ı vliv na výkon a efektivitu nástroje.

V následuj´ıc´ı podkapitole jsou struˇcnˇe charakterizovány nejpouˇz´ıvanˇejˇs´ı nástroje.

Rozdˇelen´ı na cizojazyˇcné a ˇceské nástroje je myˇsleno z pohledu vstupn´ıho textu, se kterým nástroj pracuje. Obecnˇe lze nástroj pouˇz´ıt i na jiný jazyk. Jeho úspˇeˇsnost pak závis´ı na m´ıˇre zamˇeˇren´ı nástroje na konkrétn´ı jazyk. Pokud budou jazyky zásadnˇe

(24)

odliˇsné, nástroj pravdˇepodobnˇe nebude vykazovat takové výsledky jako pro jazyk, na který je uzp˚usoben.

3.1 Cizojazyˇ cn´ e n´ astroje

Stanford NER (SNER)

SNER¹ je nástroj pro rozpoznáván´ı pojmenovaných entit implementovaný v jazyce Java a zamˇeˇrený pˇredevˇs´ım na rozpoznán´ı tˇr´ı tˇr´ıd – osoby, organizace a lokality.

V základn´ı verzi obsahuje modely pro anglický jazyk, ale je moˇzné v programu naˇc´ıst vlastn´ı model a nad n´ım pak provádˇet NER. Tento systém vyuˇz´ıvá metodu CRF, která na rozd´ıl od bˇeˇzných klasifikátor˚u dokáˇze vz´ıt v potaz ˇsirˇs´ı kontext a ne- rozhodovat pouze na základˇe jednoho, v daný moment klasifikovaného vzorku.

Illinois Named Entity Tagger (INET)

INET² je vydaván jako samostatný program, který je zaloˇzen na nˇekolika metodách strojového uˇcen´ı: skryté Markovovy modely, v´ıcevrstevné neuronové s´ıtˇe a jiné sta- tistické metody. V p˚uvodn´ı verzi rozpoznával ˇctyˇri tˇr´ıdy pojmenovaných entit, ve stávaj´ıc´ı verzi uˇz dokáˇze rozliˇsit osmnáct tˇr´ıd entit. Pˇri práci mimo jiné vyuˇz´ıvá slovn´ıky sestavené z hesel z wikipedie.

Alias-i LingPipe (LIPI)

LIPI³ je robustn´ı nástroj, který se pouˇz´ıvá nejen pro NER, ale i jiné úlohy na zpra- cován´ı textu a extrakci informace (napˇr´ıklad automatická oprava pˇreklep˚u). Pro NER vyuˇz´ıvá metodu HMM.

OpenCalais Web Service (OCWS)

OCWS⁴ je nástroj v podobˇe webové sluˇzby. Metody rozhran´ı OCWS je moˇzné volat nˇekolika protokoly: SOAP, REST a HTTP. Podobnˇe jako u LIPI se jedná o robustn´ı

1http://www-nlp.stanford.edu/software/CRF-NER.shtml

2http://cogcomp.cs.illinois.edu/page/software view/NETagger

3http://alias-i.com/lingpipe

4http://www.opencalais.com/documentation/calais-web-service-api

(25)

nástroj s ˇsirˇs´ım zamˇeˇren´ım, který vyhledává nejen entity, ale také napˇr´ıklad fakta a události. Výsledky pak dokáˇze mapovat na hesla na wikipedii. OCWS podporuje angliˇctinu, francouzˇstinu a ˇspanˇelˇstinu.

General Architecture for Text Engineering (GATE)

GATE⁵ je software, který se zabývá zpracován´ım textu velmi zeˇsiroka. Na jeho vývoji, který prob´ıhá od roku 1995, pracuje rozsáhlá komunita vývojáˇr˚u i uˇzivatel˚u po celém svˇetˇe. Celá architektura je rozdˇelena na nˇekolik produkt˚u podle zamˇeˇren´ı a uˇzit´ı. Jsou jimi:

GATE Developer – integrované vývojové prostˇred´ı urˇcené ke zpracován´ı jazyka a textu spolu se systémem pro extrakci informace a sadou plugin˚u (tyto pluginy m˚uˇze vyv´ıjet sám uˇzivatel). Celé toto prostˇred´ı je zamˇeˇrené na angliˇctinu.

GATE Embedded – objektová knihovna urˇcená pro import a pouˇzit´ı v jiných aplikac´ıch a programech. Umoˇzˇnuje pˇr´ıstup ke vˇsem sluˇzbám GATE Develo- per.

GATE Teamware – urˇceno pro rozs´ahl´e komerˇcn´ı projekty.

M´ımir (Multi-paradigm Information Management Index and Repository) – nástroj, který umoˇzˇnuje fulltextové vyhledáván´ı a anotaci dat a je pouˇzitelný na rozsáhlé textové korpusy (aˇz TB textu).

3.2 Cesk´ ˇ e n´ astroje

Common Part-of-speech Tagger (COMPOST)

COMPOST⁶ je program pro vyhledáván´ı entit v ˇceském a anglickém jazyce, ho- landˇstinˇe a islandˇstinˇe. Je psaný pouze pro operaˇcn´ı systém linux a vyv´ıjený na fakultˇe matematiky a fyziky Univerzity Karlovy v Praze. Nemá grafické uˇzivatelské rozhran´ı – spouˇst´ı se pouze z pˇr´ıkazového ˇrádku. Pojmenované entity vyhledává kombinován´ım metod strojového uˇcen´ı s uˇcitelem a bez uˇcitele.

5https://gate.ac.uk

6http://ufal.mff.cuni.cz/compost

(26)

MorphoDiTa

MorphoDiTa⁷ (Morphological Dictionary and Tagger) je v´ıceúˇcelový lingvistický nástroj vydaný pod licenc´ı LGPL, který vznikl na Univerzitˇe Karlovˇe v Praze. Ne- jedná se pˇr´ımo o nástroj pro NER, ale umoˇzˇnuje provádˇet tokenizaci, morfologickou analýzu a obsahuje také lingvistické modely. Nástroj MorphoDiTa lze pouˇz´ıt jak samostatnˇe, tak jako knihovnu pro jazyk Java. V práci jsem jej vyuˇzil pro z´ıskán´ı morfologických znaˇcek z textu.

Treex

Treex⁸ (formálnˇe TectoMT) je modulárn´ı nástroj pro NLP implementovaný v jazyce Python, který také vzniká na Univerzitˇe Karlovˇe v Praze. Jeho silnou stránkou je vysoká modularizace, d´ıky které je snadné jej zaˇclenit do vlastn´ıho projektu a dále rozv´ıjet. Skládá se z takzvaných blok˚u, které maj´ı jednotné, objektovˇe orientované rozhran´ı a usnadˇnuj´ı tak vzájemnou interakci. Treex je také moˇzné vyzkouˇset pˇres webové rozhran´ı.

7http://ufal.mff.cuni.cz/morphodita

8http://ufal.mff.cuni.cz/treex

(27)

Tabulka3.1:Srovnán´ıvybranýchnástroj˚uproNER NástrojSA1 WS2 LIB3 AlgoritmusJazyk4 LicenceImplementaceVývoj5 SNER•◦•CRFEN,DE,ES,ZHGNUGPLJava2006-2015 INET•◦◦HMMENzdarmapro vˇedeckéúˇcelyJava2013-2015 LIPI◦◦•HMMEN,NL,HI,ES, DE,FR,ZH,ARzdarmapodAGPLJava2003-2011 OCWS◦•◦—EN,FR,ESzdarmaprokomerˇcn´ıa nekomerˇcn´ıuˇzit´ı—2008-2014 GATE•◦•FSAENGNULGPJava2003-2014 LIBSVM◦◦•SVM—zdarmase zachován´ımlicenceC++,Java2000-2014 ApacheUIMA◦◦•HMM,BSFENapacheC++,Java2006-2015 LingvoNER◦◦•Slovn´ık.metodyCZGNUGPLJava2010-2013 1StandAlone–nástrojlzepouˇz´ıtjakosamostatnˇebˇeˇz´ıc´ıprogram. 2 WebService–nástrojjeposkytovánjakowebovásluˇzba. 3 Library–nástrojjeposkytovánjakoknihovna,kteroulzevloˇzitdovlastn´ıhoprogramu. 4 Myˇslenjejazyk,vekterémnástrojvyhledáváentity. 5 Uvedenyjsourokyvydán´ıprvn´ıanejnovˇejˇs´ıverzenástroje.

(28)

4 N´ avrh a implementace n´ astroje pro NER

Vlastn´ı implementaci jsem navrhl tak, aby vyuˇz´ıvala moˇznost´ı v´ıce dataminingových algoritm˚u zároveˇn a kombinovala jejich silné stránky. Ve vzniklém nástroji jsou pouˇzity dataminingové algoritmy SVM, HMM, CRF (viz kapitolu 2.7) a slovn´ıková metoda pro vyhledáván´ı pojmenovaných entit. Z pohledu metodiky práce se tedy jedná o hybridn´ı nástroj. Algoritmy HMM, CRF a SVM jsou provádˇeny extern´ımi nástroji LIPI, SNER a LIBSVM (viz tabulku 3.1). Dále jsem implementoval slovn´ıkovou metodu, která je souˇcást´ı výsledného programu. Program jsem pracovnˇe nazval MANER (Multiple Algorithm Named Entity Recognizer). Pˇri psan´ı programu jsem se inspiroval knihou Umˇen´ı programován´ı [12], která je dobrým zdrojem návod˚u a pˇr´ıklad˚u programován´ı sloˇzitˇejˇs´ıch datových struktur a matematických výpoˇct˚u.

4.1 Popis navrˇ zen´ e implementace

Navrˇzená implementace, znázornˇená na obrázku 4.1, pracuje ve dvou základn´ıch fáz´ıch – fáze uˇcen´ı a fáze rozpoznáván´ı.

4.1.1 F´ aze uˇ cen´ı

V této fázi je stroji poskytnuta trénovac´ı sada, na které se jednotlivé ˇcásti nástroje nauˇc´ı rozpoznávat pojmenované entity. Protoˇze jednotlivé nástroje nepracuj´ı se stejnými vstupn´ımi daty, je potˇreba trénovac´ı data vˇzdy pˇrevést do formátu sro- zumitelného pro daný nástroj. Kaˇzdý ze tˇr´ı nástroj˚u si na základˇe trénovac´ıch dat vytvoˇr´ı vlastn´ı model. Pomoc´ı tohoto modelu pak rozpoznává pojmenované entity ve druhé fázi (rozpoznáván´ı). Tuto ˇcinnost staˇc´ı provést pouze jednou, kdyˇz je potˇreba nástroj nauˇcit rozpoznávat entity nad jinou doménou.

(29)

Obrázek 4.1: Návrh implementace nástroje pro NER

4.1.2 F´ aze rozpozn´ av´ an´ı

V této fázi jsou jiˇz nástroje natrénovány a pˇripraveny rozpoznávat pojmenované entity ve vstupn´ım textu. Rozpoznáván´ı prob´ıhá ve dvou kroc´ıch:

Krok 1 – vyhled´an´ı entit

V tomto kroku vˇsechny ˇctyˇri nástroje provedou své vyhledáván´ı (provede se tedy tˇrikrát statistická metoda a jednou slovn´ıková metoda). Výstupem jsou ˇctyˇri seznamy pojmenovaných entit.

(30)

Krok 2 – slouˇcen´ı v´ysledk˚u

Ctyˇri seznamy nalezen´ˇ ych entit z pˇredeˇsl´eho kroku jsou nyn´ı slouˇceny do jednoho.

Slouˇcen´ı se ˇr´ıd´ı pˇredeˇslým úspˇechem jednotlivých nástroj˚u ve vyhledáván´ı entit.

Kaˇzdému nástroji je podle jeho pˇresnosti pˇridˇelena váha (ˇc´ıslo v intervalu <0; 1>).

Na základˇe tˇechto vah se urˇc´ı nejpravdˇepodobnˇejˇs´ı kandidáti na správnˇe nalezené pojmenované entity. Vzniklý seznam (ve formˇe oznaˇckovaného vstupn´ıho dokumentu s nalezenými pojmenovanými entitami) je výstupem tohoto kroku a celého nástroje.

4.2 Pouˇ zit´ y datov´ y korpus

K demonstraci úlohy byl vybrán korpus dat z´ıskaný ze stránek ˇCSFD ( ˇCesko- Slovenská Filmová Databáze). Data byla z´ıskána postupným parsován´ım ˇzebˇr´ıˇck˚u film˚u, amatérských film˚u, TV poˇrad˚u a seriál˚u. Vˇsechny filmy pocház´ı z ˇceské pro- dukce. Pro parsován´ı dat jsem v jazyce Java implementoval parser, který vyuˇz´ıvá knihovnu jsoup¹ k parsován´ı HTML a manipulaci s DOM. Výsledný korpus ve formátu XML obsahuje název filmu, url adresu filmu, rok vzniku, hodnocen´ı, popis zápletky, výpis lid´ı, kteˇr´ı se pod´ıleli na vzniku filmu spolu s odkazy na jejich profily, výˇcet vˇsech komentáˇr˚u k filmu spolu s udˇeleným hodnocen´ım, jménem ko- mentátora a odkazem na jeho profil. Datová struktura dokumentu je znázornˇena na obrázku 4.2. Datový korpus a zdrojové kódy parseru jsou obsaˇzeny na pˇriloˇzeném CD. Tabulka 4.1 obsahuje údaje o staˇzených datech.

1http://jsoup.org; intuitivn´ı API pro práci s HTML dokumenty, které vyuˇz´ıvá podobnou anotaci jako CSS a JS.

(31)

Obrázek 4.2: Struktura staˇzených dat Tabulka 4.1: Údaje o staˇzených datech

Poˇcet vˇet 757 487 Poˇcet film˚u 3 571 Poˇcet komentáˇr˚u 227 893 Poˇcet komentátor˚u (unikátn´ı) 19850

Poˇcet akt´er˚u (unik´atn´ı) 9710

Nástroj MANER lze pro stahován´ı dat o filmech pouˇz´ıt následuj´ıc´ım zp˚usobem:

java -jar maner.jar -download [yearFrom] [yearTo] [movieType]

Tyto tˇri argumenty slouˇz´ı k filtrov´an´ı film˚u, o kter´ych se budou data stahovat.

Argumenty yearFrom a yearTo omezuj´ı filmy rokem vzniku. Argument movieType omezuje filmy typem.

(32)

Povolen´e hodnoty tohoto argumentu jsou:

0 – filmy 1 – video filmy 2 – TV filmy 3 – TV seriály 4 – TV poˇrady 7 – studentské filmy 8 – amatérské filmy

Výsledek stahován´ı je uloˇzen do XML souboru s následuj´ıc´ı cestou:

./files/dumps/list-[movieType]-1-from-[yearFrom]-to-[yearTo].xml

Stahován´ı dat je omezené na deset poˇzadavk˚u za minutu. Pˇredejde se tak vy- sokému mnoˇzstv´ı poˇzadavk˚u na server, moˇznému podezˇren´ı na DoS² utok a n´´ asle- dnému zablokován´ı IP adresy.

Staˇzená data jsou dále pouˇzita k vytvoˇren´ı testovac´ı a trénovac´ı sady a slovn´ıku.

Metody kter´e jsou k tomu pouˇzity ˇctou data vˇzdy pouze z jednoho souboru, a proto n´astroj umoˇzˇnuje spojit nˇekolik XML soubor˚u do jednoho pomoc´ı pˇr´ıkazu:

java -jar maner.jar -merge [directoryWithXMLFiles] [outputFile]

Data lze z XML formátu do textové podoby bez znaˇcek pˇrevést pˇr´ıkazem:

java -jar maner.jar -convert [inputXMLFile] [outputDirectory]

2Denial of Service

(33)

4.3 Pouˇ zit´ e znaˇ cen´ı pojmenovan´ ych entit

Jako standard pro oznaˇcován´ı pojmenovaných entit ve výstupn´ım textu jsem pouˇzil konvence podobné CNEC. Tedy nalezené entity jsou vyznaˇceny ve formˇe:

Hrdiny filmu <PERS Petera Kerekese> jsou vojenˇst´ı kuchaˇri z r˚uzn´ych kout˚u

<LOC Evropy>.

Znaˇcen´ı ve slovn´ıku a v trénovac´ı a testovac´ı sadˇe je odliˇsné od znaˇcen´ı ve výstupn´ım souboru, a to zejména kv˚uli odliˇsné struktuˇre soubor˚u. Na rozd´ıl od výstupn´ıho souboru, který je ve formˇe souvislého textu, jsou trénovac´ı a testovac´ı sada a slovn´ık vˇzdy ve formˇe jednoho hesla na ˇrádek. A proto jsou ve tvaru:

Hrdiny O

filmu O

Petra PERS

Kerekese PERS

Vˇsechny druhy entit, které nástroj MANER vyhledává, jsou spolu s jejich ozna- ˇcen´ım shrnuty v tabulce 4.2. Ke klasicky vyhledávaným entitám jsem nav´ıc pˇridal entity specifické pro vybranou doménu dat. Jedná se o název filmu a pˇrezd´ıvky (zejména pˇrezd´ıvky komentuj´ıc´ıch, tedy jména uˇzivatel˚u ˇCSFD).

Tabulka 4.2: Znaˇcen´ı druh˚u vyhled´avan´ych entit

Druh entity Oznaˇcen´ı (SNER, LIPI) Oznaˇcen´ı (SVM)

Osoba PERS 1

Lokalita LOC 2

Casov´ˇ y ´udaj TIME 4

N´azev organizace ORG 6

N´azev filmu MOV 7

Pˇrezd´ıvka NICK 3

Slovo, kter´e nen´ı entitou O 0

(34)

4.4 Tvorba slovn´ıku z dat z ˇ CSFD

Pro vytvoˇren´ı slovn´ıku ze staˇzen´ych dat pouˇzijeme pˇr´ıkaz:

java -jar maner.jar -dctbuild [inputXMLFile] [outputDictionary]

Argument inputXMLFile je soubor, který vznikl po vykonán´ı pˇr´ıkazu download nebo merge (kapitola 4.2). Ve výsledném slovn´ıku jsou obsaˇzena vˇsechna jména film˚u, herc˚u, tv˚urc˚u film˚u a uˇzivatel˚u, která byla k nalezen´ı ve vstupn´ım souboru. Tato jsou oznaˇcena pˇr´ısluˇsným druhem entity a to stylem popsaným v kapitole 4.3.

4.5 Pˇ r´ıprava tr´ enovac´ı a testovac´ı sady

Knihovny SNER a LIPI vyuˇz´ıvaj´ı podobný vstupn´ı formát trénovac´ı a testovac´ı sady: [token][tabulátor][tˇr´ıda entity pˇr´ısluˇsej´ıc´ı tokenu]. Liˇs´ı se pouze v pojmenován´ı druh˚u entit. Ve formátu pro LIPI je rozliˇseno, zda se jedná o zaˇcátek (prefix B-) pojmenované entity nebo pokraˇcován´ı v´ıcetokenové entity, která zaˇcala na nˇekterém z pˇredchoz´ıch ˇrádk˚u (prefix I-). Pro pˇreveden´ı trénovac´ı sady nástroje SNER na trénovac´ı sadu pro nástroj LIPI slouˇz´ı pˇr´ıkaz:

java -jar maner.jar -lipiconvert [pathToSNERTrainFile] [outputFile]

Algoritmus provádˇej´ıc´ı konverzi vycház´ı z pˇredpokladu, ˇze mezi dvˇema entitami je alespoˇn jedno slovo nebo znak, které nen´ı entitou. Tedy kaˇzdou entitu, jeˇz následuje bezprostˇrednˇe za jinou entitou a má stejnou tˇr´ıdu, oznaˇc´ı jako po- kraˇcován´ı pˇredchoz´ı entity. Tento pˇr´ıstup je do jisté m´ıry naivn´ı, ale poruˇsen´ı tohoto pˇredpokladu nastane tak ojedinˇele (napˇr´ıklad v trénovac´ı a testovac´ı sadˇe nenastalo), ˇze je moˇzné jej pouˇz´ıt, aniˇz by t´ım utrpˇela následná pˇresnost vytvoˇreného uˇc´ıc´ıho modelu. Pro zjednoduˇsen´ı jsem pro trénován´ı SVM algoritmu pouˇzil stejný formát jako je formát SNER, který je pˇred spuˇstˇen´ım programu pˇreveden na vektory.

Obˇe sady byly vytvoˇreny z dat staˇzených z ˇCSFD. Ze vˇsech komentáˇr˚u a zápletek jsem náhodnˇe vybral tˇri tis´ıce vˇet na trénovac´ı sadu a 600 vˇet na testovac´ı sadu,

(35)

rovnomˇernˇe vˇzdy polovinu vˇet ze zápletek a polovinu z komentáˇr˚u. Vybraný text jsem proˇsel a ke kaˇzdému tokenu pˇriˇradil odpov´ıdaj´ıc´ı druh entity. Takto oznaˇceným dat˚um se ˇr´ıká golden data (zlatá data), nebot’ se vycház´ı z pˇredpokladu, ˇze jsou správná a stroj se z nich m˚uˇze uˇcit. Tvorba obsáhlejˇs´ı sady je velmi zdlouhavá ˇcinnost a projevuje se to na vysoké hodnotˇe takto anotovaných dat. Vzniklá trénovac´ı sada je povaˇzována za malou (ve srovnán´ı napˇr´ıklad s trénovac´ı sadou CNEC, která obsahuje 9000 vˇet).

4.5.1 Automatick´ e rozˇ siˇ rov´ an´ı tr´ enovac´ı sady

Aby se pˇri rozpoznáván´ı pojmenovaných entit dosáhlo co nejlepˇs´ıch výsledk˚u, vyuˇzil jsem automatické rozˇs´ıˇren´ı trénovac´ı sady. Protoˇze manuáln´ı oznaˇcován´ı entit je ˇcasovˇe nároˇcná ˇcinnost, je moˇzné trénovac´ı sadu rozˇs´ıˇrit automaticky. Obecnˇe se v dataminingu vyuˇz´ıvá v´ıce pˇr´ıstup˚u (napˇr´ıklad generován´ı virtuáln´ıch pˇr´ıklad˚u na základˇe známých dat). U této konkrétn´ı úlohy je vhodné k rozˇs´ıˇren´ı sady pouˇz´ıt vzniklý slovn´ık entit. Trénovac´ı sadu jsem tedy rozˇs´ıˇril o slovn´ık vˇsech jmen a pˇre- zd´ıvek staˇzených z ˇCSFD.

4.5.2 Tr´ enovac´ı data pro n´ astroj LIBSVM

Trénovac´ı sada pro nástroj LIBSVM je zásadnˇe odliˇsná od trénovac´ıch sad dvou pˇredchoz´ıch nástroj˚u. Je to zp˚usobeno pˇredevˇs´ım podstatou algoritmu SVM. Pˇred trénován´ım nástroje je potˇreba kaˇzdý token pˇrevést na vektor. Kaˇzdá poloˇzka tohoto vektoru urˇcitým zp˚usobem charakterizuje daný token. Poloˇzky vektoru jsem sestavil z morfologických znaˇcek ke kterým jsem nav´ıc pˇridal vlastn´ı charakteristiky popsané n´ıˇze.

Morfologick´e znaˇcky

Pro charakterizaci tokenu jsem vyuˇzil morfologické znaˇcky. Morfologická znaˇcka je ˇretˇezec, který vznikne jako výstup morfologické analýzy. Kaˇzdý jeho znak pˇredstavuje jednu morfologickou kategorii.

(36)

Napˇr´ıklad znaˇcka Praha: NNFS1---A----

nese o slovˇe Praha informaci, kter´a je pops´ana v tabulce 4.3.

Tabulka 4.3: Význam morfologických znaˇcek pro slovo Praha pozice znak význam

1 N podstatné jméno 2 N obyˇcejné substantivum 3 F ˇzenského rodu

4 S jednotn´eho ˇc´ısla 5 1 v prvn´ım p´adˇe

11 A afirmativ, tedy slovo je bez negativn´ı pˇredpony ne

Pokud je na nˇekteré pozici pomlˇcka, znamená to, ˇze tato hodnota u daného slova nedává smysl (napˇr´ıklad znaˇcka na desáté pozici urˇcuje stupeˇn). Kompletn´ı dokumentaci s popisem kaˇzdé znaˇcky a jej´ıch moˇzných hodnot lze nalézt v [13]. Pro z´ıskán´ı morfologických znaˇcek k danému tokenu jsem pouˇzil nástroj MorphoDiTa.

Struktura vstupn´ıch vektor˚u

Vektory v trénovac´ı sadˇe maj´ı celkem dvacet poloˇzek. Prvn´ı poloˇzka pˇredstavuje tˇr´ıdu entity daného tokenu. Jedná se o ˇc´ıslo v rozsahu nula aˇz sedm. Nula je vy- hrazena pro slova, která nejsou pojmenovanými entitami a ostatn´ı ˇc´ısla pˇredstavuj´ı jednotlivé tˇr´ıdy pojmenovaných entit (viz tabulku 4.2). Dalˇs´ıch patnáct poloˇzek vektoru pˇredstavuje morfologické znaˇcky daného tokenu. Poloˇzky na pozici 17, 18, 19 a 20 nabývaj´ı pouze hodnot jedna a nula, a uchovávaj´ı tyto informace:

pozice 17 – zda je daný token delˇs´ı neˇz dva znaky pozice 18 – zda daný token zaˇc´ıná velkým p´ısmenem pozice 19 – zda je daný token celý velkými p´ısmeny pozice 20 – zda je daný token na zaˇcátku vˇety

(37)

Pˇrevod tr´enovac´ı sady do form´atu SVM

Pro pˇrevod tr´enovac´ı sady slouˇz´ı pˇr´ıkaz:

java -jar maner.jar -svmconvert [inputFile] [outputFile]

Vstupn´ı soubor mus´ı být ve formátu trénovac´ı sady pro nástroj SNER (tedy vˇzdy [token] [tˇr´ıda] na jednom ˇrádku). Výstupn´ı soubor je pak ve formátu jednoho podp˚ur- ného vektoru na ˇrádek.

Tedy pro Praha : NNFS1---A---- bude v´ystupem:

2 1:6 2:37 3:1 4:3 5:1 11:1 16:1 17:1 18:0 19:1

Význam jednotlivých ˇc´ısel je uveden výˇse. Je d˚uleˇzité podotknout, ˇze prvn´ı ˇc´ıslo udává tˇr´ıdu pojmenovaných entit (2 = LOC ) do které vektor náleˇz´ı a je uvedeno samostatnˇe. Vˇsechna ostatn´ı jsou po dvojici a to ve formˇe: [pozice poloˇzky]:[hodnota poloˇzky]. Poloˇzky které nejsou urˇcené (v morfologické znaˇcce maj´ı pomlˇcku) se ve vektoru v˚ubec neobjev´ı.

4.5.3 Ruˇ cn´ı anotace dat

Pro zjednoduˇsen´ı ruˇcn´ı anotace dat n´astroj MANER implementuje n´asleduj´ıc´ı postup:

1. lemmatizace libovolnˇe velk´eho souboru s textem – data jsou pˇrevedena do podoby jedna vˇeta na ˇr´adek,

2. náhodný výbˇer zadaného poˇctu vˇet,

3. tokenizace – data jsou pˇrevedena do podoby jeden token na ˇr´adek,

4. pˇriˇrazen´ı výchoz´ı tˇr´ıdy entity kaˇzdému tokenu – data jsou pˇrevedena do podoby [token][tabulátor][výchoz´ı tˇr´ıda entity].

(38)

Pro proveden´ı dan´e sekvence operac´ı slouˇz´ı pˇr´ıkazy:

java -jar maner.jar -lemmatize [inputFile]

java -jar maner.jar -limitlemmas [inputFile] [n]

java -jar maner.jar -tokenize [inputFile]

java -jar maner.jar -defaultclass [inputFile] [defaultClass]

Kaˇzdý pˇr´ıkaz vytváˇr´ı nový soubor (se stejnou cestou jako vstupn´ı soubor, pouze mu pˇridá novou koncovku), který pˇrej´ımá následuj´ıc´ı pˇr´ıkaz. Po vykonán´ı této sekvence je potˇreba proj´ıt celý výsledný soubor a kaˇzdé entitˇe pˇriˇradit jej´ı odpov´ıdaj´ıc´ı tˇr´ıdu. Výstupem tohoto kroku jsou jiˇz výˇse zm´ınˇená golden data. V tabulce 4.4 jsou uvedeny údaje o ruˇcnˇe oznaˇcených datech. Je patrné a oˇcekávatelné, ˇze vˇetˇsina slov nejsou pojmenované entity. Pomˇer rozdˇelen´ı jednotlivých tˇr´ıd je na náhodnˇe vybraných datech velmi podobný v trénovac´ı i testovac´ı sadˇe. V tabulce je také uvedeno, jak se zmˇenila trénovac´ı sada po automatickém rozˇs´ıˇren´ı.

Tabulka 4.4: ´Udaje o tr´enovac´ı a testovac´ı sadˇe

Tr´enovac´ı sada Testovac´ı sada Rozˇs´ıˇren´a tr. sada

Poˇcet vˇet 3 000 600 12 000

Poˇcet slov 49 768 9 861 208 962

Poˇcet jmen (PERS) 1 904 340 22 134

Poˇcet lokalit (LOC) 519 66 519

Poˇcet n´azv˚u film˚u (MOV) 340 60 10 481 Poˇcet ˇcas. ´udaj˚u (TIME) 148 31 14 432

Poˇcet organizac´ı (ORG) 136 38 136

Poˇcet pˇrezd´ıvek (NICK) 59 10 28 695

Poˇcet ne-entit (O) 46 609 9 304 132 647

Procento entit 6,35 % 5,65 % 36,5 %

(39)

4.6 Tr´ enov´ an´ı NER n´ astroj˚ u

Po vytvoˇren´ı trénovac´ıch sad je moˇzné je pouˇz´ıt k trénován´ı jednotlivých nástroj˚u.

Pˇr´ıkazy pro tr´enov´an´ı jsou:

java -jar maner.jar -svmtrain [inputFile] [outputFile]

java -jar maner.jar -lipitrain [inputFile] [outputFile]

java -jar maner.jar -snertrain [propertiesFile]

U nástroj˚u LIBSVM a LIPI je rozhran´ı stejné. Argument inputFile je cesta ke vstupn´ı trénovac´ı sadˇe v pˇr´ısluˇsném formátu a argument outputFile je cesta, kam se uloˇz´ı natrénovaný model. U trénován´ı nástroje SNER je rozhran´ı odliˇsné. Jediný argument propertiesFile je cesta k souboru s nastaven´ım trénovac´ıho nástroje. Tento soubor mimo jiné obsahuje i nastaven´ı vstupn´ıho a výstupn´ıho souboru. Pˇr´ıklad takového souboru lze nalézt na pˇriloˇzeném CD. Cesta k souboru je:

./MANER/files/SNER/csfdner.prop.

Trénovac´ı sada pro nástroj SVMLIB mus´ı být nejprve pˇrevedena do formátu vektor˚u (viz kapitolu 4.5.2). Co se týˇce doby trénován´ı nástroj˚u, jsou zde zásadn´ı rozd´ıly.

Nástroj LIBSVM se na trénovac´ı sadˇe uˇcil nejkratˇs´ı dobu (necelých 7 sekund), nástroj SNER se uˇcil 27 sekund a nástroji SNER vytváˇren´ı modelu zabralo dokonce 9,5 minuty. Uvedené hodnoty byly namˇeˇreny na poˇc´ıtaˇci s konfigurac´ı uvedenou v tabulce 4.5. Na stejném poˇc´ıtaˇci byly provádˇeny i veˇskerá dalˇs´ı testován´ı.

Tabulka 4.5: Konfigurace poˇc´ıtaˇce, na kterém bylo provádˇeno testován´ı Operaˇcn´ı systém Windows 8.1 Pro

Velikost RAM 6 GB

Procesor Intel^® Core i3-3227U, CPU @ 1,90 GHz 1,90 GHz Typ syst´emu 64bitov´y

V tabulce 4.6 jsou uvedeny doby trénován´ı jednotlivých nástroj˚u na p˚uvodn´ı trénovac´ı sadˇe i na rozˇs´ıˇrené trénovac´ı sadˇe. ˇCasy jsou uvedeny ve formátu hh:mm:ss.

(40)

Tabulka 4.6: Doba trván´ı trénován´ı jednotlivých nástroj˚u Základn´ı trénovac´ı sada Rozˇs´ıˇrená trénovac´ı sada

SNER 00:09:11 01:29:42

LIPI 00:00:30 00:01:21

LIBSVM 00:01:02 02:35:44

4.7 Testov´ an´ı NER n´ astroj˚ u

Souˇcást´ı nástroje je také rozhran´ı pro jeho otestován´ı. Pro otestován´ı je potˇreba sada dat ve stejném formátu jako trénovac´ı data. Aby byly výsledky testován´ı odpov´ıdaj´ıc´ı, mˇela by se data v testovac´ı sadˇe liˇsit, ale také by se mˇelo jednat o data ze stejné domény jako data v trénovac´ı sadˇe. Otestován´ı se provede pˇr´ıkazem:

java -jar maner.jar -test [inputFile] [snerModelFile]

[lipiModelFile] [svmModelFile] [outputFile]

Nástroj MANER naˇcte ze vstupn´ıho souboru správné tˇr´ıdy jednotlivých entit a pˇredá nástroj˚um pro rozpoznáván´ı entit pouze ˇcistá data. Po zpracován´ı vyhodnot´ı výsledky vˇsech nástroj˚u pomoc´ı správných odpovˇed´ı a výsledky uloˇz´ı do výstupn´ıho souboru.

Tyto v´ysledky obsahuj´ı poˇcty TP, FP, FN, pˇresnost, ´uplnost a F-m´ıru.

4.8 Pouˇ zit´ı NER n´ astroj˚ u samostatnˇ e

Mimo to, ˇze lze nástroj MANER pouˇz´ıt jako celek, lze také pouˇz´ıt pouze jednotlivé nástroje. M˚uˇzeme tak zjistit, jak hodnotil daný vstupn´ı text kaˇzdý nástroj. Rozhran´ı pro samostatné pouˇzit´ı nástroj˚u je:

java -jar maner.jar -svm [inputFile] [modelFile]

java -jar maner.jar -lipi [inputFile] [modelFile]

java -jar maner.jar -sner [inputFile] [modelFile]

Argument inputFile je cesta ke vstupn´ımu souboru s prost´ym textem. Argument modelFile je cesta k modelu, jehoˇz tvorbu popisuje kapitola 4.6. V´ystup jednot-

(41)

livých nástroj˚u je vytiˇstˇen na standardn´ı výstup. Pokud bychom chtˇeli zkontrolovat vyhodnocen´ı slovn´ıkové metody, pouˇzijeme pˇr´ıkaz:

java -jar maner.jar -dictionary [inputFile] [dictionaryFile]

Argument dictionaryFile je soubor se slovn´ıkem. Tvorba slovn´ıku je pops´ana v kapitole 4.4.

(42)

5 Testov´ an´ı navrˇ zen´ eho n´ astroje

V této kapitole jsou shrnuty výsledky namˇeˇrené pˇri bˇehu programu. Program byl natrénován a otestován pomoc´ı testovac´ı a trénovac´ı sady vytvoˇrené v rámci práce – tedy pomoc´ı dat staˇzených z webu ˇCSFD. V tabulce 5.1 jsou shrnuty výsledky testu programu pˇred automatickým rozˇs´ıˇren´ım trénovac´ı sady pomoc´ı slovn´ıku. Uvedená hodnota vˇzdy pˇredstavuje F-m´ıru (tedy kombinaci pˇresnosti a úplnosti) konkrétn´ıho nástroje. F-m´ıra je v tomto pˇr´ıpadˇe harmonický pr˚umˇer pˇresnosti a úplnosti (viz kapitolu 2.4). Trénovac´ı a testovac´ı sady pouˇzité pro otestován´ı nástroje jsou popsány v tabulce 4.4.

Tabulka 5.1: Výsledky testován´ı nástroje MANER pˇred automatickým rozˇs´ıˇren´ım trénovac´ı sady

Tˇr´ıda Testovan´y n´astroj

SNER LIPI LIBSVM slovn´ık MANER PERS 0,801 0,131 0,721 0,885 0,952

LOC 0,666 0,4 0,0 0,0 0,652

TIME 0,415 0,586 0,384 0,0 0,578

ORG 0,211 0,211 0,0 0,0 0,4

MOV 0,052 0,027 0,0 0,874 0,787

NICK 0,0 0,011 0,0 0,71 0,551

O 0,917 0,888 0,922 0,933 0,952

Z tabulky 5.1 je patrné, ˇze nejlépe nástroj vyhledával jména lid´ı a datové údaje.

Jména lid´ı vyhledával nejlépe proto, ˇze jejich zastoupen´ı v trénovac´ı sadˇe bylo nejvyˇsˇs´ı. Datových údaj˚u nebylo mnoho, ale od bˇeˇzného textu jsou jednoduˇse rozliˇsi- telné. Nejlépe toho vyuˇz´ıvá algoritmus SVM, který na slova pohl´ıˇz´ı z morfologického hlediska. Naopak ostatn´ı tˇr´ıdy pro tento algoritmus byly problémové právˇe z tohoto d˚uvodu.

(43)

Dále je patrné, ˇze slovn´ıková metoda nepˇresahuje rámec definovaného slovn´ıku, a rozpoznává pouze druhy pojmenovaných entit, které jsou ve slovn´ıku definovány.

Obecnˇe si ze vˇsech nástroj˚u nejlépe vedl nástroj SNER. Lze zde vypozorovat jistou souvislost mezi dobou trénován´ı nástroje a jeho úspˇeˇsnost´ı, viz tabulku 4.6.

Pˇred t´ım, neˇz se provedlo testován´ı celého nástroje MANER, byly výsledky tes- tován´ı d´ılˇc´ıch nástroj˚u pouˇzity k sestaven´ı tabulky vah. Jako váha nástroje pro konkrétn´ı tˇr´ıdu entit slouˇz´ı jeho pˇresnost pˇri testován´ı. V podstatˇe se tedy jedná o tabulku pˇresnost´ı jednotlivých nástroj˚u. Jedinou výjimkou je tˇr´ıda O. Aˇckoliv je zde oznaˇcována jako tˇr´ıda pojmenované entity, ve skuteˇcnosti se o pojmenovanou entitu nejedná. Protoˇze je jej´ı zastoupen´ı v bˇeˇzném textu nejvyˇsˇs´ı, nástroj je touto tˇr´ıdou pˇreuˇcen. Pokud by j´ı z˚ustala jej´ı pˇresnost, pak by vˇetˇsinu skuteˇcných pojme- novaných entit v textu nástroj oznaˇcil tˇr´ıdou O. Proto byla v tabulce vah u kaˇzdého nástroje pro tˇr´ıdu O pouˇzita pˇresnost 0,01. Váhy, která vznikly pˇri prvn´ım testován´ı, jsou uvedeny v tabulce 5.2.

Tabulka 5.2: Váhy pouˇzité pˇri testován´ı nástroje MANER pˇred automatickým rozˇs´ıˇren´ım trénovac´ı sady

Tˇr´ıda N´astroj

SNER LIPI LIBSVM slovn´ık PERS 0,905 0,899 0,781 0,97

LOC 0,919 0,888 0,0 0,0

TIME 1,0 1,0 1,0 0,0

ORG 1,0 1,0 0,0 0,0

MOV 0,5 1,0 0,0 0,7

NICK 0,25 0,333 0,0 0,125

O 0,01 0,01 0,01 0,01

V tabulce 5.3 jsou výsledky bˇehu programu po automatickém rozˇs´ıˇren´ı trénovac´ı sady. Je patrné, ˇze toto rozˇs´ıˇren´ı na výsledky testován´ı mˇelo znaˇcný vliv. Bylo za- znamenáno oˇcekávané zlepˇsen´ı zejména v rozpoznáván´ı tˇech tˇr´ıd entit, které byly rozˇs´ıˇrené. Ve tˇr´ıdách, které rozˇs´ıˇreny nebyly (LOC, ORG ) výsledky nejsou jedno- znaˇcné. Zat´ımco rozpoznáván´ı tˇr´ıdy LOC se zlepˇsilo, rozpoznáván´ı tˇr´ıdy ORG se zhorˇsilo.

(44)

Tabulka 5.3: Výsledky testován´ı nástroje MANER po automatickém rozˇs´ıˇren´ı trénovac´ı sady

SNER LIPI LIBSVM slovn´ık MANER

PERS 0,95 0,043 0,753 0,885 0,98

LOC 0,789 0,429 0,0 0,0 0,769

TIME 0,894 0,398 0,753 0,0 0,996

ORG 0,222 0,222 0,0 0,0 0,316

MOV 0,922 0,227 0,286 0,875 0,952

NICK 0,768 0,687 0,529 0,71 0,753

O 0,955 0,89 0,905 0,933 0,911

Váhy pouˇzité pro testován´ı s rozˇs´ıˇrenou trénovac´ı sadou jsou uvedeny v tabulce 5.4.

Tabulka 5.4: Váhy pouˇzité pˇri testován´ı nástroje MANER po automatickém rozˇs´ıˇren´ım trénovac´ı sady

SNER LIPI LIBSVM slovn´ık

PERS 0,709 0,6 0,601 0,992

LOC 0,625 0,666 0,0 0,0

TIME 0,935 0,93 0,826 0,0

ORG 0,666 0,666 0,0 0,0

MOV 0,727 0,8 0,0 0,933

NICK 0,0 1 0,0 0,944

O 0,01 0,01 0,01 0,01

(45)

Graf na obrázku 5.1 pˇrehlednˇe znázorˇnuje, jak byl nástroj MANER úspˇeˇsný v nalézán´ı pojmenovaných entit v porovnán´ı s d´ılˇc´ımi výsledky jednotlivých nástroj˚u.

Obrázek 5.1: Porovnán´ı F-m´ıry nástroje MANER s jednotlivými nástroji Souˇcást´ı vývoje byla také následná paralelizace bˇehu nástroje. Protoˇze MANER p˚uvodnˇe pracoval v jednom vláknˇe, bylo moˇzné zmˇeˇrit vliv paralelizace na rychlost bˇehu programu. Namˇeˇrené hodnoty jsou uvedeny v tabulce 5.5. Mˇeˇren´ı prob´ıhalo na poˇc´ıtaˇci se stejnou konfigurac´ı, jako je uvedena v tabulce 4.5. Do mˇeˇren´ı byl zahr- nut ˇcas bˇehu programu od zaˇcátku do konce, vˇcetnˇe konstantn´ı sloˇzky (inicializace nástroj˚u a naˇc´ıtán´ı model˚u). ˇCasy jsou uvedeny ve formátu hh:mm:ss.

Tabulka 5.5: Vliv paralelizace na rychlost bˇehu programu

2 kB textu (379 slov) 2,6 MB textu (370 000 slov)

Pˇred paralelizac´ı 00:00:32 02:13:42

Po paralelizaci 00:00:14 00:53:21

(46)

6 Z´ avˇ er

V této práci byla ˇreˇsena problematika vyhledáván´ı pojmenovaných entit pomoc´ı algoritm˚u dataminingu. Byla provedena reˇserˇse nástroj˚u, které se k daným úˇcel˚um pouˇz´ıvaj´ı, jejich výhody, nevýhody a specifika pouˇzit´ı. Dále byla provedena reˇserˇse algoritm˚u dataminingu, které se v uvedené oblasti extrakce informace pouˇz´ıvaj´ı. Na základˇe tˇechto poznatk˚u byl navrˇzen a v jazyce Java implementován nástroj, který inovativn´ım zp˚usobem ˇreˇs´ı daný problém. Tento nástroj kombinuje nˇekolik existuj´ıc´ıch nástroj˚u a algoritm˚u a vyuˇz´ıvá výhody kaˇzdého z nich. Pomoc´ı navrˇzeného nástroje lze doc´ılit vyˇsˇs´ı pˇresnosti i úplnosti neˇz u jednotlivých nástroj˚u samostatnˇe.

Práce dále na praktickém pˇr´ıkladˇe popisuje, jak pro navrˇzený nástroj vytvoˇrit da- tový model. Na vytvoˇreném modelu byl nástroj otestován pomoc´ı pˇresnosti a úplnosti.

Nástroj témˇeˇr ve vˇsech pˇr´ıpadech vykazoval vyˇsˇs´ı pˇresnost i úplnost neˇz pˇri pouˇzit´ı d´ılˇc´ıch nástroj˚u a algoritm˚u samostatnˇe, coˇz lze povaˇzovat za hlavn´ı pˇr´ınos práce. Po otestován´ı nástroje pomoc´ı pˇresnosti a úplnosti byly naplnˇeny vˇsechny body zadán´ı práce.

Dalˇs´ı vývoj nástroje MANER by mohl smˇeˇrovat k pˇr´ıvˇetivˇejˇs´ımu uˇzivatelskému rozhran´ı. Jelikoˇz je uˇzivatelské rozhran´ı programu ve formˇe pˇr´ıkazové ˇrádky, mohl by být dalˇs´ım krokem vývoj grafického uˇzivatelského rozhran´ı, které by program zpˇr´ıstupnilo ˇsirˇs´ımu spektru uˇzivatel˚u. Lepˇs´ıch výsledk˚u vyhledáván´ı by také bylo moˇzné doc´ılit dalˇs´ım c´ıleným rozˇsiˇrován´ım trénovac´ı sady. A to zejména o ty tˇr´ıdy entit, které jsou v té stávaj´ıc´ı ˇr´ıdce zastoupené.

(47)

Literatura

[1] TURNER, Vernon, David REINSEL, John F. GANTZ a Stephen MINTON.

The Digital Universe of Opportunities: Rich Data and the Increasing Value of the Internet of Things. The Digital Universe of Opportunities: Rich Data and the Increasing Value of the Internet of Things [online]. 2014 [cit. 2015-01-23].

Dostupn´e z: http://idcdocserv.com/1678.

[2] MAYER-SCH ¨ONBERGER, Viktor a Kenneth CUKIER. Big Data. 1. vyd.

Brno: Computer Press, 2014, 256 s. ISBN 978-80-251-4119-9.

[3] RUD, Olivia Parr. Data mining: praktický pr˚uvodce dolován´ım dat pro efektivn´ı prodej, c´ılený marketing a podporu zákazn´ık˚u (CRM). 1. vyd. Praha: Computer Press, 2001, 329 s. Rychle a jistˇe. ISBN 8072265776.

[4] RATINOV, Lev a Dan ROTH. Design challenges and misconceptions in named entity recognition. In: Proceedings of the Thirteenth Conference on Computati- onal Natural Language Learning - CoNLL ’09 [online]. 2009 [cit. 2015-02-20].

DOI: 10.3115/1596374.1596399.

[5] GRISHMAN, Ralph a Beth SUNDHEIM. Message Understanding Conference- 6. In: Proceedings of the 16th conference on Computational linguistics - [online].

1996 [cit. 2015-05-15]. DOI: 10.3115/992628.992709.

[6] GOUTTE, Cyril a Eric GAUSSIER. A Probabilistic Interpretation of Pre- cision, Recall and F -score, with Implication for Evaluation [online]. Mey- lan, France, 2004 [cit. 2015-01-13]. Dostupn´e z: http://www.xrce.xerox.com/

content/download/16594/118473/file/xrce eval.pdf. Xerox Research Cen- tre Europe.

(48)

[7] WU, Xindong, Vipin KUMAR, J. Ross QUINLAN, Joydeep GHOSH, Qi- ang YANG, Hiroshi MOTODA, Geoffrey J. MCLACHLAN, Angus NG, Bing LIU, Philip S. YU, Zhi-Hua ZHOU, Michael STEINBACH, David J. HAND a Dan STEINBERG. Top 10 algorithms in data mining. Knowledge and Infor- mation Systems [online]. 2007, vol. 14, issue 1, s. 1-37 [cit. 2015-05-15]. DOI:

10.1007/s10115-007-0114-2.

[8] BAUM, Leonard E. a Ted PETRIE. Statistical Inference for Probabilistic Functions of Finite State Markov Chains. The Annals of Mathematical Statis- tics [online]. 1966, vol. 37, issue 6, s. 1554-1563 [cit. 2014-12-11]. DOI: 10.1214/a- oms/1177699147.

[9] KOLLER, Daphne a Nir FRIEDMAN. Probabilistic graphical models: princi- ples and techniques. Cambridge: MIT Press, c2009, xxxv, 1231 s. Adaptive computation and machine learning (MIT Press). [cit. 2015-12-11]. ISBN 978-0- 262-01319-2.

[10] WALLACH, Hanna M. 2004. Conditional Random Fields: An Introduction [online]. [cit. 2015-12-11]. Dostupn´e z: http://www.inference.phy.cam.ac.uk/

hmw26/papers/crf intro.pdf.

[11] ATDAG, Samet a Vincent LABATUT. A comparison of named entity recognition tools applied to biographical texts. In: 2nd International Conference on Systems and Computer Science [online]. 2013 [cit. 2015-01-07]. DOI: 10.1109/ic- conscs.2013.6632052.

[12] KNUTH, Donald Ervin. Umˇen´ı programov´an´ı. Vyd. 1. Brno: Computer Press, 2008, xix, 648 s. ISBN 978-80-251-2025-5.

[13] HAJI ˇC, Jan. Popis morfologick´ych znaˇcek — poziˇcn´ı syst´em. [online]. s. 6 [cit.

2015-02-16]. Dostupn´e z: https://ucnk.ff.cuni.cz/doc/popis znacek.pdf.