Grafick´ e zn´ azornˇ en´ı podm´ınˇ en´ ych n´ ahodn´ ych pol´ı s ˇretˇ ezovou struk-

3 N´ astroje pro vyhled´ av´ an´ı pojmenovan´ ych entit v textu

Nástroj˚u pro NER existuje celá ˇrada. N´ıˇze jsou uvedeny nˇekteré z nejznámˇejˇs´ıch, které jsou dostupné veˇrejnosti zdarma pro vˇedecké úˇcely [11]. Tyto nástroje se liˇs´ı v mnoha ohledech:

Metody, kterými nástroje pracuj´ı – slovn´ıkové, automatické se strojovým uˇce-n´ım nebo hybridn´ı, které kombinuj´ı slovn´ıkové a statistické metody.

Tˇr´ıdy entit, které nástroj vyhledává a rozpoznává.

Doménový rozsah – nˇekteré mohou být obecné a aplikovatelné na jakýkoliv text, jiné naopak specificky zamˇeˇrené na konkrétn´ı doménu.

Implementace – nˇekteré se pouˇz´ıvaj´ı ve formˇe knihovny nebo plugin˚u, jiné jako webové sluˇzby atd.

Výstup – jelikoˇz neexistuje standard pro zadáván´ı pojmenovaných entit, i vý-stupy nástroj˚u se liˇs´ı. Vˇetˇsinou je výstup ve formˇe objekt˚u nebo textových soubor˚u.

Aˇckoliv se mohou nástroje pro NER v mnohém liˇsit, jedno maj´ı spoleˇcné – pouˇzitý slovn´ık, trénovac´ı sada a dataminingový algoritmus maj´ı zásadn´ı vliv na výkon a efektivitu nástroje.

V následuj´ıc´ı podkapitole jsou struˇcnˇe charakterizovány nejpouˇz´ıvanˇejˇs´ı nástroje.

Rozdˇelen´ı na cizojazyˇcné a ˇceské nástroje je myˇsleno z pohledu vstupn´ıho textu, se kterým nástroj pracuje. Obecnˇe lze nástroj pouˇz´ıt i na jiný jazyk. Jeho úspˇeˇsnost pak závis´ı na m´ıˇre zamˇeˇren´ı nástroje na konkrétn´ı jazyk. Pokud budou jazyky zásadnˇe

odliˇsné, nástroj pravdˇepodobnˇe nebude vykazovat takové výsledky jako pro jazyk, na který je uzp˚usoben.

3.1 Cizojazyˇ cn´ e n´ astroje

Stanford NER (SNER)

SNER¹ je nástroj pro rozpoznáván´ı pojmenovaných entit implementovaný v jazyce Java a zamˇeˇrený pˇredevˇs´ım na rozpoznán´ı tˇr´ı tˇr´ıd – osoby, organizace a lokality.

V základn´ı verzi obsahuje modely pro anglický jazyk, ale je moˇzné v programu naˇc´ıst vlastn´ı model a nad n´ım pak provádˇet NER. Tento systém vyuˇz´ıvá metodu CRF, která na rozd´ıl od bˇeˇzných klasifikátor˚u dokáˇze vz´ıt v potaz ˇsirˇs´ı kontext a ne-rozhodovat pouze na základˇe jednoho, v daný moment klasifikovaného vzorku.

Illinois Named Entity Tagger (INET)

INET² je vydaván jako samostatný program, který je zaloˇzen na nˇekolika metodách strojového uˇcen´ı: skryté Markovovy modely, v´ıcevrstevné neuronové s´ıtˇe a jiné sta-tistické metody. V p˚uvodn´ı verzi rozpoznával ˇctyˇri tˇr´ıdy pojmenovaných entit, ve stávaj´ıc´ı verzi uˇz dokáˇze rozliˇsit osmnáct tˇr´ıd entit. Pˇri práci mimo jiné vyuˇz´ıvá slovn´ıky sestavené z hesel z wikipedie.

Alias-i LingPipe (LIPI)

LIPI³ je robustn´ı nástroj, který se pouˇz´ıvá nejen pro NER, ale i jiné úlohy na zpra-cován´ı textu a extrakci informace (napˇr´ıklad automatická oprava pˇreklep˚u). Pro NER vyuˇz´ıvá metodu HMM.

OpenCalais Web Service (OCWS)

OCWS⁴ je nástroj v podobˇe webové sluˇzby. Metody rozhran´ı OCWS je moˇzné volat nˇekolika protokoly: SOAP, REST a HTTP. Podobnˇe jako u LIPI se jedná o robustn´ı

1http://www-nlp.stanford.edu/software/CRF-NER.shtml

2http://cogcomp.cs.illinois.edu/page/software view/NETagger

3http://alias-i.com/lingpipe

4http://www.opencalais.com/documentation/calais-web-service-api

nástroj s ˇsirˇs´ım zamˇeˇren´ım, který vyhledává nejen entity, ale také napˇr´ıklad fakta a události. Výsledky pak dokáˇze mapovat na hesla na wikipedii. OCWS podporuje angliˇctinu, francouzˇstinu a ˇspanˇelˇstinu.

General Architecture for Text Engineering (GATE)

GATE⁵ je software, který se zabývá zpracován´ım textu velmi zeˇsiroka. Na jeho vývoji, který prob´ıhá od roku 1995, pracuje rozsáhlá komunita vývojáˇr˚u i uˇzivatel˚u po celém svˇetˇe. Celá architektura je rozdˇelena na nˇekolik produkt˚u podle zamˇeˇren´ı a uˇzit´ı. Jsou jimi:

GATE Developer – integrované vývojové prostˇred´ı urˇcené ke zpracován´ı jazyka a textu spolu se systémem pro extrakci informace a sadou plugin˚u (tyto pluginy m˚uˇze vyv´ıjet sám uˇzivatel). Celé toto prostˇred´ı je zamˇeˇrené na angliˇctinu.

GATE Embedded – objektová knihovna urˇcená pro import a pouˇzit´ı v jiných aplikac´ıch a programech. Umoˇzˇnuje pˇr´ıstup ke vˇsem sluˇzbám GATE Develo-per.

GATE Teamware – urˇceno pro rozs´ahl´e komerˇcn´ı projekty.

M´ımir (Multi-paradigm Information Management Index and Repository) – nástroj, který umoˇzˇnuje fulltextové vyhledáván´ı a anotaci dat a je pouˇzitelný na rozsáhlé textové korpusy (aˇz TB textu).

3.2 Cesk´ ˇ e n´ astroje

Common Part-of-speech Tagger (COMPOST)

COMPOST⁶ je program pro vyhledáván´ı entit v ˇceském a anglickém jazyce, ho-landˇstinˇe a islandˇstinˇe. Je psaný pouze pro operaˇcn´ı systém linux a vyv´ıjený na fakultˇe matematiky a fyziky Univerzity Karlovy v Praze. Nemá grafické uˇzivatelské rozhran´ı – spouˇst´ı se pouze z pˇr´ıkazového ˇrádku. Pojmenované entity vyhledává kombinován´ım metod strojového uˇcen´ı s uˇcitelem a bez uˇcitele.

5https://gate.ac.uk

6http://ufal.mff.cuni.cz/compost

MorphoDiTa

MorphoDiTa⁷ (Morphological Dictionary and Tagger) je v´ıceúˇcelový lingvistický nástroj vydaný pod licenc´ı LGPL, který vznikl na Univerzitˇe Karlovˇe v Praze. Ne-jedná se pˇr´ımo o nástroj pro NER, ale umoˇzˇnuje provádˇet tokenizaci, morfologickou analýzu a obsahuje také lingvistické modely. Nástroj MorphoDiTa lze pouˇz´ıt jak samostatnˇe, tak jako knihovnu pro jazyk Java. V práci jsem jej vyuˇzil pro z´ıskán´ı morfologických znaˇcek z textu.

Treex

Treex⁸ (formálnˇe TectoMT) je modulárn´ı nástroj pro NLP implementovaný v ja-zyce Python, který také vzniká na Univerzitˇe Karlovˇe v Praze. Jeho silnou stránkou je vysoká modularizace, d´ıky které je snadné jej zaˇclenit do vlastn´ıho projektu a dále rozv´ıjet. Skládá se z takzvaných blok˚u, které maj´ı jednotné, objektovˇe orientované rozhran´ı a usnadˇnuj´ı tak vzájemnou interakci. Treex je také moˇzné vyzkouˇset pˇres webové rozhran´ı.

7http://ufal.mff.cuni.cz/morphodita

8http://ufal.mff.cuni.cz/treex

Tabulka3.1:Srovnán´ıvybranýchnástroj˚uproNER NástrojSA1 WS2 LIB3 AlgoritmusJazyk4 LicenceImplementaceVývoj5 SNER•◦•CRFEN,DE,ES,ZHGNUGPLJava2006-2015 INET•◦◦HMMENzdarmapro vˇedeckéúˇcelyJava2013-2015 LIPI◦◦•HMMEN,NL,HI,ES, DE,FR,ZH,ARzdarmapodAGPLJava2003-2011 OCWS◦•◦—EN,FR,ESzdarmaprokomerˇcn´ıa nekomerˇcn´ıuˇzit´ı—2008-2014 GATE•◦•FSAENGNULGPJava2003-2014 LIBSVM◦◦•SVM—zdarmase zachován´ımlicenceC++,Java2000-2014 ApacheUIMA◦◦•HMM,BSFENapacheC++,Java2006-2015 LingvoNER◦◦•Slovn´ık.metodyCZGNUGPLJava2010-2013 1StandAlone–nástrojlzepouˇz´ıtjakosamostatnˇebˇeˇz´ıc´ıprogram. 2 WebService–nástrojjeposkytovánjakowebovásluˇzba. 3 Library–nástrojjeposkytovánjakoknihovna,kteroulzevloˇzitdovlastn´ıhoprogramu. 4 Myˇslenjejazyk,vekterémnástrojvyhledáváentity. 5 Uvedenyjsourokyvydán´ıprvn´ıanejnovˇejˇs´ıverzenástroje.

4 N´ avrh a implementace n´ astroje pro NER

Vlastn´ı implementaci jsem navrhl tak, aby vyuˇz´ıvala moˇznost´ı v´ıce dataminingových algoritm˚u zároveˇn a kombinovala jejich silné stránky. Ve vzniklém nástroji jsou pouˇzity dataminingové algoritmy SVM, HMM, CRF (viz kapitolu 2.7) a slovn´ıková metoda pro vyhledáván´ı pojmenovaných entit. Z pohledu metodiky práce se tedy jedná o hybridn´ı nástroj. Algoritmy HMM, CRF a SVM jsou provádˇeny extern´ımi nástroji LIPI, SNER a LIBSVM (viz tabulku 3.1). Dále jsem implementoval slo-vn´ıkovou metodu, která je souˇcást´ı výsledného programu. Program jsem pracovnˇe nazval MANER (Multiple Algorithm Named Entity Recognizer). Pˇri psan´ı programu jsem se inspiroval knihou Umˇen´ı programován´ı [12], která je dobrým zdrojem návod˚u a pˇr´ıklad˚u programován´ı sloˇzitˇejˇs´ıch datových struktur a matematických výpoˇct˚u.

4.1 Popis navrˇ zen´ e implementace

Navrˇzená implementace, znázornˇená na obrázku 4.1, pracuje ve dvou základn´ıch fáz´ıch – fáze uˇcen´ı a fáze rozpoznáván´ı.

4.1.1 F´ aze uˇ cen´ı

V této fázi je stroji poskytnuta trénovac´ı sada, na které se jednotlivé ˇcásti nástroje nauˇc´ı rozpoznávat pojmenované entity. Protoˇze jednotlivé nástroje nepracuj´ı se stejnými vstupn´ımi daty, je potˇreba trénovac´ı data vˇzdy pˇrevést do formátu sro-zumitelného pro daný nástroj. Kaˇzdý ze tˇr´ı nástroj˚u si na základˇe trénovac´ıch dat vytvoˇr´ı vlastn´ı model. Pomoc´ı tohoto modelu pak rozpoznává pojmenované entity ve druhé fázi (rozpoznáván´ı). Tuto ˇcinnost staˇc´ı provést pouze jednou, kdyˇz je potˇreba nástroj nauˇcit rozpoznávat entity nad jinou doménou.

In document Vyuˇzit´ı algoritm˚u dataminingu pro rozpoznáván´ı pojmenovaných entit (Page 22-29)