Struktura staˇ zen´ ych dat - Vyuˇzit´ı algoritm˚u dataminingu pro rozpoznáván´ı pojmenovaný

Poˇcet vˇet 757 487 Poˇcet film˚u 3 571 Poˇcet komentáˇr˚u 227 893 Poˇcet komentátor˚u (unikátn´ı) 19850

Poˇcet akt´er˚u (unik´atn´ı) 9710

Nástroj MANER lze pro stahován´ı dat o filmech pouˇz´ıt následuj´ıc´ım zp˚usobem:

java -jar maner.jar -download [yearFrom] [yearTo] [movieType]

Tyto tˇri argumenty slouˇz´ı k filtrov´an´ı film˚u, o kter´ych se budou data stahovat.

Argumenty yearFrom a yearTo omezuj´ı filmy rokem vzniku. Argument movieType omezuje filmy typem.

Povolen´e hodnoty tohoto argumentu jsou:

0 – filmy 1 – video filmy 2 – TV filmy 3 – TV seriály 4 – TV poˇrady 7 – studentské filmy 8 – amatérské filmy

Výsledek stahován´ı je uloˇzen do XML souboru s následuj´ıc´ı cestou:

./files/dumps/list-[movieType]-1-from-[yearFrom]-to-[yearTo].xml

Stahován´ı dat je omezené na deset poˇzadavk˚u za minutu. Pˇredejde se tak vy-sokému mnoˇzstv´ı poˇzadavk˚u na server, moˇznému podezˇren´ı na DoS² utok a n´´ asle-dnému zablokován´ı IP adresy.

Staˇzená data jsou dále pouˇzita k vytvoˇren´ı testovac´ı a trénovac´ı sady a slovn´ıku.

Metody kter´e jsou k tomu pouˇzity ˇctou data vˇzdy pouze z jednoho souboru, a proto n´astroj umoˇzˇnuje spojit nˇekolik XML soubor˚u do jednoho pomoc´ı pˇr´ıkazu:

java -jar maner.jar -merge [directoryWithXMLFiles] [outputFile]

Data lze z XML formátu do textové podoby bez znaˇcek pˇrevést pˇr´ıkazem:

java -jar maner.jar -convert [inputXMLFile] [outputDirectory]

2Denial of Service

4.3 Pouˇ zit´ e znaˇ cen´ı pojmenovan´ ych entit

Jako standard pro oznaˇcován´ı pojmenovaných entit ve výstupn´ım textu jsem pouˇzil konvence podobné CNEC. Tedy nalezené entity jsou vyznaˇceny ve formˇe:

Hrdiny filmu <PERS Petera Kerekese> jsou vojenˇst´ı kuchaˇri z r˚uzn´ych kout˚u

<LOC Evropy>.

Znaˇcen´ı ve slovn´ıku a v trénovac´ı a testovac´ı sadˇe je odliˇsné od znaˇcen´ı ve výstupn´ım souboru, a to zejména kv˚uli odliˇsné struktuˇre soubor˚u. Na rozd´ıl od výstupn´ıho souboru, který je ve formˇe souvislého textu, jsou trénovac´ı a testovac´ı sada a slovn´ık vˇzdy ve formˇe jednoho hesla na ˇrádek. A proto jsou ve tvaru:

Hrdiny O

filmu O

Petra PERS

Kerekese PERS

Vˇsechny druhy entit, které nástroj MANER vyhledává, jsou spolu s jejich ozna-ˇcen´ım shrnuty v tabulce 4.2. Ke klasicky vyhledávaným entitám jsem nav´ıc pˇridal entity specifické pro vybranou doménu dat. Jedná se o název filmu a pˇrezd´ıvky (zejména pˇrezd´ıvky komentuj´ıc´ıch, tedy jména uˇzivatel˚u ˇCSFD).

Tabulka 4.2: Znaˇcen´ı druh˚u vyhled´avan´ych entit

Druh entity Oznaˇcen´ı (SNER, LIPI) Oznaˇcen´ı (SVM)

Osoba PERS 1

Slovo, kter´e nen´ı entitou O 0

4.4 Tvorba slovn´ıku z dat z ˇ CSFD

Pro vytvoˇren´ı slovn´ıku ze staˇzen´ych dat pouˇzijeme pˇr´ıkaz:

java -jar maner.jar -dctbuild [inputXMLFile] [outputDictionary]

Argument inputXMLFile je soubor, který vznikl po vykonán´ı pˇr´ıkazu download nebo merge (kapitola 4.2). Ve výsledném slovn´ıku jsou obsaˇzena vˇsechna jména film˚u, herc˚u, tv˚urc˚u film˚u a uˇzivatel˚u, která byla k nalezen´ı ve vstupn´ım souboru. Tato jsou oznaˇcena pˇr´ısluˇsným druhem entity a to stylem popsaným v kapitole 4.3.

4.5 Pˇ r´ıprava tr´ enovac´ı a testovac´ı sady

Knihovny SNER a LIPI vyuˇz´ıvaj´ı podobný vstupn´ı formát trénovac´ı a testovac´ı sady: [token][tabulátor][tˇr´ıda entity pˇr´ısluˇsej´ıc´ı tokenu]. Liˇs´ı se pouze v pojmenován´ı druh˚u entit. Ve formátu pro LIPI je rozliˇseno, zda se jedná o zaˇcátek (prefix B-) pojmenované entity nebo pokraˇcován´ı v´ıcetokenové entity, která zaˇcala na nˇekterém z pˇredchoz´ıch ˇrádk˚u (prefix I-). Pro pˇreveden´ı trénovac´ı sady nástroje SNER na trénovac´ı sadu pro nástroj LIPI slouˇz´ı pˇr´ıkaz:

java -jar maner.jar -lipiconvert [pathToSNERTrainFile] [outputFile]

Algoritmus provádˇej´ıc´ı konverzi vycház´ı z pˇredpokladu, ˇze mezi dvˇema enti-tami je alespoˇn jedno slovo nebo znak, které nen´ı entitou. Tedy kaˇzdou entitu, jeˇz následuje bezprostˇrednˇe za jinou entitou a má stejnou tˇr´ıdu, oznaˇc´ı jako po-kraˇcován´ı pˇredchoz´ı entity. Tento pˇr´ıstup je do jisté m´ıry naivn´ı, ale poruˇsen´ı tohoto pˇredpokladu nastane tak ojedinˇele (napˇr´ıklad v trénovac´ı a testovac´ı sadˇe nenastalo), ˇze je moˇzné jej pouˇz´ıt, aniˇz by t´ım utrpˇela následná pˇresnost vytvoˇreného uˇc´ıc´ıho modelu. Pro zjednoduˇsen´ı jsem pro trénován´ı SVM algoritmu pouˇzil stejný formát jako je formát SNER, který je pˇred spuˇstˇen´ım programu pˇreveden na vektory.

Obˇe sady byly vytvoˇreny z dat staˇzených z ˇCSFD. Ze vˇsech komentáˇr˚u a zápletek jsem náhodnˇe vybral tˇri tis´ıce vˇet na trénovac´ı sadu a 600 vˇet na testovac´ı sadu,

rovnomˇernˇe vˇzdy polovinu vˇet ze zápletek a polovinu z komentáˇr˚u. Vybraný text jsem proˇsel a ke kaˇzdému tokenu pˇriˇradil odpov´ıdaj´ıc´ı druh entity. Takto oznaˇceným dat˚um se ˇr´ıká golden data (zlatá data), nebot’ se vycház´ı z pˇredpokladu, ˇze jsou správná a stroj se z nich m˚uˇze uˇcit. Tvorba obsáhlejˇs´ı sady je velmi zdlouhavá ˇcinnost a projevuje se to na vysoké hodnotˇe takto anotovaných dat. Vzniklá trénovac´ı sada je povaˇzována za malou (ve srovnán´ı napˇr´ıklad s trénovac´ı sadou CNEC, která obsahuje 9000 vˇet).

4.5.1 Automatick´ e rozˇ siˇ rov´ an´ı tr´ enovac´ı sady

Aby se pˇri rozpoznáván´ı pojmenovaných entit dosáhlo co nejlepˇs´ıch výsledk˚u, vyuˇzil jsem automatické rozˇs´ıˇren´ı trénovac´ı sady. Protoˇze manuáln´ı oznaˇcován´ı entit je ˇcasovˇe nároˇcná ˇcinnost, je moˇzné trénovac´ı sadu rozˇs´ıˇrit automaticky. Obecnˇe se v dataminingu vyuˇz´ıvá v´ıce pˇr´ıstup˚u (napˇr´ıklad generován´ı virtuáln´ıch pˇr´ıklad˚u na základˇe známých dat). U této konkrétn´ı úlohy je vhodné k rozˇs´ıˇren´ı sady pouˇz´ıt vzniklý slovn´ık entit. Trénovac´ı sadu jsem tedy rozˇs´ıˇril o slovn´ık vˇsech jmen a pˇre-zd´ıvek staˇzených z ˇCSFD.

4.5.2 Tr´ enovac´ı data pro n´ astroj LIBSVM

Trénovac´ı sada pro nástroj LIBSVM je zásadnˇe odliˇsná od trénovac´ıch sad dvou pˇredchoz´ıch nástroj˚u. Je to zp˚usobeno pˇredevˇs´ım podstatou algoritmu SVM. Pˇred trénován´ım nástroje je potˇreba kaˇzdý token pˇrevést na vektor. Kaˇzdá poloˇzka tohoto vektoru urˇcitým zp˚usobem charakterizuje daný token. Poloˇzky vektoru jsem sestavil z morfologických znaˇcek ke kterým jsem nav´ıc pˇridal vlastn´ı charakteristiky popsané n´ıˇze.

Morfologick´e znaˇcky

Pro charakterizaci tokenu jsem vyuˇzil morfologické znaˇcky. Morfologická znaˇcka je ˇretˇezec, který vznikne jako výstup morfologické analýzy. Kaˇzdý jeho znak pˇredstavuje jednu morfologickou kategorii.

Napˇr´ıklad znaˇcka Praha:

NNFS1---A----nese o slovˇe Praha informaci, kter´a je pops´ana v tabulce 4.3.

Tabulka 4.3: Význam morfologických znaˇcek pro slovo Praha pozice znak význam

11 A afirmativ, tedy slovo je bez negativn´ı pˇredpony ne

Pokud je na nˇekteré pozici pomlˇcka, znamená to, ˇze tato hodnota u daného slova nedává smysl (napˇr´ıklad znaˇcka na desáté pozici urˇcuje stupeˇn). Kompletn´ı dokumentaci s popisem kaˇzdé znaˇcky a jej´ıch moˇzných hodnot lze nalézt v [13]. Pro z´ıskán´ı morfologických znaˇcek k danému tokenu jsem pouˇzil nástroj MorphoDiTa.

Struktura vstupn´ıch vektor˚u

Vektory v trénovac´ı sadˇe maj´ı celkem dvacet poloˇzek. Prvn´ı poloˇzka pˇredstavuje tˇr´ıdu entity daného tokenu. Jedná se o ˇc´ıslo v rozsahu nula aˇz sedm. Nula je vy-hrazena pro slova, která nejsou pojmenovanými entitami a ostatn´ı ˇc´ısla pˇredstavuj´ı jednotlivé tˇr´ıdy pojmenovaných entit (viz tabulku 4.2). Dalˇs´ıch patnáct poloˇzek vek-toru pˇredstavuje morfologické znaˇcky daného tokenu. Poloˇzky na pozici 17, 18, 19 a 20 nabývaj´ı pouze hodnot jedna a nula, a uchovávaj´ı tyto informace:

pozice 17 – zda je daný token delˇs´ı neˇz dva znaky pozice 18 – zda daný token zaˇc´ıná velkým p´ısmenem pozice 19 – zda je daný token celý velkými p´ısmeny pozice 20 – zda je daný token na zaˇcátku vˇety

Pˇrevod tr´enovac´ı sady do form´atu SVM

Pro pˇrevod tr´enovac´ı sady slouˇz´ı pˇr´ıkaz:

java -jar maner.jar -svmconvert [inputFile] [outputFile]

Vstupn´ı soubor mus´ı být ve formátu trénovac´ı sady pro nástroj SNER (tedy vˇzdy [token] [tˇr´ıda] na jednom ˇrádku). Výstupn´ı soubor je pak ve formátu jednoho podp˚ ur-ného vektoru na ˇrádek.

Tedy pro Praha : NNFS1---A---- bude v´ystupem:

2 1:6 2:37 3:1 4:3 5:1 11:1 16:1 17:1 18:0 19:1

Význam jednotlivých ˇc´ısel je uveden výˇse. Je d˚uleˇzité podotknout, ˇze prvn´ı ˇc´ıslo udává tˇr´ıdu pojmenovaných entit (2 = LOC ) do které vektor náleˇz´ı a je uvedeno samostatnˇe. Vˇsechna ostatn´ı jsou po dvojici a to ve formˇe: [pozice poloˇzky]:[hodnota poloˇzky]. Poloˇzky které nejsou urˇcené (v morfologické znaˇcce maj´ı pomlˇcku) se ve vektoru v˚ubec neobjev´ı.

4.5.3 Ruˇ cn´ı anotace dat

Pro zjednoduˇsen´ı ruˇcn´ı anotace dat n´astroj MANER implementuje n´asleduj´ıc´ı po-stup:

1. lemmatizace libovolnˇe velk´eho souboru s textem – data jsou pˇrevedena do podoby jedna vˇeta na ˇr´adek,

2. náhodný výbˇer zadaného poˇctu vˇet,

3. tokenizace – data jsou pˇrevedena do podoby jeden token na ˇr´adek,

4. pˇriˇrazen´ı výchoz´ı tˇr´ıdy entity kaˇzdému tokenu – data jsou pˇrevedena do podoby [token][tabulátor][výchoz´ı tˇr´ıda entity].

Pro proveden´ı dan´e sekvence operac´ı slouˇz´ı pˇr´ıkazy:

java -jar maner.jar -lemmatize [inputFile]

java -jar maner.jar -limitlemmas [inputFile] [n]

java -jar maner.jar -tokenize [inputFile]

java -jar maner.jar -defaultclass [inputFile] [defaultClass]

Kaˇzdý pˇr´ıkaz vytváˇr´ı nový soubor (se stejnou cestou jako vstupn´ı soubor, pouze mu pˇridá novou koncovku), který pˇrej´ımá následuj´ıc´ı pˇr´ıkaz. Po vykonán´ı této sek-vence je potˇreba proj´ıt celý výsledný soubor a kaˇzdé entitˇe pˇriˇradit jej´ı odpov´ıdaj´ıc´ı tˇr´ıdu. Výstupem tohoto kroku jsou jiˇz výˇse zm´ınˇená golden data. V tabulce 4.4 jsou uvedeny údaje o ruˇcnˇe oznaˇcených datech. Je patrné a oˇcekávatelné, ˇze vˇetˇsina slov nejsou pojmenované entity. Pomˇer rozdˇelen´ı jednotlivých tˇr´ıd je na náhodnˇe vybraných datech velmi podobný v trénovac´ı i testovac´ı sadˇe. V tabulce je také uvedeno, jak se zmˇenila trénovac´ı sada po automatickém rozˇs´ıˇren´ı.

Tabulka 4.4: ´Udaje o tr´enovac´ı a testovac´ı sadˇe

Tr´enovac´ı sada Testovac´ı sada Rozˇs´ıˇren´a tr. sada

Poˇcet vˇet 3 000 600 12 000

Poˇcet slov 49 768 9 861 208 962

Poˇcet jmen (PERS) 1 904 340 22 134

Poˇcet lokalit (LOC) 519 66 519

Poˇcet n´azv˚u film˚u (MOV) 340 60 10 481 Poˇcet ˇcas. ´udaj˚u (TIME) 148 31 14 432

Poˇcet organizac´ı (ORG) 136 38 136

Poˇcet pˇrezd´ıvek (NICK) 59 10 28 695

Poˇcet ne-entit (O) 46 609 9 304 132 647

Procento entit 6,35 % 5,65 % 36,5 %

4.6 Tr´ enov´ an´ı NER n´ astroj˚ u

Po vytvoˇren´ı trénovac´ıch sad je moˇzné je pouˇz´ıt k trénován´ı jednotlivých nástroj˚u.

Pˇr´ıkazy pro tr´enov´an´ı jsou:

java -jar maner.jar -svmtrain [inputFile] [outputFile]

java -jar maner.jar -lipitrain [inputFile] [outputFile]

java -jar maner.jar -snertrain [propertiesFile]

U nástroj˚u LIBSVM a LIPI je rozhran´ı stejné. Argument inputFile je cesta ke vstupn´ı trénovac´ı sadˇe v pˇr´ısluˇsném formátu a argument outputFile je cesta, kam se uloˇz´ı natrénovaný model. U trénován´ı nástroje SNER je rozhran´ı odliˇsné. Jediný ar-gument propertiesFile je cesta k souboru s nastaven´ım trénovac´ıho nástroje. Tento soubor mimo jiné obsahuje i nastaven´ı vstupn´ıho a výstupn´ıho souboru. Pˇr´ıklad takového souboru lze nalézt na pˇriloˇzeném CD. Cesta k souboru je:

./MANER/files/SNER/csfdner.prop.

Trénovac´ı sada pro nástroj SVMLIB mus´ı být nejprve pˇrevedena do formátu vek-tor˚u (viz kapitolu 4.5.2). Co se týˇce doby trénován´ı nástroj˚u, jsou zde zásadn´ı rozd´ıly.

Nástroj LIBSVM se na trénovac´ı sadˇe uˇcil nejkratˇs´ı dobu (necelých 7 sekund), nástroj SNER se uˇcil 27 sekund a nástroji SNER vytváˇren´ı modelu zabralo dokonce 9,5 minuty. Uvedené hodnoty byly namˇeˇreny na poˇc´ıtaˇci s konfigurac´ı uvedenou v tabulce 4.5. Na stejném poˇc´ıtaˇci byly provádˇeny i veˇskerá dalˇs´ı testován´ı.

Tabulka 4.5: Konfigurace poˇc´ıtaˇce, na kterém bylo provádˇeno testován´ı Operaˇcn´ı systém Windows 8.1 Pro

Velikost RAM 6 GB

Procesor Intel^® Core i3-3227U, CPU @ 1,90 GHz 1,90 GHz Typ syst´emu 64bitov´y

V tabulce 4.6 jsou uvedeny doby trénován´ı jednotlivých nástroj˚u na p˚uvodn´ı trénovac´ı sadˇe i na rozˇs´ıˇrené trénovac´ı sadˇe. ˇCasy jsou uvedeny ve formátu hh:mm:ss.

Tabulka 4.6: Doba trván´ı trénován´ı jednotlivých nástroj˚u Základn´ı trénovac´ı sada Rozˇs´ıˇrená trénovac´ı sada

SNER 00:09:11 01:29:42

LIPI 00:00:30 00:01:21

LIBSVM 00:01:02 02:35:44

4.7 Testov´ an´ı NER n´ astroj˚ u

Souˇcást´ı nástroje je také rozhran´ı pro jeho otestován´ı. Pro otestován´ı je potˇreba sada dat ve stejném formátu jako trénovac´ı data. Aby byly výsledky testován´ı od-pov´ıdaj´ıc´ı, mˇela by se data v testovac´ı sadˇe liˇsit, ale také by se mˇelo jednat o data ze stejné domény jako data v trénovac´ı sadˇe. Otestován´ı se provede pˇr´ıkazem:

java -jar maner.jar -test [inputFile] [snerModelFile]

[lipiModelFile] [svmModelFile] [outputFile]

Nástroj MANER naˇcte ze vstupn´ıho souboru správné tˇr´ıdy jednotlivých entit a pˇredá nástroj˚um pro rozpoznáván´ı entit pouze ˇcistá data. Po zpracován´ı vyhodnot´ı výsledky vˇsech nástroj˚u pomoc´ı správných odpovˇed´ı a výsledky uloˇz´ı do výstupn´ıho souboru.

Tyto v´ysledky obsahuj´ı poˇcty TP, FP, FN, pˇresnost, ´uplnost a F-m´ıru.

4.8 Pouˇ zit´ı NER n´ astroj˚ u samostatnˇ e

Mimo to, ˇze lze nástroj MANER pouˇz´ıt jako celek, lze také pouˇz´ıt pouze jednotlivé nástroje. M˚uˇzeme tak zjistit, jak hodnotil daný vstupn´ı text kaˇzdý nástroj. Rozhran´ı pro samostatné pouˇzit´ı nástroj˚u je:

java -jar maner.jar -svm [inputFile] [modelFile]

java -jar maner.jar -lipi [inputFile] [modelFile]

java -jar maner.jar -sner [inputFile] [modelFile]

Argument inputFile je cesta ke vstupn´ımu souboru s prost´ym textem. Argument modelFile je cesta k modelu, jehoˇz tvorbu popisuje kapitola 4.6. V´ystup

jednot-livých nástroj˚u je vytiˇstˇen na standardn´ı výstup. Pokud bychom chtˇeli zkontrolovat vyhodnocen´ı slovn´ıkové metody, pouˇzijeme pˇr´ıkaz:

java -jar maner.jar -dictionary [inputFile] [dictionaryFile]

Argument dictionaryFile je soubor se slovn´ıkem. Tvorba slovn´ıku je pops´ana v ka-pitole 4.4.

5 Testov´ an´ı navrˇ zen´ eho n´ astroje

V této kapitole jsou shrnuty výsledky namˇeˇrené pˇri bˇehu programu. Program byl natrénován a otestován pomoc´ı testovac´ı a trénovac´ı sady vytvoˇrené v rámci práce – tedy pomoc´ı dat staˇzených z webu ˇCSFD. V tabulce 5.1 jsou shrnuty výsledky testu programu pˇred automatickým rozˇs´ıˇren´ım trénovac´ı sady pomoc´ı slovn´ıku. Uvedená hodnota vˇzdy pˇredstavuje F-m´ıru (tedy kombinaci pˇresnosti a úplnosti) konkrétn´ıho nástroje. F-m´ıra je v tomto pˇr´ıpadˇe harmonický pr˚umˇer pˇresnosti a úplnosti (viz ka-pitolu 2.4). Trénovac´ı a testovac´ı sady pouˇzité pro otestován´ı nástroje jsou popsány v tabulce 4.4.

Tabulka 5.1: Výsledky testován´ı nástroje MANER pˇred automatickým rozˇs´ıˇren´ım trénovac´ı sady

Jména lid´ı vyhledával nejlépe proto, ˇze jejich zastoupen´ı v trénovac´ı sadˇe bylo nejvyˇsˇs´ı. Datových údaj˚u nebylo mnoho, ale od bˇeˇzného textu jsou jednoduˇse rozliˇsi-telné. Nejlépe toho vyuˇz´ıvá algoritmus SVM, který na slova pohl´ıˇz´ı z morfologického hlediska. Naopak ostatn´ı tˇr´ıdy pro tento algoritmus byly problémové právˇe z tohoto d˚uvodu.

Dále je patrné, ˇze slovn´ıková metoda nepˇresahuje rámec definovaného slovn´ıku, a rozpoznává pouze druhy pojmenovaných entit, které jsou ve slovn´ıku definovány.

Obecnˇe si ze vˇsech nástroj˚u nejlépe vedl nástroj SNER. Lze zde vypozorovat jistou souvislost mezi dobou trénován´ı nástroje a jeho úspˇeˇsnost´ı, viz tabulku 4.6.

Pˇred t´ım, neˇz se provedlo testován´ı celého nástroje MANER, byly výsledky tes-tován´ı d´ılˇc´ıch nástroj˚u pouˇzity k sestaven´ı tabulky vah. Jako váha nástroje pro konkrétn´ı tˇr´ıdu entit slouˇz´ı jeho pˇresnost pˇri testován´ı. V podstatˇe se tedy jedná o tabulku pˇresnost´ı jednotlivých nástroj˚u. Jedinou výjimkou je tˇr´ıda O. Aˇckoliv je zde oznaˇcována jako tˇr´ıda pojmenované entity, ve skuteˇcnosti se o pojmenovanou entitu nejedná. Protoˇze je jej´ı zastoupen´ı v bˇeˇzném textu nejvyˇsˇs´ı, nástroj je touto tˇr´ıdou pˇreuˇcen. Pokud by j´ı z˚ustala jej´ı pˇresnost, pak by vˇetˇsinu skuteˇcných pojme-novaných entit v textu nástroj oznaˇcil tˇr´ıdou O. Proto byla v tabulce vah u kaˇzdého nástroje pro tˇr´ıdu O pouˇzita pˇresnost 0,01. Váhy, která vznikly pˇri prvn´ım testován´ı, jsou uvedeny v tabulce 5.2.

Tabulka 5.2: Váhy pouˇzité pˇri testován´ı nástroje MANER pˇred automatickým rozˇs´ıˇren´ım trénovac´ı sady

V tabulce 5.3 jsou výsledky bˇehu programu po automatickém rozˇs´ıˇren´ı trénovac´ı sady. Je patrné, ˇze toto rozˇs´ıˇren´ı na výsledky testován´ı mˇelo znaˇcný vliv. Bylo za-znamenáno oˇcekávané zlepˇsen´ı zejména v rozpoznáván´ı tˇech tˇr´ıd entit, které byly rozˇs´ıˇrené. Ve tˇr´ıdách, které rozˇs´ıˇreny nebyly (LOC, ORG ) výsledky nejsou jedno-znaˇcné. Zat´ımco rozpoznáván´ı tˇr´ıdy LOC se zlepˇsilo, rozpoznáván´ı tˇr´ıdy ORG se zhorˇsilo.

Tabulka 5.3: Výsledky testován´ı nástroje MANER po automatickém rozˇs´ıˇren´ı

Váhy pouˇzité pro testován´ı s rozˇs´ıˇrenou trénovac´ı sadou jsou uvedeny v ta-bulce 5.4.

Tabulka 5.4: Váhy pouˇzité pˇri testován´ı nástroje MANER po automatickém rozˇs´ıˇren´ım trénovac´ı sady

Graf na obrázku 5.1 pˇrehlednˇe znázorˇnuje, jak byl nástroj MANER úspˇeˇsný v nalézán´ı pojmenovaných entit v porovnán´ı s d´ılˇc´ımi výsledky jednotlivých nástroj˚u.

Obrázek 5.1: Porovnán´ı F-m´ıry nástroje MANER s jednotlivými nástroji

In document Vyuˇzit´ı algoritm˚u dataminingu pro rozpoznáván´ı pojmenovaných entit (Page 31-45)