• No results found

Poˇcet vˇet 757 487 Poˇcet film˚u 3 571 Poˇcet koment´aˇr˚u 227 893 Poˇcet koment´ator˚u (unik´atn´ı) 19850

Poˇcet akt´er˚u (unik´atn´ı) 9710

N´astroj MANER lze pro stahov´an´ı dat o filmech pouˇz´ıt n´asleduj´ıc´ım zp˚usobem:

java -jar maner.jar -download [yearFrom] [yearTo] [movieType]

Tyto tˇri argumenty slouˇz´ı k filtrov´an´ı film˚u, o kter´ych se budou data stahovat.

Argumenty yearFrom a yearTo omezuj´ı filmy rokem vzniku. Argument movieType omezuje filmy typem.

Povolen´e hodnoty tohoto argumentu jsou:

0 – filmy 1 – video filmy 2 – TV filmy 3 – TV seri´aly 4 – TV poˇrady 7 – studentsk´e filmy 8 – amat´ersk´e filmy

V´ysledek stahov´an´ı je uloˇzen do XML souboru s n´asleduj´ıc´ı cestou:

./files/dumps/list-[movieType]-1-from-[yearFrom]-to-[yearTo].xml

Stahov´an´ı dat je omezen´e na deset poˇzadavk˚u za minutu. Pˇredejde se tak vy-sok´emu mnoˇzstv´ı poˇzadavk˚u na server, moˇzn´emu podezˇren´ı na DoS2 utok a n´´ asle-dn´emu zablokov´an´ı IP adresy.

Staˇzen´a data jsou d´ale pouˇzita k vytvoˇren´ı testovac´ı a tr´enovac´ı sady a slovn´ıku.

Metody kter´e jsou k tomu pouˇzity ˇctou data vˇzdy pouze z jednoho souboru, a proto n´astroj umoˇzˇnuje spojit nˇekolik XML soubor˚u do jednoho pomoc´ı pˇr´ıkazu:

java -jar maner.jar -merge [directoryWithXMLFiles] [outputFile]

Data lze z XML form´atu do textov´e podoby bez znaˇcek pˇrev´est pˇr´ıkazem:

java -jar maner.jar -convert [inputXMLFile] [outputDirectory]

2Denial of Service

4.3 Pouˇ zit´ e znaˇ cen´ı pojmenovan´ ych entit

Jako standard pro oznaˇcov´an´ı pojmenovan´ych entit ve v´ystupn´ım textu jsem pouˇzil konvence podobn´e CNEC. Tedy nalezen´e entity jsou vyznaˇceny ve formˇe:

Hrdiny filmu <PERS Petera Kerekese> jsou vojenˇst´ı kuchaˇri z r˚uzn´ych kout˚u

<LOC Evropy>.

Znaˇcen´ı ve slovn´ıku a v tr´enovac´ı a testovac´ı sadˇe je odliˇsn´e od znaˇcen´ı ve v´ystupn´ım souboru, a to zejm´ena kv˚uli odliˇsn´e struktuˇre soubor˚u. Na rozd´ıl od v´ystupn´ıho souboru, kter´y je ve formˇe souvisl´eho textu, jsou tr´enovac´ı a testovac´ı sada a slovn´ık vˇzdy ve formˇe jednoho hesla na ˇr´adek. A proto jsou ve tvaru:

Hrdiny O

filmu O

Petra PERS

Kerekese PERS

Vˇsechny druhy entit, kter´e n´astroj MANER vyhled´av´a, jsou spolu s jejich ozna-ˇcen´ım shrnuty v tabulce 4.2. Ke klasicky vyhled´avan´ym entit´am jsem nav´ıc pˇridal entity specifick´e pro vybranou dom´enu dat. Jedn´a se o n´azev filmu a pˇrezd´ıvky (zejm´ena pˇrezd´ıvky komentuj´ıc´ıch, tedy jm´ena uˇzivatel˚u ˇCSFD).

Tabulka 4.2: Znaˇcen´ı druh˚u vyhled´avan´ych entit

Druh entity Oznaˇcen´ı (SNER, LIPI) Oznaˇcen´ı (SVM)

Osoba PERS 1

Slovo, kter´e nen´ı entitou O 0

4.4 Tvorba slovn´ıku z dat z ˇ CSFD

Pro vytvoˇren´ı slovn´ıku ze staˇzen´ych dat pouˇzijeme pˇr´ıkaz:

java -jar maner.jar -dctbuild [inputXMLFile] [outputDictionary]

Argument inputXMLFile je soubor, kter´y vznikl po vykon´an´ı pˇr´ıkazu download nebo merge (kapitola 4.2). Ve v´ysledn´em slovn´ıku jsou obsaˇzena vˇsechna jm´ena film˚u, herc˚u, tv˚urc˚u film˚u a uˇzivatel˚u, kter´a byla k nalezen´ı ve vstupn´ım souboru. Tato jsou oznaˇcena pˇr´ısluˇsn´ym druhem entity a to stylem popsan´ym v kapitole 4.3.

4.5 Pˇ r´ıprava tr´ enovac´ı a testovac´ı sady

Knihovny SNER a LIPI vyuˇz´ıvaj´ı podobn´y vstupn´ı form´at tr´enovac´ı a testovac´ı sady: [token][tabul´ator][tˇr´ıda entity pˇr´ısluˇsej´ıc´ı tokenu]. Liˇs´ı se pouze v pojmenov´an´ı druh˚u entit. Ve form´atu pro LIPI je rozliˇseno, zda se jedn´a o zaˇc´atek (prefix B-) pojmenovan´e entity nebo pokraˇcov´an´ı v´ıcetokenov´e entity, kter´a zaˇcala na nˇekter´em z pˇredchoz´ıch ˇr´adk˚u (prefix I-). Pro pˇreveden´ı tr´enovac´ı sady n´astroje SNER na tr´enovac´ı sadu pro n´astroj LIPI slouˇz´ı pˇr´ıkaz:

java -jar maner.jar -lipiconvert [pathToSNERTrainFile] [outputFile]

Algoritmus prov´adˇej´ıc´ı konverzi vych´az´ı z pˇredpokladu, ˇze mezi dvˇema enti-tami je alespoˇn jedno slovo nebo znak, kter´e nen´ı entitou. Tedy kaˇzdou entitu, jeˇz n´asleduje bezprostˇrednˇe za jinou entitou a m´a stejnou tˇr´ıdu, oznaˇc´ı jako po-kraˇcov´an´ı pˇredchoz´ı entity. Tento pˇr´ıstup je do jist´e m´ıry naivn´ı, ale poruˇsen´ı tohoto pˇredpokladu nastane tak ojedinˇele (napˇr´ıklad v tr´enovac´ı a testovac´ı sadˇe nenastalo), ˇze je moˇzn´e jej pouˇz´ıt, aniˇz by t´ım utrpˇela n´asledn´a pˇresnost vytvoˇren´eho uˇc´ıc´ıho modelu. Pro zjednoduˇsen´ı jsem pro tr´enov´an´ı SVM algoritmu pouˇzil stejn´y form´at jako je form´at SNER, kter´y je pˇred spuˇstˇen´ım programu pˇreveden na vektory.

Obˇe sady byly vytvoˇreny z dat staˇzen´ych z ˇCSFD. Ze vˇsech koment´aˇr˚u a z´apletek jsem n´ahodnˇe vybral tˇri tis´ıce vˇet na tr´enovac´ı sadu a 600 vˇet na testovac´ı sadu,

rovnomˇernˇe vˇzdy polovinu vˇet ze z´apletek a polovinu z koment´aˇr˚u. Vybran´y text jsem proˇsel a ke kaˇzd´emu tokenu pˇriˇradil odpov´ıdaj´ıc´ı druh entity. Takto oznaˇcen´ym dat˚um se ˇr´ık´a golden data (zlat´a data), nebot’ se vych´az´ı z pˇredpokladu, ˇze jsou spr´avn´a a stroj se z nich m˚uˇze uˇcit. Tvorba obs´ahlejˇs´ı sady je velmi zdlouhav´a ˇcinnost a projevuje se to na vysok´e hodnotˇe takto anotovan´ych dat. Vznikl´a tr´enovac´ı sada je povaˇzov´ana za malou (ve srovn´an´ı napˇr´ıklad s tr´enovac´ı sadou CNEC, kter´a obsahuje 9000 vˇet).

4.5.1 Automatick´ e rozˇ siˇ rov´ an´ı tr´ enovac´ı sady

Aby se pˇri rozpozn´av´an´ı pojmenovan´ych entit dos´ahlo co nejlepˇs´ıch v´ysledk˚u, vyuˇzil jsem automatick´e rozˇs´ıˇren´ı tr´enovac´ı sady. Protoˇze manu´aln´ı oznaˇcov´an´ı entit je ˇcasovˇe n´aroˇcn´a ˇcinnost, je moˇzn´e tr´enovac´ı sadu rozˇs´ıˇrit automaticky. Obecnˇe se v dataminingu vyuˇz´ıv´a v´ıce pˇr´ıstup˚u (napˇr´ıklad generov´an´ı virtu´aln´ıch pˇr´ıklad˚u na z´akladˇe zn´am´ych dat). U t´eto konkr´etn´ı ´ulohy je vhodn´e k rozˇs´ıˇren´ı sady pouˇz´ıt vznikl´y slovn´ık entit. Tr´enovac´ı sadu jsem tedy rozˇs´ıˇril o slovn´ık vˇsech jmen a pˇre-zd´ıvek staˇzen´ych z ˇCSFD.

4.5.2 Tr´ enovac´ı data pro n´ astroj LIBSVM

Tr´enovac´ı sada pro n´astroj LIBSVM je z´asadnˇe odliˇsn´a od tr´enovac´ıch sad dvou pˇredchoz´ıch n´astroj˚u. Je to zp˚usobeno pˇredevˇs´ım podstatou algoritmu SVM. Pˇred tr´enov´an´ım n´astroje je potˇreba kaˇzd´y token pˇrev´est na vektor. Kaˇzd´a poloˇzka tohoto vektoru urˇcit´ym zp˚usobem charakterizuje dan´y token. Poloˇzky vektoru jsem sestavil z morfologick´ych znaˇcek ke kter´ym jsem nav´ıc pˇridal vlastn´ı charakteristiky popsan´e n´ıˇze.

Morfologick´e znaˇcky

Pro charakterizaci tokenu jsem vyuˇzil morfologick´e znaˇcky. Morfologick´a znaˇcka je ˇretˇezec, kter´y vznikne jako v´ystup morfologick´e anal´yzy. Kaˇzd´y jeho znak pˇredstavuje jednu morfologickou kategorii.

Napˇr´ıklad znaˇcka Praha:

NNFS1---A----nese o slovˇe Praha informaci, kter´a je pops´ana v tabulce 4.3.

Tabulka 4.3: V´yznam morfologick´ych znaˇcek pro slovo Praha pozice znak v´yznam

11 A afirmativ, tedy slovo je bez negativn´ı pˇredpony ne

Pokud je na nˇekter´e pozici pomlˇcka, znamen´a to, ˇze tato hodnota u dan´eho slova ned´av´a smysl (napˇr´ıklad znaˇcka na des´at´e pozici urˇcuje stupeˇn). Kompletn´ı dokumentaci s popisem kaˇzd´e znaˇcky a jej´ıch moˇzn´ych hodnot lze nal´ezt v [13]. Pro z´ısk´an´ı morfologick´ych znaˇcek k dan´emu tokenu jsem pouˇzil n´astroj MorphoDiTa.

Struktura vstupn´ıch vektor˚u

Vektory v tr´enovac´ı sadˇe maj´ı celkem dvacet poloˇzek. Prvn´ı poloˇzka pˇredstavuje tˇr´ıdu entity dan´eho tokenu. Jedn´a se o ˇc´ıslo v rozsahu nula aˇz sedm. Nula je vy-hrazena pro slova, kter´a nejsou pojmenovan´ymi entitami a ostatn´ı ˇc´ısla pˇredstavuj´ı jednotliv´e tˇr´ıdy pojmenovan´ych entit (viz tabulku 4.2). Dalˇs´ıch patn´act poloˇzek vek-toru pˇredstavuje morfologick´e znaˇcky dan´eho tokenu. Poloˇzky na pozici 17, 18, 19 a 20 nab´yvaj´ı pouze hodnot jedna a nula, a uchov´avaj´ı tyto informace:

pozice 17 – zda je dan´y token delˇs´ı neˇz dva znaky pozice 18 – zda dan´y token zaˇc´ın´a velk´ym p´ısmenem pozice 19 – zda je dan´y token cel´y velk´ymi p´ısmeny pozice 20 – zda je dan´y token na zaˇc´atku vˇety

Pˇrevod tr´enovac´ı sady do form´atu SVM

Pro pˇrevod tr´enovac´ı sady slouˇz´ı pˇr´ıkaz:

java -jar maner.jar -svmconvert [inputFile] [outputFile]

Vstupn´ı soubor mus´ı b´yt ve form´atu tr´enovac´ı sady pro n´astroj SNER (tedy vˇzdy [token] [tˇr´ıda] na jednom ˇr´adku). V´ystupn´ı soubor je pak ve form´atu jednoho podp˚ ur-n´eho vektoru na ˇr´adek.

Tedy pro Praha : NNFS1---A---- bude v´ystupem:

2 1:6 2:37 3:1 4:3 5:1 11:1 16:1 17:1 18:0 19:1

V´yznam jednotliv´ych ˇc´ısel je uveden v´yˇse. Je d˚uleˇzit´e podotknout, ˇze prvn´ı ˇc´ıslo ud´av´a tˇr´ıdu pojmenovan´ych entit (2 = LOC ) do kter´e vektor n´aleˇz´ı a je uvedeno samostatnˇe. Vˇsechna ostatn´ı jsou po dvojici a to ve formˇe: [pozice poloˇzky]:[hodnota poloˇzky]. Poloˇzky kter´e nejsou urˇcen´e (v morfologick´e znaˇcce maj´ı pomlˇcku) se ve vektoru v˚ubec neobjev´ı.

4.5.3 Ruˇ cn´ı anotace dat

Pro zjednoduˇsen´ı ruˇcn´ı anotace dat n´astroj MANER implementuje n´asleduj´ıc´ı po-stup:

1. lemmatizace libovolnˇe velk´eho souboru s textem – data jsou pˇrevedena do podoby jedna vˇeta na ˇr´adek,

2. n´ahodn´y v´ybˇer zadan´eho poˇctu vˇet,

3. tokenizace – data jsou pˇrevedena do podoby jeden token na ˇr´adek,

4. pˇriˇrazen´ı v´ychoz´ı tˇr´ıdy entity kaˇzd´emu tokenu – data jsou pˇrevedena do podoby [token][tabul´ator][v´ychoz´ı tˇr´ıda entity].

Pro proveden´ı dan´e sekvence operac´ı slouˇz´ı pˇr´ıkazy:

java -jar maner.jar -lemmatize [inputFile]

java -jar maner.jar -limitlemmas [inputFile] [n]

java -jar maner.jar -tokenize [inputFile]

java -jar maner.jar -defaultclass [inputFile] [defaultClass]

Kaˇzd´y pˇr´ıkaz vytv´aˇr´ı nov´y soubor (se stejnou cestou jako vstupn´ı soubor, pouze mu pˇrid´a novou koncovku), kter´y pˇrej´ım´a n´asleduj´ıc´ı pˇr´ıkaz. Po vykon´an´ı t´eto sek-vence je potˇreba proj´ıt cel´y v´ysledn´y soubor a kaˇzd´e entitˇe pˇriˇradit jej´ı odpov´ıdaj´ıc´ı tˇr´ıdu. V´ystupem tohoto kroku jsou jiˇz v´yˇse zm´ınˇen´a golden data. V tabulce 4.4 jsou uvedeny ´udaje o ruˇcnˇe oznaˇcen´ych datech. Je patrn´e a oˇcek´avateln´e, ˇze vˇetˇsina slov nejsou pojmenovan´e entity. Pomˇer rozdˇelen´ı jednotliv´ych tˇr´ıd je na n´ahodnˇe vybran´ych datech velmi podobn´y v tr´enovac´ı i testovac´ı sadˇe. V tabulce je tak´e uvedeno, jak se zmˇenila tr´enovac´ı sada po automatick´em rozˇs´ıˇren´ı.

Tabulka 4.4: ´Udaje o tr´enovac´ı a testovac´ı sadˇe

Tr´enovac´ı sada Testovac´ı sada Rozˇs´ıˇren´a tr. sada

Poˇcet vˇet 3 000 600 12 000

Poˇcet slov 49 768 9 861 208 962

Poˇcet jmen (PERS) 1 904 340 22 134

Poˇcet lokalit (LOC) 519 66 519

Poˇcet n´azv˚u film˚u (MOV) 340 60 10 481 Poˇcet ˇcas. ´udaj˚u (TIME) 148 31 14 432

Poˇcet organizac´ı (ORG) 136 38 136

Poˇcet pˇrezd´ıvek (NICK) 59 10 28 695

Poˇcet ne-entit (O) 46 609 9 304 132 647

Procento entit 6,35 % 5,65 % 36,5 %

4.6 Tr´ enov´ an´ı NER n´ astroj˚ u

Po vytvoˇren´ı tr´enovac´ıch sad je moˇzn´e je pouˇz´ıt k tr´enov´an´ı jednotliv´ych n´astroj˚u.

Pˇr´ıkazy pro tr´enov´an´ı jsou:

java -jar maner.jar -svmtrain [inputFile] [outputFile]

java -jar maner.jar -lipitrain [inputFile] [outputFile]

java -jar maner.jar -snertrain [propertiesFile]

U n´astroj˚u LIBSVM a LIPI je rozhran´ı stejn´e. Argument inputFile je cesta ke vstupn´ı tr´enovac´ı sadˇe v pˇr´ısluˇsn´em form´atu a argument outputFile je cesta, kam se uloˇz´ı natr´enovan´y model. U tr´enov´an´ı n´astroje SNER je rozhran´ı odliˇsn´e. Jedin´y ar-gument propertiesFile je cesta k souboru s nastaven´ım tr´enovac´ıho n´astroje. Tento soubor mimo jin´e obsahuje i nastaven´ı vstupn´ıho a v´ystupn´ıho souboru. Pˇr´ıklad takov´eho souboru lze nal´ezt na pˇriloˇzen´em CD. Cesta k souboru je:

./MANER/files/SNER/csfdner.prop.

Tr´enovac´ı sada pro n´astroj SVMLIB mus´ı b´yt nejprve pˇrevedena do form´atu vek-tor˚u (viz kapitolu 4.5.2). Co se t´yˇce doby tr´enov´an´ı n´astroj˚u, jsou zde z´asadn´ı rozd´ıly.

N´astroj LIBSVM se na tr´enovac´ı sadˇe uˇcil nejkratˇs´ı dobu (necel´ych 7 sekund), n´astroj SNER se uˇcil 27 sekund a n´astroji SNER vytv´aˇren´ı modelu zabralo dokonce 9,5 minuty. Uveden´e hodnoty byly namˇeˇreny na poˇc´ıtaˇci s konfigurac´ı uvedenou v tabulce 4.5. Na stejn´em poˇc´ıtaˇci byly prov´adˇeny i veˇsker´a dalˇs´ı testov´an´ı.

Tabulka 4.5: Konfigurace poˇc´ıtaˇce, na kter´em bylo prov´adˇeno testov´an´ı Operaˇcn´ı syst´em Windows 8.1 Pro

Velikost RAM 6 GB

Procesor Intel® Core— i3-3227U, CPU @ 1,90 GHz 1,90 GHz Typ syst´emu 64bitov´y

V tabulce 4.6 jsou uvedeny doby tr´enov´an´ı jednotliv´ych n´astroj˚u na p˚uvodn´ı tr´enovac´ı sadˇe i na rozˇs´ıˇren´e tr´enovac´ı sadˇe. ˇCasy jsou uvedeny ve form´atu hh:mm:ss.

Tabulka 4.6: Doba trv´an´ı tr´enov´an´ı jednotliv´ych n´astroj˚u Z´akladn´ı tr´enovac´ı sada Rozˇs´ıˇren´a tr´enovac´ı sada

SNER 00:09:11 01:29:42

LIPI 00:00:30 00:01:21

LIBSVM 00:01:02 02:35:44

4.7 Testov´ an´ı NER n´ astroj˚ u

Souˇc´ast´ı n´astroje je tak´e rozhran´ı pro jeho otestov´an´ı. Pro otestov´an´ı je potˇreba sada dat ve stejn´em form´atu jako tr´enovac´ı data. Aby byly v´ysledky testov´an´ı od-pov´ıdaj´ıc´ı, mˇela by se data v testovac´ı sadˇe liˇsit, ale tak´e by se mˇelo jednat o data ze stejn´e dom´eny jako data v tr´enovac´ı sadˇe. Otestov´an´ı se provede pˇr´ıkazem:

java -jar maner.jar -test [inputFile] [snerModelFile]

[lipiModelFile] [svmModelFile] [outputFile]

N´astroj MANER naˇcte ze vstupn´ıho souboru spr´avn´e tˇr´ıdy jednotliv´ych entit a pˇred´a n´astroj˚um pro rozpozn´av´an´ı entit pouze ˇcist´a data. Po zpracov´an´ı vyhodnot´ı v´ysledky vˇsech n´astroj˚u pomoc´ı spr´avn´ych odpovˇed´ı a v´ysledky uloˇz´ı do v´ystupn´ıho souboru.

Tyto v´ysledky obsahuj´ı poˇcty TP, FP, FN, pˇresnost, ´uplnost a F-m´ıru.

4.8 Pouˇ zit´ı NER n´ astroj˚ u samostatnˇ e

Mimo to, ˇze lze n´astroj MANER pouˇz´ıt jako celek, lze tak´e pouˇz´ıt pouze jednotliv´e n´astroje. M˚uˇzeme tak zjistit, jak hodnotil dan´y vstupn´ı text kaˇzd´y n´astroj. Rozhran´ı pro samostatn´e pouˇzit´ı n´astroj˚u je:

java -jar maner.jar -svm [inputFile] [modelFile]

java -jar maner.jar -lipi [inputFile] [modelFile]

java -jar maner.jar -sner [inputFile] [modelFile]

Argument inputFile je cesta ke vstupn´ımu souboru s prost´ym textem. Argument modelFile je cesta k modelu, jehoˇz tvorbu popisuje kapitola 4.6. V´ystup

jednot-liv´ych n´astroj˚u je vytiˇstˇen na standardn´ı v´ystup. Pokud bychom chtˇeli zkontrolovat vyhodnocen´ı slovn´ıkov´e metody, pouˇzijeme pˇr´ıkaz:

java -jar maner.jar -dictionary [inputFile] [dictionaryFile]

Argument dictionaryFile je soubor se slovn´ıkem. Tvorba slovn´ıku je pops´ana v ka-pitole 4.4.

5 Testov´ an´ı navrˇ zen´ eho n´ astroje

V t´eto kapitole jsou shrnuty v´ysledky namˇeˇren´e pˇri bˇehu programu. Program byl natr´enov´an a otestov´an pomoc´ı testovac´ı a tr´enovac´ı sady vytvoˇren´e v r´amci pr´ace – tedy pomoc´ı dat staˇzen´ych z webu ˇCSFD. V tabulce 5.1 jsou shrnuty v´ysledky testu programu pˇred automatick´ym rozˇs´ıˇren´ım tr´enovac´ı sady pomoc´ı slovn´ıku. Uveden´a hodnota vˇzdy pˇredstavuje F-m´ıru (tedy kombinaci pˇresnosti a ´uplnosti) konkr´etn´ıho n´astroje. F-m´ıra je v tomto pˇr´ıpadˇe harmonick´y pr˚umˇer pˇresnosti a ´uplnosti (viz ka-pitolu 2.4). Tr´enovac´ı a testovac´ı sady pouˇzit´e pro otestov´an´ı n´astroje jsou pops´any v tabulce 4.4.

Tabulka 5.1: V´ysledky testov´an´ı n´astroje MANER pˇred automatick´ym rozˇs´ıˇren´ım tr´enovac´ı sady

Jm´ena lid´ı vyhled´aval nejl´epe proto, ˇze jejich zastoupen´ı v tr´enovac´ı sadˇe bylo nejvyˇsˇs´ı. Datov´ych ´udaj˚u nebylo mnoho, ale od bˇeˇzn´eho textu jsou jednoduˇse rozliˇsi-teln´e. Nejl´epe toho vyuˇz´ıv´a algoritmus SVM, kter´y na slova pohl´ıˇz´ı z morfologick´eho hlediska. Naopak ostatn´ı tˇr´ıdy pro tento algoritmus byly probl´emov´e pr´avˇe z tohoto d˚uvodu.

D´ale je patrn´e, ˇze slovn´ıkov´a metoda nepˇresahuje r´amec definovan´eho slovn´ıku, a rozpozn´av´a pouze druhy pojmenovan´ych entit, kter´e jsou ve slovn´ıku definov´any.

Obecnˇe si ze vˇsech n´astroj˚u nejl´epe vedl n´astroj SNER. Lze zde vypozorovat jistou souvislost mezi dobou tr´enov´an´ı n´astroje a jeho ´uspˇeˇsnost´ı, viz tabulku 4.6.

Pˇred t´ım, neˇz se provedlo testov´an´ı cel´eho n´astroje MANER, byly v´ysledky tes-tov´an´ı d´ılˇc´ıch n´astroj˚u pouˇzity k sestaven´ı tabulky vah. Jako v´aha n´astroje pro konkr´etn´ı tˇr´ıdu entit slouˇz´ı jeho pˇresnost pˇri testov´an´ı. V podstatˇe se tedy jedn´a o tabulku pˇresnost´ı jednotliv´ych n´astroj˚u. Jedinou v´yjimkou je tˇr´ıda O. Aˇckoliv je zde oznaˇcov´ana jako tˇr´ıda pojmenovan´e entity, ve skuteˇcnosti se o pojmenovanou entitu nejedn´a. Protoˇze je jej´ı zastoupen´ı v bˇeˇzn´em textu nejvyˇsˇs´ı, n´astroj je touto tˇr´ıdou pˇreuˇcen. Pokud by j´ı z˚ustala jej´ı pˇresnost, pak by vˇetˇsinu skuteˇcn´ych pojme-novan´ych entit v textu n´astroj oznaˇcil tˇr´ıdou O. Proto byla v tabulce vah u kaˇzd´eho n´astroje pro tˇr´ıdu O pouˇzita pˇresnost 0,01. V´ahy, kter´a vznikly pˇri prvn´ım testov´an´ı, jsou uvedeny v tabulce 5.2.

Tabulka 5.2: V´ahy pouˇzit´e pˇri testov´an´ı n´astroje MANER pˇred automatick´ym rozˇs´ıˇren´ım tr´enovac´ı sady

V tabulce 5.3 jsou v´ysledky bˇehu programu po automatick´em rozˇs´ıˇren´ı tr´enovac´ı sady. Je patrn´e, ˇze toto rozˇs´ıˇren´ı na v´ysledky testov´an´ı mˇelo znaˇcn´y vliv. Bylo za-znamen´ano oˇcek´avan´e zlepˇsen´ı zejm´ena v rozpozn´av´an´ı tˇech tˇr´ıd entit, kter´e byly rozˇs´ıˇren´e. Ve tˇr´ıd´ach, kter´e rozˇs´ıˇreny nebyly (LOC, ORG ) v´ysledky nejsou jedno-znaˇcn´e. Zat´ımco rozpozn´av´an´ı tˇr´ıdy LOC se zlepˇsilo, rozpozn´av´an´ı tˇr´ıdy ORG se zhorˇsilo.

Tabulka 5.3: V´ysledky testov´an´ı n´astroje MANER po automatick´em rozˇs´ıˇren´ı

V´ahy pouˇzit´e pro testov´an´ı s rozˇs´ıˇrenou tr´enovac´ı sadou jsou uvedeny v ta-bulce 5.4.

Tabulka 5.4: V´ahy pouˇzit´e pˇri testov´an´ı n´astroje MANER po automatick´em rozˇs´ıˇren´ım tr´enovac´ı sady

Graf na obr´azku 5.1 pˇrehlednˇe zn´azorˇnuje, jak byl n´astroj MANER ´uspˇeˇsn´y v nal´ez´an´ı pojmenovan´ych entit v porovn´an´ı s d´ılˇc´ımi v´ysledky jednotliv´ych n´astroj˚u.

Obr´azek 5.1: Porovn´an´ı F-m´ıry n´astroje MANER s jednotliv´ymi n´astroji