DIPLOMOVÁPRÁCE Fakultymechatroniky,informatikyamezioborovýchstudi´ı TECHNICKÁUNIVERZITAVLIBERCI

(1)

TECHNICK ´ A UNIVERZITA V LIBERCI Fakulty mechatroniky, informatiky a mezioborov´ ych studi´ı

DIPLOMOV ´ A PR ´ ACE

Liberec 2012 Michal Rott

(2)

(3)

TECHNICK ´ A UNIVERZITA V LIBERCI Fakulty mechatroniky, informatiky a mezioborov´ ych studi´ı

Studijn´ı program: N2612 - Elektrotechnika a informatika Studijn´ı obor: 1802T007 - Informaˇ cn´ı technologie

Automatick´ a sumarizace textov´ ych dokument˚ u

Automatic summarization of text documents

Diplomov´ a pr´ ace

Autor: Bc. Michal Rott

Vedouc´ı pr´ ace: Ing. Petr ˇ Cerva, Ph.D.

Konzultant: Ing. Ladislav ˇ Seps

V Liberci 15. kvˇ etna 2012

(4)

!!! Origin´ al zad´ an´ı !!!

M´ısto tohoto listu bude origin´al zad´an´ı...

(5)

Prohl´ aˇ sen´ı

Byl(a) jsem seznámen(a) s t´ım, ˇze na mou diplomovou práci se plnˇe vztahuje zákon ˇ

c. 121/2000 Sb. o právu autorském, zejména § 60 – ˇskoln´ı d´ılo.

Beru na vˇedom´ı, ˇze Technická univerzita v Liberci (TUL) nezasahuje do mých autorských práv uˇzit´ım mé diplomové práce pro vnitˇrn´ı potˇrebu TUL.

Uˇziji-li diplomovou práci nebo poskytnu-li licenci k jej´ımu vyuˇzit´ı, jsem si vˇedom povinnosti informovat o této skuteˇcnosti TUL; v tomto pˇr´ıpadˇe má TUL právo ode mne poˇzadovat úhradu náklad˚u, které vynaloˇzila na vytvoˇren´ı d´ıla, aˇz do jejich skuteˇcné výˇse.

Diplomovou práci jsem vypracoval(a) samostatnˇe s pouˇzit´ım uvedené literatury a na základˇe konzultac´ı s vedouc´ım diplomové práce a konzultantem.

Datum

Podpis

(6)

Podˇ ekov´ an´ı

Rád bych podˇekoval vedouc´ımu mé diplomové práce panu Ing. Petru ˇCervovi Ph.D.

ze rady a ˇcas, které mi vˇenoval bˇehem konzultac´ı. Také bych rád podˇekoval vˇsem, kteˇr´ı se

´

uˇcastnili tvorby datab´aze referenˇcn´ıch souhrn˚u.

(7)

Abstrakt

Dneˇsn´ı svˇet je pˇrehlcen informacemi a právˇe tato práce se snaˇz´ı lidem usnadnit práci s informacemi vytváˇren´ım souhrn˚u tˇechto informac´ı. V rámci výzkumu byly pˇreváˇznˇe z anglické literatury nastudovány metody vytváˇrej´ıc´ı z rozsáhlých ˇclánk˚u extrakty.

Byly nastudovány sumarizaˇcn´ı metody heuristické a statistické vyuˇz´ıvané v poˇcátc´ıch digitalizace text˚u, ale i modern´ı metody analyzuj´ıc´ı texty hloubˇeji. Hlavn´ı pozornost byla vˇenována Luhnovu sumarizátoru a latentn´ı sémantické analýze. Tyto metody byly také implementovány v jazyku C# na platformˇe Mono.

Druhá ˇcást diplomové práce ˇreˇs´ı problematiku evaluace implementovaných sumarizaˇcn´ıch metod. Z literatury a vˇedeckých ˇclánk˚u byly nastudovány techniky pouˇz´ıvané pro mˇeˇren´ı a hodnocen´ı automaticky generovaných souhrn˚u. Pro vlastn´ı proveden´ı evaluace byl vyuˇzit program ROUGE, vyuˇz´ıvaný pro tento úˇcel i na konferenc´ıch Text Analysis Conference. V rámci evaluace bylo provedeno nˇekolik experiment˚u s r˚uznými nastaven´ımi sumarizace a byly vyhodnoceny i volnˇe dostupné sumarizátory.

Kl´ıˇ cov´ a slova

sumarizace, souhrn, Luhn˚uv sumarizátor, Latentn´ı sémantická analýza, evaluace, ROUGE

Abstract

Today’s world is overloaded with information and this work is trying to help people work with information by creating summaries of this information. During the research has been staging method of producing extracts from large articles. Staging were summarization mehods heuristic and statistical used in the early days of text digitization and modern methods analyzing texts more deeply. The main attention was paid to Luhn summarizer and to method using latent semantic analysis. These methods were also implemented in C# on the Mono platform.

The second part of the thesis deals with the issue summarizing the evaluation of implemented methods. From literature and scientific articles have been staging techniques used for measurement and evaluation of automatically generated summaries. For the actual performance evaluation program was used ROUGE, used for that purpose at conferences and Text Analysis Conference. The evaluation was carried out several experiments with different settings and summaries have been evaluated and freely available sumariz´atory.

Keywords

summarization, summary, Luhn summarizer, Latent semantic analysis, evaluation, ROUGE

(8)

Obsah

1 Uvod´ 8

1.1 Automatick´a sumarizace . . . 8

1.2 Sumarizace dnes . . . 9

2 Rozdˇelen´ı souhrn˚u a metod sumarizac´ı 10 2.1 Clenˇˇ en´ı dle typy souhrnu . . . 10

2.2 Clenˇˇ en´ı dle ´urovnˇe anal´yzy dokumentu . . . 11

2.3 Clenˇˇ en´ı dle potˇreb uˇzivatel˚u . . . 11

2.4 Clenˇˇ en´ı dle rozsahu souhrnu . . . 12

2.5 Multidokumentov´a, aktualizaˇcn´ı a ASR sumarizace . . . 13

3 Metody sumarizace textu 15 3.1 Heuristick´e metody . . . 15

3.2 Statistick´e metody . . . 15

3.2.1 Luhn˚uv sumariz´ator . . . 16

3.2.2 Naivn´ı Bayes˚uv klasifik´ator . . . 17

3.3 Modern´ı pˇr´ıstupy . . . 18

3.3.1 Teorie r´etorick´ych struktur . . . 18

3.3.2 Grafov´e metody . . . 19

3.3.3 Latentn´ı sémantická analýza . . . 20

4 Hodnocen´ı sumarizac´ı 24 4.1 Pˇr´ım´e metody . . . 24

4.1.1 Kvalita souhrnu . . . 24

4.1.2 Ko-selekce . . . 25

4.1.3 Z´akladn´ı m´ıry podobnosti . . . 26

4.1.4 ROUGE . . . 27

4.2 Nepˇr´ım´e metody . . . 28

4.2.1 Kategorizace dokument˚u . . . 28

4.2.2 Vyhled´av´an´ı informac´ı . . . 29

4.2.3 Zodpov´ıd´an´ı dotaz˚u ˇcten´aˇri . . . 29

5 Implementace sumarizaˇcn´ıch metod 30

(9)

5.2 Interface metod . . . 31

5.3 Heuristick´a metoda . . . 32

5.4 Luhn˚uv sumariz´ator . . . 33

5.5 Latentn´ı sémantická analýza . . . 34

5.6 Vytvoˇren´e implementace . . . 36

6 Vyhodnocen´ı implementovan´ych metod 38 6.1 Zad´an´ı experiment˚u . . . 38

6.2 Vytvoˇren´ı evaluaˇcn´ıho korpusu . . . 38

6.3 Pˇr´ıprava dat . . . 39

6.4 V´ysledky experiment˚u . . . 40

6.4.1 Evaluace vytvoˇren´eho sumariz´atoru . . . 40

6.4.2 Porovn´an´ı s online sumariz´atory . . . 41

6.4.3 Porovn´an´ı se souhrny neohebn´ych jazyk˚u . . . 42

6.4.4 Glob´aln´ı vs. inverzn´ı dokumentov´a frekvence . . . 43

7 Z´avˇer 44 7.1 Implementovan´e metody . . . 44

7.2 Poznatky z experiment˚u . . . 45

7.3 Moˇzn´e uplatnˇen´ı . . . 46

7.4 N´amˇety k rozˇs´ıˇren´ı pr´ace . . . 46

8 Literatura 47

A Uk´azka souhrn˚u 50

B Pˇrekryt´ı referenc´ı 52

(10)

1 Uvod ´

S poˇcátkem digitalizace textových dokument˚u vznikl problém s nedostateˇcnou kapacitou datových úloˇziˇst’. Tento problém se zaˇcal ˇreˇsit vytváˇren´ım souhrn˚u dokument˚u urˇcených k uloˇzen´ı a katalogizac´ı dokument˚u podle nich. Pokud dokument jiˇz obsahoval souhrn, nebyl problém ho rychle zaˇradit. Tyto souhrny vytváˇrené pˇreváˇznˇe samotnými autory jsou oznaˇcované jako abstrakty nebo resumé. Problém chybˇej´ıc´ıch abstrakt˚u se zaˇcal ˇreˇsil automatickou sumarizac´ı, jelikoˇz nebylo moˇzné vytvoˇrit ruˇcnˇe souhrny pro ”velké”mnoˇzstv´ı dokument˚u. Tyto automaticky vytvoˇrené souhrny bylo pak moˇzné vyuˇz´ıt pro vyhledáván´ı dokument˚u v knihovn´ıch terminálech a také se podle nich mohli rozhodnout, kterou knihu pˇreˇc´ıst.

Dnes stoj´ıme pˇred opaˇcným problémem. Kapacita datových úloˇziˇst’ je pro potˇreby uloˇzen´ı textových dokument˚u v podstatˇe neomezená. Napˇr´ıklad ˇcteˇcka elektronických knih Amazon Kindle 3 má kapacitu 4GB a pr˚umˇerná elektronická kniha má velikost pˇribliˇznˇe p˚ul megabytu. To znamená, ˇze do této ˇcteˇcky lze nahrát aˇz 8000 knih. Takové mnoˇzstv´ı knih nen´ı v podstatˇe moˇzné pˇreˇc´ıst a je nutné si podle nˇejakých informac´ı vybrat jen knihy, které uˇzivatele zaj´ımaj´ı. Ve svˇetˇe internetu je tento problém mnohonásobnˇe vˇetˇs´ı. Dennˇe vznikaj´ı tis´ıce dokument˚u, ˇclánk˚u, zpráv a zápisk˚u na bloz´ıch. Ze vˇsech tˇechto dokument˚u si uˇzivatelé vyb´ıraj´ı jen ty, které povaˇzuj´ı za d˚uleˇzité. Pro rozhodnut´ı, který ˇclánek je pro nás d˚uleˇzitý, m˚uˇzeme vyuˇz´ıt souhrn, jenˇz nám pom˚uˇze indikovat, který ˇclánek stoj´ı za pˇreˇcten´ı. Za extrémn´ı formu souhrnu m˚uˇzeme povaˇzovat tˇreba nadpis.

S r˚uznými typy souhrn˚u se setkáváme v podstatˇe dennˇe. Napˇr´ıklad pˇri vyhledáván´ı informac´ı pomoc´ı sluˇzeb Googlu si vyb´ıráme odkazy, právˇe na základˇe souhrnu stránky, který pro nás vyhledávac´ı sluˇzba vytváˇr´ı podle zadaného dotazu. Tento typ souhrnu se oznaˇcuje jakou souhrn na dotaz. Dalˇs´ım pˇr´ıkladem souhrn˚u jsou ”headlines”ˇctené moderátory televizn´ıch zpráv. Tyto souhrny pˇredstavuj´ı dva odliˇsné pˇr´ıstupy k vytváˇren´ı souhrn˚u. Jeden vytváˇren výpoˇcetn´ı technikou a druhý ˇclovˇekem. A právˇe k myˇslen´ı ˇclovˇeka se pˇri vytváˇren´ı souhrnu snaˇz´ı co nejv´ıce pˇribl´ıˇzit metody automatické sumarizace.

1.1 Automatick´ a sumarizace

Automatická sumarizace je lingvistická discipl´ına, jej´ımˇz c´ılem je vytváˇren´ı co nejlepˇs´ıch souhrn˚u. Souhrn dokumentu nás pak informuje o p˚uvodn´ım dokumentu a jeho informaˇcn´ı hodnotˇe. Tyto souhrny jsou vytváˇreny na základˇe dvou r˚uzných základn´ıch

(11)

diplomové práce se budu vˇenovat pˇreváˇznˇe metodám vytváˇrej´ıc´ım extrakt, jelikoˇz vytváˇren´ı abstrakt˚u, zvláˇstˇe pro ˇceský jazyk, je velmi komplexn´ı discipl´ına, která vyˇzaduje tým odborn´ık˚u z oblasti syntaxe a morfologie jazyka. Nav´ıc vˇetˇsina svˇetového výzkumu v oblasti vytváˇren´ı souhrn˚u se zamˇeˇruje právˇe na extrakci vˇet.

1.2 Sumarizace dnes

D´ıky zvyˇsuj´ıc´ımu se výkonu hardwaru se dnes sumarizace odklán´ı od statistických metod, které jsou ménˇe nároˇcné na výpoˇcetn´ı výkon a zaˇc´ınaj´ı se ˇc´ım dál v´ıce pouˇz´ıvat metody vyuˇz´ıvaj´ıc´ı hlubˇs´ıch lingvistických znalost´ı. Metody jako jsou napˇr´ıklad grafová metoda, metoda vyuˇz´ıvaj´ıc´ı teorii rétorických struktur nebo latentn´ı sémantická analýza dnes z´ıskávaj´ı na významu a jsou stále v´ıce vyuˇz´ıvány. Tyto metody zkoumaj´ı vazby mezi jednotlivými prvky vˇet nebo i celými vˇetami a na základˇe této analýzy vytváˇrej´ı souhrny.

Principy statistických metod vˇsak neupadly v zapomnˇen´ı, jsou ˇcasto vyuˇz´ıvány v rámci jiných metod.

V souˇcasné dobˇe je vytvoˇreno mnoho sumarizátor˚u, nˇekteré pro komerˇcn´ı úˇcely a jiné pro vˇedecké, jejichˇz smyslem je výzkum nových pˇr´ıstup˚u k sumarizaci. Pˇr´ıkladem komerˇcn´ıho v´ıce dokumentového sumarizátoru m˚uˇze být <http://www.news-articles.

org>, který vyhledává na stránkách internetových periodik aktuáln´ı dˇen´ı ve svˇetˇe a zprávy, jenˇz vyhodnot´ı jako nejd˚uleˇzitˇejˇs´ı zobraz´ı na svých stránkách. Dalˇs´ım pˇr´ıkladem podobné sluˇzby jsou <http://news.google.com>, kde jsou i extrahované tzv. ”Top stories”, tedy události, o kterých se p´ıˇse ve svˇetˇe nejv´ıce. Na webu lze nalézt také velké mnoˇzstv´ı online textových sumarizátor˚u, ale málokterý si dokáˇze poradit s ˇceˇstinou a jejich výsledky jsou málo kvalitn´ı.

V ˇCeské republice se oboru automatické sumarizace intenzivnˇe vˇenuj´ı hlavnˇe na Západoˇceské univerzitˇe, kde se vyuˇz´ıvaj´ı pˇreváˇznˇe metody zaloˇzené na latentn´ı sémantické analýze. Vznikl napˇr´ıklad multidokumentový sumarizátor zaloˇzený na LSA [10] nebo projekt ALMUS [23], který vytváˇr´ı i aktualizaˇcn´ı souhrny. ˇClenové Z ˇCU byly také jedin´ı ˇ

ceˇst´ı úˇcastn´ıci konference Text Analysis Conference. Tyto konference organizuje od roku 2000 National Institut of Standards and Technology a udávaj´ı smˇer vývoje sumarizac´ı a jejich evaluac´ı. Momentálnˇe je výzkum sumarizace zamˇeˇren na multidokumentovou a aktualizaˇcn´ı sumarizaci.

(12)

2 Rozdˇ elen´ı souhrn˚ u a metod sumarizac´ı

Pˇred zaˇcátkem této kapitoly povaˇzuji za nutné definovat nˇekteré d˚uleˇzité pojmy, které budou v této a dalˇs´ıch kapitolách pouˇzity.

Souhrn - text obsahuj´ıc´ı d˚uleˇzité informace z rozsáhlého dokumentu Sumarizace - proces vytváˇrej´ıc´ı souhrn

Sumariz´ator - syst´em realizuj´ıc´ı alespoˇn jednu metodu sumarizace

Term - prvek nebo prvky textu oznaˇcuj´ıc´ı jeden objekt, ˇcinnost, jev, ...

2.1 Clenˇ ˇ en´ı dle typy souhrnu

Základn´ı moˇznost, jak rozdˇelit proces sumarizace, je podle formy jej´ıho výstupu, tedy souhrnu. Podle formy souhrnu se sumarizace dˇel´ı na metody vytváˇrej´ıc´ı extrakty a na metody vytváˇrej´ıc´ı abstrakty.

Metody zaloˇzené na principu sumarizace generován´ım se snaˇz´ı vytvoˇrit ze vstupn´ıho ˇclánku abstrakt tak, jak ho známe z r˚uzných dokument˚u. Autor vlastn´ımi slovy pop´ıˇse, o ˇcem dokument pojednává a výsledný abstrakt pak slouˇz´ı potenciáln´ım ˇctenáˇr˚um k indikaci uˇziteˇcnosti dokumentu pro jejich potˇrebu. Metody automatické sumarizace vytváˇrej´ıc´ı abstrakt jsou dnes v plenkách. Bylo navrˇzeno nˇekolik metod, které se pokouˇsej´ı vytváˇret abstrakt, ale tyto abstrakty nedosahuj´ı kvality ruˇcnˇe psaných abstrakt˚u a v praxi nejsou moc preferované. Metody vytváˇrej´ıc´ı abstrakt je také velmi tˇeˇzké implementovat, jelikoˇz jejich implementace zahrnuje komplexn´ı znalosti z oblasti morfologie a syntaxe jazyka. Implementace je také zt´ıˇzena d´ıky ohebnosti c´ılového jazyka a abstrakty pro velmi ohebné jazyky, jako je ˇceˇstina, jsou velmi ˇcasto neˇcitelné a ˇspatnˇe podchycuj´ı abstrahovanou informaci.

Druhým principem je sumarizace extrahován´ım, tedy vytváˇren´ı souhrn˚u na základˇe extrakce vˇet z p˚uvodn´ıho textu sumarizovaného dokumentu. Metody vytváˇrej´ıc´ı extrakt jsou dnes velmi obl´ıbené. Vˇety extraktu neztrácej´ı oproti automaticky generovanému abstraktu kontext informac´ı, který je vyjádˇrený tvarem vˇety. Extrakty ovˇsem ztrácej´ı význam informace, pˇreváˇznˇe kv˚uli vytrˇzen´ı vˇety z jej´ıho kontextu. Napˇr´ıklad ve vˇetˇe se nacházej´ıc´ı zájmeno on m˚uˇze po extrakci vˇety do výsledného extraktu poukazovat na jiného muˇze neˇz v p˚uvodn´ım textu. Pomoc´ı vˇet v extraktu lze ovˇsem jednoduˇse odkazovat do p˚uvodn´ıho dokumentu pˇr´ımo na vˇetu a odstavec, kde se nacházej´ı. Toto

(13)

vˇety. D´ıky extrahován´ı vˇety z p˚uvodn´ıho textu také odpadá celý proces umˇelého vytvoˇren´ı nové vˇety.

2.2 Clenˇ ˇ en´ı dle ´ urovnˇ e anal´ yzy dokumentu

Dalˇs´ım velmi d˚uleˇzitým rozdˇelen´ım je rozdˇelen´ı podle úrovnˇe analýzy p˚uvodn´ıho textu. Takto se dˇel´ı sumarizace na sumarizace s povrchn´ım pˇr´ıstupem a na sumarizace s hlubˇs´ımi pˇr´ıstupy k sumarizovaným informac´ım.

Metody vyuˇz´ıvaj´ıc´ı povrchn´ı pˇr´ıstupy k sumarizaci jsou metody vyuˇz´ıvaj´ıc´ı zjevné jevy v sumarizovaném textu. Pˇr´ıkladem tˇechto jev˚u je napˇr´ıklad frekvence výskytu term˚u, specifické termy pro urˇcitou doménu, slova zvyˇsuj´ıc´ı význam term˚u vˇety nebo poziˇcnˇe významné termy. Povrchn´ı metody jsou vyuˇz´ıvány jen k vytváˇren´ı extraktu, jelikoˇz nedokáˇz´ı urˇcit vztahy mezi termy dokumentu, ale jen jejich významnost v rámci vˇety a celku. Tyto metody lze také velmi dobˇre vyuˇz´ıt pro sumarizaci na dotaz. Povrchn´ı pˇr´ıstup k sumarizaci vyuˇz´ıvaj´ı napˇr´ıklad heuristické a statistické metody sumarizace.

Hlubˇs´ı pˇr´ıstupy k sumarizaci dokáˇz´ı urˇcit vztahy mezi termy, jejich d˚uleˇzitost a význam. Proto je lze vyuˇz´ıt nejen pro vytváˇren´ı extraktu, ale i abstraktu. Metody s hlubˇs´ımi pˇr´ıstupy vyuˇz´ıvaj´ı lingvistických znalost´ı o textu, text analyzuj´ı a na základˇe toho text hodnot´ı. Pˇr´ıkladem takovéto metody je metoda vyuˇz´ıvaj´ıc´ı teorie rétorických struktur, která vytváˇr´ı RS-strom, který zachycuje vztahy mezi jednotlivými ˇcástmi textu.

RST metodu implementuje napˇr´ıklad systém popsaný v [17]. Dalˇs´ımi metodami jsou napˇr´ıklad grafové metody, které zkoumaj´ı relace podobnosti vˇet, nebo latentn´ı sémantická analýza, která problematiku sumarizace pˇrevád´ı na algebraickou úlohu dekompozice matic.

2.3 Clenˇ ˇ en´ı dle potˇ reb uˇ zivatel˚ u

Sumarizace lze také rozdˇelit podle potˇreb a zamˇeˇren´ı uˇzivatel˚u. Uˇzivatelé ˇcasto potˇrebuj´ı, aby souhrny byly generovány dle jejich zamˇeˇren´ı nebo dle jejich dotazu.

Sumarizace lze podle tohoto rozdˇelit na sumarizace obecné, na dotaz nebo doménové.

Obecné sumarizace nevyuˇz´ıvaj´ı ˇzádných poˇzadavk˚u uˇzivatele na sumarizaci. Uˇzivatel tyto sumarizace nijak nepˇrizp˚usobuje pro své potˇreby a pro vˇsechny uˇzivatele má tento typ sumarizace stejný výsledek. Opakem jsou sumarizace na dotaz. Od tˇechto sumarizac´ı oˇcekává ˇclovˇek souhrn, který bude obsahovat konkrétn´ı hledané informace. Pˇr´ıkladem takovéto sumarizace je souhrn generovaný vyhledávac´ı sluˇzbou firmy Google. Souhrn webové stránky, uvedený pod odkazem na ni, zobrazuje vyhledávanou informaci uvnitˇr

(14)

stránky spolu s jej´ım bezprostˇredn´ım okol´ım. Tento vygenerovaný souhrn závis´ı pˇr´ımo na dotazu, který uˇzivatel zadal. Tˇret´ım typem uˇzivatelské sumarizace je vytváˇren´ı souhrnu na základˇe definované domény, tedy oblasti, která uˇzivatele zaj´ımá. Pokud by ˇclánek obsahoval témata z oblasti politiky, ekonomie a potravináˇrstv´ı, pak by uˇzivatel, který by si zvolil téma ekonomie, z´ıskal jiný souhrn neˇz uˇzivatel, kterého zaj´ımá v´ıce politika.

2.4 Clenˇ ˇ en´ı dle rozsahu souhrnu

D˚uleˇzitý parametr souhrnu je jeho rozsah. Pokud se chce uˇzivatel informovat o problematice ˇclánku, potˇrebuje souhrn s vˇetˇs´ım rozsahem, neˇz pokud ho zaj´ımá jen téma ˇclánku, pak je velký rozsah souhrnu zbyteˇcný. Podle tohoto kritéria je moˇzno rozdˇelit souhrny na indikativn´ı, informativn´ı a hodnot´ıc´ı. Toto rozdˇelen´ı je zaloˇzeno na kompresn´ım pomˇeru sumarizace a bylo poprvé pouˇzito v práci [4]. Výpoˇcet kompresn´ıho pomˇeru (ang.

compression ratio) je vyjádˇren jako pod´ıl délky souhrnu ku délce p˚uvodn´ıho dokumentu.

Hodnot´ıc´ı souhrny jsou souhrny, které poˇc´ıtaˇc nedokáˇze vygenerovat. Jedná se napˇr´ıklad o recenze, preview a kritiky. Tyto souhrny maj´ı velmi velký rozsah a jsou vytváˇreny lidmi, jenˇz maj´ı odborné znalosti z oblasti, kterou se p˚uvodn´ı dokument zabývá.

T´ımto se do hodnot´ıc´ı sumarizace, mimo dˇeje knihy nebo problematiky vˇedeckého ˇclánku, dostanou i zkuˇsenosti, názory a znalosti tv˚urce souhrnu. V podstatˇe m˚uˇzeme ˇr´ıci, ˇze vznikl

´

uplnˇe nov´y dokument o jin´em dokumentu.

Souhrny, jenˇz maj´ı uˇzivatele informovat, zda dokument ˇc´ıst ˇci ne, jsou oznaˇcovány jako indikativn´ı. Jsou to souhrny pˇrináˇsej´ıc´ı uˇzivateli nezbytné minimum informac´ı, podle kterého se rozhoduje, jestli si pˇreˇcte celý dokument a jestli je jeho téma pro nˇej d˚uleˇzité.

Tyto souhrny maj´ı rozsah maxim´alnˇe do 10 % rozsahu p˚uvodn´ıho textu dokumentu.

Pˇr´ıkladem takovéto sumarizace jsou napˇr´ıklad jiˇz zm´ınˇené headlines, které nás informuj´ı o tématu zprávy, ale neseznám´ı nás s jej´ımi detaily.

Detailnˇejˇs´ı informace o dokumentu poskytuje souhrn informativn´ı. Informativn´ı souhrny maj´ı rozsah od 20 % do 30 % p˚uvodn´ıho textu. Takovýto rozsah uˇz dostaˇcuje k plnému porozumˇen´ı problematiky, o které dokument pojednává a uˇzivatel by mˇel po pˇreˇcten´ı informativn´ıho souhrnu rozumˇet problematice dokumentu stejnˇe, jako kdyby si pˇreˇcetl celý dokument.

(15)

2.5 Multidokumentov´ a, aktualizaˇ cn´ı a ASR sumarizace

Dalˇs´ım zaj´ımavým typem sumarizace je vytváˇren´ı aktualizaˇcn´ıho souhrnu. Pˇri vytváˇren´ı aktualizaˇcn´ıho souhrnu je definována mnoˇzina znalost´ı uˇzivatele (napˇr´ıklad seznamem pˇreˇctených dokument˚u) a souhrn je vytváˇren tak, aby mnoˇzina informac´ı v souhrnu neobsahovala uˇzivateli jiˇz známé informace. M˚uˇzeme tedy ˇr´ıci, ˇze klasická textová sumarizace je aktualizaˇcn´ı sumarizace pro prázdnou mnoˇzinu znalost´ı.

Problémy pˇrehlcen´ı informacemi vznikaj´ıc´ımi ve svˇetˇe internetu ˇreˇs´ı multidokumentová sumarizace. Tato sumarizaˇcn´ı discipl´ına zjednoduˇsuje uˇzivatel˚um práci vytváˇren´ım souhrn˚u z v´ıce ˇclánk˚u do jednoho souhrnu. Pˇri inicializaci procesu sumarizace je z dokument˚u urˇcených k sumarizaci vytvoˇren velký korpus. Z tohoto korpusu jsou následnˇe vyb´ırány informace tak, aby kaˇzdá novˇe vybraná informace neobsahovala jiˇz dˇr´ıve vybrané informace. Multidokumentová sumarizace je velmi podobná aktualizaˇcn´ı sumarizaci, jen mnoˇzina jiˇz známých informac´ı je rozˇsiˇrována s kaˇzdou novou vybranou vˇetou. Následuj´ıc´ı vzorec (1) popisuje výpoˇcet podobnosti dvou vˇet.

sim( ~n_k, ~n_a) = n~k. ~na

| ~n_k| | ~n_a| (1)

Vektory na a nk pˇredstavuj´ı ohodnocen´ı term˚u vˇet z mnoˇziny jiˇz vybraných vˇet a vˇet, které maj´ı být jeˇstˇe sumarizovány. Postupnˇe jsou poˇc´ıtány podobnosti vˇet a vˇeta, obsahuj´ıc´ı nejménˇe informac´ı z mnoˇziny jiˇz sumarizovaných vˇet, je do korpusu pˇridána.

Dnes je moˇzné se setkat jeˇstˇe s jinou podobou multidokumentové sumarizace. Na mnoˇzinˇe dokument˚u je vypoˇc´ıtané skóre pro kaˇzdý dokument a nakonec jsou vybrány dokumenty, které pˇrinesou uˇzivateli nejv´ıce neopakuj´ıc´ıch se informac´ı a uˇzivateli jsou nakonec zobrazeny jen dokumenty s nejvˇetˇs´ı informaˇcn´ı hodnotou a neopakuj´ıc´ımi se tématy.

Velmi zaj´ımavou oblast´ı sumarizace je ASR¹ sumarizace. Tedy sumarizace výsledk˚u systému pro automatické rozpoznáván´ı ˇreˇci. Tento typ sumarizace má velmi ˇsiroké vyuˇzit´ı.

Pomoc´ı n´ı lze provést zjednoduˇsen´ı dlouhých projev˚u, z´ıskat témata konferenc´ı nebo z diskuzn´ıch poˇrad˚u vytˇeˇzit informace o prob´ıraném tématu.

Proces ASR sumarizace je ovˇsem zt´ıˇzen o problematiku automatického rozpoznáván´ı ˇreˇci a vˇsech problém˚u s n´ı spojenou. Jedná se hlavnˇe o chyby rozpoznán´ı slov.

Kv˚uli vlivu ASR systému byla pro mˇeˇren´ı výsledk˚u navrˇzena nová evaluaˇcn´ı metoda tzv. SumACCY[24]. Z mnoˇziny referenˇcn´ıch sumarizac´ı je vybrána sumarizace, která se

1Automatic Speech Recognition

(16)

nejv´ıce podobá sumarizaci vytvoˇrené systémem a je vypoˇc´ıtána podobnost tˇechto dvou sumarizac´ı.

Proces ASR sumarizace také komplikuje tzv. ”Cocktail Party Effect”, tedy situace, kdy mluv´ı nˇekolik mluvˇc´ıch najednou, která nastává napˇr´ıklad v diskuzn´ıch poˇradech.

Tento a podobné problémy je ovˇsem tˇreba ˇreˇsit jiˇz pˇred zaˇcátkem samotného procesu ASR sumarizace a sumarizaˇcn´ı systém na tyto jevy, které se bˇeˇznˇe pˇri komunikaci lid´ı objevuj´ı, adaptovat.

Obrázek 1: Schéma ASR sumarizaˇcn´ıho systému [6]

.

(17)

3 Metody sumarizace textu

Jiˇz s poˇcátkem digitalizace textu vznikly prvn´ı sumarizaˇcn´ı algoritmy. V této kapitole jsou uvedeny nˇekteré významné sumarizaˇcn´ı algoritmy, hlavnˇe algoritmy statistické sumarizace, na které je tato práce zamˇeˇrena. Popsány jsou prvn´ı sumarizaˇcn´ı metody, které byly optimalizované na hardwarovou nenároˇcnost, ale i modern´ı metody, které jiˇz nejsou omezeny hardwarovými parametry systému a vyuˇz´ıvaj´ı hlubˇs´ıch analýz textu dokumentu.

3.1 Heuristick´ e metody

Heuristické metody jsou jedny z prvn´ıch metod, které byly navrˇzeny. Jeden z prvn´ıch algoritm˚u byl zveˇrejnˇen v práci H. P. Luhna [13] v roce 1958. Algoritmus je zaloˇzen na myˇslence, ˇze nejˇcastˇeji opakuj´ıc´ı se termy v textu jsou nejvýznamnˇejˇs´ı a na základˇe jejich ˇ

cetnosti lze vytváˇret extrakt. Algoritmus nejdˇr´ıve v jednotlivých vˇetách nalezne termy a jejich ˇcetnost a následnˇe vˇety ohodnot´ı podle ˇcetnosti jejich term˚u. Vˇety s nejvˇetˇs´ım skóre jsou zahrnuty do souhrnu. Tuto metodu ovˇsem m´ırnˇe komplikuje fakt, ˇze nejˇcastˇeji vyskytuj´ıc´ı se slova v jazyce nejsou pro význam vˇety d˚uleˇzitá. Z tohoto d˚uvodu je vytvoˇren seznam nejˇcastˇeji vyskytuj´ıc´ıch se slov v jazyce a slova, která obsahuje, jsou z vˇet odstranˇena.

Tato metoda ovˇsem ˇspatnˇe detekovala oˇcividnˇe významné vˇety. Vˇety, které obsahuj´ı termy z nadpisu nebo termy zvyˇsuj´ıc´ı význam vˇety (významný, d˚uleˇzitý, výsledek,...) by mˇely být obsaˇzeny v souhrnu s vˇetˇs´ı pravdˇepodobnost´ı neˇz ostatn´ı vˇety. Kombinace tˇechto znalost´ı a výpoˇctu ˇcetnosti term˚u vytvoˇrila prvn´ı kvalitn´ı metodu automatické sumarizace, které mohla být realizována i na tehdejˇs´ım hardwaru.

3.2 Statistick´ e metody

Metody ˇreˇs´ıc´ı nedostatky heuristických metod jsou metody statistické. Tyto metody zavedly do analýzy textu natrénované znalosti o textech, termech a jejich souhrnech.

Z hlediska jejich principu existuj´ı hlavnˇe dva pˇr´ıstupy. Luhn˚uv sumarizátor realizoval jeden pˇr´ıstup ke statistickým metodám a druhý funguje na základˇe Bayesovského teorému. Obˇe tyto metody vyˇzaduj´ı natrénován´ı korpusu, podle kterého budou vˇety sumarizovaného dokumentu hodnoceny.

(18)

3.2.1 Luhn˚uv sumariz´ator

Luhn˚uv sumarizátor funguje na základˇe výpoˇctu frekvence termu v dokumentu a jeho inverzn´ı dokumentové frekvence v korpusu dokument˚u daného jazyka. Výpoˇcet skóre termu je realizován jako souˇcin tˇechto hodnot.

Score(t, d) = tf (t, d) ∗ idf (t, D) = tf (t, d) ∗ log |D|

|{d ∈ D : t ∈ d}| (2) Vzorec (2) vyjadˇruje výpoˇcet skóre termu t v dokumentu d, jehoˇz inverzn´ı dokumentová frekvence byla natrénována na korpusu D. Skóre termu je tedy vypoˇc´ıtáno jako významnost termu v dokumentu, váˇzena pˇres jeho natrénovanou inverzn´ı dokumentovou frekvenci. V ˇc´ım vˇetˇs´ım poˇctu dokument˚u se term nacházel, t´ım menˇs´ı je jeho inverzn´ı dokumentová frekvence a t´ım má menˇs´ı význam pro sumarizovaný dokument.

Výsledné skóre vˇety je pak vypoˇc´ıtáno jako souˇcet vˇsech term˚u vˇety [16]. Vˇetu z dokumentu d reprezentuje vektor term˚u q a výpoˇcet skóre této vˇety je dán vzorcem (3).

Score(q, d) =X

t∈q

tf (t, d) ∗ idf (t, D) (3)

Prostup pˇri vytváˇren´ı souhrnu pomoc´ı Luhnovy sumarizace lze vyjádˇrit n´ıˇze uvedeným algoritmem.

1. Naˇcti idf slovn´ık.

2. Vypoˇcti frekvenci pro vˇsechny termy dokumentu.

3. Pro vˇsechny vˇety dokumentu d vypoˇcti jejich sk´ore.

4. Do souhrnu zaˇrad’ vˇety s nejvˇetˇs´ım sk´ore.

Tento algoritmus výbornˇe extrahoval nejvýznamnˇejˇs´ı téma dokumentu, ovˇsem vedlejˇs´ı témata byla zanedbána a do souhrnu se nedostala. Proto byl algoritmus rozˇs´ıˇren.

Extrahovaným term˚um v prvn´ı vˇetˇe byla nastavena jejich frekvence na nulu a pro výbˇer dalˇs´ı vˇety bylo pˇrepoˇc´ıtáno skóre vˇsech vˇet. T´ımto se zamezilo opakovanému výbˇeru vˇety, ve které mˇelo nejvˇetˇs´ı vliv skóre jiˇz vybraný term˚u a jiˇz vybrané vˇety mˇeli skóre nulové, jelikoˇz vˇsechny jejich termy mˇeli nulové skóre. Modifikovaný algoritmus funguje takto:

1. Naˇcti idf slovn´ık.

(19)

3. Pro vˇsechny vˇety dokumentu d vypoˇcti jej´ı sk´ore.

4. Do souhrnu zaˇrad’ vˇetu s nejvˇetˇs´ım sk´ore.

5. Sk´ore pouˇzit´ych term˚u nastav na nulu.

6. Pokud jeˇstˇe nen´ı vybr´ano poˇzadovan´e mnoˇzstv´ı vˇet pokraˇcuj bodem 3.

Takto navrˇzený sumarizaˇcn´ı algoritmus extrahoval vˇety na základˇe povrchn´ıch znalost´ı o dokumentu a jeho hardwarové nároky nebyly nijak pˇrehnané.

3.2.2 Naivn´ı Bayes˚uv klasifik´ator

Zcela odliˇsný pˇr´ıstup ke statistické sumarizaci je vyuˇzit´ı Bayesovského teorému [11].

Metoda vyuˇz´ıvaj´ıc´ı tento teorém vyˇzaduje trénovac´ı korpus dvojic text-souhrn. Na tomto korpusu jsou spoˇcteny pˇr´ıznaky vˇet, podle kterých jsou vˇety klasifikovány. Pˇr´ıznakem mohou být napˇr´ıklad frekvenˇcnˇe významné termy, délka vˇety a jiné d˚uleˇzité jevy.

Na korpusu jsou následnˇe vypoˇc´ıtány pravdˇepodobnosti zaˇrazen´ı vˇet ˇclánk˚u z korpusu do souhrn˚u. Takto pˇripravený korpus lze vyuˇz´ıt k urˇcen´ı skóre ”vˇeta do souhrnu patˇr´ı/nepatˇr´ı”a klasifikovat podle nˇej vˇety sumarizovaného dokumentu.

Nˇekteré z výˇse uvedených pˇr´ıznak˚u mohou být na sobˇe závislé, ovˇsem pro potˇreby výpoˇctu pravdˇepodobnosti zaˇrazen´ı vˇety do souhrnu je toto zanedbáno a pˇredpokládá se, ˇze jsou jednotlivé pˇr´ıznaky nezávislé [9]. D´ıky tomu m˚uˇze být pouˇzit vzorec (4) pro Bayes˚uv klasifikátor, proto je metoda oznaˇcována jako naivn´ı Bayes˚uv klasifikátor.

P (h|q) = P (q|h) ∗ P (h)

P (q) (4)

Vektor q oznaˇcuje vektor pˇr´ıznak˚u vˇety. P (h|q) vyjadˇruje skóre vˇety pˇri výpoˇctu zaˇrazen´ı vˇety do souhrnu. Pravdˇepodobnost P (q) je pravdˇepodobnost výskytu vˇety v korpusu text-souhrn, P (h) je pomˇer poˇctu vˇet v souhrnech k poˇctu vˇsech vˇet korpusu.

Pravdˇepodobnost P (q|h) vyjadˇruje pravdˇepodobnost, ˇze vˇeta q je zaˇrazena do souhrnu v tr´enovac´ım korpusu.

Jelikoˇz je vˇeta q vyjádˇrena vektorem pˇr´ıznak˚u, mˇel by být Bayesovský vzorec (4) upraven na tvar pro jednotlivé prvky vektoru q.

P (h|q₁, q₂, ..g_n) =

n

Q

i=1

P (q_i|h) ∗ P (h)

n

Q

i=1

P (q_i)

(5)

(20)

Jelikoˇz je hodnota pravdˇepodobnosti velmi malá, nedoporuˇcuje se nechávat vzorec v tomto tvaru, jelikoˇz by mohlo doj´ıt k podteˇcen´ı datového typu, ale doporuˇcuje se hodnocen´ı vektoru vˇety provádˇet podle zlogaritmovaného vzorce (6), který riziko podteˇcen´ı eliminuje. Nav´ıc m˚uˇzeme odstranit pravdˇepodobnost P (q_i), která vzorec nijak neovlivn´ı, protoˇze je jej´ı hodnota vˇzdy konstantn´ı. Stejnˇe tak je moˇzné vynechat hodnotu pravdˇepodobnosti P (h), která vyjadˇruje kompresn´ı pomˇer [11].

P (h|q₁, q₂, ..g_n) =

n

X

i=1

logP (q_i|h) (6)

Pro kaˇzdou vˇetu ze sumarizovaného dokumentu jsou vypoˇc´ıtány pravdˇepodobnosti podle vzorce (6) a vˇety, které dosáhnou nejvyˇsˇs´ı pravdˇepodobnosti zaˇrazen´ı do souhrnu, jsou do nˇej vybrány v poˇrad´ı podle nejvyˇsˇs´ı dosaˇzené pravdˇepodobnosti.

3.3 Modern´ı pˇ r´ıstupy

Modern´ı pˇr´ıstupy k sumarizaci jiˇz nejsou omezeny výkonem hardwaru, tak jako heuristické nebo statistické metody. D´ıky tomu lze vyuˇz´ıt hlubˇs´ı znalosti o dokumentu.

V roce 1998 byl prezentován v práci [17] sumarizaˇcn´ı systém vyuˇz´ıvaj´ıc´ı k sumarizaci teorii rétorických struktur. Dále byly vyuˇzity znalosti, jako jsou napˇr´ıklad vzájemné vazby term˚u, kontext slov a jiné lingvistické znalosti, jejichˇz výpoˇcet nemohl být dˇr´ıve realizován. Tyto znalosti jsou vyuˇzity k vytváˇren´ı souhrn˚u, které jiˇz dokáˇz´ı lépe vystihnout informace obsaˇzené v dokumentu. Mezi tyto metody patˇr´ı napˇr´ıklad grafové metody, metoda rétorických struktur nebo latentn´ı sémantická analýza.

3.3.1 Teorie r´etorick´ych struktur

Teorie rétorických struktur zkoumá skladbu ˇreˇcového projevu a prostˇrednictv´ım rétorických relac´ı zachycuje vazby mezi ˇcástmi textu. V práci [17] je popsán sumarizátor, který z jednotlivých ˇcást´ı textu a vztah˚u mezi nimi vytváˇr´ı binárn´ı strom oznaˇcovaný jako RS-strom.

Vztah˚u, které jsou nˇekdy oznaˇcovány jako role, je pouˇz´ıváno celkem 23, viz. [15].

Vztahy mohou být napˇr´ıklad podm´ınka, vysvˇetlen´ı, rozˇs´ıˇren´ı, výsledek, základ, atd.. Podle tˇechto vztah˚u mohou uzly nabýt stavu: nukleus, satelit, kombinace nukle˚u a satelit˚u a text zvýrazˇnuj´ıc´ı jiné ˇcásti. Za nukleus je povaˇzována ˇcást textu obsahuj´ıc´ı nejpodstatnˇejˇs´ı údaje

(21)

Status=nukleus Type=evidence Promotion=1

Status=nukleus Type=leaf Promotion=1

Status=satelite Type=leaf Promotion=2

Obr´azek 2: Uk´azka ohodnocen´ı uzl˚u [2]

jsou ohodnocovány podle jejich rétorické role. Na obrázku 2 je vidˇet rozdˇelen´ı nukleu na dalˇs´ı nukleus a satelit. Typ uzlu znaˇc´ı jeho rétorickou relaci k vyˇsˇs´ımu celku. Promotion znaˇc´ı s kolika dalˇs´ımi uzly tvoˇr´ı daný uzel nukleus.

Strom vygenerovaný rétorickým analyzátorem je vyuˇzit k urˇcen´ı významu ˇcást´ı textu pro celek. Do souhrnu jsou vyb´ırány ˇcásti textu, které se um´ıst´ı nejbl´ıˇze koˇrenu stromu. ˇC´ım rozsáhlejˇs´ı je poˇzadovaný souhrn, t´ım v´ıce vzdálenˇejˇs´ı uzly stromu jsou vyb´ırány.

3.3.2 Grafov´e metody

Velmi zaj´ımavou metodou jsou také metody grafové. Tyto metody vyuˇz´ıvaj´ı pro vytváˇren´ı souhrn˚u algoritmy vyuˇz´ıvané vyhledávac´ımi sluˇzbami pro hodnocen´ı struktury webu. Napˇr´ıklad algoritmus PageRank vyuˇz´ıvá Google pro hodnocen´ı d˚uleˇzitosti webových stránek. Z tohoto algoritmu vznikl algoritmus TextRank, vyuˇz´ıvaný pro sumarizaci.

Algoritmus PageRank hodnot´ı vrcholy orientovan´eho grafu G=(V,E) podle stupnˇe sousedn´ıch uzl˚u iteraˇcn´ım v´ypoˇctem PR (PageRank).

P R(V_i) = 1 − d

N + d ∗ X

Vj∈In(Vi)

P R(V_j

|Out(V_j)| (7)

Vzorec (7) vysvˇetluje tento výpoˇcet. V prvn´ı iteraci jsou nastaveny hodnoty PR pro vˇsechny uzly na 1 a bˇehem nˇekolika iterac´ı je vypoˇc´ıtáno výsledné PR. N je celkový poˇcet vrchol˚u grafu, d je faktor tlumen´ı nabývaj´ıc´ıch hodnot 0 aˇz 1 a pˇredstavuje pravdˇepodobnost pˇrechodu do sousedn´ıho vrcholu. P R(V_j) je PR sousedn´ıho vrcholu a Out(V_j) je výstupn´ı stupeˇn tohoto vrcholu.

Pˇri sumarizaci jsou jako vrcholy grafu povaˇzovány jednotlivé vˇety ˇclánku a ohodnocen´ı hrany grafu vyjadˇruje vazby mezi sousedn´ımi vˇetami. Algoritmus TextRank[18]

jiˇz nevyuˇz´ıvá orientované grafy a je moˇzné pˇrecházet mezi sousedn´ımi vˇetami libovolnˇe.

Ohodnocen´ı vazby mezi vˇetami V_i a V_j je vyjádˇreno váhou hrany w_ij. Výpoˇcet PR pro

(22)

vˇety je prov´adˇen podle modifikovan´eho vzorce (8).

P R(Vi) = 1 − d

N + d ∗ X

Vj∈In(Vi)

wji

P R(V_j P

Vk∈Out(Vj)w_jk (8)

Urˇcen´ı vazeb mezi vˇetami je provedeno pomoc´ı metrik hodnot´ıc´ı podobnost vˇet. Lze vyuˇz´ıt napˇr´ıklad kosinovou podobnost, pˇrekryt´ı kontextu a jiné metriky, které dokáˇzou urˇcit podobnost vˇet. Napˇr´ıklad na Michiganské univerzitˇe vznikl sumarizátor LexRank² vyuˇz´ıvaj´ıc´ı kosinovou podobnost vˇet.

3.3.3 Latentn´ı sémantická analýza

Latentn´ı sémantická analýza pˇrevád´ı problém ohodnocen´ı vˇet dokumentu na algebraickou úlohu, která dovoluje analyzovat vztahy mezi vˇetami a jejich termy bez nutnosti zásahu ˇclovˇeka. Vyuˇzit´ı metody LSA pro sumarizaci navrhli Xin Liu a Yihong Gong ve své práci [25]. Inspirovali se latentn´ı sémantickým indexován´ım vyuˇz´ıvaným pˇri vyhledáván´ı informac´ı ve velkém datovém korpusu na základˇe dotazu uˇzivatele.

Sumarizace metodou latentn´ı sémantické analýzy prob´ıhá ve dvou kroc´ıch. Prvn´ım je sestaven´ı matice A = [A₁, A₂, ..., A_n], tedy mapován´ı term˚u dokumentu do jeho vˇet.

Kaˇzdý sloupcový vektor A_i obsahuje vektor frekvence jednotlivých term˚u vˇety i-té vˇety.

Tato frekvence je váˇzena pˇres globáln´ı frekvenci termu. Moˇznosti jak váˇzit termy jsou uvedeny v [3]. Pokud má sumarizovaný dokument m term˚u a n vˇet vznikne matice m × n.

Tato matice je v dalˇs´ım kroku rozloˇzena singul´arn´ı dekompozic´ı (SVD - singular value dekompozition) na souˇcin matic (9).

Dekompozice dokáˇze zachytit mapován´ı témat do vˇet. Tyto vztahy jsou zachyceny v matici V^T, která popisuje mapován´ı term˚u témat dokumentu do jeho vˇet. Mapován´ı je zajiˇstˇeno dekompozic´ı, která rozdˇeluje p˚uvodn´ı dokument do lineárnˇe nezávislých vektor˚u.

Tyto vektory vyjadˇruj´ı základn´ı koncepty dokumentu a vˇety spoleˇcnˇe s termy jsou do prostoru tˇechto vektor˚u prom´ıtány pomoc´ı SVD. Na základˇe výskyt˚u term˚u dokáˇze SVD také detekovat podobné termy. Napˇr´ıklad termy lékaˇr a doktor, které se velmi ˇ

casto vyskytuj´ı ve spoleˇcnosti term˚u nemocnice, medic´ına a nemoc, budou v prostoru prom´ıtnuty velmi bl´ızko u sebe. Takto jsou do vektorového prostoru prom´ıtnuty vˇsechny termy dokumentu a je zjiˇstˇena d˚uleˇzitost hlavn´ıch témat dokumentu podle poˇctu a vzdálenosti term˚u k tˇemto témat˚um. Vˇety dokumentu jsou pak ohodnoceny podle toho,

2<http://tangra.si.umich.edu/clair/lexrank>

(23)

jak jsou jejich termy bl´ızko tˇemto t´emat˚um.

Singul´arn´ı dekompozice

A = U ΣV^T (9)

Matice U je sloupcovˇe ortonormáln´ı³ matice m × n, která obsahuje levé singulárn´ı vektory, matice Σ je ˇctvercová diagonáln´ı matice n × n obsahuj´ıc´ı singulárn´ı hodnoty v sestupném poˇrad´ı a ortonormáln´ı matice V^T n × n obsahuje pravé singulárn´ı vektory.

Rozmˇery matice Σ jsou omezeny poˇctem vlastn´ıch ˇc´ısel matice A^TA, které jsou vyuˇzity k výpoˇctu singulárn´ıch hodnot a sloupcových vektor˚u matic U a V^T [8]. Za pˇredpokladu, ˇ

ze vˇet je vˇzdy ménˇe neˇz term˚u, které vˇety obsahuj´ı, jsou rozmˇery matice Σn × n. Poˇcet vlastn´ıch ˇc´ısel matice A^TA definuje i rozmˇery matice V^T, která je z nich vypoˇc´ıtána.

Výpoˇctem Euklidovské normy jednotlivých sloupcových vektor˚u a výbˇerem vˇet s nejvˇetˇs´ı normou (velikost´ı) z´ıskáme vˇety, které maj´ı být zaˇrazeny do souhrnu. Takto vybrané vˇety jsou vybrané podle toho, jak moc vˇeta zachycuje témata ˇclánku. Tyto vˇety ovˇsem nekoresponduj´ı s d˚uleˇzitost´ı témat ˇclánku. D˚uleˇzitost témat je obsaˇzena v matici Σ. Proto bylo navrˇzeno vylepˇsen´ı [22], které bere v potaz i d˚uleˇzitost témat. Vylepˇsený výpoˇcet souhrnu je realizován pomoc´ı vzorce (10).

s_r = v u u t

n

X

i=1

v_ri² ∗ σ_i² (10)

Výsledkem je vektor s, který obsahuje skóre jednotlivých vˇet a do souhrnu je vybráno potˇrebné mnoˇzstv´ı vˇet s nejvˇetˇs´ı hodnotou.

Pˇr´ıklad:

Ukol: Vyberte jednu vˇ´ etu, která nejlépe popisuje ˇclánek: ”The man walked the dog.

The man took the dog to the park. The dog went to the park.”Vˇety si oznaˇc´ıme a pˇrevedeme znaky na mal´e:

v1: the man walked the dog

v2: the man took the dog to the park v3: the dog went to the park

3Vektory matice jsou ortogon´aln´ı a normovan´e

(24)

Vˇety obsahuj´ı termy: the, man, walked, the, dog, took, to, park, went. Na základˇe ˇcetnosti jejich výskytu vytvoˇr´ıme matici A. Pro zjednoduˇsen´ı jsou termy váˇzeny binárnˇe. Pokud vˇeta term obsahuje, je term násoben jedniˇckou, pokud ne, nulou.

A :

v1 v2 v3

the 2 3 2

man 1 1 0

walked 1 0 0

dog 1 1 1

took 0 1 0

to 0 1 1

park 0 1 1

went 0 0 1

Singulárn´ım rozkladem matice A z´ıskáme matice U , Σ a V^T. Postup výpoˇctu SVD je popsán v ˇclánku [8]. Matice U nen´ı pro výpoˇcet souhrnu potˇrebná,mann88b takˇze zde nen´ı uvedena.

Σ =

5.0325 0 0

0 1.5745 0

0 0 1.0930

V^T =

−0.4572 0.7699 −0.4453

−0.7284 −0.0368 0.6842

−0.5103 −0.6372 −0.5776

Podle vzorce (10) je vypoˇc´ıtán vektor s a vybrána vˇeta, která nese nejv´ıce informac´ı z nejd˚uleˇzitˇejˇs´ıch témat dokumentu.

s = 2.6458 3.7417 2.8284

Jelikoˇz máme vybrat jen jednu vˇetu, najdeme nejvˇetˇs´ı hodnotu ve vektoru s a jej´ı index nám udává kolikátá vˇeta je nejvhodnˇejˇs´ı pro zaˇrazen´ı do souhrnu. Výsledným souhrnem je tedy vˇeta: The man took the dog to the park.

Latentn´ı sémantickou analýzu je moˇzné vyuˇz´ıt i pro multidokumentovou sumarizaci.

Pˇri provádˇen´ı multidokumentové sumarizace je nutné zabránit výbˇeru stejných vˇet z r˚uzných dokument˚u. K tomu je moˇzné vyuˇz´ıt napˇr´ıklad hodnoty kosinu úhlu, které sv´ırá vˇeta vybraná do souhrnu s vˇetami souhrnu. Pokud nejmenˇs´ı hodnota je vˇetˇs´ı neˇz experimenty urˇcený práh, je moˇzné vˇetu zaˇradit do souhrnu. Aby nebyly vyb´ırány vˇety

(25)

velmi podobné jiˇz vˇetám v souhrnu je aplikován algoritmus Iterative Residual Rescaling [1], který omez´ı vliv jiˇz vybraných témat na výbˇer nových (uprav´ı velikost jejich vektor˚u).

(26)

4 Hodnocen´ı sumarizac´ı

Hodnocen´ı nebo-li evaluace sumarizac´ı je d˚uleˇzitou ˇcást´ı vývoje sumarizaˇcn´ıho systému. Hodnocen´ı se provád´ı pomoc´ı souhrn˚u, které metody generuj´ı. Metody vyhodnocen´ı výsledných souhrn˚u je moˇzné rozdˇelit do dvou základn´ıch skupin, a to na metody pˇr´ımé a nepˇr´ımé [21].

Obr´azek 3: Dˇelen´ı metod hodnocen´ı souhrn˚u [21].

4.1 Pˇ r´ım´ e metody

Pˇr´ımé metody vyhodnocuj´ı text souhrnu tak, jak je napsán. Nevyhledávaj´ı v nˇem kontext slov ani jejich význam, ale hodnot´ı ho podle podobnosti s referenˇcn´ımi souhrny nebo podle analýzy zkuˇsených lingvist˚u.

4.1.1 Kvalita souhrnu

Metody hodnot´ıc´ı kvalitu textu jsou zamˇeˇreny hlavnˇe na gramatickou správnost textu, redundantnost a srozumitelnost výsledného souhrnu. Je d˚uleˇzité, aby text souhrnu neobsahoval opakuj´ıc´ı se témata a vˇety vyjadˇruj´ıc´ı stejné informace. Srozumitelnost souhrnu ovlivˇnuj´ı hlavnˇe reference extrahované z textu. Hlavnˇe extrakce zájmen zvyˇsuje riziko, ˇze bude toto zájmeno pochopeno ve ˇspatném kontextu a vˇeta v souhrnu bude m´ıt jiný smysl neˇz v textu. Pokud pro nás nen´ı d˚uleˇzitá vysoká rychlost, je moˇzné provést analýzu textu a reference se pokusit nahradit jejich skuteˇcným smyslem. Tato substituce je v podstatˇe jediným faktorem sumarizace, který m˚uˇze ovlivnit gramatickou správnost extrahovaného souhrnu, pokud nebereme v potaz chyby autor˚u textu. Vˇsechny tyto metody

(27)

4.1.2 Ko-selekce

Ko-selekˇcn´ı metody vypoˇc´ıtávaj´ı na vzniklém souhrnu hodnoty urˇcuj´ıc´ı m´ıru ko-selekce. Nejvýznamnˇejˇs´ımi jsou pˇresnost P (precision), úplnost R (recall), úspˇeˇsnost A (accuracy) a f-skóre F. Pro výpoˇcet tˇechto hodnot je nutné vytvoˇrit ideáln´ı (referenˇcn´ı) souhrny. Tyto souhrny vytváˇr´ı anotátoˇri na mnoˇzinˇe ˇclánk˚u, ze kterých jsou vytvoˇreny i souhrny automatické. Pˇresnost je vypoˇc´ıtána jako poˇcet vˇet vybraných systémem a anotátory zároveˇn dˇelen poˇctem vˇet vybraných systémem. Úplnost je definována jako poˇcet vˇet vybraných systémem a anotátory zároveˇn dˇelen poˇctem vˇet vybraných anotátory.

Uspˇ´ eˇsnost je jako pomˇer souˇctu vˇet vybraných systémem i anotátory zároveˇn a vˇet nevybraných systémem ani anotátory k souˇctu vˇsech moˇznost´ı výbˇeru [5]. Zjednoduˇsen´ı zápisu vzorc˚u je provedeno pomoc´ı kategorizace moˇzných výsledk˚u porovnán´ı souhrn˚u, viz.

tabulka 1.

vybráno anotátory nevybráno anotátory

vybr´ano syst´emem TP FN

nevybr´ano syst´emem FP TN

Tabulka 1: Tabulka moˇzných výsledk˚u porovnán´ı vˇet anotátorských a systémových souhrn˚u.

Vzorce pro výpoˇcet pˇresnosti, úplnosti a úspˇeˇsnosti:

P = T P

T P + F P R = T P

T P + F N A = T P + T N

T P + T N + F P + F N (11) Z hodnot pˇresnosti a úplnosti je vypoˇc´ıtáno f-skóre. Jeho hodnota je definována jako harmonický pr˚umˇer hodnot úplnosti a pˇresnosti.

F = 2RP

R + P (12)

Pokud chceme pˇri výpoˇctu f-skóre upˇrednostnit úplnost nebo pˇresnost, vyuˇzijeme upravený vzorec pro výpoˇcet f-skóre.

F = (1 + β²)RP

β²P + R (13)

Promˇenná β ovlivˇnuje, jestli dáváme vˇetˇs´ı váhu pˇresnosti (β > 1), úplnosti (β < 1) nebo pokládáme obˇe hodnoty za stejnˇe významné (β = 1).

(28)

4.1.3 Z´akladn´ı m´ıry podobnosti

Nevýhodou ko-selekˇcn´ıch metod je, ˇze pˇri výpoˇctu se orientuj´ı na celé vˇety souhrn˚u, takˇze dvˇe vˇety s velmi podobným tématem zapsané odliˇsnˇe jsou ohodnoceny velmi n´ızkým hodnocen´ım. Tyto problémy ˇreˇs´ı metody zkoumaj´ıc´ı m´ıru podobnosti vˇet.

Metody nepracuj´ı s vˇetami souhrn˚u jako s celkem, ale vyuˇz´ıvaj´ı slov ve vˇetˇe pro potˇreby hodnocen´ı sumarizaˇcn´ıch systém˚u. Stejnˇe jako u ko-selekˇcn´ıch metod i metody výpoˇctu m´ıry podobnosti vyuˇz´ıvaj´ı referenˇcn´ı souhrny vytvoˇrené anotátory. Základn´ımi hodnot´ıc´ımi technikami jsou kosinová podobnost, pˇrekrýván´ı obsahu a nejdelˇs´ı spoleˇcná subsekvence [21].

Vektory X a Y jsou vektory vˇet obsahuj´ıc´ı slova ze souhrnu anotátorského (x_i) a souhrnu vytvoˇreného systémem (y_i).

Kosinov´a podobnost:

cos(X, Y ) =

P

ix_i∗ y_i pP

i(x_i)²∗pP

i(y_i)² (14)

Kosinová podobnost vyjadˇruje vzdálenost mezi dvˇema vektory. ˇC´ım vˇetˇs´ı je kosinová podobnost, t´ım v´ıce si jsou vˇety podobné.

Pˇrekryt´ı obsahu:

overlap(X, Y ) = |X ∩ Y |

|X| + |Y | − |X ∩ Y | (15)

Pˇrekryt´ı obsahu (ang. unit overlap) vyjadˇruje, kolik maj´ı souhrny spoleˇcn´ych slov nebo l´emat.

Nejdelˇs´ı spoleˇcn´a subsekvence:

lcs(X, Y ) = velikost(X) + velikost(Y ) − ´upravy_di(X, Y )

2 (16)

Velikost X a Y vyjadˇruje poˇcet prvk˚u tˇechto dvou ˇretˇezc˚u a úpravy_di(X, Y ) je poˇcet operac´ı vloˇzen´ı (insertion) a mazán´ı (deletion) nutných k úpravˇe X na Y.

(29)

4.1.4 ROUGE

Pro automatické hodnocen´ı sumarizaˇcn´ıch systém˚u byl vytvoˇren program ROUGE (Recall-Oriented Understudy for Gisting Evaluation)[12]. ROUGE je vyuˇz´ıván na konferenc´ıch TAC (dˇr´ıve DUC) k hodnocen´ı sumarizaˇcn´ıch systém˚u. Program dovoluje provádˇet automatické hodnocen´ı souhrn˚u na základˇe metrik m´ıry podobnosti. K tomuto potˇrebuje anotátory vytvoˇrené referenˇcn´ı souhrny, které vyuˇz´ıvá k výpoˇctu hodnot pˇresnosti a úplnosti. Tento program je dostupný ze stánek projektu⁴.

Program ROUGE dokáˇze hodnotit souhrny v nˇekolika reˇzimech. Základn´ım reˇzimem vyhodnocován´ı souhrn˚u je ROUGE-N. ROUGE-N provád´ı mˇeˇren´ı na principu výpoˇctu identických n-gram˚u mezi souhrnem vygenerovaným systémem a sadou referenˇcn´ıch souhrn˚u. Výpoˇcet skóre ROUGE-N mezi referenˇcn´ım a vygenerovaným souhrnem je provádˇen podle vzorce (17).

ROU GE − N = P

C∈RSS

P

gramn∈CP oˇcet_souhlas´_i(gram_n) P

C∈RSS

P

gramn∈CP oˇcet(gram_n) (17) RSS je sada vˇet referenˇcn´ıho souhrnu, n znaˇc´ı délku n-gramu, P oˇcet(gram_n) je poˇcet n-gram˚u v referenˇcn´ım souhrnu a P oˇcet_souhlas´_i(gram_n) je maximáln´ı poˇcet n-gram˚u, které se vyskytuj´ı zároveˇn v referenˇcn´ım i hodnoceném souhrnu. Pˇri reálném mˇeˇren´ı skóre souhrnu je vyuˇzito v´ıce referenˇcn´ıch souhrn˚u.

ROU GE − N_multi = argmax_iROU GE − N (r_i, s) (18) C´ım v´ıce referenˇˇ cn´ıch souhrn˚u sd´ıl´ı stejný n-gram, t´ım vˇetˇs´ı skóre bude m´ıt vˇeta, která ho obsahuje. Se vzr˚ustaj´ıc´ım poˇctem referenˇcn´ıch souhrn˚u klesá hodnota ROUGE-N, jelikoˇz roste velikost mnoˇziny n-gram˚u referenˇcn´ıch souhrn˚u, kterou je dˇelen poˇcet shoduj´ıc´ıch se n-gram˚u.

ROUGE-L a ROUGE-W realizuj´ı výpoˇcet nejdelˇs´ı spoleˇcné subsekvence - LCS (Longest Common Subsequence). LCS oznaˇcuje nejdelˇs´ı spoleˇcnou subsekvenci dvou vektor˚u slov. Metoda funguje na myˇslence, ˇze delˇs´ı subsekvence spoleˇcná pro souhrny je lépe ohodnocena neˇz kratˇs´ı. Metoda ROUGE-L nevyˇzaduje, aby subsekvence byla souvislá.

To znamená, ˇze dvˇe sekvence slov obsahuj´ıc´ı stejnou subsekvenci maj´ı stejné skóre, i kdyˇz jedna obsahuje subsekvenci spojitou a druhá ne. Toto ˇreˇs´ı metoda ROUGE-W, která mˇeˇr´ı nejdelˇs´ı spojitou subsekvenci.

4<http://berouge.com/default.aspx>

(30)

Posledn´ı vyuˇz´ıvanou metodou je ROUGE-S, která vyuˇz´ıvá ˇcetnosti výskyt˚u skip-bigram˚u v souhrnech pro vyhodnocen´ı souhrn˚u. Rozsah skip-bigramu je omezen uˇzivatelem a vyjadˇruje kolik unigram˚u je moˇzné pˇri výpoˇctu pˇreskoˇcit.

R_skip2 = SKIP 2(X, Y ) Cvelikost(X)²

P_skip2 = SKIP 2(X, Y ) Cvelikost(Y )²

F_lcs = 2R_skip2P_skip2

P_skip2+ R_skip2 (19) Kde SKIP 2(X, Y ) je poˇcet skip-bigram˚u spoleˇcn´ych pro referenˇcn´ı vˇetu X a testovanou vˇetu Y. Cvelikost(X)² je kombinaˇcn´ı ˇc´ıslo vyjadˇruj´ıc´ı poˇcet vˇsech bigram˚u v referenˇcn´ı vˇetˇe a Cvelikost(Y )² je poˇcet vˇsech skip-bigram˚u ve vˇetˇe testovan´e.

Bigramy jsou vytváˇreny podle poˇrad´ı ve vˇetˇe, to má za následek, ˇze nelze v testované vˇetˇe, která obsahuje stejné unigramy jako vˇeta referenˇcn´ı ale v opaˇcném poˇrad´ı, nalézt ani jeden stejný bigram. Ovˇsem je zˇrejmé, ˇze vˇety obsahuj´ı stejnou informaci a ohodnocen´ı testované vˇety by nemˇelo být nulové. Tento nedostatek ˇreˇs´ı rozˇs´ıˇren´ı metody ROUGE-S na ROUGE-SU. Tato metoda rozˇsiˇruje ROUGE-S o výpoˇcet spoleˇcných unigram˚u.

4.2 Nepˇ r´ım´ e metody

Nepˇr´ımé metody hodnot´ı souhrny pomoc´ı r˚uzných discipl´ın z oblasti dolován´ı informac´ı z textu. Nepˇristupuj´ı k textu souhrnu po ˇcástech (slovech nebo vˇetách), tak jako pˇr´ımé metody, ale analyzuj´ı informace v textu obsaˇzené. V angliˇctinˇe jsou nepˇr´ımé metody oznaˇcované jako ”task-based”, tedy metody zaloˇzené na urˇcitých

´

ulohách. Nejvýznamnˇejˇs´ımi úlohami jsou kategorizace dokument˚u, vyhledáván´ı informac´ı a zodpov´ıdán´ı otázek.

4.2.1 Kategorizace dokument˚u

Pˇri hodnocen´ı souhrn˚u kategorizac´ı je vytvoˇren korpus anotovaných dokument˚u, u kterého jsou pro kaˇzdý dokument urˇceny kategorie, do kterých dokument spadá.

Testován´ı prob´ıhá tak, ˇze jsou dokumenty kategorizovány na souhrnech tˇechto dokument˚u a následnˇe jsou tyto kategorie porovnány s kategoriemi urˇcenými pro p˚uvodn´ı text dokumentu. Pokud je souhrn kvalitn´ı náhradou dokumentu, tak se kategorie souhrnu i dokumentu shoduj´ı a m˚uˇzeme prohlásit, ˇze sumarizaˇcn´ı metoda, která souhrn vytvoˇrila, dokáˇze kvalitnˇe sumarizovat informace potˇrebné pro kategorizaci.

(31)

Kategorizaci je moˇzné provádˇet ruˇcnˇe, ale i automatickými kategorizuj´ıc´ımi systémy.

Ruˇcn´ı kategorizace ovˇsem zajiˇst’uje kvalitnˇejˇs´ı výsledky neˇz kategorizace automatická. Pˇri pouˇzit´ı automatické kategorizace je potˇreba rozliˇsovat chyby kategorizace a sumarizace.

4.2.2 Vyhled´av´an´ı informac´ı

Tato metoda hodnocen´ı souhrn˚u je zaloˇzena na pˇredpokladu, ˇze dobrý souhrn umoˇzˇnuje vyhledat stejné informace jako celý dokument a dotaz poloˇzený na dobrý souhrn vrát´ı stejnˇe kvalitn´ı výsledky jako dotaz poloˇzený na celý dokument. Sumarizaˇcn´ı systémy jsou hodnoceny na základˇe relativn´ıho poklesu informac´ı pˇri nahrazen´ı plného textu souhrnem tohoto textu. Pro úˇcely mˇeˇren´ı sumarizaˇcn´ıch systém˚u pomoc´ı vyhledáván´ı informac´ı bylo navrˇzeno nˇekolik metod napˇr´ıklad Kendallovo tau, Spearmanova korelace [20], lineárn´ı korelace nebo korelace relevance dat [19].

4.2.3 Zodpov´ıd´an´ı dotaz˚u ˇcten´aˇri

Velmi zaj´ımavá metoda ohodnocen´ı sumarizaˇcn´ıho systému je vyuˇzit´ı lid´ı odpov´ıdaj´ıc´ıch na otázky zamˇeˇrené na informace obsaˇzené v textu dokumentu [14]. Lidé odpov´ıdali na otázky na základˇe z´ıskaných znalost´ı a to ve tˇrech fáz´ıch. V prvn´ı fázi odpov´ıdali na otázky bez pˇreˇcten´ı ˇclánku ani souhrnu. Ve druhé fázi odpov´ıdali na stejné otázky a mˇeli k dispozici automaticky generovaný informativn´ı souhrn. Nakonec odpov´ıdali po pˇreˇcten´ı plného znˇen´ıˇclánku. Z´ıskané výsledky byly porovnány a byly zkoumány zlepˇsen´ı odpovˇed´ı na otázky pˇri vzr˚ustaj´ıc´ım objemu informac´ı.

(32)

5 Implementace sumarizaˇ cn´ıch metod

Pro implementaci byly vybrány metody, které nevyˇzadovaly úˇcast anotátor˚u ani jiných lingvist˚u k realizaci metody. Nakonec byla vybrána heuristická a Luhnova metoda jako zástupci statistických metod a sumarizaˇcn´ı metoda zaloˇzená na latentn´ı sémantické analýze, která vyuˇz´ıvá modern´ıch pˇr´ıstup˚u k procesu vytváˇren´ı souhrn˚u.

Implementace vˇsech metod byla provedena v jazyce C# a platformˇe Mono, která dovoluje vysokou pˇrenositelnost binárn´ıho kódu d´ıky implementaci Mona na systémech Linux, Mac i Windows. Podobnou pˇrenositelnost dovoluje jen jazyk Java, který je ovˇsem kv˚uli nutnosti kompilace Java bitekódu pˇri kaˇzdém spuˇstˇen´ı výraznˇe pomalejˇs´ı.

5.1 Pˇ redzpracov´ an´ı vstupn´ıch dat

Pˇred zaˇcátkem vlastn´ı sumarizace je potˇreba vstupn´ı text pˇredzpracovat. Text vstupuje do procesu sumarizace jako jeden dlouhý ˇretˇezec znak˚u. Tento ˇretˇezec je ovˇsem nutné rozdˇelit na jednotlivé vˇety. Tyto vˇety (pole ˇretˇezc˚u) je teoreticky moˇzné vyuˇz´ıt pro vytvoˇren´ı souhrnu, ovˇsem kv˚uli ohebnosti jazyk˚u je nutné rozdˇelené vˇety jeˇstˇe lemmatizovat. Postup vytvoˇren´ı souhrn˚u je zobrazen na obrázku 4.

Obr´azek 4: Sch´ema postupu vytvoˇren´ı souhrnu Tˇr´ıda Preparation

Pro pˇr´ıpravu dat byla vytvoˇrena tˇr´ıda Preparation, kter´a ˇreˇs´ı problematiku dˇelen´ı vˇet a jejich lemmatizaci. Tˇr´ıda obsahuje celkem tˇri statick´e metody. Prvn´ı z nich je metoda

(33)

vrac´ı pole ˇretˇezc˚u. Pˇri dˇelen´ı vˇet bylo nutné ˇreˇsit problémy, jako jsou zkratky jmen, datum, poˇradové ˇc´ıslovky a jiné problémy, které ztˇeˇzuj´ı detekci konce vˇety.

Dalˇs´ı dvˇe metody lemmatizuj´ı vˇety. Jsou to metody Lemmatisation(string[]

sents) a GetLemma(string line). Metoda Lemmatisation slouˇz´ı k lemmatizaci vstupn´ıho pole vˇet a vrac´ı pole lemmatizovaných vˇet. Metoda GetLemma slouˇz´ı k lemmatizaci jedné ”vˇety”a je vyuˇz´ıvaná pro lemmatizaci nadpis˚u a kl´ıˇcových slov.

K vlastn´ı lemmatizaci je vyuˇzit lemmatizátor, který byl vytvoˇren na Karlovˇe univerzitˇe v Ústavu formáln´ı a aplikované lingvistiky a je dostupný na stránce ústavu⁵. Kv˚uli ˇcasové nároˇcnosti inicializace lemmatizátoru je metoda Lemmatisation implementovaná tak, ˇze vˇety, které má lemmatizovat, spoj´ı pˇres speciáln´ı sekvenci znak˚u a nakonec volá metodu GetLemma, jenˇz vˇety vrac´ı jiˇz lemmatizované. Následnˇe jsou vˇety opˇet rozdˇeleny pomoc´ı vloˇzené speciáln´ı sekvence znak˚u.

5.2 Interface metod

Pro sjednocen´ı ovládán´ı bylo na navrˇzeno rozhran´ı obsahuj´ıc´ı metody, které mus´ı kaˇzdá sumarizaˇcn´ı metoda implementovat.

i n t e r f a c e S u m m a r i z a t i o n I n t e r f a c e {

void CreateSummary ( ) ;

void CreateSummary ( s t r i n g t e x t ) ;

s t r i n g [ ] GetSummaryByPercentOfText ( uint p e r c e n t ) ; s t r i n g [ ] GetSummaryByCountOfSentences ( uint c o u n t ) ; }

K´od 1: Interface sumarizaˇcn´ı metody

Metoda CreateSummary provád´ı pˇr´ıpravu algoritmu sumarizace na jeho ˇcinnost (lemmatizuje text, poˇc´ıtá frekvenci term˚u,...). Vstupn´ı text, kl´ıˇcová slova a ostatn´ı potˇrebná nastaven´ı jsou pˇredány instanci metody v konstruktoru. Ovˇsem nˇekteré metody pˇri vytvoˇren´ı jejich instance naˇc´ıtaj´ı korpus, který potˇrebuj´ı pro vytvoˇren´ı souhrnu, coˇz výraznˇe prodluˇzuje dobu bˇehu sumarizátoru. Tento problém je vyˇreˇsen pˇret´ıˇzen´ım metody CreateSummary. Metoda CreateSummary(string text) umoˇzˇnuje vyuˇz´ıt jiˇz naˇctený korpus pro vytvoˇren´ı nového souhrnu.

5<http://ufal.mff.cuni.cz/pdt/Morphology_and_Tagging/Morphology/>

(34)

Metody GetSummaryByPercentOfText a GetSummaryByCountOfSentences vrac´ı poˇzadovaný poˇcet vˇet souhrnu. Tento souhrn je reprezentován polem ˇretˇezc˚u, které je setˇr´ıdˇené podle vypoˇc´ıtané hodnoty vˇety.

Abstraktn´ı metoda SummarizationMethod

Pro obecnˇejˇs´ı vyuˇzit´ı implementovaných metod byla napsána abstraktn´ı tˇr´ıda SummarizationMethod. Vyuˇzit´ı abstraktn´ı tˇr´ıdy je znázornˇeno v kódu 2.

SummarizationMethod summary=n u l l ; switch ( metoda )

{

case ” h e u r i s t i c ” :

summary=new H e u r i s t i c ( t e x t , t i t l e , l a n g ) ; break ;

case ” l s a ” :

summary=new LSA( t e x t , t i t l e , l a n g , useCZ IDF ) ; break ;

d e f a u l t :

summary=new Luhn ( t e x t , t i t l e ) ; break ;

}

summary . CreateSummary ( ) ;

s t r i n g [ ] sum = summary . GetSummaryByCountOfSentences ( 4 ) ;

K´od 2: Pˇr´ıklad pouˇzit´ı abstraktn´ı metody SummarizationMethod

Kód 2 je vyuˇz´ıván sumarizaˇcn´ım serverem (viz. kapitola 5.6, který vyuˇz´ıvá knihovnu Summarization, jenˇz obsahuje vˇsechny implementované sumarizaˇcn´ı algoritmy a tˇr´ıdu Preparation. V promˇenné metoda je uloˇzen název uˇzivatelem vybrané metody a podle n´ı je urˇceno, která metoda je ve skuteˇcnosti vyuˇzita pro vytvoˇren´ı souhrnu.

5.3 Heuristick´ a metoda

Heuristická metoda byla implementována jako prvn´ı metoda, na které byly odzkouˇseny metody tˇr´ıdy Preparation. Tato metoda vyˇzaduje tzv. StopList, který obsahuje seznam nejˇcastˇejˇs´ıch term˚u jazyka sumarizovaného textu. StopList pro ˇceský jazyk byl

(35)

Media a následným výbˇerem nejˇcetnˇejˇs´ıch 311 lémat. Pro anglický jazyk byl z´ıskán ze stránek projektu Proteus New Yorské univerzity⁶. Po odstranˇen´ı term˚u ze StopListu probˇehne výpoˇcet ˇcetnosti term˚u a úprava ˇcetnosti term˚u uvedených v kl´ıˇcových slovech, nadpisu a doménˇe. Na základˇe z´ıskaných ˇcetnost´ı term˚u jsou ohodnoceny vˇety vstupn´ıho textu a vytvoˇren souhrn.

5.4 Luhn˚ uv sumariz´ ator

Luhn˚uv sumarizátor vyˇzaduje pro výpoˇcet slovn´ık inverzn´ı dokumentové frekvence term˚u jazyka. Tento slovn´ık byl vytvoˇren z jiˇz dˇr´ıve zm´ınˇených ˇclánk˚u. Kv˚uli ohebnosti ˇ

ceského jazyka bylo nutné vypoˇc´ıtat ˇcetnost dokument˚u obsahuj´ıc´ı lemmatizovaný term.

Pro tyto úˇcely byly vytvoˇreny nástroje na výpoˇcet inverzn´ı dokumentové frekvence lemmatizovaných term˚u. P˚uvodnˇe se jednalo o jeden program, který provádˇel vˇsechny výpoˇcty najednou, ale jeho bˇeh trval moc dlouho (ˇrádovˇe týdny). Proto byly vytvoˇreny dva oddˇelené programy.

Prvn´ı program pˇrevedl vstupn´ı xml soubor s ˇclánky na speciáln´ı soubor, který byl pak lemmatizován. Program vytvoˇril 4 vlákna, která provádˇela lemmatizaci ˇctyˇr vstupn´ıch soubor˚u najednou a výsledek uloˇzila do nového xml souboru s lemmatizovanými ˇclánky.

Celkem bylo lemmatizov´ano 2 228 021 ˇcl´ank˚u.

Druhý program vytváˇr´ı vlastn´ı slovn´ık, který slouˇz´ı k výpoˇctu inverzn´ı dokumentové frekvence. Program vytváˇr´ı slovn´ık term˚u, do kterého pˇridává termy z lemmatizovaných ˇ

clánk˚u, a vypoˇc´ıtává ˇcetnost ˇclánk˚u obsahuj´ıc´ı tyto termy. Program byl vytvoˇren ve dvou verz´ıch. Prvn´ı verze vyˇzadovala pˇredem vytvoˇrený slovn´ık slov, jejichˇz ˇcetnost mˇela být vypoˇc´ıtána. Pouˇzitý slovn´ık byl vytvoˇren lemmatizován´ım slovn´ıku unigram˚u.

Obsahuje pˇribliˇznˇe 180 tis´ıc nejˇcastˇejˇs´ıch ˇceských lemmat. Druhá verze vytváˇrela slovn´ık dynamicky na základˇe nalezených lemmat v ˇclánc´ıch. Ovˇsem tento slovn´ık byl zbyteˇcnˇe velký a obsahoval i pˇreklepy autor˚u ˇclánk˚u. Slovn´ık obsahoval pˇres dva a p˚ul milionu term˚u a zab´ıral v pamˇeti 34 MB, coˇz by znaˇcnˇe prodluˇzovalo spouˇstˇen´ı sumarizaˇcn´ıho programu. Proto byl slovn´ık upraven omezen´ım poˇctu term˚u na základˇe jejich ˇcetnosti a to tak, ˇze nejmenˇs´ı pˇr´ıpustná ˇcetnost byla nastavena na padesát

6<http://nlp.cs.nyu.edu/GMA_files/resources/>

(36)

výskyt˚u. Takto omezený slovn´ık obsahuje cca. 129 tis´ıc term˚u a zab´ırá jiˇz jen 1,7 MB.

pocet dokumentu : 2 2 2 8 0 2 1

v 2072350

s 1983432

a 1975942

b´y t 1968714

Kód 3: Prvn´ı 4 ˇrádky natrénovaného slovn´ıku

D´ıky omezen´ı slovn´ıku a specifickým term˚um, které slovn´ık neobsahuje, vzniká problém, jak vypoˇc´ıtat inverzn´ı dokumentovou frekvenci pro neznámé termy. Tento problém byl vyˇreˇsen úpravou výpoˇctu hodnoty pro neznámé slovo. Úprava vycház´ı z pˇredpokladu, ˇze slovo, které slovn´ık neobsahuje, je velmi specifické a t´ım pádem i d˚uleˇzité. Proto byl nulový výskyt termu v trénovac´ım korpusu nahrazen jedn´ım výskytem.

Výpoˇcet je znázornˇen v kódu 4.

double v a l =0;

foreach ( s t r i n g word in s e n t e n c e . words ) {

try {

v a l+=t f [ word ] ∗ i d f [ word ] ; }

catch ( KeyNotFoundException ) {

v a l+=t f [ word ] ∗ Math . Log ( pocetDokumentu ) ; }

}

s e n t e n c e . S c o r e=v a l ;

Kód 4: Výpoˇcet skóre vˇety

5.5 Latentn´ı s´ emantick´ a anal´ yza

Celý algoritmus vytvoˇren´ı souhrnu pomoc´ı latentn´ı sémantické analýzy lze rozdˇelit na tˇri ˇcásti:

(37)

2. výpoˇcet dekompozice matice 3. výpoˇcet skóre vˇet

Sloupeˇcky matice A, jeˇz je pouˇzitá jako vstupn´ı matice dekompozice, obsahuj´ı jednotlivé vˇety sumarizovaného ˇclánku. ˇRádky matice obsahuj´ı termy ˇclánku. Hodnota a_t,v v matici reprezentuje poˇcet výskyt˚u termu t ve vˇetˇe v. Tato hodnota je jeˇstˇe váˇzena pˇres globáln´ı frekvenci termu [3]. Kompletn´ı matice A je pˇredána dále do dekompozice.

Byly implementovány dvˇe verze výpoˇctu matice A. Prvn´ı moˇznost, jako váˇzit hodnoty v matici A, je urˇcena jen pro ˇceský jazyk, vyuˇz´ıvá slovn´ık IDF vytvoˇrený pro Luhn˚uv sumarizátor. Term je váˇzen jeho inverzn´ı dokumentovou frekvenc´ı. Pˇred výpoˇctem ˇ

cetnosti termu je dokument lemmatizován, aby byly sjednoceny vˇsechny tvary jednoho slova do jednoho termu. Druhá moˇznost je váˇzen´ı term˚u na základˇe globáln´ı frekvence v sumarizovaném dokumentu. Tuto moˇznost je nutné pouˇz´ıt pro jiný neˇz ˇceský jazyk, jelikoˇz dokument neprocház´ı procesem lemmatizace, který funguje jen pro ˇceský jazyk.

Jelikoˇz nen´ı k dispozici IDF slovn´ık, který omezuje vliv nejˇcastˇejˇs´ıch term˚u jazyka, je nutné odstranit nejˇcastˇejˇs´ı termy. K tomu mám slouˇz´ı StopList, který je vyuˇz´ıván heuristickou metodou.

Pro výpoˇcet dekompozice matice je vyuˇzita open source knihovna ALGLIB dostupná zdarma pro výzkum z webových stránek projektu⁷. Knihovna umoˇzˇnuje provádˇet ˇsiroké spektrum matematických operac´ı, vˇcetnˇe singulárn´ı dekompozici matice, a to velmi efektivnˇe.

a l g l i b . r m a t r i x s v d (A, m, n , vypoctiU , vypoctiVT , pridavnaPamet , out S , out U, out VT) ;

Kód 5: Volán´ı metody provádˇej´ıc´ı singulárn´ı dekompozici

Parametr m je poˇcet ˇrádk˚u matice A a n je poˇcet sloupeˇck˚u matice A. Parametry vypoctiU, vypoctiVT a pridavnaPamet ovlivˇnuj´ı rychlost výpoˇctu a podobu výsledných matic S, U a VT. Parametr pridavnaPamet je doporuˇceno nastavit na hodnotu 2. Pˇri tomto nastaven´ı algoritmus potˇrebuje nav´ıc m*min(m,n) reálných ˇc´ısel, ale dosahuje maximáln´ıho výkonu. Parametry vypoctiU a vypoctiVT ovlivˇnuj´ı obsah matic U a VT. Parametr lze nastavit na hodnoty 0 aˇz 2, kdy pˇri hodnotˇe 0 nen´ı matice vypoˇc´ıtána, pˇri hodnotˇe 1 je vypoˇc´ıtáno jen prvn´ıch min(m,n) sloupeˇck˚u(matice U) nebo ˇrádk˚u (matice VT) a pˇri hodnotˇe 2 je vypoˇctena celá matice. Metoda vrac´ı ve vektoru S singulárn´ı hodnoty, v matici

7<http://www.alglib.net/>