• No results found

DIPLOMOV´APR´ACE Fakultymechatroniky,informatikyamezioborov´ychstudi´ı TECHNICK´AUNIVERZITAVLIBERCI

N/A
N/A
Protected

Academic year: 2022

Share "DIPLOMOV´APR´ACE Fakultymechatroniky,informatikyamezioborov´ychstudi´ı TECHNICK´AUNIVERZITAVLIBERCI"

Copied!
55
0
0

Loading.... (view fulltext now)

Full text

(1)

TECHNICK ´ A UNIVERZITA V LIBERCI Fakulty mechatroniky, informatiky a mezioborov´ ych studi´ı

DIPLOMOV ´ A PR ´ ACE

Liberec 2012 Michal Rott

(2)
(3)

TECHNICK ´ A UNIVERZITA V LIBERCI Fakulty mechatroniky, informatiky a mezioborov´ ych studi´ı

Studijn´ı program: N2612 - Elektrotechnika a informatika Studijn´ı obor: 1802T007 - Informaˇ cn´ı technologie

Automatick´ a sumarizace textov´ ych dokument˚ u

Automatic summarization of text documents

Diplomov´ a pr´ ace

Autor: Bc. Michal Rott

Vedouc´ı pr´ ace: Ing. Petr ˇ Cerva, Ph.D.

Konzultant: Ing. Ladislav ˇ Seps

V Liberci 15. kvˇ etna 2012

(4)

!!! Origin´ al zad´ an´ı !!!

M´ısto tohoto listu bude origin´al zad´an´ı...

(5)

Prohl´ aˇ sen´ı

Byl(a) jsem sezn´amen(a) s t´ım, ˇze na mou diplomovou pr´aci se plnˇe vztahuje z´akon ˇ

c. 121/2000 Sb. o pr´avu autorsk´em, zejm´ena § 60 – ˇskoln´ı d´ılo.

Beru na vˇedom´ı, ˇze Technick´a univerzita v Liberci (TUL) nezasahuje do m´ych autorsk´ych pr´av uˇzit´ım m´e diplomov´e pr´ace pro vnitˇrn´ı potˇrebu TUL.

Uˇziji-li diplomovou pr´aci nebo poskytnu-li licenci k jej´ımu vyuˇzit´ı, jsem si vˇedom povinnosti informovat o t´eto skuteˇcnosti TUL; v tomto pˇr´ıpadˇe m´a TUL pr´avo ode mne poˇzadovat ´uhradu n´aklad˚u, kter´e vynaloˇzila na vytvoˇren´ı d´ıla, aˇz do jejich skuteˇcn´e v´yˇse.

Diplomovou pr´aci jsem vypracoval(a) samostatnˇe s pouˇzit´ım uveden´e literatury a na z´akladˇe konzultac´ı s vedouc´ım diplomov´e pr´ace a konzultantem.

Datum

Podpis

(6)

Podˇ ekov´ an´ı

R´ad bych podˇekoval vedouc´ımu m´e diplomov´e pr´ace panu Ing. Petru ˇCervovi Ph.D.

ze rady a ˇcas, kter´e mi vˇenoval bˇehem konzultac´ı. Tak´e bych r´ad podˇekoval vˇsem, kteˇr´ı se

´

uˇcastnili tvorby datab´aze referenˇcn´ıch souhrn˚u.

(7)

Abstrakt

Dneˇsn´ı svˇet je pˇrehlcen informacemi a pr´avˇe tato pr´ace se snaˇz´ı lidem usnadnit pr´aci s informacemi vytv´aˇren´ım souhrn˚u tˇechto informac´ı. V r´amci v´yzkumu byly pˇrev´aˇznˇe z anglick´e literatury nastudov´any metody vytv´aˇrej´ıc´ı z rozs´ahl´ych ˇcl´ank˚u extrakty.

Byly nastudov´any sumarizaˇcn´ı metody heuristick´e a statistick´e vyuˇz´ıvan´e v poˇc´atc´ıch digitalizace text˚u, ale i modern´ı metody analyzuj´ıc´ı texty hloubˇeji. Hlavn´ı pozornost byla vˇenov´ana Luhnovu sumariz´atoru a latentn´ı s´emantick´e anal´yze. Tyto metody byly tak´e implementov´any v jazyku C# na platformˇe Mono.

Druh´a ˇc´ast diplomov´e pr´ace ˇreˇs´ı problematiku evaluace implementovan´ych sumarizaˇcn´ıch metod. Z literatury a vˇedeck´ych ˇcl´ank˚u byly nastudov´any techniky pouˇz´ıvan´e pro mˇeˇren´ı a hodnocen´ı automaticky generovan´ych souhrn˚u. Pro vlastn´ı proveden´ı evaluace byl vyuˇzit program ROUGE, vyuˇz´ıvan´y pro tento ´uˇcel i na konferenc´ıch Text Analysis Conference. V r´amci evaluace bylo provedeno nˇekolik experiment˚u s r˚uzn´ymi nastaven´ımi sumarizace a byly vyhodnoceny i volnˇe dostupn´e sumariz´atory.

Kl´ıˇ cov´ a slova

sumarizace, souhrn, Luhn˚uv sumariz´ator, Latentn´ı s´emantick´a anal´yza, evaluace, ROUGE

Abstract

Today’s world is overloaded with information and this work is trying to help people work with information by creating summaries of this information. During the research has been staging method of producing extracts from large articles. Staging were summarization mehods heuristic and statistical used in the early days of text digitization and modern methods analyzing texts more deeply. The main attention was paid to Luhn summarizer and to method using latent semantic analysis. These methods were also implemented in C# on the Mono platform.

The second part of the thesis deals with the issue summarizing the evaluation of implemented methods. From literature and scientific articles have been staging techniques used for measurement and evaluation of automatically generated summaries. For the actual performance evaluation program was used ROUGE, used for that purpose at conferences and Text Analysis Conference. The evaluation was carried out several experiments with different settings and summaries have been evaluated and freely available sumariz´atory.

Keywords

summarization, summary, Luhn summarizer, Latent semantic analysis, evaluation, ROUGE

(8)

Obsah

1 Uvod´ 8

1.1 Automatick´a sumarizace . . . 8

1.2 Sumarizace dnes . . . 9

2 Rozdˇelen´ı souhrn˚u a metod sumarizac´ı 10 2.1 Clenˇˇ en´ı dle typy souhrnu . . . 10

2.2 Clenˇˇ en´ı dle ´urovnˇe anal´yzy dokumentu . . . 11

2.3 Clenˇˇ en´ı dle potˇreb uˇzivatel˚u . . . 11

2.4 Clenˇˇ en´ı dle rozsahu souhrnu . . . 12

2.5 Multidokumentov´a, aktualizaˇcn´ı a ASR sumarizace . . . 13

3 Metody sumarizace textu 15 3.1 Heuristick´e metody . . . 15

3.2 Statistick´e metody . . . 15

3.2.1 Luhn˚uv sumariz´ator . . . 16

3.2.2 Naivn´ı Bayes˚uv klasifik´ator . . . 17

3.3 Modern´ı pˇr´ıstupy . . . 18

3.3.1 Teorie r´etorick´ych struktur . . . 18

3.3.2 Grafov´e metody . . . 19

3.3.3 Latentn´ı s´emantick´a anal´yza . . . 20

4 Hodnocen´ı sumarizac´ı 24 4.1 Pˇr´ım´e metody . . . 24

4.1.1 Kvalita souhrnu . . . 24

4.1.2 Ko-selekce . . . 25

4.1.3 Z´akladn´ı m´ıry podobnosti . . . 26

4.1.4 ROUGE . . . 27

4.2 Nepˇr´ım´e metody . . . 28

4.2.1 Kategorizace dokument˚u . . . 28

4.2.2 Vyhled´av´an´ı informac´ı . . . 29

4.2.3 Zodpov´ıd´an´ı dotaz˚u ˇcten´aˇri . . . 29

5 Implementace sumarizaˇcn´ıch metod 30

(9)

5.2 Interface metod . . . 31

5.3 Heuristick´a metoda . . . 32

5.4 Luhn˚uv sumariz´ator . . . 33

5.5 Latentn´ı s´emantick´a anal´yza . . . 34

5.6 Vytvoˇren´e implementace . . . 36

6 Vyhodnocen´ı implementovan´ych metod 38 6.1 Zad´an´ı experiment˚u . . . 38

6.2 Vytvoˇren´ı evaluaˇcn´ıho korpusu . . . 38

6.3 Pˇr´ıprava dat . . . 39

6.4 V´ysledky experiment˚u . . . 40

6.4.1 Evaluace vytvoˇren´eho sumariz´atoru . . . 40

6.4.2 Porovn´an´ı s online sumariz´atory . . . 41

6.4.3 Porovn´an´ı se souhrny neohebn´ych jazyk˚u . . . 42

6.4.4 Glob´aln´ı vs. inverzn´ı dokumentov´a frekvence . . . 43

7 Z´avˇer 44 7.1 Implementovan´e metody . . . 44

7.2 Poznatky z experiment˚u . . . 45

7.3 Moˇzn´e uplatnˇen´ı . . . 46

7.4 N´amˇety k rozˇs´ıˇren´ı pr´ace . . . 46

8 Literatura 47

A Uk´azka souhrn˚u 50

B Pˇrekryt´ı referenc´ı 52

(10)

1 Uvod ´

S poˇc´atkem digitalizace textov´ych dokument˚u vznikl probl´em s nedostateˇcnou kapacitou datov´ych ´uloˇziˇst’. Tento probl´em se zaˇcal ˇreˇsit vytv´aˇren´ım souhrn˚u dokument˚u urˇcen´ych k uloˇzen´ı a katalogizac´ı dokument˚u podle nich. Pokud dokument jiˇz obsahoval souhrn, nebyl probl´em ho rychle zaˇradit. Tyto souhrny vytv´aˇren´e pˇrev´aˇznˇe samotn´ymi autory jsou oznaˇcovan´e jako abstrakty nebo resum´e. Probl´em chybˇej´ıc´ıch abstrakt˚u se zaˇcal ˇreˇsil automatickou sumarizac´ı, jelikoˇz nebylo moˇzn´e vytvoˇrit ruˇcnˇe souhrny pro ”velk´e”mnoˇzstv´ı dokument˚u. Tyto automaticky vytvoˇren´e souhrny bylo pak moˇzn´e vyuˇz´ıt pro vyhled´av´an´ı dokument˚u v knihovn´ıch termin´alech a tak´e se podle nich mohli rozhodnout, kterou knihu pˇreˇc´ıst.

Dnes stoj´ıme pˇred opaˇcn´ym probl´emem. Kapacita datov´ych ´uloˇziˇst’ je pro potˇreby uloˇzen´ı textov´ych dokument˚u v podstatˇe neomezen´a. Napˇr´ıklad ˇcteˇcka elektronick´ych knih Amazon Kindle 3 m´a kapacitu 4GB a pr˚umˇern´a elektronick´a kniha m´a velikost pˇribliˇznˇe p˚ul megabytu. To znamen´a, ˇze do t´eto ˇcteˇcky lze nahr´at aˇz 8000 knih. Takov´e mnoˇzstv´ı knih nen´ı v podstatˇe moˇzn´e pˇreˇc´ıst a je nutn´e si podle nˇejak´ych informac´ı vybrat jen knihy, kter´e uˇzivatele zaj´ımaj´ı. Ve svˇetˇe internetu je tento probl´em mnohon´asobnˇe vˇetˇs´ı. Dennˇe vznikaj´ı tis´ıce dokument˚u, ˇcl´ank˚u, zpr´av a z´apisk˚u na bloz´ıch. Ze vˇsech tˇechto dokument˚u si uˇzivatel´e vyb´ıraj´ı jen ty, kter´e povaˇzuj´ı za d˚uleˇzit´e. Pro rozhodnut´ı, kter´y ˇcl´anek je pro n´as d˚uleˇzit´y, m˚uˇzeme vyuˇz´ıt souhrn, jenˇz n´am pom˚uˇze indikovat, kter´y ˇcl´anek stoj´ı za pˇreˇcten´ı. Za extr´emn´ı formu souhrnu m˚uˇzeme povaˇzovat tˇreba nadpis.

S r˚uzn´ymi typy souhrn˚u se setk´av´ame v podstatˇe dennˇe. Napˇr´ıklad pˇri vyhled´av´an´ı informac´ı pomoc´ı sluˇzeb Googlu si vyb´ır´ame odkazy, pr´avˇe na z´akladˇe souhrnu str´anky, kter´y pro n´as vyhled´avac´ı sluˇzba vytv´aˇr´ı podle zadan´eho dotazu. Tento typ souhrnu se oznaˇcuje jakou souhrn na dotaz. Dalˇs´ım pˇr´ıkladem souhrn˚u jsou ”headlines”ˇcten´e moder´atory televizn´ıch zpr´av. Tyto souhrny pˇredstavuj´ı dva odliˇsn´e pˇr´ıstupy k vytv´aˇren´ı souhrn˚u. Jeden vytv´aˇren v´ypoˇcetn´ı technikou a druh´y ˇclovˇekem. A pr´avˇe k myˇslen´ı ˇclovˇeka se pˇri vytv´aˇren´ı souhrnu snaˇz´ı co nejv´ıce pˇribl´ıˇzit metody automatick´e sumarizace.

1.1 Automatick´ a sumarizace

Automatick´a sumarizace je lingvistick´a discipl´ına, jej´ımˇz c´ılem je vytv´aˇren´ı co nejlepˇs´ıch souhrn˚u. Souhrn dokumentu n´as pak informuje o p˚uvodn´ım dokumentu a jeho informaˇcn´ı hodnotˇe. Tyto souhrny jsou vytv´aˇreny na z´akladˇe dvou r˚uzn´ych z´akladn´ıch

(11)

diplomov´e pr´ace se budu vˇenovat pˇrev´aˇznˇe metod´am vytv´aˇrej´ıc´ım extrakt, jelikoˇz vytv´aˇren´ı abstrakt˚u, zvl´aˇstˇe pro ˇcesk´y jazyk, je velmi komplexn´ı discipl´ına, kter´a vyˇzaduje t´ym odborn´ık˚u z oblasti syntaxe a morfologie jazyka. Nav´ıc vˇetˇsina svˇetov´eho v´yzkumu v oblasti vytv´aˇren´ı souhrn˚u se zamˇeˇruje pr´avˇe na extrakci vˇet.

1.2 Sumarizace dnes

D´ıky zvyˇsuj´ıc´ımu se v´ykonu hardwaru se dnes sumarizace odkl´an´ı od statistick´ych metod, kter´e jsou m´enˇe n´aroˇcn´e na v´ypoˇcetn´ı v´ykon a zaˇc´ınaj´ı se ˇc´ım d´al v´ıce pouˇz´ıvat metody vyuˇz´ıvaj´ıc´ı hlubˇs´ıch lingvistick´ych znalost´ı. Metody jako jsou napˇr´ıklad grafov´a metoda, metoda vyuˇz´ıvaj´ıc´ı teorii r´etorick´ych struktur nebo latentn´ı s´emantick´a anal´yza dnes z´ısk´avaj´ı na v´yznamu a jsou st´ale v´ıce vyuˇz´ıv´any. Tyto metody zkoumaj´ı vazby mezi jednotliv´ymi prvky vˇet nebo i cel´ymi vˇetami a na z´akladˇe t´eto anal´yzy vytv´aˇrej´ı souhrny.

Principy statistick´ych metod vˇsak neupadly v zapomnˇen´ı, jsou ˇcasto vyuˇz´ıv´any v r´amci jin´ych metod.

V souˇcasn´e dobˇe je vytvoˇreno mnoho sumariz´ator˚u, nˇekter´e pro komerˇcn´ı ´uˇcely a jin´e pro vˇedeck´e, jejichˇz smyslem je v´yzkum nov´ych pˇr´ıstup˚u k sumarizaci. Pˇr´ıkladem komerˇcn´ıho v´ıce dokumentov´eho sumariz´atoru m˚uˇze b´yt <http://www.news-articles.

org>, kter´y vyhled´av´a na str´ank´ach internetov´ych periodik aktu´aln´ı dˇen´ı ve svˇetˇe a zpr´avy, jenˇz vyhodnot´ı jako nejd˚uleˇzitˇejˇs´ı zobraz´ı na sv´ych str´ank´ach. Dalˇs´ım pˇr´ıkladem podobn´e sluˇzby jsou <http://news.google.com>, kde jsou i extrahovan´e tzv. ”Top stories”, tedy ud´alosti, o kter´ych se p´ıˇse ve svˇetˇe nejv´ıce. Na webu lze nal´ezt tak´e velk´e mnoˇzstv´ı online textov´ych sumariz´ator˚u, ale m´alokter´y si dok´aˇze poradit s ˇceˇstinou a jejich v´ysledky jsou m´alo kvalitn´ı.

V ˇCesk´e republice se oboru automatick´e sumarizace intenzivnˇe vˇenuj´ı hlavnˇe na Z´apadoˇcesk´e univerzitˇe, kde se vyuˇz´ıvaj´ı pˇrev´aˇznˇe metody zaloˇzen´e na latentn´ı s´emantick´e anal´yze. Vznikl napˇr´ıklad multidokumentov´y sumariz´ator zaloˇzen´y na LSA [10] nebo projekt ALMUS [23], kter´y vytv´aˇr´ı i aktualizaˇcn´ı souhrny. ˇClenov´e Z ˇCU byly tak´e jedin´ı ˇ

ceˇst´ı ´uˇcastn´ıci konference Text Analysis Conference. Tyto konference organizuje od roku 2000 National Institut of Standards and Technology a ud´avaj´ı smˇer v´yvoje sumarizac´ı a jejich evaluac´ı. Moment´alnˇe je v´yzkum sumarizace zamˇeˇren na multidokumentovou a aktualizaˇcn´ı sumarizaci.

(12)

2 Rozdˇ elen´ı souhrn˚ u a metod sumarizac´ı

Pˇred zaˇc´atkem t´eto kapitoly povaˇzuji za nutn´e definovat nˇekter´e d˚uleˇzit´e pojmy, kter´e budou v t´eto a dalˇs´ıch kapitol´ach pouˇzity.

Souhrn - text obsahuj´ıc´ı d˚uleˇzit´e informace z rozs´ahl´eho dokumentu Sumarizace - proces vytv´aˇrej´ıc´ı souhrn

Sumariz´ator - syst´em realizuj´ıc´ı alespoˇn jednu metodu sumarizace

Term - prvek nebo prvky textu oznaˇcuj´ıc´ı jeden objekt, ˇcinnost, jev, ...

2.1 Clenˇ ˇ en´ı dle typy souhrnu

Z´akladn´ı moˇznost, jak rozdˇelit proces sumarizace, je podle formy jej´ıho v´ystupu, tedy souhrnu. Podle formy souhrnu se sumarizace dˇel´ı na metody vytv´aˇrej´ıc´ı extrakty a na metody vytv´aˇrej´ıc´ı abstrakty.

Metody zaloˇzen´e na principu sumarizace generov´an´ım se snaˇz´ı vytvoˇrit ze vstupn´ıho ˇcl´anku abstrakt tak, jak ho zn´ame z r˚uzn´ych dokument˚u. Autor vlastn´ımi slovy pop´ıˇse, o ˇcem dokument pojedn´av´a a v´ysledn´y abstrakt pak slouˇz´ı potenci´aln´ım ˇcten´aˇr˚um k indikaci uˇziteˇcnosti dokumentu pro jejich potˇrebu. Metody automatick´e sumarizace vytv´aˇrej´ıc´ı abstrakt jsou dnes v plenk´ach. Bylo navrˇzeno nˇekolik metod, kter´e se pokouˇsej´ı vytv´aˇret abstrakt, ale tyto abstrakty nedosahuj´ı kvality ruˇcnˇe psan´ych abstrakt˚u a v praxi nejsou moc preferovan´e. Metody vytv´aˇrej´ıc´ı abstrakt je tak´e velmi tˇeˇzk´e implementovat, jelikoˇz jejich implementace zahrnuje komplexn´ı znalosti z oblasti morfologie a syntaxe jazyka. Implementace je tak´e zt´ıˇzena d´ıky ohebnosti c´ılov´eho jazyka a abstrakty pro velmi ohebn´e jazyky, jako je ˇceˇstina, jsou velmi ˇcasto neˇciteln´e a ˇspatnˇe podchycuj´ı abstrahovanou informaci.

Druh´ym principem je sumarizace extrahov´an´ım, tedy vytv´aˇren´ı souhrn˚u na z´akladˇe extrakce vˇet z p˚uvodn´ıho textu sumarizovan´eho dokumentu. Metody vytv´aˇrej´ıc´ı extrakt jsou dnes velmi obl´ıben´e. Vˇety extraktu neztr´acej´ı oproti automaticky generovan´emu abstraktu kontext informac´ı, kter´y je vyj´adˇren´y tvarem vˇety. Extrakty ovˇsem ztr´acej´ı v´yznam informace, pˇrev´aˇznˇe kv˚uli vytrˇzen´ı vˇety z jej´ıho kontextu. Napˇr´ıklad ve vˇetˇe se nach´azej´ıc´ı z´ajmeno on m˚uˇze po extrakci vˇety do v´ysledn´eho extraktu poukazovat na jin´eho muˇze neˇz v p˚uvodn´ım textu. Pomoc´ı vˇet v extraktu lze ovˇsem jednoduˇse odkazovat do p˚uvodn´ıho dokumentu pˇr´ımo na vˇetu a odstavec, kde se nach´azej´ı. Toto

(13)

vˇety. D´ıky extrahov´an´ı vˇety z p˚uvodn´ıho textu tak´e odpad´a cel´y proces umˇel´eho vytvoˇren´ı nov´e vˇety.

2.2 Clenˇ ˇ en´ı dle ´ urovnˇ e anal´ yzy dokumentu

Dalˇs´ım velmi d˚uleˇzit´ym rozdˇelen´ım je rozdˇelen´ı podle ´urovnˇe anal´yzy p˚uvodn´ıho textu. Takto se dˇel´ı sumarizace na sumarizace s povrchn´ım pˇr´ıstupem a na sumarizace s hlubˇs´ımi pˇr´ıstupy k sumarizovan´ym informac´ım.

Metody vyuˇz´ıvaj´ıc´ı povrchn´ı pˇr´ıstupy k sumarizaci jsou metody vyuˇz´ıvaj´ıc´ı zjevn´e jevy v sumarizovan´em textu. Pˇr´ıkladem tˇechto jev˚u je napˇr´ıklad frekvence v´yskytu term˚u, specifick´e termy pro urˇcitou dom´enu, slova zvyˇsuj´ıc´ı v´yznam term˚u vˇety nebo poziˇcnˇe v´yznamn´e termy. Povrchn´ı metody jsou vyuˇz´ıv´any jen k vytv´aˇren´ı extraktu, jelikoˇz nedok´aˇz´ı urˇcit vztahy mezi termy dokumentu, ale jen jejich v´yznamnost v r´amci vˇety a celku. Tyto metody lze tak´e velmi dobˇre vyuˇz´ıt pro sumarizaci na dotaz. Povrchn´ı pˇr´ıstup k sumarizaci vyuˇz´ıvaj´ı napˇr´ıklad heuristick´e a statistick´e metody sumarizace.

Hlubˇs´ı pˇr´ıstupy k sumarizaci dok´aˇz´ı urˇcit vztahy mezi termy, jejich d˚uleˇzitost a v´yznam. Proto je lze vyuˇz´ıt nejen pro vytv´aˇren´ı extraktu, ale i abstraktu. Metody s hlubˇs´ımi pˇr´ıstupy vyuˇz´ıvaj´ı lingvistick´ych znalost´ı o textu, text analyzuj´ı a na z´akladˇe toho text hodnot´ı. Pˇr´ıkladem takov´eto metody je metoda vyuˇz´ıvaj´ıc´ı teorie r´etorick´ych struktur, kter´a vytv´aˇr´ı RS-strom, kter´y zachycuje vztahy mezi jednotliv´ymi ˇc´astmi textu.

RST metodu implementuje napˇr´ıklad syst´em popsan´y v [17]. Dalˇs´ımi metodami jsou napˇr´ıklad grafov´e metody, kter´e zkoumaj´ı relace podobnosti vˇet, nebo latentn´ı s´emantick´a anal´yza, kter´a problematiku sumarizace pˇrev´ad´ı na algebraickou ´ulohu dekompozice matic.

2.3 Clenˇ ˇ en´ı dle potˇ reb uˇ zivatel˚ u

Sumarizace lze tak´e rozdˇelit podle potˇreb a zamˇeˇren´ı uˇzivatel˚u. Uˇzivatel´e ˇcasto potˇrebuj´ı, aby souhrny byly generov´any dle jejich zamˇeˇren´ı nebo dle jejich dotazu.

Sumarizace lze podle tohoto rozdˇelit na sumarizace obecn´e, na dotaz nebo dom´enov´e.

Obecn´e sumarizace nevyuˇz´ıvaj´ı ˇz´adn´ych poˇzadavk˚u uˇzivatele na sumarizaci. Uˇzivatel tyto sumarizace nijak nepˇrizp˚usobuje pro sv´e potˇreby a pro vˇsechny uˇzivatele m´a tento typ sumarizace stejn´y v´ysledek. Opakem jsou sumarizace na dotaz. Od tˇechto sumarizac´ı oˇcek´av´a ˇclovˇek souhrn, kter´y bude obsahovat konkr´etn´ı hledan´e informace. Pˇr´ıkladem takov´eto sumarizace je souhrn generovan´y vyhled´avac´ı sluˇzbou firmy Google. Souhrn webov´e str´anky, uveden´y pod odkazem na ni, zobrazuje vyhled´avanou informaci uvnitˇr

(14)

str´anky spolu s jej´ım bezprostˇredn´ım okol´ım. Tento vygenerovan´y souhrn z´avis´ı pˇr´ımo na dotazu, kter´y uˇzivatel zadal. Tˇret´ım typem uˇzivatelsk´e sumarizace je vytv´aˇren´ı souhrnu na z´akladˇe definovan´e dom´eny, tedy oblasti, kter´a uˇzivatele zaj´ım´a. Pokud by ˇcl´anek obsahoval t´emata z oblasti politiky, ekonomie a potravin´aˇrstv´ı, pak by uˇzivatel, kter´y by si zvolil t´ema ekonomie, z´ıskal jin´y souhrn neˇz uˇzivatel, kter´eho zaj´ım´a v´ıce politika.

2.4 Clenˇ ˇ en´ı dle rozsahu souhrnu

D˚uleˇzit´y parametr souhrnu je jeho rozsah. Pokud se chce uˇzivatel informovat o problematice ˇcl´anku, potˇrebuje souhrn s vˇetˇs´ım rozsahem, neˇz pokud ho zaj´ım´a jen t´ema ˇcl´anku, pak je velk´y rozsah souhrnu zbyteˇcn´y. Podle tohoto krit´eria je moˇzno rozdˇelit souhrny na indikativn´ı, informativn´ı a hodnot´ıc´ı. Toto rozdˇelen´ı je zaloˇzeno na kompresn´ım pomˇeru sumarizace a bylo poprv´e pouˇzito v pr´aci [4]. V´ypoˇcet kompresn´ıho pomˇeru (ang.

compression ratio) je vyj´adˇren jako pod´ıl d´elky souhrnu ku d´elce p˚uvodn´ıho dokumentu.

Hodnot´ıc´ı souhrny jsou souhrny, kter´e poˇc´ıtaˇc nedok´aˇze vygenerovat. Jedn´a se napˇr´ıklad o recenze, preview a kritiky. Tyto souhrny maj´ı velmi velk´y rozsah a jsou vytv´aˇreny lidmi, jenˇz maj´ı odborn´e znalosti z oblasti, kterou se p˚uvodn´ı dokument zab´yv´a.

T´ımto se do hodnot´ıc´ı sumarizace, mimo dˇeje knihy nebo problematiky vˇedeck´eho ˇcl´anku, dostanou i zkuˇsenosti, n´azory a znalosti tv˚urce souhrnu. V podstatˇe m˚uˇzeme ˇr´ıci, ˇze vznikl

´

uplnˇe nov´y dokument o jin´em dokumentu.

Souhrny, jenˇz maj´ı uˇzivatele informovat, zda dokument ˇc´ıst ˇci ne, jsou oznaˇcov´any jako indikativn´ı. Jsou to souhrny pˇrin´aˇsej´ıc´ı uˇzivateli nezbytn´e minimum informac´ı, podle kter´eho se rozhoduje, jestli si pˇreˇcte cel´y dokument a jestli je jeho t´ema pro nˇej d˚uleˇzit´e.

Tyto souhrny maj´ı rozsah maxim´alnˇe do 10 % rozsahu p˚uvodn´ıho textu dokumentu.

Pˇr´ıkladem takov´eto sumarizace jsou napˇr´ıklad jiˇz zm´ınˇen´e headlines, kter´e n´as informuj´ı o t´ematu zpr´avy, ale nesezn´am´ı n´as s jej´ımi detaily.

Detailnˇejˇs´ı informace o dokumentu poskytuje souhrn informativn´ı. Informativn´ı souhrny maj´ı rozsah od 20 % do 30 % p˚uvodn´ıho textu. Takov´yto rozsah uˇz dostaˇcuje k pln´emu porozumˇen´ı problematiky, o kter´e dokument pojedn´av´a a uˇzivatel by mˇel po pˇreˇcten´ı informativn´ıho souhrnu rozumˇet problematice dokumentu stejnˇe, jako kdyby si pˇreˇcetl cel´y dokument.

(15)

2.5 Multidokumentov´ a, aktualizaˇ cn´ı a ASR sumarizace

Dalˇs´ım zaj´ımav´ym typem sumarizace je vytv´aˇren´ı aktualizaˇcn´ıho souhrnu. Pˇri vytv´aˇren´ı aktualizaˇcn´ıho souhrnu je definov´ana mnoˇzina znalost´ı uˇzivatele (napˇr´ıklad seznamem pˇreˇcten´ych dokument˚u) a souhrn je vytv´aˇren tak, aby mnoˇzina informac´ı v souhrnu neobsahovala uˇzivateli jiˇz zn´am´e informace. M˚uˇzeme tedy ˇr´ıci, ˇze klasick´a textov´a sumarizace je aktualizaˇcn´ı sumarizace pro pr´azdnou mnoˇzinu znalost´ı.

Probl´emy pˇrehlcen´ı informacemi vznikaj´ıc´ımi ve svˇetˇe internetu ˇreˇs´ı multidokumentov´a sumarizace. Tato sumarizaˇcn´ı discipl´ına zjednoduˇsuje uˇzivatel˚um pr´aci vytv´aˇren´ım souhrn˚u z v´ıce ˇcl´ank˚u do jednoho souhrnu. Pˇri inicializaci procesu sumarizace je z dokument˚u urˇcen´ych k sumarizaci vytvoˇren velk´y korpus. Z tohoto korpusu jsou n´aslednˇe vyb´ır´any informace tak, aby kaˇzd´a novˇe vybran´a informace neobsahovala jiˇz dˇr´ıve vybran´e informace. Multidokumentov´a sumarizace je velmi podobn´a aktualizaˇcn´ı sumarizaci, jen mnoˇzina jiˇz zn´am´ych informac´ı je rozˇsiˇrov´ana s kaˇzdou novou vybranou vˇetou. N´asleduj´ıc´ı vzorec (1) popisuje v´ypoˇcet podobnosti dvou vˇet.

sim( ~nk, ~na) = n~k. ~na

| ~nk| | ~na| (1)

Vektory na a nk pˇredstavuj´ı ohodnocen´ı term˚u vˇet z mnoˇziny jiˇz vybran´ych vˇet a vˇet, kter´e maj´ı b´yt jeˇstˇe sumarizov´any. Postupnˇe jsou poˇc´ıt´any podobnosti vˇet a vˇeta, obsahuj´ıc´ı nejm´enˇe informac´ı z mnoˇziny jiˇz sumarizovan´ych vˇet, je do korpusu pˇrid´ana.

Dnes je moˇzn´e se setkat jeˇstˇe s jinou podobou multidokumentov´e sumarizace. Na mnoˇzinˇe dokument˚u je vypoˇc´ıtan´e sk´ore pro kaˇzd´y dokument a nakonec jsou vybr´any dokumenty, kter´e pˇrinesou uˇzivateli nejv´ıce neopakuj´ıc´ıch se informac´ı a uˇzivateli jsou nakonec zobrazeny jen dokumenty s nejvˇetˇs´ı informaˇcn´ı hodnotou a neopakuj´ıc´ımi se t´ematy.

Velmi zaj´ımavou oblast´ı sumarizace je ASR1 sumarizace. Tedy sumarizace v´ysledk˚u syst´emu pro automatick´e rozpozn´av´an´ı ˇreˇci. Tento typ sumarizace m´a velmi ˇsirok´e vyuˇzit´ı.

Pomoc´ı n´ı lze prov´est zjednoduˇsen´ı dlouh´ych projev˚u, z´ıskat t´emata konferenc´ı nebo z diskuzn´ıch poˇrad˚u vytˇeˇzit informace o prob´ıran´em t´ematu.

Proces ASR sumarizace je ovˇsem zt´ıˇzen o problematiku automatick´eho rozpozn´av´an´ı ˇreˇci a vˇsech probl´em˚u s n´ı spojenou. Jedn´a se hlavnˇe o chyby rozpozn´an´ı slov.

Kv˚uli vlivu ASR syst´emu byla pro mˇeˇren´ı v´ysledk˚u navrˇzena nov´a evaluaˇcn´ı metoda tzv. SumACCY[24]. Z mnoˇziny referenˇcn´ıch sumarizac´ı je vybr´ana sumarizace, kter´a se

1Automatic Speech Recognition

(16)

nejv´ıce podob´a sumarizaci vytvoˇren´e syst´emem a je vypoˇc´ıt´ana podobnost tˇechto dvou sumarizac´ı.

Proces ASR sumarizace tak´e komplikuje tzv. ”Cocktail Party Effect”, tedy situace, kdy mluv´ı nˇekolik mluvˇc´ıch najednou, kter´a nast´av´a napˇr´ıklad v diskuzn´ıch poˇradech.

Tento a podobn´e probl´emy je ovˇsem tˇreba ˇreˇsit jiˇz pˇred zaˇc´atkem samotn´eho procesu ASR sumarizace a sumarizaˇcn´ı syst´em na tyto jevy, kter´e se bˇeˇznˇe pˇri komunikaci lid´ı objevuj´ı, adaptovat.

Obr´azek 1: Sch´ema ASR sumarizaˇcn´ıho syst´emu [6]

.

(17)

3 Metody sumarizace textu

Jiˇz s poˇc´atkem digitalizace textu vznikly prvn´ı sumarizaˇcn´ı algoritmy. V t´eto kapitole jsou uvedeny nˇekter´e v´yznamn´e sumarizaˇcn´ı algoritmy, hlavnˇe algoritmy statistick´e sumarizace, na kter´e je tato pr´ace zamˇeˇrena. Pops´any jsou prvn´ı sumarizaˇcn´ı metody, kter´e byly optimalizovan´e na hardwarovou nen´aroˇcnost, ale i modern´ı metody, kter´e jiˇz nejsou omezeny hardwarov´ymi parametry syst´emu a vyuˇz´ıvaj´ı hlubˇs´ıch anal´yz textu dokumentu.

3.1 Heuristick´ e metody

Heuristick´e metody jsou jedny z prvn´ıch metod, kter´e byly navrˇzeny. Jeden z prvn´ıch algoritm˚u byl zveˇrejnˇen v pr´aci H. P. Luhna [13] v roce 1958. Algoritmus je zaloˇzen na myˇslence, ˇze nejˇcastˇeji opakuj´ıc´ı se termy v textu jsou nejv´yznamnˇejˇs´ı a na z´akladˇe jejich ˇ

cetnosti lze vytv´aˇret extrakt. Algoritmus nejdˇr´ıve v jednotliv´ych vˇet´ach nalezne termy a jejich ˇcetnost a n´aslednˇe vˇety ohodnot´ı podle ˇcetnosti jejich term˚u. Vˇety s nejvˇetˇs´ım sk´ore jsou zahrnuty do souhrnu. Tuto metodu ovˇsem m´ırnˇe komplikuje fakt, ˇze nejˇcastˇeji vyskytuj´ıc´ı se slova v jazyce nejsou pro v´yznam vˇety d˚uleˇzit´a. Z tohoto d˚uvodu je vytvoˇren seznam nejˇcastˇeji vyskytuj´ıc´ıch se slov v jazyce a slova, kter´a obsahuje, jsou z vˇet odstranˇena.

Tato metoda ovˇsem ˇspatnˇe detekovala oˇcividnˇe v´yznamn´e vˇety. Vˇety, kter´e obsahuj´ı termy z nadpisu nebo termy zvyˇsuj´ıc´ı v´yznam vˇety (v´yznamn´y, d˚uleˇzit´y, v´ysledek,...) by mˇely b´yt obsaˇzeny v souhrnu s vˇetˇs´ı pravdˇepodobnost´ı neˇz ostatn´ı vˇety. Kombinace tˇechto znalost´ı a v´ypoˇctu ˇcetnosti term˚u vytvoˇrila prvn´ı kvalitn´ı metodu automatick´e sumarizace, kter´e mohla b´yt realizov´ana i na tehdejˇs´ım hardwaru.

3.2 Statistick´ e metody

Metody ˇreˇs´ıc´ı nedostatky heuristick´ych metod jsou metody statistick´e. Tyto metody zavedly do anal´yzy textu natr´enovan´e znalosti o textech, termech a jejich souhrnech.

Z hlediska jejich principu existuj´ı hlavnˇe dva pˇr´ıstupy. Luhn˚uv sumariz´ator realizoval jeden pˇr´ıstup ke statistick´ym metod´am a druh´y funguje na z´akladˇe Bayesovsk´eho teor´emu. Obˇe tyto metody vyˇzaduj´ı natr´enov´an´ı korpusu, podle kter´eho budou vˇety sumarizovan´eho dokumentu hodnoceny.

(18)

3.2.1 Luhn˚uv sumariz´ator

Luhn˚uv sumariz´ator funguje na z´akladˇe v´ypoˇctu frekvence termu v dokumentu a jeho inverzn´ı dokumentov´e frekvence v korpusu dokument˚u dan´eho jazyka. V´ypoˇcet sk´ore termu je realizov´an jako souˇcin tˇechto hodnot.

Score(t, d) = tf (t, d) ∗ idf (t, D) = tf (t, d) ∗ log |D|

|{d ∈ D : t ∈ d}| (2) Vzorec (2) vyjadˇruje v´ypoˇcet sk´ore termu t v dokumentu d, jehoˇz inverzn´ı dokumentov´a frekvence byla natr´enov´ana na korpusu D. Sk´ore termu je tedy vypoˇc´ıt´ano jako v´yznamnost termu v dokumentu, v´aˇzena pˇres jeho natr´enovanou inverzn´ı dokumentovou frekvenci. V ˇc´ım vˇetˇs´ım poˇctu dokument˚u se term nach´azel, t´ım menˇs´ı je jeho inverzn´ı dokumentov´a frekvence a t´ım m´a menˇs´ı v´yznam pro sumarizovan´y dokument.

V´ysledn´e sk´ore vˇety je pak vypoˇc´ıt´ano jako souˇcet vˇsech term˚u vˇety [16]. Vˇetu z dokumentu d reprezentuje vektor term˚u q a v´ypoˇcet sk´ore t´eto vˇety je d´an vzorcem (3).

Score(q, d) =X

t∈q

tf (t, d) ∗ idf (t, D) (3)

Prostup pˇri vytv´aˇren´ı souhrnu pomoc´ı Luhnovy sumarizace lze vyj´adˇrit n´ıˇze uveden´ym algoritmem.

1. Naˇcti idf slovn´ık.

2. Vypoˇcti frekvenci pro vˇsechny termy dokumentu.

3. Pro vˇsechny vˇety dokumentu d vypoˇcti jejich sk´ore.

4. Do souhrnu zaˇrad’ vˇety s nejvˇetˇs´ım sk´ore.

Tento algoritmus v´ybornˇe extrahoval nejv´yznamnˇejˇs´ı t´ema dokumentu, ovˇsem vedlejˇs´ı t´emata byla zanedb´ana a do souhrnu se nedostala. Proto byl algoritmus rozˇs´ıˇren.

Extrahovan´ym term˚um v prvn´ı vˇetˇe byla nastavena jejich frekvence na nulu a pro v´ybˇer dalˇs´ı vˇety bylo pˇrepoˇc´ıt´ano sk´ore vˇsech vˇet. T´ımto se zamezilo opakovan´emu v´ybˇeru vˇety, ve kter´e mˇelo nejvˇetˇs´ı vliv sk´ore jiˇz vybran´y term˚u a jiˇz vybran´e vˇety mˇeli sk´ore nulov´e, jelikoˇz vˇsechny jejich termy mˇeli nulov´e sk´ore. Modifikovan´y algoritmus funguje takto:

1. Naˇcti idf slovn´ık.

(19)

3. Pro vˇsechny vˇety dokumentu d vypoˇcti jej´ı sk´ore.

4. Do souhrnu zaˇrad’ vˇetu s nejvˇetˇs´ım sk´ore.

5. Sk´ore pouˇzit´ych term˚u nastav na nulu.

6. Pokud jeˇstˇe nen´ı vybr´ano poˇzadovan´e mnoˇzstv´ı vˇet pokraˇcuj bodem 3.

Takto navrˇzen´y sumarizaˇcn´ı algoritmus extrahoval vˇety na z´akladˇe povrchn´ıch znalost´ı o dokumentu a jeho hardwarov´e n´aroky nebyly nijak pˇrehnan´e.

3.2.2 Naivn´ı Bayes˚uv klasifik´ator

Zcela odliˇsn´y pˇr´ıstup ke statistick´e sumarizaci je vyuˇzit´ı Bayesovsk´eho teor´emu [11].

Metoda vyuˇz´ıvaj´ıc´ı tento teor´em vyˇzaduje tr´enovac´ı korpus dvojic text-souhrn. Na tomto korpusu jsou spoˇcteny pˇr´ıznaky vˇet, podle kter´ych jsou vˇety klasifikov´any. Pˇr´ıznakem mohou b´yt napˇr´ıklad frekvenˇcnˇe v´yznamn´e termy, d´elka vˇety a jin´e d˚uleˇzit´e jevy.

Na korpusu jsou n´aslednˇe vypoˇc´ıt´any pravdˇepodobnosti zaˇrazen´ı vˇet ˇcl´ank˚u z korpusu do souhrn˚u. Takto pˇripraven´y korpus lze vyuˇz´ıt k urˇcen´ı sk´ore ”vˇeta do souhrnu patˇr´ı/nepatˇr´ı”a klasifikovat podle nˇej vˇety sumarizovan´eho dokumentu.

Nˇekter´e z v´yˇse uveden´ych pˇr´ıznak˚u mohou b´yt na sobˇe z´avisl´e, ovˇsem pro potˇreby v´ypoˇctu pravdˇepodobnosti zaˇrazen´ı vˇety do souhrnu je toto zanedb´ano a pˇredpokl´ad´a se, ˇze jsou jednotliv´e pˇr´ıznaky nez´avisl´e [9]. D´ıky tomu m˚uˇze b´yt pouˇzit vzorec (4) pro Bayes˚uv klasifik´ator, proto je metoda oznaˇcov´ana jako naivn´ı Bayes˚uv klasifik´ator.

P (h|q) = P (q|h) ∗ P (h)

P (q) (4)

Vektor q oznaˇcuje vektor pˇr´ıznak˚u vˇety. P (h|q) vyjadˇruje sk´ore vˇety pˇri v´ypoˇctu zaˇrazen´ı vˇety do souhrnu. Pravdˇepodobnost P (q) je pravdˇepodobnost v´yskytu vˇety v korpusu text-souhrn, P (h) je pomˇer poˇctu vˇet v souhrnech k poˇctu vˇsech vˇet korpusu.

Pravdˇepodobnost P (q|h) vyjadˇruje pravdˇepodobnost, ˇze vˇeta q je zaˇrazena do souhrnu v tr´enovac´ım korpusu.

Jelikoˇz je vˇeta q vyj´adˇrena vektorem pˇr´ıznak˚u, mˇel by b´yt Bayesovsk´y vzorec (4) upraven na tvar pro jednotliv´e prvky vektoru q.

P (h|q1, q2, ..gn) =

n

Q

i=1

P (qi|h) ∗ P (h)

n

Q

i=1

P (qi)

(5)

(20)

Jelikoˇz je hodnota pravdˇepodobnosti velmi mal´a, nedoporuˇcuje se nech´avat vzorec v tomto tvaru, jelikoˇz by mohlo doj´ıt k podteˇcen´ı datov´eho typu, ale doporuˇcuje se hodnocen´ı vektoru vˇety prov´adˇet podle zlogaritmovan´eho vzorce (6), kter´y riziko podteˇcen´ı eliminuje. Nav´ıc m˚uˇzeme odstranit pravdˇepodobnost P (qi), kter´a vzorec nijak neovlivn´ı, protoˇze je jej´ı hodnota vˇzdy konstantn´ı. Stejnˇe tak je moˇzn´e vynechat hodnotu pravdˇepodobnosti P (h), kter´a vyjadˇruje kompresn´ı pomˇer [11].

P (h|q1, q2, ..gn) =

n

X

i=1

logP (qi|h) (6)

Pro kaˇzdou vˇetu ze sumarizovan´eho dokumentu jsou vypoˇc´ıt´any pravdˇepodobnosti podle vzorce (6) a vˇety, kter´e dos´ahnou nejvyˇsˇs´ı pravdˇepodobnosti zaˇrazen´ı do souhrnu, jsou do nˇej vybr´any v poˇrad´ı podle nejvyˇsˇs´ı dosaˇzen´e pravdˇepodobnosti.

3.3 Modern´ı pˇ r´ıstupy

Modern´ı pˇr´ıstupy k sumarizaci jiˇz nejsou omezeny v´ykonem hardwaru, tak jako heuristick´e nebo statistick´e metody. D´ıky tomu lze vyuˇz´ıt hlubˇs´ı znalosti o dokumentu.

V roce 1998 byl prezentov´an v pr´aci [17] sumarizaˇcn´ı syst´em vyuˇz´ıvaj´ıc´ı k sumarizaci teorii r´etorick´ych struktur. D´ale byly vyuˇzity znalosti, jako jsou napˇr´ıklad vz´ajemn´e vazby term˚u, kontext slov a jin´e lingvistick´e znalosti, jejichˇz v´ypoˇcet nemohl b´yt dˇr´ıve realizov´an. Tyto znalosti jsou vyuˇzity k vytv´aˇren´ı souhrn˚u, kter´e jiˇz dok´aˇz´ı l´epe vystihnout informace obsaˇzen´e v dokumentu. Mezi tyto metody patˇr´ı napˇr´ıklad grafov´e metody, metoda r´etorick´ych struktur nebo latentn´ı s´emantick´a anal´yza.

3.3.1 Teorie r´etorick´ych struktur

Teorie r´etorick´ych struktur zkoum´a skladbu ˇreˇcov´eho projevu a prostˇrednictv´ım r´etorick´ych relac´ı zachycuje vazby mezi ˇc´astmi textu. V pr´aci [17] je pops´an sumariz´ator, kter´y z jednotliv´ych ˇc´ast´ı textu a vztah˚u mezi nimi vytv´aˇr´ı bin´arn´ı strom oznaˇcovan´y jako RS-strom.

Vztah˚u, kter´e jsou nˇekdy oznaˇcov´any jako role, je pouˇz´ıv´ano celkem 23, viz. [15].

Vztahy mohou b´yt napˇr´ıklad podm´ınka, vysvˇetlen´ı, rozˇs´ıˇren´ı, v´ysledek, z´aklad, atd.. Podle tˇechto vztah˚u mohou uzly nab´yt stavu: nukleus, satelit, kombinace nukle˚u a satelit˚u a text zv´yrazˇnuj´ıc´ı jin´e ˇc´asti. Za nukleus je povaˇzov´ana ˇc´ast textu obsahuj´ıc´ı nejpodstatnˇejˇs´ı ´udaje

(21)

Status=nukleus Type=evidence Promotion=1

Status=nukleus Type=leaf Promotion=1

Status=satelite Type=leaf Promotion=2

Obr´azek 2: Uk´azka ohodnocen´ı uzl˚u [2]

jsou ohodnocov´any podle jejich r´etorick´e role. Na obr´azku 2 je vidˇet rozdˇelen´ı nukleu na dalˇs´ı nukleus a satelit. Typ uzlu znaˇc´ı jeho r´etorickou relaci k vyˇsˇs´ımu celku. Promotion znaˇc´ı s kolika dalˇs´ımi uzly tvoˇr´ı dan´y uzel nukleus.

Strom vygenerovan´y r´etorick´ym analyz´atorem je vyuˇzit k urˇcen´ı v´yznamu ˇc´ast´ı textu pro celek. Do souhrnu jsou vyb´ır´any ˇc´asti textu, kter´e se um´ıst´ı nejbl´ıˇze koˇrenu stromu. ˇC´ım rozs´ahlejˇs´ı je poˇzadovan´y souhrn, t´ım v´ıce vzd´alenˇejˇs´ı uzly stromu jsou vyb´ır´any.

3.3.2 Grafov´e metody

Velmi zaj´ımavou metodou jsou tak´e metody grafov´e. Tyto metody vyuˇz´ıvaj´ı pro vytv´aˇren´ı souhrn˚u algoritmy vyuˇz´ıvan´e vyhled´avac´ımi sluˇzbami pro hodnocen´ı struktury webu. Napˇr´ıklad algoritmus PageRank vyuˇz´ıv´a Google pro hodnocen´ı d˚uleˇzitosti webov´ych str´anek. Z tohoto algoritmu vznikl algoritmus TextRank, vyuˇz´ıvan´y pro sumarizaci.

Algoritmus PageRank hodnot´ı vrcholy orientovan´eho grafu G=(V,E) podle stupnˇe sousedn´ıch uzl˚u iteraˇcn´ım v´ypoˇctem PR (PageRank).

P R(Vi) = 1 − d

N + d ∗ X

Vj∈In(Vi)

P R(Vj

|Out(Vj)| (7)

Vzorec (7) vysvˇetluje tento v´ypoˇcet. V prvn´ı iteraci jsou nastaveny hodnoty PR pro vˇsechny uzly na 1 a bˇehem nˇekolika iterac´ı je vypoˇc´ıt´ano v´ysledn´e PR. N je celkov´y poˇcet vrchol˚u grafu, d je faktor tlumen´ı nab´yvaj´ıc´ıch hodnot 0 aˇz 1 a pˇredstavuje pravdˇepodobnost pˇrechodu do sousedn´ıho vrcholu. P R(Vj) je PR sousedn´ıho vrcholu a Out(Vj) je v´ystupn´ı stupeˇn tohoto vrcholu.

Pˇri sumarizaci jsou jako vrcholy grafu povaˇzov´any jednotliv´e vˇety ˇcl´anku a ohodnocen´ı hrany grafu vyjadˇruje vazby mezi sousedn´ımi vˇetami. Algoritmus TextRank[18]

jiˇz nevyuˇz´ıv´a orientovan´e grafy a je moˇzn´e pˇrech´azet mezi sousedn´ımi vˇetami libovolnˇe.

Ohodnocen´ı vazby mezi vˇetami Vi a Vj je vyj´adˇreno v´ahou hrany wij. V´ypoˇcet PR pro

(22)

vˇety je prov´adˇen podle modifikovan´eho vzorce (8).

P R(Vi) = 1 − d

N + d ∗ X

Vj∈In(Vi)

wji

P R(Vj P

Vk∈Out(Vj)wjk (8)

Urˇcen´ı vazeb mezi vˇetami je provedeno pomoc´ı metrik hodnot´ıc´ı podobnost vˇet. Lze vyuˇz´ıt napˇr´ıklad kosinovou podobnost, pˇrekryt´ı kontextu a jin´e metriky, kter´e dok´aˇzou urˇcit podobnost vˇet. Napˇr´ıklad na Michigansk´e univerzitˇe vznikl sumariz´ator LexRank2 vyuˇz´ıvaj´ıc´ı kosinovou podobnost vˇet.

3.3.3 Latentn´ı s´emantick´a anal´yza

Latentn´ı s´emantick´a anal´yza pˇrev´ad´ı probl´em ohodnocen´ı vˇet dokumentu na algebraickou ´ulohu, kter´a dovoluje analyzovat vztahy mezi vˇetami a jejich termy bez nutnosti z´asahu ˇclovˇeka. Vyuˇzit´ı metody LSA pro sumarizaci navrhli Xin Liu a Yihong Gong ve sv´e pr´aci [25]. Inspirovali se latentn´ı s´emantick´ym indexov´an´ım vyuˇz´ıvan´ym pˇri vyhled´av´an´ı informac´ı ve velk´em datov´em korpusu na z´akladˇe dotazu uˇzivatele.

Sumarizace metodou latentn´ı s´emantick´e anal´yzy prob´ıh´a ve dvou kroc´ıch. Prvn´ım je sestaven´ı matice A = [A1, A2, ..., An], tedy mapov´an´ı term˚u dokumentu do jeho vˇet.

Kaˇzd´y sloupcov´y vektor Ai obsahuje vektor frekvence jednotliv´ych term˚u vˇety i-t´e vˇety.

Tato frekvence je v´aˇzena pˇres glob´aln´ı frekvenci termu. Moˇznosti jak v´aˇzit termy jsou uvedeny v [3]. Pokud m´a sumarizovan´y dokument m term˚u a n vˇet vznikne matice m × n.

Tato matice je v dalˇs´ım kroku rozloˇzena singul´arn´ı dekompozic´ı (SVD - singular value dekompozition) na souˇcin matic (9).

Dekompozice dok´aˇze zachytit mapov´an´ı t´emat do vˇet. Tyto vztahy jsou zachyceny v matici VT, kter´a popisuje mapov´an´ı term˚u t´emat dokumentu do jeho vˇet. Mapov´an´ı je zajiˇstˇeno dekompozic´ı, kter´a rozdˇeluje p˚uvodn´ı dokument do line´arnˇe nez´avisl´ych vektor˚u.

Tyto vektory vyjadˇruj´ı z´akladn´ı koncepty dokumentu a vˇety spoleˇcnˇe s termy jsou do prostoru tˇechto vektor˚u prom´ıt´any pomoc´ı SVD. Na z´akladˇe v´yskyt˚u term˚u dok´aˇze SVD tak´e detekovat podobn´e termy. Napˇr´ıklad termy l´ekaˇr a doktor, kter´e se velmi ˇ

casto vyskytuj´ı ve spoleˇcnosti term˚u nemocnice, medic´ına a nemoc, budou v prostoru prom´ıtnuty velmi bl´ızko u sebe. Takto jsou do vektorov´eho prostoru prom´ıtnuty vˇsechny termy dokumentu a je zjiˇstˇena d˚uleˇzitost hlavn´ıch t´emat dokumentu podle poˇctu a vzd´alenosti term˚u k tˇemto t´emat˚um. Vˇety dokumentu jsou pak ohodnoceny podle toho,

2<http://tangra.si.umich.edu/clair/lexrank>

(23)

jak jsou jejich termy bl´ızko tˇemto t´emat˚um.

Singul´arn´ı dekompozice

A = U ΣVT (9)

Matice U je sloupcovˇe ortonorm´aln´ı3 matice m × n, kter´a obsahuje lev´e singul´arn´ı vektory, matice Σ je ˇctvercov´a diagon´aln´ı matice n × n obsahuj´ıc´ı singul´arn´ı hodnoty v sestupn´em poˇrad´ı a ortonorm´aln´ı matice VT n × n obsahuje prav´e singul´arn´ı vektory.

Rozmˇery matice Σ jsou omezeny poˇctem vlastn´ıch ˇc´ısel matice ATA, kter´e jsou vyuˇzity k v´ypoˇctu singul´arn´ıch hodnot a sloupcov´ych vektor˚u matic U a VT [8]. Za pˇredpokladu, ˇ

ze vˇet je vˇzdy m´enˇe neˇz term˚u, kter´e vˇety obsahuj´ı, jsou rozmˇery matice Σn × n. Poˇcet vlastn´ıch ˇc´ısel matice ATA definuje i rozmˇery matice VT, kter´a je z nich vypoˇc´ıt´ana.

V´ypoˇctem Euklidovsk´e normy jednotliv´ych sloupcov´ych vektor˚u a v´ybˇerem vˇet s nejvˇetˇs´ı normou (velikost´ı) z´ısk´ame vˇety, kter´e maj´ı b´yt zaˇrazeny do souhrnu. Takto vybran´e vˇety jsou vybran´e podle toho, jak moc vˇeta zachycuje t´emata ˇcl´anku. Tyto vˇety ovˇsem nekoresponduj´ı s d˚uleˇzitost´ı t´emat ˇcl´anku. D˚uleˇzitost t´emat je obsaˇzena v matici Σ. Proto bylo navrˇzeno vylepˇsen´ı [22], kter´e bere v potaz i d˚uleˇzitost t´emat. Vylepˇsen´y v´ypoˇcet souhrnu je realizov´an pomoc´ı vzorce (10).

sr = v u u t

n

X

i=1

vri2 ∗ σi2 (10)

V´ysledkem je vektor s, kter´y obsahuje sk´ore jednotliv´ych vˇet a do souhrnu je vybr´ano potˇrebn´e mnoˇzstv´ı vˇet s nejvˇetˇs´ı hodnotou.

Pˇr´ıklad:

Ukol: Vyberte jednu vˇ´ etu, kter´a nejl´epe popisuje ˇcl´anek: ”The man walked the dog.

The man took the dog to the park. The dog went to the park.”Vˇety si oznaˇc´ıme a pˇrevedeme znaky na mal´e:

v1: the man walked the dog

v2: the man took the dog to the park v3: the dog went to the park

3Vektory matice jsou ortogon´aln´ı a normovan´e

(24)

Vˇety obsahuj´ı termy: the, man, walked, the, dog, took, to, park, went. Na z´akladˇe ˇcetnosti jejich v´yskytu vytvoˇr´ıme matici A. Pro zjednoduˇsen´ı jsou termy v´aˇzeny bin´arnˇe. Pokud vˇeta term obsahuje, je term n´asoben jedniˇckou, pokud ne, nulou.

A :

v1 v2 v3

the 2 3 2

man 1 1 0

walked 1 0 0

dog 1 1 1

took 0 1 0

to 0 1 1

park 0 1 1

went 0 0 1

Singul´arn´ım rozkladem matice A z´ısk´ame matice U , Σ a VT. Postup v´ypoˇctu SVD je pops´an v ˇcl´anku [8]. Matice U nen´ı pro v´ypoˇcet souhrnu potˇrebn´a,mann88b takˇze zde nen´ı uvedena.

Σ =

5.0325 0 0

0 1.5745 0

0 0 1.0930

VT =

−0.4572 0.7699 −0.4453

−0.7284 −0.0368 0.6842

−0.5103 −0.6372 −0.5776

Podle vzorce (10) je vypoˇc´ıt´an vektor s a vybr´ana vˇeta, kter´a nese nejv´ıce informac´ı z nejd˚uleˇzitˇejˇs´ıch t´emat dokumentu.

s = 2.6458 3.7417 2.8284

Jelikoˇz m´ame vybrat jen jednu vˇetu, najdeme nejvˇetˇs´ı hodnotu ve vektoru s a jej´ı index n´am ud´av´a kolik´at´a vˇeta je nejvhodnˇejˇs´ı pro zaˇrazen´ı do souhrnu. V´ysledn´ym souhrnem je tedy vˇeta: The man took the dog to the park.

Latentn´ı s´emantickou anal´yzu je moˇzn´e vyuˇz´ıt i pro multidokumentovou sumarizaci.

Pˇri prov´adˇen´ı multidokumentov´e sumarizace je nutn´e zabr´anit v´ybˇeru stejn´ych vˇet z r˚uzn´ych dokument˚u. K tomu je moˇzn´e vyuˇz´ıt napˇr´ıklad hodnoty kosinu ´uhlu, kter´e sv´ır´a vˇeta vybran´a do souhrnu s vˇetami souhrnu. Pokud nejmenˇs´ı hodnota je vˇetˇs´ı neˇz experimenty urˇcen´y pr´ah, je moˇzn´e vˇetu zaˇradit do souhrnu. Aby nebyly vyb´ır´any vˇety

(25)

velmi podobn´e jiˇz vˇet´am v souhrnu je aplikov´an algoritmus Iterative Residual Rescaling [1], kter´y omez´ı vliv jiˇz vybran´ych t´emat na v´ybˇer nov´ych (uprav´ı velikost jejich vektor˚u).

(26)

4 Hodnocen´ı sumarizac´ı

Hodnocen´ı nebo-li evaluace sumarizac´ı je d˚uleˇzitou ˇc´ast´ı v´yvoje sumarizaˇcn´ıho syst´emu. Hodnocen´ı se prov´ad´ı pomoc´ı souhrn˚u, kter´e metody generuj´ı. Metody vyhodnocen´ı v´ysledn´ych souhrn˚u je moˇzn´e rozdˇelit do dvou z´akladn´ıch skupin, a to na metody pˇr´ım´e a nepˇr´ım´e [21].

Obr´azek 3: Dˇelen´ı metod hodnocen´ı souhrn˚u [21].

4.1 Pˇ r´ım´ e metody

Pˇr´ım´e metody vyhodnocuj´ı text souhrnu tak, jak je naps´an. Nevyhled´avaj´ı v nˇem kontext slov ani jejich v´yznam, ale hodnot´ı ho podle podobnosti s referenˇcn´ımi souhrny nebo podle anal´yzy zkuˇsen´ych lingvist˚u.

4.1.1 Kvalita souhrnu

Metody hodnot´ıc´ı kvalitu textu jsou zamˇeˇreny hlavnˇe na gramatickou spr´avnost textu, redundantnost a srozumitelnost v´ysledn´eho souhrnu. Je d˚uleˇzit´e, aby text souhrnu neobsahoval opakuj´ıc´ı se t´emata a vˇety vyjadˇruj´ıc´ı stejn´e informace. Srozumitelnost souhrnu ovlivˇnuj´ı hlavnˇe reference extrahovan´e z textu. Hlavnˇe extrakce z´ajmen zvyˇsuje riziko, ˇze bude toto z´ajmeno pochopeno ve ˇspatn´em kontextu a vˇeta v souhrnu bude m´ıt jin´y smysl neˇz v textu. Pokud pro n´as nen´ı d˚uleˇzit´a vysok´a rychlost, je moˇzn´e prov´est anal´yzu textu a reference se pokusit nahradit jejich skuteˇcn´ym smyslem. Tato substituce je v podstatˇe jedin´ym faktorem sumarizace, kter´y m˚uˇze ovlivnit gramatickou spr´avnost extrahovan´eho souhrnu, pokud nebereme v potaz chyby autor˚u textu. Vˇsechny tyto metody

(27)

4.1.2 Ko-selekce

Ko-selekˇcn´ı metody vypoˇc´ıt´avaj´ı na vznikl´em souhrnu hodnoty urˇcuj´ıc´ı m´ıru ko-selekce. Nejv´yznamnˇejˇs´ımi jsou pˇresnost P (precision), ´uplnost R (recall), ´uspˇeˇsnost A (accuracy) a f-sk´ore F. Pro v´ypoˇcet tˇechto hodnot je nutn´e vytvoˇrit ide´aln´ı (referenˇcn´ı) souhrny. Tyto souhrny vytv´aˇr´ı anot´atoˇri na mnoˇzinˇe ˇcl´ank˚u, ze kter´ych jsou vytvoˇreny i souhrny automatick´e. Pˇresnost je vypoˇc´ıt´ana jako poˇcet vˇet vybran´ych syst´emem a anot´atory z´aroveˇn dˇelen poˇctem vˇet vybran´ych syst´emem. ´Uplnost je definov´ana jako poˇcet vˇet vybran´ych syst´emem a anot´atory z´aroveˇn dˇelen poˇctem vˇet vybran´ych anot´atory.

Uspˇ´ eˇsnost je jako pomˇer souˇctu vˇet vybran´ych syst´emem i anot´atory z´aroveˇn a vˇet nevybran´ych syst´emem ani anot´atory k souˇctu vˇsech moˇznost´ı v´ybˇeru [5]. Zjednoduˇsen´ı z´apisu vzorc˚u je provedeno pomoc´ı kategorizace moˇzn´ych v´ysledk˚u porovn´an´ı souhrn˚u, viz.

tabulka 1.

vybr´ano anot´atory nevybr´ano anot´atory

vybr´ano syst´emem TP FN

nevybr´ano syst´emem FP TN

Tabulka 1: Tabulka moˇzn´ych v´ysledk˚u porovn´an´ı vˇet anot´atorsk´ych a syst´emov´ych souhrn˚u.

Vzorce pro v´ypoˇcet pˇresnosti, ´uplnosti a ´uspˇeˇsnosti:

P = T P

T P + F P R = T P

T P + F N A = T P + T N

T P + T N + F P + F N (11) Z hodnot pˇresnosti a ´uplnosti je vypoˇc´ıt´ano f-sk´ore. Jeho hodnota je definov´ana jako harmonick´y pr˚umˇer hodnot ´uplnosti a pˇresnosti.

F = 2RP

R + P (12)

Pokud chceme pˇri v´ypoˇctu f-sk´ore upˇrednostnit ´uplnost nebo pˇresnost, vyuˇzijeme upraven´y vzorec pro v´ypoˇcet f-sk´ore.

F = (1 + β2)RP

β2P + R (13)

Promˇenn´a β ovlivˇnuje, jestli d´av´ame vˇetˇs´ı v´ahu pˇresnosti (β > 1), ´uplnosti (β < 1) nebo pokl´ad´ame obˇe hodnoty za stejnˇe v´yznamn´e (β = 1).

(28)

4.1.3 Z´akladn´ı m´ıry podobnosti

Nev´yhodou ko-selekˇcn´ıch metod je, ˇze pˇri v´ypoˇctu se orientuj´ı na cel´e vˇety souhrn˚u, takˇze dvˇe vˇety s velmi podobn´ym t´ematem zapsan´e odliˇsnˇe jsou ohodnoceny velmi n´ızk´ym hodnocen´ım. Tyto probl´emy ˇreˇs´ı metody zkoumaj´ıc´ı m´ıru podobnosti vˇet.

Metody nepracuj´ı s vˇetami souhrn˚u jako s celkem, ale vyuˇz´ıvaj´ı slov ve vˇetˇe pro potˇreby hodnocen´ı sumarizaˇcn´ıch syst´em˚u. Stejnˇe jako u ko-selekˇcn´ıch metod i metody v´ypoˇctu m´ıry podobnosti vyuˇz´ıvaj´ı referenˇcn´ı souhrny vytvoˇren´e anot´atory. Z´akladn´ımi hodnot´ıc´ımi technikami jsou kosinov´a podobnost, pˇrekr´yv´an´ı obsahu a nejdelˇs´ı spoleˇcn´a subsekvence [21].

Vektory X a Y jsou vektory vˇet obsahuj´ıc´ı slova ze souhrnu anot´atorsk´eho (xi) a souhrnu vytvoˇren´eho syst´emem (yi).

Kosinov´a podobnost:

cos(X, Y ) =

P

ixi∗ yi pP

i(xi)2∗pP

i(yi)2 (14)

Kosinov´a podobnost vyjadˇruje vzd´alenost mezi dvˇema vektory. ˇC´ım vˇetˇs´ı je kosinov´a podobnost, t´ım v´ıce si jsou vˇety podobn´e.

Pˇrekryt´ı obsahu:

overlap(X, Y ) = |X ∩ Y |

|X| + |Y | − |X ∩ Y | (15)

Pˇrekryt´ı obsahu (ang. unit overlap) vyjadˇruje, kolik maj´ı souhrny spoleˇcn´ych slov nebo l´emat.

Nejdelˇs´ı spoleˇcn´a subsekvence:

lcs(X, Y ) = velikost(X) + velikost(Y ) − ´upravydi(X, Y )

2 (16)

Velikost X a Y vyjadˇruje poˇcet prvk˚u tˇechto dvou ˇretˇezc˚u a ´upravydi(X, Y ) je poˇcet operac´ı vloˇzen´ı (insertion) a maz´an´ı (deletion) nutn´ych k ´upravˇe X na Y.

(29)

4.1.4 ROUGE

Pro automatick´e hodnocen´ı sumarizaˇcn´ıch syst´em˚u byl vytvoˇren program ROUGE (Recall-Oriented Understudy for Gisting Evaluation)[12]. ROUGE je vyuˇz´ıv´an na konferenc´ıch TAC (dˇr´ıve DUC) k hodnocen´ı sumarizaˇcn´ıch syst´em˚u. Program dovoluje prov´adˇet automatick´e hodnocen´ı souhrn˚u na z´akladˇe metrik m´ıry podobnosti. K tomuto potˇrebuje anot´atory vytvoˇren´e referenˇcn´ı souhrny, kter´e vyuˇz´ıv´a k v´ypoˇctu hodnot pˇresnosti a ´uplnosti. Tento program je dostupn´y ze st´anek projektu4.

Program ROUGE dok´aˇze hodnotit souhrny v nˇekolika reˇzimech. Z´akladn´ım reˇzimem vyhodnocov´an´ı souhrn˚u je ROUGE-N. ROUGE-N prov´ad´ı mˇeˇren´ı na principu v´ypoˇctu identick´ych n-gram˚u mezi souhrnem vygenerovan´ym syst´emem a sadou referenˇcn´ıch souhrn˚u. V´ypoˇcet sk´ore ROUGE-N mezi referenˇcn´ım a vygenerovan´ym souhrnem je prov´adˇen podle vzorce (17).

ROU GE − N = P

C∈RSS

P

gramn∈CP oˇcetsouhlas´i(gramn) P

C∈RSS

P

gramn∈CP oˇcet(gramn) (17) RSS je sada vˇet referenˇcn´ıho souhrnu, n znaˇc´ı d´elku n-gramu, P oˇcet(gramn) je poˇcet n-gram˚u v referenˇcn´ım souhrnu a P oˇcetsouhlas´i(gramn) je maxim´aln´ı poˇcet n-gram˚u, kter´e se vyskytuj´ı z´aroveˇn v referenˇcn´ım i hodnocen´em souhrnu. Pˇri re´aln´em mˇeˇren´ı sk´ore souhrnu je vyuˇzito v´ıce referenˇcn´ıch souhrn˚u.

ROU GE − Nmulti = argmaxiROU GE − N (ri, s) (18) C´ım v´ıce referenˇˇ cn´ıch souhrn˚u sd´ıl´ı stejn´y n-gram, t´ım vˇetˇs´ı sk´ore bude m´ıt vˇeta, kter´a ho obsahuje. Se vzr˚ustaj´ıc´ım poˇctem referenˇcn´ıch souhrn˚u kles´a hodnota ROUGE-N, jelikoˇz roste velikost mnoˇziny n-gram˚u referenˇcn´ıch souhrn˚u, kterou je dˇelen poˇcet shoduj´ıc´ıch se n-gram˚u.

ROUGE-L a ROUGE-W realizuj´ı v´ypoˇcet nejdelˇs´ı spoleˇcn´e subsekvence - LCS (Longest Common Subsequence). LCS oznaˇcuje nejdelˇs´ı spoleˇcnou subsekvenci dvou vektor˚u slov. Metoda funguje na myˇslence, ˇze delˇs´ı subsekvence spoleˇcn´a pro souhrny je l´epe ohodnocena neˇz kratˇs´ı. Metoda ROUGE-L nevyˇzaduje, aby subsekvence byla souvisl´a.

To znamen´a, ˇze dvˇe sekvence slov obsahuj´ıc´ı stejnou subsekvenci maj´ı stejn´e sk´ore, i kdyˇz jedna obsahuje subsekvenci spojitou a druh´a ne. Toto ˇreˇs´ı metoda ROUGE-W, kter´a mˇeˇr´ı nejdelˇs´ı spojitou subsekvenci.

4<http://berouge.com/default.aspx>

(30)

Posledn´ı vyuˇz´ıvanou metodou je ROUGE-S, kter´a vyuˇz´ıv´a ˇcetnosti v´yskyt˚u skip-bigram˚u v souhrnech pro vyhodnocen´ı souhrn˚u. Rozsah skip-bigramu je omezen uˇzivatelem a vyjadˇruje kolik unigram˚u je moˇzn´e pˇri v´ypoˇctu pˇreskoˇcit.

Rskip2 = SKIP 2(X, Y ) Cvelikost(X)2

Pskip2 = SKIP 2(X, Y ) Cvelikost(Y )2

Flcs = 2Rskip2Pskip2

Pskip2+ Rskip2 (19) Kde SKIP 2(X, Y ) je poˇcet skip-bigram˚u spoleˇcn´ych pro referenˇcn´ı vˇetu X a testovanou vˇetu Y. Cvelikost(X)2 je kombinaˇcn´ı ˇc´ıslo vyjadˇruj´ıc´ı poˇcet vˇsech bigram˚u v referenˇcn´ı vˇetˇe a Cvelikost(Y )2 je poˇcet vˇsech skip-bigram˚u ve vˇetˇe testovan´e.

Bigramy jsou vytv´aˇreny podle poˇrad´ı ve vˇetˇe, to m´a za n´asledek, ˇze nelze v testovan´e vˇetˇe, kter´a obsahuje stejn´e unigramy jako vˇeta referenˇcn´ı ale v opaˇcn´em poˇrad´ı, nal´ezt ani jeden stejn´y bigram. Ovˇsem je zˇrejm´e, ˇze vˇety obsahuj´ı stejnou informaci a ohodnocen´ı testovan´e vˇety by nemˇelo b´yt nulov´e. Tento nedostatek ˇreˇs´ı rozˇs´ıˇren´ı metody ROUGE-S na ROUGE-SU. Tato metoda rozˇsiˇruje ROUGE-S o v´ypoˇcet spoleˇcn´ych unigram˚u.

4.2 Nepˇ r´ım´ e metody

Nepˇr´ım´e metody hodnot´ı souhrny pomoc´ı r˚uzn´ych discipl´ın z oblasti dolov´an´ı informac´ı z textu. Nepˇristupuj´ı k textu souhrnu po ˇc´astech (slovech nebo vˇet´ach), tak jako pˇr´ım´e metody, ale analyzuj´ı informace v textu obsaˇzen´e. V angliˇctinˇe jsou nepˇr´ım´e metody oznaˇcovan´e jako ”task-based”, tedy metody zaloˇzen´e na urˇcit´ych

´

uloh´ach. Nejv´yznamnˇejˇs´ımi ´ulohami jsou kategorizace dokument˚u, vyhled´av´an´ı informac´ı a zodpov´ıd´an´ı ot´azek.

4.2.1 Kategorizace dokument˚u

Pˇri hodnocen´ı souhrn˚u kategorizac´ı je vytvoˇren korpus anotovan´ych dokument˚u, u kter´eho jsou pro kaˇzd´y dokument urˇceny kategorie, do kter´ych dokument spad´a.

Testov´an´ı prob´ıh´a tak, ˇze jsou dokumenty kategorizov´any na souhrnech tˇechto dokument˚u a n´aslednˇe jsou tyto kategorie porovn´any s kategoriemi urˇcen´ymi pro p˚uvodn´ı text dokumentu. Pokud je souhrn kvalitn´ı n´ahradou dokumentu, tak se kategorie souhrnu i dokumentu shoduj´ı a m˚uˇzeme prohl´asit, ˇze sumarizaˇcn´ı metoda, kter´a souhrn vytvoˇrila, dok´aˇze kvalitnˇe sumarizovat informace potˇrebn´e pro kategorizaci.

(31)

Kategorizaci je moˇzn´e prov´adˇet ruˇcnˇe, ale i automatick´ymi kategorizuj´ıc´ımi syst´emy.

Ruˇcn´ı kategorizace ovˇsem zajiˇst’uje kvalitnˇejˇs´ı v´ysledky neˇz kategorizace automatick´a. Pˇri pouˇzit´ı automatick´e kategorizace je potˇreba rozliˇsovat chyby kategorizace a sumarizace.

4.2.2 Vyhled´av´an´ı informac´ı

Tato metoda hodnocen´ı souhrn˚u je zaloˇzena na pˇredpokladu, ˇze dobr´y souhrn umoˇzˇnuje vyhledat stejn´e informace jako cel´y dokument a dotaz poloˇzen´y na dobr´y souhrn vr´at´ı stejnˇe kvalitn´ı v´ysledky jako dotaz poloˇzen´y na cel´y dokument. Sumarizaˇcn´ı syst´emy jsou hodnoceny na z´akladˇe relativn´ıho poklesu informac´ı pˇri nahrazen´ı pln´eho textu souhrnem tohoto textu. Pro ´uˇcely mˇeˇren´ı sumarizaˇcn´ıch syst´em˚u pomoc´ı vyhled´av´an´ı informac´ı bylo navrˇzeno nˇekolik metod napˇr´ıklad Kendallovo tau, Spearmanova korelace [20], line´arn´ı korelace nebo korelace relevance dat [19].

4.2.3 Zodpov´ıd´an´ı dotaz˚u ˇcten´aˇri

Velmi zaj´ımav´a metoda ohodnocen´ı sumarizaˇcn´ıho syst´emu je vyuˇzit´ı lid´ı odpov´ıdaj´ıc´ıch na ot´azky zamˇeˇren´e na informace obsaˇzen´e v textu dokumentu [14]. Lid´e odpov´ıdali na ot´azky na z´akladˇe z´ıskan´ych znalost´ı a to ve tˇrech f´az´ıch. V prvn´ı f´azi odpov´ıdali na ot´azky bez pˇreˇcten´ı ˇcl´anku ani souhrnu. Ve druh´e f´azi odpov´ıdali na stejn´e ot´azky a mˇeli k dispozici automaticky generovan´y informativn´ı souhrn. Nakonec odpov´ıdali po pˇreˇcten´ı pln´eho znˇen´ıˇcl´anku. Z´ıskan´e v´ysledky byly porovn´any a byly zkoum´any zlepˇsen´ı odpovˇed´ı na ot´azky pˇri vzr˚ustaj´ıc´ım objemu informac´ı.

(32)

5 Implementace sumarizaˇ cn´ıch metod

Pro implementaci byly vybr´any metody, kter´e nevyˇzadovaly ´uˇcast anot´ator˚u ani jin´ych lingvist˚u k realizaci metody. Nakonec byla vybr´ana heuristick´a a Luhnova metoda jako z´astupci statistick´ych metod a sumarizaˇcn´ı metoda zaloˇzen´a na latentn´ı s´emantick´e anal´yze, kter´a vyuˇz´ıv´a modern´ıch pˇr´ıstup˚u k procesu vytv´aˇren´ı souhrn˚u.

Implementace vˇsech metod byla provedena v jazyce C# a platformˇe Mono, kter´a dovoluje vysokou pˇrenositelnost bin´arn´ıho k´odu d´ıky implementaci Mona na syst´emech Linux, Mac i Windows. Podobnou pˇrenositelnost dovoluje jen jazyk Java, kter´y je ovˇsem kv˚uli nutnosti kompilace Java bitek´odu pˇri kaˇzd´em spuˇstˇen´ı v´yraznˇe pomalejˇs´ı.

5.1 Pˇ redzpracov´ an´ı vstupn´ıch dat

Pˇred zaˇc´atkem vlastn´ı sumarizace je potˇreba vstupn´ı text pˇredzpracovat. Text vstupuje do procesu sumarizace jako jeden dlouh´y ˇretˇezec znak˚u. Tento ˇretˇezec je ovˇsem nutn´e rozdˇelit na jednotliv´e vˇety. Tyto vˇety (pole ˇretˇezc˚u) je teoreticky moˇzn´e vyuˇz´ıt pro vytvoˇren´ı souhrnu, ovˇsem kv˚uli ohebnosti jazyk˚u je nutn´e rozdˇelen´e vˇety jeˇstˇe lemmatizovat. Postup vytvoˇren´ı souhrn˚u je zobrazen na obr´azku 4.

Obr´azek 4: Sch´ema postupu vytvoˇren´ı souhrnu Tˇr´ıda Preparation

Pro pˇr´ıpravu dat byla vytvoˇrena tˇr´ıda Preparation, kter´a ˇreˇs´ı problematiku dˇelen´ı vˇet a jejich lemmatizaci. Tˇr´ıda obsahuje celkem tˇri statick´e metody. Prvn´ı z nich je metoda

(33)

vrac´ı pole ˇretˇezc˚u. Pˇri dˇelen´ı vˇet bylo nutn´e ˇreˇsit probl´emy, jako jsou zkratky jmen, datum, poˇradov´e ˇc´ıslovky a jin´e probl´emy, kter´e ztˇeˇzuj´ı detekci konce vˇety.

Dalˇs´ı dvˇe metody lemmatizuj´ı vˇety. Jsou to metody Lemmatisation(string[]

sents) a GetLemma(string line). Metoda Lemmatisation slouˇz´ı k lemmatizaci vstupn´ıho pole vˇet a vrac´ı pole lemmatizovan´ych vˇet. Metoda GetLemma slouˇz´ı k lemmatizaci jedn´e ”vˇety”a je vyuˇz´ıvan´a pro lemmatizaci nadpis˚u a kl´ıˇcov´ych slov.

K vlastn´ı lemmatizaci je vyuˇzit lemmatiz´ator, kter´y byl vytvoˇren na Karlovˇe univerzitˇe v ´Ustavu form´aln´ı a aplikovan´e lingvistiky a je dostupn´y na str´ance ´ustavu5. Kv˚uli ˇcasov´e n´aroˇcnosti inicializace lemmatiz´atoru je metoda Lemmatisation implementovan´a tak, ˇze vˇety, kter´e m´a lemmatizovat, spoj´ı pˇres speci´aln´ı sekvenci znak˚u a nakonec vol´a metodu GetLemma, jenˇz vˇety vrac´ı jiˇz lemmatizovan´e. N´aslednˇe jsou vˇety opˇet rozdˇeleny pomoc´ı vloˇzen´e speci´aln´ı sekvence znak˚u.

5.2 Interface metod

Pro sjednocen´ı ovl´ad´an´ı bylo na navrˇzeno rozhran´ı obsahuj´ıc´ı metody, kter´e mus´ı kaˇzd´a sumarizaˇcn´ı metoda implementovat.

i n t e r f a c e S u m m a r i z a t i o n I n t e r f a c e {

void CreateSummary ( ) ;

void CreateSummary ( s t r i n g t e x t ) ;

s t r i n g [ ] GetSummaryByPercentOfText ( uint p e r c e n t ) ; s t r i n g [ ] GetSummaryByCountOfSentences ( uint c o u n t ) ; }

K´od 1: Interface sumarizaˇcn´ı metody

Metoda CreateSummary prov´ad´ı pˇr´ıpravu algoritmu sumarizace na jeho ˇcinnost (lemmatizuje text, poˇc´ıt´a frekvenci term˚u,...). Vstupn´ı text, kl´ıˇcov´a slova a ostatn´ı potˇrebn´a nastaven´ı jsou pˇred´any instanci metody v konstruktoru. Ovˇsem nˇekter´e metody pˇri vytvoˇren´ı jejich instance naˇc´ıtaj´ı korpus, kter´y potˇrebuj´ı pro vytvoˇren´ı souhrnu, coˇz v´yraznˇe prodluˇzuje dobu bˇehu sumariz´atoru. Tento probl´em je vyˇreˇsen pˇret´ıˇzen´ım metody CreateSummary. Metoda CreateSummary(string text) umoˇzˇnuje vyuˇz´ıt jiˇz naˇcten´y korpus pro vytvoˇren´ı nov´eho souhrnu.

5<http://ufal.mff.cuni.cz/pdt/Morphology_and_Tagging/Morphology/>

(34)

Metody GetSummaryByPercentOfText a GetSummaryByCountOfSentences vrac´ı poˇzadovan´y poˇcet vˇet souhrnu. Tento souhrn je reprezentov´an polem ˇretˇezc˚u, kter´e je setˇr´ıdˇen´e podle vypoˇc´ıtan´e hodnoty vˇety.

Abstraktn´ı metoda SummarizationMethod

Pro obecnˇejˇs´ı vyuˇzit´ı implementovan´ych metod byla naps´ana abstraktn´ı tˇr´ıda SummarizationMethod. Vyuˇzit´ı abstraktn´ı tˇr´ıdy je zn´azornˇeno v k´odu 2.

SummarizationMethod summary=n u l l ; switch ( metoda )

{

case ” h e u r i s t i c ” :

summary=new H e u r i s t i c ( t e x t , t i t l e , l a n g ) ; break ;

case ” l s a ” :

summary=new LSA( t e x t , t i t l e , l a n g , useCZ IDF ) ; break ;

d e f a u l t :

summary=new Luhn ( t e x t , t i t l e ) ; break ;

}

summary . CreateSummary ( ) ;

s t r i n g [ ] sum = summary . GetSummaryByCountOfSentences ( 4 ) ;

K´od 2: Pˇr´ıklad pouˇzit´ı abstraktn´ı metody SummarizationMethod

K´od 2 je vyuˇz´ıv´an sumarizaˇcn´ım serverem (viz. kapitola 5.6, kter´y vyuˇz´ıv´a knihovnu Summarization, jenˇz obsahuje vˇsechny implementovan´e sumarizaˇcn´ı algoritmy a tˇr´ıdu Preparation. V promˇenn´e metoda je uloˇzen n´azev uˇzivatelem vybran´e metody a podle n´ı je urˇceno, kter´a metoda je ve skuteˇcnosti vyuˇzita pro vytvoˇren´ı souhrnu.

5.3 Heuristick´ a metoda

Heuristick´a metoda byla implementov´ana jako prvn´ı metoda, na kter´e byly odzkouˇseny metody tˇr´ıdy Preparation. Tato metoda vyˇzaduje tzv. StopList, kter´y obsahuje seznam nejˇcastˇejˇs´ıch term˚u jazyka sumarizovan´eho textu. StopList pro ˇcesk´y jazyk byl

(35)

Media a n´asledn´ym v´ybˇerem nejˇcetnˇejˇs´ıch 311 l´emat. Pro anglick´y jazyk byl z´ısk´an ze str´anek projektu Proteus New Yorsk´e univerzity6. Po odstranˇen´ı term˚u ze StopListu probˇehne v´ypoˇcet ˇcetnosti term˚u a ´uprava ˇcetnosti term˚u uveden´ych v kl´ıˇcov´ych slovech, nadpisu a dom´enˇe. Na z´akladˇe z´ıskan´ych ˇcetnost´ı term˚u jsou ohodnoceny vˇety vstupn´ıho textu a vytvoˇren souhrn.

5.4 Luhn˚ uv sumariz´ ator

Luhn˚uv sumariz´ator vyˇzaduje pro v´ypoˇcet slovn´ık inverzn´ı dokumentov´e frekvence term˚u jazyka. Tento slovn´ık byl vytvoˇren z jiˇz dˇr´ıve zm´ınˇen´ych ˇcl´ank˚u. Kv˚uli ohebnosti ˇ

cesk´eho jazyka bylo nutn´e vypoˇc´ıtat ˇcetnost dokument˚u obsahuj´ıc´ı lemmatizovan´y term.

Pro tyto ´uˇcely byly vytvoˇreny n´astroje na v´ypoˇcet inverzn´ı dokumentov´e frekvence lemmatizovan´ych term˚u. P˚uvodnˇe se jednalo o jeden program, kter´y prov´adˇel vˇsechny v´ypoˇcty najednou, ale jeho bˇeh trval moc dlouho (ˇr´adovˇe t´ydny). Proto byly vytvoˇreny dva oddˇelen´e programy.

Prvn´ı program pˇrevedl vstupn´ı xml soubor s ˇcl´anky na speci´aln´ı soubor, kter´y byl pak lemmatizov´an. Program vytvoˇril 4 vl´akna, kter´a prov´adˇela lemmatizaci ˇctyˇr vstupn´ıch soubor˚u najednou a v´ysledek uloˇzila do nov´eho xml souboru s lemmatizovan´ymi ˇcl´anky.

Celkem bylo lemmatizov´ano 2 228 021 ˇcl´ank˚u.

Druh´y program vytv´aˇr´ı vlastn´ı slovn´ık, kter´y slouˇz´ı k v´ypoˇctu inverzn´ı dokumentov´e frekvence. Program vytv´aˇr´ı slovn´ık term˚u, do kter´eho pˇrid´av´a termy z lemmatizovan´ych ˇ

cl´ank˚u, a vypoˇc´ıt´av´a ˇcetnost ˇcl´ank˚u obsahuj´ıc´ı tyto termy. Program byl vytvoˇren ve dvou verz´ıch. Prvn´ı verze vyˇzadovala pˇredem vytvoˇren´y slovn´ık slov, jejichˇz ˇcetnost mˇela b´yt vypoˇc´ıt´ana. Pouˇzit´y slovn´ık byl vytvoˇren lemmatizov´an´ım slovn´ıku unigram˚u.

Obsahuje pˇribliˇznˇe 180 tis´ıc nejˇcastˇejˇs´ıch ˇcesk´ych lemmat. Druh´a verze vytv´aˇrela slovn´ık dynamicky na z´akladˇe nalezen´ych lemmat v ˇcl´anc´ıch. Ovˇsem tento slovn´ık byl zbyteˇcnˇe velk´y a obsahoval i pˇreklepy autor˚u ˇcl´ank˚u. Slovn´ık obsahoval pˇres dva a p˚ul milionu term˚u a zab´ıral v pamˇeti 34 MB, coˇz by znaˇcnˇe prodluˇzovalo spouˇstˇen´ı sumarizaˇcn´ıho programu. Proto byl slovn´ık upraven omezen´ım poˇctu term˚u na z´akladˇe jejich ˇcetnosti a to tak, ˇze nejmenˇs´ı pˇr´ıpustn´a ˇcetnost byla nastavena na pades´at

6<http://nlp.cs.nyu.edu/GMA_files/resources/>

(36)

v´yskyt˚u. Takto omezen´y slovn´ık obsahuje cca. 129 tis´ıc term˚u a zab´ır´a jiˇz jen 1,7 MB.

pocet dokumentu : 2 2 2 8 0 2 1

v 2072350

s 1983432

a 1975942

b´y t 1968714

K´od 3: Prvn´ı 4 ˇr´adky natr´enovan´eho slovn´ıku

D´ıky omezen´ı slovn´ıku a specifick´ym term˚um, kter´e slovn´ık neobsahuje, vznik´a probl´em, jak vypoˇc´ıtat inverzn´ı dokumentovou frekvenci pro nezn´am´e termy. Tento probl´em byl vyˇreˇsen ´upravou v´ypoˇctu hodnoty pro nezn´am´e slovo. ´Uprava vych´az´ı z pˇredpokladu, ˇze slovo, kter´e slovn´ık neobsahuje, je velmi specifick´e a t´ım p´adem i d˚uleˇzit´e. Proto byl nulov´y v´yskyt termu v tr´enovac´ım korpusu nahrazen jedn´ım v´yskytem.

V´ypoˇcet je zn´azornˇen v k´odu 4.

double v a l =0;

foreach ( s t r i n g word in s e n t e n c e . words ) {

try {

v a l+=t f [ word ] ∗ i d f [ word ] ; }

catch ( KeyNotFoundException ) {

v a l+=t f [ word ] ∗ Math . Log ( pocetDokumentu ) ; }

}

s e n t e n c e . S c o r e=v a l ;

K´od 4: V´ypoˇcet sk´ore vˇety

5.5 Latentn´ı s´ emantick´ a anal´ yza

Cel´y algoritmus vytvoˇren´ı souhrnu pomoc´ı latentn´ı s´emantick´e anal´yzy lze rozdˇelit na tˇri ˇc´asti:

(37)

2. v´ypoˇcet dekompozice matice 3. v´ypoˇcet sk´ore vˇet

Sloupeˇcky matice A, jeˇz je pouˇzit´a jako vstupn´ı matice dekompozice, obsahuj´ı jednotliv´e vˇety sumarizovan´eho ˇcl´anku. ˇR´adky matice obsahuj´ı termy ˇcl´anku. Hodnota at,v v matici reprezentuje poˇcet v´yskyt˚u termu t ve vˇetˇe v. Tato hodnota je jeˇstˇe v´aˇzena pˇres glob´aln´ı frekvenci termu [3]. Kompletn´ı matice A je pˇred´ana d´ale do dekompozice.

Byly implementov´any dvˇe verze v´ypoˇctu matice A. Prvn´ı moˇznost, jako v´aˇzit hodnoty v matici A, je urˇcena jen pro ˇcesk´y jazyk, vyuˇz´ıv´a slovn´ık IDF vytvoˇren´y pro Luhn˚uv sumariz´ator. Term je v´aˇzen jeho inverzn´ı dokumentovou frekvenc´ı. Pˇred v´ypoˇctem ˇ

cetnosti termu je dokument lemmatizov´an, aby byly sjednoceny vˇsechny tvary jednoho slova do jednoho termu. Druh´a moˇznost je v´aˇzen´ı term˚u na z´akladˇe glob´aln´ı frekvence v sumarizovan´em dokumentu. Tuto moˇznost je nutn´e pouˇz´ıt pro jin´y neˇz ˇcesk´y jazyk, jelikoˇz dokument neproch´az´ı procesem lemmatizace, kter´y funguje jen pro ˇcesk´y jazyk.

Jelikoˇz nen´ı k dispozici IDF slovn´ık, kter´y omezuje vliv nejˇcastˇejˇs´ıch term˚u jazyka, je nutn´e odstranit nejˇcastˇejˇs´ı termy. K tomu m´am slouˇz´ı StopList, kter´y je vyuˇz´ıv´an heuristickou metodou.

Pro v´ypoˇcet dekompozice matice je vyuˇzita open source knihovna ALGLIB dostupn´a zdarma pro v´yzkum z webov´ych str´anek projektu7. Knihovna umoˇzˇnuje prov´adˇet ˇsirok´e spektrum matematick´ych operac´ı, vˇcetnˇe singul´arn´ı dekompozici matice, a to velmi efektivnˇe.

a l g l i b . r m a t r i x s v d (A, m, n , vypoctiU , vypoctiVT , pridavnaPamet , out S , out U, out VT) ;

K´od 5: Vol´an´ı metody prov´adˇej´ıc´ı singul´arn´ı dekompozici

Parametr m je poˇcet ˇr´adk˚u matice A a n je poˇcet sloupeˇck˚u matice A. Parametry vypoctiU, vypoctiVT a pridavnaPamet ovlivˇnuj´ı rychlost v´ypoˇctu a podobu v´ysledn´ych matic S, U a VT. Parametr pridavnaPamet je doporuˇceno nastavit na hodnotu 2. Pˇri tomto nastaven´ı algoritmus potˇrebuje nav´ıc m*min(m,n) re´aln´ych ˇc´ısel, ale dosahuje maxim´aln´ıho v´ykonu. Parametry vypoctiU a vypoctiVT ovlivˇnuj´ı obsah matic U a VT. Parametr lze nastavit na hodnoty 0 aˇz 2, kdy pˇri hodnotˇe 0 nen´ı matice vypoˇc´ıt´ana, pˇri hodnotˇe 1 je vypoˇc´ıt´ano jen prvn´ıch min(m,n) sloupeˇck˚u(matice U) nebo ˇr´adk˚u (matice VT) a pˇri hodnotˇe 2 je vypoˇctena cel´a matice. Metoda vrac´ı ve vektoru S singul´arn´ı hodnoty, v matici

7<http://www.alglib.net/>

References

Related documents

Potlaˇ cov´ an´ı odezvy existuj´ı dva druhy, Network Echo Cancellation (potlaˇ cov´ an´ı odezvy v s´ıt’ov´ ych sign´ alech) a Acoustic Echo Cancellation (potlaˇ cov´

Prostˇred´ı robotu je zn´amo a je reprezentov´ano pomoc´ı geometrick´e mapy. Dan´a mapa m˚ uˇze b´ yt zachycena pr˚ ujezdem robotu v prostˇred´ı na z´akladˇe pokyn˚

D´ ale pr´ ace zahrnuje moˇ znosti dekompo- zice a rekonstrukce pomoc´ı wavelet transformace s pouˇ zit´ım r˚ uzn´ ych wavelet funkc´ı, modifikace d´ılˇ c´ıch koeficient˚

Pr´ ace navazuj´ıc´ı na tuto by se mohly zab´ yvat vlivem r˚ uzn´ ych pˇredpomiˇ novaˇ c˚ u na ˇ casovou n´ aroˇ cnost ˇreˇsen´ı pˇri pouˇ zit´ı monolitick´

Indukovan´e v´ıˇriv´e proudy ve vodiˇci bud´ı vnitˇrn´ı magnetick´e pole. Podle Lencova pravidla je toto pole orientov´ano tak, ˇze p˚ usob´ı proti vnˇejˇs´ımu poli

Pokud na vl´ akno kamery doraz´ı poˇ zadavek na odesl´ an´ı zpr´ avy na IM klienta uˇ zivatele, doch´ az´ı k jeho zpracov´ an´ı (viz obr´ azek ˇ c... V prvn´ı f´

Z´ akladn´ım pˇredpokladem pro dosaˇ zen´ı hmatateln´ eho v´ ystupu t´ eto bakal´ aˇrsk´ e pr´ ace bylo namˇ eˇren´ı impulsn´ıch odezev v urˇ cit´ em prostoru.

Prvn´ı verze poˇzaduje velkou pˇresnost ot´aˇcen´ı robota a to nelze bez gyroskopu zaruˇcit. Pˇri spr´avn´em ot´aˇcen´ı je robot schopen naj´ıt cestu ven i z pravo´