Framtida arbete - Utvärdering av Random Indexing och PageRank som verktyg för automatisk textsa

Den här studien har jämfört sammanfattningar skapade av CogSum med och utan PageRank samt SweSum mot mänskliga referenssammanfattningar av nyhetstexter och texter från Försäkringskassan. Resultatet påvisade att SweSum var det bästa systemet för nyhetstexterna medan CogSum och CogSumPR erhöll något sämre resultat, i den ordningen. Vad gäller utvärderingen som involverade Försäkringskassans texter var istället CogSumPR det system som presterade bäst, följt av CogSum och tillsist SweSum. Därmed indikerade studien att textens genre är avgörande för vilket system som skall föredras och således antas SweSum vara bäst på att sammanfatta nyhetstexter medan CogSum med PageRank erhöll bäst resultat på faktablad från Försäkringskassan.

Det finns mycket av denna studie som skulle kunna byggas vidare på. Först och främst skulle en liknande undersökning på större korpusar vara önskvärd. Dessa korpusar skulle gärna kunna få bestå av texter inom en viss genre samtidigt som ospecificerade korpusar också skulle vara intressant att utvärdera gentemot. I det första fallet skulle mer konkreta slutsatser om vilken teknik som är bäst lämpad för att sammanfatta en viss textgenre kunna dras medan i det andra skulle det kunna slutledas vilken teknik eller vilket system som generellt presterar bäst på alla möjliga typer av texter. Givetvis skulle mänskliga guldsammanfattningar behövas för att kunna utföra automatisk evaluering och alla de fördelar som sådan medför. Ett exempel på en intressant vidarestudie är att jämföra CogSum med och utan PageRank med andra sedan tidigare utvärderade system på DUC-korpusar för att kunna fastställa programmets generella prestanda. En annan möjlig ansats som direkt bygger på denna studie skulle vara att jämföra hur CogSum kontra CogSumPR presterar på en större korpus av faktabladtyp, antingen med samtliga Försäkringskassans texter eller faktablad från någon eller några andra institutioner. Vidare skulle en större automatisk jämförelse med fördel kunna utökas med någon form av kvalitativ undersökning. Detta skulle kunna involvera insamlandet av subjektiva uppfattningar om huruvida de olika sammanfattningarna var till stöd för en specifik målgrupp som behöver behandla originaltexterna. I och med att existensen av guldsammanfattningen kräver mänsklig involvering skulle alltså dessa typer av undersökningar snarare syfta till att ta reda på hur väl sammanfattningarna fungerar att använda för specifika syften istället för att i detalj utvärdera sammanfattningens beståndsdelar, alltså extrinsic snarare än intrinsic utvärdering.

Om möjligheterna till fortsatt utveckling av CogSum infinner sig skulle även programmet kunna anpassas för att på ett satisfierande sätt behandla texter olika med hänsyn till genre. Detta skulle alltså innebära att det i CogSums gränssnitt går att ange vilken genre texten som avses sammanfattas tillhör, givet att det går att modifiera programkoden och uppnå bättre resultat för olika genrer enligt någon framtida utvärdering. För nyhetstexter skulle det rimligen innebära att en modifiering som utgår ifrån hur SweSum viktar vissa ord och meningar i texten högre medför bättre sammanfattningar för denna genre. Vad gäller andra genrer behövs antagligen studier kring om det går att slutleda något konkret och så generellt

som möjligt om deras struktur och i sådana fall försöka anpassa programmet efter detta. Även möjligheten att som i SweSum kunna ange för texten relevanta nyckelord skulle vara

intressant att implementera samt utvärdera. Det skulle givetvis innebära att själva

sammanfattningsförfarandet kräver mer mänsklig inblandning men om resultaten visar på att sammanfattningarnas kvalitet ökar nämnvärt av detta är det trots allt en intressant möjlig utveckling av applikationen. Intressant skulle även vara att få CogSum att själv anpassa variabler som dimensionalitet beroende på den aktuella texten som skall sammanfattas. Detta är inte helt otänkbart med tanke på att sammanfattningssystem som kan anropa Java, vilket CogSum kan, har möjlighet att direkt utvärdera sina sammanfattningar via AutoSummENG givet referenssammanfattningar för texterna. Därmed skulle någon form av feedback- mekanism som optimerar CogSums variabler kunna implementeras. Eventuellt skulle tidsåtgången bli väldigt stor för att sammanfatta en viss text på detta vis men att åtminstone använda denna metod för att mer generellt optimera variablerna efter en viss textlängd eller genre är väldigt intressant.

Avslutningsvis går det att konstatera att möjligheterna för framtida automatiska

sammanfattningssystem ser ljus ut och behovet lär knappast minskas. Även vikten av kunskap kring olika typer av texter, hur sammanfattningar på bästa sätt kan utvärderas, och när och hur sammanfattningar kan underlätta som mest är av högsta betydelse.

Referenser

Axelsson, M., Bergenholm, E., Carlsson, B., Dahlbom, G., Gustavsson, P., Rybing, J. & Smith, C (2008). CogSum – Ett försök att med dagens automatiska

informationsextraheringsmetoder och rankningsalgoritmer skapa sammanfattningar i skumläsningssyfte. Linköpings Universitet, Sweden.

Brin, Sergey & Page, Lawrence (1998). The anatomy of a large-scale hypertextual Web

search engine. Computer Networks and ISDN Systems.

Carlsson, Bertil (2009). Guldstandarder – dess skapande och utvärdering. Kandidatuppsats inom Kognitionsvetenskap, Linköpings Universitet, Sweden.

Chatterjee, Nilhadri & Mohan, Shiwali (2007). Extraction-Based Single-Document

Summarization Using Random Indexing. ICTAI, IEE Computer Society, I: Proceedings of the

19th IEEE international Conference on Tools with Artificial intelligence - Vol.2 (ICTAI 2007)

- Volume 02 (October 29 - 31, 2007), s. 448-455.

Dalianis, Hercules (2000). SweSum - A Text Summarizer for Swedish. Technical report TRITA-NA-P0015, IPLab-174, KTH NADA, Sweden.

Dalianis, Hercules (2004). To search and summarize in Scandinavia. I: The proceedings of

The First Baltic Conference, Human Language Technologies - the Baltic Perspective, Riga,

Latvia, April 21-22, 2004, s. 93-97.

Dalianis, Hercules & Hassel, Martin (2001). Development of a Swedish Corpus for

Evaluating Summarizers and other IR-tools. Technical Report TRITA-NAP0112, IPLab-188, KTH NADA, Sweden.

Dalianis, H., M. Hassel, K. de Smedt, A. Liseth, T. C. Lech, & J. Wedekind (2004). Porting and evaluation of automatic summarization. I: Holmboe, H. (editor), Nordisk Sprogteknologi

2003: Årbog for Nordisk Språkteknologisk Forskningsprogram 2000-2004. Museum

Tusculanums Forlag.

Giannakopoulos, G., V. Karkaletsis, G. Vouros & P. Stamatopoulos (2008). Summarization System Evaluation Revisited: N-Gram Graphs.ACM Transactions on Speech and Language Processing, Vol. 5, No. 3, Article 5, Publication date: October 2008.

Hassel, Martin (2004). Evaluation of Automatic Text Summarization - A practical

implementation. Licentiate thesis, Department of Numerical Analysis and Computer Science,

Hassel, Martin (2007). Resource Lean and Portable Automatic Text Summarization. PhD

thesis, School of Computer Science and Communication, Royal Institute of Technology,

Stockholm, Sweden.

Hassel, Martin & Dalianis, Hercules (2005). Generation of Reference Summaries. I:

Proceedings of 2nd Language & Technology Conference: Human Language Technologies as a Challenge for Computer Science and Linguistics, Poznan, Poland.

Hassel, Martin & Sjöbergh, Johan (2005). A Reflection of the Whole Picture Is Not Always What You Want, But That Is What We Give You. I: "Crossing Barriers in Text

Summarization Research" workshop at RANLP`05, Borovets, Bulgaria.

Hovy, Eduard & Lin, Chin-Yew (1998). Automated Text Summarization and the

SUMMARIST System. I: Proceedings of the TIPSTER Workshop. Baltimore, MD, USA. Jönsson, A., Axelsson, M., Bergenholm, E., Carlsson, B., Dahlbom, G., Gustavsson, P., Rybing, J. & Smith, C. (2008a). Skim reading of audio information. I: Proceedings of the The

second Swedish Language Technology Conference (SLTC-08), Stockholm, Sweden, 2008.

Jönsson, A., Bugge, B., Axelsson, M., Bergenholm, E., Carlsson, B., Dahlbom, G., Krevers, R., Nilsson, K., Rybing, J. & Smith, C. (2008b). Using Language Technology to Improve

Interaction and Provide Skim Reading Abilities to Audio Information Services. Collaboration

and the Knowledge Economy: Issues, Applications, Case Studies, Paul Cunningham and Miriam Cunningham (Eds) IOS Press, 2008 Amsterdam

Karlgren, Jussi & Sahlgren, Magnus (2001). From Words to Understanding. I: Uesaka, Y., Kanerva, P. & Asoh, H. (Eds.): Foundations of Real-World Intelligence, s.294-308, Stanford: CSLI Publications.

Luhn, Hans Peter (1958). The Automatic Creation of Literature Abstracts. IBM Journal of

Research Development 2 (2). s. 159-165.

Mani, Inderjeet (2001). Automatic Summarization. John Benjamins Publishing Company, Amsterdam, Holland.

Mazdak, Nina (2004). FarsiSum – A Persian text summarizer. Master Thesis. Department of Linguistics, Stockholm University, Sweden.

Mihalcea, Rada (2004). Graph-Based Ranking Algorithms for Sentence Extraction, Applied to Text Summarization. I: Proceedings of the 42nd Annual Meeting of the Association for

Computational Linguistics, companion volume (ACL 2004).

Sahlgren, Magnus (2005). An Introduction to Random Indexing. SICS, Swedish Institute of Computer Science, Sweden.

Sahlgren, Magnus. (2006). The Word-Space Model: Using distributional analysis to represent

syntagmatic and paradigmatic relations between words in high-dimensional vector spaces.

In document Utvärdering av Random Indexing och PageRank som verktyg för automatisk textsammanfattning (Page 33-37)