• No results found

Ett begrepp kan beskrivas med många olika ord vilket är ett problem vid

informationsåtervinning. Detta eftersom relevanta dokument kan missas då olika ord kan ha använts i en sökfråga och i ett relevant dokument. En tesaurus är ett välkänt hjälpmedel för att hitta relaterade termer till en initial sökfråga, dessa termer kan användas vid query expansion för att återvinna ytterligare relevanta dokument.

I denna undersökning skapas automatiskt konstruerade tesaurer, med hjälp av latent semantisk indexering (LSI), för att utvidga initiala sökfrågor. Syftet med

undersökningen är att utvärdera hur dessa tesaurer presterar vid query expansion, vilket preciseras i nedanstående frågeställning med tillhörande underfrågor:

w Hur påverkas återvinningseffektiviteten då en automatiskt konstruerad tesaurus används vid query expansion?

ú Vilken skillnad kan visas med måttet recall, mellan en baselinesökning och en expanderad sökning?

ú Vilken skillnad kan visas med måttet precision, mellan en baselinesökning och en expanderad sökning, vid DCV-nivåerna 20 och 40?

ú Finns det något samband mellan skillnaden i recall respektive skillnaden i precision som uppmäts för baselinesökningar och expanderade sökningar, hur ser i så fall detta samband ut?

Då LSI är en vidareutveckling av vektormodellen ges en beskrivning av denna modell och en övergripande beskrivning av området information retrieval (IR). Ett

genomgående problem inom information retrieval är den stora variation som finns i språket och ett avsnitt ägnas åt semantiska problem som synonymi och homonymi.

Query expansion genomförs för att förbättra en inledande sökfråga, detta kan

exempelvis ske genom att utöka en query med böjningsvarianter av ett ord eller hämta relaterade ord från en tesaurus. En tesaurus kan skapas manuellt eller automatiskt och beroende på hur den har skapats så har den olika utformning och till viss del olika användningsområden. En automatiskt konstruerad tesaurus kan bygga på samförekomst av termer i en kollektion, då två termer som samförekommer frekvent antas beröra samma ämne. De latenta relationer som LSI finner har i tidigare forskning visat sig ha ett samband med andra och tredje gradens samförekomst mellan ord. Det vill säga då två ord i två olika dokument har ett samband för att de har ett tredje ord gemensamt, som förekommer i båda dokumenten.

LSI är en metod som framförallt kan hjälpa till med synonymiproblemet inom IR, eftersom relaterade termer på statistisk väg kan identifieras med denna metod. För att finna relaterade termer använder sig LSI av singular value decomposition (SVD) som är en metod som kan användas för att dimensionsreducera en matris och hitta latenta relationer i materialet. Denna metod skapar tre ytterligare matriser, T, S och D, utifrån en inledande matris A. De tre ytterligare matriserna består av egenvärden och

egenvektorer från matris A.

Query expansion i denna undersökning utfördes i databasen GP_HDINF, som består av tidningsartiklar publicerade i Göteborgs Posten och Helsingborgs Dagblad 1994.

Utifrån databasens 52 topics valdes 10 stycken ut och initiala sökfrågor formulerades.

Utifrån dessa sökfrågors återvinningsresultat användes de 100 högst rankade dokumenten för att skapa 10 tesaurer. Detta innebär att vi genomförde lokal analys istället för global analys där hela kollektionen används för tesauruskonstruktion. En stoppordslista bestående av 523 ord användes och de bearbetade vokabulären bestod av från 1209 till 1980 unika ord. Inledande matriser skapades bestående av tf×idf-vikter för alla termer i dokumenten. SVD genomfördes på dessa matriser och

dimensionsreducering utfördes genom att endast behålla de 10 högst rankade dimensionerna. För att beräkna likheten mellan termer i den bearbetade term-term-matrisen användes cosinusmåttet. Vid denna beräkning uppstod problem med ett topic då samtliga dokument innehöll termen eu vilket innebar att beräkningen inte kunde genomföras och resterande undersökning genomfördes med 9 topics. Query

expansionen för övriga topics genomfördes med de fem högst rankade expansionstermerna för varje term i baseline.

Återvinningseffektiviteten mättes med hjälp av måtten recall och precision, som visar hur många av det totala antalet relevanta dokument som har återvunnits och hur många av de återvunna dokumenten som är bedömda som relevanta. Recallen beräknas vid DCV = 200 och precisionen beräknas vid DCV = 20 och DCV = 40.

Resultaten visar på en förbättring av recallen för tre topics, ett som var oförändrat och en försämring av fem topics jämfört med baseline. Precisionen förbättrades för ett topic vid DCV = 20, var oförändrad för tre topics och sjönk vid övriga topics. Vid DCV = 40 ökade precisionen för fyra topics och minskade för de övriga.

Dessa resultat visar i detta fall inte på någon förbättring av återvinningseffektiviteten då tesaurer skapade med hjälp av LSI används vid query expansion. Intressant att påpeka är att i de fall där recallen förbättrades, skedde även antingen en förbättring av precisionen eller så förblev den oförändrad, det vill säga ett samband kan ses mellan recall och precision i detta fall.

Osaker till resultatet kan vara att dimensionsreduceringen genomfördes med ett fast värde för alla kollektionerna och inte testades fram till ett optimalt värde för varje kollektion. Detta då det är tidskrävande att hitta optimalt värde för varje kollektion. En annan orsak kan vara att inte tillräckligt många ord togs bort med hjälp av

stoppordslistan, en alternativ lösning på det problemet skulle kunna vara att använda tröskelvärden utifrån tf×idf-värdena och ta bort högfrekventa och lågfrekventa ord.

Referenslista

Ahlgren, Per & Eklund, Johan (2003). Manual för Query Performance Analyser.

Tillgänglig via: http://www.adm.hb.se/~pgr/c2ir/qpa.pdf [2006-04-06].

Aitchison, Jean, Gilchrist, Alan & Bawden, David (2000). Thesaurus construction: A practical manual. 4 ed. London: Aslib.

Baeza-Yates, Ricardo & Ribeiro-Neto, Berthier (1999). Modern information retrieval.

Harlow: Addison-Wesley.

Berry, Michael W., Dumais, Susan T. & O’Brien, Gavin W. (1995). Using linear algebra for intelligent information retrieval. SIAM review, vol. 37, no. 4, s. 573-595.

Crouch, C. J. (1990). An approach to the automatic construction of global thesauri.

Information Processing & Management, vol. 26, no. 5, s. 629-640.

Deerwester, Scott, Dumais, Susan T., Furnas, George W., Landauer, Thomas K. &

Harshman, Richard (1990). Indexing by latent semantic analysis. Journal of the American Society for Information Science (JASIS), vol. 41, no. 6, s. 391-407.

Dextre Clarke, Stella G. (2001). Thesaural relationships. Ingår i Bean, Carol A. &

Green Rebecca, eds. Relationships in the organization of knowledge. Dordrecht;

London: Kluwer Academic. S. 37-52.

Dumais, Susan T. (2003). Latent semantic analysis. Ingår i Cronin, Blaise ed. Annual review of information science and technology. Vol. 38. Medford, N. J.: Information today. S. 189-230.

Dumais, Susan T., Furnas, George W., Landauer, Thomas K., Deerwester, Scott &

Harshman, Richard (1988). Using latent semantic analysis to improve access to textual information. Ingår i O'Hare, J.J. ed. Proceedings of the SIGCHI Conference on Human Factors in Computing Systems, Washington, D. C., United States, May 15 - 19, 1988.

New York, N. Y.: ACM. S. 281-285

Efthimiadis, Efthimis N. (1996). Query expansion. Ingår i Williams, Martha E., ed.

(1996) Annual Review of Information Science and Technology (ARIST), Medford, N. J.:

Information Today. Vol. 31, s. 121-187.

Även tillgänglig via: http://faculty.washington.edu/efthimis/pubs/Pubs/qe-arist/QE-arist.html [2006-02-19].

Feldman, Susan (1999). NLP Meets the Jabberwocky: Natural Language Processing in Information Retrieval. Online, vol. 23, no. 3, s. 62-72.

Frakes, William B. (1992). Introduction to information storage and retrieval systems.

Ingår i Frakes, William B. & Baeza-Yates, Ricardo eds. Information retrieval: Data structures and algorithms. Englewood Cliffs, N. J.: Prentice Hall. S. 1-12.

Forsythe, George E., Malcolm, Michael A. & Moler, Cleve B. (1977). Computer methods for mathematical computations. Englewood Cliffs, N. J.: Prentice-Hall.

Furnas, George. W., Landauer, Thomas. K., Gomez, L. M. & Dumais, Susan. T (1987).

The vocabulary problem in human-system communication. Communication of the ACM.

Vol. 30, no. 11, s. 964-971.

Gao, Jing & Zhang, Jun (2005). Clustred SVD strategies in latent semantic indexing.

Information Processing & Management, vol. 41, no. 5, s. 1051-1063.

Golub, G. H. & Reinsh, C. (1971). Singular value decomposition and least squares solutions. Ingår i Wilkinson, J. H. & Reinsch C. Handbook for automatic computations.

Vol 2, Linear algebra. Berlin: Springer. S. 134-151.

Grossman, David A. & Frieder, Ophir (2004). Information retrieval: Algorithms and heuristics. 2 ed. Dordrecht : Springer.

Hedlund, Turid, Pirkola, Ari & Järvelin, Kalervo (2001). Aspects of Swedish morphology and semantics from the perspective of mono- and cross- language information retrieval. Information Processing & Management, vol. 37, no. 1, s. 147-161.

Jurafsky, Daniel & Martin, James H. (2000). Speech and language processing: An introduction to natural language processing, computational linguistics, and speech recognition. Contributing writers Kehler, Andrew... Upper Saddle River, N. J.: Prentice Hall.

Kilgarriff, Adam (2003). Thesauruses for natural language processing. Ingår i Zong, Chengqing ed. International Conference on Natural Language Processing and Knowledge Engineering, 2003. Proceedings. 26-29 Oct, 2003, Beijing, Kina. Beijing, China: IEEE Press. S. 5-13.

Även tillgänglig via: http://www.icl.pku.edu.cn/WebData_http-dir-listable/Proceedings/NL-PKE2003/pdf/a01.htm [2006-03-06].

Kontostathis, April & Pottenger, William M. (2006). A Framework for understanding latent semantic indexing (LSI) performance. Information Processing and Management, vol. 42, no. 1, s. 56-73.

Palmer, David D. (2000). Tokenisation and sentence segmentation. Ingår i Dale, Robert, Moisl, Hermann & Somers, Harold eds. Handbook of natural language processing.

New York: Marcel Dekker. S. 11-35.

Park, Young C., Han, Young S. & Choi, Key-Sun (1995). Automatic thesaurus construction using Bayesian networks. Ingår i Pissinou, N. … eds. Proceedings of the fourth international conference on Information and knowledge management, Baltimore, Maryland, United States November 29 - December 02, 1995. New York, N. Y.: ACM.

S. 212-217.

Peat, H. J. and Willett, P. (1991). The limitations of term co-occurrence data for query expansion in document retrieval systems. Journal of the American Society for

Information Science (JASIS), vol. 42, no. 5, s. 378-383.

Qiu, Yonggang & Frei, Hans-Peter (1993). Concept based query expansion. Ingår i Korfhage, R. ... eds. Proceedings of the 16th Annual international ACM SIGIR Conference on Research and Development in information Retrieval, Pittsburgh,

Pennsylvania, United States, June 27 - July 01, 1993. New York, N. Y.: ACM Press. S.

160-169.

Sahlgren, Magnus (2005). An introduction to random indexing. Ingår i Proceedings of the Methods and Applications of Semantic Indexing Workshop at the 7th International Conference on Terminology and Knowledge Engineering, TKE 2005, August 16, Copenhagen, Denmark.

Tillgänglig via: http://www.sics.se/~mange/publications.html [2006-02-27].

Saussure, Ferdinand de (1970). Kurs i allmän lingvistik. Övers. Anders Löfqvist.

Staffanstorp: Cavefors. Orig:s titel: Cours de linguistique générale.

Sormunen, Eero, Halttunen, Kai, & Keskustalo, Heikki (2002). Query Performance Analyser: A tool for bridging information retrieval research and instruction. Tampere, Finland: University of Tampere, Department of Information Studies.

Tillgänglig via: http://www.info.uta.fi/julkaisut/researchnotes.html [2006-03-30].

Van Rijsbergen, C. J. (1979). Information retrieval. London: Butterworths.

Tillgänglig via: http://www.dcs.gla.ac.uk/Keith/Preface.html [2006-03-06].

Webster, J. J. & Kit, C. (1992). Tokenization as the initial phase in NLP. Ingår i Proceedings of the 14th Conference on Computational Linguistics – Vol. 4, Nantes, France, August 23 - 28, 1992. Morristown, N. J.: Association for Computational Linguistics. S. 1106-1110.

Wiemer-Hastings, Peter (1999). How latent is latent semantic indexing? Ingår i Dean, T. ed. Proceedings of the sixteenth international joint conference on artificial

intelligence. San Francisco, CA: Morgan Kaufmann Publishers. S. 932-937.

Wikipedia, the free encyclopedia (2006). Eigenvalue, eigenvector and eigenspace.

Tillgänglig via: http://en.wikipedia.org/wiki/Eigenvalues [2006-04-12].

Related documents