Avslutande reflektioner - Övrig diskussion

7.3 Övrig diskussion

7.3.3 Avslutande reflektioner

En fråga som dyker upp är vad som bör eftersträvas med RF. MAP är ett bra helhetsmått på ett system, men i den här studien visas tydligt att det inte säger allt. Rocchio fick högst MAP medan Okapi fick högst genomsnittlig P@20. En användare av en sökmotor

generellt sett kanske eftersträvar en hög P@20 och i det fallet skulle resultatet i denna studie antyda att Rocchio inte är den bäst lämpade metoden.

Det finns även andra problem med frågan om vad som bör eftersträvas med RF. Ett högt medelvärde på ett valt mått är ju så klart bra men samtidigt bör ju de fall då RF ger en negativ effekt minimeras då detta kan leda till att användare blir missnöjda med att de lägger ner extra energi men får ett sämre resultat tillbaks. Om RF förbättrar resultatet markant i 50 % av fallen men försämrar det i resterande fall är frågan om en tänkt användare skulle vilja lägga ner den extra energin på att relevansbedöma träffar. Den stora variationen mellan metoderna när det är topic för topic som undersöks gör att ingen metod egentligen kan rekommenderas över den andra utan att det är i stor del topic-beroende.

En fråga som dyker upp framförallt i samband med den andra forskningsfrågan är vad det är som gör att en människa kan avgöra skillnaden i ämne mellan två dokument medan en maskin inte klarar det trots tillgång till komplett information? Här får vi dock vara lite försiktiga. Dels är det inte alltid en människa klarar av detta om det inte är personen som själv har det aktuella informationsbehovet utan istället en person som letar information åt någon annan. Sen begränsar sig inte en människa till exakt den informationen som finns om informationsbehovet utan även förförståelse av området och tolkning med mera bidrar till hur informationsbehovet hanteras. Detta är något som även en dator till viss del kan tränas till att göra, men som inte gjorts i den här studien. Mycket faller tillbaka på relevansbegreppet då de metoder som här använts har definierat relevans i termer av samförekomst, termfrekvenser och globala mått medan en mänsklig informationsletare troligen definierar det på andra sätt.

Slutligen kan vi säga att relevance feedback kan vara en bra metod för att förbättra återvinningseffektiviteten, men de metoder som undersökts i denna studie är för ojämna i sin prestation för att vi skall vara nöjda och Maron och Kuhns library problem står ännu olöst.

8 Sammanfattning

Denna studie har fokuserat på ett delområde inom Information Retrieval-forskningen (IR) som behandlar relevance feedback (RF). RF är en metod för att använda information om relevanta respektive irrelevanta dokument för ett eftersökt ämne i syfte att på så vis förbättra återvinningseffektiviteten för systemet.

Syftet med den här studien var att jämföra fyra olika metoder för användande av

relevansinformation. Rocchio och Ide dec-hi som används med vektormodellen samt två metoder inom det probabilistiska ramverket, den klassiska probabilistiska modellen och Okapi BM25. Dessa metoder undersöks med avseende på hur effektivt de återvinner relevanta dokument. Detta görs med två olika utgångspunkter. Dels för den del av kollektionen som vid den aktuella tidpunkten är okänd för den användaresom tillhandahållit relevansinformation till systemet. Denna del av kollektionen kallas hädanefter för den återstående kollektionen. Den andra utgångspunkten behandlar hur metoderna presterar under optimala förhållanden, det vill säga då de får tillgång till all relevansinformation. Detta undersöks för att ta reda på till hur stor del metoderna kan ta till sig informationen och hur de klarar av att använda denna information på ett sådant sätt som är positivt för rankningen och precisionen.

Frågeställningarna löd:

1. Hur presterar de undersökta metoderna med avseende på rankning och precision vid sökning i den återstående kollektionen?

2. Hur presterar de undersökta metoderna med avseende på rankning och precision när de får tillgång till all tillgänglig relevansinformation?

Studien har placerat sig inom Cranfield-paradigmet vilket innebär att en testkollektion används för att utföra experiment. Dessa testkollektioner innehåller utöver en samling av dokument även informationsbehov samt listor med de dokument som är relevanta för dessa informationsbehov. Den testkollektion som använts är en del av den kollektionen som används vid den största IR-konferensen TREC:s ad-hoc spår. Kollektionen består av 131 896 LA-Times artiklar samt 50 stycken topics vilket är namnen på de standardiserade informationsbehov som används inom ramen för TREC.

För att undersöka frågeställningarna har ett IR-system skapats i C#. Systemet har möjlighet att indexera en kollektion och skapa sökfrågor från de topics som finns

tillgängliga. Dessa sökfrågor kan sedan användas för sökning och resultatet kan användas för att ge relevansinformation till de olika RF-metoderna som även de finns

implementerade i systemet.

För den första frågeställningen har en initialsökfråga ställts till systemet med hjälp av vektormodellen och de 20 högst rankade dokumenten har därefter använts för

relevansinformation till de fyra undersökta RF-metoderna varpå nya resultatlistor

återvunnits vilka använts för att beräkna effektivitetsmått. De dokument som använts för relevansinformation togs bort från de nya resultatlistorna för att effekten skulle mätas på den återstående kollektionen. De mått som använts för den första frågeställningen är Average Precision (AP), Precision vid de 20 högst rankade träffarna (P@20) och antalet nya dokument som återvunnits efter två iterationer av RF (”Nya”).

Resultatet för den första frågeställningen visar att Okapi BM25, Rocchio och Ide dec-hi presterar likvärdigt medan binary independence model presterade sämre. Statistisk signifikanstestning för AP måttet visade att det fanns en signifikant skillnad beroende på val av metod men post-hoc analys kunde inte utröna var denna skillnad låg.

Topic för topic visade sig resultaten variera mycket och den klassiska probabilistiska modellen presterade bättre än de övriga metoderna i nära 20 % av fallen trots att den i genomsnitt presterade sämre.

Vidare diskussion av resultatet för den första frågeställningen behandlade anledningen till varför den klassiska probabilistiska modellen presterade såpass ojämnt. Bristen på

sökfrågeexpansion tas upp som den främsta anledningen då sökfrågeexpansion i vissa fall kan leda till query drift vilket innebär att sökfrågan expanderas med olämpliga termer. I det generella fallet är dock sökfrågeexpansion positivt för återvinningseffektiviteten.

För den andra frågeställningen ställdes ingen initialsökfråga till systemet utan metoderna fick direkt tillgång till all tillgänglig relevansinformation. De dokument som metoderna återvann användes för att beräkna tre stycken effektivitetsmått AP, RelAP vilket innebär att endast de relevansbedömda dokumenten använts vid beräkningen och antalet explicit bedömda irrelevanta dokument som återvunnits bland de 20 högst rankade dokumenten.

Resultatet visade att Okapi BM25 presterade bättre än övriga metoder följt av Ide dec-hi.

Rocchio presterade förvånansvärt dåligt med mer än hälften av dokumenten bland de 20 högst rankade som explicit bedömda irrelevanta och nära 25 procentenheter sämre än Okapi med avseende på RelAP och AP. Binary independence model presterade än en gång sämst med avseende på AP och RelAP men återvann minst antal explicit bedömda irrelevanta dokument bland de 20 högst rankade dokumenten.

Rocchios låga RelAP och AP förklaras med att användandet av ett stort antal irrelevanta dokument kan leda till spretighet i den modifierade sökfrågan då de irrelevanta

dokumenten inte behöver ha mycket gemensamt med varandra utöver de att de inte är relevanta. Diskussionen påpekar också att då det för den andra forskningsfrågan handlar om att leta efter kända dokument bör metoderna presterat bättre om full

sökfrågeexpansion använts.

9 Referenser

Ahlgren & Grönqvist (2008) “Evaluation of retrieval effectiveness with incomplete relevance data: theoretical and experimental comparison of three measures” Information Processing and Management 44(1), s. 212-225

Baeza-Yates & Ribeiro-Neto (1999). Modern Information Retrieval Harlow: Addison-Wesley.

Borlund (2003) “The concept of relevance in IR” Journal of the American Society for Information Science and Technology 54(10) s. 913-925

Bryman (2002). Samhällsvetenskapliga metoder. Malmö: Liber.

Buckley (2005) “The SMART Project at TREC” ingår i Voorhees & Harman (ed.) (2005) s. 301-320

Buckley, Salton & Allan (1993) “Automatic Retrieval With Locality Information Using SMART” ingår i Harman (ed.) (1993) s. 59-72

Buckley, Singhal, Mitra & Salton (1995) “New Retrieval Approaches Using SMART : TREC 4”

http://trec.nist.gov/pubs/trec4/t4_proceedings.html [08-03-02]

Buckley & Voorhees (2005) ”Retrieval System Evaluation” ingår i Voorhees & Harman (ed.) (2005) s. 53-75

Chang, Cirillo & Razon (1971). “Evaluation of feedback retrieval using modified freezing, residual collection & test and control groups” ingår i Salton (ed.) (1971) s.

355-370

Dubin (2004) “The most influential paper Gerald Salton never wrote”

http://www.ideals.uiuc.edu/bitstream/2142/1697/2/Dubin748764.pdf [08-05-02]

Efthimiadis (1995), User Choices: A new yardstick for the evaluation of ranking algorithms for interactive query expansion. Information Processing and Management.

Vol. 31(4) s. 605-620

Eklund & Stenström (2002). En komparativ studie av fem rankingsalgoritmer för query expansion. Borås: Högskolan i Borås, Magisteruppsats i biblioteks- och

informationsvetenskap 2002:9.

Harman (ed.) (1995) “First Text Retrieval Conference (Trec-1) Proceedings”

DIANE Publishing via Google Books

Harman (1995) “Overview of the First Text REtrieval Conference (TREC-1)”

ingår i Harman (ed.) 1995 s. 1-21

Harman (2005) ”The TREC Test Collections” ingår i Voorhees & Harman (ed.) (2005) s.

21-52

Ide (1971) “New experiments in relevance feedback” ingår i Salton (ed.) (1971) s.

337-354

Luhn (1957) A Statistical Approach to Mechanized Encoding and Searching of Literary Information. IBM Journal of Research and Development. Vol 1 (4) s. 309-317

Manning, Raghavan & Schütze (2008) "Introduction to Information Retrieval"

http://www-csli.stanford.edu/~hinrich/information-retrieval-book.html [08-05-02]

Maron & Kuhns. (1960) “On relevance, probabilistic indexing and information retrieval.”

Journal of the Association for Computing Machinery. Vol:7 (3) s.216 – 244 Mitra, Singhal & Buckley (1998) “Improving Automatic Query Expansion”

hämtad från:

http://www.singhal.info/reranking.pdf [08-04-16]

Robertson (2004) “Understanding Inverse Document Frequency: On theoretical arguments for IDF” Journal of Documentation, Vol. 60 (5) s.503-520.

Robertson (2005) “How Okapi Came to TREC” ingår i Voorhees & Harman (ed.) (2005) s. 287-300

Robertson & Hancock-Beaulieu (1992) “On the evaluation of IR systems” Information Processing and Management 28(4) s. 457-466

Robertson & Spärck-Jones (1976), “Relevance Weighting of Search Terms” Journal of the American Society for Information Science. Vol. 27 (3), s.129-146

Robertson, Hancock-Beaulieu, Gull & Lau (1995) “Okapi at TREC” ingår i Harman (ed.) 1995 s. 21-31

http://trec.nist.gov/pubs/trec2/t2_proceedings.html [08-03-02]

Robertson & Walker (1994) “Some Simple Effective Approximations to the 2–Poisson Model for Probabilistic Weighted Retrieval”

http://www.computing.dcu.ie/~gjones/Teaching/CA437/p232.pdf [08-03-08]

Robertson, Walker, Jones, Hancock-Beaulieu, Gatford (1993) “Okapi at TREC-2”

http://trec.nist.gov/pubs/trec2/t2_proceedings.html [08-03-02]

Robertson, Walker, Jones, Hancock-Beaulieu, Gatford (1994) “Okapi at TREC-3”

http://trec.nist.gov/pubs/trec3/t3_proceedings.html [08-03-02]

Rocchio (1971a) “Relevance Feedback in Information Retrieval” ingår i Salton (ed.) (1971) s. 313-323

Rocchio (1971b) ”Performance indices for document retrieval systems” ingår I Salton (ed.) (1971) s. 57-67

Salton (ed.) (1971) “The SMART Retrieval System. Experiments in Automatic Document Processiong.” New Jersey: Englewood Cliffs

Salton (1971a) “The SMART project-status report and plans” ingår i Salton (ed.) (1971) s.143-180

Salton & Buckley (1988) “Term-Weighting Approaches in Automatic Text Retrieval.”

Information Processing and Management. Vol 24 (5) s. 513-523

Salton & Lesk (1971) ”Computer evaluation of indexing and text processing” ingår i Salton (ed.) (1971) s.143-180

Salton & McGill (1982). ”Introduction to modern information retrieval”. New York:

McGraw-Hill.

Singhal (1997) “Term Weighting Revisited”

Doktorsavhandling vid Cornell University http://hdl.handle.net/1813/7281 [08-03-02]

Singhal, Buckley & Mitra (1996) “Pivoted Document Length Normalization”

http://www.singhal.info/pivoted-dln.pdf [08-03-02]

Singhal, Choi, Hindle, Lewis & Pereira (1999) “AT&T at TREC-7”

http://trec.nist.gov/pubs/trec7/papers/ [08-04-16]

Spärck Jones (2004). “A statistical interpretation of term specificity and its application in retrieval” Journal of Documentation, Vol. 60 (5) s.493-502.

TREC (2000) Overview

http://trec.nist.gov/overview.html [08-03-02]

van Rijsbergen (1979) Information Retrieval tillgänglig via:

http://www.dcs.gla.ac.uk/Keith/Preface.html [2008-04-18]

Voorhees & Harman (1993) “Overview of the Sixth Text REtrieval Conference (TREC-6)”

http://trec.nist.gov/pubs/trec6/t6_proceedings.html [08-03-02]

Voorhees & Harman (ed.) (2005). “TREC – Experiments and Evaluation in Information Retrieval”

Cambridge: MIT Press

Yang (2005)^.Information Retrival on the Web. Annual Review of Information Science and Technology, vol. 39, s. 33-80

Yang, Lin, Li, Xu, Pan & Liu (2006) “DUTIR at TREC 2006: Genomics and Enterprise Tracks”

http://trec.nist.gov/pubs/trec15/papers/ [08-04-16]

10 Bilagor

January 1, 1989, Sunday, Home Edition

</DATE>

Book Review; Page 1; Book Review Desk

NEW FALLOUT FROM CHERNOBYL;

THE SOCIAL IMPACT OF THE CHERNOBYL DISASTER BY DAVID R. MARPLES (ST.

MARTIN'S PRESS: $35, CLOTH; $14.95, PAPER; 316 PP., ILLUSTRATED;

0-312-02432-0)

</HEADLINE>

By James E. Oberg , Oberg, a space engineer in Houston, is the author of Uncovering Soviet Disasters: Exploring the Limits of Glasnost (Random House).

</BYLINE>

<TEXT>

The onset of the new Gorbachev policy of glasnost, commonly mistranslated as openness but closer in connotation to candor or

publicizing, has complicated the task of Soviet secret-keepers and has allowed substantial new Western insights into Soviet society. David R.

Marples' new book, his second on the Chernobyl accident of April 26, 1986, is a shining example of the best type of non-Soviet analysis into topics that only recently were absolutely taboo in Moscow official circles.

In document Rocchio, Ide, Okapi och BIM: En komparativ studie av fyra metoder för relevance feedback (Page 59-66)