Effektivitetsmått - En studie av evalueringar av webbaserade söktjänsters återvinningseffektivi

9. ANALYS

9.3 Effektivitetsmått

Samtliga undersökningar använder någon form av precision. Det är dock tveksamt om man kan jämställa Dezelar-Tiedmanns effektivitetsvärde med övriga mätningar då den bara syftar att ge ett medelvärde för varje söktjänst. Å andra sidan gör inte Dezelar-Tiedmann anspråk på att mäta precision. Överhuvudtaget skiljer sig alla

undersökningarna från varandra när det gäller mätning av precision.

Då Chu och Rosenthal väljer att beräkna precision efter antalet dokument i de fall då färre än 10 dokument och fler än 0 återvinns skapas ett relativt snedvridet resultat. En av de söktjänster (Lycos) som undersöks återvinner vid 7 av 10 queries färre än 10

dokument. För en query (#2) återvinner denna söktjänst 4 relevanta dokument av totalt 4 återvunna dokument och får därmed en precision på 1. Övriga söktjänster återvinner 10 dokument varav 8 respektive 6 av dessa bedöms vara relevanta. I ett av fallen återvinner alltså en av söktjänsterna dubbelt så många dokument som Lycos och får ändå en lägre precision. För en annan query (#9) återvinner Lycos 8 dokument varav 2 av dessa är dubbletter. Samtliga antas vara relevanta och i den här undersökningen anser man inte dubbletter vara irrelevanta dokument. Excite återvinner för samma query 10 dokument varav 6 bedöms vara relevanta. De får olika precision trots att de uppvisar samma mängd relevanta dokument samt att Lycos inte bestraffas för att den återvinner redundant material. I detta fall återvinner AltaVista 10 relevanta dokument av 10 möjliga och får lika hög precision som Lycos.

I denna undersökning har Lycos inte återvunnit ett enda dokument för tre queries och återvinner 10 dokument eller fler för enbart tre queries. Lycos får ändå ett högre precisionsmedelvärde än Excite. Detta kan delvis förklaras av att Excite vid samtliga queries återvunnit 10 dokument men att det vid fem queries fått en precision som är lägre eller lika med 0,3. Men generellt kan sägas att den här modellen för uträkning premierar Lycos för att den återvinner få dokument.

Ding och Marchionini definierar tre typer av precision. Författarna ger inga skäl i artikeln till varför man valt att göra på det här sättet. I första måttet som presenteras, Precision 1a, har man valt att betrakta alla dokument som tilldelats ett värde mellan 3 och 5 som relevanta. Vad som skiljer denna från övriga granskade evalueringar är att det för varje query finns detaljerade kriterier för vilken poäng som skall tilldelas ett dokument. Jämför de relevanskriterier som definierats för query 1:

5 points: full-text paper or comprehensive data about the effects of divorce or parental alienation on children.

4 points: Paper on child custody of divorced parents or single parents.

3 points: Good pointer to pages graded as 5 or 4.

Precision 1a jämställer alltså en informationsrik webbplats om skilsmässors inflytande på barn med ett dokument som eventuellt bara innehåller länkar. Med detta mått kan man ifrågasätta att överhuvudtaget ha så specifika definitioner för varje grad. Detta mått möjliggör enbart en grov precisionsmätning, vilket blir tydligt när man jämför resultaten med resultat från måttet Precision 1b (där enbart dokument som tilldelats 4 eller 5 bedömts vara relevanta). Här framkommer att av de 11 dokument som betraktas som relevanta för två av söktjänsterna för query 1 i Precision 1a är 3 respektive 4 av dessa dokument med länkar till relevanta dokument. Den tredje söktjänsten, Opentext, bedömdes ha 6 relevanta dokument varav endast ett av dessa var ett dokument som innehöll en eller flera länkar till ett relevant dokument.

Ett annat exempel: för query 4 återvinner Lycos 10 relevanta dokument och Opentext 11 relevanta dokument enligt Precision 1a. I Precision 1b anges att Lycos återvinner 4 relevanta dokument och Opentext 5 relevanta dokument. Visserligen ger Precision 1b ett mer exakt precisionsvärde än vad Precision 1a, men när man ändå utarbetat

detaljerade relevansbedömningskriterier undrar man varför man inte valt att använda en modell där man räknar samman samtliga värden för de återvunna dokumenten per söktjänst för en query och dividerar den med 100 (Maximalt värde för en resultatlista med enbart relevanta dokument vid DCV=20). Detta skulle ge ett precisionsvärde för en query med avseende på samtliga använda relevansnivåer.

Mot måttet relevance concentration kan man, likt Breimark och Hagman gör i sin magisteruppsats, invända att det kan ge upphov till kontraintuitiva resultat. Anta att söktjänst A presenterar 20 relevanta dokument och söktjänst B 10 relevanta dokument och 5 av dessa finns bland de 10 översta. I detta fall får bägge söktjänsterna ett värde på 0,5 (A=10/20 och B=5/10) trots att söktjänst A har maximalt antal relevanta dokument bland de 10 första. Eller då A har presterat enligt ovan och B har återvunnit 10

dokument och samtliga av dessa är relevanta. B får då ett värde på 1 och A 0,5 vilket skulle indikera att A presterat sämre än B vilket inte är fallet (1999, s. 19).

Tomaioulu och Packers precisionsberäkning ger enbart en grov uppskattning av varje söktjänsts precision. Att man dessutom uteslöt de queries där man återvunnit färre än 10 dokument påverkar också resultatet och giltigheten av precisionsmedelvärdet. En av de undersökta söktjänsterna, Magellan, återvann 10 eller fler dokument för enbart 66 informationsbehov vilket utgör en tredjedel av det totala antalet undersökta informationsbehov och Point återvann enbart dokument för 135 av de 200 informationsbehov som ingick i undersökningen. Detta medför att antalet

informationsbehov som medelvärdet på antalet relevanta återvunna dokument beräknas över varierar för samtliga söktjänster. Slutresultatet tar ingen som helst hänsyn till att Magellan har misslyckats att återvinna dokument för 134 informationsbehov och får ett genomsnittligt värde som ligger strax under de tre robotdrivna söktjänsterna ifråga om återvunna relevanta dokument per query. Point kommer långt ner i denna lista trots att den ändå återvunnit dokument för dubbelt så många informationsbehov som Magellan.

Då man ej valt att publicera samtliga informationsbehov som ingick i undersökningen är det svårt att veta exakt hur omfattande inverkan detta hade på resultatet.

Leighton och Srivastava har med sitt precisionsmått försökt mäta

rankningseffektiviteten. Motiveringen att de tre första dokumenten är de första som användaren ser är lite tveksam. Detta har mycket att göra med ren tillfällighet, vid tidpunkten för artikeln kanske detta var fallet när man gjorde en sökning i någon av de undersökta söktjänsterna, men detta kan ändras när en söktjänst ändrar gränssnittets utformning. Argumentet blir dessutom ogiltigt om man har en annan skärminställning än artikelförfattaren. I vissa fall kommer detta mått att misslyckas med att mäta rankningseffektiviteten. Anta att vid DCV=20 har söktjänst A återvunnit 15 relevanta dokument i positionerna 1-15. Söktjänst B har återvunnit 15 relevanta dokument i positionerna 1-10 och 16-20. För söktjänst A och B skulle alltså precisionsvärdet bli detsamma om Leighton och Srivastavas modell tillämpades:

( ) ( ) ( )

₀_,₈₂₀₇ ₀_,₈₂₁ ₈₂_,₁_%

I de flesta av de granskade undersökningarna har man valt att utelämna recall och motiverar detta med de problem som WWW är behäftat med. Några har försökt att mäta relative recall. Bar-Ilan har i sin modell laborerat med ett för henne känt antal relevanta dokument. Hon understryker visserligen att siffran är en underskattning och att den enbart är giltig för tiden då undersökningen gjordes. Hon tar dock inte hänsyn till möjligheten att samtliga relevanta dokument inte alltid indexeras av samtliga

söktjänster. Samma sak kan sägas om Gordon och Pathaks metod som för övrigt inte beskriver sin metod särskilt detaljerat.

Clarke och Willett bygger sin undersökning på en magisteruppsats där Clarke försökt tillämpa liknande metoder som använts vid Cranfield- och TREC-modellerna. Vad man bör ha i åtanke är dock att TREC är ett forskningsinitiativ som syftar till samarbete och befrämjande av forskning inom dokumentåtervinning och att testsamlingarna oavsett storlek är utsatt för någon form av kontroll. Som Poulter hävdar: de ansvariga för dagens söktjänster utnyttjar ämneskunskaper och sökfunktioner som utvecklats inom biblioteks- och informationsvetenskap, men i utvecklandet av söktjänsternas utformning har dock personer med bakgrund i biblioteks- och informationsvetenskapen lyst med sin frånvaro (1997, s. 142). Söktjänsterna styrs inte heller av samma samarbetslust som präglar TREC och Cranfield; tvärtom, söktjänsterna styrs av kommersiella intressen som i första hand förmodligen inte är intresserade av att skapa bättre förutsättningar för god informationsåtervinning. De ansvariga för söktjänsterna är dessutom väldigt

förtegna om att avslöja detaljer om sina databaser då dessa är att betrakta som affärshemligheter. Man kan mycket väl anta att de flesta använder sig av olika

leverantörer och indexeringsprogram. Om man antar att varje söktjänst företar sökning mot en egen databas kan antalet relevanta dokument som används vid beräkning av relative recall att skilja sig åt mellan söktjänsterna, vilket kan leda till underliga värden som blir svåra att jämföra med varandra.

Ett annat problem som uppstår med Clarkes modell är förhållandet mellan antalet kända relevanta dokument och det DCV som valts. När antalet kända relevanta dokument är större än valt DCV blir det omöjligt att erhålla maximal relative recall. När antalet kända relevanta dokument är mindre än valt DCV blir det omöjligt att erhålla maximal precision.

In document En studie av evalueringar av webbaserade söktjänsters återvinningseffektivitet (Page 51-54)