Om personaliserande sökmotorer – Styrkor och problemområden

(1)

(2)

Teknik och samhälle

Datavetenskap

Examensarbete

15 högskolepoäng, grundnivå

Om personaliserande sökmotor – Styrkor och

problemområden

On personalizing search engines – the strengths and areas of concern

Johannes Engström

Examen: Kandidatexamen 180 hp Handledare: Göran Hagert Huvudämne: Datavetenskap Examinator: Bengt Nilsson Program: Data och telekom

(3)

(4)

(5)

Resumé

Internet har en allt större roll i vårt samhälle och sökmotorerna är ett av de vanligaste sätten att leta sig fram till relevanta webbplatser. Sökmotorernas algoritmer visar sig dock bli allt mer invecklade och effektiva genom att blanda in användaren och hämta information om dennes intressen. Sökmotorerna hämtar resultat som inte bara är relevanta i förhållande till sökfrasen, utan också i förhållande till användaren. Sökmotorn skapar en profil av varje användare och med den preciseras resultatet. I studien använder vi oss av litteratursökningar och intervjuer för att undersöka vilken inverkan profilerna har på resultatet samt vilka åsikter användare, inom målgruppen studenter, har angående resultatet och profilerna. Vi kommer fram till att de personaliserande sökalgoritmerna skapar ett värdeladdat resultat utifrån vad användaren brukar söka på, vilket har en klar fördel vid informationssökningar på internet. Intervjupersonerna ser emellertid vissa problemområden med det användarspecifika resultatet. De menar att resultatet kan bli ensidigt och därmed ge upphov till personliga verkligheter. Vi argumenterar för att det inte finns belägg för att det är ett verkligt och aktuellt problem, men att problemet kan uppstå genom tekniken. Ytterligare talar intervjupersonerna om att skapandet av profiler kan bli fel, då sökmotorn kan tolka information fel, samt att en säker lagring av profilerna är viktigt på grund av att de beskriver användarna som individer och kan innehålla känslig information. Vi för en diskussion kring hur en lagom insyn på profilerna kan förbättra användarnas sökupplevelser samt förhindra att användarnas integritet kränks.

Abstract

The Internet has an increasingly bigger role in our society and search engines are some of the most common ways to find relevant websites. The complexity and efficiency of the search engine algorithms increases as the user and his interests are added to the information retrieval process. The search engines retrieve results that are not only relevant in relation to the search phrase, but also in relation to the user. The search engine creates a profile of each user and the profile is used to heighten the precision of the search result. In this study, we use literature search and interviews to examine what impact the profiles may have on the results and what opinions users, within the target group students, might have regarding the results and profiles. We conclude that the personalized search algorithms generate value-laden results, based on what the user tends to search for. This has a clear advantage in information searches on the Internet. The interviewees have some areas of concern with the user-specific results. They argue that the produced result might be biased and might possibly cause personal realities and worldviews. We, however, argue that this is no real world problem, nothing of the sort is visible nor obvious to us, but that the personalisation technique could have the effect of biased personal realities. Moreover the interviewees argue that the making of the profiles is problematic, that the search engine can interpret the information wrong. They also argue that the safe storage of the profiles is important because profiles describe the individual users and may contain sensitive information. We discuss how a proper level of insight in the profiles will improve users’ search experience and prevent the violation of users’ privacy.

(6)

Innehåll

1. Inledning ... 1

1.1. Bakgrund ... 1

1.2. Personaliserad sökning ... 1

1.3. Query Expansion och Relaxation. ... 1

1.4. Personliga filter ... 2

1.5. Algoritmers etik. ... 3

2. Problematisering ... 3

3. Syfte ... 4

4. Metod ... 5

4.1. Kvantitativ eller kvalitativ ... 5

4.2. Datainsamling ... 5 4.2.1. Primärdata ... 5 4.2.2. Sekundärdata... 7 4.2.3. Metoddiskussion ... 8 5. Teori ... 10 5.1. Personaliserande algoritmer ... 10

5.2. Datavetenskaplig etik och arbetssätt ... 11

5.2.1. Legitimitet och säkerhet ... 11

5.2.2. Informationstransparens ... 12

5.2.3. ACMs Code of Ethics and Professional Conduct ... 12

6. Resultat och diskussion ... 14

6.1. Profilernas inverkan på sökresultatet ... 14

6.2. Problemområden ... 14

6.3. Avslutande diskussion ... 17

7. Slutsats ... 17

(7)

(8)

1

1. Inledning

1.1. Bakgrund

Internet har blivit till en vardag för många. I Sverige räknade Statistiska centralbyrån att 90 % av den svenska befolkningen i åldern 17-74 har bredband i hemmet (SCB 2011). Det höga antalet användare för med sig en stor mängd information på internet. För att kunna navigera runt och hitta vad som söks bland informationen har en mängd olika tekniker så som sökmotorer växt fram, i både vetenskapligt och kommersiellt syfte. Sökmotorn blir allt mer invecklad för att sålla ut den information och de webbplatser vi vill ha fram vid sökningar. Algoritmer, modeller och arkitekturer har utvecklats för att precisera och effektivisera dessa sökningar och något som blir mer och mer vanligt inom utvecklingen är de personaliserade sökningarna.

1.2. Personaliserad sökning

Preciseringen av sökresultat görs i regel genom att modifiera och precisera den initiala sökfrasen en användare matar in, då kvalitén av den direkt påverkar sökresultatets kvalité (Croft & Thompson 1987). Inom den akademiska världen finns en uppsjö av olika tekniker för att bedöma hur sökfrasen ska modifieras och en del av dessa tekniker använder sig av information hämtad från användaren. De personanpassande teknikerna skiljer sig en del emellan och algoritmerna blir allt mer invecklade. Ett par exempel på detta är WAIR, utvecklad av Zhang och Seo (2001), som lär sig en användares intressen genom att observera beteende under tiden som systemet används. Informationen används sedan för att skapa en profil av vad användaren brukar söka på. Klink m.fl (2003) RUBIC använder sig av en användares inställningar, preferenser och nyckelord, i tidigare sökningar. Limbu m.fl (2006) utvecklar och utvärderar ett system som skapar en profil utifrån en användares beteende, preferenser och tidigare besökta URL:er. Profilen används sedan för att söka i databaser med ontologier, metanyckelord och andra användares profiler. De tre ovanstående tillvägagångssätten använder sig sedan av en teknik som förlänger eller förkortar sökfraser, även känt som query expansion eller relaxation.

1.3. Query Expansion och Relaxation.

Att lägga till eller ta bort ord från en sökfras har syftet att precisera sökfraserna för att på så sätt påverka sökresultatet, då både långa och korta sökfraser kan medföra problem för en sökmotor (se t.ex. Kumaran & Allen 2008; Thomas & Rowlands 2007). Om sökfrasen är för kort har sökmotorn svårt att identifiera vad användaren faktiskt söker, då det kan vara tvetydigt. Sökordet ”Jaguar” har, som exempel, två ofta använda betydelser, bilmärket Jaguar och kattdjuret jaguar. Längre sökfraser ger kontext till Jaguar, t.ex. ”vilket år lanserade Jaguar sin första roadster” eller ”är det lagligt att ha en jaguar som husdjur”. Problemet med sådana långa sökfraser är att de ofta innehåller kontextuellt irrelevanta ord, så

(9)

2

som ”är”, ”vilket” eller ”det”. Dessa ord kan ses som viktiga för användaren men kan vara svåra för sökmotorn att hantera (Kumaran & Allen 2008). Lösningen på problemet med för långa eller för korta sökfraser kan då vara att antingen ta bort eller lägga till ord i dem.

För att lägga till eller ta bort ord från sökfraser så måste den, för sökfrasen, aktuella innebörden med varje ord identifieras. Kumaran och Allen (2008) genomför en studie där de bland annat undersöker om expandering eller reducering av sökfraser kan vara användbara. De tar en lång sökfras och skriver manuellt om den på ett antal olika sätt. Resultatet blir att de genom reduceringen – att ta bort ord som feltolkas eller leder till felriktat resultat – minskar antalet irrelevanta länkar i resultatet med 50 %. Än högre precision (300 %) uppnår de under expanderingen då de lägger till ord som ger kontext till sökfrasen. Experimentet de utför visar att bättre sökresultat kan nås genom att modifiera sökfraser. Emellertid så sker identifieringen av ordens aktuella betydelse i ovanstående experiment genom att människor manuellt analyserar och skriver om sökfrasen. Kumaran och Allen automatiserar sedan expansionen och relaxationen genom att rangordna olika ord efter hur ofta de används; både separat och i relation till andra ord. De åstadkommer emellertid inte samma förhöjda precision vid den automatiska tolkningen av ord som de gör vid den manuella. Det bästa resultatet av automatiseringen är 40 % högre precision för relaxation och 30 % för expansion.

Många forskare har innan ovanstående studie av Kumaran och Allen hävdat att så länge som de automatiska tolkningssalgoritmerna inte uppnår högre precision så är användningen av dem i sökmotorer begränsad (se t.ex Stokoe m.fl. 2003; Sanderson 1994). Detta kan bero på, som Stokoe m.fl påpekar, att verktygen för att automatiskt identifiera och betygsätta olika betydelser av ord ofta inte är tillräckliga. De behöver utarbetas och möjligen få tillökning av andra tekniker. Förlusten av precision i Kumaran och Allens övergång från manuell till automatisk tolkning av ord vittnar om att de inte uppnår den mänskliga precisionen. De blandar därmed, som ett nästa steg i sin studie, in användaren och låter denne välja i en lista med de tio högst rankade automatiskt gjorda modifikationerna. Kumaran och Allen observerar att med hjälp av användarna kan sökningarna uppnå än högre precision (Kumaran & Allen 2008). Inblandningen av användaren behöver dock inte bara bestå enbart av interaktion från användaren.

1.4. Personliga filter

En del sökmotorer tar del av bland annat en användares tidigare sökhistorik och använder det som en referens för vad användaren vill se (se t.ex Google 2012). Denna insamling av information stannar emellertid inte vid tidigare gjorda sökningar då även generellt beteende ofta hämtas i form av tidigare besökta URL:er samt hur användaren navigerade sig fram till dem. På så sätt skapas en profil för en användare, som berättar vad denna vill se när den gör sökningar (Limbu m.fl 2006). Den insamlade informationen används inte heller bara vid ett enda tillfälle utan sparas och tillämpas nästa gång användaren besöker söktjänsten. Denna lagring skapar en möjlighet att successivt utöka kunskapen kring en användare för att efterhand som användningen sker precisera sökningar allt mer. En användares profil kan även nyttjas som en referenspunkt för andra användare genom att finna likheter mellan deras intressen (se t.ex Limbu m.fl

(10)

3

2006). Användares specifika intressen spelar alltså en huvudroll i teknikerna. Med hjälp av dem tas sådan information som användaren inte tros ha någon nytta av bort från sökresultat. Med andra ord så skapas filter för vad en algoritm räknat ut att en användare vill se.

1.5. Algoritmers etik.

Kraemer m.fl (2010) hävdar att även om inte själva algoritmen, eller handlingen, som en aktör utför är värdeladdad så har utvecklaren i många fall varit tvungen att göra något sorts beslut i designprocessen (principiellt, etiskt, moraliskt). Beslutet görs ofta genom att utvecklaren väljer vad denne anser är rätt. Därmed hävdar författarna att algoritmer kan innefatta en värdeladdning och i vissa fall vara en realisering av en åsikt i kontroversiella etikfrågor. Kraemer m.fl använder som exempel ett system, som med hjälp av en tröskel analyserar celler och klassificerar dem som elakartade eller godartade, för att underbygga detta. Med exemplet målar Kraemer m.fl upp en bild om hur ovetskapen om hur en algoritm fungerar kan leda till problem på grund av olika synvinklar. Beroende på vilken, eller vilka, yrkesgrupper och ideologier en användare tillhör hävdar författarna att resultatet av en algoritm kan vara passande eller opassande. Systemet de undersöker används både inom forskning och vård.

Inom forskningsvärlden finns i många fall den grundprincip Karl Popper (1968) presenterar, dvs. att det är bättre att preliminärt falsifiera en hypotes, än att bekräfta den. Vid tveksamheter är det alltså bättre att benämna något som falskt, och låta senare forskning reda ut det, än att se en oklarhet som sann. Inom vårdsektorn, där människor behandlas, kan en falsifiering av ett inte helt säkert resultat leda till att en patient blir sjukare, eller att en sjukdom inte förebyggs. Därmed föredras det att göra fler tester än att tills vidare lägga ner undersökningen. De två synsätten skiljer sig åt vilket också det resultat de vill ha gör. Kraemer m.fl menar därmed att en algoritm kan producera värdeladdat resultat.

2.

Problematisering

Kraemer m.fl (2010) visar genom sin studie, av en algoritm som klassificerar celler, att algoritmer inte möjligtvis behöver vara värdeladdade men att de kan producera värdeladdat resultat, dvs. en produkt alstrad utifrån en värdering. Värderingar skapas av ett tankemönster och är något som vi människor tillskriver objekt (NE, 2012) och kan därmed inte utföras av algoritmer, som inte är kognitiva och därmed inte tänker. Algoritmerna kan emellertid sätta värderingarna i kraft, som forskningen menar, genom att utvecklarna implementerar dem i system och program (se t.ex, Kraemer m.fl 2010; Turilli 2007; Arkin 2009).

De personaliserande sökalgoritmerna som utgjör sökmotorerna använder sig av ett stort antal referenspunkter. Innehållet av sådana referenspunkter har visat sig kunna alstra värdeladdat resultat (Kraemer m.fl 2010). Därmed finns det anledning att undersöka hur dessa variabler ser ut innehållsmässigt såväl som hur de tillämpas.

(11)

4

Dessutom hanterar och inhämtar sökmotorerna data från användarna. Bearbetningen av data är intressant då den resulterar i en kontext likt, ”användare 1 har sökt på ämnet 2 och besökt hemsida 3”. Denna hantering av data, och sätt att använda den, är specifik för de personaliserande sökmotorerna. Det finns således en anledning att undersöka hur sökmotorerna samlar in data om användaren och sätter det i en kontext.

3. Syfte

Med denna studien ämnar vi undersöka vad som utmärker en personaliserande sökmotor och därefter besvara frågorna:

 Vilken inverkan har profilerna på sökmotorns resultat?

 Vilka åsikter kan användare ha om resultatet, insamlingen av användarinformation samt skapandet av profiler och lagringen av dem? Genom studien ämnar vi få en ökad förståelse för hur personaliserande sökmotorer fungerar.

(12)

5

4. Metod

4.1. Kvantitativ eller kvalitativ

Vid insamling av data finns det två generellt accepterade metoder; den kvantitativa och den kvalitativa (Bryman 2011). Den kvantitativa metoden har som syfte att systematiskt samla in kvantifierbara data. Den data som samlats in kan sedan analyseras statistiskt och användas för att bekräfta en tidigare ställd hypotes. Det kvalitativa tillvägagångssättet har emellertid som syfte att hitta, förstå och förklara ett fenomen, i motsats till den kvantitativa metoden som ämnar bekräfta eller falsifiera något som redan är uppmärksammat. Ett kvalitativt tillvägagångssätt kan förklara ett fenomen för ett specifikt fall och kan därmed inte i första hand generaliseras. Genom användningen av kvantitativa metoder kan däremot ett fenomens spridning bättre förstås. Denna studie förhåller sig till ett induktivt angreppsbegrepp. Det betyder att den istället för att vara deduktiv, och således teoriprövande, är teoriskapande. Därmed används en kvalitativ metod vilket ofta förknippas med just induktiva studier (Bryman 2011).

4.2. Datainsamling

Datainsamlingen i denna studie sker på två plan: genom analys av sekundärdata och insamling av primärdata. Den sekundärdata som analyseras utgörs främst av litteratur presenterad inom forskningsvärlden. Syftet med insamlingen av litteratur är att analysera primärdatan som samlades in med hjälp av kvalitativa intervjuer.

4.2.1. Primärdata

Primärdatan utgörs av intervjuer. Intervjumetoden är särskilt användbar för att få insikt i en individs perspektiv av ett ämne eller en fråga (Bryman 2011). Det är användarnas åsikter och reflektioner kring sökmotorer och deras mekanik som är i fokus för arbetet.

Fem studenter från Malmö högskola valdes ut för att intervju. Syftet med intervjuerna är att få grepp om hur användare av sökmotorer reflekterar över resultatet de får av sina sökningar på sökmotorn Google samt gå djupare in på deras tankar, reflektioner och åsikter.

4.2.1.1. Målgrupp

Studenter utgör en population inom vilken individerna skiljer sig väldigt mycket i intresse och kompetenser men har gemensamt att de ofta söker information. De tillhör också en institution som, i de flesta fall, lär ut hur man bör ha ett kritiskt förhållningssätt gentemot information; både hur den samlas in, hur den bearbetats och i vilken form de själva får ta del av den. Föreställningen är att användare i regel inte reflekterar över sökmotorer i någon större utsträckning. Det är alltså på god grund som studenterna väljs ut då de, om någon i användarskaran, reflekterar över sökmotorerna och informationen de tillhandahåller. Om antagandet inte stämmer, så kommer emellertid deras kritiska förhållningssätt hjälpa dem att föra

(13)

6

en diskussion kring ämnet. Valet inom målgruppen studenter på Malmö högskola är vad Bryman (2011) kallar ett bekvämlighetsurval, alltså val beroende på tillgänglighet. Bekvämlighetsurvalet är befogat då en generell representation av studenterna på Malmö högskola sågs som mindre viktigt för studiens syfte och frågeställning.

4.2.1.2. Intervjumetod

Metoden som används i studien är ostrukturerade intervjuer. Vid ostrukturerade intervjuer används en PM som minneshjälp under intervjuns gång. I övrigt får den intervjuade tala fritt och styra intervjun dit den vill (Bryman 2011).

Intervjuerna i studien görs vid två olika tillfällen med ca två veckors mellanrum. Vid första tillfället så intervjuas tre personer och vid det andra så intervjuas två personer. Tiden mellan de olika tillfällena skapar här en möjlighet att analysera intervjuerna från det första tillfället och därmed bygga på kunskapen inför det andra tillfället. Två tillfällen, i kombination med ostrukturerade intervjuer, öppnar därmed upp för möjligheten att gå än djupare vid de senare intervjuerna. Detta är en process som används inom Glaser & Strauss Grounded Theory (Glaser & Strauss 1999). I grounded theory sker en första insamling av data efter att problemställning, syfte och frågeställning utarbetats. Sedan analyseras och kodas det första materialet för att på så sätt synliggöra mönster och möjliggöra kategorisering av olika uttalande. De olika kategorierna mättas – ett tillstånd då ingen ny data tillför ny information – sedan genom att nya datainsamlingar görs. Iterationen sker tills nyinsamlad data inte tillför någon ytterligare information till kategorierna eller alstrar nya kategorier. Då kategorierna mättats kan insamling av data och analys från andra parter, i det här fallet litteratur inom den akademiska världen, hämtas för att på så sätt kunna skapa abstrakta teorier. Intervjuerna i vår metod, vilkas ljudspår spelas in på mobil, påbörjas genom att intervjupersonen får frågor rörande kön, ålder och utbildning. De tre parametrarna används inte i studien men vid genomförandena av intervjuerna är detta inte något vi är medvetna om. Frågorna ställs då sådant som kön, ålder och utbildning skulle kunna användas som ett sätt att analysera vad som sägs under intervjuerna. Efter frågorna om kön, ålder och utbildning ritas ett exempel upp för den intervjuade (se figur 1). Bilden ritas upp på papper och intervjupersonen kan se hur den växer fram. Varje intervju påbörjas på samma sätt för att direkt sätta igång tankegångar som söks med metoden. Exemplet som används i intervjustudien är sökmotorn Google som samlar in information om användarna, för att personalisera deras sökningar (Google 2012).

Figuren visar hur två användare av Googles söktjänst skickar samma sökfråga men får tillbaka olika resultat. Intervjupersonen frågas, efter att exemplet ritats

(14)

7

upp, huruvida de någonsin noterat detta i Googles beteende.

Efter det inledande exemplet och den inledande frågan så finns inga förberedda frågor nedskrivna, vilket gör intervjutekniken till ostrukturerad (Bryman 2011). Istället hålls intervjuobjektets tankegångar vid liv genom att följdfrågor ställs. Dessa följdfrågor är byggda på vad den intervjuade själv tycker är intressant och en minnesanteckning intervjuaren har med sig. Denna minnesanteckning skiljer sig mellan de två olika tillfällena. Som ovan nämnt så bygger det andra tillfället på det första tillfällets fynd. Minnesanteckningen är vid första tillfället en nerbantad version av den inledning som finns formulerad i början av denna uppsats (se kapitel 1.). Vid det andra tillfället är den utökad med olika minnesanteckningar från det första tillfället.

4.2.1.3. Genomförande

Fem stycken intervjuer genomförs med fem olika personer ur den ovan nämnda målgruppen. Tre av intervjuerna utförs vid ett första tillfälle och två vid ett andra. Intervjuerna sker också på två separata platser. Intervjuernas längd skiljer sig men är mellan 18-29 minuter långa. Värt att notera var att de två sista intervjuerna är de kortaste, 18 respektive 21 minuter långa.

4.2.2. Sekundärdata

För att analysera intervjuerna och uppfylla syftet med studien så samlas sekundärdata in genom en litteraturstudie. Litteraturen som samlas in och studeras består av sådant som presenterats inom den akademiska världen för att på så sätt skapa en bild av vad forskningen tidigare alstrat (se t.ex. Kraemer m.fl 2010; Turilli & Floridi 2009). Den tidigare forskningen spelar stor roll i denna studie då det är utifrån den som vi analyserar primärdatan, alltså de uttalande som samlats in genom intervjuer. Litteratursökningen görs successivt under studiens gång i samband med att primärdatan analyseras men också samlas in. Det vetenskapliga materialet som används i studien utgörs av böcker, proceedings från konferenser samt artiklar ur vetenskapliga tidskrifter (se t.ex. Pfeffer & Salancik 2003; Kumaran & Allan 2008; Limbu m.fl 2006) . Vad samtliga material har gemensamt är att de alla bygger på någon sorts tidigare forskning och teori. De flesta av de litterära verken, så som proceedings och vetenskapliga artiklar, har genomgått en peer-review; de är alltså granskade av andra forskare, specialister

(15)

8

och fackfolk. Böcker är däremot oftast inte alltid granskade av ett flertal specialister, innan publikation, och används därmed i denna studie relativt sparsmakat, med metodkapitlet som undantag. Valet av Bryman (2011), Glaser och Strauss (1999), Popper (1968) samt Pfeffer & Salancik (2003) görs på grund av deras förankring i den vetenskapliga världen.

4.2.3. Metoddiskussion

Denna studie fokuserar i huvudsak på ett system och kan därför inte generaliseras till andra system. Studiens resultat berör emellertid andra system, inte bara personaliserande sökmotorer, utan också andra personaliseringstjänster. Personaliseringen är inte unik för sökmotorer och de problem vi uppmärksammar med denna studie kan därmed också vara aktuella för andra personaliserande tjänster.

För att genomföra vår studie använder vi oss av en metod som i vissa bemärkelser är tämligen enkel. Den består av korta, iterativt utförda, ostrukturerade intervjuer. Intervjuerna genomförs på allmän plats med relativt få människor inom en relativt stor målgrupp. Enkelheten kan i detta fallet vara både bra, ur belastningssynvinkel, och mindre bra ur informationssynvinkel. Bryman (2011) hävdar att inget optimalt standardantal för intervjuobjekt finns dokumenterat, då studier i regel skiljer sig åt på väldigt många sätt. Även informationsnyttigheten från intervjupersonerna kan skilja sig. Därmed föreslår Bryman att antalet intervjupersoner är irrelevant om en tillräcklig informationsmängd uppnås. Samma tanke, informationsmättnad, finns i Glaser & Strauss (1999) Grounded Theory som tillämpas i studien. Eftersom den informationsmängd som samlas in i studien är tillräcklig stor för att generera ett resultat kan fem intervjuer därmed ses som ett tillräckligt antal för denna studie. En längre pågående process med fler intervjuer hade emellertid kunnat generera ett mer omfattande resultat, men med tanke på syftet med studien och avgränsningarna som det medför sig kan metoden ses som lyckad.

Grounded theory och metoden den innefattar uppmärksammas, av bland annat Bryman (2011), som en bra grund till kvalitativa studier men att den inte alltid utförs i exakt den utformning Glaser & Strauss (1999) presenterade i sitt första verk 1967. I denna studie använder vi, som Bryman noterar, inte heller en metod som helt följer grounded theory, men som har sin grund i den. Bryman uppmärksammar också vikten i att tillämpa just tankesättet mer än teknikerna, bakom grounded theory, vilket är vad vi gör i denna studie. Det vi använder oss av i studien är den iterativa insamlingen och analysen samt tankesättet grounded theory innefattar. Den skapar möjligheter att gå tillbaka och lära sig mer där information saknas vilket är något som visar sig vara nyttigt för vår analys och diskussion. Vi använder också den grundsyn Glaser & Strauss presenterade med att kategorierna, som är delresultat av iterationen, ofta inte kan sluta fyllas helt med information. Därmed slutar analysen i regel när forskaren inte längre har tid eller möjlighet att samla in eller analysera mer data (Glaser & Strauss 1999). I denna studie är bristen på tid en stor faktor med konsekvensen att fem personer väljs ut för intervjuer och att två insamlingar av primärdata görs. Mängden gör att vi inte mättar var kategori helt. Grounded theory handlar emellertid, som ovan

(16)

9

nämnt, inte om att fylla ut kategorier och bepröva hypoteser då den istället har som syfte att generera nya begrepp och ny teori (Strauss & Corbin 1998).

Vårt syfte i studien är att bygga på kunskapen om hur en personaliserande sökmotor fungerar samt hur användare uppfattar personaliserande sökmotorer. För att lära oss hur en personaliserande sökmotor fungerar använder vi oss av vetenskapligt publicerat material där personaliseringstjänster beskrivs. Ett alternativ till att använda oss av litteratur kan vara ett experiment. Experimentet skulle kunna vara att ta en sökmotor med personalisering och sedan använda den för att söka på lika sätt men med olika förutsättningar. Dessa förutsättningar skulle kunna vara typiska variabler som personaliseringstjänster använder. Exempel på dessa variabler är personliga inställningar i webbläsare och tidigare sökbeteende (se t.ex Limbu m.fl 2006; Zhang & Seo 2001). Resultaten av experimentet hade kunnat ge oss en bild av effekten av en personalisering i en sökmotor, dvs. hur sökresultat eventuellt skiljer sig på grund av olika personaliseringar. I denna studiens utförande ligger fokusen istället på algoritmerna som ligger bakom och inte så mycket på effekten av dem.

Det andra syftet, att ta del av de åsikter användare av personaliserande tjänster har i ämnet, hade också kunnat nås genom alternativa metoder. En kvantitativ enkät hade kunnat generera ett svar på vilka åsikter användarna har. Emellertid kan kvantitativa metoder begränsa alternativa idéer och sätt att se på en företeelse (Bryman 2011). Den kvalitativa forskningsprocess vi använder oss av i studien har en styrka i att en alternativ idé eventuellt kan leda till det huvudsakliga resultatet av en studie (Bryman 2011). Vi ämnar i denna studie att utforska de tankar som finns hos användare; inte bekräfta eller falsifiera något vi redan tror. Därmed hade inte vår ansats och process, som den ser ut i den aktuella studien, gynnats av en kvantitativ insamlingsmetod.

(17)

10

5. Teori

5.1. Personaliserande algoritmer

De personaliserande algoritmerna som används i många av dagens sökmotorer använder sig av användaren och dennes intressen som en referenspunkt vid sökningar (se t.ex Zhang m.fl 2001). Nedan kommer en algoritm för personalisering i sökmotorer, utvecklad av Limbu m.fl (2006), att presenteras.

Contextual Relevance Feedback in Web Information Retrieval av Limbu m.fl publicerades 2006 i Proceedings of the 1st international conference on Information interaction in context och beskriver en personaliserande sökmotor som författarna utvecklat (Limbu m.fl 2006). Personaliseringen i sökmotorn görs utifrån vad Limbu m.fl kallar implicit respektive explicit data (Limbu m.fl 2006; Connor m.fl 2010; Limbu m.fl 2009). Implicit data är den data sökmotorn hämtar in som beskriver en användares beteende vid informationssökning och explicit data är det som utefter implicit data och sökfras hämtas från ontologier, ordböcker osv. för att bland annat tolka diverse ordbetydelser i sökfrasen.

Användarens implicita data hämtas genom användarens webbläsarloggar och sparas i en profil. Profilen består av tidigare besökta URL:er, tidigare använda sökord eller fraser, påföljande URL:er efter de tidigare besökta hemsidorna samt de metanyckelord som finns att hitta på webbplatserna. Profilen byggs stegvis upp efterhand som användaren söker och använder webbläsaren. När en användare sedan skriver in ett sökord i sökmotorn så börjar den explicita datan dvs. ontologier, ordbetydelser osv. att hämtas.

Vid en sökning tolkas sökordet genom att relaterade ord – t.ex. ”golf” och ”slägga” vid sökordet ”klubba” – hämtas från en lexikal databas. Användaren kan sedan interaktivt välja bland dessa. Med den specifika innebörden av sökordet identifierat kan de metanyckelord som tidigare samlats in användas som referenspunkt för att hämta ut ämnen, eller ontologier, som sedan visas för användaren. Användaren kan därefter välja ett mer relevant ämne eller behålla det ämne som algoritmen valt ut. När användaren gör sin sökning omformuleras den initiala sökfrasen och resultatet hämtas utifrån den nya frasen.

Det finns många likheter mellan Limbu m.fl (2006) system och andra sökmotorer med personalisering. Både Klink m.fl (2003) system RUBIC och Zhang m.fl (2001) system WAIR modifierar sökfrasen baserat på tidigare sökningar. WAIR använder sig dock inte av explicit data, vilket RUBIC och Limbu m.fl (2006) system gör. Sättet att lagra och använda den explicita datan skiljer sig däremot mellan Limbu m.fl och Klink m.fl system. RUBIC hämtar explicit data baserat på sökord, genom att jämföra dem med ämnen (t.ex. golf), medan Limbu m.fl system utgår ifrån sökordet samt profilen, som beskriver användaren, när den hämtar explicit data. Efter en sökning med Limbu m.fl system sparas hela profilen, med både implicit och explicit data som ett och läggs i en databas; vilket skiljer sig från RUBIC som inte sparar den explicita datan i profilerna. I Limbu m.fl system används profilerna i databasen också som referenspunkter och kunskapsbaser vid sökningar som andra användare gör. Ytterligare uppdateras hela profilen kontinuerligt efter hand som användaren nyttjar samma webbläsare. Det gör att

(18)

11

nivån av personalisering i Limbu m.fl system blir högre med tiden (Limbu m.fl 2006).

Senare analys av Limbu m.fl (2006) system visar att algoritmen och tekniken de utvecklat har fördelar vid sökningar. Graden av både förbättringen av sökningar och tillförlitligheten av resultaten, som analyserna producerade, är emellertid inte helt säker (Limbu m.fl 2009; Connor m.fl 2010). Upphovsmännen till systemet ser dock ett antal problem med sitt system, bland annat, och mest relevant för denna studie, är att granskningen av användarnas internetbeteende kan leda till att personlig integritet kränks eller att säkerheten tar skada. Alltså kan systemet behöva ses över ur ett etiskt perspektiv (Limbu m.fl 2006).

5.2. Datavetenskaplig etik och arbetssätt

Hänsyn till etiska frågor blir allt mer efterfrågad av forskare vid utvecklingen av system i allmänhet. Forskare som t.ex. Turilli (2007) menar att systemutvecklare numera inte bara måste ta hänsyn till de rent sociala och juridiska perspektiven då de utformar system; de måste även beakta de etiska perspektiven.

5.2.1. Legitimitet och säkerhet

Organisationer och människor formas av sin omvärld och är även beroende av den (se t.ex. Pfeffer & Salancik 1978). Omvärlden har förväntningar på att arbetet i en verksamhet sker på ett visst sätt, då det finns delade normer, världsuppfattningar och värderingar. Så länge som en organisation inte avviker från de förväntningar omvärlden har på dem så ses de som legitima. Legitimiteten är en förutsättning för att organisationer ska få sådana kritiska resurser som investeringar och kunder. Således måste organisationer, för att överleva, jobba inom de förväntningsramar som omvärlden har på dem. De gör detta genom att formulera policies och rutiner som de anställda ska arbeta efter. Individer i organisationer formas i regel genom och arbetar utefter dessa policies. System i allmänhet är emellertid ofta autonoma och kan därmed utföra arbete som individer tidigare har gjort (Turilli 2007). Skillnaden mellan individerna och de autonoma systemen, aktörer (se t.ex Hawkes 2003), är att policies, normer och värderingar inte direkt påverkar systemen, de formas inte av varken omvärlden eller organisationen. För att aktörer eller algoritmer ska arbeta utefter samma normer, policies och etiska principer som individerna i organisationen så måste det programmeras in i dem (Turilli 2007). Turilli (2007) hävdar att brist på implementerade etiska principer i system leder till att organisationer kan bli etiskt och moraliskt inkonsekventa. Det kan i sin tur ha förödande konsekvenser både för kunder men också för organisationens legitimitet. Kunder till organisationer förväntar sig till exempel att hanteringen av deras personliga information är säker. Tilltron till att organisationen hanterar information säkert kommer av att företagets arbete sker utifrån etiska principer och policies. Kunder och användare ger bort sin personliga information i tron att företaget håller sig inom de handlingsramar omvärlden och organisationen har. Om algoritmer inte jobbar efter dessa principer så finns det en risk att, som Turilli (2006) hävdar, de policies och professionella koder som reglerar hanteringen av känslig information förkastas. Utgången, av att regleringen av informationshantering inte är tillräcklig, kan enligt Turilli vara sådant som

(19)

12

identitetsstölder. Lösningen på detta ska vara att specificera de etiska principerna i utvecklingsfasen av ett system.

5.2.2. Informationstransparens

Informationstransparens inom datavetenskapen syftar i många fall på vilken information som är öppen för användare. Turilli och Floridi (2009) talar om transparensen som en pro-etisk faktor. Beroende på vilken information som visas kan den ge upphov till såväl positiva som negativa konsekvenser. Författarna talar om hur informationstransparens öppnar upp möjligheten, för verksamheter, att visa omvärlden att de arbetar efter de regulativa krav samt de etiska och moraliska standarder som de påstår sig följa. På så sätt kan en verksamhet, genom informationstransparens, utåt visa sin etiska ställning och därmed stärka den bild omvärlden har av verksamheten. Emellertid så kan informationstransparensen blotta eventuella avvikelser från de regulativa kraven och de etiska principerna vilket försvagar den bild omvärlden har på verksamheten. Som ovan nämnt i avsnitt 5.2.1 så är verksamheter beroende av den bild omvärlden har av dem. Informationstransparensen innefattar hur information hanteras, både hur och om information visas direkt för användaren, men också sådant som lagringen av den insamlade informationen (Turilli & Floridi 2009). Hanteringen av den, från användaren insamlade informationen, kan både ha negativa och positiva effekter. Öppna medicinska journaler kan leda till att forskningen gör framsteg och därmed kanske räddar liv. De öppna journalerna kan emellertid också leda till att exempelvis personlig integritet kränks. Algoritmer som automatiserar arbete kan skapa en risk för att en organisation inte är etiskt enhetlig. Det etiskt inkonsekventa arbetssättet i en organisation kan bli uppenbart genom transparensen.

5.2.3. ACMs Code of Ethics and Professional Conduct

Association for Computing Machinery (ACM) är ett akademiskt samfund med intresse i forskning och pedagogik inom ämnet datavetenskap. De har mängder med publikationer och tidskrifter från den vetenskapliga världen och är den största intresseorganisationen inom det datavetenskapliga ämnet.

ACMs Code of Ethics är en samling med etiska riktlinjer för hur medlemmar inom ACM, och ofta samtidigt professionella inom datavärlden, förväntas uppföra sig och ta beslut (ACM 2012). Den innehåller 24 krav, uttryckta som påståenden, över hur beslut bör tas för att upprätthålla den yrkesetik ACM står för. Koden rör sådana ämnen som till exempel personlig integritet, behandling av andras information, trovärdighet och strävan efter utveckling av bra produkter. Koden lägger mycket vikt vid att den som är ansvarig för en produkt inom datavärlden är den som utvecklar den. Anledningen till detta är att i slutändan är det upp till individen att ifrågasätta och bestämma om hon vill vara med i utvecklingen av något.

Nedan följer ett antal citat, från etikkoden, som är relevanta för vår studie.

If system features are misrepresented to users […] the individual computing professional is responsible for any resulting injury.

(20)

13

Om systemets funktioner är missvisande för användare så är det den individuella utvecklaren som står till svars för konsekvenserna.

The honest computing professional will [...] instead provide full disclosure of all pertinent system limitations and problems.

De begränsningar och problem som anses relevanta med ett system bör vara synliga för användarna.

…procedures must be established to allow individuals to review their records and correct inaccuracies. This imperative implies […] that retention and disposal periods for that information be clearly defined and enforced…

Vid insamlandet av data ska en individ ha tillgång till att se och redigera sina egna uppgifter. Information om lagringen och lagringstiden av individens uppgifter ska också vara klart definierade.

(21)

14

6. Resultat och diskussion

Nedan presenteras resultatet av studien. Det består i huvudsak av en diskussion kring det insamlade materialet och analysen illustreras med hjälp av bland annat utdrag från transkriberingarna av intervjuerna.

6.1. Profilernas inverkan på sökresultatet

Den personaliserande sökmotorn vi har som referensunderlag i denna studie samlar in information kring dess användare. Den tar del av tidigare sökningar, tidigare besökta webbplatser, preferenser och geografiskt läge (se Limbu m.fl 2006). Informationen används för att bygga upp en profil som beskriver användarens intressen. Varje profil är en unik kombination av tidigare sökfraser, besökta webbplatser eller, som Wedig och Madani genom sin analys kommer fram till, en specifik kombination av ämnesintressen (Wedig & Madani 2006). De olika profilerna genererar därmed olika resultat beroende på de olika profilernas innehåll (se Limbu m.fl 2006).

Resultatet kan betraktas som värdeladdat eftersom algoritmen räknar ut att enligt profil 1 är länk 1 mer intressant än vad länk 2 är. Till skillnad från Kraemer m.fl (2010) exempel då utifrån tröskel 1 är cell 1 godartad och cell 2 skadlig. Om profil 1 i vårt exempel, eller tröskel 1 i Kraemers m.fl exempel, skulle få ett annat innehåll skulle värderingen av cell 1 och länk 1 kunna vara annorlunda. I Kraemers exempel kan värdet av tröskel 1 resultera i att en patient blir ännu sjukare, eller att forskningen får in fel data. För användaren resulterar skillnaden mellan värdena i mer eller mindre relevanta länkar i svaret från sökmotorn.

Värdeladdningen i resultatet från sökmotorerna är vad som gör resultatet fördelaktigt ur ett användbarhetsperspektiv. Intervjupersonerna talar om hur ett sökbeteende inte kommer att ändras med tiden och att det är fördelaktigt om sökmotorn ser mönstret och förhåller sig till det.

Om någon sökt på resor fyra gånger så vill hon nog inte ha upp nyheter den femte gången, hon vill ju söka resor. [...] fördelen är att hon får det hon oftast vill se.

(IP3) Wedig och Madani visar, genom en analys av sökmotorsloggar, att användare är konsekvent intresserade av samma kombination av ämnen under en längre tidsperiod (Wedig & Madani 2006). Efter hand som tjänsten används byggs också profilerna på och uppfattningen av användarnas intressen blir mer omfattande. På så sätt förstärks också personaliseringen (se Limbu m.fl 2006), som i sin tur förbättrar informationssökningarna på Internet (El-Arini m.fl 2012).

6.2. Problemområden

Även om den personaliserande sökmotorn generellt under intervjuerna ses som positiv, så tas även problematik med tjänsten upp. Genom att konstatera att varje användarprofil som söktjänsten innehar är en unik uppsättning av gjorda sökningar och besökta hemsidor drar intervjupersonerna slutsatsen att varje

(22)

15

sökresultat också är unikt, trots att sökfrasen är vanligt förekommande. En av intervjupersonerna talar om detta som ett problem i den bemärkelsen att söktjänsten levererar resultat som i huvudsak är riktat till webbplatser med åsikter som användaren redan har och därmed skapar en personlig verklighet. Intervjupersonen använder sig av ett exempel som illustrerar hur en användare med en specifik politisk åsikt får åsikten bekräftad som korrekt och objektiv genom att söktjänsten alstrar ett resultat med politiska nyheter och uppfattningar som stödjer användarens åsikt.

Då kanske man är av uppfattningen av att det är ett reellt problem. Medan andra som inte får det resultatet kanske har en helt annan uppfattning. Då har vi en som tycker att han har rätt och vet att han har rätt. Och då får vi ingen som helst förståelse för varandra. (IP 1) Denna teori stöds av författaren Eli Pariser, som ser personaliseringen som en censur och ett hot mot innovation och kreativitet (Eli Pariser 2011). Parisers verk har emellertid mött en del kritik då Google, som han inriktar sin analys på, säger sig ha algoritmer som förhindrar de personliga verkligheterna (se Weisberg 2011). Dessutom behöver inte människor nödvändigtvis använda sig av söktjänsterna som den enda tillhandahållaren av information på Internet. Förr i tiden fördes nyheter vidare genom mänsklig interaktion. Genom internet är nu detta möjligt över en stor geografisk yta, med bara ett par sekunders fördröjning. I sökresultatet kan webbmaterial som motsäger sig till åsikten självklart finnas, då inga länkar, i vårt referenssystem, praktiskt tas bort. Istället nedprioriteras länkarna och hamnar utanför förstasidan av resultatet (se Limbu m.fl 2006). Som Wedig och Madani menar så läser emellertid användare i regel inte efterföljande sidor i resultatet, utan håller sig till den första sidan (Wedig & Madani 2006). De personliga verkligheterna är i vårt referenssystem möjliga då resultat som stödjer åsikterna användarna har kan prioriteras och därmed bli självständigt synliga för dem. Att användarna skulle ta till sig de personliga verkligheterna ter sig vara beroende på hur stor tillit de har till resultatet samt hur isolerade de är från sin omvärld och resten av internet.

Intervjupersonens exempel vittnar emellertid om att det finns en tilltro till att söktjänsten levererar relevant material, i form av en helhetsbild av det som finns kring ämnet på internet. Exempel:

man har ett förtroende för att det man söker fram motsvarar en verklighet. […] om man tror att man får en vanlig dagstidning, men får en extremisttidning, när man googlar, så är det problematiskt. (IP 1) Förtroendet kommer från den legitimitet vi tillskriver företaget som tillhandahåller tjänsten. Användarnas intryck av sökmotorerna, om de fungerar som ovan nämnt, bör vara positivt då de med sina personaliseringstjänster ur användarens synvinkel utför bra informationssökningar. El-Arini m.fl (2012) konstaterar att användare ofta inte vet om att deras resultat är skräddarsytt för just dem och de kan därför inte förstå varför, eller hur, deras resultat skiljer sig från andras. Emellertid finns det med tanke på problematiken anledningar för användare att veta hur algoritmerna fungerar. El-Arini m.fl hävdar ytterligare att de personliga sökningarnas resultat kan vara opassande för en användare. Det kan

(23)

16

ha sin grund i exempelvis att algoritmen gör fel, dvs. misstolkar information och prioriterar så kallat fel, alltså opassande, webbplatser, eller mer subjektivt att även om algoritmen gör rätt tolkning så kan användaren tycka att delar av de insamlade intressena inte är något sökningarna bör byggas på. Till exempel att användaren lånat ut sin dator till någon annan. En av intervjupersonerna talade om hur hans flickvän använde hans persondator för att söka efter kläder och skor. Kläder och skor intresserar inte honom trots att hans profil till stor del består av hennes intressen och favoritwebbplatser.

Nu har jag blivit henne på min dator, för hon använder den mycket. (IP 5) En av intervjupersonerna ifrågasätter hur långt insamlingen ska gå. Personen menar att den djupa informationen inte nödvändigtvis kommer att hjälpa till i den dagliga användningen av söktjänster och istället skapar en risk för att en tjänst eller ett företag innehar för mycket information.

Frågan är hur mycket google får ha av varje person? Det är jättesvårt. [...] Måste man verkligen ha köpvanor, sexvanor eller vad som helst? Varför ska man ge Google all den informationen om oss? Det bara

skapar en risk. (IP 1)

Att söktjänsten innehar så mycket information om enskilda personer ses som problemartat då den profil söktjänsten bygger upp till stor del beskriver individen, genom beskrivning av intressen. Beskrivningen skapas genom att en icke-tänkande algoritm samlar in information och sedan benämner det som intressen. Detta kan som tidigare nämnt bli fel om informationen är missvisande eller om informationen missuppfattas av sökmotorn (El-Arini m.fl 2012). Därmed kan lagringen och hanteringen av profilerna vara av stor vikt då (1) de kan innehålla information som användaren anser vara privat (2) och informationen i sin tur dessutom kan vara fel. En av intervjupersonerna illustrerade med ett exempel.

Google kan ju skapa en bild av dig på nätet, som inte stämmer överens med den verkliga dig. Tänk om jag skulle rekrytera dig och sedan söker på Google efter dig, så har du en helt annan identitet där. Det kan vara Googles teknologi som har samlat ihop en bild av dig som verkligen

inte stämmer. (IP 2)

Oavsett om bilden stämmer eller inte och om hanteringen av denna information gör att den inte är öppen för allmän beskådan, så hävdar ACM (2012) att det tillhör professionellt arbetssätt att ge användare en möjlighet att se och ändra i informationen. Turilli och Floridi (2009) talar om hur ett professionellt arbetssätt kan bli synligt genom transparensen och hur ett säkert arbetssätt kan ha positiv inverkan på bilden omvärlden har av företaget. Turilli och Floridi argumenterar dock om hur nivån av transparens är viktig att beakta. En hög transparens skulle kunna leda till att det exempel intervjupersonen ger är möjligt, dvs. att profilerna i sig blir synliga. En nivå av transparens där användaren kan ändra i informationen tjänsten samlat in kan ha positiv inverkan på användbarheten av personaliseringen då möjligheten att ändra och ta bort opassande eller felaktig information förbättrar personaliseringen (El-Arini 2012) och därmed också sökningarna.

(24)

17

6.3. Avslutande diskussion

I detta avsnitt summerar vi diskussionen kring resultatet utifrån de två frågor som finns i avsnitt 3:

 Vilken inverkan har profilerna på sökmotorns resultat?

 Vilka åsikter kan användare ha om resultatet, insamlingen av användarinformation samt skapandet av profiler och lagringen av dem? Resultatet av de personaliserade sökmotorerna blir värdeladdat dvs. att det är gjort utefter en värdering, i detta fallet utifrån vad användaren vill se, alltså utifrån vad användarens profil innehåller. Det värdeladdade resultatet är inriktat på vad användaren tycker är intressant vilket är en klar fördel vid informationssökningar på ett så stort plan som internet (El-Arini m.fl 2012). Intervjupersonerna anser att det personaliserade resultatet är bra, då de ofta är intresserade av specifika saker och därmed vill ha fram sådant som är relaterat till de ämnena. De talar också om hur det sökmönster de har, ser ut så av en anledning. Exempelvis vill användaren förmodligen söka på resor en femte gång, om hon sökt på resor de fyra tidigare tillfällena. Undersökningar av sökmotorsloggar, gjorda av Wedig och Madini (2006), stödjer intervjupersonernas teori, genom att visa att användare ofta förhåller sig till samma ämnen, även över en längre tidsperiod. Således finns det en klar fördel i att basera informationssökningar på tidigare sökningar.

Intervjupersonerna uppmärksammar att sökningar resulterar i länkar som användaren kan förknippas med. De ser detta som ett enkelsidigt sökresultat som i sin tur är ett möjligt problem om användare ser sökmotorns resultat som en helhetsbild av den information som internet innehar av ett ämne. Att sökmotorn nedprioriterar sådant som användaren inte tycker är intressant leder till att resultatet kan bestå av bloggar och andra webbplatser som stödjer åsikten och därmed inte ger någon opposition på den. Således menar intervjupersonerna att unika verkligheter kan skapas för var användare. Att detta är ett verkligt problem verkar dock vara mindre troligt på grund av omvärlden som kan sitta på åsikter som motsäger det ensidiga resultatet.

Profilernas utformning samt lagringen av dem anses av intervjupersonerna vara något som bör tas i beaktning. Varje profil innehåller privat information och beskriver dess användares intressen, men kanske också användarens personlighet, utifrån en observation, dvs. ett systematiskt inhämtat sökbeteende. Intervjupersonerna menar att profilskapandet görs av en relativt okontrollerad entitet, då de själva inte är medvetna om hur sökmotorerna fungerar, och de menar att profilerna kan se ut lite hur som helst. Profilerna kan också vara felaktiga då sökbeteendet inte alltid behöver vara utifrån intresse utan kan exempelvis vara utifrån hänvisningar från andra individer, eller någon annan som använder personens dator.

7. Slutsats

Vi kommer genom studien fram till att värdeladdningar kan implementeras i system och algoritmer (Kraemer m.fl 2010). Värderingarna ligger bl.a. i variabler

(25)

18

som används för att bedöma eller/och uppskatta. I den undersökta sökmotorn använder algoritmerna variabler fyllda av den specifika användarens intressen för att precisera sökresultatet (Limbu m.fl 2006). Intressena består av insamlad information av vad användaren tidigare sökt på, vilka hemsidor denne besökt samt vilka övergripande nyckelord och ämnen som återfinns på hemsidorna. Den personaliserande sökmotorn levererar ett värdeladdat resultat i den bemärkelse att resultatet är format efter användaren vilket slutligen förbättrar den allmänna sökupplevelsen.

Genom studien kommer vi fram till att de personaliserande sökmotorerna kan ge upphov till ett ensidigt resultat samt att det ensidiga resultatet kan leda till att så kallat personliga verkligheter skapas. Vi kommer fram till att de personliga verkligheterna kan utgöra ett problem rent socialt, att vi inte förstår varandras syner på saker och ting. Emellertid argumenterar vi för att det inte finns belägg för att de personliga verkligheterna faktiskt skapas då sökmotorn inte är det enda sättet att hitta information samt att omvärlden har inverkan på användarnas synsätt.

Vi kommer fram till att personaliserade söktjänster, ur användbarhets- och integritetssynvinkel samt företagets perspektiv, kan gynnas genom en lagom nivå av transparens. Att ge användare möjlighet att ändra i den information söktjänsten samlat in från dem tillhör ett professionellt arbetssätt. Det gynnar användbarheten genom att användarna kan ta bort sådant som de inte vill att sökningar ska grundas på samt korrigera felaktigheter. Dessutom kan företaget bakom tjänsten visa, genom transparensen, hur de arbetar och på så sätt stärka den bild användarna har av dem. Att ha för hög transparens kan emellertid leda till att användarnas profiler som beskriver deras intressen blir synliga, vilket i sin tur kan betyda att känslig information om användarna blir öppna.

8.

Framtida studier:

En möjlig framtida studie skulle kunna vara grundad på ett praktiskt experiment där hypotesen ”Resultaten av de personaliserade sökningarna är ensidiga.” undersöks. Detta experiment skulle kunna genomföras genom att välja en kontroversiell fråga och sedan skapa två målgrupper, där målgrupperna har gemensamt användandet av sökmotorn men inte åsikterna i frågan. Genom att granska resultaten de båda målgrupperna får, skulle möjliga skillnader, men också enspåriga resultat pga. åsikter, bli uppenbara (målgrupp 1 har webbplats 1 gemensamt, i målgrupp 2s resultat förekommer inte webbplats 1. Webbplats 1 stödjer målgrupp 2s åsikt). Samma metod skulle kunna användas för att mäta hur pass stor påverkan unika filter har på praktiskt resultat.

Vi talar om hur transparens kan gynna de personaliserande sökmotorerna men vi presenterar inga förslag på hur transparensen praktiskt kan se ut. Utvecklingen och forskningen kring metoder som till exempel ger användarna möjlighet att beskriva sig själva som exempelvis konstintresserad eller politiskt aktiv, eller visar hur varje länk fick sin plats i det personaliserade resultatet, skulle kunna gynna de personaliserande sökmotorerna. Transparensen skulle också kunna förbättra andra personaliserande tjänster.

(26)

19

Referenser:

Arkin, R. C (2009) Accountable Autonomous Agents: The next level. A Position Paper for the DARPA Complete Intelligence Workshop

Association for Computer Machinerys (ACM) etikkod.

http://www.acm.org/about/code-of-ethics, Association for Computer Machinery, hämtad 2012-03-07

Bryman, A. (2011) Samhällsvetenskapliga metoder, 2:a upplagan. Liber AB, Malmö.

Connor, A. M., Limbu D. K., MacDonnel, S. G., Pears, R. (2010) Improving web information retrieval using shared contexts. I International Journal of Information Sciences and Computer Engineering, volym 2, nummer 1, sidor 26-35.

Croft, W. B., & Thompson, R. H. (1987). I3R: A new approach to the design of document retrieval systems. I Journal of the American Society for Information Science, volym 38, nummer 6, sidor 389-404.

El-Arini, K., Paquet, U.,Herbrich, R., Van Gael, J., Agüera y Arcas, B. Transparent User Models for Personalization, I KDD '12 Proceedings of the 18th ACM SIGKDD international conference on Knowledge discovery and data mining, sidor 678-686, ACM, New York, NY, USA, 2012.

Glaser, B. G., Strauss, A. L., (1999) The Discovery of Grounded Theory: Strategies for Qualitative Research, 4:e upplagan. AldineTransaction, Somerset, NJ, USA. Googles sekretessavtal och användarvillkor.

http://www.google.se/intl/sv/policies/privacy/, Google.com, hämtad 2012-08-25, Hawkes, T. (2003) Structurialism and Semiotics, 2:a upplagan. Routledge, London. Klink, S., Hust, A., Junker, M, Dengel, A. Collaborative Learning of Term-Based Concepts for Automatic Query Expansion. I 13th European Conference on Machine Learning, sidor 196-207, Springer Berlin / Heidelberg, Helsingfors, Finland, 2003. Kraemer, F., Van Overveld, K., Peterson, M. (2010). Is there an ethics of algorithms?. I Ethics and Information Technology, volym 13, nummer 3, sidor 251-260.

Kumaran, G., Allan, J. (2008). Adapting information retrieval systems to user queries. I Information Processing & Management, volym 44, nummer 6, sidor 1838-1862.

Limbu, D. K., Connor, A. M., Pears, R., MacDonell, S. G. Improving Web Search Using Contextual Retrieval. I Information Technology: New Generations, 2009. ITNG '09. Sixth International Conference on, sidor 1329-1334, 2009.

Limbu, D. K., Connor, A., Pears, R., MacDonell, S. Contextual Relevance Feedback in Web Information Retrieval. I IIiX Proceedings of the 1st international conference on Information interaction in context, sidor 138-143. ACM, New York, NY, USA 2006.

(27)

20

Nationalencyklopedins definition av värdering. http://www.ne.se/lang/värdering, Nationalencyklopedin, hämtad 2012-10-11.

Pariser, E. (2011) The Filter Bubble: What the Internet Is Hiding from You, Penguin Press, USA

Pfeffer, J., Salancik, G. R., (2003) The External Control of Organizations. A Resource Dependence Perspective. Stanford Bussiness Books, Stanford, CA, USA. Popper, K. R. (1968) The Logic of Scientific Discovery. Hutchinson & Co, London, Storbritannien.

Sanderson, M. Word sense disambiguation and information retrieval, I SIGIR ’94 Proceedings of the 17th annual international ACM SIGIR conference on Research and development in information retrieval, sidor 142-151, Springer-Verlag New York, Inc, New York, NY, USA, 1994

SCB, Privatpersoners användning av datorer och internet. 2011.

Stokoe, C., Oakes, M. P., Tait, J. Word Sense Disambiguation in Information Retrieval Revisited. I SIGIR '03 Proceedings of the 26th annual international ACM SIGIR conference on Research and development in informaion retrieval, sidor 159-166. ACM, New York, NY, USA, 2003.

Strauss, A., Corbin, J. M. (1998), Basics of qualitative research: Techniques and procedures for developing grounded theory. Thousand Oaks, CA, USA

Thomas, P., Rowlands, T. Estimating the Value of Automatic Disambiguation. I SIGIR ’07 Proceedings of the 30th annual international ACM SIGIR conference on Research and development in information retrieval, sidor 719-720. ACM, New York, NY, USA, 2007.

Turilli, M. (2007). Ethical protocols design. I Ethics and Information Technology, volym 9, nummer 1, sidor 49-62.

Turilli, M., Floridi, L. (2009) The ethics of information transparency. Ethics and Information Technology, volym 11, nummer 2, sidor 105-112.

Wedig, S., Madini, O. A Large-Scale Analysis of Query Logs for Assessing Personalization Opportunities, I KDD '06: Proceedings of the 12th ACM SIGKDD international conference on Knowledge discovery and data mining, sidor 742-747 ACM, New York, NY, USA, 2006.

Weisberg, J, Bubble Trouble, Is Web personalization turning us into solipsistic twits?

http://www.slate.com/articles/news_and_politics/the_big_idea/2011/06/bubble_troub le.html, Jacob Weisberg, slate.com, hämtad 2012-10-12

Zhang , B. T. & Seo, Y.-W. (2001). Personalized Web document Filtering Using Reinforcement Learning. I Applied Artificial Intelligence: An International Journal, volym 15, nummer 7, sidor 665-685.