• No results found

5. Metod och material

5.4 Material i delstudie 1: Loggfilerna

5.4.1 Lexikonuppslagningar

Som framgår av avsnitt 3.2.4.3 gjordes den första internetversionen av Lexin tillgänglig år 1995 och tio år senare tillkom den enspråkiga svenska delen, alltså LSL. Statistik på antal uppslagningar har insamlats sedan 1997. Det året gjordes totalt 3,3 miljoner uppslagningar i ordböckerna och knappt 20 år senare, 2015, utfördes 330 miljoner uppslagningar. Uppslagningarna i LSL utgör i genom-snitt cirka 4 % av det totala antalet uppslagningar i Lexin-lexikonen.

Materialet till delstudie 1 utgörs som redan framgått av en veckas lexikon-uppslagningar, dvs. loggfiler av typ a, i början av oktober 2008 och 2011. De uppgår till 153 820 respektive 205 591 uppslagningar. Samtliga lexikonupp-slagningar ingår i loggfilsanalysen och här har alltså inget urval gjorts. I tabell 5:1 redovisas antal uppslagningar per dag i LSL samt det totala antalet uppslag-ningar under de två aktuella insamlingsveckorna.

Tabell 5:1. Antal uppslagningar per dag i LSL under datainsamlingsperioderna 2008

och 2011.

Veckodag Måndag Tisdag Onsdag Torsdag Fredag Lördag Söndag Totalt Uppslagningar

2008 26 533 26 968 27 162 24 860 15 607 12 170 20 520 153 820 Uppslagningar

2011 37 483 33 968 35 511 33 793 22 028 17 936 24 872 205 591

Det genomsnittliga antalet uppslagningar per dag under hela oktober 2008 är ca 20 400 och motsvarande siffra för oktober 2011 är 28 700. Genomsnittet per månad för hela 2008 och 2011 är något lägre. Tabellen kommenteras närmare

i avsnitt 6.1. Under datainsamlingsveckan 2011 fördelar sig de 205 591 upp-slagningarna på 25 974 ip-adresser. Det motsvarar i genomsnitt 8 uppslag-ningar per ip-adress.

En uppslagning i LSL leder till något av följande utfall:

1) Träff (T)

2) Automatkorrigering (A) 3) Korrigering med förslag (F) 4) Icke-träff (?)

Inom parentestecken anges den beteckning som utfallen har i de kommande tabellerna. Typ 1 innebär att ordet som eftersöks finns i LSL, antingen som ett uppslagsord eller som ett morfologiskt exempel. T står för Träff, dvs. slagning (se figur 5:1 i avsnitt 5.1.1 för ett exempel). Typ 2 innebär att upp-slagningen dirigeras till ett ord som finns i LSL och som slås upp. Det ordet är formmässigt mycket likt det sökta ordet. Typ 3 betyder att ordet inte ger träff men att det samtidigt presenteras en rad uppslagsord som användaren kan ha åsyftat. Typ 4 innebär att söksträngen inte återfinns i LSL och att användaren möts av meddelandet ”Ordet x finns inte i lexikonet”. Det betecknas med ett frågetecken (?) i tabellerna. Strax nedan exemplifieras de fyra typerna av utfall i korta utdrag från 2008- och 2011-materialen.

En loggfil från 2008-materialet innehåller information om utfallstyp, datum, tidpunkt, utfall av uppslagning samt antal ordförslag som ges ifall uppslagningen inte återfinns i LSL. I tabell 5:2 återges uppslagningar från en minut 2008, närmare bestämt måndagen 6 oktober mellan kl. 10.00.00 och 10.00.59. Tabellen återger materialet i bearbetat skick och är alltså inte ett ex-empel på hur loggfilen ser ut i obearbetat tillstånd.

Den första kolumnen anger radnummer. Den andra kolumnen anger den typ av utfall uppslagningen resulterat i, dvs. träff (T), automatkorrigering (A), korrigering med förslag (F) eller icke-träff (?). I kolumn 3 anges datum. Siffran 6 står för måndag 6 oktober 2008. Kolumn 4 anger klockslaget för uppslag-ningen och i kolumn 5 återges själva söksträngen. Kolumn 6 innehåller an-tingen det uppslagsord som en automatkorrigering dirigeras till, eller antalet förslag som ges vid en F-korrigering, följt av de enskilda ordförslagen.

Av de 23 uppslagningar som utförs under den aktuella minuten leder 16 till träff i LSL, t.ex. rad 1 och 3 som innehåller substantivet bagatell och adjektivet

ställföreträdande. En uppslagning, välkomen, har automatkorrigerats (A) till

ordboksartikeln välkommen (rad 11). I tabell 5:2 återfinns också två uppslag-ningar som har lett till korrigering med förslag (F), dels habitat på rad 2 som leder till sex förslag (hatat, haltat, rabiat, habilt, habila, habilast), dels pitcha på rad 23 som leder till två förslag (picka, bitch).

Tabell 5:2. Uppslagningar 2008, måndag 6 oktober mellan kl. 10.00.00 och

10.00.59.

Rad Typ Dag Tidpunkt Söksträng Förslag

1 T 6 10:00:04 bagatell

2 F 6 10:00:05 habitat 6: hatat, haltat, rabiat, habilt, habila, habilast 3 T 6 10:00:06 Ställföreträdande 4 T 6 10:00:08 patriarkaliska 5 T 6 10:00:10 Bödel 6 ? 6 10:00:11 kallibreras 7 T 6 10:00:13 budget 8 T 6 10:00:16 slutför 9 T 6 10:00:16 budget 10 ? 6 10:00:16 kallibrera 11 A 6 10:00:18 välkomen välkommen 12 T 6 10:00:18 brer 13 T 6 10:00:23 palm 14 T 6 10:00:31 bedrift 15 T 6 10:00:33 brer 16 ? 6 10:00:33 försluta 17 T 6 10:00:37 hoppa 18 T 6 10:00:40 tyvärr 19 T 6 10:00:42 sol 20 ? 6 10:00:43 försluter 21 T 6 10:00:49 etablera 22 T 6 10:00:54 bragd

23 F 6 10:00:54 pitcha 2: picka, bitch

Figur 5:6 på nästa sida visar utfallet av söksträngen habitat på LSL:s webbsida. Om användaren väljer att slå upp något av förslagen visar det sig i loggfilerna. (Jag kan dock inte hitta något av de listade orden i nära anslutning till uppslag-ningen habitat i mitt loggfilsmaterial.)

Figur 5:6. Resultatet av söksträngen habitat. Hämtad 2016-05-18.

Slutligen har vi fyra uppslagningar som resulterar i icke-träffar (se rad 6, 10, 16, 20). Det indikeras av frågetecknet i kolumn 2. De utgörs dock bara av två olika ord, försluta/försluter och de felstavade formerna *kallibreras/*kallibrera. I det här fallet är de ord som troligen åsyftas inte uppslagsord i LSL, men icke-träffar kan också utgöras av grovt felstavade ord som rättstavningshjälpen inte kan identifiera. Även om loggfilerna från 2008 inte innehåller ip-adresser kan man ändock med stor sannolikhet anta att uppslagningarna på t.ex. rad 16 och 20 (försluta och försluter) har utförts av samma användare eftersom de befinner sig så pass nära varandra i tid. Första sökningen görs på verbets infinitivform och inför den andra sökningen har söksträngen modifierats och användaren söker istället på verbets presensform.

I tabell 5:3 illustreras en loggfil från 2011-materialet som även den inne-håller en minuts uppslagningar.

Av de 35 uppslagningarna under den aktuella minuten leder 22 till träffar i LSL. De tre första träffarna är verbet skakar på rad 3, substantivet förtret på rad 5 och adjektivet partisk på rad 7. Två uppslagningar leder till automat-korrigering, tyna bort dirigeras till tonar bort (rad 1) och ubät dirigeras till

ubåt (rad 4). Vidare finns fem uppslagningar som leder till korrigering med

förslag, t.ex. våliga på rad 6 som resulterar i fem ordförslag (vilket alltså siffran 5 i kolumn 6 står för). En sökning direkt i LSL4 avslöjar att de fem ordför-slagen är dåliga, tåliga, veliga, vågiga och vådliga. I tabellen finner vi slutligen sex uppslagningar som leder till en icke-träff. De är det spanska uttrycket Que

bien (rad 9, 12 och 15), den tvådelade söksträngen gastrointestinala störningar

(rad 23) och frukostbricka (rad 35).

I tabell 5:3 har som synes en kolumn tillkommit i jämförelse med tabell 5:2. Den innehåller delvis anonymiserade ip-adresser. Som diskuterades i av-snitt 5.1.2 är en ip-adress inte automatiskt detsamma som en unik användare. Om samma ip-adress upprepade gånger återkommer under en begränsad tids-session är sannolikheten dock stor att så är fallet. Det kan man t.ex. misstänka vad gäller uppslagningarna i rad 7, 10, 18 och 27 (partisk, därtill, Dessvärre och

Dessbättre). Att det finns ett släktskap mellan sökorden dessvärre och dessbättre

Tabell 5:3. Uppslagningar 2011, måndag 3 oktober mellan kl. 10.01.00 och

10.01.59.

Rad Typ Datum Tidpunkt Söksträng Förslag Ip-adress

1 A 3 10:01:01 tyna bort tonar bort 193.181.nn.nnn

2 F 3 10:01:02 rokad 7 82.99.nn.nnn 3 T 3 10:01:06 skakar 217.115.nn.nn 4 A 3 10:01:06 ubät ubåt 78.72.nnn.nn 5 T 3 10:01:09 förtret 80.216.nn.nnn 6 F 3 10:01:11 våliga 5 80.217.nnn.nnn 7 T 3 10:01:13 partisk 81.230.nn.nnn 8 T 3 10:01:17 GRADERA 109.228.nnn.nn 9 ? 3 10:01:17 Que bien 80.65.nnn.nnn 10 T 3 10:01:19 Därtill 81.230.nn.nnn 11 F 3 10:01:21 konkurere 6 83.137.n.n 12 ? 3 10:01:21 Que bien 80.65.nnn.nnn 13 T 3 10:01:22 mer 109.228.nnn.nn 14 T 3 10:01:25 konkurrera 83.137.n.n 15 ? 3 10:01:27 Que bien 80.65.nnn.nnn 16 T 3 10:01:27 tog 80.254.nnn.nn 17 T 3 10:01:31 hitta 109.228.nnn.nn 18 T 3 10:01:34 Dessvärre 81.230.nn.nnn 19 T 3 10:01:35 radio 213.113.nnn.nnn 20 T 3 10:01:37 skvallrar 130.243.nnn.nn 21 T 3 10:01:37 underlägsen 193.181.nn.nnn 22 T 3 10:01:41 tuff 46.230.nnn.nnn 23 ? 3 10:01:43 gastrointestinala störningar 195.67.nnn.nnn 24 T 3 10:01:44 annat 85.188.nnn.nn 25 T 3 10:01:46 krossar 217.115.nn.nn 26 T 3 10:01:47 referens 109.58.nnn.nnn 27 T 3 10:01:48 Dessbättre 81.230.nn.nnn 28 T 3 10:01:49 känguru 178.174.nnn.nnn 29 T 3 10:01:49 räfsar 195.67.nnn.nn 30 F 3 10:01:51 födda 6 90.227.nnn.nnn 31 F 3 10:01:52 gastro 9 195.67.nnn.nnn 32 ? 3 10:01:52 fraternity 193.178.nnn.n 33 T 3 10:01:53 klumpig 62.109.nn.nnn 34 T 3 10:01:55 ta 80.254.nnn.nn 35 ? 3 10:01:58 frukostbricka 83.253.nnn.nnn