• No results found

6. Delstudie I: Användningen av LSL

6.1 Loggfiler av typ a: Lexikonuppslagningar

6.1.1 Träffar 2008 och 2011

6.1.1.2 Mest sökta lemman

Majoriteten av uppslagningarna i LSL ger som vi vet en träff i ordboken i såväl 2008 som i 2011 års loggfiler. Vi vet också vilka söksträngar som är van-ligast. I tabell 6:5 har samtliga söksträngar lemmatiserats. Det innebär att uppslagningar som tillhör samma ord, dvs. ett grundord och dess böjnings-former, räknas samman och inordnas under en och samma träff/lemma (NLO 1997:173–174). Eftersom söksträngarna existerar i isolation kan vi dock inte veta om en homograf söksträng som fiskar avser presensformen av verbet fiska eller pluralformen av substantivet fisk. I sådana fall räknas söksträngen till båda lemmana. Söksträngen bar (rad 15 i tabell 6:5 nedan) räknas alltså till tre lemman: substantivet bar, adjektivet bar och verbet bära. I vissa fall kan man med hjälp av söksträngarna avgöra vilken ordklass det troligen är fråga om. I

fallet med resa vet vi t.ex. att presensformen, dvs. reser, är den mest frekventa söksträngen i 2011-materialet. Av de 672 förekomsterna i tabell 6:5 utgörs 585 av presensformen. Det är alltså verbet resa, och inte substantivet, som intar för-staplaceringen bland mest sökta lemman 2011. Tack vare lemmatiseringen får man en bättre helhetsbild (om än i vid bemärkelse) över samtliga ord som fak-tiskt slås upp oftast i LSL.

Tabell 6:5 återger de 50 mest sökta lemmana som ger träff i LSL i 2008- och 2011-materialen.

Tabell 6:5. De 50 mest sökta lemmana som ger träff i 2008 och 2011 års loggfilsmaterial.

Plats 2008 2011

Lemma Frekvens Lemma Frekvens

1 hej 155 resa 672 2 vara 141 lägenhet 531 3 den 125 hej 438 4 anse 108 320 5 se 103 ha 304 6 känna 101 ta 295 7 moral 97 preskribera 272 8 abstrakt 96 jag 271 9 95 vara 269 10 jag 95 göra 264 11 göra 94 gudfar 262 12 prägla 91 lägga 253 13 fitta 90 se 226 14 god 89 ligga 224 15 kuk 88 bar 214 16 sympati 88 irritera 212 17 objektiv 83 säga 206 18 omfatta 81 skriva 205 19 80 sätta 202 20 ha 80 hålla 201 21 integrera 80 vilja 197 22 ge 79 böra 189 23 integritet 78 den 186 24 naiv 78 183 25 ta 78 skola 176 26 gammal 77 vår 176 27 konkret 77 känna 175 28 bajs 74 fara 173 29 etablera 74 äta 173

30 etik 73 för 168 31 komma 73 hus 165 32 relevant 73 be 163 33 radikal 72 ge 163 34 råda 72 komma 161 35 aspekt 71 föra 157 36 definiera 71 byta 155 37 dynamisk 71 finna 155 38 finna 71 bil 153 39 budget 70 låta 152 40 en 70 förstå 148 41 intiativ 70 sitta 148 42 komplex 70 z 146 43 lägga 70 god 144 44 solidaritet 69 stå 144 45 du 68 ko 142 46 främja 68 råda 141 47 ideal 68 far 140 48 led 68 falla 135 49 norm 68 man 135 50 ambitiös 67 slå 134

Av tabell 6:5 kan för det första utläsas att fler ord är gemensamma för de två materialen än vad som var fallet med de olemmatiserade söksträngarna. De fetstilta orden i tabell 6:5 markerar de 16 gemensamma lemmana i de två ma-terialen. Det som förenar dessa ord är att de flesta av dem är verb och att de är mycket centrala i svenskan. Verben är dessutom ofta flertydiga och före-kommer gärna i fraser av olika slag, t.ex. se, få, gå, lägga, ge och komma (jfr Viberg 2004). Utöver verben återfinns i båda materialen hej, jag och den. De två förstnämnda känner vi igen från frekvenstabellen över söksträngarna.

Om fokus istället läggs på de 68 lemman som särskiljer materialen fram-träder liknande resultat som för söksträngarna, även om det rör sig om andra ord. I 2008-materialet är substantiven vanligast. Lemmana utgörs dessutom ofta av abstrakta substantiv, t.ex. sympati (16), integritet (23) och aspekt (35) och relativt avancerade verb som omfatta (18), integrera (21) och etablera (29) samt adjektiv som relevant (32) och radikal (33). I 2011-materialet är verben klart vanligast. Förutom det mer sällsynta verbet preskribera (7) tillhör verben här ett centralt svenskt ordförråd, t.ex. ligga (14), skriva (18), äta (29) och förstå (40). Substantiven är konkreta, t.ex. lägenhet (2), hus (31), bil (38) och ko (45). Endast ett adjektiv förekommer 2011, god (43). Noteras bör slutligen att bland de vanligaste uppslagningarna i de två materialen återfinns mycket få samman-sättningar och avledningar.

Vidare innehåller båda materialen flertydiga ord men de starkt polysema orden förefaller vara fler i 2011-materialet. I tabell 6:6 upprepas de 25 van-ligaste lemmana från tabell 6:5 med antal tillhörande numrerade betydel-semoment (lexem i tabellen) samt flerordsuttryck i LSL4. Tabellen ska läsas så att vid en uppslagning av ordet resa (rad 1 i 2011-kolumnen) i LSL4 visas två lemman som tillsammans har fyra betydelsemoment och ett flerordsuttryck.

Tabell 6:6. Antal lemman, betydelsemoment (lexem) och uttryck i LSL4 för de 25 mest

frekventa lemmana i 2008 och 2011 års material.

LSL4

Rad 2008 Lemma Lexem Uttryck 2011 Lemma Lexem Uttryck

1 hej 1 1 2 resa 2 4 1 2 vara 5 6 4 lägenhet 1 1 0 3 den 2 3 2 hej 1 1 2 4 anse 1 1 0 1 5 53 5 se 1 3 7 ha 3 4 8 6 känna 1 3 1 ta 1 6 34 7 moral 1 2 0 preskribera 1 1 0 8 abstrakt 1 1 1 jag 2 2 1 9 2 4 30 vara 5 6 4 10 jag 2 2 1 göra 1 4 14 11 göra 1 4 14 gudfar 1 1 0 12 prägla 1 1 0 lägga 1 3 13 13 fitta 1 1 0 se 1 3 7 14 god 1 3 26 ligga 1 1 16 15 kuk 1 1 0 bar 4 4 4 16 sympati 1 1 0 irritera 1 1 0 17 objektiv 2 2 0 säga 1 1 14 18 omfatta 1 1 0 skriva 1 2 1 19 1 5 53 sätta 1 3 23 20 ha 3 4 8 hålla 1 5 31 21 integrera 1 1 0 vilja 3 3 9 22 ge 1 1 8 böra 1 2 1 23 integritet 1 1 0 den 2 3 2 24 naiv 1 1 0 2 4 30 25 ta 1 6 34 skola 4 6 0 Totalt 35 59 191 42 76 268

Tabell 6:6 åskådliggör att såväl lemman och betydelsemoment som uttryck är fler för de lemmatiserade söksträngarna 2011 än 2008. Antalet lemman ökar med 10 %, lexemen med 29 % och uttrycken med 40 %. Skillnaden är ännu större om man ser till samtliga 50 ord från tabell 6:5. Antal lexem/lemma blir då 1,6 för 2008-orden och 1,9 för 2011-orden. Antal uttryck/lemma är 3,4 för 2008-orden och 5,7 för 2011-orden. En trolig anledning till att de här orden slås upp, och kanske i ännu högre grad av andraspråkstalare än förstaspråks-talare, är just deras flertydighet. Lemmana i 2011-kolumnen utgörs som vi ti-digare sett av mera vanliga och centrala svenska ord än i 2008-kolumnen. Som tabellen visar är alltså de vanligare och centralare orden i högre grad flertydiga (jfr avsnitt 3.1.1 om svåra ord ur ett ordinlärningsperspektiv). Detta bekräftar ännu en gång diskrepansen användargrupperna emellan.

Vad gäller de obscena orden är förhållandet detsamma för de lemmatiserade uppslagningarna som för söksträngarna (se tabell 6:3). Dessa ord återfinns fort-farande endast i 2008 års kolumn. Det första ordet som kan föras till denna ka-tegori i 2011-materialet återfinns på plats 624, med 44 uppslagningar (hora).

I avsnittet om de mest frekventa söksträngarna undersöktes hur vanliga de är i förhållande till allmänspråket. Det var ett sätt att få perspektiv på uppslag-ningarna i ordboken. När det gäller de mest frekventa lemmana i mitt material kan det istället vara intressant att jämföra dem med någon form av basord-förråd i svenskan. Termen ordbasord-förråd kan som redan beskrivits definieras utifrån ett receptivt eller ett produktivt perspektiv (se avsnitt 3.1.1). Enligt Enström (2016:39) ger ett ordförråd på cirka 5 000 ord en nittioprocentig täckning av de flesta texter. En ännu högre täckningsgrad uppnås framför allt genom yt-terligare inlärning av ord som är typiska för olika ämnesområden och text-typer. För att kunna tillgodogöra sig innehållet i en svensk dagstidning bör man kunna förstå ca 40 000 ord (a.a. s. 41).

När ett ordförråd på omkring 18 000 ord skulle väljas ut till den första upp-lagan av LSL använde man sig av i huvudsak fyra olika källor, bl.a. ett frekvens-baserat skriftspråkligt ordförråd och ett praktiskt ordförråd hämtat ur ordindex till ett antal läromedel för invandrarundervisning (Gellerstam 1999b:6). Ett senare försök att ta fram ett frekvensbaserat svenskt basordförråd gjordes inom ramen för Kelly-projektet (Volodina & Johansson Kokkinakkis 2012). Projektet gick ut på att skapa ett verktyg för språkinlärning, och ett basord-förråd på nio olika språk togs fram. De svenska orden är excerperade från ett omfattande textmaterial från webben på 114 miljoner tokens och ska repre-sentera ett samtida språkbruk. Webbtexterna täcker dels in olika genretyper, dels både skriftspråkliga och mera talspråkslika texttyper (t.ex. bloggtexter). Den så kallade Kelly-listan är lemmatiserad och omfattar drygt 8 400 lemman. Orden är frekvenssorterade vilket innebär att ju högre upp i listan de står, desto mer centrala är de. Överst i listan återfinns lemmana och, vara, i, ha och dess.

I tabell 6:7 ges frekvenser för de 25 mest frekventa lemmana i 2008 och 2011 års material tillsammans med information om deras placering i Kelly-listan. För tydlighets skull har de ord som är gemensamma i de två kolumnerna mar-kerats med fetstil.

Tabell 6:7. De 25 mest frekventa lemmana från 2008 och 2011 års material och deras

placering i Kelly-listan.

Rad 2008 2011

Lemma Placering i

Kelly-listan Lemma Kelly-listanPlacering i

1 hej 1076 resa 914 2 vara 2 lägenhet 1407 3 den 21 hej 1076 4 anse 183 58 5 se 53 ha 4 6 känna 121 ta 51 7 moral 2119 preskribera -8 abstrakt 4324 jag 16 9 30 vara 2 10 jag 16 göra 45 11 göra 45 gudfar -12 prägla 1945 lägga 172 13 fitta - se 53 14 god 200 ligga 168 15 kuk - bar 1355 16 sympati 4082 irritera 6218 17 objektiv 2848 säga 59 18 omfatta 853 skriva 96 19 58 sätta 250 20 ha 4 hålla 138 21 integrera 3266 vilja 43 22 ge 91 böra 70 23 integritet 1706 den 21 24 naiv 3821 30 25 ta 51 skola 15

Av tabellen kan man för det första utläsa att fyra ord från loggfilsmaterialet saknas helt i Kelly-listan, dels två obscena ord i 2008-kolumnen (rad 13, 15), dels två ovanligare ord i 2011-kolumnen (rad 7, 11). Vidare har verbet vara (rad 2 och 9) högst placering i Kelly-listan av samtliga ord i de två loggfilsma-terialen. Lägst placering har verbet irritera (rad 16 i 2011-kolumnen). Fyra av

de tolv unika orden i 2008-kolumnen har en placering på högre än 1 000, t.ex.

god på rad 14 med en placering i Kelly-listan på 200. I 2011-kolumnen har 9

av de tolv unika orden en placering på 1 000 eller högre såsom skriva på rad 18 med placeringen 96. Lemmana i 2011-kolumnen befinner sig alltså närmare kärnan i basordförrådet (enligt Kelly-listan) än lemmana i 2008-kolumnen.

Sammanfattningsvis kan sägas att loggfilerna med användarnas uppslag-ningar som leder till träff, framför allt i 2011-materialet, visar att vanliga svenska ord slås upp i stor utsträckning. Tillsammans med det faktum att träff-procenten är mycket högre i den uppdaterade versionen av LSL bekräftas att lemmaurvalet är väl anpassat till LSL:s faktiska användare. Det totala antalet lemman i 2008-loggfilsmaterialet uppgår till ca 15 000 och i 2011-loggfilsma-terialet är motsvarande siffra drygt 16 000. LSL innehöll före uppdateringen ca 28 500 uppslagsord och efter uppdateringen uppgår lemmaantalet till ca 31 500. Av detta kan man sluta sig till att under de aktuella datainsamlings-veckorna slogs omkring hälften av LSL:s uppslagsord upp mellan 1 och 155 gånger år 2008 och mellan 1 och 672 gånger 2011 (jfr tabell 6:5). Med tanke på att materialen endast innehåller en veckas uppslagningar får man nog säga att det är relativt många av ordbokens lemman som slås upp. Det hade varit in-tressant att veta hur det förhåller sig över ett helt år.

Hittills har fokus legat på de ord som faktiskt återfinns bland de mest frek-venta träffarna i materialet. Det kunde också vara intressant att uppmärk-samma ord som inte påträffas i loggfilerna, men det faller utanför ramen för den här undersökningen.