Lemmaselektion - Ordböcker ur ett andraspråksperspektiv

3. Ordinlärning, inlärningsordböcker och Lexin

3.1 Ordinlärning och ordböcker

3.1.2 Ordböcker ur ett andraspråksperspektiv

3.1.2.1 Lemmaselektion

Vad gäller inlärningsordböcker presenterar Tarp (2006) vad han kallar en teori för lemmaselektion, dvs. urval av uppslagsord. Författaren uppehåller sig vid tre frågor:

1) Vilken empirisk bas ska ligga till grund för lemmaselektionen? 2) Vilka kriterier och principer ska vägleda lemmaselektionen? 3) Hur stort ska lemmabeståndet i inlärningsordböcker vara? (efter Tarp 2006:203) När det gäller fråga 1 finns det enligt Tarp tre huvudsakliga källor från vilka tänkbara lemman väljs ut: (a) det egna ordförrådet ur vilket data utvinns genom introspektion, (b) andra ordböcker, läroböcker och dylikt samt (c) textsam-lingar i form av korpusar. Med introspektion avses dels lexikografens iaktta-gelser av det egna språkbruket, dels data från informanter. Svensén (2004:50) gör i tillägg en åtskillnad mellan primärkällor, Tarps källa a och c, och sekun-därkällor, Tarps källa b. Svensén tar också upp internet som en källa till lexi-kalisk information som torde sammanfalla med Tarps källa c) (2004:73–75.). Lexikografen bör naturligtvis excerpera ett ordurval som är autentiskt i be-tydelsen belagt i (skriftliga) källor. I takt med den tekniska utvecklingen har korpusar fått en allt större betydelse i lemmaurvalsprocessen. Men även om moderna korpusar utgör ovärderliga hjälpmedel i det praktiska lexikografiska arbetet så ”spores samtidig en tendens til att reducere hele diskussionen om lemmaselektion til brugen og kvaliteteten af disse korpora, som i nogle til-fælde får næsten ophøjet status” (Tarp 2006:203). Tarps oro är i viss mån be-fogad. Hur stor en korpus än är så kommer det alltid att finnas ord, fraser och konstruktioner som inte återfinns i den (Svensén 2004:71–73). Det kan vara ord som är högfrekventa i allmänt talspråk men lågfrekventa i skriftspråkskor-pusar. Det kan också vara ord som av någon annan anledning inte återfinns i en ”vanlig” korpus, t.ex. vissa fackspråkliga termer av allmänspråklig betydelse.

En (inlärnings)ordbok ska innehålla ett centralt och typiskt ordurval – ett basordförråd – och i fråga om principer för lemmaurvalet (dvs. Tarps fråga 2) är trots allt frekvens ett relevant kriterium. Frekvens ska dock inte vara det enda kriteriet för att ett ord ska uppnå lemmastatus. I en inlärningsordbok är t.ex. sådana ord som inryms under benämningen samhällsord, dvs. ord som behövs för att man som medborgare ska kunna orientera sig i det svenska sam-hället, viktiga att täcka in. Exempel på sådana är dagis, kommunalval och moms (Gellerstam 1999:6). Användarstudier kan också ge intressanta uppslag till principer för lemmaselektion. En traditionell studie är Summers (1988:113– 114) som visar att modersmålstalare oftare slår upp svåra ord än andraspråks-inlärare. Med svåra ord avser författaren t.ex. abstrakta samhällsord, nyord och ovanliga eller ålderdomliga ord. Andraspråksinlärare slår istället i högre grad upp högfrekventa ord, speciellt abstrakta sådana. Senare undersökningar av loggfiler har fokuserat på hur ofta frekventa ord slås upp (jfr de Schryver et al. 2006, Verlinde & Binon 2010 och Wolfer et al. 2014, se vidare avsnitt 4.3.3.2).

Vid sidan av (absolut och relativ) frekvens som urvalskriterium anger Tarp (2006:206) även relevans och konsekvens. Det finns t.ex. såväl systematiska som relevanta skäl till att låta samtliga årets månader ingå i lemmaurvalet, även om månadernas namn uppvisar mycket skiftande frekvenser i korpus. Ett annat exempel är antonyma ord. Om man låter ordet dynamisk ingå i lem-marurvalet finns det goda skäl att också låta ordet statisk göra det. Vidare finns det, som tidigare nämnts, ord som kan vara särskilt relevanta för den använ-dargrupp som invandrare utgör. Det kan vara ord för lagar, institutioner och kulturella företeelser typiska för – i Lexins fall – svenska förhållanden (t.ex.

LO, allemansrätt). Vidare kan (löst sammansatta) partikelverb orsaka stora

svå-righeter för inlärare, dels då det föreligger en ovanlig relation mellan uttryck och innehåll (se vidare Enström 2013b:190 och avsnitt 3.1.1), dels eftersom partikeln kan hamna långt efter verbet i en sats. Partikelverbet blir då svårt att identifiera (Malmgren 2012:463). Det är dessutom viktigt att just sambandet mellan lösa och sammansatta partikelverb framgår klart i en inlärningsordbok (se Malmgren 2012:462–463).

I övrigt bör man vid lemmaurval beakta möjliga typer av lexikala former (t.ex. stavnings- och böjningsvarianter) och olika lexikala strukturer i form av bland annat förkortningar, affix och flerordsenheter. Vidare ingår inte enbart enskilda ord i urvalsprocessen utan lika angeläget är att man täcker in frekventa och rele-vanta konstruktioner, kollokationer och idiom (för definitioner av kollokation och idiom se Malmgren (2003) och Sköldberg (2004)). Sådana flerordsuttryck uppnår i regel inte lemmastatus men uppträder ofta som sublemman.

En typ av ord som i regel inte brukar behandlas i språkordböcker är egennamn. De har ju emellertid också formella egenskaper (t.ex. stavning, böjning, uttal) som kan behöva beskrivas. Egennamn förekommer oftare i

två-språkiga ordböcker än i entvå-språkiga. Det kan också finnas semantiska motiv till att låta egennamn uppgå i lemmaurvalet och då är de mer aktuella för en en-språkig ordbok. Ett egennamn kan t.ex. börja användas appellativt och få en metaforisk betydelse (en riktig Hitler) eller bilda en avledning och då tillföras vissa bestämda konnotationer (en lindgrensk saga). En strikt åtskillnad mellan språkordböcker och sakordböcker är därför varken eftersträvansvärd eller spe-ciellt användarvänlig (jfr avsnittet om funktionsläran, 2.3.3).

Slutligen varnar Tarp för vad han kallar för ett irrelevanskriterium vilket kan ”diktere frasortering af for eksempel egennavne, arkaiske og sjældne ord, vulgære ord, fagord eller ord fra et bestemt område” (2006:207). Han hänvisar till för-ordet i Michael Wests kända engelska enspråkig inlärningsordbok från 1935 där det konstateras att av utrymmesskäl utesluts ovanliga och tekniska ord som det är osannolikt att en invandrare kommer att stöta på (West 1935). Men det är ju omöjligt att förutspå vilka ord inläraren inte kommer att komma i kontakt med.

Lemmabeståndets storlek (dvs. Tarps fråga 3) bör enligt Tarp vara ett resultat av överväganden och beslut och inte omvänt, dvs. att man utifrån ett i förväg bestämt omfång formulerar kriterier för urval av lemman. Ordböcker som fi-nansieras av kommersiella företag måste ofta rätta sig efter den senare pre-missen till följd av avgränsade ekonomiska och tidsmässiga villkor. Det finns dock inte några teoretiska argument för att begränsa ordurvalet i en receptions-ordbok menar Tarp, utan motiven till detta är endast pragmatiska. Tarp ställer upp åtta punkter som ska utgöra en systematisk metod för bestämning av se-lektionsprinciper och i sin tur lemmabestånd, t.ex. bestämning av de avsedda typerna av användarsituationer, bestämning av den avsedda användargruppens karakteristika och bestämning av användargruppens primära (funktionsrela-terade) behov (Tarp 2006:206). Tarp menar vidare att inlärningsordböcker med få lemman endast är hjälpsamma i undervisningssammanhang eller andra kontrollerade situationer, i synnerhet om inlärarna befinner sig på nybör-jarnivå. När det gäller elektroniska ordböcker bortfaller i hög grad argumentet att av utrymmesskäl utesluta potentiella lemman, men ett kontrollerat och ge-nomtänkt urval bör under alla omständigheter ändå göras.

En stor del av uppslagsorden i en ordbok utgörs av sammansättningar. Storleken på en ordbok beror därmed i hög grad på i vilken utsträckning man väljer att ansätta sammansättningar som lemman. Detta beror i sin tur t.ex. på om ordboken i fråga främst ska användas i receptions- eller produktions-situationer. För en receptionsordbok gäller ofta att genomskinliga samman-sättningar inte ansätts som lemman, ofta grundat på antagandet att deras be-tydelse är lika med summan av delarna (kompositionalitetsprincipen). Det här har dock visat sig vara en sanning med modifikation. Det förutsätter t.ex. att betydelsen hos såväl sammansättningens förled som efterled är entydig, vilket ofta inte är fallet: ”Den utbredda polysemin hos många ordleder och

det faktum att det alltid finns flera möjliga relationer mellan lederna […] gör att sammansättningar alltid blir principiellt flertydiga” (Svanlund 2009:34). Inte minst för en inlärare kan sammansättningar därför bereda svårigheter och vara ett skäl till att i en inlärningsordbok ansätta till synes genomskinliga sam-mansättningar som lemman (jfr avsnitt 3.1.1). För att ta ett exempel: förledet i sammansättningen valnederlag är flertydig. För en (vuxen) modersmålstalare känns emellertid sammansättningen igen från den politiska sfären och hen vet att det sannolikt rör sig om val i betydelsen ’politisk omröstning’ och inte ’däggdjur’. Denna erfarenhetsbaserade kunskap som modersmålstalare bär på kan t.ex. förmedlas i en inlärningsordbok genom en formell kommentar som den i SAOL14: ”Nästan alla sms. med val- hör till 1val 2” (2015:1485). Om

inget annat anges så har förleden i en sammansättning med val just denna be-tydelse, dvs. ’politisk omröstning’. I en internetordbok skulle man kunna gå ett steg längre. En inlärare som stöter på en okänd sammansättning som visar sig saknas som lemma i ordboken skulle inte behöva stå rådlös. I ett första steg kan sammansättningen uppdelas maskinellt i sina två huvuddelar, något som nästan alltid går att göra entydigt (Malmgren 1995:302 baserat på Karlsson 1992). Utifrån statistiska underlag som beräknar sannolikheten att ett visst för- eller efterled har en viss betydelse skulle information kunna förmedlas till in-läraren om vilken betydelse det är som rimligen åsyftas hos (leden i) samman-sättningen, även om ordet valnederlag inte är upptaget i ordboken. En sådan ”dynamisk” ordbok skulle alltså även kunna ge information om ord som inte finns i ordboken.

Det talas gärna om att urval ska vara representativa. Ett representativt urval i icke-statistisk mening skulle kunna innebära att man täcker ”de typiska och centrala aspekterna av språket och ge[r] så många förekomster av ord och ord-förbindelser som man anser sig ha tillräckligt stöd för i autentiskt material” (Svensén 2004:80). Ett representativt urval i denna mening betyder dock inte att just det urvalet är ändamålsenligt i förhållande till användarens behov. Det finns här en motsättning mellan ordboken som en dokumentation av språket och ordboken som ett hjälpmedel för att lösa språkliga problem (Béjoint 2000:184–187).

In document Ordboksanvändning på nätetEn undersökning av användningen av Lexins svenska lexikon (Page 46-49)