Traditionella textanalysmått: sammanfattning och diskussion

Beräkningarna av de mått som redovisas i detta kapitel föregicks av separata undersökningar av högstadieläroböckerna från början av 2000-talet och de från början av 2010-talet, för att kontrollera att materialet verkligen hålls samman över perioden, särskilt då andra läroplaner var rådande i början av 2000-talet. För ordlängd, OVIX, NQ och LVIX är mätvärdena i stort sett identiska i de äldre och nyare böckerna, och för meningslängden är skillnaden mycket liten. Den språkliga utformningen har följaktligen bedömts tillräckligt konstant över tid för att läroböckerna ska kunna betraktas som ett synkront register.

Vidare har jag taggat en delmängd av Westmans material med mina meto-der, för att säkerställa att mina resultat, som har beräknats maskinellt, är jäm-förbara med de siffror som rapporteras i 1970-talsstudierna, som beräknades

manuellt.³³De uppmätta resultaten (se tabell 6.2) visar att de språkteknologis-ka metoderna inte påverspråkteknologis-kar resultatet av mätningarna, och att det därför är fullt möjligt att jämföra värdena från 1970-talet med värdena i min forskning.³⁴

Min metod Westmans metod

Ordlängd 5,6 5,6

Meningslängd 14,9 14,5

OVIX 74,9 78,6

Tabell 6.2: Värden för några läsbarhetsmått på Westmans texter, dels med mina språkteknologiska metoder på en delmängd av hela materialet, dels med Westmans manuella metoder på hela materialet

6.5.2 Resultat

De ytliga mätningarna visar tämligen lika mönster i läroboksmaterialet. Sam-hällsvetenskap tycks genomgående ha ett mer komplicerat språk än naturveten-skap, och matematik har ett förhållandevis enkelt språk. Men också ordklass-fördelningen i de olika ämnesfacken kan tolkas på samma vis. Matematik inne-håller t.ex. få konjunktioner och många stora skiljetecken, båda tydliga signa-ler på enklare syntax. Naturvetenskap innehålsigna-ler relativt många subjunktioner, vilket antyder ett mer komplicerat språk, med en förhållandevis hypotaktisk utformning. Samhällsvetenskapliga och akademiska texter innehåller fler ad-jektiv, vilket, på grund av adjektivens syntaktiska funktion i utbyggda nominal-fraser, också pekar mot ett mer komplicerat språk.

Samtliga ytliga parametrar som mätts pekar på en språkutveckling som sker i stadieövergången mellan högstadiet och gymnasiet; meningarna blir längre och likaså orden. Ordförrådet blir dessutom mer varierat. I vissa av undersök-ningarna verkar det som att språkutvecklingen i naturvetenskap sker i något snabbare takt än i övriga ämnesfack. I detta tycks både biologi och kemi spela

33Danielssons material är inte tillgängligt, och av Westmans material finns endast en två lärobokstexter tillgängliga, genom Talbanksprojektet. Närmare bestämt uppgår materialet till 5 484 ord, d.v.s. ungefär 25 % av Westmans totala lärobokstexter.

34Visserligen skiljer sig värdet för meningslängd och OVIX något. Detta kan ha flera orsa-ker, som t.ex. urvalet av de Westmanska texterna som ingår i testet. En annan trolig orsak till att jag får något högre genomsnittlig meningslängd är att fristående makrosyntagmer, i t.ex. rubri-ker eller bildtext, med mina metoder ofta meningssegmenteras tillsammans med nästföljande mening. Westman räknar inte med dessa alls. Vad gäller OVIX-värdet tror jag att hela förkla-ringen till skillnaden är att testet bara utförts på en delmängd av Westmans texter. Som förklaras i avsnitt 6.1 är måttet inte helt okänsligt för texter av olika längd.

viktiga roller. Biologi utmärker sig bland de naturvetenskapliga ämnena genom en kraftigt ökad meningslängd på gymnasiet. Biologitexterna verkar alltså bli syntaktiskt mer komplexa, viket förmodligen också speglas i ämnets förhållan-devis många adverb och verb på gymnasiet. Kemitexterna verkar i stället bli mer lexikalt komplexa på gymnasiet, vilket framför allt den dramatiska utveck-lingen av ordlängd visar, men som också märks på ämnets höga NQ-värde. På gymnasiet förmedlas mycket information i kemi genom orden, eftersom infor-mationstunga ordklasser (framför allt substantiv) överväger.

Undersökningarna av NQ och LVIX bidrar emellertid till en mer komplex bild av utvecklingen i materialet. NQ är förvånansvärt hög för matematik och likaledes låg för de akademiska texterna. Av allt att döma har andelen sub-stantiv mest betydelse i dessa resultat. Matematik ligger faktiskt i topp i andel substantiv på gymnasiet och de akademiska texterna består av en väsentligt mindre andel substantiv än lärobokstexterna.

I undersökningarna av LVIX och OVIX framkommer tydligt att de båda måtten mäter språket på olika nivåer. Tendenserna mellan mätresultaten för de olika måtten skiljer sig nämligen på ett par avgörande punkter. För det förs-ta visar LVIX-utvecklingen i matematik en negativ trend, från att i OVIX-mätningen ha uppmätt en lika kraftig ökning som samhällsvetenskap. Ytter-ligare en stor skillnad från OVIX-mätningen (och samtliga andra tidigare mät-ningar) är att LVIX för de berättande texterna överstiger LVIX för de akade-miska texterna. De berättande texterna hamnar i LVIX-mätningen i den absolu-ta toppen, medan de akademiska texterna står i ungefär samma förhållande till lärobokstexterna som i OVIX-mätningen. Det faktum att historia är det skol-ämne som får högst LVIX-värde skulle kunna hänga samman med att texter i detta ämne bär många likheter med berättande texter.

Vidare sker knappt någon ökning av LVIX i matematik och fysik i stadie-övergången. Samtidigt kan noteras att just matematik och fysik hela tiden har de lägsta värdena för ordlängd av alla ämnen. Att en kortare genomsnittlig ordlängd bör korrelera med en låg ordvariation har föreslagits i litteraturen (jfr Hultman och Westman 1977). Att endast det djupare ordvariationsmåttet, LVIX, förmår spegla detta skulle kunna tyda på att det ytliga ordvariations-måttet, OVIX, tecknar en alltför förenklad bild av den språkliga verkligheten. I så fall är alltså ordvariationsmåttet LVIX att föredra framför OVIX (jfr Hei-mann Mühlenbock 2013 som också konstaterar att LVIX är en god indikator för ordvariation).

I Thelanders undersökning av kvantitativa variabler i sakprosatexter under perioden 1908–1968 presenteras några mätningar som kan vara värda att näm-na i sammanhanget. I en jämförelse mellan sakprosa och fiktionsprosa finner han t.ex. att sakprosatexterna (under de senare åren) kännetecknas av en signi-fikant längre meningslängd och ordlängd, samt ett högre LIX. Dessutom hittas

färre verb och fler adjektiv i sakprosatexterna (Thelander 1970). Alla dessa sti-listiska förhållanden föreligger även i jämförelserna mellan hela mitt läroboks-material och de berättande texterna, vilket visar att dessa lexikogrammatiska variabler alltjämt är stilistiskt markerade i sammanhanget.

I jämförelse med tidigare kvantitativa analyser av läroboksmaterial, gjorda på 1970-talet, är värdena för meningslängd, ordlängd, LIX och OVIX genom-gående lägre i mitt material. Även om mina uppmätta värden är lägre än både Danielssons och Westmans, kan det vara värt att påminna om att fem av sex ämnen i Westmans material är samhällsvetenskapliga (jfr 2.4.2.1). Samtidigt får mina samhällsvetenskapliga texter genomgående högre värden än texterna i både naturvetenskap och matematik. För att inte dra några förhastade slut-satser om läroboksspråkets historiska utveckling, kan det därför vara värt att jämföra Westmans siffror med mina resultat för de samhällsveteskapliga text-erna, och därigenom minimera effekten av att våra läroböcker faktiskt kommer från olika ämnesområden. Det visar sig dock att också värdena för menings-längd, ordlängd och OVIX för mina samhällsvetenskapliga texter överlag är lägre än Westmans. För meningslängd är värdena 14,1 mot 14,5, för ordlängd 5,44 mot 5,59 och för OVIX 69,7 mot 78,6.

7 DELSTUDIE: TYPISKT ORDFÖRRÅD

I denna delstudie undersöks det typiska ordförrådet i lärobokstexterna.

7.1 Typiskt ordförråd: studiens upplägg

Troligtvis är de flesta elever i den svenska skolan bekanta med svenska böj-ningsregler. De borde därför relativt lätt känna igen olika ordformer av det som i Svenska Akademiens grammatik (SAG, Teleman, Hellberg och Anders-son 1999, del 2: 3) kallas för lexikonord. Dessa är grammatikens byggstenar och består av ensamma rotmorfem (blind) eller flera morfem som fogas ihop i sammansättningar (färgblind, blindstyre) eller avledningar (blindhet). Enligt SAG (del 2: 5) är funktionen och betydelsen av böjda ord förutsägbara utifrån suffixen. Ord som utgörs av flera morfem kan också vara semantiskt förutsäg-bara utifrån kompositionen, men helhetsbetydelsen skevar oftast på något sätt, och ringar endast in någon möjlig betydelseaspekt.

Vissa typer av konstruktioner kan dock vara besvärliga att entydigt katego-risera som lexikonord eller syntaktiskt bildade fraser. Till sådana svårkategor-iserade ordförbindelser hör exempelvis fasta uttryck som idag/i dag, partikel-verb som ge upp, flerordsprepositioner som på grund av, flerordssubjunktioner som så att, flerordskonjunktioner som både. . . och, flerordsadverb som så pass och förkortningar som o.s.v.

När språk ska analyseras elektroniskt måste begreppet ”ord” operationali-seras på ett sätt som möjliggör bästa möjliga automatiska identifikation och analys. I denna delstudie av texters ordförråd har jag valt att tala om ”ord” i termer av lexikonenheter. I denna beteckning ingår SAG:s lexikonordbegrepp, som jag förstår som den oböjda grundformen av ett ord och alla böjningsfor-mer, t.ex. adjektivet blind tillsammans med böjningsformerna blint, blinda (jfr Hultman 2003). Härutöver inkluderar min teoretiska utgångspunkt de flesta fasta uttryck och flerordingar, även om många sådana av praktiska skäl inte kan identifieras.

I delstudien implementeras lexikonenheter som en kombination av grund-form och ordklass, och utgör tillsammans de element som räknas i de anno-terade lärobokstexterna. Exempelvis resulterar en mening som Vi hör och ser sämre(något förenklat) i följande lingvistiska analys: vi/PNhöra/VBoch/KN se/VBdålig/JJoch/KNdålig/JJ. Viktigt att förklara är också att lexikonenheter-na känns igen på formella kriterier, men inte på betydelsemässiga. Ett polysemt ord, som cell, som t.ex. kan betyda ”litet isolerat rum” eller ”minsta levande enhet i en levande organism” (Svensk ordbok 2009), förs således ihop i form-enheten cell/NN. För långt mer än hälften av alla ord i lexikonet behövs dock inte någon semantisk analys, då orden bara har en betydelse. Detta är ofta fallet med mindre vanliga ord, som t.ex. ämnesspecifika termer. Rik polysemi gäller främst de allra vanligaste orden i språket (Borin 2010).

Det typiska ordförrådet i lärobokstexterna identifieras enligt indexprinci-pen, som förklaras i avsnitt 5.3. De resulterande indexlistorna (jfr appendix E.2) bildar ett slags ordlistor över texttyptypiska ord och erhålls med en trös-kelnivå på minst 15 förekomster av lexikonenheterna per miljon ord, vilket är samma nivå som vi använder för att extrahera akademiska ord till den svenska akademiska ordlistan (se avsnitt 2.2.4).

Extraktionsalgoritmen räknar alfabetiska ord och hybrida ord, som 1800-tal, men inte numeriska ord eller logogram (jfr ordtyperna i Allén 1970). Skilje-tecken, som kommaSkilje-tecken, parenteser och citationsSkilje-tecken, ingår inte heller i beräkningarna i denna studie. Vidare har jag valt att utesluta ord som taggats som egennamn, ordningstal och utländska ord, i den händelse de skulle dyka upp på listorna. Slutligen har listorna manuellt rensats på flerordsförkortning-ar, som t.ex., och teckensekvenser som hamnat på listorna på felaktiga grunder (t.ex. beroende på felaktig tokenisering).

De ordklasstaggar som används i ordlistorna presenteras i tabell 7.1. Ord-klasserna följer standarden för SUC (Källgren 2006) – som brukar räknas som referenskorpus för svenska (Nilsson Björkenstam, Gustafson Capková och Wirén 2014).

Den morfologiska analysen (grundformstilldelningen) baseras på associa-tionslexikonet SALDO (Borin, Forsberg och Lönngren 2013).³⁵ Grundformer-na av orden fås av de s.k. lemgrammen i SALDO, i vilka bl.a. grundform, ordklass och böjningsmönster specificeras.

I enlighet med SAG (del 2) behandlas particip som avledningar av verb, och skiljs alltså från verbformer i ordlistorna. I tagsettet för lemgrammen förekom-mer dock inte particip som en egen ordklass, utan participforförekom-mer tillhör

Tagg Betydelse AB adverb DT bestämningsord HA frågande/relativt adverb HD frågande/relativ bestämning HP frågande/relativt pronomen HS frågande/relativt possessivuttryck IN interjektion JJ adjektiv KN konjunktion NN substantiv PC particip PL partikel PN pronomen PP preposition PS possessivuttryck SN subjunktion VB verb

Tabell 7.1: Uppsättning av ordklasstaggar och deras betydelse

ningsparadigm för verb och/eller adjektiv m.m. Participformen levande ingår t.ex. som en böjningsform i både verbet leva och adjektivet levande. Eftersom particip finns i SUC-tagsettet kan ordklassen ändå identifieras.³⁶

7.2 Typiskt ordförråd: resultat

In document Judy Ribeck Steg för steg (Page 115-122)