Datamaskinell textanalys - Om att undersöka språk i text

2.3 Om att undersöka språk i text

2.3.2 Datamaskinell textanalys

Kvantitativt stilistiska undersökningar, som i Westmans efterföljd blev vanliga i Sverige, har relativt få internationella motsvarigheter. Ett närliggande sätt att gripa sig an texter är dock det som under 1980-talet utvecklades av korpus-lingvisten Douglas Biber (se t.ex. Biber 1988, 1995, 2006; Biber och Conrad 2009). Bibers datorbaserade undersökningsmetod går under beteckningen re-gisteranalysoch vilar i mångt och mycket på samma teoretiska förståelse som den kvantitativa stilistiken.

Man kan notera att korpuslingvister som studerar språklig variation kopplad till vissa situationer eller kommunikativa syften ofta, till synes slumpmässigt, väljer att använda antingen register eller genre som överordnad term för sitt undersökningsobjekt. Biber (2006: 11) urskiljer dock en viss uppdelning, i det att registerstudier, å ena sidan, brukar behandla lexikogrammatiska särdrag och beskriva hur en viss användning av ord, ordtyper och grammatiska egenskaper systematiskt varierar med avseende på situationstyp. Genrestudier, å andra si-dan, har ofta ett fokus på att beskriva hur olika sociala aktiviteter utförs med hjälp av språkliga verktyg, vilket medför att de ofta även behandlar frågor som rör makt och ideologier.

I en registeranalys kopplas texters lexikogrammatiska språkdrag till de för-hållanden inom vilka texterna producerats. Språkdragen antas vara funktionellt motiverade utifrån dessa förutsättningar. Biber använder alltså register på lik-nande sätt som genre används inom SFL, nämligen för att beteckna vad som särskiljer olika texttyper. I mer exakta ordalag beskriver Biber (2006: 11–12; kursiv i original) att termen register används:

[to] refer to situationally-defined varieties described for their characte-ristic lexico-grammatical features. [. . . ] Register is used as a cover term for any language variety defined in terms of particular constellation of situational characteristics. That is, register distinctions are defined in non-linguistic terms, including the speaker’s purpose in communication, the topics, the relationship between speaker and hearer, and the

produc-tion circumstances. However, [. . . ] there are usually important linguistic differences across registers that correspond to the differences in situatio-nal characteristics.

I Bibers analyser används rådata i form av frekvenser för ett flertal olika lingvistiska drag. Enligt Biber (1988: 13) ger (relativa) frekvensvärden ”an exact, quantitative characterization of a text, so that different texts can be com-pared in very precise terms”.

I boken University language redogör Biber (2006) för det språk som ame-rikanska studenter möter på universitetet. Undersökningen är fortfarande den mest uttömmande empiriska registeranalys som gjorts. Materialunderlaget ut-görs av korpusen TOEFL 2000 Spoken and written academic language corpus (Biber m.fl. 2004), som innehåller 2,7 miljoner ord. Korpusen innehåller bå-de tal- och skriftspråk (ca 1,7 respektive 1 miljon ord) från flera olika genrer, som t.ex. lektioner, laborationer, läroböcker och kursplaner. Dessutom täcks de stora ämnesfacken, humaniora, naturvetenskap och samhällsvetenskap, in, på såväl grundnivå som på avancerad nivå.

Några exempel på variabler som räknas är olika ordtyper (som ”ord” räk-nas grundform plus regelbundna böjningsformer), ordklassfördelning, olika se-mantiska kategorier av substantiv (t.ex. abstrakta, konkreta, tekniska) och verb (t.ex. aspektuella, kausativa, mentala), verbfrasvariation (aspekt, diates, tem-pus) och olika bisatstyper (adverbiella, relativa, komplementära).

Resultaten visar framför allt att även om målen med läroböckerna och klass-rumsundervisningen är desamma, skiljer sig de språkliga uttryckssätten avse-värt mellan de talade och skrivna registren. I läroböckerna förekommer betyd-ligt fler substantiv och färre verb än i lektionsmaterialet. Läroböckerna inne-håller också fler relativsatser och ovanliga ord, men färre predikativ och ad-verbial. Ämnet påverkar också mätningarna; tydligast är att ordvariationen är som störst inom humaniora och samhällsvetenskap. Lektionerna kännetecknas i stället av ett överflöd av adverb som markerar sannolikhet och säkerhet. Bå-da dessa verbtyper är ovanliga i läroböckerna. I undervisning används också mycket oftare olika slags modala verb och högfrekventa substantiv.

Förutom att beräkna förekomsten av lingvistiska drag bidrar Bibers register-analys på ett par punkter med nyskapande metoder. För det första utför han en multidimensionell analys av språkdragen med hjälp av faktoranalys. Genom att jämföra värden för olika texter identifieras grupper, eller dimensioner, av språkliga drag som samförekommer i texter. Därefter tolkas grupperingarna i funktionella termer. På så vis prioriteras de lingvistiska dimensionerna fram-för de funktionella. Arbetssättet grundar sig på antagandet om att starkt sam-förekommande lingvistiska mönster delar viktiga kommunikativa funktioner:

”Features do not randomly co-occur in texts” (Biber 1988: 13). Funktionerna behövs alltså för att redogöra för de observerade samförekommande lingvis-tiska dragen, men ges inte på a priori-basis.

Några exempel på registeranalytiska tolkningar är att passiver och nomi-naliseringar representerar en underliggande abstrakt eller informell situation, medan verb i förfluten tid och tredje personens pronomen kan tyda på en be-rättande stil (Biber 1988). Dimensionerna används alltså för att beskriva olika registertyper och benämns t.ex. narrative orientation och oral versus literate discourse.

För det andra undersöker Biber (2006) s.k. lexikala knippen (eng. lexical bundles), som definieras som sekvenser av tre eller fler ord som frekvent sam-förekommer. Exempel på knippen är at the end of och as well as the (Biber och Conrad 1999). Lexikala knippen har tre övergripande användningsområden; de kan fungera attitydmässigt, diskursorganisatoriskt eller referentiellt. Dessutom har varje register en typisk uppsättning knippen med speciella diskursiva funk-tioner (Biber och Barbieri 2007).

I Bibers undersökning (2006) visar sig lexikala knippen förekomma be-tydligt mer frekvent i klassrumsundervisning än i läroböcker och akademisk prosa. I de talade registren används särskilt knippen med attitydrelaterad be-tydelse och funktion.¹² De flesta knippena i läroböckerna har strukturen av nominalfras- eller prepositionsfrasfragment. Få knippen förekommer inom al-la ämnen. I stället är de flesta typiska för olika ämnen, som t.ex. an increase in thesom används i naturvetenskap och teknik, och by the fact that som används i samhällsvetenskapliga ämnen.

Den maskindrivna analysmodellen bidrar till att långt större material kan behandlas än om undersökningen görs manuellt. I och med det att studierna kan göras mer omfattande och därmed mer generaliserbara, ökar naturligtvis resultatens reliabilitet. Sammanfattningsvis har Bibers arbeten med stora kor-pusar tydligt underbyggt uppfattningen om att alla (rimliga) registeruppdel-ningar delar karakteristiska språkdrag.

2.3.2.2 Korpusstilistik

Litterär analys med hjälp av kvantitativa metoder har förekommit sedan 1960-talet, men är fortfarande långt ifrån ett standardiserat område vad gäller meto-der, omfång och teoretiska utgångspunkter (Hoover 2008). Idag utförs de fles-ta kvantifles-tativa litterära analyserna inom det relativt nya forskningsfältet

kor-12För svenska visar emellertid Ribeck (2011) och Ribeck och Borin (2014) att ”läroböcker” som register inte räcker, utan uppdelningen måste göras mer specifik, med hänsyn till både ämne och stadium.

pusstilistik eller stilometri (t.ex. Mahlberg 2007; Hoover 2008; Biber 2011). Några användningsområden inom stilometri är t.ex. författaridentifiering (t.ex. Burrows 2007; Craig 2004; Hoover 2001), undersökningar av olika förfat-tarstilar (t.ex. Hori 2004; Fischer-Starcke 2010; Mahlberg 2015) eller av en-skilda texters stilart, jämfört med andra texter av samma författare eller från samma tidsperiod (t.ex. McKenna och Antonia 2001; Stubbs 2005; Fischer-Starcke 2009). Mahlberg (2007) menar att man sällan upptäcker nya egenheter hos en text eller bok genom att analysera den med en kvantitativ ansats, i stället för att själv bara läsa den. Är man däremot intresserad av likheter och skillna-der mellan stora mängskillna-der text, som man som enskild forskare inte kan läsa och analysera manuellt, är fördelen uppenbar.

Hoover (2008) menar att utnyttjandet av korpuslingvistiska, statistiska me-toder för att beräkna förekomster av grammatiska och lexikala textuella drag är den enda metodologiska grund som kan sägas vara gemensam för kor-pusstilistiken. Dock kan några viktiga verktyg, som ofta används i de litterära analyserna, urskiljas, t.ex. studiet av nyckelord, ordfrekvenser, samförekoms-ter (också kallade lexikala knippen eller n-gram), kollokationer och konkor-danser. Dessutom betonas ofta vikten av att diskutera resultatens exklusivitet genom jämförelser med andra korpusar, antingen med en standardkorpus för språket i fråga eller med någon mindre, för ändamålet, ihopsatt korpus (se t.ex. Mahlberg 2007; O’Halloran 2007; Hoover 2008; Biber 2011; Nilsson Björk-enstam, Gustafson Capková och Wirén 2014).

2.3.2.3 Korpusjämförelser

Korpusjämförelser ingår i många olika fält inom korpuslingvistik. Det språk-teknologiska forskningsfält som arbetar med att analysera och utvinna infor-mation från texter brukar kallas för text mining eller text analytics. Algoritmer-na inkluderar ofta avancerade statistiska metoder, men det är också vanligt att man använder sig av sofistikerad språkvetenskaplig databehandling, i form av t.ex. ordklasstaggning och syntaktisk annotation.

Korpusanalys bygger i mångt och mycket på att identifiera och analysera språklig variation. Kvantitativa data från korpusar kan t.ex. användas till så-dant som betydelsedisambiguering (Sutcliffe och Slater 1995), genrejämfö-relser (Mair 2006), koreferenstilldelning (Li m.fl. 2009), maskinöversättning (Teich 2003) och namnigenkänning (Ritter m.fl. 2011). Uppgifter om språklig variation kan också vara användbara för att beskriva skillnader mellan korpus-ar innehållande texter av olika typer. Sådana undersökningkorpus-ar syftkorpus-ar ofta till att identifiera och redogöra för lexikal variation mellan korpusar.

Allteftersom behovet av olika korpusjämförelser växer, ökar också behovet av en vedertagen metodologi för grundläggande korpuskompilering och pro-cessning för att genomföra jämförelserna. I linje med detta har några dataana-lytiska arbeten försökt diskutera hur man bäst använder och tolkar kvantitativa data från olika korpusar (se t.ex Dunning 1993; Rose och Kilgarriff 1998; Rayson och Garside 2000; Kilgarriff 2001; Cavaglià 2002; Gries 2006). En-ligt Zhang, Huang och Quattri (2012) finns dock fortfarande inga vedertagna statistiska kriterier för att på ett tillfredsställande sätt ranka skillnader mellan korpusar.

2.3.2.4 Språkmodeller

Data från korpusar kan också ligga till grund för statistiska språkmodeller, vars uppgift är att beräkna sannolikheten för en viss ordsekvens (Chelba 2013). Många olika typer av moderna språkteknologiska tillämpningar är betjänta av sådan information, och språkmodeller används t.ex. till ordprediktion (Bickel, Haider och Scheffer 2005), maskinöversättning (Brown m.fl. 1990), stavnings-kontroll (Mays, Damerau och Mercer 1991) och taligenkänning (Rabiner och Juang 1993). Härutöver utnyttjas språkmodeller för en rad olika typer av klas-sificeringsuppgifter (Sebastiani 2002).

Många klassiska språkteknologiska problem, som parsning och ordklass-taggning, går ut på att tilldela en mängd objekt olika fördefinierade klasser, d.v.s. att klassificera objekten. Ett annat brett användningsområde för klassifi-ceringssystem handlar om att sortera in tidigare osedda texter eller dokument i olika klasser. En sådan textkategoriserare bygger upp sin språkmodell genom statistiska inlärningsmetoder. Det vanligaste är att kategoriseraren först trä-nas på texter med manuellt tilldelade klassangivelser, s.k. övervakad inlärning. Men det finns även oövervakade inlärningsmetoder, som använder något slags klustringsalgoritm för att låta inlärningsmetoden själv hitta likheter mellan do-kumenten och därigenom göra klassificeringen (Clark och Lappin 2013).

Den mest kända tillämpningen av textklassificering är troligtvis informa-tionssökning (Moens, Uyttendaele och Dumortier 2000). Men metoden kan också användas till att försöka uppskatta sådant som läsbarheten hos en text (Feng, Elhadad och Huenerfauth 2009).

2.4 Läroboksforskning

In document Judy Ribeck Steg för steg (Page 43-48)