• No results found

4. Metod

4.1 Avhandlingens material

I avhandlingsarbetet har jag valt att använda ett korpusmaterial bestående av skriftspråkliga meningar med pronomenet det. Valet av skriftspråk grundar sig på att detta har en god tolkbarhet, eftersom det i hög grad består av fullstän-diga meningar och ord. Ett material som består av meningar med det genere-rar även en bild av vilka konstruktioner som är frekventa, hur de används och konstruerar betydelse på satsnivå. Jämförelsevis skulle ett talspråkligt material kunna besvara frågeställningar som rör interaktion och informationsstruktur, men det skulle kanske vara svårare att urskilja, särskilja och tolka konstruktio-ner på ett sätt som är önskvärt för denna studie.

En liten nackdel med ett material som består av lösryckta meningar är emel-lertid att det större textsammanhanget inte är inkluderat, vilket i några fall har varit försvårande för analysen. På det hela taget har detta dock inte utgjort ett allvarligt problem eftersom de flesta satser har varit möjliga att analysera i det enskilda textsammanhang som den grafiska meningen utgör. När ett större text-sammanhang har behövts har detta i de flesta fall kunnat uppsökas på internet (se även 4.1.2). Studieobjektets begränsning till specifika satsmönster förklaras även av att analysen är grammatisk snarare än inriktad på textbruk.

Materialet har inhämtats från fyra korpusar som finns tillgängliga som di-gitala forskningsresurser hos Språkbanken: Akademiska texter –

Samhällsve-tenskap, Webbnyheter 2013 samt Bloggmix 2014 och 2015. Jag refererar till

respektive korpus som (A), (W) samt (B) för de två bloggkorpusarna tillsam-mans. När det är relevant att ange bloggkorpusarna var för sig anges dessa som (B14) och (B15). Korpusarna är annoterade med språklig information såsom ordklass och satsfunktion, och för att söka i korpusar används verktyget Korp (se nedan). Korpusarnas respektive storlek vid tiden för mina sökningar visas i tabell 4:1.

tabell 4:1 Korpusarna Akademiska texter, Samhällsvetenskap, Webbnyheter 2013

samt Bloggmix 2014, 2015 A (2016-11-02) W (2016-11-02) B14 (2016-11-02) B15 (2017-03-29) Antal token 10,87M 22,61M 37,90M 27,82M Antal meningar 523 102 1 249 754 2 304 028 1 680 711

Valet av korpusar har gjorts för att skapa en varierad bild av det-bruket. Till-sammans spänner dessa korpusar över mer vardagligt och mer formellt skrift-språksbruk. (A) har överlag en formell och akademisk stil, men innehåller också transkriberat tal från återgivna intervjuer. (W) består av tidningstext

som har publicerats på svenska dagstidningars webbplatser. (W) innehåller ett relativt varierat skriftspråk som oftast kommer från journalister, men som också inkluderar anfört tal ur intervjuer. (B) utgörs av bloggtext med en be-tydligt mer informell och vardaglig stil, vilket ger åtkomst till konstruktioner och uttryck som de två övriga korpusarna kan tänkas sakna. Fortsatt redogörs för hur sökningar har gjorts, samt för utfallet därav.

4.1.1 Sökmetod

Materialet har samlats in med hjälp av sökverktyget Korp – ett verktyg för att söka på språkliga kategorier i Språkbankens korpusar, som exempelvis ord el-ler kombinationer av ord, specifika satsled elel-ler böjningsmönster. För att fånga in en så stor variation i bruket som möjligt har jag valt att enbart söka på det som pronomen (se tabell 4:2). Jag har alltså valt att inte rikta sökningen mot något särskilt satsmönster utan velat se förutsättningslöst hur det används.39

Sökningens utfall har resulterat i ett fortsatt arbete med att särskilja referen-tiellt det från icke-referenreferen-tiellt det, vilket gjort det möjligt att både undersöka frekvenser av dessa två kategorier och att bättre kunna ringa in och undersöka det icke-referentiella i förhållande till det referentiella. Efter att först ha ge-nomfört sökningen i korpusarna (A) och (W) gjordes även samma sökning i (B) för att öka materialets stilmässiga spännvidd ytterligare. I samband med detta formulerades även min forskningsfråga om det-konstruktioner i olika texttyper (se avsnitt 1.2). Min sökmetod redovisas i tabell 4:2.

tabell 4:2 Sökning i Korp

Sökverktyg Korp Sökfunktion utökad Ord det Ordklass pronomen Skiftläge oberoende Sortering slumpvis

39 Mer riktade sökningar för att erhålla största möjliga frekvens av icke-referentiellt det prö-vades först i en pilotundersökning, där finita verb som ofta relaterar till referentiellt det (till ex-empel tror, säger, tolkar) uteslöts. De riktade sökningarna resulterade sammantaget i träffar som bestod av två generella kategorier, det-inledda och icke det-inledda satser. Detta resultat var inte tillfredsställande, dels eftersom det var oklart vilken funktion denna uppdelning skulle ha för analys och beskrivning, dels eftersom riktade sökningar inte uppfångade den variation jag ville komma åt i bruket.

Sökmetoden resulterade i träffar av meningar med både referentiellt och icke-referentiellt det, vilket efter en manuell genomgång av en del av fallen bedöm-des ha stor potential att representera bruket av det-konstruktioner, både vad gäller distribution av och variation hos konstruktioner som produceras inom de tre texttyperna. I tabell 4:3 redovisas antalet sökträffar som sökning i res-pektive korpus har genererat. I det följande redogörs för materialets därefter stegvisa insamling och avgränsning.

tabell 4:3 Antal sökträffar, token och meningar per korpus

A (2016-11-02) W (2016-11-02) B14 (2016-11-04) B15 (2017-03-29) Token 10,87M 22,61M 37,90M 27,82M Meningar 523 102 1 249 754 2 304 028 1 680 711 Sökträffar 108 101 339 545 704 712 510 458

4.1.2 Materialinsamling

Insamlingen av analysmaterialet har huvudsakligen skett i fyra steg, varav varje steg har format en avgränsning. Det första steget innebar att införskaffa me-ningar med det från sökträffarna i Korp. Av sökträffarna (2016-11-02) och (2016-11-04) inhämtades först fyratusen meningar från (A), (W) respektive (B14), vilka infogades i separata excelark. Dessa meningar utgjordes alltså av satser som innehöll pronomenet det, och materialet bestod vid detta tillfälle av tolvtusen meningar. Därefter (2017-03-29) hämtades ytterligare ettusen me-ningar från (B15) för att erhålla en lite större spridning av bloggtexter över tid. Det totala antalet meningar kom alltså att uppgå till trettontusen meningar (se tabell 4:5).

Det andra steget innebar en manuell kategorisering av det som referentiellt och icke-referentiellt. Detta utgjorde avhandlingens första delstudie med syfte att presentera frekvenser av de två kategorierna. För denna delstudie bantades materialet ner till niotusen meningar med lika delar från respektive texttyp: 3 000 meningar från (A), 3 000 från (W) samt 3 000 från (B) (Bloggmix 2014 och 2015). Av meningar som innehöll flera det räknades endast de fall som ut-gjorde sökträffen i Korp. I detta läge bortsållades irrelevanta träffar, som bland annat utgjordes av meningar där det inte var ett pronomen eller av meningar som av olika orsaker inte var tolkbara (se närmare i avsnitt 4.2.2.1.).

Eftersom en del meningar inte var tydliga beträffande det:s referentialitet innebar kategoriseringen vid steg två även en analys av gränsområdet mellan referens och icke-referens. Oklara referentialitetsfall märktes först upp som

frågetecken och samlades sedan separat för att kunna studeras utifrån frågor om vad som gör referentialiteten oklar i en viss struktur eller kontext och hur dessa fall kan bedömas. För detta behövdes ofta textsammanhanget uppsökas, vilket gjordes genom att söka i google på den aktuella meningen. För att av-göra huruvida en google-träff var korrekt kontrollerade jag att mening, källa och årtal var överensstämmande med korpustextens information. Studiet av oklara fall ledde fram till en kategorisering där frågetecken ändrades till an-tingen referentiellt, icke-referentiellt eller potentiellt icke-referentiellt för fler-tydiga fall. Dessa lades sedan tillbaka i de ursprungliga ark som de tagits från (se tabell 5:1 för detta resultat). Det återstod emellertid ett fåtal frågetecken som fortfarande inte kunde kategoriseras, med anledning av brist på textsam-manhang. Dessa har exkluderats ur materialet (se avsnitt 4.2.2.1).

I det tredje steget samlades fall av icke-referentiellt det för att kategoriseras utifrån deras satsmönster, som olika det-konstruktioner. Här samlades enbart meningar som jag efter studiet av referentialitet betraktade som tillräckligt klara fall av icke-referentiellt det för att kunna utgöra mitt fortsatta analys-material. För att ytterligare avgränsa detta material med en jämn fördelning av de tre texttyperna samlade jag 1 000 meningar från respektive texttyp i ett och samma ark, varvid varje konstruktion uppmärktes med information om korpus. Meningarna var i detta skede sammantaget 3 000.

Det fjärde och sista steget innebar en slutlig avgränsning av antalet kon-struktionstyper för analysen i avhandlingens fem sista delstudier. Av sex olika konstruktionstyper som jag identifierat i samband med steg tre (i tabell 4:4 återgivna som a, b, c etc.) valdes endast fem, vilket minskade materialet med ytterligare ungefär femhundra meningar (valet av denna exkludering beskrivs i avsnitt 4.3.3). Det innebar att det slutgiltiga analysmaterialet kom att utgöras av 2514 meningar.

Tabell 4:4 visar insamlingsprocessen utifrån de fyra steg som har beskrivits. Tabellen visar enbart det stegvisa arbetet med avgränsning av kategorier, men inga siffror. Siffror visas sedan i tabell 4:5 med en översikt av materalets storlek vid de fyra stegen.

tabell 4:4 Stegvis insamling och avgränsning av material

Steg Material

1) Insamling från sökträffar det

2) Kategorisering av referentialitet (delstudie 1) icke-referentiellt referentiellt 3) Kategorisering av det-konstruktioner a b c d e f

4) Avgränsning av det-konstruktioner (inför delstudie 2, 3, 4, 5, 6)

tabell 4:5 Materialets storlek vid steg 1–4 Steg A W B Totalt 1) Insamling från sökträffar 4 000 4 000 5 000 13 000 2) Kategorisering av referentialitet (delstudie 1) 3 000 3 000 3 000 9 000 3) Kategorisering av det-konstruktioner 1 000 1 000 1 000 3 000 4) Avgränsning av det-konstruktioner (inför delstudie 2, 3, 4, 5, 6) 830 807 877 2 514