Topic modeling - Digitala modeller: teknikhistoria och digitaliseringens specificitet

Topic-modeller är samlingsnamnet på en rad algoritmer som kan an- vändas för att klassificera textdokument baserat på de tematiska struk- turer som innehållet uppvisar, hur teman fördelar sig över dokumenten, hur de samförekommer och förändras över tid. Modellerna kräver inte att dokumenten är annoterade på förhand, det är den statistiska analysen av ordens distribution som genererar resultatet. Modellerna behö- ver emellertid instruktioner om hur många topics de ska söka efter. Antalet bestämmer tematikernas upplösning – få och grovhuggna, eller många och högupplösta. Om en modell instrueras att söka efter 100 topics är utgångspunkten att det verkligen finns 100 topics i dokumenten. Vad modellen söker svar på är vad dessa 100 topics innehåller, vilka ord som är mest förknippade med respektive topic, samt hur topics fördelar sig över dokumenten. För varje topic genererar modellen en lista på ord, exempelvis reaktor, atomenergi, uran, och så vidare. Det är emellertid forskaren själv som får sätta ämnesrubriken – i detta fall kärnkraft.

I flera studier har topic modeling använts för att analysera utveck- lingen av vetenskapliga fält, deras skiftande språkbruk och ämnesfokus. I en del av dem är publikationer och abstracts snarast en strategiskt vald text-råvara som används för att förfina och exemplifiera modellerna och där kommer analysen av fältens utveckling i andra hand. I andra fall är

historiografiska frågor i förgrunden. Historikern Sharon Block och data vetaren David Newman har exempelvis undersökt ämnesval bland dem som publicerat sig i ett stort antal historievetenskapliga tidskrifter mellan 1985 och 2005. Analysen, baserad på en halv miljon abstracts, framhäver framför allt förändringar på det genus- och kvinnohistoriska området, hur temat etableras och hur genusbegreppet letar sig in i historikernas vokabulär. Med hjälp av metadata om tidskrifterna och författarna kan de bland annat visa att det finns tydliga regionala skill- nader vad gäller ämnesval och vilka tidsperioder som studeras. Kvinno- historiska teman samförekommer med andra vanliga teman, som eko- nomi, politik, religion och litteratur – det är alltså inget avgränsat och isolerat forskningsområde (vilket en del kommentatorer hävdat). Med topic modeling tecknas en grovskiss över disciplinens förändringar

under en tjugoårsperiod.16_{Med snarlik metoddesign har andra under-}

sökningar uppmärksammat publiceringstrender inom exempelvis ger-

manistik och klassiska studier.17_{Försöken visar sammantaget att topic}

modeling är en välfungerande metod för att kartlägga historiografiska förändringar.

Topic-modeller föreställer sig textförfattandet något bakvänt: redan från början finns ett antal ämnen, författaren har bara att välja vilka av dem som ska ingå i den enskilda texten, samt blanda dem i olika pro- portioner. Utifrån detta antagande kan modellen återskapa den ”ur- sprungliga” listan på ämnen, och spåra hur de har blandats med var- andra i varje enskild text. Helt orealistiskt är kanske inte detta synsätt eftersom den historiografiska forskningen resulterat i snarlika ämnes- listor. Varje tema bestäms av en samling för temat relevanta ord. Något topic kan innehålla orden gas, aga, spis, ett annat hem, kvinna, hushåll, ett tredje patent, uppfinning, uppfinnare. Olika texter som berör samma ämne tenderar att använda en snarlik vokabulär. Är ämnet ett annat är också vokabulären en annan, även om enskilda ord kan förekomma i flera olika sammanhang. Ordföljden har emellertid ingen betydelse. Modellerna betraktar varje dokument som ”a bag of words”. Den modell som använts för att identifiera topics i Daedalus är Latent Dirich-

let Allocation (LDA) i verktyget MALLET:s tappning.18

För att ge ett bättre resultat har de OCR-lästa årgångarna av Daedalus rensats på en del av sitt innehåll. Under de första decennierna innehöll årsböckerna en hel del reklam – denna har tagits bort helt. Medlems- förteckningar, listor på museets bidragsgivare, interna rapporter från

årsmöten och annat har också tagits bort. Raderats har även de referens- listor som avslutar en del av årsboksartiklarna. Det som är kvar utgörs av 1085 avgränsade texter, av vilka huvuddelen är längre artiklar, men där det även förekommer en del korta notiser om aktuella utställningar och föremål i samlingarna, bokrecensioner och rapporter från konferen- ser. De årsböcker som utgörs av monografier har delats upp i enlighet med kapitelindelningen.

Sammanlagt består denna textmassa av närmare 3,2 miljoner ord. Via Språkbankens annoteringsverktyg har orden lemmatiserats (så att endast grundformerna återstår) och ordklasser taggats. Därmed har det varit möjligt att endast ta med substantiv och namn i den digitala analysen. Att reducera korpus till substantiv är en vanlig strategi när man

vill fånga texternas tematik, vad texterna ”handlar om”.19_{Härutöver har}

småord på en eller två bokstäver tagits bort. Kvar blev 958 000 ord. För att förbättra resultatet har texterna (nu bestående av substantiv och namn) delats upp i segment om 1000 ord vardera.

En del av dem som använt topic modeling har reducerat sina korpus ytterligare för att på så sätt förbättra precisionen. En vanlig metod är att ta bort lågfrekventa och högfrekventa ord. Detta kan resultera i mer entydiga och avgränsade topics och mindre brus i form av återkommande

ord typiska för genren.20_{För den som endast är intresserad av vad-frågan}

– vad handlar texten om? – kan dessa avgränsningar vara mycket stra- tegiska. Var gränserna ska dras är emellertid något godtyckligt. Beroende på forskningsfrågan kan det dessutom vara befogat att behålla genre- typiska ord eftersom de definierar formen, den ram som enskilda ämnen placeras in i. Eftersom utgångspunkten i denna studie är historiografisk är hur-frågan av stort intresse. Av den anledningen har både högfrek- venta och lågfrekventa ord behållits. Modellen har instruerats att identifiera 100 topics.

In document Digitala modeller: teknikhistoria och digitaliseringens specificitet (Page 157-159)