Syntaxbaserad f¨orfattarigenk¨anning

(1)

Syntaxbaserad

f¨ orfattarigenk¨ anning

Syntax-based authorship attribution

Lars Bergstr¨ om

23 november 2010

Examensarbete f¨ or kandidatexamen i datavetenskap, 15 HP

Handledare p˚ a CS-UmU: Johanna H¨ ogberg

Examinator: Jonny Pettersson

Ume˚ a Universitet

Institutionen f¨ or datavetenskap

901 87 UME˚ A

Sverige

(2)

(3)

Sammanfattning

Syntaxbaserad författarigenkänning innebär att studera en författares sätt att konstruera meningar som ett sorts fingeravtryck. Kan man med hjälp av denna information avgöra vem som skrivit en specifik text, utan känd författare?

Resultatet av denna studie visar att det inte bara är möjligt (som i bättre än slumpen) utan ocks˚a bättre än en jämförbar metod, baserad p˚a att räkna kontextfria ord som förekommer i alla sorters texter. Styrkan i den syntaxbaserade metoden ligger i att kunna avgöra författarskap även utan referenstexter av samma författare inom samma ämne. Samtidigt undviks att blanda ihop olika författare vars texter är lika bara baserat p˚a val av ämne.

(4)

ii

Syntax-based authorship attribution

Abstract

The writing style of a particular author can be divided into many subfeatures, for example use of words, language and syntax. Focusing on the latter, this study aims to show how well syntactic information alone can attribute the correct author to a document. Syntactic information is defined as overlapping syntactic subtrees of height one (1) for all sentences of all included documents. The performance is compared to that of the previously very successful method of comparing stop word frequencies. These are words normally excluded from search engine queries, because they are present in all sorts of texts regardless of topic.

However, this property is a positive feature when it comes to authorship attribution, as it allows for context-free comparisons of texts.

Training and test data is obtained from the icwsm 2009 corpus, containing some 200 gigabyte of blog posts and news articles. This data is automatically filtered to create a reasonably large collection (about 250000 documents) while remaining manageable by an automatic natural language parser (Stanford nlp) within the constraints of time. The fil- tering process guarantees that all texts used for comparison has texts of the same author within the training portion of the data.

Indexing and searching is done using Latent Semantic Indexing (lsi). All documents are represented by a vector in multidimensional space, thus creating a matrix of document vectors. Search documents are then matched with those in the matrix by calculating the angles between document vectors, returning those with the smallest angular difference to the query document. The process of creating a document matrix and search documents is repeated multiple times, creating a new document matrix of randomly selected authors every time. The performance of the different methods are measured by comparing average scores for each created document matrix.

The results show that by average the syntactic information is more successful in correct authorship recognition compared to both chance and stop word frequency analysis. These results hold true for all tested numbers of authors present within the index matrix, ranging from ten to one hundred unique authors.

(5)

Inneh˚ all

1 Inledning 1

1.1 Anv¨andningsomr˚aden . . . 1

1.2 Val av ansats . . . 2

1.3 CodeMill AB . . . 2

1.4 Definitioner . . . 2

1.5 Relaterat arbete . . . 3

2 Problembeskrivning 5 2.1 Hypotes . . . 6

2.2 Metod . . . 6

2.2.1 Support Vector Machines (svm) . . . 8

2.2.2 Linj¨ar anpassning . . . 8

2.2.3 Konkatenering av texter . . . 8

2.2.4 K-b¨asta tr¨affar . . . 9

2.3 Corpus . . . 10

2.4 Experimentformulering . . . 10

3 Genomf¨orande 13 3.1 Filtrering . . . 13

iii

(6)

iv INNEH˚ALL

3.2 Parsning . . . 14 3.3 Testparametrar . . . 15

4 Resultat 17

5 Slutsatser 19

5.1 Kommande arbete . . . 19

6 Tacksamhetsbetygelser 21

Referenser 23

A Stoppord 25

(7)

Figurer

2.1 Exempelmening med nlp-genererat syntaxträd och stoppord . . . 7 2.2 K bästa träffar . . . 9

4.1 L˚adagram av resultat . . . 18

v

(8)

vi FIGURER

(9)

Tabeller

3.1 Dokumentstatistik efter filtrering och parsning . . . 14

4.1 Resultat . . . 18

vii

(10)

viii TABELLER

(11)

Kapitel 1

Inledning

Författarigenkänning handlar om att avgöra vem som har skrivit ett stycke text genom att studera karaktäristiska drag i texten. S˚adana särdrag kan vara ordval, spr˚ak, teman, syntaktisk stil eller n˚agon kombination av de listade dragen. Här studeras problemet ur syntaktisk synvinkel.

Antalet kandidatförfattare är begränsat och det finns tillg˚ang till texter skrivna av samtliga kandidater.

1.1 Anv¨ andningsomr˚ aden

Författaridentifiering har flera möjliga användningsomr˚aden:

– Identifiera vem som st˚ar som f¨orfattare till nyfunna, tidigare ok¨anda verk

– Hitta karaktäristiska drag hos kända författare för att lära sig skriva i samma stil som dem

– Uppt¨acka fusk och plagiat

– Upptäcka propagandaspridning i forum. En ˚asikt kan uttryckas flera g˚anger under flera olika psuedonymer och kan därmed se ut att ha vunnit starkare stöd, trots att den framförs av ett f˚atal personer

– Avgöra om tillägg eller ändringar har gjorts i efterhand till en text. Exempelvis Bibeln

¨ar antagligen ett lappverk producerat av flera olika f¨orfattare under l˚ang tid

1

(12)

2 Kapitel 1. Inledning

1.2 Val av ansats

En författares stil och egenhet antas avspegla sig i hur ofta olika grammatiska och syntaktiska strukturer används av denne. Vidare antas att ett ord med bibeh˚allen information om dess syntaktiska position i en sats säger mer än ordet ensamt om dess betydelse och sig- nifikans för att avgöra vem författaren är. Det vore intressant att studera om den syntaktiska informationen ensamt kan bidra till ökad träffsäkerhet (jämfört med slumpen).

De studerade texterna rör vitt skilda ämnesomr˚aden, vilket tvingar fram ämnesoberoende metoder för igenkänning. Därför studeras fragment av syntaxträd, helt utan hänsyn till vilka ord de är uppbyggda av. Som jämförelse används ordfrekvensanalys av s˚a kallade stoppord en välkänd metod som presterat bra över ämnesgränser.

1.3 CodeMill AB

CodeMill är ett Ume˚abaserat IT-konsultbolag med 15-talet anställda. Företaget erbjuder helhetsansvar för utveckling och underh˚all av IT-system, men ocks˚a resursförstärkning till andra företag. Som sprunget ur Ume˚a universitet är m˚alsättningen en fortsatt nära kontakt med akademin.

1.4 Definitioner

I detta dokument f¨orekommer ett antal begrepp som beh¨over en tydlig och entydig definition.

Dokument och text används som synonymer och avser all information som finns tillgänglig för en enskild text i corpus.

Söktext är ett dokument vars författare är känd i corpus, men okänt för sökalgoritmen.

Genom att jämföra författarinformationen med den som programmet gissar sig till kan träffsäkerheten i dess gissningar avgöras.

Särdrag (eng: feature) beskriver antingen ett ord eller ett syntaktiskt delträd. Frekvensen av olika särdrag i dokument är det som undersöks.

Syntax används som förkortning av syntaktiska särdrag och som namn för den syntaxbaserade metod som används.

Parser eller NLP är ett program som tolkar strängar av naturligt spr˚ak och bygger upp ett träd av dess syntaktiska best˚andsdelar. Här används Stanford Natural Language Parser (Stanford nlp).

Lind är programmet som genomför författarigenkänningen, en vidareutveckling av den syntaxbaserade sökmotorn Cordata.

(13)

1.5. Relaterat arbete 3

1.5 Relaterat arbete

Undersökningar (ex [11], [6]) visar att det finns b˚ade lexikala och syntaktiska statisktiskt signifikanta särdrag mellan texter, det vill säga särdrag med vars hjälp man kan avgöra författarskap betydligt bättre jämfört med slumpen. Genom att jämföra förekomsten av dessa särdrag i texter med kända respektive okända författare kan texter med liknande egen- heter kopplas samman och författaren därmed identifieras. I tidigare undersökningar inom omr˚adet författarigenkänning varierar metoder och corpus kraftigt, vilket gör jämförelser dem emellan sv˚ara. I de undersökta studierna har de lexikala metoderna ett förspr˚ang jämfört med de syntaktiska när de ställs mot varandra en och en [6], [11], där frekvens av funktionsord (stoppord) är särskilt effektivt. [10] En kombination av olika metoder är genomg˚aende bättre än n˚agon enskild metod ensam.

Utöver relativ frekvens (i förh˚allande till dokumentlängd) av respektive särdrag är även mängden olika särdrag och hur ofta nya särdrag introduceras i en text intressant, som ett m˚att p˚a hur väl författaren varierar sitt spr˚ak. Bayeen [2] hävdar vidare att variansen i introducerandet av nya syntaktiska strukturer är större än motsvarande för införandet av nya ord. Detta torde tyda p˚a en ökad effektivitet för de syntaktiska metoderna vid större corpus. Noteras bör dock att Bayeens undersökning endast jämförde tv˚a författare.

För att avgöra om tv˚a texter har en liknande uppsättning särdrag finns flera metoder. Alla bygger i n˚agon m˚an p˚a att jämföra frekvenserna av ett antal särdrag, vare sig de är lexikala, syntaktiska eller en kombination av b˚ada. För stora datamängder blir jämförelserna snabbt ineffektiva, d˚a de använda frekvensmatriserna är väldigt glesa – väldigt f˚a särdrag finns i alla undersökta texter. För att effektivisera jämförelseprocessen kan antingen färre särdrag jämföras [6], [2] eller beräkningsmetoderna förbättras [3], [4], [9].

(14)

4 Kapitel 1. Inledning

(15)

Kapitel 2

Problembeskrivning

Detta examensarbete (omfattande 15 högskolepoäng) för kandidatexamen i datavetenskap syftar till att studera effektiviteten av att söka likheter i texternas syntaktiska träd för att avgöra om flera texter har samma författare. För att avgöra effektiviteten kommer resultatet jämföras med slumpen och med en frekvensanalys av stoppord för samma texter.

Om analysen av texternas syntaxträd är signifikant bättre p˚a att känna igen författare

än jämförbara metoder, kan det finnas stor anledning att lägga till syntaxträdsanalys i en cocktail av tekniker för författarigenkänning. Eftersom syntaktiska och ordfrekvensbaserade metoder berör olika aspekter av texter är det rimligt att anta att de kompletterar varandra, n˚agot som ocks˚a visats i tidigare studier.

Studien kommer att bygga vidare p˚a ett p˚ag˚aende projekt, kallat Syntaxbaserad sökning, inom företaget CodeMill AB i samarbete med Totalförsvarets forskningsinstitut (foi). Inom projektet finns följande färdigt att användas i studien:

– En sökmotor, Cordata, som kan avgöra om flera texter ligger nära varandra i en vektorrymd. Denna rymd skulle i detta fall definieras utifr˚an vilka syntaktiska strukturer texterna har och hur ofta dessa förekommer. [7]

– Ett program med vilket s¨okmotorns databas kan fyllas med texters syntaxtr¨ad och ordfrekvenser. [8]

– En corpus med insamlat textmaterial till vilka författarna är kända, att använda som facit, tillhandah˚allen av Spinn3r.

En ordfrekevensanalys l˚ater varje ord vara en dimension i rymden. Tv˚a texter skulle vara lika om punkterna ligger nära varandra i denna rymd. Med syntaxanalys skulle orden ersättas av en samling noder av textens syntaxträd.

Uppgiften blir att bygga om Cordata fr˚an att söka relevanta dokument till att hitta relevanta författare. Dessutom krävs ett effektivt sätt att tolka och analysera stora mängder texter för att f˚a fram testdata utan att göra den den naturliga spr˚aktolkningen för omfattande beräkningsmässigt.

5

(16)

6 Kapitel 2. Problembeskrivning

2.1 Hypotes

Denna unders¨okning har tv˚a arbetshypoteser. I b˚ada fallen anv¨ands en ensidig signifikansniv˚a p˚a α = 0, 05.

1. Syntaxbaserad författarigenkänning är bättre än slumpen p˚a att avgöra författarskap.

Antag att µs är medelpoängen för sökningar genomförda med syntaxbaserad indexering och µ^xär motsvarande medelpoäng som ges av att slumpvis välja bland tillgängliga författare.

H⁰: µs= µx (2.1)

H1: µs> µx (2.2)

2. Syntaxbaserad författarigenkänning är bättre än stoppordfrekvensanalys p˚a att avgöra författarskap. Antag i likhet med hypotes (1) att µ^s är medelpoängen för sökningar genomförda med syntaxbaserad indexering, medan µôär motsvarande medelpoäng för frekvensanalys av stoppord.

H0: µs= µo (2.3)

H¹: µ^s> µ^o (2.4)

2.2 Metod

Detta examensarbete bygger vidare p˚a arbete av Thomas Knutsson [7] och Sigrid Lindholm [8]. Den programvara (Cordata) de utvecklat kommer anv¨andas som utg˚angspunkt f¨or dessa nya studier och vidareutveckling av programmet.

För att finna stilistiska särdrag som kan kopplas ihop med en enskild författare används framför allt tv˚a klasser av lingvistiska särdrag (eng: features). [10]

Lexikala metoder innefattar ber¨akning av frekvens av ord, ordstammar, ¨andelser och stoppord.

Syntaktiska metoder är baserade p˚a meningsbyggnad. Här undersöks förekomsten av olika sorters satstyper, dess komplexitet (syntaxträdens djup) och de ing˚aende ordens satsdelar samt interpunktuation (kommatering).

Stoppord är kontextfria ord, även kallade funktionsord som förekommer i all sorts text, till exempel prepositioner (till, fr˚an) eller pronomen (hon, den). Som namnet antyder utesluts de normalt sett ur söksträngar eftersom de förekommer i all sorts text. Stopporden är inte användbara vid sökningar efter ett specifikt ämnesord. Tvärt emot normalfallet används denna egenskap här istället som en styrka, eftersom stopporden är bra när man letar andra

(17)

2.2. Metod 7

egenskaper i texten, till exempel upphovsmannaskap. De stoppord som anv¨ands listas i bilaga A.

För syntaktiska särdrag klipper Lind isär en menings syntaxträd till överlappande delträd av höjd ett. Ett s˚adant delträd är en nod och dess direkta barn (se figur 2.1). Delträden är

överlappande d˚a samma nod kan förekomma som barn i ett delträd och förälder i ett annat.

Detta görs för att minska antalet unika träd och därmed minska glesheten i frekvensmatrisen (se nedan). [7] Hur höga delträden skall vara kan regleras, men hur detta p˚averkar resultatet lämnas till vidare studier.

S

VP†

ADJP†*

S*

VP

NP

NN

paint JJ

heat-resistant VB

use TO

to JJ*

sure VB†

make ADVP

RB

Just

Figur 2.1: Exempelmening med nlp-genererat syntaxtr¨ad och stoppord

Exempelmening: Just make sure to use heat-resistant paint. Stopporden är markerade i fetstil. Här illustreras hur stoppord och syntax berör olika delar av meningen. Stopporden förekommer endast som lövnoder, medan den syntaktiska informationen finns i noderna högre upp i trädet. Tv˚a syntaktiska delträd är markerade med * respektive †. Notera att noden adjp ing˚ar i bägge delträden, därav termen överlappande delträd.

För varje dokument som ing˚ar i studien (se avsnitt 2.3) skapar Lind en dokumentvektor, där värdet i varje enskild dimension representerar den relativa frekvensen (i förh˚allande till dokumentets längd) av ett visst syntaktiskt eller lexikalt särdrag. Dessa vektorer bil- dar tillsammans en matris där varje kolumn är ett dokument. Därefter indexeras matrisen med hjälp av Latent Semantisk Indexering (lsi). [7] Denna process projicerar frekvensmatrisen till en lägre dimension (vars dimension ges av konstanten lsik) och minskar därmed beräkningskomplexiteten i sökningarna. [4]

När en söktext jämförs med dokumenten i sökmatrisen beräknas avst˚andet (vinkeln) till

övriga vektorer i rymden och de K närmaste vektorerna returneras tillsammans med vinkel- skillnaden (angett som cosinus-värde, se figur 2.2). De närmaste vektorerna har flest gemen-

(18)

samma s¨ardrag med s¨oktextens vektor.

Till skillnad fr˚an flera tidigare studier kring författarigenkänning använder denna studie automatiskt inhämtade och filtrerade texter att utföra försöken p˚a, istället för exempelvis manuellt markerad nyhetstext. Texterna är dessutom automatiskt parsade med Stanford nlp. B˚ada dessa faktorer för med sig potentiella felkällor, som feltolkat naturligt spr˚ak och texter vars metadata är felaktigt angiven. Filtreringen som diskuteras i avsnitt 3.1 har i största möjliga m˚an försökt undvika s˚adana fel.

Intresset är i första hand att koppla dokument till författare och inte dokument till andra dokument (som var programmet Cordatas huvuduppgift [7]). D˚a samma författare har skrivit flera dokument ska n˚agon form av klustring av författarnas dokument genomföras, s˚a att texter kan jämföras mot kluster av texter (av samma författare) snarare än enskilda texter. Denna klustring görs vid olika tillfällen i exekveringen beroende p˚a vilken metod som används. I följande delkapitel kommer n˚agra alternativa metoder att presenteras tillsammans med en motivering till K-bästa träffar, den som slutligen används.

2.2.1 Support Vector Machines (svm)

Support Vector Machines (svm) är en metod som i ett inlärningsskede delar in vektorrymden i olika segment med hjälp av en mängd hyperplan. Varje hyperplan delar rymden p˚a s˚a sätt att avst˚andet mellan kluster av varje författares texter blir s˚a stort som möjligt. När en textvektor med okänd författare (testdata) placeras i rymden avgörs vilket hyperplan texten är längst ifr˚an. Segmentet som detta hyperplan delar in är det författarkluster som passar bäst ihop med söktexten. [3] När väl alla hyperplan är byggda är de effektiva att jämföra söktexten mot jämfört med att jämföra varje söktext för sig. Nackdelen är att Linds nuvarande [7] indexeringsmetod skiljer sig markant fr˚an svm, vilket medför stora ändringar i det existerande systemet, för stora för att rymmas i detta examensarbetes tisdram. För vidare diskussion kring detta se avsnitt 5.1.

2.2.2 Linj¨ ar anpassning

Istället för att jämföra en söktexten mot alla vektorer i rymden görs en linjär anpassning för varje författares samlade verk, en medelvektor -anpassning mot vilken man sedan jämför söktexter. Detta gör att mängden jämförelser som behöver göras för att hitta närmaste vektor i rymden är betydligt färre. Anpassningen görs med minsta kvadratmetoden.

2.2.3 Konkatenering av texter

I likhet med linjär anpassning (ovan) syftar konkatenering av texter till att skapa en medelvektor för varje författare, mot vilken söktexter jämförs. Här konkateneras varje författarens samtliga texter efter varandra före parsning istället för efter, som i fallet linjär anpassning.

(19)

2.2. Metod 9

Figur 2.2: K b¨asta tr¨affar

För varje resultatvektor (upp till och med K) anges ett värde för hur stor vinkel (Y- axeln) den har mot sökvektorn. Linds resultat erh˚alls genom att dela vinkelsumman för rätt författare med den totala vinkelsumman (rätt+fel författare). Figuren baseras p˚a värden som erhölls vid parametertestning (avsnitt 3.3).

2.2.4 K-b¨ asta tr¨ affar

Metoden för K-bästa träffar har den stora fördelen att den i det närmaste är färdigimplemen- terad i Lind, vilket gör den till det naturliga valet. Om den visar sig fungera väl kan behovet av implementation av övriga metoder vara irrelevant eller oviktigt.

För närvarande visas de K närmaste vektorerna till söktexten i en ökande avst˚andslista.

Vinkelsumman för de K bästa träffarna kan jämföras med vinkelsumman för varje enskild författares dokument bland samma träffar. Författaren vars dokument genom denna beräkning tar störst del av vinkelsumman skulle bli Linds svar i skarpt läge. För att studera den genomsnittliga träffsäkerheten för m˚anga oberoende försök används istället vinkelsumman som Lind tilldelar rätt författare, d˚a det rätta svaret finns tillgängligt. Om rätt författare inte finns med bland de K bästa träffarna är resultatet noll.

Istället för ett konstant värde för K skulle svaret kunna baseras p˚a antal texter inom ett viss avst˚andsradie fr˚an söktexten snarare än ett konstant antal närmaste dokument. Resultatet av en s˚adan indelning är varken närmare undersökt eller implementerat.

(20)

2.3 Corpus

Corpuset icwsm2009 best˚ar av nära 200 gigabyte blogg- och nyhetstext i form av rss- flöden (xml-baserat). Detta är all data som d˚avarande Tailrank (nuvarande Spinn3r.com) samlade in mellan augusti och oktober 2008. Denna delmängd av Spinn3rs insamlade data har gjorts tillgänglig för allmänheten och har använts för International Conference on We- blogs and Social Media 2009, där ett flertal vetenskapliga artiklar publicerades baserade p˚a undersökningar kring datamängden. [5]

För varje blogginlägg har ett antal meta-taggar genererats i de fall de kunnat avgöras, bland annat följande:

– Spr˚ak

– F¨orfattare (xml-taggen <atom:author>) – K¨alla (som url)

2.4 Experimentformulering

Mycket av inneh˚allet i icwsm2009 (avsnitt 2.3) är irrelevant för denna studie. Överflödiga meta-taggar, html-formatering, inlägg utan metataggen author, inlägg i alltför kort form eller p˚a andra spr˚ak än engelska, spam och dubbletter av inlägg. För att f˚a fram relevant data analyseras datamängden i flera omg˚angar (passes), där varje varv strävar mot en allt mer relevant inneh˚all genom striktare krav p˚a vad som accepteras. Utöver detta behöver inläggens inneh˚all vara n˚agorlunda välformaterat för att kunna tolkas av en parser för naturligt spr˚ak. För en detaljerad genomg˚ang om vad som filtrerats bort och karakteris- ering av det som ˚aterst˚ar, se avsnitt 3.1.

Efter ovanst˚aende filtrering väljs ett antal författare ut slumpmässigt. Ur alla texter av dessa utvalda författare väljs 30 texter ut slumpmässigt. Dessa används som söktexter och övriga används som inlärningsdata. Lind bygger upp en vektorrymd av inlärdningsdata mot vilken söktexterna jämförs.

För varje uppsättning slumpmässigt utvalda författare och deras texter körs Lind tv˚a g˚anger, den ena g˚angen indexeras jämförelserymden med frekvens av stoppord (se bilaga A) och den andra med syntaxträd. Detta medför att alla försök görs parvis.

Söktexterna indexeras enligt b˚ada metoderna och jämförs mot respektive dokumentmatris.

Resultatet visas som vinkeln (i form av cosinusvärde) för de K närmaste vektorerna till respektive söktext. Summan av värdena för de korrekta resultaten delas med den totala värdet för de K närmaste träffarna, vilket ger ett värde mellan noll och ett baserat p˚a hur bra träffarna är. Värdet motsvarar hur stor del av den totala vinkelsumman som utgörs av korrekta författare.

Försöket upprepas 30 g˚anger per steg om tio ytterligare författares texter i dokumentmängden.

(21)

2.4. Experimentformulering 11

Medelresultaten för varje skapad matris av stoppordsfrekvens och syntaxträdsdito jämförs med ett parat t-test för att avgöra om det är sannolikt att stickproven (medelresultaten)

är hämtade fr˚an samma population. Mätningen baseras s˚aledes inte p˚a enskilda sökningar, utan medelstyrkan av sökningen för varje uppbyggd sökmatris.

Dessa medelresultat antas vara normalfördelade enligt centrala gränsvärdessatsen, som anger att summan av flera oberoende avvikelser är approximativt normalfördelad när antalet försök är m˚anga.

(22)

(23)

Kapitel 3

Genomf¨ orande

Redan i inledningsskedet av studien var det uppenbart att den största flaskhalsen i resul- tatberäkningen skulle vara meningsuppdelning av tolkning av det engelska spr˚aket tills dess syntaktiska best˚andsdelar. Därför är det nödvändigt att filtrera ut lämpliga delar av corpus för att f˚a en tillräckligt stor och för parsern först˚aelig textmassa.

Cordata har byggts om och modifierats för att dels läsa in och filtrera xml-data enligt kriterierna nedan och dels för att bygga upp de slumpmässiga försök som beskrivs i avsnitt 2.4. M˚alsättningen har varit att i s˚a stor utsträckning som möjligt utnyttja befintliga klasser och metoder för dokumenthantering och databasinteraktion.

3.1 Filtrering

Texterna har rensats fr˚an data som annars ställer till problem för parsern. Följande har rensats bort:

– url:er, identifierade som frist˚aende webbadresser.

– Upprepade blanksteg och -rader (ersatta med enkla blanksteg).

– Multipler av interpunktuation, dvs punkter, utropstecken och fr˚agetecken (ersatta med enskilda dito).

– Varianter av citationstecken och apostrofer (ersatta av ’ och ").

– Text inuti html-taggarna <li> (listor, ofta inkompletta meningar) och <blockquote>

(citat i hela stycken, som förmodligen inte är skrivna av samma författare som huvud- texten).

– Icke ascii-tecken, vilket rensar bort fr¨ammande spr˚ak som feltaggats till engelska och olika unicode-symboler.

13

(24)

14 Kapitel 3. Genomf¨orande

Tier1 Filtrerat Parsat

Totalt antal inl¨agg 12873609 316260 191683

Unika f¨orfattare 834744 10580 7506

Medellängd för inlägg (tecken) 2150 3143 1590

Medelantal inl¨agg per f¨orfattare 15 30 26

Tabell 3.1: Dokumentstatistik efter filtrering och parsning

Enligt beställaren (foi) ska studien i första hand koncentreras till delmängden tier1, som best˚ar av de inlägg ur Corpus som skulle rankats högst av sökmotorer. Denna delmängd är ungefär tjugo procent av hela corpus.

Följande krav ställdes p˚a inläggen, efter ovanst˚aende rensning, för att de skulle hanteras vidare av Stanford nlp, med tillhörande motiveringar.

– Minst 400 tecken l˚anga. Detta f¨or att rensa bort sammanfattade inl¨agg (ofta trunker- ade till 300 tecken) och korta konstateranden.

– Känd författare och källa (author och resource(-url)-taggad). Utan denna information finns inget facit att jämföra med. Källan används för att till˚ata att samma författarnamn används p˚a flera sajter.

– Känt spr˚ak (taggat som engelska). För att parsern ska slippa avgöra.

– Minst 10000 och högst 100000 tecken summerat för alla godkända inlägg per författare.

– Mellan 25 och 60 godkända inlägg per författare. Den nedre gränsen är satt för att kunna variera K (se avsnitt 2.2.4) utan att författare f˚ar färre än K texter att jämföra mot. Den övre gränsen är satt med den begränsade parsningstiden och för att undvika automatgenereade (exempelvis aggregeringstjänsters) inlägg.

3.2 Parsning

Drygt 350000 inlägg fördelade p˚a 10000 unika författare passerade filtreringen. Av dessa tolkades ungefär 250000 av Stanford nlp. Övriga lämnades oparsade p˚a grund av pre- standabrister. Parsningen tog för l˚ang tid att genomföra inom tidsramen för denna studie och krävde i en del fall mer minne än parsern kunde tilldelas. Vidare ignoreras ytterligare ungefär 2500 författare och 50000 inlägg som efter denna ofullständiga parsning inte längre levde upp till kraven beskrivna i föreg˚aende avsnitt (3.1).

I flera försök upptäcktes fall där stoppordsfrekvensen för ett dokument blev noll för samtliga 671 stoppord, vilket indikerar att texten antingen inte har n˚agra fullständiga engelska meningar eller att det inte är engelska över huvud taget. S˚adana dokument har tagits bort manuellt vid upptäckt. För att effektivisera parsningssteget kan denna sorts ordfrekvenskon- troll genomföras redan vid filtrering och därmed undvika kostsamma försök till parsning av irrelevanta texter.

(25)

3.3. Testparametrar 15

3.3 Testparametrar

Körningar i Lind kan konfigureras med en rad parametrar. För att pröva hypoteserna är följande parametrar intressanta.

K Antalet b¨asta tr¨affar (se avsnitt 2.2.4).

LSIK Konstant för Latent Semantisk Indexering, som anger till vilken dimension frekvensmatrisen ska projiceras för att producera den slutliga indexmatrisen mot vilken söktexter jämförs. Här satt till 175.

Syntaxträdens höjd Förändringar i detta värde är inte studerat. Satt till standardvärdet ett (1).

Antal författare vars texter bygger upp matrisen mot vilka söktexterna jämförs.

Antal s¨oktexter som testas mot varje uppbyggd matris.

Antal unika matriser som byggs för varje kombination av parametrar, det vill säga antalet oberoende försök. I detta fall 30.

Den enda variabeln i studien är antal författare. K och LSIK är konstanter, vars värden testats fram genom att visuellt och överslagsmässigt studera hur linds poängsättning av rätt författare p˚averkas vid förändringar av värdena. K har satts till l˚aga 8, d˚a marginalvinkel- skillnaden (nuvarande resultat dokument jämfört med nästa) minskar d˚a K ökar. Se figur 2.2.

Det lämnas till kommande studier att optimera dessa parametrar för bättre resultat. Övriga konstanter har satts med hänsyn till att f˚a s˚a bra statistiskt underlag som möjligt, inom given tidsram.

Analys av testresultat och valet av konstanter som följde av dessa är genomfört utan vetskap om hur konstanternas värden p˚averkar respektive metod (frekvenser av syntax eller stoppord). Trots detta kan konstanterna oavsiktligt gynna n˚agondera. Även i detta avseende behövs ytterligare studier.

(26)

16 Kapitel 3. Genomf¨orande

(27)

Kapitel 4

Resultat

För varje antal författare har ett ensidigt t-test genomförts för att avgöra om det är sannolikt att resultatet kommer fr˚an samma population. För samtliga undersökta mängder författare

är det kritiska värdet för t under signifikansgraden α = 0.05. Därmed kan H⁰i hypotes 2 (se avsnitt 2.1) förkastas i samtliga fall, vilket innebär att syntaxbaserad författarigenkänning har bättre medelresultat än stoppordsbaserad dito oavsett antal ing˚aende författare.

Dessa resultat är applicerbara för den datamängd som beskrivs i avsnitt 3.1.

Uppmätta värden, differens och kritiska värden för t redovisas i tabell 4.1. En grafisk rep- resentation visas i figur 4.1.

För att kunna avgöra hypotes (1), om syntaxbaserad författarigenkänning är bättre än slumpen p˚a att avgöra författarskap behövs statisktiska väntevärden att jämföra resultatet med.

Vilka författare som väljs ut för varje enskilt försök är slumpmässigt oavsett metod. Eftersom alla författare och deras respektive dokument antas vara lika sannolika är väntevärdet för poäng 1/a, där a är antalet författare. I snitt kommer därmed 1/a av vinkelsumman utgöras av rätt författare.

Denna jämförelse använder därmed det teoretiska väntevärdet som ges när antalet slump- mässiga försök närmar sig oändligheten, snarare än det värde som slumpmässigt valda resultat skulle gett i varje genomfört försök.

Eftersom väntevärdet för slumpmässiga resultat är lägre än b˚ade syntax- och stoppords- baserade resultat kan även H⁰i hypotes 1 (avsnitt 2.1) förkastas. Syntaxbaserad författarigen- känning är signifikant bättre än slumpen p˚a att avgöra författarskap.

17

(28)

18 Kapitel 4. Resultat

F¨orfattare Slump Syntax Stoppord Differens t-kritiskt

10 0.1000 0.17307 0.15518 0.01789 0.00058

20 0.0500 0.15208 0.12679 0.02529 0.00190

30 0.0333 0.11593 0.10720 0.00873 0.04721

40 0.0250 0.11786 0.10047 0.01739 0.00213

50 0.0200 0.10742 0.09065 0.01676 0.00092

60 0.0167 0.09599 0.08115 0.01484 0.00242

70 0.0143 0.08810 0.07510 0.01300 0.00170

80 0.0125 0.09281 0.08402 0.00880 0.01044

90 0.0111 0.09040 0.07771 0.01269 0.00089

100 0.0100 0.08139 0.06817 0.01322 0.00631

Tabell 4.1: Resultat

Medelpoäng för 30 försök om 10-100 författare vardera för slumpmässigt, syntaxträd respektive stoppord. Att syntaxmetoden har högre medelpoäng än stoppord är statistiskt säkerställt för alla 10 undersökta mängder författare, d˚a det kritiska värdet för t är under 0,05 för samtliga.

Figur 4.1: L˚adagram av resultat

Intilliggande försök med samma mängd författare (x-axeln) är grupperade tv˚a och tv˚a (vit och gr˚a). Y-axeln anger medelpoängsumma som tilldelats rätt författare över 30 försök.

Uteliggare (värden som avviker mer än tv˚a standardavvikelser fr˚an medel) är markerade som ifyllda cirklar. Den streckade linjen motsvarar den slumpmässiga poängsättningen.

(29)

Kapitel 5

Slutsatser

Att en författares stil avspeglas i dennes val av syntaktiska strukturer är känt sedan tidigare (visat av bland andra Kaster [6]). D˚a texter av samma författare berör olika ämnen är den kontextfria information som texternas syntaxträd erbjuder ett viktigt verktyg för att avgöra författarskapet. Här visas att denna information ger en bättre träffsäkerhet än att räkna kontextfria ord (stoppord).

Sökmotorn Cordata som byggdes för syntaxbaserad sökning efter liknande kontextmässigt relevanta dokument har kunnat byggas om och utökas till att istället avgöra författarskap, nu under namnet Lind. Cordata använde kontextbunden data. I Lind är allt kontextberoende bortskalat och endast de kontextfria delarna av dokumenten indexeras.

Indexeringsmetoden lsi har gjort det möjligt att effektivt hantera stora mängder särdrag och dokument. När antalet dokument ökar blir det dock sv˚arare för alla sökmetoder att finna rätt svar. Därför behövs ytterligare studier och försök kring vilka särdrag som bäst beskriver en författares stil. Ursprungstanken var att s˚adana jämförande försök skulle rymmas i denna studie, men de har uteslutits p˚a grund av tidsbrist. Istället har fokus legat p˚a metoder att filtrera fram relevanta texter ur stora datamängder, som passar den parsningsmetod som använts.

Bayeens [2] teorier om att syntaxbaserad författarigenkänning blir bättre för större mängder data per författare kan studeras ytterligare. Resultaten i denna studie visar att den syntaktiska metoden blir bättre och bättre jämfört med slumpen när sannolikheten att välja fel ökar. Däremot säger den ingenting om hur de ing˚aende dokumentens längd p˚averkar träffsäkerheten.

5.1 Kommande arbete

Lind är i nuläget endast utvecklat för att statistiskt kunna jämföra effektiviteten hos analys av stoppordsfrekvens respektive syntaxbaserad dito. Förslagsvis vidareutvecklas programmet till att istället ge förslag p˚a troliga författare tillsammans med ett värde för säkerheten

19

(30)

20 Kapitel 5. Slutsatser

i uppskattningen, givet ett sökdokument och en färdigindexerad mängd referensdokument.

I linje med resultat fr˚an tidigare studier kan metoderna kombineras för ökad träffsäkerhet.

Att modifiera Lind att hantera b˚ada samtidigt är en programmeringsmässigt enkel uppgift, men hur viktningen mellan metoderna ska skötas är mer komplicerat.

För att ytterligare förbättra resultaten vore det önskvärt att optimera valet av de konstanter som används vid indexering och sökning. Förslagsvis undersöks om konstanterna kan bli variabler, som väljs utifr˚an antal dokument, antal unika särdrag, dokumentens längd eller texternas komplexitet räknat i träddjup. Syntaxträden kunde klippas olika beroende p˚a hur m˚anga särdrag som registrerats eller möjligen p˚a flera olika sätt samtidigt. Alla dessa val kan göras genom att djupanalysera inlärningsdata före indexering.

Det vore intressant att studera effekterna av att byta klustringsmetod till n˚agon av de diskuterade i avsnitt 2.2. Ett byte till svm skulle innebär att en ny indexeringsmetod m˚aste implementeras. För övriga räcker med modifieringar för att passa lsi.

(31)

Kapitel 6

Tacksamhetsbetygelser

Personer som p˚a n˚agot sätt varit involverade i detta projekt förtjänar ett stort tack, vare sig de kommit med kommentarer eller generell uppmuntran, hjälp till vid tekniska problem eller diskuterat metoder eller problemställningar. Listan inkluderar men är inte begränsad till följande personer: Johanna Högberg, Thomas Knutsson, Sigrid Lindholm, Dennis Olsson (alla p˚a CodeMill), David Källberg, Frank Drewes, Lucas Lindström och Jimmy Larsson.

Aven CodeMill förtjänar ett tack, som l˚¨ atit mig välja mina arbetstider flexibelt för att passa detta projekt.

21

(32)

22 Kapitel 6. Tacksamhetsbetygelser

(33)

Referenser

[1] 1ste Keuze BV. English stopwords, 2010. http://www.ranks.nl/resources/stopwords.html, bes¨okt 20100812.

[2] Harald Bayeen, Hans van Halteren, and Fiona Tweedie. Using syntactic annotation to enhance authorship attribution.

[3] Joachim Diederich. Authorship attribution with support vector machines. Applied Intelligence, pages 109–123, 2003.

[4] Scott Deerwester et al. Indexing by latent semantic analysis.

[5] ICWSM2009. 3rd int’l aaai conference on weblogs and social media, 2009.

http://www.icwsm.org/2009/, bes¨okt 20100629.

[6] Andreas Kaster, Stefan Siersdorfer, and Gerhard Weikum. Combining text and linguistic document representations for authorship attribution, 2005.

[7] Thomas Knutsson. Traveling the outer dimensions of vector space. 2009.

[8] Sigrid Lindholm. Extracting content from online news sites. 2009.

[9] Magnus Sahlgren. An introduction to random indexing.

[10] Hans van Halteren. Author verification by linguistic profiling: An exploration of the parameter space. ACM Transactions on Speech and Language Processing (TSLP), 4:1–

17, 2007.

[11] ¨Oslem Uzuner and Boris Katz. A comparative study of language models for book and author recognition. 3651/2005:969–980, 2005.

23

(34)

24 REFERENSER

(35)

Bilaga A

Stoppord

Stoppord är ord som förekommer i all sorts text oberoende av ämne. I denna lista är de 671 till antalet, sorterade alfabetiskt. De enskilda bokstäverna ing˚ar i listan. [1]

– a, able, about, above, abst, accordance, according, accordingly, across, act, actually, added, adj, adopted, affected, affecting, affects, after, afterwards, again, against, ah, all, almost, alone, along, already, also, although, always, am, among, amongst, an, and, announce, another, any, anybody, anyhow, anymore, anyone, anything, anyway, any- ways, anywhere, apparently, approximately, are, aren, arent, arise, around, as, aside, ask, asking, at, auth, available, away, awfully,

– b, back, be, became, because, become, becomes, becoming, been, before, beforehand, begin, beginning, beginnings, begins, behind, being, believe, below, beside, besides, between, beyond, biol, both, brief, briefly, but, by,

– c, ca, came, can, cannot, can’t, cause, causes, certain, certainly, co, com, come, comes, contain, containing, contains, could, couldnt,

– d, date, did, didn’t, different, do, does, doesn’t, doing, done, don’t, down, downwards, due, during,

– e, each, ed, edu, effect, eg, eight, eighty, either, else, elsewhere, end, ending, enough, especially, et, et-al, etc, even, ever, every, everybody, everyone, everything, everywhere, ex, except,

– f, far, few, ff, fifth, first, five, fix, followed, following, follows, for, former, formerly, forth, found, four, from, further, furthermore,

– g, gave, get, gets, getting, give, given, gives, giving, go, goes, gone, got, gotten, – h, had, happens, hardly, has, hasn’t, have, haven’t, having, he, hed, hence, her, here,

hereafter, hereby, herein, heres, hereupon, hers, herself, hes, hi, hid, him, himself, his, hither, home, how, howbeit, however, hundred,

– i, id, ie, if, i’ll, im, immediate, immediately, importance, important, in, inc, indeed, index, information, instead, into, invention, inward, is, isn’t, it, itd, it’ll, its, itself, i’ve,

25

(36)

26 Kapitel A. Stoppord

– j, just,

– k, keep, keeps, kept, keys, kg, km, know, known, knows,

– l, largely, last, lately, later, latter, latterly, least, less, lest, let, lets, like, liked, likely, line, little, ’ll, look, looking, looks, ltd,

– m, made, mainly, make, makes, many, may, maybe, me, mean, means, meantime, meanwhile, merely, mg, might, million, miss, ml, more, moreover, most, mostly, mr, mrs, much, mug, must, my, myself,

– n, na, name, namely, nay, nd, near, nearly, necessarily, necessary, need, needs, neither, never, nevertheless, new, next, nine, ninety, no, nobody, non, none, nonetheless, noone, nor, normally, nos, not, noted, nothing, now, nowhere,

– o, obtain, obtained, obviously, of, off, often, oh, ok, okay, old, omitted, on, once, one, ones, only, onto, or, ord, other, others, otherwise, ought, our, ours, ourselves, out, outside, over, overall, owing, own,

– p, page, pages, part, particular, particularly, past, per, perhaps, placed, please, plus, poorly, possible, possibly, potentially, pp, predominantly, present, previously, primar- ily, probably, promptly, proud, provides, put,

– q, que, quickly, quite, qv,

– r, ran, rather, rd, re, readily, really, recent, recently, ref, refs, regarding, regardless, regards, related, relatively, research, respectively, resulted, resulting, results, right, run,

– s, said, same, saw, say, saying, says, sec, section, see, seeing, seem, seemed, seem- ing, seems, seen, self, selves, sent, seven, several, shall, she, shed, she’ll, shes, should, shouldn’t, show, showed, shown, showns, shows, significant, significantly, similar, simi- larly, since, six, slightly, so, some, somebody, somehow, someone, somethan, something, sometime, sometimes, somewhat, somewhere, soon, sorry, specifically, specified, spec- ify, specifying, state, states, still, stop, strongly, sub, substantially, successfully, such, sufficiently, suggest, sup, sure,

– t, take, taken, taking, tell, tends, th, than, thank, thanks, thanx, that, that’ll, thats, that’ve, the, their, theirs, them, themselves, then, thence, there, thereafter, thereby, thered, therefore, therein, there’ll, thereof, therere, theres, thereto, thereupon, there’ve, these, they, theyd, they’ll, theyre, they’ve, think, this, those, thou, though, thoughh, thousand, throug, through, throughout, thru, thus, til, tip, to, together, too, took, toward, towards, tried, tries, truly, try, trying, ts, twice, two,

– u, un, under, unfortunately, unless, unlike, unlikely, until, unto, up, upon, ups, us, use, used, useful, usefully, usefulness, uses, using, usually,

– v, value, various, ’ve, very, via, viz, vol, vols, vs,

– w, want, wants, was, wasn’t, way, we, wed, welcome, we’ll, went, were, weren’t, we’ve, what, whatever, what’ll, whats, when, whence, whenever, where, whereafter, whereas, whereby, wherein, wheres, whereupon, wherever, whether, which, while, whim, whith- er, who, whod, whoever, whole, who’ll, whom, whomever, whos, whose, why, widely, willing, wish, with, within, without, won’t, words, world, would, wouldn’t, www,

(37)

27

– x,

– y, yes, yet, you, youd, you’ll, your, youre, yours, yourself, yourselves, you’ve, – z, zero