• No results found

Syntaxbaserad f¨orfattarigenk¨anning

N/A
N/A
Protected

Academic year: 2021

Share "Syntaxbaserad f¨orfattarigenk¨anning"

Copied!
37
0
0

Loading.... (view fulltext now)

Full text

(1)

Syntaxbaserad

f¨ orfattarigenk¨ anning

Syntax-based authorship attribution

Lars Bergstr¨ om

23 november 2010

Examensarbete f¨ or kandidatexamen i datavetenskap, 15 HP

Handledare p˚ a CS-UmU: Johanna H¨ ogberg

Examinator: Jonny Pettersson

Ume˚ a Universitet

Institutionen f¨ or datavetenskap

901 87 UME˚ A

Sverige

(2)
(3)

Sammanfattning

Syntaxbaserad f¨orfattarigenk¨anning inneb¨ar att studera en f¨orfattares s¨att att konstruera meningar som ett sorts fingeravtryck. Kan man med hj¨alp av denna information avg¨ora vem som skrivit en specifik text, utan k¨and f¨orfattare?

Resultatet av denna studie visar att det inte bara ¨ar m¨ojligt (som i b¨attre ¨an slumpen) utan ocks˚a b¨attre ¨an en j¨amf¨orbar metod, baserad p˚a att r¨akna kontextfria ord som f¨orekommer i alla sorters texter. Styrkan i den syntaxbaserade metoden ligger i att kunna avg¨ora f¨orfattarskap ¨aven utan referenstexter av samma f¨orfattare inom samma ¨amne. Samtidigt undviks att blanda ihop olika f¨orfattare vars texter ¨ar lika bara baserat p˚a val av ¨amne.

(4)

ii

Syntax-based authorship attribution

Abstract

The writing style of a particular author can be divided into many subfeatures, for example use of words, language and syntax. Focusing on the latter, this study aims to show how well syntactic information alone can attribute the correct author to a document. Syntactic information is defined as overlapping syntactic subtrees of height one (1) for all sentences of all included documents. The performance is compared to that of the previously very successful method of comparing stop word frequencies. These are words normally excluded from search engine queries, because they are present in all sorts of texts regardless of topic.

However, this property is a positive feature when it comes to authorship attribution, as it allows for context-free comparisons of texts.

Training and test data is obtained from the icwsm 2009 corpus, containing some 200 gigabyte of blog posts and news articles. This data is automatically filtered to create a reasonably large collection (about 250000 documents) while remaining manageable by an automatic natural language parser (Stanford nlp) within the constraints of time. The fil- tering process guarantees that all texts used for comparison has texts of the same author within the training portion of the data.

Indexing and searching is done using Latent Semantic Indexing (lsi). All documents are represented by a vector in multidimensional space, thus creating a matrix of document vectors. Search documents are then matched with those in the matrix by calculating the angles between document vectors, returning those with the smallest angular difference to the query document. The process of creating a document matrix and search documents is repeated multiple times, creating a new document matrix of randomly selected authors every time. The performance of the different methods are measured by comparing average scores for each created document matrix.

The results show that by average the syntactic information is more successful in correct authorship recognition compared to both chance and stop word frequency analysis. These results hold true for all tested numbers of authors present within the index matrix, ranging from ten to one hundred unique authors.

(5)

Inneh˚ all

1 Inledning 1

1.1 Anv¨andningsomr˚aden . . . 1

1.2 Val av ansats . . . 2

1.3 CodeMill AB . . . 2

1.4 Definitioner . . . 2

1.5 Relaterat arbete . . . 3

2 Problembeskrivning 5 2.1 Hypotes . . . 6

2.2 Metod . . . 6

2.2.1 Support Vector Machines (svm) . . . 8

2.2.2 Linj¨ar anpassning . . . 8

2.2.3 Konkatenering av texter . . . 8

2.2.4 K-b¨asta tr¨affar . . . 9

2.3 Corpus . . . 10

2.4 Experimentformulering . . . 10

3 Genomf¨orande 13 3.1 Filtrering . . . 13

iii

(6)

iv INNEH˚ALL

3.2 Parsning . . . 14 3.3 Testparametrar . . . 15

4 Resultat 17

5 Slutsatser 19

5.1 Kommande arbete . . . 19

6 Tacksamhetsbetygelser 21

Referenser 23

A Stoppord 25

(7)

Figurer

2.1 Exempelmening med nlp-genererat syntaxtr¨ad och stoppord . . . 7 2.2 K b¨asta tr¨affar . . . 9

4.1 L˚adagram av resultat . . . 18

v

(8)

vi FIGURER

(9)

Tabeller

3.1 Dokumentstatistik efter filtrering och parsning . . . 14

4.1 Resultat . . . 18

vii

(10)

viii TABELLER

(11)

Kapitel 1

Inledning

F¨orfattarigenk¨anning handlar om att avg¨ora vem som har skrivit ett stycke text genom att studera karakt¨aristiska drag i texten. S˚adana s¨ardrag kan vara ordval, spr˚ak, teman, syntaktisk stil eller n˚agon kombination av de listade dragen. H¨ar studeras problemet ur syntaktisk synvinkel.

Antalet kandidatf¨orfattare ¨ar begr¨ansat och det finns tillg˚ang till texter skrivna av samtliga kandidater.

1.1 Anv¨ andningsomr˚ aden

F¨orfattaridentifiering har flera m¨ojliga anv¨andningsomr˚aden:

– Identifiera vem som st˚ar som f¨orfattare till nyfunna, tidigare ok¨anda verk

– Hitta karakt¨aristiska drag hos k¨anda f¨orfattare f¨or att l¨ara sig skriva i samma stil som dem

– Uppt¨acka fusk och plagiat

– Uppt¨acka propagandaspridning i forum. En ˚asikt kan uttryckas flera g˚anger under flera olika psuedonymer och kan d¨armed se ut att ha vunnit starkare st¨od, trots att den framf¨ors av ett f˚atal personer

– Avg¨ora om till¨agg eller ¨andringar har gjorts i efterhand till en text. Exempelvis Bibeln

¨ar antagligen ett lappverk producerat av flera olika f¨orfattare under l˚ang tid

1

(12)

2 Kapitel 1. Inledning

1.2 Val av ansats

En f¨orfattares stil och egenhet antas avspegla sig i hur ofta olika grammatiska och syntak- tiska strukturer anv¨ands av denne. Vidare antas att ett ord med bibeh˚allen information om dess syntaktiska position i en sats s¨ager mer ¨an ordet ensamt om dess betydelse och sig- nifikans f¨or att avg¨ora vem f¨orfattaren ¨ar. Det vore intressant att studera om den syntaktiska informationen ensamt kan bidra till ¨okad tr¨affs¨akerhet (j¨amf¨ort med slumpen).

De studerade texterna r¨or vitt skilda ¨amnesomr˚aden, vilket tvingar fram ¨amnesoberoende metoder f¨or igenk¨anning. D¨arf¨or studeras fragment av syntaxtr¨ad, helt utan h¨ansyn till vilka ord de ¨ar uppbyggda av. Som j¨amf¨orelse anv¨ands ordfrekvensanalys av s˚a kallade stoppord en v¨alk¨and metod som presterat bra ¨over ¨amnesgr¨anser.

1.3 CodeMill AB

CodeMill ¨ar ett Ume˚abaserat IT-konsultbolag med 15-talet anst¨allda. F¨oretaget erbjuder helhetsansvar f¨or utveckling och underh˚all av IT-system, men ocks˚a resursf¨orst¨arkning till andra f¨oretag. Som sprunget ur Ume˚a universitet ¨ar m˚als¨attningen en fortsatt n¨ara kontakt med akademin.

1.4 Definitioner

I detta dokument f¨orekommer ett antal begrepp som beh¨over en tydlig och entydig definition.

Dokument och text anv¨ands som synonymer och avser all information som finns tillg¨anglig f¨or en enskild text i corpus.

S¨oktext ¨ar ett dokument vars f¨orfattare ¨ar k¨and i corpus, men ok¨ant f¨or s¨okalgoritmen.

Genom att j¨amf¨ora f¨orfattarinformationen med den som programmet gissar sig till kan tr¨affs¨akerheten i dess gissningar avg¨oras.

S¨ardrag (eng: feature) beskriver antingen ett ord eller ett syntaktiskt deltr¨ad. Frekvensen av olika s¨ardrag i dokument ¨ar det som unders¨oks.

Syntax anv¨ands som f¨orkortning av syntaktiska s¨ardrag och som namn f¨or den syntaxbaser- ade metod som anv¨ands.

Parser eller NLP ¨ar ett program som tolkar str¨angar av naturligt spr˚ak och bygger upp ett tr¨ad av dess syntaktiska best˚andsdelar. H¨ar anv¨ands Stanford Natural Language Parser (Stanford nlp).

Lind ¨ar programmet som genomf¨or f¨orfattarigenk¨anningen, en vidareutveckling av den syn- taxbaserade s¨okmotorn Cordata.

(13)

1.5. Relaterat arbete 3

1.5 Relaterat arbete

Unders¨okningar (ex [11], [6]) visar att det finns b˚ade lexikala och syntaktiska statisktiskt signifikanta s¨ardrag mellan texter, det vill s¨aga s¨ardrag med vars hj¨alp man kan avg¨ora f¨orfattarskap betydligt b¨attre j¨amf¨ort med slumpen. Genom att j¨amf¨ora f¨orekomsten av dessa s¨ardrag i texter med k¨anda respektive ok¨anda f¨orfattare kan texter med liknande egen- heter kopplas samman och f¨orfattaren d¨armed identifieras. I tidigare unders¨okningar inom omr˚adet f¨orfattarigenk¨anning varierar metoder och corpus kraftigt, vilket g¨or j¨amf¨orelser dem emellan sv˚ara. I de unders¨okta studierna har de lexikala metoderna ett f¨orspr˚ang j¨amf¨ort med de syntaktiska n¨ar de st¨alls mot varandra en och en [6], [11], d¨ar frekvens av funktionsord (stoppord) ¨ar s¨arskilt effektivt. [10] En kombination av olika metoder ¨ar genomg˚aende b¨attre ¨an n˚agon enskild metod ensam.

Ut¨over relativ frekvens (i f¨orh˚allande till dokumentl¨angd) av respektive s¨ardrag ¨ar ¨aven m¨angden olika s¨ardrag och hur ofta nya s¨ardrag introduceras i en text intressant, som ett m˚att p˚a hur v¨al f¨orfattaren varierar sitt spr˚ak. Bayeen [2] h¨avdar vidare att variansen i introducerandet av nya syntaktiska strukturer ¨ar st¨orre ¨an motsvarande f¨or inf¨orandet av nya ord. Detta torde tyda p˚a en ¨okad effektivitet f¨or de syntaktiska metoderna vid st¨orre corpus. Noteras b¨or dock att Bayeens unders¨okning endast j¨amf¨orde tv˚a f¨orfattare.

F¨or att avg¨ora om tv˚a texter har en liknande upps¨attning s¨ardrag finns flera metoder. Alla bygger i n˚agon m˚an p˚a att j¨amf¨ora frekvenserna av ett antal s¨ardrag, vare sig de ¨ar lexikala, syntaktiska eller en kombination av b˚ada. F¨or stora datam¨angder blir j¨amf¨orelserna snabbt ineffektiva, d˚a de anv¨anda frekvensmatriserna ¨ar v¨aldigt glesa – v¨aldigt f˚a s¨ardrag finns i alla unders¨okta texter. F¨or att effektivisera j¨amf¨orelseprocessen kan antingen f¨arre s¨ardrag j¨amf¨oras [6], [2] eller ber¨akningsmetoderna f¨orb¨attras [3], [4], [9].

(14)

4 Kapitel 1. Inledning

(15)

Kapitel 2

Problembeskrivning

Detta examensarbete (omfattande 15 h¨ogskolepo¨ang) f¨or kandidatexamen i datavetenskap syftar till att studera effektiviteten av att s¨oka likheter i texternas syntaktiska tr¨ad f¨or att avg¨ora om flera texter har samma f¨orfattare. F¨or att avg¨ora effektiviteten kommer resultatet j¨amf¨oras med slumpen och med en frekvensanalys av stoppord f¨or samma texter.

Om analysen av texternas syntaxtr¨ad ¨ar signifikant b¨attre p˚a att k¨anna igen f¨orfattare

¨an j¨amf¨orbara metoder, kan det finnas stor anledning att l¨agga till syntaxtr¨adsanalys i en cocktail av tekniker f¨or f¨orfattarigenk¨anning. Eftersom syntaktiska och ordfrekvensbaserade metoder ber¨or olika aspekter av texter ¨ar det rimligt att anta att de kompletterar varandra, n˚agot som ocks˚a visats i tidigare studier.

Studien kommer att bygga vidare p˚a ett p˚ag˚aende projekt, kallat Syntaxbaserad s¨okning, inom f¨oretaget CodeMill AB i samarbete med Totalf¨orsvarets forskningsinstitut (foi). Inom projektet finns f¨oljande f¨ardigt att anv¨andas i studien:

– En s¨okmotor, Cordata, som kan avg¨ora om flera texter ligger n¨ara varandra i en vek- torrymd. Denna rymd skulle i detta fall definieras utifr˚an vilka syntaktiska strukturer texterna har och hur ofta dessa f¨orekommer. [7]

– Ett program med vilket s¨okmotorns databas kan fyllas med texters syntaxtr¨ad och ordfrekvenser. [8]

– En corpus med insamlat textmaterial till vilka f¨orfattarna ¨ar k¨anda, att anv¨anda som facit, tillhandah˚allen av Spinn3r.

En ordfrekevensanalys l˚ater varje ord vara en dimension i rymden. Tv˚a texter skulle vara lika om punkterna ligger n¨ara varandra i denna rymd. Med syntaxanalys skulle orden ers¨attas av en samling noder av textens syntaxtr¨ad.

Uppgiften blir att bygga om Cordata fr˚an att s¨oka relevanta dokument till att hitta relevanta f¨orfattare. Dessutom kr¨avs ett effektivt s¨att att tolka och analysera stora m¨angder texter f¨or att f˚a fram testdata utan att g¨ora den den naturliga spr˚aktolkningen f¨or omfattande ber¨akningsm¨assigt.

5

(16)

6 Kapitel 2. Problembeskrivning

2.1 Hypotes

Denna unders¨okning har tv˚a arbetshypoteser. I b˚ada fallen anv¨ands en ensidig signifikansniv˚a p˚a α = 0, 05.

1. Syntaxbaserad f¨orfattarigenk¨anning ¨ar b¨attre ¨an slumpen p˚a att avg¨ora f¨orfattarskap.

Antag att µs ¨ar medelpo¨angen f¨or s¨okningar genomf¨orda med syntaxbaserad index- ering och µx¨ar motsvarande medelpo¨ang som ges av att slumpvis v¨alja bland tillg¨angliga f¨orfattare.

H0: µs= µx (2.1)

H1: µs> µx (2.2)

2. Syntaxbaserad f¨orfattarigenk¨anning ¨ar b¨attre ¨an stoppordfrekvensanalys p˚a att avg¨ora f¨orfattarskap. Antag i likhet med hypotes (1) att µs ¨ar medelpo¨angen f¨or s¨okningar genomf¨orda med syntaxbaserad indexering, medan µo¨ar motsvarande medelpo¨ang f¨or frekvensanalys av stoppord.

H0: µs= µo (2.3)

H1: µs> µo (2.4)

2.2 Metod

Detta examensarbete bygger vidare p˚a arbete av Thomas Knutsson [7] och Sigrid Lindholm [8]. Den programvara (Cordata) de utvecklat kommer anv¨andas som utg˚angspunkt f¨or dessa nya studier och vidareutveckling av programmet.

F¨or att finna stilistiska s¨ardrag som kan kopplas ihop med en enskild f¨orfattare anv¨ands framf¨or allt tv˚a klasser av lingvistiska s¨ardrag (eng: features). [10]

Lexikala metoder innefattar ber¨akning av frekvens av ord, ordstammar, ¨andelser och stop- pord.

Syntaktiska metoder ¨ar baserade p˚a meningsbyggnad. H¨ar unders¨oks f¨orekomsten av oli- ka sorters satstyper, dess komplexitet (syntaxtr¨adens djup) och de ing˚aende ordens satsdelar samt interpunktuation (kommatering).

Stoppord ¨ar kontextfria ord, ¨aven kallade funktionsord som f¨orekommer i all sorts text, till exempel prepositioner (till, fr˚an) eller pronomen (hon, den). Som namnet antyder utesluts de normalt sett ur s¨okstr¨angar eftersom de f¨orekommer i all sorts text. Stopporden ¨ar inte anv¨andbara vid s¨okningar efter ett specifikt ¨amnesord. Tv¨art emot normalfallet anv¨ands denna egenskap h¨ar ist¨allet som en styrka, eftersom stopporden ¨ar bra n¨ar man letar andra

(17)

2.2. Metod 7

egenskaper i texten, till exempel upphovsmannaskap. De stoppord som anv¨ands listas i bilaga A.

F¨or syntaktiska s¨ardrag klipper Lind is¨ar en menings syntaxtr¨ad till ¨overlappande deltr¨ad av h¨ojd ett. Ett s˚adant deltr¨ad ¨ar en nod och dess direkta barn (se figur 2.1). Deltr¨aden ¨ar

¨overlappande d˚a samma nod kan f¨orekomma som barn i ett deltr¨ad och f¨or¨alder i ett annat.

Detta g¨ors f¨or att minska antalet unika tr¨ad och d¨armed minska glesheten i frekvensmatrisen (se nedan). [7] Hur h¨oga deltr¨aden skall vara kan regleras, men hur detta p˚averkar resultatet l¨amnas till vidare studier.

S

VP†

ADJP†*

S*

VP

VP

NP

NN

paint JJ

heat-resistant VB

use TO

to JJ*

sure VB†

make ADVP

RB

Just

Figur 2.1: Exempelmening med nlp-genererat syntaxtr¨ad och stoppord

Exempelmening: Just make sure to use heat-resistant paint. Stopporden ¨ar markerade i fetstil. H¨ar illustreras hur stoppord och syntax ber¨or olika delar av meningen. Stopporden f¨orekommer endast som l¨ovnoder, medan den syntaktiska informationen finns i noderna h¨ogre upp i tr¨adet. Tv˚a syntaktiska deltr¨ad ¨ar markerade med * respektive †. Notera att noden adjp ing˚ar i b¨agge deltr¨aden, d¨arav termen ¨overlappande deltr¨ad.

F¨or varje dokument som ing˚ar i studien (se avsnitt 2.3) skapar Lind en dokumentvektor, d¨ar v¨ardet i varje enskild dimension representerar den relativa frekvensen (i f¨orh˚allande till dokumentets l¨angd) av ett visst syntaktiskt eller lexikalt s¨ardrag. Dessa vektorer bil- dar tillsammans en matris d¨ar varje kolumn ¨ar ett dokument. D¨arefter indexeras matrisen med hj¨alp av Latent Semantisk Indexering (lsi). [7] Denna process projicerar frekvensma- trisen till en l¨agre dimension (vars dimension ges av konstanten lsik) och minskar d¨armed ber¨akningskomplexiteten i s¨okningarna. [4]

N¨ar en s¨oktext j¨amf¨ors med dokumenten i s¨okmatrisen ber¨aknas avst˚andet (vinkeln) till

¨ovriga vektorer i rymden och de K n¨armaste vektorerna returneras tillsammans med vinkel- skillnaden (angett som cosinus-v¨arde, se figur 2.2). De n¨armaste vektorerna har flest gemen-

(18)

8 Kapitel 2. Problembeskrivning

samma s¨ardrag med s¨oktextens vektor.

Till skillnad fr˚an flera tidigare studier kring f¨orfattarigenk¨anning anv¨ander denna studie automatiskt inh¨amtade och filtrerade texter att utf¨ora f¨ors¨oken p˚a, ist¨allet f¨or exempelvis manuellt markerad nyhetstext. Texterna ¨ar dessutom automatiskt parsade med Stanford nlp. B˚ada dessa faktorer f¨or med sig potentiella felk¨allor, som feltolkat naturligt spr˚ak och texter vars metadata ¨ar felaktigt angiven. Filtreringen som diskuteras i avsnitt 3.1 har i st¨orsta m¨ojliga m˚an f¨ors¨okt undvika s˚adana fel.

Intresset ¨ar i f¨orsta hand att koppla dokument till f¨orfattare och inte dokument till andra dokument (som var programmet Cordatas huvuduppgift [7]). D˚a samma f¨orfattare har skrivit flera dokument ska n˚agon form av klustring av f¨orfattarnas dokument genomf¨oras, s˚a att texter kan j¨amf¨oras mot kluster av texter (av samma f¨orfattare) snarare ¨an enskilda texter. Denna klustring g¨ors vid olika tillf¨allen i exekveringen beroende p˚a vilken metod som anv¨ands. I f¨oljande delkapitel kommer n˚agra alternativa metoder att presenteras tillsammans med en motivering till K-b¨asta tr¨affar, den som slutligen anv¨ands.

2.2.1 Support Vector Machines (svm)

Support Vector Machines (svm) ¨ar en metod som i ett inl¨arningsskede delar in vektorrymden i olika segment med hj¨alp av en m¨angd hyperplan. Varje hyperplan delar rymden p˚a s˚a s¨att att avst˚andet mellan kluster av varje f¨orfattares texter blir s˚a stort som m¨ojligt. N¨ar en textvektor med ok¨and f¨orfattare (testdata) placeras i rymden avg¨ors vilket hyperplan texten ¨ar l¨angst ifr˚an. Segmentet som detta hyperplan delar in ¨ar det f¨orfattarkluster som passar b¨ast ihop med s¨oktexten. [3] N¨ar v¨al alla hyperplan ¨ar byggda ¨ar de effektiva att j¨amf¨ora s¨oktexten mot j¨amf¨ort med att j¨amf¨ora varje s¨oktext f¨or sig. Nackdelen ¨ar att Linds nuvarande [7] indexeringsmetod skiljer sig markant fr˚an svm, vilket medf¨or stora ¨andringar i det existerande systemet, f¨or stora f¨or att rymmas i detta examensarbetes tisdram. F¨or vidare diskussion kring detta se avsnitt 5.1.

2.2.2 Linj¨ ar anpassning

Ist¨allet f¨or att j¨amf¨ora en s¨oktexten mot alla vektorer i rymden g¨ors en linj¨ar anpassning f¨or varje f¨orfattares samlade verk, en medelvektor -anpassning mot vilken man sedan j¨amf¨or s¨oktexter. Detta g¨or att m¨angden j¨amf¨orelser som beh¨over g¨oras f¨or att hitta n¨armaste vektor i rymden ¨ar betydligt f¨arre. Anpassningen g¨ors med minsta kvadratmetoden.

2.2.3 Konkatenering av texter

I likhet med linj¨ar anpassning (ovan) syftar konkatenering av texter till att skapa en medelvek- tor f¨or varje f¨orfattare, mot vilken s¨oktexter j¨amf¨ors. H¨ar konkateneras varje f¨orfattarens samtliga texter efter varandra f¨ore parsning ist¨allet f¨or efter, som i fallet linj¨ar anpassning.

(19)

2.2. Metod 9

Figur 2.2: K b¨asta tr¨affar

F¨or varje resultatvektor (upp till och med K) anges ett v¨arde f¨or hur stor vinkel (Y- axeln) den har mot s¨okvektorn. Linds resultat erh˚alls genom att dela vinkelsumman f¨or r¨att f¨orfattare med den totala vinkelsumman (r¨att+fel f¨orfattare). Figuren baseras p˚a v¨arden som erh¨olls vid parametertestning (avsnitt 3.3).

2.2.4 K-b¨ asta tr¨ affar

Metoden f¨or K-b¨asta tr¨affar har den stora f¨ordelen att den i det n¨armaste ¨ar f¨ardigimplemen- terad i Lind, vilket g¨or den till det naturliga valet. Om den visar sig fungera v¨al kan behovet av implementation av ¨ovriga metoder vara irrelevant eller oviktigt.

F¨or n¨arvarande visas de K n¨armaste vektorerna till s¨oktexten i en ¨okande avst˚andslista.

Vinkelsumman f¨or de K b¨asta tr¨affarna kan j¨amf¨oras med vinkelsumman f¨or varje en- skild f¨orfattares dokument bland samma tr¨affar. F¨orfattaren vars dokument genom den- na ber¨akning tar st¨orst del av vinkelsumman skulle bli Linds svar i skarpt l¨age. F¨or att studera den genomsnittliga tr¨affs¨akerheten f¨or m˚anga oberoende f¨ors¨ok anv¨ands ist¨allet vinkelsumman som Lind tilldelar r¨att f¨orfattare, d˚a det r¨atta svaret finns tillg¨angligt. Om r¨att f¨orfattare inte finns med bland de K b¨asta tr¨affarna ¨ar resultatet noll.

Ist¨allet f¨or ett konstant v¨arde f¨or K skulle svaret kunna baseras p˚a antal texter inom ett viss avst˚andsradie fr˚an s¨oktexten snarare ¨an ett konstant antal n¨armaste dokument. Resultatet av en s˚adan indelning ¨ar varken n¨armare unders¨okt eller implementerat.

(20)

10 Kapitel 2. Problembeskrivning

2.3 Corpus

Corpuset icwsm2009 best˚ar av n¨ara 200 gigabyte blogg- och nyhetstext i form av rss- fl¨oden (xml-baserat). Detta ¨ar all data som d˚avarande Tailrank (nuvarande Spinn3r.com) samlade in mellan augusti och oktober 2008. Denna delm¨angd av Spinn3rs insamlade data har gjorts tillg¨anglig f¨or allm¨anheten och har anv¨ants f¨or International Conference on We- blogs and Social Media 2009, d¨ar ett flertal vetenskapliga artiklar publicerades baserade p˚a unders¨okningar kring datam¨angden. [5]

F¨or varje blogginl¨agg har ett antal meta-taggar genererats i de fall de kunnat avg¨oras, bland annat f¨oljande:

– Spr˚ak

– F¨orfattare (xml-taggen <atom:author>) – K¨alla (som url)

2.4 Experimentformulering

Mycket av inneh˚allet i icwsm2009 (avsnitt 2.3) ¨ar irrelevant f¨or denna studie. ¨Overfl¨odiga meta-taggar, html-formatering, inl¨agg utan metataggen author, inl¨agg i alltf¨or kort form eller p˚a andra spr˚ak ¨an engelska, spam och dubbletter av inl¨agg. F¨or att f˚a fram rele- vant data analyseras datam¨angden i flera omg˚angar (passes), d¨ar varje varv str¨avar mot en allt mer relevant inneh˚all genom striktare krav p˚a vad som accepteras. Ut¨over detta beh¨over inl¨aggens inneh˚all vara n˚agorlunda v¨alformaterat f¨or att kunna tolkas av en parser f¨or naturligt spr˚ak. F¨or en detaljerad genomg˚ang om vad som filtrerats bort och karakteris- ering av det som ˚aterst˚ar, se avsnitt 3.1.

Efter ovanst˚aende filtrering v¨aljs ett antal f¨orfattare ut slumpm¨assigt. Ur alla texter av dessa utvalda f¨orfattare v¨aljs 30 texter ut slumpm¨assigt. Dessa anv¨ands som s¨oktexter och ¨ovriga anv¨ands som inl¨arningsdata. Lind bygger upp en vektorrymd av inl¨ardningsdata mot vilken s¨oktexterna j¨amf¨ors.

F¨or varje upps¨attning slumpm¨assigt utvalda f¨orfattare och deras texter k¨ors Lind tv˚a g˚anger, den ena g˚angen indexeras j¨amf¨orelserymden med frekvens av stoppord (se bilaga A) och den andra med syntaxtr¨ad. Detta medf¨or att alla f¨ors¨ok g¨ors parvis.

S¨oktexterna indexeras enligt b˚ada metoderna och j¨amf¨ors mot respektive dokumentmatris.

Resultatet visas som vinkeln (i form av cosinusv¨arde) f¨or de K n¨armaste vektorerna till respektive s¨oktext. Summan av v¨ardena f¨or de korrekta resultaten delas med den totala v¨ardet f¨or de K n¨armaste tr¨affarna, vilket ger ett v¨arde mellan noll och ett baserat p˚a hur bra tr¨affarna ¨ar. V¨ardet motsvarar hur stor del av den totala vinkelsumman som utg¨ors av korrekta f¨orfattare.

F¨ors¨oket upprepas 30 g˚anger per steg om tio ytterligare f¨orfattares texter i dokumentm¨angden.

(21)

2.4. Experimentformulering 11

Medelresultaten f¨or varje skapad matris av stoppordsfrekvens och syntaxtr¨adsdito j¨amf¨ors med ett parat t-test f¨or att avg¨ora om det ¨ar sannolikt att stickproven (medelresultaten)

¨ar h¨amtade fr˚an samma population. M¨atningen baseras s˚aledes inte p˚a enskilda s¨okningar, utan medelstyrkan av s¨okningen f¨or varje uppbyggd s¨okmatris.

Dessa medelresultat antas vara normalf¨ordelade enligt centrala gr¨ansv¨ardessatsen, som anger att summan av flera oberoende avvikelser ¨ar approximativt normalf¨ordelad n¨ar antalet f¨ors¨ok ¨ar m˚anga.

(22)

12 Kapitel 2. Problembeskrivning

(23)

Kapitel 3

Genomf¨ orande

Redan i inledningsskedet av studien var det uppenbart att den st¨orsta flaskhalsen i resul- tatber¨akningen skulle vara meningsuppdelning av tolkning av det engelska spr˚aket tills dess syntaktiska best˚andsdelar. D¨arf¨or ¨ar det n¨odv¨andigt att filtrera ut l¨ampliga delar av corpus f¨or att f˚a en tillr¨ackligt stor och f¨or parsern f¨orst˚aelig textmassa.

Cordata har byggts om och modifierats f¨or att dels l¨asa in och filtrera xml-data enligt kriterierna nedan och dels f¨or att bygga upp de slumpm¨assiga f¨ors¨ok som beskrivs i avsnitt 2.4. M˚als¨attningen har varit att i s˚a stor utstr¨ackning som m¨ojligt utnyttja befintliga klasser och metoder f¨or dokumenthantering och databasinteraktion.

3.1 Filtrering

Texterna har rensats fr˚an data som annars st¨aller till problem f¨or parsern. F¨oljande har rensats bort:

– url:er, identifierade som frist˚aende webbadresser.

– Upprepade blanksteg och -rader (ersatta med enkla blanksteg).

– Multipler av interpunktuation, dvs punkter, utropstecken och fr˚agetecken (ersatta med enskilda dito).

– Varianter av citationstecken och apostrofer (ersatta av ’ och ").

– Text inuti html-taggarna <li> (listor, ofta inkompletta meningar) och <blockquote>

(citat i hela stycken, som f¨ormodligen inte ¨ar skrivna av samma f¨orfattare som huvud- texten).

– Icke ascii-tecken, vilket rensar bort fr¨ammande spr˚ak som feltaggats till engelska och olika unicode-symboler.

13

(24)

14 Kapitel 3. Genomf¨orande

Tier1 Filtrerat Parsat

Totalt antal inl¨agg 12873609 316260 191683

Unika f¨orfattare 834744 10580 7506

Medell¨angd f¨or inl¨agg (tecken) 2150 3143 1590

Medelantal inl¨agg per f¨orfattare 15 30 26

Tabell 3.1: Dokumentstatistik efter filtrering och parsning

Enligt best¨allaren (foi) ska studien i f¨orsta hand koncentreras till delm¨angden tier1, som best˚ar av de inl¨agg ur Corpus som skulle rankats h¨ogst av s¨okmotorer. Denna delm¨angd ¨ar ungef¨ar tjugo procent av hela corpus.

F¨oljande krav st¨alldes p˚a inl¨aggen, efter ovanst˚aende rensning, f¨or att de skulle hanteras vidare av Stanford nlp, med tillh¨orande motiveringar.

– Minst 400 tecken l˚anga. Detta f¨or att rensa bort sammanfattade inl¨agg (ofta trunker- ade till 300 tecken) och korta konstateranden.

– K¨and f¨orfattare och k¨alla (author och resource(-url)-taggad). Utan denna informa- tion finns inget facit att j¨amf¨ora med. K¨allan anv¨ands f¨or att till˚ata att samma f¨orfattarnamn anv¨ands p˚a flera sajter.

– K¨ant spr˚ak (taggat som engelska). F¨or att parsern ska slippa avg¨ora.

– Minst 10000 och h¨ogst 100000 tecken summerat f¨or alla godk¨anda inl¨agg per f¨orfattare.

– Mellan 25 och 60 godk¨anda inl¨agg per f¨orfattare. Den nedre gr¨ansen ¨ar satt f¨or att kunna variera K (se avsnitt 2.2.4) utan att f¨orfattare f˚ar f¨arre ¨an K texter att j¨amf¨ora mot. Den ¨ovre gr¨ansen ¨ar satt med den begr¨ansade parsningstiden och f¨or att undvika automatgenereade (exempelvis aggregeringstj¨ansters) inl¨agg.

3.2 Parsning

Drygt 350000 inl¨agg f¨ordelade p˚a 10000 unika f¨orfattare passerade filtreringen. Av dessa tolkades ungef¨ar 250000 av Stanford nlp. ¨Ovriga l¨amnades oparsade p˚a grund av pre- standabrister. Parsningen tog f¨or l˚ang tid att genomf¨ora inom tidsramen f¨or denna studie och kr¨avde i en del fall mer minne ¨an parsern kunde tilldelas. Vidare ignoreras ytterligare ungef¨ar 2500 f¨orfattare och 50000 inl¨agg som efter denna ofullst¨andiga parsning inte l¨angre levde upp till kraven beskrivna i f¨oreg˚aende avsnitt (3.1).

I flera f¨ors¨ok uppt¨acktes fall d¨ar stoppordsfrekvensen f¨or ett dokument blev noll f¨or samtli- ga 671 stoppord, vilket indikerar att texten antingen inte har n˚agra fullst¨andiga engelska meningar eller att det inte ¨ar engelska ¨over huvud taget. S˚adana dokument har tagits bort manuellt vid uppt¨ackt. F¨or att effektivisera parsningssteget kan denna sorts ordfrekvenskon- troll genomf¨oras redan vid filtrering och d¨armed undvika kostsamma f¨ors¨ok till parsning av irrelevanta texter.

(25)

3.3. Testparametrar 15

3.3 Testparametrar

K¨orningar i Lind kan konfigureras med en rad parametrar. F¨or att pr¨ova hypoteserna ¨ar f¨oljande parametrar intressanta.

K Antalet b¨asta tr¨affar (se avsnitt 2.2.4).

LSIK Konstant f¨or Latent Semantisk Indexering, som anger till vilken dimension frekvens- matrisen ska projiceras f¨or att producera den slutliga indexmatrisen mot vilken s¨oktexter j¨amf¨ors. H¨ar satt till 175.

Syntaxtr¨adens h¨ojd F¨or¨andringar i detta v¨arde ¨ar inte studerat. Satt till standardv¨ardet ett (1).

Antal f¨orfattare vars texter bygger upp matrisen mot vilka s¨oktexterna j¨amf¨ors.

Antal s¨oktexter som testas mot varje uppbyggd matris.

Antal unika matriser som byggs f¨or varje kombination av parametrar, det vill s¨aga an- talet oberoende f¨ors¨ok. I detta fall 30.

Den enda variabeln i studien ¨ar antal f¨orfattare. K och LSIK ¨ar konstanter, vars v¨arden testats fram genom att visuellt och ¨overslagsm¨assigt studera hur linds po¨angs¨attning av r¨att f¨orfattare p˚averkas vid f¨or¨andringar av v¨ardena. K har satts till l˚aga 8, d˚a marginalvinkel- skillnaden (nuvarande resultat dokument j¨amf¨ort med n¨asta) minskar d˚a K ¨okar. Se figur 2.2.

Det l¨amnas till kommande studier att optimera dessa parametrar f¨or b¨attre resultat. ¨Ovriga konstanter har satts med h¨ansyn till att f˚a s˚a bra statistiskt underlag som m¨ojligt, inom given tidsram.

Analys av testresultat och valet av konstanter som f¨oljde av dessa ¨ar genomf¨ort utan vetskap om hur konstanternas v¨arden p˚averkar respektive metod (frekvenser av syntax eller stop- pord). Trots detta kan konstanterna oavsiktligt gynna n˚agondera. ¨Aven i detta avseende beh¨ovs ytterligare studier.

(26)

16 Kapitel 3. Genomf¨orande

(27)

Kapitel 4

Resultat

F¨or varje antal f¨orfattare har ett ensidigt t-test genomf¨orts f¨or att avg¨ora om det ¨ar sannolikt att resultatet kommer fr˚an samma population. F¨or samtliga unders¨okta m¨angder f¨orfattare

¨ar det kritiska v¨ardet f¨or t under signifikansgraden α = 0.05. D¨armed kan H0i hypotes 2 (se avsnitt 2.1) f¨orkastas i samtliga fall, vilket inneb¨ar att syntaxbaserad f¨orfattarigenk¨anning har b¨attre medelresultat ¨an stoppordsbaserad dito oavsett antal ing˚aende f¨orfattare.

Dessa resultat ¨ar applicerbara f¨or den datam¨angd som beskrivs i avsnitt 3.1.

Uppm¨atta v¨arden, differens och kritiska v¨arden f¨or t redovisas i tabell 4.1. En grafisk rep- resentation visas i figur 4.1.

F¨or att kunna avg¨ora hypotes (1), om syntaxbaserad f¨orfattarigenk¨anning ¨ar b¨attre ¨an slumpen p˚a att avg¨ora f¨orfattarskap beh¨ovs statisktiska v¨antev¨arden att j¨amf¨ora resultatet med.

Vilka f¨orfattare som v¨aljs ut f¨or varje enskilt f¨ors¨ok ¨ar slumpm¨assigt oavsett metod. Eftersom alla f¨orfattare och deras respektive dokument antas vara lika sannolika ¨ar v¨antev¨ardet f¨or po¨ang 1/a, d¨ar a ¨ar antalet f¨orfattare. I snitt kommer d¨armed 1/a av vinkelsumman utg¨oras av r¨att f¨orfattare.

Denna j¨amf¨orelse anv¨ander d¨armed det teoretiska v¨antev¨ardet som ges n¨ar antalet slump- m¨assiga f¨ors¨ok n¨armar sig o¨andligheten, snarare ¨an det v¨arde som slumpm¨assigt valda re- sultat skulle gett i varje genomf¨ort f¨ors¨ok.

Eftersom v¨antev¨ardet f¨or slumpm¨assiga resultat ¨ar l¨agre ¨an b˚ade syntax- och stoppords- baserade resultat kan ¨aven H0i hypotes 1 (avsnitt 2.1) f¨orkastas. Syntaxbaserad f¨orfattarigen- k¨anning ¨ar signifikant b¨attre ¨an slumpen p˚a att avg¨ora f¨orfattarskap.

17

(28)

18 Kapitel 4. Resultat

F¨orfattare Slump Syntax Stoppord Differens t-kritiskt

10 0.1000 0.17307 0.15518 0.01789 0.00058

20 0.0500 0.15208 0.12679 0.02529 0.00190

30 0.0333 0.11593 0.10720 0.00873 0.04721

40 0.0250 0.11786 0.10047 0.01739 0.00213

50 0.0200 0.10742 0.09065 0.01676 0.00092

60 0.0167 0.09599 0.08115 0.01484 0.00242

70 0.0143 0.08810 0.07510 0.01300 0.00170

80 0.0125 0.09281 0.08402 0.00880 0.01044

90 0.0111 0.09040 0.07771 0.01269 0.00089

100 0.0100 0.08139 0.06817 0.01322 0.00631

Tabell 4.1: Resultat

Medelpo¨ang f¨or 30 f¨ors¨ok om 10-100 f¨orfattare vardera f¨or slumpm¨assigt, syntaxtr¨ad re- spektive stoppord. Att syntaxmetoden har h¨ogre medelpo¨ang ¨an stoppord ¨ar statistiskt s¨akerst¨allt f¨or alla 10 unders¨okta m¨angder f¨orfattare, d˚a det kritiska v¨ardet f¨or t ¨ar under 0,05 f¨or samtliga.

Figur 4.1: L˚adagram av resultat

Intilliggande f¨ors¨ok med samma m¨angd f¨orfattare (x-axeln) ¨ar grupperade tv˚a och tv˚a (vit och gr˚a). Y-axeln anger medelpo¨angsumma som tilldelats r¨att f¨orfattare ¨over 30 f¨ors¨ok.

Uteliggare (v¨arden som avviker mer ¨an tv˚a standardavvikelser fr˚an medel) ¨ar markerade som ifyllda cirklar. Den streckade linjen motsvarar den slumpm¨assiga po¨angs¨attningen.

(29)

Kapitel 5

Slutsatser

Att en f¨orfattares stil avspeglas i dennes val av syntaktiska strukturer ¨ar k¨ant sedan tidigare (visat av bland andra Kaster [6]). D˚a texter av samma f¨orfattare ber¨or olika ¨amnen ¨ar den kontextfria information som texternas syntaxtr¨ad erbjuder ett viktigt verktyg f¨or att avg¨ora f¨orfattarskapet. H¨ar visas att denna information ger en b¨attre tr¨affs¨akerhet ¨an att r¨akna kontextfria ord (stoppord).

S¨okmotorn Cordata som byggdes f¨or syntaxbaserad s¨okning efter liknande kontextm¨assigt relevanta dokument har kunnat byggas om och ut¨okas till att ist¨allet avg¨ora f¨orfattarskap, nu under namnet Lind. Cordata anv¨ande kontextbunden data. I Lind ¨ar allt kontextberoende bortskalat och endast de kontextfria delarna av dokumenten indexeras.

Indexeringsmetoden lsi har gjort det m¨ojligt att effektivt hantera stora m¨angder s¨ardrag och dokument. N¨ar antalet dokument ¨okar blir det dock sv˚arare f¨or alla s¨okmetoder att finna r¨att svar. D¨arf¨or beh¨ovs ytterligare studier och f¨ors¨ok kring vilka s¨ardrag som b¨ast beskriver en f¨orfattares stil. Ursprungstanken var att s˚adana j¨amf¨orande f¨ors¨ok skulle rymmas i denna studie, men de har uteslutits p˚a grund av tidsbrist. Ist¨allet har fokus legat p˚a metoder att filtrera fram relevanta texter ur stora datam¨angder, som passar den parsningsmetod som anv¨ants.

Bayeens [2] teorier om att syntaxbaserad f¨orfattarigenk¨anning blir b¨attre f¨or st¨orre m¨angder data per f¨orfattare kan studeras ytterligare. Resultaten i denna studie visar att den syn- taktiska metoden blir b¨attre och b¨attre j¨amf¨ort med slumpen n¨ar sannolikheten att v¨alja fel ¨okar. D¨aremot s¨ager den ingenting om hur de ing˚aende dokumentens l¨angd p˚averkar tr¨affs¨akerheten.

5.1 Kommande arbete

Lind ¨ar i nul¨aget endast utvecklat f¨or att statistiskt kunna j¨amf¨ora effektiviteten hos analys av stoppordsfrekvens respektive syntaxbaserad dito. F¨orslagsvis vidareutvecklas program- met till att ist¨allet ge f¨orslag p˚a troliga f¨orfattare tillsammans med ett v¨arde f¨or s¨akerheten

19

(30)

20 Kapitel 5. Slutsatser

i uppskattningen, givet ett s¨okdokument och en f¨ardigindexerad m¨angd referensdokument.

I linje med resultat fr˚an tidigare studier kan metoderna kombineras f¨or ¨okad tr¨affs¨akerhet.

Att modifiera Lind att hantera b˚ada samtidigt ¨ar en programmeringsm¨assigt enkel uppgift, men hur viktningen mellan metoderna ska sk¨otas ¨ar mer komplicerat.

F¨or att ytterligare f¨orb¨attra resultaten vore det ¨onskv¨art att optimera valet av de konstanter som anv¨ands vid indexering och s¨okning. F¨orslagsvis unders¨oks om konstanterna kan bli variabler, som v¨aljs utifr˚an antal dokument, antal unika s¨ardrag, dokumentens l¨angd eller texternas komplexitet r¨aknat i tr¨addjup. Syntaxtr¨aden kunde klippas olika beroende p˚a hur m˚anga s¨ardrag som registrerats eller m¨ojligen p˚a flera olika s¨att samtidigt. Alla dessa val kan g¨oras genom att djupanalysera inl¨arningsdata f¨ore indexering.

Det vore intressant att studera effekterna av att byta klustringsmetod till n˚agon av de diskuterade i avsnitt 2.2. Ett byte till svm skulle inneb¨ar att en ny indexeringsmetod m˚aste implementeras. F¨or ¨ovriga r¨acker med modifieringar f¨or att passa lsi.

(31)

Kapitel 6

Tacksamhetsbetygelser

Personer som p˚a n˚agot s¨att varit involverade i detta projekt f¨ortj¨anar ett stort tack, vare sig de kommit med kommentarer eller generell uppmuntran, hj¨alp till vid tekniska problem eller diskuterat metoder eller problemst¨allningar. Listan inkluderar men ¨ar inte begr¨ansad till f¨oljande personer: Johanna H¨ogberg, Thomas Knutsson, Sigrid Lindholm, Dennis Olsson (alla p˚a CodeMill), David K¨allberg, Frank Drewes, Lucas Lindstr¨om och Jimmy Larsson.

Aven CodeMill f¨ortj¨anar ett tack, som l˚¨ atit mig v¨alja mina arbetstider flexibelt f¨or att passa detta projekt.

21

(32)

22 Kapitel 6. Tacksamhetsbetygelser

(33)

Referenser

[1] 1ste Keuze BV. English stopwords, 2010. http://www.ranks.nl/resources/stopwords.html, bes¨okt 20100812.

[2] Harald Bayeen, Hans van Halteren, and Fiona Tweedie. Using syntactic annotation to enhance authorship attribution.

[3] Joachim Diederich. Authorship attribution with support vector machines. Applied Intelligence, pages 109–123, 2003.

[4] Scott Deerwester et al. Indexing by latent semantic analysis.

[5] ICWSM2009. 3rd int’l aaai conference on weblogs and social media, 2009.

http://www.icwsm.org/2009/, bes¨okt 20100629.

[6] Andreas Kaster, Stefan Siersdorfer, and Gerhard Weikum. Combining text and linguis- tic document representations for authorship attribution, 2005.

[7] Thomas Knutsson. Traveling the outer dimensions of vector space. 2009.

[8] Sigrid Lindholm. Extracting content from online news sites. 2009.

[9] Magnus Sahlgren. An introduction to random indexing.

[10] Hans van Halteren. Author verification by linguistic profiling: An exploration of the parameter space. ACM Transactions on Speech and Language Processing (TSLP), 4:1–

17, 2007.

[11] ¨Oslem Uzuner and Boris Katz. A comparative study of language models for book and author recognition. 3651/2005:969–980, 2005.

23

(34)

24 REFERENSER

(35)

Bilaga A

Stoppord

Stoppord ¨ar ord som f¨orekommer i all sorts text oberoende av ¨amne. I denna lista ¨ar de 671 till antalet, sorterade alfabetiskt. De enskilda bokst¨averna ing˚ar i listan. [1]

– a, able, about, above, abst, accordance, according, accordingly, across, act, actually, added, adj, adopted, affected, affecting, affects, after, afterwards, again, against, ah, all, almost, alone, along, already, also, although, always, am, among, amongst, an, and, announce, another, any, anybody, anyhow, anymore, anyone, anything, anyway, any- ways, anywhere, apparently, approximately, are, aren, arent, arise, around, as, aside, ask, asking, at, auth, available, away, awfully,

– b, back, be, became, because, become, becomes, becoming, been, before, beforehand, begin, beginning, beginnings, begins, behind, being, believe, below, beside, besides, between, beyond, biol, both, brief, briefly, but, by,

– c, ca, came, can, cannot, can’t, cause, causes, certain, certainly, co, com, come, comes, contain, containing, contains, could, couldnt,

– d, date, did, didn’t, different, do, does, doesn’t, doing, done, don’t, down, downwards, due, during,

– e, each, ed, edu, effect, eg, eight, eighty, either, else, elsewhere, end, ending, enough, especially, et, et-al, etc, even, ever, every, everybody, everyone, everything, everywhere, ex, except,

– f, far, few, ff, fifth, first, five, fix, followed, following, follows, for, former, formerly, forth, found, four, from, further, furthermore,

– g, gave, get, gets, getting, give, given, gives, giving, go, goes, gone, got, gotten, – h, had, happens, hardly, has, hasn’t, have, haven’t, having, he, hed, hence, her, here,

hereafter, hereby, herein, heres, hereupon, hers, herself, hes, hi, hid, him, himself, his, hither, home, how, howbeit, however, hundred,

– i, id, ie, if, i’ll, im, immediate, immediately, importance, important, in, inc, indeed, index, information, instead, into, invention, inward, is, isn’t, it, itd, it’ll, its, itself, i’ve,

25

(36)

26 Kapitel A. Stoppord

– j, just,

– k, keep, keeps, kept, keys, kg, km, know, known, knows,

– l, largely, last, lately, later, latter, latterly, least, less, lest, let, lets, like, liked, likely, line, little, ’ll, look, looking, looks, ltd,

– m, made, mainly, make, makes, many, may, maybe, me, mean, means, meantime, meanwhile, merely, mg, might, million, miss, ml, more, moreover, most, mostly, mr, mrs, much, mug, must, my, myself,

– n, na, name, namely, nay, nd, near, nearly, necessarily, necessary, need, needs, neither, never, nevertheless, new, next, nine, ninety, no, nobody, non, none, nonetheless, noone, nor, normally, nos, not, noted, nothing, now, nowhere,

– o, obtain, obtained, obviously, of, off, often, oh, ok, okay, old, omitted, on, once, one, ones, only, onto, or, ord, other, others, otherwise, ought, our, ours, ourselves, out, outside, over, overall, owing, own,

– p, page, pages, part, particular, particularly, past, per, perhaps, placed, please, plus, poorly, possible, possibly, potentially, pp, predominantly, present, previously, primar- ily, probably, promptly, proud, provides, put,

– q, que, quickly, quite, qv,

– r, ran, rather, rd, re, readily, really, recent, recently, ref, refs, regarding, regardless, regards, related, relatively, research, respectively, resulted, resulting, results, right, run,

– s, said, same, saw, say, saying, says, sec, section, see, seeing, seem, seemed, seem- ing, seems, seen, self, selves, sent, seven, several, shall, she, shed, she’ll, shes, should, shouldn’t, show, showed, shown, showns, shows, significant, significantly, similar, simi- larly, since, six, slightly, so, some, somebody, somehow, someone, somethan, something, sometime, sometimes, somewhat, somewhere, soon, sorry, specifically, specified, spec- ify, specifying, state, states, still, stop, strongly, sub, substantially, successfully, such, sufficiently, suggest, sup, sure,

– t, take, taken, taking, tell, tends, th, than, thank, thanks, thanx, that, that’ll, thats, that’ve, the, their, theirs, them, themselves, then, thence, there, thereafter, thereby, thered, therefore, therein, there’ll, thereof, therere, theres, thereto, thereupon, there’ve, these, they, theyd, they’ll, theyre, they’ve, think, this, those, thou, though, thoughh, thousand, throug, through, throughout, thru, thus, til, tip, to, together, too, took, toward, towards, tried, tries, truly, try, trying, ts, twice, two,

– u, un, under, unfortunately, unless, unlike, unlikely, until, unto, up, upon, ups, us, use, used, useful, usefully, usefulness, uses, using, usually,

– v, value, various, ’ve, very, via, viz, vol, vols, vs,

– w, want, wants, was, wasn’t, way, we, wed, welcome, we’ll, went, were, weren’t, we’ve, what, whatever, what’ll, whats, when, whence, whenever, where, whereafter, whereas, whereby, wherein, wheres, whereupon, wherever, whether, which, while, whim, whith- er, who, whod, whoever, whole, who’ll, whom, whomever, whos, whose, why, widely, willing, wish, with, within, without, won’t, words, world, would, wouldn’t, www,

(37)

27

– x,

– y, yes, yet, you, youd, you’ll, your, youre, yours, yourself, yourselves, you’ve, – z, zero

References

Related documents

[r]

Man kan faktiskt g¨ora ett konfidensintervall f¨or medianen med konfidensgrad minst lika med 1 − α helt utan n˚ agra som helst antaganden om den bakom- liggande f¨ordelningen

Vid kriser g˚ ar det inte att h˚ alla valutan vid samma niv˚ a eftersom att det blir os¨akrare f¨or investerare att h˚ alla den lilla valu- tan, vilket g¨or att de s¨aljer och

L¨ osningen till uppgift 2(b)(ii) fr˚ an provduggan Vi m˚ aste visa tv˚ a

Po¨ angen p˚ a godk¨ anda duggor summeras och avg¨ or slutbetyget.. L¨ osningarna skall vara v¨ almotiverade och

[Tips: Faktorisera polyno-

Eftersom planet g(x, y, z) = 3x+2y−z = 10 inte har n˚agra kantpunkter eller singul¨ara punkter (d¨ar gradienten ∇g ¨ar nollvektorn) s˚a antar f sina lokala extremv¨arden i

Matematiska institutionen Stockholms