Undersökande studie inom Information Extraction

(1)

INOM

EXAMENSARBETE TEKNIK, GRUNDNIVÅ, 15 HP

,

STOCKHOLM SVERIGE 2016

Undersökande studie inom

Information Extraction

Konsten att klassificera

ERIK TORSTENSSON

FREDRIK CARLS

(2)

Kandidatexamensarbete

Industriell Ekonomi

Datateknik och Kommunikation

***

Unders¨

okande studie inom

Information Extraction

Konsten att Klassificera

Erik Torstensson, 890213-0536; eriktors@kth.se

Fredrik Carls, 940411-0034; frcarls@kth.se

(3)

Abstract

This paper is an investigatory report about Information Extraction. The main purpose is to create and evaluate methods within Information Extrac-tion and see how they can help improve the scientific result in classificaExtrac-tion of text elements. A subtask is to evaluate the existing market for Information Extraction in Sweden.

For this task a two-part computer program has been created. The first part is just a baseline with a simple method and the second one is more advanced with tools used in the field Information Extraction. The field we investigate is how often men and women are mentioned in seven different newspapers in Sweden. The result compares these two methods and evaluates them using scientific measurements of information retrieval performance.

The results of the study show similar occurrences of men and women between the baseline and the more advanced method. The exception being that the more advanced method has a higher scientific value. The market for Informa-tion ExtracInforma-tion in Sweden is dominated by large corporaInforma-tions owned by the media, which also provide the data for these kinds of companies to analyze. This makes it hard to compete without having a new innovative idea.

Keywords:

(4)

Sammanfattning

Denna uppsats är en undersökande studie inom Information Extraction. Hu-vudsyftet är att skapa och utvärdera metoder inom Information Extraction och undersöka hur de kan hjälpa till att förbättra det vetenskapliga resultatet av klassificering av textelement. En deluppgift är att utvärdera den befintliga marknaden för Information Extraction i Sverige.

För att göra detta har vi skapat ett program best˚aende av tv˚a delar. Den första delen utgörs av ett basfall som är en enkel metod och den andra är mer avancerad och använder sig av olika tekniker inom omr˚adet Information Extraction. Fältet vi undersöker är hur ofta män och kvinnor nämns i sju olika nyhetskällor i Sverige. Resultatet jämför dessa tv˚a metoder och utvärderar dem med vetenskapliga prestationsm˚att inom Information Extraction. Studiens resultat visar p˚a liknande förekomster av män och kvinnor mel-lan basfallet och den mer avancerade metoden. Undantaget är att den mer avancerade metoden har ett högre vetenskapligt värde. Marknaden för In-formation Extraction i Sverige är dominerad av stora medieägda bolag, där media dessutom förser dessa företag med data att analysera. Detta gör att det blir sv˚art att konkurrera utan en ny innovativ idé.

Nyckelord:

(5)

Inneh˚

all

Inneh˚all 1 1 Inledning 4 1.1 Uppdragsbeskrivning . . . 4 1.2 Begrepp . . . 4 1.3 Fr˚agest¨allning . . . 5 1.4 Syfte . . . 5 1.5 Hypotes . . . 6 1.6 Begr¨ansningar . . . 6 2 Bakgrund 8 2.1 Bakgrund . . . 8 2.2 Uppdragsgivarens intresse . . . 8 2.3 Teorier . . . 9 2.3.1 Inledning . . . 9 2.3.2 Information Extraction . . . 9

2.3.3 Named Entity Recognition . . . 10

2.3.4 Precision, t¨ackning och F-measure . . . 10

2.3.5 SWOT . . . 12 2.3.6 Porters femkraftsmodell . . . 12 3 Metod 14 3.1 Inledning . . . 14 3.1.1 Basfallet . . . 14 3.1.2 NER Implementationen . . . 14

3.1.3 Gold Standard och studie . . . 15

(6)

6 Diskussion 24

6.1 Inledning av diskussion . . . 24

6.2 Diskussion av metodens resultat . . . 24

6.3 Diskussion av studiens resultat . . . 27

7 Marknadsanalys 29 7.1 Nul¨aget . . . 29

7.2 Sverige som marknad . . . 30

7.2.1 Retriever AB . . . 30

7.2.2 Gavagai AB . . . 30

7.2.3 Bisnode AB . . . 31

7.2.4 Recorded Future AB . . . 32

7.3 Uppskattning av marknadens v¨arde och tillv¨axt . . . 33

7.4 Diskussion . . . 33

7.4.1 SWOT . . . 33

7.4.2 Porters femkraftsmodell . . . 35

7.4.3 Marknadsanalys . . . 36

8 Slutsats 38 8.1 Besvarande av fr˚agest¨allningar . . . 38

8.2 Slutsatser och rekommendationer . . . 38

9 Vidare studier 40 Referenser 41 Appendix 44 A Resultat 44 A.1 Metodens resultat . . . 44

A.1.1 Aftonbladet . . . 44

A.1.2 Dagens Industri . . . 45

A.1.3 Dagens Nyheter . . . 46

A.1.4 Expressen . . . 47

A.1.5 G¨oteborgs-Posten . . . 48

A.1.6 Metro . . . 49

A.1.7 Svenska Dagbladet . . . 50

A.2 Studiens resultat . . . 51

A.2.1 Aftonbladet . . . 51

A.2.2 Dagens Industri . . . 52

A.2.3 Dagens Nyheter . . . 53

(7)

A.2.5 G¨oteborgs-Posten . . . 55

A.2.6 Metro . . . 56

A.2.7 Svenska Dagbladet . . . 57

(8)

1 Inledning

1.1 Uppdragsbeskrivning

Arbetet g˚ar ut p˚a att utforska omr˚adet Information Extraction (IE) som f¨orenklat handlar om att extrahera information fr˚an skriven text. Vi kommer ¨

aven in p˚a omr˚adet Named Entity Recognition (NER) som är ett delomr˚ade inom IE som g˚ar ut p˚a att lokalisera och klassificera element i texter. Exem-pel p˚a omr˚aden där detta kan vara användbart är inom aktieanalys där posi-tivt laddade nyckelord som exempelvis ”stark ordering˚ang” eller ”bra kassa-flöde” etc. kan användas för att bedöma om ett företags rapport är positiv eller negativ och därmed föranleda en aktieaffär [1]. Det används ocks˚a in-om bioteknik-branschen där stora mängder medicinska rapporter analyseras utifr˚an nyckelord som specifika gen- och proteinnamn för att hitta relevanta studier som kanske annars hade kommit bort i den stora mängd som produce-ras varje ˚ar [2]. För att undersöka omr˚adet IE s˚a har vi en implementationsdel där vi kommer att skapa ett data-program som analyserar svenska nyhetstid-ningar. Programmet kommer att läsa in nyhetsartiklar, analysera dem och räkna förekomsterna av män, kvinnor och könsneutrala personer. Detta för att undersöka nyhetskällornas fördelning av könsbenämningar. Vi kommer att ha ett basfall där vi analyserar texterna p˚a enklast möjliga sätt, genom att räkna förekomsten av könspecifika pronomen (ex. han, hon). Därefter kommer vi att implementera metoder som ofta används inom detta omr˚ade, ordlistor av namn och mer en avancerad analys av meningsuppbyggnaden. Detta för att se hur metodens resultat förbättras med hjälp av IE tekni-ker.

Därefter kommer vi att diskutera resultaten och vilka funktioner som var värda att använda. Det kan vara s˚a att vissa förbättringar är sv˚ara att im-plementera och samtidigt ger en väldigt liten eller ingen förbättring alls. Diskussionen kommer även att inneh˚alla en ekonomisk- och marknadsana-lysdel där vi diskuterar potentiella affärsomr˚aden där den här tekniken kan användas.

1.2 Begrepp

(9)

Named Entity Recognition (NER) - Omr˚ade inom IE. Identifierar och klas-sificerar element i text.

Gold standard - Det av oss manuellt rättade resultatet av antalet könsbenämningar. Används som facit för att att avgöra hur bra programmet presterar.

Basfallet - Den enklaste implementationen vi skapat. R¨aknar k¨onsspecfika pronomen i texten.

NER implementationen - Den mer avancerade implementationen vi skapat. Förutom könsspecifika pronomen tar den även hänsyn till könsbenämningar i form av namn.

Studiens resultat - Syftar p˚a utförandet av den framtagna metoden. Allts˚a den faktiska könsuppdelningen för de olika nyhetskällorna.

Metodens resultat - Syftar p˚a prestationsm˚atten av metoden. Allts˚a preci-sionen, täckningen och F-measure av studiens resultat i förh˚allande till gold standard. Det vi undersöker i v˚ar fr˚ageställning.

1.3 Fr˚

agest¨

allning

• Kan vi med hjälp av Information Extraction förbättra metodens re-sultat, d.v.s. i större utsträckning f˚a den att efterlikna gold standard i jämförelse mot basfallet?

• Hur ser marknaden ut för Information Extraction i Sverige och skulle det finnas affärsmöjligheter för program likt det vi skapat?

1.4 Syfte

Arbetets syfte är att undersöka omr˚adet Information Extraction. Hur kan det användas i praktiken för att förbättra en automatiserad inläsning av data? Finns det potentiella affärrsmässiga möjligheter för teknologin?

M˚alet är att ta fram en vetenskaplig metod som i enlighet med övriga veten-skapliga uppsatser ska kunna göras om och jämföras med framtagna resultat. Det är även intressant att jämföra studiens resultat mot data framtaget av befintliga liknande program.

(10)

av metoderna som används. Den kommer förhoppningsvis att uppskattas av andra som har liknande problem eller som är intresserade av omr˚adet i stort. V˚art program kommer klassificera könsbenämningar i skriven text. Uppgiften ¨

ar konkret och det vetenskapliga resultatet kommer kunna replikeras f¨or de som skulle vilja g¨ora det.

1.5 Hypotes

Den hypotes vi arbetar med är att NER implementationen kommer att förbättra metodens resultat i förh˚allande till basfallet. Slutprodukten ska bli bättre än basfallet. Denna hypotes grundar sig p˚a den litteratur vi har läst inom omr˚adet där väldigt stora steg har tagits inom detta fält [3]. Vi tror att införandet av en ordlista med vanliga manliga och kvinnliga namn i den avancerade versionen kommer förbättra metodens resultat avsevärt. Det ¨

ar n˚agot som vi ocks˚a har sett i andra program beskrivna i vetenskapliga artiklar [4].

Med tanke p˚a v˚ar konkreta uppgift kommer hypotesen att kunna testas re-lativt enkelt. Vi kommer att ta fram ett antal olika prestationsm˚att för pro-grammets prestanda mot ett facit, s˚a kallad gold standard. Gold standard skapas genom att vi själva i egenskap av experter tar ut könsbenämningar ur ett axplock av texterna för varje nyhetssida. Hypotesen testas sedan genom att jämföra metodens resultat av basfallet och NER implementationen mot denna gold standard.

Ang˚aende v˚ar andra fr˚ageställning är hypotesen att det är en växande mark-nad med stor potential för program likt det vi skapat. I takt med att datorer och bandbredd förbättras s˚a har vi sett hur omr˚aden som använder sig av big data utvecklas och omr˚adet Information Extraction verkar bli allt större [5]. Detta gör att vi tror att marknaden i Sverige är attraktiv för denna typ av företag och värd att investera i.

1.6 Begr¨

ansningar

(11)

behandla 500 artiklar per nyhetskälla mellan 06/04-13/04 ˚ar 2016. Program-met räknar könspecifika pronomen och namn.

(12)

2 Bakgrund

2.1 Bakgrund

Eftersom arbetet g˚ar ut p˚a att konstruera ett program som ska analyse-ra texter och utvinna information s˚a kommer det breda omr˚adet att vara Spr˚akteknologi samt mer specifikt Information Extraction(IE). Spr˚akteknologi syftar till att behandla ett naturligt spr˚ak med hjälp av en dator. IE definieras ofta som processen att selektivt strukturera och kombinera explicit eller indi-kerad data för att göra den lättillgängligt för informationssökningsuppgifter [10]. Exempelvis gällande v˚ar uppgift finns redan informationen tillgänglig i texten, det är endast en fr˚aga om att sortera bort resten av informationen som ges. Vidare finns det ett smalare omr˚ade inom IE som kallas för Name Entity Recognition (NER). NER används för att lokalisera och klassificera element i en text till fördefinierade kategorier s˚asom personnamn, organisatio-ner, platser osv. Med en s˚adan funktionalitet skulle metodens resultat i större utsträckning likna det av expert utförda tester. Skapandet av NER system har tv˚a olika angreppssätt; lingvistisk grammatikregel baserad och statistisk maskininlärnings baserad [11]. Handgjorda regelbaserade system har oftast en högre precision (antalet identifierade rättklassificerade elementen är hög), till kostnaden av lägre täckning (urvalet minskar) samt mycket manuellt ar-bete. Statistiska system kräver en större mängd träningsdata [3].

Genom en state-of-the-art analys av omr˚adet ser vi att det finns m˚anga prak-tiska program som har liknelser till v˚ar förmodade slutprodukt. IE är ett brett omr˚ade som har använts och utvecklats under flera ˚artionden [12]. Det finns bland annat företag vars syfte är att med hjälp av IE baserade program sor-tera fram nyhetsartiklar som är relevanta i ett visst sammanhang, t.ex. för ett annat företag. Speciellt finns det ett program under namnet ”Genews” [13] vars uppgift är densamma som v˚ar. Däremot ges ingen information el-ler källkod till hur programmet fungerar, vilka antaganden som gjorts eller begränsningar som satts. Det var bland annat detta program som gav upp-hov till intresset för arbetet. Efter konstruktion av programmet s˚a ligger det allts˚a nära till hands att jämföra studiens resultat mot det fr˚an Genews för att dra slutsatser kring deras träffsäkerhet.

2.2 Uppdragsgivarens intresse

(13)

Jo-han Boye som var v˚ar lärare i den kursen och tillsammans kom vi fram till uppgiften vi har idag. I jämställdhetsdebatten har det kommit fram en lik-nande tjänst som letar efter förekomster av genusbenämningar som heter Genews [13]. Genews tjänst visar att män förekommer i 60% av nyhetsar-tiklarna i Sverige men beskriver samtidigt inte alls hur de har kommit fram till den siffran. De beskriver vagt att de analyserar nyhetssidor och letar efter ”könsspecifika ord” men inte s˚a mycket mer än s˚a. Detta blev en in-tressant uppgift att undersöka, dels att faktiskt kontrollera sanningshalten i n˚agot som har använts i samhällsdebatten i Sverige men ocks˚a att fördjupa sig inom ett för oss intressant omr˚ade. Att kontrollera antalet könsspecifika benämningar i en text är bara ett exempel p˚a en användning inom hela omr˚adet Information Extraction och Named Entity Recognition. V˚ar imple-mentation i sig har förmodligen ett begränsat användningsomr˚ade utanför själva samhällsdebatten men tillvägag˚angsättet kan appliceras inom intres-santa omr˚aden som medicin [2] och finansmarknaden [1].

2.3 Teorier

2.3.1 Inledning

I omr˚adesbeskrivningen presenterade vi kort de relevanta teorierna och me-toderna för implementationsdelen av detta arbete. Dessa inkluderade Infor-mation Extraction (IE) och Named Entitiy Recognition (NER). IE definieras som uppgiften att automatiskt hämta ut strukturerad information fr˚an ett ostrukturerat eller semistrukturerat maskinläsbart dokument [12]. P˚a grund av sv˚arigheten i problemet begränsar sig de flesta nuvarande implementatio-ner till en viss domän [12]. NER är en deluppgift av IE som lokaliserar och klassificerar element i en text till fördefinierade kategorier [12].

Inom den marknadsanalys och den tillhörande undersökningen av affärsmöjligheter som vi genomfört s˚a har vi använt oss av SWOT-analys [14] och Porters fem-kraftsmodell [15]. Detta för att f˚a en bra bild över hur marknaden ser ut, hur gynnsam den är och för att kunna förutse potentiella möjligheter eller hinder vid en hypotetisk kommersialiseringsprocess.

2.3.2 Information Extraction

(14)

fr˚an sin traditionella karaktär som ett forskningsfält präglat av experiment och observationer till ett forskningsfält inom information d˚a merparten av arbetet g˚ar ut p˚a att analysera stora mängder av data [16]. Följaktligen ökar betydelsen av hur vi lagrar, hanterar och söker efter information. Inom t.ex. enbart den medicinska branschen finns det fler än 15 miljoner vetenskapli-ga artiklar publicerade och antalet ökar med omkring 40.000 stycken varje ˚ar [16]. Dessa publikationer inneh˚aller värdefull information som kan föra omr˚adet fram˚at, men utan en bra metod att ta tillvara p˚a denna information kommer mycket arbete förbli ouppmärksammad och därmed i m˚anga fall upprepas. Genom att använda oss av Information Extraction kan informa-tionen klassificeras och struktureras för snabbare och lättare ˚atkomst.

2.3.3 Named Entity Recognition

Implementationsdelen kommer framförallt använda sig av Named Entity Re-cognition (NER) metodiken varför vi ger en mer utförlig beskrivning av den-na. För att dra slutsatser av en text skriven i naturligt spr˚ak krävs en analys. Ett exempel p˚a en s˚adan text kan vara “John Olofsson arbetade för IBM 2006”. Med förkunskaper p˚ast˚ar vi att John är en person, IBM är ett företag och att 2006 är en tidpunkt. Vi kan i enlighet dra slutsatsen att John var an-ställd hos IBM under ˚aret 2006. NER fungerar p˚a ett liknande sätt. Genom att g˚a igenom meningen identifierar datorn olika satsdelar, och kategorise-rar dem [12]. [John Olofsson]person arbetade för [IBM]företag [2006]tid. I en annan text kan vi hitta annan information om John. Genom att koppla ihop informationskällorna f˚ar vi lätt och snabbt en bra överblick av John istället för att behöva söka igenom massa olika text utspridda över internet. Det kan tyckas vara en enkel uppgift men blir snabbt invecklat. Om vi utg˚ar fr˚an meningen “Paris Hilton kommer till Paris” inser vi att problem kan uppst˚a. Elementen m˚aste genomg˚a tester för att försäkra sig om att de blir rättklassificerade. För att motverka att “Paris” taggas som en egen förekomst används chunking (uppdelning i satsdelar).

2.3.4 Precision, t¨ackning och F-measure

(15)

˚asikt) till ett set av svar som agerar gold standard. För att utvärdera meto-dens prestation jämförs dess svar med gold standard.

Tv˚a prestationsm˚att som ofta används inom IE är precision samt täckning. Givet resultatet av ett experiment och en gold standard beskrivs precision som delmängden av fall som experimentets resultat taggade som positivt där även gold standard hade taggat positivt. Täckning definieras tvärtom som delmängden av positiva fall i gold standard som även blivit taggade som positivt av experimentet [17]. För en grafisk beskrivning av m˚atten se Figur 1. I sig självt säger m˚atten inte särskilt mycket om prestandan hos experimentet, men om de kombineras i dess harmoniska medelvärde, kallat F-measure s˚a kan slutsatser dras kring denna. F-measure är ett vanligt prestationsm˚att för att utvärdera NER implementationer [18].

F − measure = 2 ×T ¨ackning × P recision P recision + T ¨ackning

(16)

2.3.5 SWOT

SWOT är en förkortning av de engelska orden ”Strengths” (styrkor), Weak-nesses (svagheter), Opportunities (möjligheter) och “Threats” (hot). Det är ett strukturerat planeringsverktyg som används inom företagsekonomin för att bedöma framtida projekt eller verksamheter. SWOT:en kan göras för en person, industri, företag eller marknad och delar upp interna och externa faktorer i fyra underkategorier för att se om projektet är genomförbart eller inte. Det är oftast i det tidiga planeringsskedet som SWOT används. Detta för att tidigt kunna avgöra lönsamheten i projektet och om det inte finns, hitta andra vägar fram˚at [14].

2.3.6 Porters femkraftsmodell

(17)

(18)

3 Metod

3.1 Inledning

Programmet best˚ar av tv˚a delar, basfallet och en mer avancerad del som kommer implementera metoder inom omr˚adet Information Extraction (IE) för att förbättra metodens resultat. Den andra delen kallar vi för Named Entity Recognition (NER) implementationen.

Gemensamt för programmets olika delar är att de kommer läsa in artiklar fr˚an sju olika svenska nyhetssidor; Aftonbladet [19], Expressen [20], Dagens Nyheter (DN) [21], Dagens Industri (DI) [22], Göteborgs-Posten (GP)[23], Metro[24] samt Svenska Dagbladet (SvD) [25]. Dessa artiklar hämtas fr˚an retriever [6] som agerar oberoende databas för samtliga svenska nyhetstid-ningar. Vi har valt att begränsa oss till att hämta ut 500 artiklar per ny-hetskälla mellan 06/04-13/04 ˚ar 2016. Tillkommande felkällor diskuteras i avsnittet Felkällor. Ur datamängden extraherar programmet själva artikel-texterna som sedan bearbetas av programmet.

3.1.1 Basfallet

Basfallet kommer vara en enkel implementation vars enda uppgift är att läsa in artikeltexten och sedan ord för ord kontrollera samt beräkna förekomsten av könsspecifika pronomen.

3.1.2 NER Implementationen

NER implementationen kommer f¨orutom att utnyttja basfallets funktion ¨

(19)

av en mening förmodligen inte ska tolkas som ett namn. S˚adana ord place-ras i separata listor för att vidare undersöka deras rimlighet. Om de sedan visar sig vara korrekta och faktiskt syftar till en person s˚a ˚aterplaceras de i listan över potentiella personnamn. En annan viktig metod är tolkningen av efternamn. Ofta presenteras personer i nyhetsartiklar med för och efternamn för att sedan omnämnas med n˚agon av dessa. Programmet löser detta ge-nom att sammankoppla efternamnsbenämningar med första förekomsten av personen i fr˚aga. Detta kan ses som att programmet “lär” sig vilka personer som omnämns i texten för att sedan kontrollera om personerna omnämns p˚a annat vis än p˚a det de redan finns lagrade.

3.1.3 Gold Standard och studie

För att utvärdera v˚ar metod s˚a var vi tvungna att ha n˚agot att jämföra resultatet med, ett facit eller gold standard. Vi testade programmet med slumpmässigt valda artiklar ur den totala datamängden vars resultat vi se-dan genomg˚aende utvärderade. De slumpmässiga artiklarna hämtades genom att köra en random number generator [27] med intervallet 1-500 tio g˚anger för varje källa för att sedan söka upp och plocka ut dessa artiklar fr˚an da-tamängderna. Utvärderingen av gold standard körningen sker genom att vi analyserar de utvalda artiklarna genom att manuellt läsa artiklarna och mar-kera könsbenämningar. Med andra ord agerade vi spr˚akexperter. Metodens resultat jämfördes mot det manuellt uträknade för att kunna dra slutsat-ser programmets prestationsförm˚aga i form av precision, täckning och F-measure. Dessa prestationsm˚att förklaras mer utförligt under rubrikenPrecision, täckning och F-measure. Dessa nyckeltal tar vi fram framförallt för att kun-na utvärdera NER implementationens prestanda jämfört mot basfallets men ocks˚a för att skapa en robusthet och relevans för utförandet av den större undersökande studien p˚a samtliga artiklar av datamängden.

3.2 Metodval

(20)

Figur 3: Illustration av metodens trattutseende

3.3 Programmet

(21)

i Appendix samt p˚a github under profilen FredrikCarls i “Kandidatexamens-arbete” repot1_.

3.3.1 Basfallet

Basfallet utgör den simpla implementationen som lagrar tre olika listor med könsspecifika pronomen, en för varje kategori; kvinnor, män och könsneutrala personer. Därefter g˚ar programmet igenom texten ord för ord och om n˚agot av de könsspecifika pronomenen identifieras s˚a ökar den förekomsten för den-na könskategori i enlighet.

3.3.2 Ordlistan

Ordlistan tar emot versalOrdListan och l˚ater dess versalordskombinationer genomg˚a tester mot namnlistorna för att sedan placera de förmodliga perso-nerna som omnämns i personListan, vilket är en Hashtable som inneh˚aller textens personer samt antalet förekomster av dessa i texten. Därefter ska-par vi MatchListorna, en för varje könskategori som inneh˚aller förnamnen i personListan.

3.3.3 NER

NER klassen tar även den emot versalOrdListan. Första delen av program-met behandlar punktOrdListan. Vi jämför punktOrdListan mot MatchLis-torna som vi skapade i “Ordlista.java” och skapar osäkerhetsListor med de ord som matchas. De osäkra orden tas bort fr˚an Matchlistorna för att se-dan efter strikt kontroll antingen läggas tillbaka eller förbli borttagna. Med antagandet att personer oftast nämns en g˚ang i texten med för och efter-namn ger vi osäkerhetslistorna kriteriet att orden minst en g˚ang skall ha förekommit med efternamn. Om detta är fallet s˚a tar programmet tillbaka dem till MatchListorna. Slutligen tar programmet bort alla personer ur per-sonListan som inte förekommer i MatchListorna. När personListorna sen är färdigställda s˚a g˚ar programmet än en g˚ang igenom versalOrdListan för att identifiera benämningar av enbart efternamn och öka förekomsterna av de p˚averkade personerna.

(22)

3.3.4 Flowchart

(23)

4 Resultat

Syftet med resultatet är att erh˚alla ett diskussionsunderlag för utvärdering av metoden, ta reda p˚a fördelningen av könsbenämningar hos nyhetssidorna samt att undersöka om detta resultat skiljer sig mellan basfallet och NER im-plementationen. Metodens resultat presenteras i form av precision, täckning och F-measure medan studiens resultat presenteras i form av procentuell förekomst av de olika könspecifika benämningarna.

4.1 Metodens genomsnittsresultat

(24)

Figur 6: Det av samtliga nyhetsk¨allor genomsnittliga resultatet f¨or metodens NER implementation.

4.2 Studiens genomsnittsresultat

(25)

Figur 8: Det av samtliga nyhetsk¨allor genomsnittliga resultatet f¨or studien med metodens NER implementation.

4.3 Sammanfattning av Resultat

Det centrala diskussionsunderlaget utgörs av genomsnittsresultaten av samt-liga nyhetskällor i s˚aväl metodens som i studiens resultat.

Vi ser under Metodens genomsnittsresultat (Figur 5) att basfallet i gold stan-dard körningen uppn˚ar en väldigt hög precision p˚a 96,6%, detta till kostnad av en lägre täckning som endast uppn˚ar 28,7%. Detta ger oss ett F-measure p˚a 44,3% vilket är förh˚allandevis l˚agt. Vidare ser vi att metodens resultat med NER implementationen (Figur 6) uppn˚ar en förh˚allandevis hög preci-sion p˚a 92,8%, utan att dra ned p˚a täckningen allt för mycket som ligger p˚a 72,1%. Detta ger NER implementationen ett F-measure p˚a 81,1%, nästan dubbelt s˚a högt som basfallet.

(26)

5 Felk¨

allor

Vi hämtade samtliga artiklar fr˚an Retriever. En felkälla med Retriever ligger i att vissa nyhetssidor lagrades i webb format och vissa i tryckt format. Av de nyhetssidor vi använde i studien var de som lagrades i tryckt format Aftonbladet, DN, GP, samt SvD och de som lagrades i webb format DI, Expressen, GP, Metro, samt SvD. Det är sv˚art att dra slutsatser kring hur detta p˚averkar resultaten men vad vi sett är att artiklarna fr˚an det tryckta formatet har en sämre text-hämtare d˚a vissa artiklar är tomma och vissa saknar rubriker. Ytterligare ett problem med Retrievers text-hämtare är att den ibland inte läser in punkt ordentligt. Detta kan försämra inläsningen av artikeln vilket i sin tur p˚averkar resultaten negativt. Värsta fallet uppst˚ar om ett versalord kommer direkt efter det oregistrerade punktordet. I det fallet kommer ett personnamn registreras med punktordet som förnamn och det andra versalordet som efternamn. Detta leder till att programmet kommer släppa igenom övriga förekomster av punktordet samt lägga p˚a alla ensamma förekomster av versalordet.

Ytterligare en felkälla är den begränsade mängden data. Till studien har vi analyserat sju olika nyhetssidor ett tillfälle där vi hämtat ut de 500 senas-te artiklarna fr˚an sju dagar. För att ˚atgärda felkällan krävs det en större datamängd över en längre undersökningsperiod.

Vidare nämndes en felkälla under Metodens inledning. Undersökningsperioden sammanfaller med sportevenemang vilket kan p˚averka studiens resultat i manlig favör. Dock p˚averkar inte denna tillfällighet rapporten avsevärt med tanke p˚a att fokus snarare ligger p˚a metodens resultat än studiens.

Vi beslutade oss för att basera undersökningen p˚a namnlistor med person-namn med minst 50 förekomster i Sverige. Detta medför dock att vi missar flera ovanliga artistnamn som exempelvis Madonna som endast innehas av 22 personer i Sverige.

En annan aspekt vi bortsett ifr˚an är att personnamn kan skrivas som Alfa von Beta eller Alfa de Beta osv. Detta pga. den ökade komplexiteten och l˚aga frekvensen. Avvägningen vi gjorde, med avseende p˚a projektets omfattning, var att den ökade arbetsinsatsen för att ta hänsyn en s˚adan marginell ökning av täckningen inte var berättigad.

(27)

l¨osning f˚ar ses som bortfall.

Tack vare v˚ara antaganden gällande vad som definieras som en könsbenämning och basfallets funktionalitet s˚a kommer basfallet att tagga fel p˚a vissa förekomster av hans och hennes. Om det i texten st˚ar ex hans dotter s˚a syftar texten p˚a en kvinna. Basfallet kommer trots detta tagga förekomsten som en mans-benämning d˚a den rakt av läser in hans.

En annan anomali i programmet uppst˚ar om en persons efternamn ocks˚a ¨

(28)

6 Diskussion

6.1 Inledning av diskussion

När analys sker av liknande program inom kategorin Information Extraction som exempelvis Genews är det lätt att inbilla sig att uppgiften är enkel och objektiv med de illustrativa graferna p˚a dess hemsida. I verkligheten är det mycket sv˚art, subjektivt och i m˚anga fall “omöjligt” att dra slutsatser om genusbenämningar i texterna. Exempelvis kan de referera till personerna i texterna med deras initialer eller ursprung (köpingkillen o.s.v.). En allmän vägledare till välskrivna texter inkluderar att använda sig av synonymer för att undvika upprepning. Om inte antaganden och begränsningar presente-ras, vilket ett arbete med dessa omständigheter kräver, s˚a blir resultatet op˚alitligt.

6.2 Diskussion av metodens resultat

Metodens resultat för basfallet är väntat (Figur 5). Den höga precisionen förklaras genom att implementationen är s˚a pass enkel. Den ska endast räkna förekomster av könsspecifika pronomen som exempelvis “han” eller “hon”. Vad kan g˚a fel? Trots detta resonemang uppn˚ar basfallet inte 100% preci-sion. Vad beror det p˚a? När vi framställde v˚ar gold standard utgick vi ifr˚an antagandet att könsspecifika pronomen kan kopplas till den som omnämns i texten. Om det exempelvis st˚ar hans dotter syftar texten p˚a en kvinna, varför vi anser att det är en kvinnlig benämning. Basfallet kommer dock rakt av läsa in hans och i enlighet öka den manliga förekomsten i texten. Vi skulle lika gärna kunnat anta att vi med ”hans dotter” syftar till honom vil-ket skulle göra att precisionen uppn˚ar 100%. Vi valde dock det förstnämnda. Eftersom NER implementationen ocks˚a använder sig av basfallet s˚a kom-mer även dess precision att minska tack vare detta antagande. Basfallets l˚aga täckning förklaras p˚a liknande sätt, implementationen är helt enkelt för enkel. Könsbenämningar kan härledas till m˚anga fler element än specifi-ka pronomen. Dessa element inkluderar bland annat personnamn(ex Patrik Jonsson), yrkesroller(sjuksköterskan) och personliga egenskaper(20-˚aringen, köpingkillen, mannen etc.).

(29)

m˚anga s˚a kallade “falska alarm” som minskar precisionen. Det stod snabbt klart att s˚adant var fallet med en implementation som endast använder sig av namnlistor. Med en s˚adan lyckades vi extrahera samtliga personnamn ur texten (exklusive ensamma förekomster av efternamn). Samtidigt erhöll vi olika falska alarm. Vi har slutat överraskas av vad människor faktiskt kan heta. Exempelvis f˚angade programmet ord som Kina, Hon, Han, Prinsen, London osv. och taggade dessa som personnamn trots en begränsning av att förnamnen ˚atminstone ska bäras av 50 personer i Sverige. Ibland kan det stämma men oftast handlade det om att orden var länder, städer eller att de hade hamnat i början av en mening. Efter detta bestämde vi oss för att lägga fokus p˚a precisionen eftersom vi ans˚ag att det är viktigare att metodens resultat är korrekt än att vi lyckas identifiera samtliga könsbenämningar i texten. Detta beslut genomsyrar NER implementationens utseende som en ”tratt” samt dess resultat, hög precision till kostnad av lite lägre täckning. Men den l˚aga täckningen beror inte endast p˚a fokus p˚a precision. Liksom bas-fallet täcker inte NER implementationen samtliga element. Här tar vi hänsyn till personnamn men inte yrkesroller och personliga egenskaper. Anledning-en till varför vi valde att inte göra detta är komplexiteten som tillkommer samt l˚ag frekvens av förekomster. För att ta reda p˚a vem som avses med 20-˚aringen krävs mer förfinade metoder samt möjligtvis externa databaser, om detta ens räcker till. En s˚adan lösning skulle allts˚a kräva vidare forskning inom omr˚adet Information Extration än Named Entity Recogition, där v˚art fokus med personnamnen nu har legat.

Som vi konstaterade under ”Sammanfattning av Resultat”har vi en hög kor-relation mellan Figur 5 och Figur 6. Avvikelsen förklaras genom namnlistorna i NER implementationen. Eftersom listorna är s˚a pass stora delar de flertal namn som Janne, Lee, Robin, Daniel, Andrea, Hanna osv. Vissa av dessa ¨

(30)

namn d¨ar den hittar ett p˚af¨oljande pronomen.

Vidare har vi testat namnlistor av olika storlekar. Listorna är hämtade fr˚an SCB [26] i form av tilltalsnamn. Listorna vi använder är tilltalsnamn med minst 10, 50 och 100 bärare i Sverige. Ovanliga namn kommer försvinna i takt med att vi ökar kraven p˚a förekomster i Sverige. Vi s˚ag att den kvinnolistan inte längre hade Daniel som ett namn men vi förlorade namn som Madonna vilket inte var lika bra. Det är alltid en avvägning om vilken lista som passar bäst. ˚Aterigen valde vi precision istället för att ha med den enorma mängd namn som finns i Sverige.

Hur kommer det sig att studiens resultat (Figur 7 och Figur 8) är s˚a pass lika varandra trots en klar förbättring av metoden? Detta beror p˚a att det finns ett starkt samband mellan antalet könsspecifika pronomen och dess re-spektive könsbenämningar i form av personbenämningar. Självklart visste vi att det där fanns ett samband. Om en text exempelvis handlar om en kvin-na växlar författaren mellan könsspecifika pronomen samt kvinnans namn om det finns tillgängligt d˚a texten blir upprepande om det inte görs. Dock trodde vi inte att sambandet skulle vara s˚a pass starkt som det visade sig vara. Var det ens värt att göra en NER implementation om det nu visar sig korrelera s˚a väl med basfallet? Ja och nej. Om studiens resultat ska användas i vetenskapliga sammanhang krävs det dokumentation om metodens presta-tionsförm˚aga för att skapa en robusthet. Det g˚ar inte att anta att det alltid korrelerar s˚a pass väl som det nu gjorde. Ju större datamängd desto bättre kommer studiens resultat att korrelera. Om vi exempelvis ser till enstaka källor korrelerar det sämre än p˚a den totala mängden. Vi f˚ar en större sprid-ning. I Götebors-Posten skiljer sig de kvinnliga benämningarna med 5.2% och de manliga med 3.2% mellan basfallet och NER implementationen. Om vi ser till metodens resultat s˚a ligger F-measure för NER implementationen mellan 72.1% och 87.4% och har därför ett intervall p˚a 15.3% . För basfallet ligger värdet mellan 27,2% och 53,5% och har därför ett intervall p˚a 26.3%. Vi ser att variansen av metodens resultat är betydligt högre hos basfallet, vilket medför att det blir osäkrare. Om studien utförs p˚a en mindre grundlig niv˚a där den vetenskapliga relevansen inte har lika stor betydelse s˚a verkar det duga med endast basfallet.

Vad skiljer sig mellan nyhetskällorna SvD och DI som gör att vi f˚ar s˚a pass olika resultat? En anledning är typen av inneh˚all. DI:s artiklar utgörs mest av ekonomiska notiser som handlar mer företag än personer, vilket medför att vi f˚ar mindre frekventa könsbenämningar. Oftast nämns personerna en-staka g˚anger i texterna i vilket fall de nämns med för och efternamn, vilket ¨

(31)

l˚anga texter och behandlar ofta ämnen som kultur. I dessa sammanhang ten-derar texter att inneh˚alla mer frekventa könsbenämningar. Om en text ofta hänvisar till en och samma person s˚a är det vanligt att omnämna personen p˚a s˚a m˚anga olika sätt som möjligt för att p˚a s˚a sätt undvika upprepning i texten. Det är vid s˚adana ovanliga sätt att benämna personer som pro-grammet f˚ar det sv˚art. Ett annat scenario som programmet har sv˚art med ¨

ar anonyma texter. D¨ar refereras personerna med “mannen”, “kvinnan” eller “trafikledaren”.

6.3 Diskussion av studiens resultat

Eftersom studiens m˚al snarare är att undersöka metodens prestanda än stu-diens resultat s˚a kommer därför fokus att ligga p˚a det förstnämnda. Detta innebär att vi inte fördjupar oss i en etisk diskussion hur resultatet p˚averkar samhället i stort d˚a vi anser att det ligger utanför scopet för arbetet. Trots detta är det intressant att även analysera det faktiska utfallet. Nedan ge-nomförs en kort analys av studiens resultat.

Resultatet (Figur 7 och Figur 8) visar att män är överrepresenterade vad gäller benämningar. En möjlig förklaring till en viss del av denna överrepresentation kan vara att analysperioden sammanfaller med en tid med m˚anga sporteve-nemang som slutspel i Hockey och Champions League. Under dessa tider skrivs mycket om dessa sportevenemang vilket kan ge ett överskott av man-liga benämningar jämfört med en genomsnittsperiod. Förutom att det skrivs generellt fler artiklar om män s˚a är sportartiklar speciella genom att de dess-utom ofta har väldigt m˚anga benämningar. En text om en hockeymatch kan t.ex. inneh˚alla m˚anga manliga benämningar med folk som gjorde m˚al, avgörande passningar, utvisningar etc. Detta är dock ett antagande vi inte kan bekräfta. För att dra vidare slutsatser om detta krävs en studie under en lägre period med fler undersökningar under separerade tillfällen.

(32)

(33)

7 Marknadsanalys

7.1 Nul¨

aget

Information Extraction (IE) idag handlar mycket om analys av stora da-tamängder. Det är en relativt ny marknad som växt fram i takt med att datorer och Internet blivit allt snabbare vilket möjliggjort allt större da-tamängder [5]. Att den är ny kan vi även se p˚a de företag vi har valt att analysera. Samtliga har skapats fr˚an början av 2000-talet och senare.

Det finns olika sätt att använda IE i kommersiella syften. Gemensamt för de analyserade företagen är att de oftast bygger p˚a n˚agon sorts analysverksam-het kopplat till insamlandet av all data. Ett sätt är att analysera nyhetsflödet genom att g˚a igenom de stora tidningarnas hemsidor. Genom att göra det-ta kan företaget samla all relevant information p˚a ett ställe och göra den sökbar för kunden p˚a ett strukturerat sätt. Detta underlättar för kunder som snabbt vill g˚a igenom relevanta nyheter eller p˚a n˚agot sätt bygga upp databaser.

När det finns tillg˚ang till stora datamängder s˚a kan en djupare analys ske. Ett exempel kan vara att ett företag vill veta hur lyckad en kampanj är genom att se dess genomslag i media, att se hur starkt ens varumärke är, vilket intresse som finns för företagets produkter, identifiera m˚algrupper för en ny produkt eller hur stor dragningskraft de har p˚a sociala medier. Dessa exempel använder IE för att identifiera nyckelord med positiv eller negativ klang och sedan se i hur stor utsträckning dessa finns i samband med företaget som beställer tjänsten. Om företaget förekommer i positiva nyheter med m˚anga positivt laddade värdeord i en stor mängd data s˚a kan slutsatsen dras att den allmänna uppfattningen om företaget är positiv. Om resultatet visar sig var negativt kan företaget behöva se över hur de syns utifr˚an och hur de marknadsför sig själva. Eventuella förbättringar identifieras genom att köra samma test igen och analysera utfallet.

(34)

7.2 Sverige som marknad

Den svenska marknaden f¨or Information Extraction best˚ar till stor del av de fyra f¨oretag vi har valt att fokusera p˚a, Retriever AB [6], Gavagai AB [7], Bisnode AB [8] och Recorded Future AB [9].

7.2.1 Retriever AB VD: Rober S¨oderling

¨

Agarstruktur: 66% TT [28], 34% norska NTB. Dessa ¨ags i sin tur av de svenska och norska mediehusen.

Beskrivning: “Vi är Nordens ledande leverantör av mediebevakning, verktyg för redaktionell research, medieanalys och företagsinformation. Vi ger dig snabb tillg˚ang till all relevant information fr˚an tidningar, magasin, radio, tv, web och sociala medier. “

Figur 9: Bokslut och Nyckeltal f¨or Retriever AB ˚ar 2012-2014.

7.2.2 Gavagai AB

VD: Lars Olof Fredrik Hamberg ¨

Agarstruktur: Privat svenskt utan koncern

(35)

industry. One of the problems we have solved is fully automated and extremely scalable text summarization in all languages. There are numerous application areas for text summarization. Another problem we have solved is that we can gauge any type of sentiment in any language in vast text streams. We aim to establish our proprietary technology as the global standard of a semantic base layer, which will be an integral and fundamental part of all emerging te-chnologies and solutions dealing with large amounts of unstructured language data.”

Figur 10: Bokslut och Nyckeltal f¨or Gavagai AB ˚ar 2012-2014.

7.2.3 Bisnode AB VD: Magnus Silfverberg

¨

Agarstruktur: 70% Ratos [29], 30% Bonnier [30]

(36)

Figur 11: Bokslut och Nyckeltal f¨or Bisnode AB ˚ar 2012-2014.

7.2.4 Recorded Future AB VD: Christopher Ahlberg

¨

Agarstruktur: Grundare, Google Ventures, Atlas Venture, In-Q-Tel

(37)

Figur 12: Bokslut och Nyckeltal f¨or Recorded Future AB ˚ar 2012-2014.

7.3 Uppskattning av marknadens v¨

arde och tillv¨

axt

Den riktiga giganten p˚a marknaden är Retriever AB med en omsättning p˚a 282Mkr vilket är fem g˚anger större än de andra tre kombinerat som vi kan se i Figur 9. Överhuvudtaget verkar marknaden för Information Extraction (IE) i Sverige vara värd runt 330Mkr. Detta kan ställas i relation till IT-branschen i stort som 2014 omsatte 422Gkr [31]. IE omsätter därmed 0,08% av hela branschen.

Antalet anställda dras ˚aterigen upp av Retriever AB med 150st anställa. Totalt har de fyra undersökta företagen runt 200 anställda. I relation till IT-branschen i stort som 2014 sysselsatte 198600 personer [31] är detta runt 1%. Tillväxten för IE i genomsnitt för de uppräknade bolagen är runt 9% vilket kan ses i jämförelse med IT-branschen som har en genomsnittlig tillväxt p˚a 4% [31].

7.4 Diskussion

7.4.1 SWOT

(38)

Figur 13: SWOT-analys f¨or marknaden.

(39)

ocks˚a vara goda i takt med att det stora omr˚adet big-data växer allt mer [5]. I framtiden kan ocks˚a mediernas betydelse minska. Det blir allt sv˚arare för de stora nyhetstjänsterna att sl˚a igenom i en värld där sociala medier f˚ar allt större utrymme [32]. Om detta leder till en värld där information är ännu mer tillgänglig s˚a kommer det öppnas upp möjligheter för tjänster som inte ¨

ar knutna till de gamla nyhetsbolagen. Eftersom omr˚adet behandlar big-data och försöker ge beslutsunderlag baserat p˚a analyserad text s˚a finns det risk att de stora internetgiganterna som Google och Facebook börjar konkurrera. Dessa bolag är dessutom inte beroende av normala inkomstkanaler utan de kan förlita sig p˚a reklam och användandet av deras tjänster. Nya innova-tiva bolag kan dessutom när som helst komma med nya tekniker som helt konkurrerar ut de befintliga bolagen p˚a marknaden. Gavagai AB har enligt egen utsago utvecklat en egen lösning som ska skilja sig fr˚an befintlig teknik [7].

7.4.2 Porters femkraftsmodell

En bra startpunkt för att bedöma graden av konkurrens inom ett omr˚ade och därigenom kunna avgöra huruvida marknaden är lämplig att investera i är att använda sig att Porters femkraftsmodell [15]. Modellen använder sig av fem olika omr˚aden i sin analys för att kunna bedöma marknaden. Dessa är kundernas och leverantörers förhandlingsstyrka, substitut för tjänsten, kon-kurrens fr˚an befintliga och hot fr˚an nya aktörer. Denna finns även beskriven i teoridelen under rubriken Porters femkraftsmodell och i Figur 2.

Kundernas förhandlingsstyrka f˚ar anses vara hög. Kunderna kan själva välja vilket företag som de ska köpa sina tjänster ifr˚an men det finns troligen en kvalitetsskillnad p˚a tjänsten de levererar vilket avgör valet. Bland de företag vi har analyserat s˚a har tre stycken en relativt likartad tjänst vilket skapar valfrihet.

(40)

Substitut för tjänsten är sv˚ardefinierat. Eftersom tjänsten bygger p˚a big-data s˚a kan traditionella sätt att f˚a beslutsunderlag konkurrera. Det skulle vara företag som erbjuder tjänster för undersökningar via web-enkäter eller telefon. Detta hot anses vara l˚agt d˚a denna typ av tjänst är av en specifik typ som är sv˚ar att ersätta.

Konkurrensen fr˚an befintliga aktörer är medel. Detta eftersom tjänsten he-la tiden utveckhe-las och blir mer avancerad. De befintliga aktörerna m˚aste komma p˚a bättre lösningar för sina kunder och förbättra relevansen i sina re-sultat. Nya mjukvarulösningar kan potentiellt förbättra marknadspositionen avsevärt. Dock s˚a växer marknaden med runt 9% vilket är ganska mycket, enligt v˚ar tidigare uppskattning s˚a det behöver inte r˚ada n˚agon prispress som skulle kunna pressa ner marginalerna för de befintliga företagen.

Hot fr˚an nya aktörer bedöms vara hög. Det senaste exemplet är Gavagai AB som enligt egen utsago har en ny revolutionerande teknik avknoppat fr˚an Swedish ICT [7]. Detta skulle d˚a potentiellt kunna utmana de stora aktörerna p˚a marknaden idag och vi ser att Gavagai AB har en väldigt hög tillväxt 2014. Enligt Porters femkraftsmodell s˚a är hoten höga och lönsamheten pressas. Det är därför inte gynnsamt att g˚a in p˚a marknaden.

7.4.3 Marknadsanalys

Om vi tittar p˚a den svenska marknaden och de nyckeltal som företagen pre-senterar i sina ˚arsrapporter s˚a kan vi se att det egentligen bara finns en aktör p˚a marknaden som g˚ar bra. Retriever AB (Figur 9) är fem g˚anger större än de andra företagen kombinerat och de har stabila finanser med en stadigt ¨

okande tillv¨axt ˚ar till ˚ar samtidigt som de beh˚aller en stabil vinstmarginal p˚a runt 10%.

Dess konkurrent Bisnode AB (Figur 11) har en minst sagt hackig tillväxt samtidigt som de presenterar en väldigt negativ vinstmarginal. Gavagai AB (Figur 10) har visserligen en stark tillväxt men de m˚aste visa att de kan g˚a fr˚an detta till att faktiskt producera en vinst. Med en kassalikviditet p˚a 291% för 2014 s˚a är de dock gott rustade inför framtiden och kan mycket väl bli en stark utmanare p˚a marknaden förutsatt att de lyckas beh˚alla sin explosiva tillväxt.

(41)

av detta. Även om tillväxten och vinstmarginalen har avstannat n˚agot s˚a är det änd˚a ett stabilt företag.

(42)

8 Slutsats

8.1 Besvarande av fr˚

agest¨

allningar

Den första fr˚ageställningen var: “Kan vi med hjälp av Information Extraction förbättra metodens resultat, d.v.s. i större utsträckning f˚a den att efterlikna gold standard i jämförelse mot basfallet?”. Vi besvarar den genom att meto-dens resultat klart förbättrades med NER implementationen.

Den andra fr˚ageställningen var “Hur ser marknaden ut för Information Ex-traction i Sverige och skulle det finnas affärsmöjligheter för program likt det vi skapat?”. Marknaden styrs av stora etablerade medieföretag som samtidigt ¨

ager tillg˚angen till datan som analyseras. Detta innebär att ett program likt v˚art har begränsade möjligheter att konkurrera. Det finns dock möjligheter om en tillräckligt innovativ idé kan skapas.

8.2 Slutsatser och rekommendationer

I utvärdering av programmet ser vi att F-measure (Figur 5 och Figur 6) nästan fördubblades i och med förbättringen av programmet. Dock ser vi att utfallet av studien (Figur 7 och Figur 8) inte p˚averkas p˚atagligt av ut-vecklingen. Detta beror p˚a en stark korrelation mellan antalet könsspecifika pronomen och totala antalet könsbenämningar i texter. Vi uppn˚ar allts˚a en bra approximation med enbart basfallet men erh˚aller ett mer robust resultat av studien med högre relevans i vetenskapliga sammanhang med NER imple-mentationen. Men hur l˚angt är det värt att utveckla? Varje procent bättre resultat av metoden i form av F-measure blir sv˚arare att implementera. För att närma sig 100% krävs enormt mycket arbete och resurser. Är det värt eller ska vi nöja oss vid en viss procentsats och p˚ast˚a att det ger en nog bra approximation? Vart ska vi stanna, vad är tillfredställande?

Rekommendationen är att endast göra basfall för mer övertäckande studier d˚a det finns en stark korrelation mellan antalet könsspecifika pronomen och antalet personer av könet ifr˚aga. Om en vetenskaplig bas efterfr˚agas bör men mer förfinad metod implementeras med bevis i form av prestationsm˚att att metoden faktisk fungerar.

(43)

aktörerna inom deras eget omr˚ade bedöms vara sv˚art p˚a grund av deras finansiella styrka och de mediebolag som backar upp dem. Det finns dock en mängd möjligheter som en växande marknad och en spännande framtid. Men de tycks hänga p˚a att företaget lyckas skapa en unik nisch.

Marknaden för Information Extraction i Sverige är relativt liten och även om den uppvisar en god tillväxt s˚a visar porters femkraftsmodell att lönsamheten förmodligen kommer att bli l˚ag. Den domineras av ett stort företag som dess-utom är ägt av de stora mediehusen som tillhandah˚aller mycket av den in-formation som ska analyseras. Detta gör att ett program i det omr˚ade vi har undersökt inom ramen för denna studie har begränsade affärsmöjligheter. Att skapa ett program som g˚ar igenom nyhetssidor för att kunna presentera analyser av dessa finns redan och eftersom ägarna av dessa tjänster ocks˚a kontrollerar tillg˚angen till data s˚a blir det ännu sv˚arare (vi använde till ex-empel Retrievers tjänst för att kunna f˚a tillg˚ang till artiklar eftersom m˚anga ligger bakom betalväggar).

(44)

9 Vidare studier

Programmets utseende har under flertal tillfällen genomg˚att stora förändringar som har lett till ett litet förbättrat resultat av metoden. När vi n˚adde högre täckning s˚a blev det sv˚arare att utveckla programmet. Vad vi vill säga är att det inte finns n˚agon begränsning p˚a hur mycket arbete som kan läggas p˚a dess funktionalitet. Men med tanke p˚a att denna undersökningsstudie är av mindre omfattning s˚a har vi inte nog med tid för att vidareutveckla det. Ponera att vi hade mer tid s˚a finns det ett par ändringar vi skulle försöka ge-nomföra. Dessa justeringar hänvisar vi allts˚a till vidare forskning av omr˚adet och utveckling av programmet för framtida bruk.

En del av programmet som för tillfället befinner sig i ett tidigt stadium är kontext-hanteraren. Eftersom vi för tillfället taggar m˚anga personer som hen inkorrekt finns det stor potential för förbättring i denna del av programmet. Oftast g˚ar det genom att läsa texter dra slutsatser om könen hos dessa per-soner. Detta kräver en genomg˚aende analys för hur vi tolkar detta och en programlogik som kan lösa det.

Nästa steg i utvecklingen är att se till yrkesroller och personliga egenskaper. En s˚adan implementation är troligen väldigt invecklad men ocks˚a vad som krävs om högra prestationsm˚att ska uppn˚as. En lösning skulle kunna vara att försöka hitta ytterligare information om de matchade personerna p˚a Internet för att kunna dra slutsatser om benämningen är korrekt eller inte.

(45)

Referenser

[1] Alexander Hogenboom, Frederik Hogenboom, Flavius Frasincar, Kim Schouten, and Otto van der Meer. Semantics-based information extrac-tion for detecting economic events. Multimedia Tools and Applicaextrac-tions, 64(1):27–52, 2013. ISSN 1573-7721. doi: 10.1007/s11042-012-1122-0. URL http://dx.doi.org/10.1007/s11042-012-1122-0.

[2] David PA Corney, Bernard F Buxton, William B Langdon, and David T Jones. Biorat: extracting biological information from full-length papers. Bioinformatics, 20(17):3206–3213, 2004.

[3] GuoDong Zhou and Jian Su. Named entity recognition using an hmm-based chunk tagger. In proceedings of the 40th Annual Meeting on As-sociation for Computational Linguistics, pages 473–480. AsAs-sociation for Computational Linguistics, 2002.

[4] Khaled Shaalan and Hafsa Raza. Person name entity recognition for arabic. In Proceedings of the 2007 Workshop on Computational Ap-proaches to Semitic Languages: Common Issues and Resources, pages 17–24. Association for Computational Linguistics, 2007.

[5] James Manyika, Michael Chui, Brad Brown, Jacques Bughin, Richard Dobbs, Charles Roxburgh, and Angela H Byers. Big data: The next frontier for innovation, competition, and productivity. 2011.

[6] Retriever ab. http://www.retriever-info.com/sv/, H¨amtad: 2016-04-12.

[7] Gavagai ab. https://www.gavagai.se/, H¨amtad: 2016-04-12.

[8] Bisnode ab. https://www.bisnode.com/sverige/, H¨amtad: 2016-04-12.

[9] Recorded future ab. https://www.recordedfuture.com/, H¨amtad: 2016-04-12.

(46)

[11] Douglas E Appelt. Introduction to information extraction. Ai Commu-nications, 12(3):161–172, 1999.

[12] Marie-Francine Moens. Information extraction: algorithms and prospects in a retrieval context, volume 21. Springer Science & Business Media, 2006.

[13] Genews. http://genews.io/se, H¨amtad: 2016-03-15.

[14] Robert G Dyson. Strategic development and swot analysis at the uni-versity of warwick. European journal of operational research, 152(3): 631–640, 2004.

[15] Michael E Porter. The five competitive forces that shape strategy. 2008. [16] Ulf Leser and J¨org Hakenberg. What makes a gene name? named entity recognition in the biomedical literature. Briefings in bioinformatics, 6 (4):357–369, 2005.

[17] George Hripcsak and Adam S Rothschild. Agreement, the f-measure, and reliability in information retrieval. Journal of the American Medical Informatics Association, 12(3):296–298, 2005.

[18] Erik F Tjong Kim Sang and Fien De Meulder. Introduction to the conll-2003 shared task: Language-independent named entity recognition. In Proceedings of the seventh conference on Natural language learning at HLT-NAACL 2003-Volume 4, pages 142–147. Association for Computa-tional Linguistics, 2003.

[19] Aftonbladet. http://www.aftonbladet.se/, Hämtad: 2016-04-12. [20] Expressen. http://www.expressen.se/, Hämtad: 2016-04-12. [21] Dagens nyheter. http://www.dn.se/, Hämtad: 2016-04-12. [22] Dagens industri. http://www.di.se/, Hämtad: 2016-04-12. [23] Göteborgs-posten. http://www.gp.se/, Hämtad: 2016-04-12. [24] Metro. http://www.metro.se/, Hämtad: 2016-04-12.

[25] Svenska dagbladet. http://www.svd.se/, H¨amtad: 2016-04-12.

[26] Statistiska centralbyr˚ans databas. http://www. statistikdatabasen.scb.se/pxweb/sv/ssd/?rxid=

(47)

[28] Tt ab. https://tt.se/, H¨amtad: 2016-04-12. [29] Ratos ab. http://ratos.se/, H¨amtad: 2016-04-12.

[30] Bonnier ab. http://www.bonnier.se/, H¨amtad: 2016-04-12.

[31] Oms¨attning och tillv¨axt it-branschen. https://www. itotelekomforetagen.se/fakta-och-debatt/statistik/

statistik-omsattning-och-tillvaxt, H¨amtad: 2016-04-12.

[32] Robert McChesney and John Nichols. The death and life of American journalism: The media revolution that will begin the world again. Nation Books, 2011.

(48)

Appendix

A

Resultat

A.1 Metodens resultat

A.1.1 Aftonbladet

Figur 14: Metodens resultat f¨or basfallet av Aftonbladet.

(49)

A.1.2 Dagens Industri

Figur 16: Metodens resultat f¨or basfallet av DI.

(50)

A.1.3 Dagens Nyheter

Figur 18: Metodens resultat f¨or basfallet av DN.

(51)

A.1.4 Expressen

Figur 20: Metodens resultat f¨or basfallet av Expressen.

(52)

A.1.5 G¨oteborgs-Posten

Figur 22: Metodens resultat f¨or basfallet av GP.

(53)

A.1.6 Metro

Figur 24: Metodens resultat f¨or basfallet av Metro.

(54)

A.1.7 Svenska Dagbladet

Figur 26: Metodens resultat f¨or basfallet av SvD.

(55)

A.2 Studiens resultat

A.2.1 Aftonbladet

Figur 28: Studiens resultat f¨or metodens basfall av Aftonbladet.

(56)

A.2.2 Dagens Industri

Figur 30: Studiens resultat f¨or metodens basfall av DI.

(57)

A.2.3 Dagens Nyheter

Figur 32: Studiens resultat f¨or metodens basfall av DN.

(58)

A.2.4 Expressen

Figur 34: Studiens resultat f¨or metodens basfall av Expressen.

(59)

A.2.5 G¨oteborgs-Posten

Figur 36: Studiens resultat f¨or metodens basfall av GP.

(60)

A.2.6 Metro

Figur 38: Studiens resultat f¨or metodens basfall av Metro.

(61)

A.2.7 Svenska Dagbladet

Figur 40: Studiens resultat f¨or metodens basfall av SvD.

(62)

B

Kod

B.1 Genustaggaren

i m p o r t j a v a . io . F i l e ; i m p o r t j a v a . io . F i l e N o t F o u n d E x c e p t i o n ; i m p o r t j a v a . t e x t . D e c i m a l F o r m a t ; i m p o r t j a v a . u t i l . A r r a y L i s t ; i m p o r t j a v a . u t i l . A r r a y s ; i m p o r t j a v a . u t i l . D i c t i o n a r y ; i m p o r t j a v a . u t i l . H a s h M a p ; i m p o r t j a v a . u t i l . H a s h t a b l e ; i m p o r t j a v a . u t i l . L i s t ; i m p o r t j a v a . u t i l . Map ; i m p o r t j a v a . u t i l . S c a n n e r ; p u b l i c c l a s s G e n u s t a g g a r e n { p u b l i c s t a t i c S t r i n g t e x t =" "; p u b l i c s t a t i c v o i d m a i n ( S t r i n g [] a r g s ) {

// A r r a y L i s t < String > k a l l o r = new A r r a y L i s t < String >( A r r a y s . a s L i s t (" A f t o n b l a d e t " , " DI " , " DN " , " E x p r e s s e n " , " GP " , " M e t r o " , " SVD ") ) ;

A r r a y L i s t < String > k a l l o r = new A r r a y L i s t < String >( A r r a y s . a s L i s t (" A f t o n b l a d e t ", " D I w e b ", " DN ", " E x p r e s s e n w e b ", " GP ", " G P w e b ", " M e t r o w e b ", " SVD " , " S V D w e b ") ) ; S t r i n g l i s t T y p e = " 50 "; for( S t r i n g k a l l a : k a l l o r ) { S y s t e m . out . p r i n t l n ( k a l l a +" \ n ") ; // for ( int i =1; i < 1 1 ; i ++) { // S y s t e m . out . p r i n t l n ( k a l l a + i + " : \ n ") ;

List < String > p u n k t O r d L i s t a = new A r r a y L i s t < String >() ;

List < String > v e r s a l O r d L i s t a = new A r r a y L i s t < String >() ;

Map < String , List < String > > k o n t e x t = new HashMap < String , List < String > >() ;

C o u n t e r c o u n t e r = new C o u n t e r () ; B a s f a l l b a s f a l l = new B a s f a l l () ;

(63)

S c a n n e r s c a n n e r = n u l l; S t r i n g g a m m a l t _ o r d = " "; try { // s c a n n e r = new S c a n n e r ( new F i l e ("/ h o m e / f / r / f r c a r l s / KEX / Gold - S t a n d a r d /"+ k a l l a + " / " + k a l l a + i +" x . txt ") ) ; // s c a n n e r = new S c a n n e r ( new F i l e (" C :/ U s e r s / F r e d r i k / D r o p b o x / E g n a m a p p e n / KTH / KEX / U b u n t o kex f o l d e r / KEX / Gold - S t a n d a r d /"+ k a l l a + " / " + k a l l a + i +" x . txt ") ) ; s c a n n e r = new S c a n n e r (new F i l e (" C :/ U s e r s / F r e d r i k / D r o p b o x / E g n a m a p p e n / KTH / KEX / U b u n t o kex f o l d e r / KEX / A r t i k l a r / 0 4 . 1 3 / "+ k a l l a +" . txt " ) ) ; } c a t c h ( F i l e N o t F o u n d E x c e p t i o n e ) { e . p r i n t S t a c k T r a c e () ; } s c a n n e r . u s e D e l i m i t e r (" = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = \ n \ n ") ;

List < String > v e r s a l K o m b o = new A r r a y L i s t < String >() ; w h i l e ( s c a n n e r . h a s N e x t () ) {

t e x t = f o r m a t ( s c a n n e r . n e x t () ) ;

List < String > t e x t L i s t a = new A r r a y L i s t < String >( A r r a y s . a s L i s t ( t e x t . r e p l a c e A l l (" (\\ r |\\ n ) ", "

") . s p l i t (" ") ) ) ;

for ( S t r i n g ord : t e x t L i s t a ) {

ord = ord . r e p l a c e A l l (" [ \ " | ( ) ] ", " ") ;

(64)

v e r s a l K o m b o . add ( ord . r e p l a c e A l l (" [ . ? ! : / , ; ] ", " ") ) ; } e l s e{ S t r i n g m u l t i p e l V e r s a l e r =" "; for (int j =0; j < v e r s a l K o m b o . s i z e () ; j ++) { if ( j == v e r s a l K o m b o . s i z e () -1) { m u l t i p e l V e r s a l e r += v e r s a l K o m b o . get ( j ) ; } e l s e{ m u l t i p e l V e r s a l e r += v e r s a l K o m b o . get ( j ) + " "; } } if (! m u l t i p e l V e r s a l e r . e q u a l s (" ") ) { v e r s a l O r d L i s t a . add ( m u l t i p e l V e r s a l e r ) ; v e r s a l K o m b o . c l e a r () ; } if ( i s V e r s a l O r d ( ord ) ) { v e r s a l K o m b o . add ( ord . r e p l a c e A l l (" [ . ? ! : / , ; ] ", " ") ) ; } } g a m m a l t _ o r d = ord ; } S t r i n g m u l t i p e l V e r s a l e r =" "; for (int j =0; j < v e r s a l K o m b o . s i z e () ; j ++) { if ( j == v e r s a l K o m b o . s i z e () -1) { m u l t i p e l V e r s a l e r += v e r s a l K o m b o . get ( j ) ; } e l s e{ m u l t i p e l V e r s a l e r += v e r s a l K o m b o . get ( j ) + " " ; } } if (! m u l t i p e l V e r s a l e r . e q u a l s (" ") ) { v e r s a l O r d L i s t a . add ( m u l t i p e l V e r s a l e r ) ; v e r s a l K o m b o . c l e a r () ; }

(65)

(66)

(67)

S y s t e m . out . p r i n t l n (" P r o c e n t n e u t r a l a k ¨o n s s p e c i f i k a p r o n o m e n : \ t " + df . f o r m a t ( 1 0 0 * c o u n t e r . g e t H e n () / sum ) +" % ") ; S y s t e m . out . p r i n t l n (" \ n ") ; } } // } p u b l i c s t a t i c b o o l e a n i s V e r s a l O r d ( S t r i n g g i v e n S t r i n g ) { if( g i v e n S t r i n g == n u l l | g i v e n S t r i n g . i s E m p t y () ) { r e t u r n f a l s e; } e l s e{ r e t u r n ( C h a r a c t e r . i s U p p e r C a s e ( g i v e n S t r i n g . c o d e P o i n t A t (0) ) ) ; } } p u b l i c s t a t i c b o o l e a n s t r i n g C o n t a i n s ( S t r i n g i n p u t S t r i n g , S t r i n g [] i t e m s ) { for(int i =0; i < i t e m s . l e n g t h ; i ++) { if( i n p u t S t r i n g . c o n t a i n s ( i t e m s [ i ]) ) { r e t u r n t r u e; } } r e t u r n f a l s e; } p u b l i c s t a t i c S t r i n g f o r m a t ( S t r i n g a r t i k e l ) { S t r i n g r e g e x = " P u b l i c e r a t i p r i n t . \ n \ n | P u b l i c e r a t p ˚a w e b b . \ n \ n "; S t r i n g t e x t = a r t i k e l . s p l i t (" - - - -\ n ") [ 1 ] ; t e x t = t e x t . s p l i t ( r e g e x ) [ 1 ] ; t e x t = t e x t . s p l i t ("cc") [ 0 ] ; r e t u r n t e x t ; } p u b l i c s t a t i c v o i d k o n t e x t ( O r d l i s t a o r d l i s t a , B a s f a l l b a s f a l l ) {

List < String > t e m p H e n = new A r r a y L i s t < String >() ; List < String > m e n i n g a r = new A r r a y L i s t < String >(

(68)

for( S t r i n g hen : o r d l i s t a . h e n M a t c h L i s t ) { for (int i =0; i < m e n i n g a r . s i z e () ; i ++) { S t r i n g m e n i n g = m e n i n g a r . get ( i ) ; if ( m e n i n g . c o n t a i n s ( hen ) ) { k o l l a _ p r o n o m ( mening , m e n i n g a r , i , hen , o r d l i s t a , basfall , tempHen , f o r s t a ) ; } } } for ( S t r i n g hen : t e m p H e n ) { o r d l i s t a . h e n M a t c h L i s t . r e m o v e ( hen ) ; } } p u b l i c s t a t i c v o i d k o l l a _ p r o n o m ( S t r i n g mening , List < String > m e n i n g a r , int i , S t r i n g hen , O r d l i s t a o r d l i s t a , B a s f a l l basfall , List < String > tempHen , b o o l e a n f o r s t a ) { int c o u n t e r =0; for ( S t r i n g p e r s o n : o r d l i s t a . p e r s o n L i s t ) { if ( m e n i n g . c o n t a i n s ( p e r s o n ) ) { c o u n t e r + = 1 ; } } if ( counter >0 && f o r s t a ==f a l s e | ( c o u n t e r >1) ) { r e t u r n; }e l s e{ f o r s t a =f a l s e;

(69)

(70)

B.2 Basfallet

i m p o r t j a v a . u t i l . H a s h M a p ; i m p o r t j a v a . u t i l . H a s h S e t ; i m p o r t j a v a . u t i l . L i s t ; i m p o r t j a v a . u t i l . A r r a y L i s t ; i m p o r t j a v a . u t i l . A r r a y s ; i m p o r t j a v a . u t i l . Map ; p u b l i c c l a s s B a s f a l l { p r i v a t e s t a t i c List < String > k v i n n o L i s t ; p r i v a t e s t a t i c List < String > m a n L i s t ; p r i v a t e s t a t i c A r r a y L i s t < String > h e n L i s t ; p u b l i c B a s f a l l () { k v i n n o L i s t = new A r r a y L i s t < String >( A r r a y s . a s L i s t (" hon ", " h e n n e ", " h e n n e s ") ) ;

m a n L i s t = new A r r a y L i s t < String >( A r r a y s . a s L i s t (" han ", " h o n o m ", " h a n s ") ) ;

h e n L i s t = new A r r a y L i s t < String >( A r r a y s . a s L i s t (" hen ", " h e n s ") ) ;

}

p u b l i c Map < String , Integer > b a s f a l l ( S t r i n g t e x t ) { Map < String , Integer > b e n a m n i n g a r = new HashMap <

String , Integer >() ; b e n a m n i n g a r . put (" k v i n n o r ", 0) ; b e n a m n i n g a r . put (" man ", 0) ; b e n a m n i n g a r . put (" hen ", 0) ; for ( S t r i n g ord : t e x t . r e p l a c e A l l (" (\\ r |\\ n ) ", " ") . s p l i t (" ") ) if( ord . e q u a l s (" ") ) { c o n t i n u e; }e l s e{ ord = ord . r e p l a c e A l l (" (\\ r |\\ n ) ", " ") ;

ord = ord . r e p l a c e A l l (" [\\ W & & [ ^ ˚a ä ö ˚A Ä Ö -]] ", " " ) . t o L o w e r C a s e () ;

if ( k v i n n o L i s t . c o n t a i n s ( ord ) )

b e n a m n i n g a r . put (" k v i n n o r ", b e n a m n i n g a r . get (" k v i n n o r ") +1) ;

e l s e if ( m a n L i s t . c o n t a i n s ( ord ) )

b e n a m n i n g a r . put (" man ", b e n a m n i n g a r . get (" man ") +1) ;

(71)

(72)

B.3 Ordlistan

i m p o r t j a v a . io . F i l e ; i m p o r t j a v a . io . F i l e N o t F o u n d E x c e p t i o n ; i m p o r t j a v a . u t i l . C o l l e c t i o n ; i m p o r t j a v a . u t i l . H a s h M a p ; i m p o r t j a v a . u t i l . H a s h t a b l e ; i m p o r t j a v a . u t i l . L i s t ; i m p o r t j a v a . u t i l . A r r a y L i s t ; i m p o r t j a v a . u t i l . A r r a y s ; i m p o r t j a v a . u t i l . Map ; i m p o r t j a v a . u t i l . S c a n n e r ; p u b l i c c l a s s O r d l i s t a { List < String > k v i n n o L i s t ; List < String > m a n L i s t ; List < String > h e n L i s t ; List < String > p e r s o n L i s t ; H a s h t a b l e < String , Integer > p e r s o n L i s t a ; List < String > k v i n n o M a t c h L i s t ; List < String > m a n M a t c h L i s t ; List < String > h e n M a t c h L i s t ; p u b l i c O r d l i s t a ( S t r i n g l i s t T y p e ) { k v i n n o L i s t = new A r r a y L i s t < String >() ; m a n L i s t = new A r r a y L i s t < String >() ; h e n L i s t = new A r r a y L i s t < String >() ; p e r s o n L i s t = new A r r a y L i s t < String >() ;

(73)

s c a n . c l o s e () ; s c a n = new S c a n n e r ( m a n f i l ) ; w h i l e ( s c a n . h a s N e x t L i n e () ) { m a n L i s t . add ( s c a n . n e x t L i n e () ) ; } s c a n . c l o s e () ; }c a t c h ( F i l e N o t F o u n d E x c e p t i o n e ) { e . p r i n t S t a c k T r a c e () ; } for ( S t r i n g man : m a n L i s t ) { for ( S t r i n g k v i n n a : k v i n n o L i s t ) { if ( man . e q u a l s ( k v i n n a ) ) { h e n L i s t . add ( man ) ; } } } for ( S t r i n g hen : h e n L i s t ) { m a n L i s t . r e m o v e ( hen ) ; k v i n n o L i s t . r e m o v e ( hen ) ; p e r s o n L i s t . add ( hen ) ; } for ( S t r i n g k v i n n a : k v i n n o L i s t ) { p e r s o n L i s t . add ( k v i n n a ) ; } for ( S t r i n g man : m a n L i s t ) { p e r s o n L i s t . add ( man ) ; } S y s t e m . out . p r i n t l n ( h e n L i s t ) ; } p u b l i c v o i d o r d l i s t a ( List < String > v e r s a l O r d L i s t a ) { for ( S t r i n g v e r s a l O r d : v e r s a l O r d L i s t a ) {

(74)