(1)

i

FÖRORD

Detta examensarbete markerar slutet på min civilingenjörsutbildning och 5 fantastiska år i Lund och Berkeley. Projekt, som inleddes med storslagna ambitioner, har möjligen inte fullt ut infriats, men har trots allt varit otroligt lärorikt. Ett Stort tack till min handledare på Kairos Future, Tomas Larsson; troligtvis en av de mest mångsidigt begåvade person jag någonsin kommer att få glädjen att arbeta med. Tack också till Peter Pernemalm, Björn Ljung och Mats Lindgren på Kairos Future, för idéer, inspiration, intressanta diskussioner, och för att ni gjorde Stockholmsvintern 2009-2010 lite mindre kall och mörk. Jag vill också rikta tacksamhet till min handledare på LTH, Bertil Nilsson, för hjälp med idéer och struktur av rapporten, och slutligen ett varmt tack till min pappa, Ingvar Ek, som under hela min utbildning varit ett fantastiskt stöd och ständigt ställt upp med allt från språklig hjälp, till vägledning i frågor av mer avgörande karaktär; så också under detta projekt.

(2)

ii

SAMMANFATTNING

Titel: Lingvistisk-statistiska metoder för omvärldsanalys Författare: Andreas Ek

Handledare: Bertil Nilsson, Avdelningen för Produktionsekonomi, Lunds Tekniska Högskola, Lunds Universitet.

Tomas Larsson, Kairos Future International AB (KFI)

Bakgrund: Tillgängligheten på text i elektronisk form har exploderat, framförallt med utvecklingen av internet. Även beräkningskpaciteten hos datorer de senaste 20 åren har haft en otrolig utveckling. Detta tillsammans har gjort det möjligt att analysera textmassor på ett mycket enklare sätt. Kairos Future har i ett joint venture tillsammans med

IT-konsultföretaget A3J under det senaste året utvecklat SoMe-analyzer, ett analysverktig för att bevaka vad som skrivs i den svenska

bloggosfären, just med metoder från textuell data mining/lingvistisk-statistisk analys. Detta ville man utveckla ytterligare.

Mål: Examensarbetets mål är att utveckla, testa, bedöma och implementera metoder för att samla in stora textmassor, extrahera värdefull

information ur dessa, bl.a. bloggosfären, på ett automatiserat sätt, och åskådliggöra denna information på ett sådant sätt att det kan bidra till att upptäcka nya trender och/eller tendenser.

Metod: Ett flertal olika vetenskapliga metoder har använts. Programkod har skrivits för att automatiserat samla in analysmaterial; litteraturstudier har gjorts för att skaffa kunskap inom relevanta delar, framförallt inom matematisk statistik; diverse statistiska metoder har använts för att få fram information ur analysmaterialet, t.ex. hierarkisk klustring, linjär regression, sannolikhetsbaserad ranking, etc. En hög grad av

experimenterande och testande har präglat projektet och försöken att hitta rätt metoder för att få fram så intressant och relevant information som möjligt.

Induktiva och deduktiva ansatser blandas, kvantitativ och kvalitativ data utnyttjas bådadera.

Slutsatser: Den automatiska datainsamlingen verkar fungera väl.

Sannolikhetsbaserad ranking av ord tillsammans med klustring fungerar bra för att beskriva de viktigaste dragen hos en textmassa jämfört med någon jämförelsetext.

Regressionsmetoderna för trenddetektering fungerar men säger inte så skarpa saker. De behöver troligtvis appliceras på ett något mer avskiljt material för att säga mer intressanta saker. Avskiljning kan göras t.ex. genom att bara välja ut sammanhang som innehåller vissa ledord för det tema man är intresserad av, eller bara studera källor som handlar

(3)

iii

om en viss kategori som sport, ekonomi eller teknik. Den enda trend som fångas upp när trenddetekteringsmetoderna används på hela svenska bloggosfären är den ökade engelskanvändningen i detta medium. I stort sett alla andra ord slås ut av de vanligaste engelska orden.

Väldigt mycket mer finns att göra om man kombinerar metoderna med t.ex. olika artificiell intelligens-metoder, eller nätverksanalys.

Nyckelord: Automatisering, Trend, Trenddetektering, Bloggosfär,

Beräkningslingvistik, lingvistisk-statistisk, Textuell Data Mining, Eventdetektering.

(4)

iv

ABSTRACT

Title: Textual Data Mining for Business Intelligence Author: Andreas Ek

Supervisor: Bertil Nilsson, Department of Production Management, Faculty of Engineering, Lund University.

Tomas Larsson, Kairos Future International AB.

Background: The electronic availability of text masses has exploded, not in the least due to Internet. Computational capacity also, has had an extraordinary development. These things together have made it possible to analyze data in a much simpler way. During the last year, Kairos Future, in a joint venture with IT-consulting company A3J, has developed SoMe-analyzer, a tool to monitor and analyze the Swedish blogosphere using methods from textual data mining. This development was something the company wished to continue.

Goal: The goal of this project is to develop, try out, evaluate and implement methods for collecting large amounts of textual data such as parts of the blogosphere, extract valuable information from this data in an automated way, and visualize this in a way that can contribute to the detection of new trends.

Method: A number of different scientific methods have been used. Programming code has been written to collect data in an automated way; literature studies have been done to acquire knowledge within relevant fields, mathematical statistics in particular; various statistical methods have been used to extract useful information from the data, e.g. hierarchical clustering, linear regression, probability based ranking, etc. A high degree of experimentation and testing has characterized the project and the attempts to find the best methods possible for finding interesting and relevant information.

Inductive and deductive methods, as well as qualitative and quantitative data, are all used.

Conclusions: The automated data collection seems to work well.

Probability based ranking of words together with hierarchical clustering function well to describe the most important features of a text mass.

The regression methods for trend detection are functioning, but does not provide much relevant and usefull information from the material that is being analyzed. They most likely need to be utilized on a more homogenous material to carry any sharper insights. Separation of text could be done for example by choosing only the contexts in which

(5)

v

certain key words appear, or by only studying sources from a particular category such as sports, economics, or technology. One sole trend is caught by the methods when applied to the whole swedish blogosphere: the increase in usage of the english language. Virtually all other words fall behind the most common english words.

There is significantly more to be said and done within this field; especially if one combines the methods with e.g. artificial intelligence methods or network analysis.

Keywords: Automated, Trend, Trend-detection, Blogosphere, Computational linguistics, Textual Data Mining, Event-detection.