• No results found

Maskininlärning som instrument för att analysera Twitter

N/A
N/A
Protected

Academic year: 2021

Share "Maskininlärning som instrument för att analysera Twitter"

Copied!
58
0
0

Loading.... (view fulltext now)

Full text

(1)

EXAMENSARBETE INOM TEKNIK, GRUNDNIVÅ, 15 HP

STOCKHOLM, SVERIGE 2017

Maskininlärning som instrument för att

analysera Twitter

En studie kring datahantering på Twitter för tillämpning på riktad marknadsföring

LEO RÖNNBÄCK

LOUISE STENBERG

DAN STRANDBERG

(2)
(3)

Abstract

Marketing in social media becomes increasingly more common in today’s society thanks to the rapidly expanding digitalization, while the interest and integration of machine learning in everyday products and services has increased. The purpose of this paper is to investigate the possibility of de- termining the interests of Twitter users from their everyday tweets with the help of machine learning and thus target relevant advertising.

To achieve this goal a Bag of Words approach, a supervised machine learning method, was used to collect data from Twitter users using the Python based library Tweepy. The collected data, consisting of the user’s most common words was compared to predetermined interest-classified glossaries. All of the selected Twitter users were also given a survey where they would rate their interest areas, which would later be used train the program.

The program’s and the surveys’ results were compared to determine the deviation whereas the program was further enhanced with the training data to achieve an improved precision. The program was enhanced to a sense, with the cosine similarity angles small enough, that it could be considered effective. An analysis of targeted marketing was made to investigate the pos- sibilities of applying machine learning on collected data.

This study shows that it is possible, with a cosine similarity less than 45o, to determine the interests of a user using data retrieved from Twitter and suggest how the applied method can be further improved.

(4)

Referat

Marknadsföring i sociala medier blir i dagens samhälle mer vanligt i sam- band med den kraftigt växande digitaliseringen, samtidigt som intresset och integrering av maskininlärning i vardagliga produkter och tjänster har ökat.

Syftet med detta arbete är att undersöka möjligheten att med hjälp av ma- skininlärning och data från olika twitteranvändare kunna bestämma dessa användares intressen och därmed kunna rikta relevant reklam.

För att uppnå detta syfte tillämpades en Bag of Words-approach, en så kallad övervakad maskininlärningsmetod, där data samlades in från twitteranvän- dare med hjälp av pythonbaserade biblioteket Tweepy. Den insamlade datan, bestående av användarnas mest använda ord, jämfördes med förbestämda in- tresseklassificerade ordlistor för att få ut en procentuell överensstämmelse.

Samtliga valda twitteranvändare fick även besvara en enkät där de själva fick gradera sina intresseområden vilket senare jämfördes med programmets svar.

Programmets och enkätsvarens resultat jämfördes för att kunna bestämma avvikelsen och programmet bearbetades vidare med hjälp av träningsdatan för att uppnå en förbättrad precision. Programmet tränades upp till en gräns där den ansågs vara effektiv då cosinusvinklarna var tillräckligt små. Det ut- fördes en analys av riktad marknadsföring för att utforska möjligheterna att tillämpa maskininlärning på insamlad data.

Denna studie visar att det är möjligt, med en cosinuslikhet mindre än 45o, att med hjälp av inhämtad data från Twitter bestämma en användares intressen och ger förslag på hur den tillämpade metoden kan förbättras vidare.

(5)

Förord

Kandidatuppsatsen är skriven på Kungliga Tekniska Högskolan (KTH) på skolan för Datavetenskap och Kommunikation (CSC) samt skolan för Indust- riell Teknik och Management (ITM).

Vi vill rikta ett tack till våra handledare Olov Engwall och Bo Karlsson för vägledning under arbetets gång.

(6)

Innehållsförteckning

1 Introduktion 1

1.1 Bakgrund . . . 1

1.2 Syfte . . . 1

1.3 Avgränsning . . . 2

1.4 Vetenskaplig frågeställning . . . 2

1.5 Förväntat vetenskapligt resultat . . . 2

1.6 Samhälls- och etiska aspekter . . . 2

2 Teori 4 2.1 Introduktion till maskininlärning . . . 4

2.2 Tillämpning av maskininlärning . . . 4

2.3 Bag of Words . . . 5

2.4 Document-Term Matrix . . . 5

2.5 Vector Space Model . . . 5

2.6 Cosinuslikhet . . . 5

2.7 Träning- och testdata . . . 6

2.8 Twitter . . . 6

2.9 Tweepy . . . 8

3 Teori kopplat till Industriell Ekonomi 9 3.1 Riktad marknadsföring . . . 9

3.2 SWOT-analys . . . 9

3.3 Porters femkraftsmodell . . . 10

4 Tidigare Studier 13 4.1 Studier kopplat till datahantering på Twitter . . . 13

4.2 Studier kopplat till riktad reklam . . . 13

5 Metod 15 5.1 Datainsamling . . . 15

5.2 Förbestämda intressen . . . 15

5.3 Enkätundersökning . . . 15

5.4 Förbehandling . . . 16

5.5 Implementation . . . 16

(7)

5.6 Metod för Industriell Ekonomi . . . 18

6 Resultat 19 6.1 Resultat från enkätundersökning . . . 19

6.2 Resultat från programmet . . . 20

6.3 Sammanvägt resultat mellan enkätundersökning och program 21 6.4 SWOT-resultat . . . 24

6.5 Porters fem krafter . . . 26

7 Diskussion 30 7.1 Enkätundersökningen . . . 30

7.2 Programmet . . . 30

7.3 Sammanvägning av resultat . . . 32

7.4 SWOT-analys och Porters . . . 33

8 Slutsats 34 Källor 35 A Frågebatteri till enkät i B Pythonkod iii B.1 getsubject.py . . . iii

B.2 getuse.py . . . iv

B.3 twittertermfrequency.py . . . v

B.4 createsub.py . . . vi

B.5 comparetxt.py . . . vii

C Intressen xii

(8)

Kapitel 1

Introduktion

1.1 Bakgrund

Den här kandidatuppsatsen handlar om maskininlärning och hur det kan tillämpas för att analysera det sociala mediet Twitter. Maskininlärning har under de senaste åren kommit att bli ett stort forskningsområde och det blir vanligare att maskininlärning appliceras i vardagliga produkter och tjänster.

Exempel på integrerad maskininlärning är Apples Siri, hitta nya vänner- tjänster och riktad reklam.

Maskininlärning är en form av artificiell intelligens där datorn ges förmå- ga att lära sig saker, utan att explicit bli programmerad. Maskininlärning ses som ett av de stora framtida forskningsområdena och företag som Google lägger stora investeringar i maskininlärning (Pichai, 2016). En tillämpning av maskininlärning är att skapa användarprofiler av personer som är aktiva i sociala medier. Det ger företag och andra aktörer möjlighet att rikta reklam, förstå sina kunder eller få förståelse för väljarbeteenden.

Mikrobloggen Twitter klassas som ett av de stora sociala medierna idag.

Det är en viktig aktör för hur informationsspridning sker i dagens samhälle och hur vi pratar med varandra om viktiga frågor (Thomson, 2016). Twitter anses ha haft en stor roll när det kommer till att få tillgång till information kring naturkatastrofer, uppror och politiska val (Weller m. fl., 2014).

1.2 Syfte

Syftet med arbetet är att se om det finns möjlighet att utifrån en mängd in- dividers inlägg på Twitter, analysera vilka intressen som finns hos individen och därefter möjligheten att rikta rätt typ av reklam mot rätt person.

I samband med en hastig teknisk utveckling och att allt fler människor blir

(9)

uppkopplade har möjligheterna för olika aktörer att ta del av information om alla individers intressen ökat. Denna rapport syftar därför även till att utforska externa aktörers möjlighet att dra nytta av en sådan analys.

1.3 Avgränsning

Följande avgränsningar har gjorts i syfte att få en hanterbar metod:

– Endast twitterinlägg skrivna på svenska analyseras, då översättningsal- goritmer inte är tillräckligt förfinade för att kunna få fram ett resultat med hög precision.

– Klassificeringen som används har förbestämts och alla tänkbara intres- seområden ingår således inte i analysen.

– Gällande inhämtade tweets, finns det två avgränsningar

– Antal tweets: Av serverkapacitetsskäl har antalet tweets per an- vändare begränsats till 2000.

– Geografiskt: Eftersom Tweepy samlar in alla användare inom en radie från en angiven koordinat har en geografisk avgränsning gjorts kring Stockholmsområdet för att undvika användare från andra länder.

1.4 Vetenskaplig frågeställning

– I vilken utsräckning är det möjligt att klassificera personers intressen med hjälp av maskininlärning genom att använda data från Twitter?

– Hur kan en extern aktör applicera denna intresseanalys av individer inom marknadsföring?

1.5 Förväntat vetenskapligt resultat

Vår hypotes är att personers intressen kan förutspås med en signifikansgrad av cosinusmåttet mellan programresultat och enkätresultat, vilket överstiger cos(θ) = 0, 7, eller understiga motsvarande vinkel uttryckt i grader, 45o.

1.6 Samhälls- och etiska aspekter

Det finns intressanta etiska aspekter när det kommer till att analysera män- niskors beteende på sociala medier. Den mest uppenbara är integritetsa- spekten som uppstår när en persons personlighet analyseras. Vissa upplever

(10)

analyserande bakgrundsdata som obehaglig och integritetskränkande (Sch- wab, 2015). Andra upplever att det är skönt att det finns bakgrundsdata som enbart plockar fram det som är relevant för varje individ.

Fundamentet i riktad marknadsföring och djupare kundförståelse är att kun- na kartlägga individers digitala fotspår. Utöver användning som skyddar be- folkningen från exempelvis att skada sig i tunnelbanesystem vid hög berus- ningsgrad, finns möjlighet att använda samma teknik för att till exempel stater kan övervaka och plocka metadata på sina invånare, genom att följa människor i hemmen med hjälp av deras kameror i datorer och liknande.

Teknologin för att göra detta föregår i dagsläget politiska regleringar, vilket bland annat uppdagades av Edward Snowden som släppte dokument från National Security Agency (NSA) (Omand, 2015). På grund av den tekniska utvecklingen kan stater idag se alla spår som världens alla människor läm- nar efter sig på sina tekniska enheter. Anledningen till att detta är värt att nämna, är att ge en förståelse kring hur stora möjligheter det finns när bak- grundsdata används. Huruvida detta är rätt eller fel är en pågående debatt.

(11)

Kapitel 2

Teori

2.1 Introduktion till maskininlärning

Begreppet maskininlärning har under de senaste åren kommit att bli ett mo- deord i takt med digitaliseringens framsteg. Det går alltså att tro att maski- ninlärning är en ny företeelse. Egentligen definierades maskininlärning redan år 1959 av Samuels som beskrev det som vetenskapen att träna datorer till att agera utan att vara uttryckligt programmerad till en specifik händelse. Den definitionen har stått sig över decennierna och Nationalencyklopedin (2017) beskriver begreppet som “Maskininlärning, inom datavetenskapen studiet av algoritmer för datorinlärning baserat på stora mängder data i syfte att göra förutsägelser och prognoser.”

Med hjälp av en mängd data kan datorer tränas till att försöka känna igen mönster och agera därefter. Maskininlärningsalgoritmer karakteriseras ofta som antingen övervakade eller oövervakade. Oövervakad inlärning handlar till stor del till att klustra olika objekt. Detta görs utan att algoritmerna får något förväntat resultat om hur resultatet borde te sig. Övervakad inlärning baseras på att träningsdata består av såväl inputdata och förväntat resultat.

Övervakad inlärning kan användas till klustring av data eller regressionsana- lys. För att klustring ska fungera behövs ett antal olika attribut och förbe- stämda klasser till vilka olika objekt tillhör. Det som eftersöks när övervakad inlärning används, är att använda ny indata som algoritmerna inte behandlat tidigare, och försöka klassificera dess objekt till rätt klass (Donalek, 2011).

2.2 Tillämpning av maskininlärning

Tillämpningen av maskininlärning inom sociala medier används ofta för att skapa rekommendationssystem. Ett rekommendationssystem försöker att, ut- ifrån inlärd data, förutse ett intresse eller preferens till ett objekt. Detta görs genom att tilldela attribut till objekt och individer. Ett objekt kan bland an-

(12)

nat vara en nyhetssida, film, bok, klädmärke eller en annan användare. In- ternetanvändare bemöter därför dagligen rekommendationssystem utan att nödvändigtvis tänka på det. Facebook använder det för att föreslå vänner, Linkedin använder det för att hitta relevanta användare att skapa kontakt med, och Twitter använder det för att föreslå nya konton att följa etc. Notera att begreppet rekommendationssystem används i en bredare bemärkelse än att enbart ge användaren rekommendationer.

2.3 Bag of Words

Ett tillvägagångsätt för att hantera en stor mängd textdata inom maskinin- lärning är att tillämpa en Bag of Word approach. Det innebär att det är varje enskilt ord som tas i beaktande. Bag of Words tar inte hänsyn till ords semantiska betydelse i en mening och i vilken ordning ord förekommer. Det centrala inom Bag of Words är således frekvensen av ord inom en datamängd.

2.4 Document-Term Matrix

Document-Term Matrix (DTM) är en matematisk matris som beskriver fre- kvensen av termer i en samling av dokument. I matrisen motsvarar raderna dokument i samlingen och kolumnerna motsvarar termer (Bin Raie m. fl., 2013). Det finns många olika sätt sätt för att avgöra vilka värden matrisens kompontenter ska anta, dessa baseras på hur frekvensviktningen för varje term görs.

2.5 Vector Space Model

Vector Space Model (VSM) används i de flesta rekommendationssystem för att avgöra relation mellan objekt och användare (Abilhoa m. fl., 2014). Efter att ha beräknat frekvensen för varje term behövs ett sätt att ta reda på vilka objekt som ligger nära varandra och hur de förhåller sig till användaren. Varje textdokument för användaren och objektet bildar en vektor som innehåller termfrekvensen som komponenter. Därefter kan skillnaden mellan vektorerna mätas för att avgöra likheten mellan objektet och användaren.

2.6 Cosinuslikhet

Ett sätt att tillämpa VSM på är genom att beräkna cosinuslikheten, vilket är ett mått på skillnaden mellan två vektorer som mäts genom att ta cosinus

(13)

av vinkeln mellan vektorerna. Likheten baseras på vektorernas orientering och inte storhet.

Cosinuslikhet = cos(θ) = A · B

||A||||B||

Måttet tas fram genom att ta skalärprodukten mellan en vektor A och en vektor B. Resultatet normeras genom division med längden av vektor A och vektor B. Den semantiska betydelsen av cos(θ) är följande:

cos(θ) = 0

Vektorerna är vikelräta och det finns ingen likhet mellan dem.

cos(θ) = 1

Vektorerna är parallella och de är således lika varandra.

För att få ut vinkeln, tas arccos(θ). Mätt i grader, är arccos(1) = 0o och arccos(θ) = 90o. Lika vektorer har alltså en liten vinkel mätt i grader. En semantisk betydelse inom maskininlärning av textdata är att två texter liknar varandra.

2.7 Träning- och testdata

Inom maskininlärning används träningsdata och testdata för att kunna opti- mera inlärningen (Mitchell m. fl., 1997). Träningsdata är den del som används för att ge algoritmen indata att anpassa inlärningen efter. Testdatan används sedan för att mäta hur bra algoritmen har kunnat tillämpa inlärningen. Det är vanligt att använda omkring 70-80 procent av all data för träning och 20-30 procent för test. Det görs för att minimera risken för overfitting. Det innebär att algoritmen har lärt sig datan endast för ett specifikt fall, snarare än att kunna förutse resultat för ny data som inkommer till programmet.

2.8 Twitter

Företaget Twitter levererar en tjänst som kallas för en mikroblogg. Nedan listas viktiga begrepp för användning av Twitter.

Tweet

Inlägg på Twitter. Får maximalt innehålla 140 tecken och kan innehålla bil- der, länkar, videos och liknande.

Hashtagg, #

Hashtaggar används för att det ska bli enkelt att hitta tweets som handlar

(14)

om ett visst ämne. Det är alltså ett sätt att samla information kring ett visst företag, evenemang, händelse, politisk fråga eller liknande. Vanliga hashtag- gar i Sverige är #svpol (=svensk politik) och #melfest (=melodifestivalen).

Retweet, RT

Om en användare vill dela vidare en annan användares tweet, kallas detta för en retweet. Retweeten görs då synlig för följare till den som retweetat.

Gilla/Like, <3

En användare kan ge en reaktion på en tweet, utan att dela vidare som en retweet. Då kan användaren gilla, eller likea en tweet.

Svara/Reply

En användare kan reagera på en annan tweet genom att svara på tweeten.

Alla inlägg som är svar till en tweet läggs i en tråd som går att följa i kro- nologisk ordning.

Twitterkonto, @

Alla användare behöver ett twitterkonto. Ett konto kan antingen vara knutet till en privatperson, företag eller organisation. En person kan således twittra från flera konton. För att märka att det är ett konto, inleds namnet med ett snabel-a. Exempelvis Twitters mest följda konto @katyperry (Twittercoun- ter, 2017).

Följa/Follow

Förhållandet mellan kontoinnehavare på Twitter sker genom att följa varand- ra. De konton som en användare följer, hamnar i användarens twitterflöde.

Följarförhållandet behöver inte vara ömsesidigt, vilket innebär att användare A kan följa användare B även om användare B inte följer användare A.

Twitterflöde

De konton som en användare följer hamnar i twitterflödet, vilket är där tweets, retweets, svar och gillade tweets hamnar. När Twitter grundades hamnade samtliga tweets i kronologisk ordning, men nu styr Twitters algo- ritmer vad som hamnar högst upp (Twittersupport, 2017)

Enligt Twitters hemsida hade tjänsten 313 miljoner månadsvis aktiva an- vändare världen över i juni 2016 (Twitter, 2017). I Sverige använder 18 pro- cent av internetanvändare Twitter (Davidsson, 2016). Omkring 35 procent av svenska ungdomar 16 - 25 år uppger att de använder Twitter någon gång.

På Göteborgs Universitet har det tagits fram vad som har trendat i Sve- rige under det senaste året (Dahlgren, 2017). Enligt den analysen har de

(15)

vanligaste trenderna mellan 29/02 2016 - 03/04 2017 varit #ffse, #aktuellt,

#lyrikfredag, #sthlmpol, #united, #liverpool, #chelsea, #zlatan, #hovet samt #goninjas. Detta vittnar om att politik, samhällsfrågor och sport är vanligt att twittra om i Sverige.

I dagsläget arbetar Twitter med att samla in data från respondenter för att använda till riktad marknadsföring. Bild 1 visar hur Twitter uppdatera- de sin integritetspolicy i maj 2017 för att förbättra anpassade annonser.

Bild 1. Twitters uppdaterade integritetspolicy.

2.9 Tweepy

För att kunna kommunicera med Twitters API behövs en klient som kan göra anrop till twitterservern. Tweepy är en pythonbaserad open-source klient som kopplar till Twitter via OAuth som är ett öppet protokoll för tokenbaserad autentisering och auktorisering (Tweepy, 2017). För att kunna koppla upp sig behövs en access token och en access secret, vilket är två långa sifferlängder som är unika för varje twitterkonto. Varje gång någon försöker koppla upp sig till Twitter via Tweepy kommer dessa två siffror kontrolleras.

(16)

Kapitel 3

Teori kopplat till Industriell Ekonomi

3.1 Riktad marknadsföring

Riktad marknadsföring är en metod inom marknadsföring som går ut på att identifiera kunder och främja produkter och tjänster via medier som sanno- likt kommer att nå dessa potentiella kunder (Walker m. fl., 2017).

Annonsörerna klassificerar potentiella kunder genom att samla in data, ex- empelvis demografisk information, ålder, geografisk position och sökhistorik (Ward, 2016). Genom en datainsamling kan annonsörerna upptäcka konsu- menternas intressen och eventuella behov och sedan bygga en marknadsfö- ringsstrategi riktad mot de specifika målgrupperna konsumenterna tillhör.

Metoden är i allmänhet begränsad, men är ofta mer produktiv än bredare typer av marknadsföring eftersom den är utformad kring specifika kund- preferenser. I och med att reklamen blir mer relevant och presenteras via medium som konsumenterna ofta besöker ökar sannolikheten att reklamen uppmärksammas av konsumenterna.

3.2 SWOT-analys

SWOT-analys är ett verktyg för nulägesanalys som används för att analyse- ra styrkor (Strengths), svagheter (Weaknesses), möjligheter (Opportunities) och hot (Threats). De fyra faktorerna i SWOT-analysen delas upp och analy- seras ur ett internt och externt perspektiv. Styrkor och svagheter anses vara internt påverkningsbara medan hot och möjligheter är beroende av externa faktorer. En SWOT kan användas för att analysera ett företag, projekt, in- dustri eller marknad (Phadermrod m. fl., 2016).

(17)

Figur 1. Matris för SWOT-analys

3.3 Porters femkraftsmodell

För att kunna se hur en aktör kan nyttja analysen som redogörs för i denna rapport, går det att använda en modell som kallas Porters femkraftsmodell, även kallad Porteranalys.

Modellen grundar sig i att titta på hur krafter på marknaden påverkar en bransch eller ett företag. Genom att förstå krafterna som finns på markna- den, fås det strategiska övertag som är väsentligt för att fortsätta utveckla sitt företag (Porter, 1979). Det Porter menar är att företag ofta enbart tit- tar på konkurrensen hos befintliga aktörer när en strategi arbetas fram. Då förloras andra viktiga perspektiv för en aktörs strategianalys. Krafterna kan bedömas vara höga eller låga på en marknad. Beroende på dess nivåer, borde en aktör ta mer eller mindre hänsyn till dess betydelse i strategiarbetet.

(18)

De fem krafter som Porter pratar om är:

Konkurrens hos befintliga aktörer

Konkurrensen på den nuvarande marknaden beror bland annat på antalet konkurrerande aktörer på marknaden, kvalitetsskillnader, kunders lojalitet, kostnader för in- och utträde för marknaden. En hög nivå av konkurrens utgör ett hot mot aktören som analyseras.

Leverantörers förhandlingsstyrka

Huruvida leverantörerna är konkurrenskraftiga eller inte, beror på hur många leverantörer som tillhandahåller en viss tjänst eller råvara och hur god kva- litet de olika leverantörerna har. Om det finns få leverantörer är deras för- handlingsstyrka hög, vilket kan driva upp priser och leveranstid.

Kunders förhandlingsstyrka

Kundernas styrka är beroende av hur priskänsliga de är, hur upplysta kun- derna är, hur många konsumenter som finns och hur många företag de har att välja mellan.

Hot från substituerande varor eller tjänster

Substituerande varor eller tjänster är den mest abstrakta kraften. För att göra en fullständig analys räcker det inte bara med att se substituerande varor som exempelvis att någon köper sneakers istället för klackskor. Ana- lysen bör även innefatta innovationer som är på väg in på marknaden och vad konsumenter hellre lägger sin tid på. Exempelvis kan streamingtjänster konkurreras av att människor hellre lägger sin tid på en långpromenad än att titta på en ny film.

Hot från nya aktörer

Hot från nya aktörer handlar om hur höga inträdesbarriärer som finns på en marknad. Det kan dels bero på om det finns höga fasta kostnader i form av dyr utrustning eller infrastruktur, om det finns regleringar för krav på nya aktörer eller om det råder monopol. Det kan även handla om huruvida en aktör är Blue ocean eller Red ocean vilket innebär om ett företags tjänst eller vara är först på marknaden eller inte.

(19)

Figur 2. Modell för Porters fem krafter.

(20)

Kapitel 4

Tidigare Studier

För att kunna utföra arbetet har tidigare artiklar och studier om datahante- ring och industriell ekonomi studerats. Nedan presenteras de tidigare studier som ligger till grund för arbetet.

4.1 Studier kopplat till datahantering på Twitter

En stor resurs för uppbyggnaden av programmet som utfört datahantering på Twitter var Marco Bonzanini bok Mastering Social Media Mining with Python. Bonzanini beskriver i sin bok hur Python kan användas som verktyg när data analyseras på sociala medier (Bonzanini, M. 2016). Vidare behand- lar boken Twitters funktioner och hur dessa är uppbyggda, med hashtags och dylikt, samt hur dessa kan nyttjas när data samlas in. Utöver boken har Bonzanini även delat med sig av kod på GitHub för att möjliggöra tillämp- ningar av bokens innehåll vilket delar av arbetets programkod baserats och byggts vidare på.

Ytterligare en artikel som bidragit till programmets uppbyggnad är Mining Data from Twitter. Artikeln behandlar hur datainsamling går till, vad som är aktuell, vilka skript som kan behövas samt hur man använder sig av Twitters egna API (Upadhyay, A., et al. 2014). Den belyser även hur värdefull en ana- lys av data på Twitter är i och med Twitters kundbas och vilka möjligheter det ger vid till exempel tillämpning inom marknadsföring.

4.2 Studier kopplat till riktad reklam

Då datainsamling används till att rikta marknadsföringen mot konsumenter har fokus även lagts på att få en förståelse om vilken betydelse samt ef- fekt datainsamling har på konsumenterna såväl som annonsörerna. Det finns skilda åsikter och synpunkter på marknadsföring som baseras på personlig information, huruvida det är etiskt korrekt eller effektivare än traditionell

(21)

marknadsföring. Riktad marknadsföring gör konsumenterna inte bara mer benägna att köpa produkterna utan den kan även påverka deras levnadssätt, menar Walker i sin artikel Targeted Ads Don’t Just Make You More Likely to Buy - They Can Change How Think About Yourself.

Det Gardete däremot menar, i rapporten Tailored Cheap Talk är att datain- samling och riktad marknadsföring inte gynnar företagen så väl som man tror (Gardete, P. 2017). Enligt Gardete är det snarare motverkande om an- nonsören vet för mycket om konsumenten och menar att ju mindre företagen vet desto mer attraktiv blir de då konsumenter uppskattar att personlig in- tegritet värdesätts.

(22)

Kapitel 5

Metod

5.1 Datainsamling

Twitters pythonbaserade API-verktyg Tweepy används för datainsamling. Då dokumentationen för Tweepy är knapphändig, har information kring Tweepy tagits från Bonzanini (2017) och Upadhyay

5.2 Förbestämda intressen

Intressegrupper har förbestämts för att möjliggöra gruppering av twitterin- läggen. Dessa intressen har valts efter en mänsklig bedömning av passande intressen. Dessa grupperingar ska vara breda och populära. En lista med vanligt förekommande intressen togs fram, exempelvis ekonomi, politik och teknik. Då det var svårt att fånga in alla nyckelord på att enbart koppla dem till de generella intressegrupperna, valdes det att tillföra undergrupper till vardera intressegrupp. Exempel på undergrupper till ekonomi är finans och nationalekonomi.

5.3 Enkätundersökning

Det genomfördes en enkät som riktades mot twitteranvändare. Det fanns två syften med enkäten. Det första var att få en klarare bild av vilka förbestämda intressen som är relevanta. Det andra var att mäta twitteranvändares upp- levda grad av intresse för de en rad olika intressegrupper.

Frågebatteriet består av tre frågor, varav den andra frågan är uppdelad i de olika intresseområden som skulle undersökas. Hela frågebatteriet hittas i bilaga A. I den inledande texten till enkäten, förklaras det att respondenter- nas konton kommer att förbli anonyma, vilket lades in för att upprätthålla en hög nivå av de etiska aspekterna. De generella intressen som det frågades om är:

(23)

politik, mat och dryck, ekonomi, idrott och sport, hälsa, historia, religion, kultur, musik, vetenskap, livsstil samt teknik.

För att underlätta för respondenterna att förstå vad som åsyftades med var- je generellt intressen, lades det till underrubriker som definierade intressena.

För att exemplifiera är underrubrikerna till livsstil :

resor, mode, inredning, kändisar, husdjur, familjeliv, sociala medier, håll- barhet och natur.

Enkäten skickades ut till personer som rapportförfattarna vet är engagerade på Twitter. Inbjudan till enkäten skickades via rapportförfattarnas konton på Facebook och Twitter, till dess följare och kontakter. Inga incentives utgick då det bedömdes inte vara nödvändigt till följd av en så pass kort enkät.

5.4 Förbehandling

Som förbehandling har en stopplista konstruerats och använts för att filtrera bort ord som inte bidrar till betydelsen av en tweet. De flesta stoppord togs från den inbyggda ordlistan som finns tillgänglig i NLTK biblioteket (NLTK, 2016). Ytterligare stoppord lades till som inte är vanligt förekommande i det svenska språket men är vanliga på Twitter, som emojis och tecken. Twitte- rinlägg och meningar som är kortare än fem tecken har även filtrerats bort då dessa anses vara för korta för att en individ ska ha uttryckt ett intresse.

Replies har exkluderats från analysen då risken finns att de inte reflekte- rar en twitteranvändares åsikter och intressen med lika hög precision som huvudtweeten. Alla bokstäver har gjorts om till gemener för att gruppera ihop ord som har samma stavning där enbart gemener och versaler skiljer sig, exempelvis behandlas Twitter och twitter som samma ord. Omvandling- en är viktig för att korrekt kunna räkna ordfrekvenser. Tweets som innehåller färre än 5 tecken har även filterats bord då dessa har bedömts att innehålla för lite information för att en individ ska kunna uttryckt ett intresse. En del ord och förkortningar har även fördefinierats för att kunna grupperas ihop, exempelvis matsked och msk eller kronor och kr.

5.5 Implementation

Ett program har utvecklats för att utföra dataanalysen med en Bag of Words approach. Programmet är skrivet i Python samt använder det pythonbase- rade biblioteket Tweepy för åtkomst till Twitters API. Programmet hämtar både hem specifik användardata och ordfrekvens för varje intressegrupp.

(24)

Programmet är konstruerat så att det söker efter tweets som nämner el- ler hashtaggar intresset. Denna data laddades hem och sparas i en JSON-fil.

Antalet tweets som samlats in per intresse har begränsats till de 2000 se- naste. Denna gräns är främst satt på grund av Twitters API rate limit. Den geografiska gränsen är satt till de geografiska koordinaterna 59.0, 18.0 med en 100 km radie, vilket fångar in hela Stockholmsregionen samt en del regioner som gränsar till Stockholms län. Programmet parsar dessa JSON-filer och förbehandlar alla tweets samt skapar ett ämneskorpus för varje intresse med de 100 mest förekommande orden. Undergrupperna har justerats så att de breda kategorierna innehåller ungefär lika många ord totalt. I kategorier med för få ord lades det till undergrupper och i kategorier med för många ord togs vissa undergrupper bort. Bedömningen av hur kategorier modifieras basera- des på en mänsklig bedömning av ordrelevansen i undergruppernas ordlistor.

Kategorin historia togs bort helt efter bedömningen att ämnets undergupper innehöll för få samt irrelevanta ord.

För varje användare skapades även en JSON-fil med användarens tweets.

Likt intressena är antalet tweets begränsade till 2000 stycken för att undvika att nå Twitters API rate limit. Retweets av användaren har även samlats in som data då dessa tweets antas spegla användarens åsikter. Däremot finns det ingen geografisk begränsning för insamlingen av retweets. Dessa tweets är förbehandlade på samma sätt som för varje intresse och de 200 mest fö- rekommande orden sorteras ut och läggs till i ett användarkorpus.

Programmet ställer upp en Document Term Matrix för varje individ med användarens termer och respektive intresse. Matrisens komponenter antar värdet av ordfrekvensen. Varje ord ges samma vikt och slutgiltligen ges en procentuell överenstämmelse som resultat. Resultatet summerades ihop en- ligt de större grupperingar som varje intresse tillhör. Exempelvis summerades resultatet för undergrupperna nationalekonomi och finans under tillhöran- de grupp ekonomi. Resultatet normerades genom att dividera resultatet för varje enskilt intresse med den totala summan för varje individ. En vektor skapades för varje användare med intresseresultaten som komponenter.

Som träningsdata använddes 70 procent av respondenterna. Med hjälp av träningsdata kalibrerades den föreslagna vektorn efter den procentuella av- vikelsen gentemot respondenternas svar. Efter att programmet har justerats efter träningsdatan användes de resterande 30 procent respondenterna som testdata. Det erhållna resultatet från testdatan jämfördes mot respondenter- nas respektive enkätsvar genom att beräkna cosinuslikheten mellan dem.

(25)

5.6 Metod för Industriell Ekonomi

Det perspektiv som det utgås ifrån i delen om Industriell ekonomi är an- nonsörer. Definitionen som utgås ifrån är att annonsörer är en tredje part som använder data från Twitter för att tillämpa riktad marknadsföring för sina tjänster eller varor. Först görs en nulägesanalys kring hur marknaden ser ut idag. Detta i form av en SWOT-analys. Sedan analyseras strategier som en annonsör borde använda, utifrån att göra en analys enligt Porters fem krafter.

(26)

Kapitel 6

Resultat

6.1 Resultat från enkätundersökning

Under fältperioden 02/05 2017 - 15/05 2017 inkom 25 respondenter. Av dessa ansågs två twitteranvändare ha för få tweets för att kunna analyseras på ett tillfredsställande sätt samt en twitteranvändare som enbart skrev tweets på engelska. Således har 22 respondenter analyserats. Notera att användarnam- nen inte redovisas i rapporten på grund av integritetsskäl. Användarnamnen har ersatts med respondent-IDn. Av respondenterna har 70 procent används för träningsdata, vilket räknat i antal är 15 respondenter. Vilka respondenter som tillhör träning- respektive testdatan är slumpmässigt valt. Responden- terna är överlag omkring 20 - 30 år, bor i Stockholm med omnejd och flertalet respondenter är politiskt engagerade. De kan anses tillhöra en relativt ho- mogen grupp.

De enda kommentarerna som gavs på fråga Q3 om vad som saknades i en- käten var följande:

“Resor (om jag inte missade det..) och media och företagande”, “Försvar, säkerhet”, “Försvar”.

Resultatet från Q3 redovisas i diagram 1. Vardera respondent har svarat på samtliga intresseområden, alltså finns det inga uteblivna svar. Bland trä- ningsrespondenterna har tio svarat 10 på politik och fem respondenter har svarat 1 på hälsa samt idrott och sport. Som diagram 1 visar, har de olika respondenterna uppgett att den totala mängden intressen går mellan 36 och 81.

(27)

Diagram 1. Resultat från enkät. Träningsdata

6.2 Resultat från programmet

I Diagram 2 finns resultatet som algoritmen i pythonprogrammet har gett.

Skalan går från 0 till 100 och mäter den procentsats som en användares mest frekventa ord överensstämmer med de olika ordlistorna för varje intresseom- råde. Då den semantiska betydelsen av 100 innebär att samtliga av orden i intresselistan har nämnts av andvändaren, har inget värde överstigit 70.

(28)

Diagram 2. Resultat från programmet. Träningsdata

6.3 Sammanvägt resultat mellan enkätundersökning och program

Skalorna i resultatet från programmet (0 - 100) och enkäten (1 - 10) överens- stämmer inte, och därför har resultaten normerats så att det är förhållandet mellan de olika intressena som har mätts. Att normera resultaten har även neutraliserat respondenternas totala intressenivåer.

Diagram 3 visar den genomsnittliga procentändringen som finns mellan de normerade resultaten för enkäten och programmet. Förhållandet mäter hur likt programmet är gentemot enkätens resultat. Denna procentsats är det som programmet justeras efter träningsdatan för att tillämpa på testdatan.

(29)

Diagram 3. Genomsnittlig procentändring mellan normerade resultat

När träningsdatan sedan tränat upp algoritmen, har testrespondenterna lagts till. För att kunna utvärdera hur väl programmet har fungerat, har cosinus- likheten beräknats och omvandlats till en vinkel mätt i grader. I graf 1 går det att observera att vinklarna för testrespondenterna ligger mellan 18,2o och 26,4o. Det motsvarar cos(θ) = 0, 95 och cos(θ) = 0, 90.

(30)

Graf 1. Vinkel mellan enkätundersökning och program

(31)

6.4 SWOT-resultat

Figur 3. SWOT-analys för riktad marknadsföring utifrån annonsörers per- spektiv.

(32)

Styrkor

Med riktad marknadsföring kan annonsörer nå direkt ut till den relevanta målgruppen vilket resulterar i en högre konverteringsgrad. Med information om kundernas beteende och profil finns det även möjlighet att bättre lära känna sina kunder och utveckla befintliga kundrelationer. En god kundrela- tion är ett av de viktigaste redskapen annonsörer kan jobba med för att låsa in kunder för framtida försäljningar på nätet (Deloitte, 2017).

Möjligheter

De maskininlärningsalgoritmer som ligger till underlag för riktad marknads- föring utvecklas och forskas ständigt i den akademiska världen och av företag.

Detta öppnar upp för möjligheten att dessa algoritmer i framtiden har hög- re precision och kan göra mer avancerade rekomendationer (Olmedilla, 2016).

Svagheter

En av de stora svagheterna med riktad marknadsföring är att användare kan uppleva det som integritetskränkande samt påträngande och därmed svara dåligt till annonsen. Det finns även flera möjligheter idag för användare att skydda sin data, exempelvis kan twitteranvändare ställa om sitt twitterkon- to till privat vilket förhindrar en tredje part att samla in data. Att basera riktad marknadsföring på twitterflöden kan bli problematiskt då folk nöd- vändigtvis inte behöver twittra om sina intressen. Det kan även vara svårt för en algoritm att avögra vilken ställning en individ har till ett specifikt ämne som de twittrar om.

Hot

Samtidigt som sociala medier börjar mogna börjar även regler och normer formas för hur personlig data får utnyttjas. Annonsörer hotas då det finns risk för politiska åtgärder som begränsar deras möjlighet att utnyttja person- lig data. Exempelvis förbjöd en tysk domstol att Facebook skulle få överföra personlig data om användarna på chattapplikationen Whatsapp i samband med deras förvärv av bolaget (McGoogan, 2016). Användandet av Adbloc- kers, vilket är en tilläggsmjukvara för webbläsare som kan filtrera bort oöns- kad reklam, hotar också möjligheten för annonsörer att synas och nå ut till sin målgrupp.

(33)

6.5 Porters fem krafter

Konkurrens hos befintliga aktörer

Idag använder de flesta Business to Consumer (B2C)-företag någon form av riktad marknadsföring på sociala medier. En av de stora faktorerna som påverkar konkurrensen mellan dessa aktörer är inträdesbarriärerna för nya aktörer. Kostnaden för riktad marknadsföring på sociala medier är idag be- tydligt lägre än kostnaden för att nå ut till en lika stor kundgrupp via tradi- tionella marknadsföringskanaler, exempelvis TV och radio (McKinsey, 2016).

Detta har medfört att inträdesbarriärerna på marknaden är betydligt lägre idag än tidigare, vilket har möjliggjort för aktörer med mindre resurser att nå ut till fler kunder. Med fler aktörer på marknaden är den naturliga följden ökad konkurrens.

Dock beror hög konkurrens mycket på vilken typ av kundgrupp annonsören försöker nå och vilken bransch annonsören tillhör. Det blir större konkurrens bland annonsörerna om de har identifierat en köpstark grupp som är attrak- tiv att rikta sin produkt, tjänst eller budskap mot.

I frågan om kvalitet, är det en avgörande faktor för hur väl en aktör kla- rar av konkurrensen inom riktad marknadsföring. Om en algoritm är dåligt justerad, kan kunderna bli mer irriterade på ett varumärke än innan de ex- ponerades för reklamen. De blir då mer avståndstagande och kan sprida en negativ bild av annonsören. Att därför ha en god kvalitet i det som skickas ut är en stor del för vem som överlever en hård konkurrens.

Leverantörers förhandlingsstyrka

De leverantörer som finns för annonsörerna i detta fall är de som levere- rar de tekniska lösningarna som möjliggör segmentering och kunskap kring vilka budskap som ska skickas till vilken individ.

De inträdesbarriärer som finns för leverantörerna är viss teknisk kunskap om datainsamling och datahantering samt viss analytisk förmåga. Av de sto- ra digitala ledarföretagen idag använder 83 procent digitala mätningar i syfte att förstå sina kunders behov och beteenden (Acando, 2016). Det tyder på att det finns många konkurrenter på marknaden och leverantörerna har allt- så en låg förhandlingsstyrka.

Däremot tåls detta att diskutera lite djupare än att göra en enkel natio- nalekonomisk analys med utbud-efterfrågan. Sedan mitten av 00-talet har persondata ökat i värde så pass mycket att det sägs ersätta olja som fram- drivande för ekonomin (Economist, 2016). Det gör att persondata är en viktig

(34)

maktfaktor inom företagsvärlden. Den som har mest persondata lagrad och har bäst algoritmer för att utnyttja datan på bäst sätt, är således den aktör som vinner mest inflytande och kapital. Det finns alltså en stor motivator till att ligga i framkant när det gäller hantering av persondata och att hålla hårt i företagshemligheter kring området.

I motsats till företagen som gör mycket för att hemligstämpla sina databan- ker, sker delning av persondata fritt. Människor är överlag väldigt benägna att dela med sig av personlig information för att få ut någonting kul eller gratis. Exempelvis fungerar appar i form av quiz eller spel på Facebook som en stor källa för inhämtning av personlig information (BBC, 2015). Enda sättet för en användare att delta i quizet är genom att godkänna att en hel rad personlig information från Facebook delas.

Att köpa ut tjänster som bygger på personlig data har blivit så pass vik- tigt för företagens kundförståelse och marknadsföring att de är beredda att betala mycket för dessa tjänster. Det stora värdet i personlig information och faktumet att det är enkelt att tillhandahålla gör att leverantörernas för- handlingsstyrka ökar.

Kundernas förhandlingsstyrka

Kundernas förhandlingsstyrka påverkar annonsörers verksamhet då drivkraf- ten bakom riktad marknadsföring ligger i kundens behov och förväntningar av erbjudandet. Kundernas förhandlingsstyrka är således stark och själva fundamentet till att riktad marknadsföring är så pass stort som det är.

Kunder på internet har en stor samlad förhandlingsmakt på grund av den omedelbara tillgången till information som en digital värld erbjuder. Då kun- der har tillgång till recensioner och feedback om annonsören ställs det stora krav på den digitala kundupplevelsen. Kunder kan även enkelt dubbelkolla huruvida annonsören erbjuder rättvisa priser via prisjämförelsesidor. En stu- die av Deloitte visar att bara en av tio konsumenter ser annonsören som en pålitlig källa, resterande kunder föredrar att hitta information om produk- terbjudande från rekommendationer av vänner och familj samt omdömen på nätet (Deloitte, 2017).

I sin förhandlingstyrka har även kunder via sociala medier en möjlighet att göra sin röst hörd, exempelvis kan en inflytelserik användare på Twitter ha stor inverkan genom ett twitterinlägg. Därför gäller det för annonsörerna att inte skapa reklam som upprör - såvida det inte ingår i marknadsföringsstra- tegin att få uppmärksamhet genom att en viss kundgrupp blir så arg att målgruppen som företaget egentligen söker får större igenkänning för företa- get. Att veta om den typen av medveten marknadsföring är utbredd eller om

(35)

reklamskandaler är ofrivilliga är svårt att veta, då det kan gå emot stoltheten för företag att berätta sanningen.

Hot från substituerande varor eller tjänster

Substituerande varor eller tjänster är svår att göra direkt tillämpbar när annonsörer använder riktad marknadsföring, då de oftast säljer någonting annat än marknadsföringslösningen. För att inte få ett orimligt resonemang kring hot från substituerande varor och tjänster kring samtliga branscher som kan tänkas använda riktad marknadsföring, har det valts att fokusera på själva marknadsföringsmetoderna. Antag att en annonsör har använt rik- tad marknadsföring som metod för att nå ut sin reklam, vilka substituerande metoder hade de kunnat lägga sina pengar på istället?

De substituerande metoder som tas upp är reklam i kollektivtrafiken, TV- och radioreklam, internetreklam byggd på crowdsourcing samt influencers.

Reklam i kollektivtrafik är den form som skiljer sig mest från individanpas- sad reklam då alla som åker kollektivt blir exponerade för samma content.

För att den typen av reklam ska fungera, behöver budskapet anpassas efter att nå så breda kundgrupper som möjligt. Reklam i TV- och radio bygger nästan på samma princip, med enda skillnaden att det går att anpassa bud- skap efter vilka kanaler som reklamen köps på och vilka tidpunkter reklamen sänds. Det är rimligt att anta att det är olika kundgrupper som lyssnar på radiokanalerna Bandit Rock och Lugna favoriter, och en annonsör kan så- ledes anpassa budskapen därefter. Om en annonsör har som syfte att öka medvetenhet och igenkänning bland så stora kundgrupper som möjligt, kan det vara en god investering att köpa dessa typer av reklam. Ett exempel på företag som kan gynnas av detta är diskmedelsföretag. Samtliga hushåll behöver köpa diskmedel och då kan exponering genom reklam hjälpa före- tagen att människor tar just deras diskmedelsflaska i matbutiken. Detta är dock inte lika lämpligt om annonsören försöker nå en mer nischad kundkrets.

Utgångspunkten i detta arbete är marknadsföring på internet med hjälp av maskininlärning. Företaget Amazon använder istället marknadsföring på internet genom crowdsourcing (MTurk, 2016). Deras plattform Mechanical Turk är uppbyggt genom att personer får göra olika uppgifter och besvara frågor kring vilka produkter som är lika varandra och därigenom görs ett rekommendationssystem på Amazon. Varje person får ersättning i form av några cent eller dollar för varje uppgift. Anledningen till att Amazon an- vänder Human Intelligence Tasks, HIT är för att de anser att maskininlär- ningsalgoritmer inte är lika träffsäkra som mänsklig bedömning. Med tanke på den snabba utvecklingen av maskininlärning och artificiell intelligens, lär det inte dröja länge innan det blir mer effektivt än HIT.

(36)

Influencers, alltså personer med stora och inflytelserika sociala mediekon- ton, är ett annat trendigt sätt att marknadsföra genom. Annonsören betalar influencern för att lägga upp en bild, blogginlägg eller liknande kring pro- dukten de vill sälja. Då influencers har många följare, exponeras produkten för personer som ser upp till influencern och som ser det influencern lägger upp som inspiration. Denna form av marknadsföring är i sociala medier rätt begränsad till en ung målgrupp. Annonsörerna behöver dessutom tänka på att deras produkt är kompatibel med den känsla som influencern i övrigt för- medlar i sina sociala medier. Det går exempelvis inte att försöka annonsera för produkter kring bergsklättring genom influencern Blondinbellas konto då varken hon eller hennes följare är profilerade inom bergsklättring.

Hot från nya aktörer

I den här analysen är hot från nya aktörer starkt sammankopplad med kon- kurrens från befintliga aktörer då inträdesbarriärerna är låga. Det hot som dock finns är om det tillkommer så pass många annonsörer att marknaden mättas och en aktörs investering i riktad marknadsföring blir verkningslös.

Dock kommer enligt teorin om utbud-efterfrågan justeras så att en jämvikt uppstår.

(37)

Kapitel 7

Diskussion

7.1 Enkätundersökningen

Det går att notera att det är många som är politiskt intresserade bland re- spondenterna till enkätundersökningen. Detta är en följd av att de personer som enkäten skickats till för att det fanns en vetskap om att de använder Twitter, även är politiskt intresserade. Det har lett till att det statistiska ur- valet inte speglar den svenska demografin. Dock behöver inte det innebära en försämring av analysen, då syftet med enkätundersökningen var att matcha individer och inte en spegling av det svenska samhället.

En fördel med att bjuda in personer som det finns kännedom om sedan tidigare, är att det har gått att göra rimlighetsbedömningar kring respon- denternas svar. Det har kommits fram till att inga respondenter har varit så kallade speeders som går igenom undersökningar så pass snabbt att svaren blir irrelevanta att analysera.

På den tredje frågan kring vilka intressen som saknades, har svarsfrekvensen varit låg. Detta tolkas som att respondenterna i stor utsträckning inte ansåg att något intresse som engagerade just dem saknades. Huruvida det i sin tur beror på att täckningen av intresseområden är hög, eller om listan av av alla ord lett till en priming av respondenterna, är svårt att veta. Priming bety- der att tidigare information som respondenten fått påverkar svaren i senare frågor. Att risken för priming finns är någonting som har tagits i beaktning, men inte justerats för i arbetet.

7.2 Programmet

Datainhämningen har tidsbegränsats och begränsats till 2000 tweets per äm- ne och användare vilket kan ha påverkat resultatet då detta inte återspeglar hela datamängden. Det finns risk för att en användare har twittrat väldigt

(38)

mycket om ett specifikt ämne på senare tid vilket då påverkar programmets uppfattning om användarens inställning till intresset.

Intressena bestämdes manuellt genom en mänsklig bedömning och kan där- för ha inneburit att många intressen uteslutits samt att flertalet intressen varit irrelevanta eller för specifika. Vissa kategorier behövde även att under- grupper lades till då de innehöll för få ord för att försöka få ungefär lika många ord i de bredare kategorierna. Detta beror på en del ovanliga ord som inte har nämnts tillräckligt mycket inom den geografiska regionen. Vidare har den här typen av bestämning medfört att en del intressen tilldelats fler undergrupper än andra. Till exempel har vetenskap fyra undergrupper me- dan musik har åtta. Detta kan innebära att vissa kategorier har en bredare räckvidd än andra.

Ytterligare en faktor som påverkat resultatet är relevansen hos samtliga ord i ämneskorpusarna. Många ord som placerats av programmet i ordlistorna kan anses sakna relevans för respektive intresse. I intresset dans var till ex- empel en större del av orden på franska, vilket i sin tur resulterade i en låg procentuell överensstämmelse för samtliga respondenter. Flertalet av dessa ord som inte ansågs vara relevanta togs bort för att detta inte skulle påverka resultatet på ett negativt sätt.

Twitter är även ett forum där politiska diskussioner är vanligt förekommande, vilket har påverkat resultaten i den mån att politiskt intresserade användare kommer att få en högre träff i kategorier de möjligtvist inte är intresserade av. Exempelvis är skolan och regeringen det andra respektive tredje mest an- vända orden för ämnet idrott. Andra politiska termer som även förekommer i ämneskorpuset är fridolin, grundskolan, könsuppdelad, alliansen, statsmi- nistern och skolverket. Detta beror troligtvis på politiska diskussioner kring idrottsämnet i skolan. Detta innebär att ämnet, utöver idrottsintresserade människor, fångar upp politiskt intresserade människor.

Att datainsamlingen har begränsats till de 2000 senaste tweetsen innebär även att programmet blivit trendkänsligt. Detta märks i några av de po- pulära intressena som har diskuterats mycket på senare tid. Frankrikes nya president Macron förekommer exempelvis i flertalet intressegrupperingar ef- tersom datan är insamlad strax innan det franska presidentvalet. I de 2000 senaste politiska tweetsen är ordet Macron ett populärt ord men i de 2000 senaste tweetsen hos en politisk intresserad användare är inte Macron ett fre- kvent använt ord eftersom tidslinjen sträcker sig längre bak då användaren inte har hunnit twittra tillräckligt mycket om det franska presidentvalet.

(39)

7.3 Sammanvägning av resultat

Det som går att se av analysen är att respondenter som uppger att de gillar politik även får höga värden på politik enligt programmet. På motsvarande sätt får många höga värden på ekonomi, vilket är en kategori som överlag även uppgetts ha högt intresse. Dock finns det andra kategorier som inte över- ensstämmer lika bra i sammanvägningen. I kategorin mat och dryck uppgav en del respondenter ett någorlunda högt intresse medan programmet gav en del av dessa användare ett väldigt lågt resultat.

För att förstå varför programmet inte överensstämmer fullt ut med enkät- undersökningen, behövs en förståelse för vad Twitter faktiskt är. Det är en mikroblogg där det skrivs om vissa specifika ämnen. Särskilt personer med politiskt intresse brukar överlag ägna sin Twitter åt just politik och liknande ämnen. Det innebär att även om en person är intresserad av exempelvis re- ligion, kanske inte det ger utslag i twitterflödet. Med det sagt, innebär inte det att klassificeringen är irrelevant. Det är endast en aspekt som behöver tas i beaktning då programmet utformas.

Hypotesen som testats är huruvida cosinusmåttet överstiger cos(θ) = 0, 7 eller understiga motsvarande vinkel 45o. Med programmets givna resultat med cos(θ) = 0, 90 − 0, 95 förkastas inte hypotesen.

Cosinuslikheten visar efter inträningen att de förutspådda intressena i ge- nomsnitt ligger ganska nära vad respondenterna har svarat. Då alla respon- denter till en viss grad kommmer relateras till alla intressekorpus på grund av överskridande ord så tenderade många få högre än de angivit. Den re- spondent som fick lägst avvikelse svarade relativt högt på de intressen denne ansåg sig själv vara mindre intresserad av, exempelvis en trea eller fyra istäl- let för en etta eller tvåa.

För att avgöra i vilken grad det förekommer avvikelser i programmet, krävs en djupare semantisk analys av resultatet. De två främsta avvikelser som kan uppstå är om programmet feltaggar ett twitterinlägg eller om användares in- tressen inte överensstämmer med sina enkätsvar eller programmets output.

Att utreda huruvida en användare skriver om sina intressen på Twitter eller inte kräver en annan form av analys än vad som ligger inom det här scopet.

Det kräver antingen en psykologisk metodik eller en jämförelse med all in- hämtad persondata från hela internet.

Att istället avgöra vilken grad som twitterinlägg felklassificeras och därmed inte matchar mot Bag of Words-metoden är mer görbart men kräver mycket resurser då varje twitterinlägg behöver en semantisk analys. Tillvägagång-

(40)

sättet skulle vara att med en mänsklig bedömning avgöra om inlägget ska taggas till det specifika intresset eller inte. Exempelvis skulle en användares tweet: ”Min son älskar att spela gitarr, piano och sjunga” förmodligen taggas som ”musik” och öka intresset för musik hos användaren, även om det är tydligt att användaren inte har uttryckt något eget intresse för ämnet.

Med det sagt, har det gjorts ett antagande att Bag of Words-metoden speglar användarnas intresse textittillräckligt väl för att det ska gå att dra relevanta slutsatser kring resultatet, även om det inte har undersökts statistiskt.

7.4 SWOT-analys och Porters

Slutsatsen från nulägesanalysen är att riktad marknadsföring på ett forum som Twitter är effektivt. På längre sikt finns det en del hot som kan begrän- sa friheten för annonsörer när det gäller användandet av personlig data. Att rikta reklam baserat på personlig metadata är ett relativt nytt fenomen och det finns därför fortfarande viss diskrepans på hur denna data ska få hanteras.

När det kommer till Porteranalysen kan vi konstatera att det är kunderna som har störst förhandlingsstyrka. Till följd av att information snabbt kan spridas på internet, är det viktigt att hålla kunderna nöjda så att de inte blir avståndstagande från annonsörernas budskap. Som nämnt i resultatdelen finns det en del hot mot riktad marknadsföring. I takt med digitaliseringens framväxt och utveckling av maskininlärning och artificiell intelligens, förvän- tas de hot som finns mot marknaden idag minska och troligen ersättas av nya hot som är svårare att förutspå i dagsläget.

(41)

Kapitel 8

Slutsats

Det som går att konstatera med det här arbetet är att metoden fungerar för att klassificera människors intressen genom att använda Twitter. Med cosinuslikheter mellan 0,90 och 0,95 får resultatet anses relevant, även om det finns delar som går att utveckla för ökad precision. Den ursprungliga hypotesen stämmer alltså då resultatet överstiger den lägst förväntade cosi- nuslikheten.

Med mer resurser i form av tid och hjälpmedel för att kunna skala upp inhämtning av fler respondenter till träningsdata skulle programmet kunna förfinas. I dagsläget är output från programmet att människor är intresse- rade av breda ämnen som politik eller kultur. Med mer resurser går det att få en större precision kring mer specifika ämnesval för att på så sätt kunna rikta reklam med större träffsäkerhet.

Riktad marknadsföring är ett kraftfullt verktyg sålänge det används på ett sätt som inte retar upp de potentiella konsumenterna. I takt med den digi- tala utvcecklingen kommer mer kraftfulla algoritmer möjliggöra att reklam hjälper konsumenterna och minska risken för att adblockers och liknande blir lika utbrett.

Om studien skalas upp, går det även att formulera en affärsplan för att göra produkten kommersiellt gångbar.

(42)

Källor

Abilhoa, A. och de Castro (2014). “A keyword extraction method from twit- ter messages represented as graphs”. I: Applied Mathematics and Compu- tation. url: http://www.sciencedirect.com/science/article/pii/

S0096300314006304.

Acando (2016). “Fyra beteenden som särskiljer digitala ledare”. I: url: ttps:

//www.acando.se/vad- vi- kan/teman/digital- insights/digital- lean/#.

BBC (2015). “Facebook Quizzes: What happens to your data?” I: url: http:

//www.bbc.com/news/technology-34922029.

Bin Raie, A., H. Mansour och B. Incitti (2013). “Combining Position Weight Matrices and Document-Term Matrix for Efficient Extraction of Associ- ations of Methylated Genes and Diseases from Free Text”. I:

Bonzanini, P (2017). “Vad som trendat på Twitter under ett år”. I: url:

https://peterdalle.github.io/analysis/twitter-trends.html.

Dahlgren, P (2017). “Vad som trendat på Twitter under ett år”. I: url:

https://peterdalle.github.io/analysis/twitter-trends.html.

Davidsson, P (2016). “Svenskarna och sociala medier”. I: Internetstiftelsen i Sverige. url: https://www.iis.se/docs/Svenskarna_och_sociala_

medier_2016.pdf.

Deloitte (2017). “The Growing Power Of Consumers”. I: The Deloitte Con- sumer Report. url: https : / / www2 . deloitte . com / content / dam / Deloitte/uk/Documents/consumer- business/consumer- review- 8- the-growing-power-of-consumers.pdf.

Donalek, C (2011). “SupervisedandUnsupervised Learning”. I: Caltech. url:

http://www.astro.caltech.edu/~george/aybi199/Donalek_Classif.

pdf.

Economist, the (2016). “Fuel of the Future: Data is giving rise to a new eco- nomy”. I: url: http://www.economist.com/news/briefing/21721634- how-it-shaping-up-data-giving-rise-new-economy.

McGoogan, C. (2016). “Facebook Banned From Gathering Whatsapp Users’

Data In Germany”. I: url: http://www.telegraph.co.uk/technology/

2016 / 09 / 27 / facebook - banned - from - gathering - whatsapp - users - data-in-germany.

McKinsey (2016). “Global Media Report”. I:

(43)

Mitchell, A. och McGraw (1997). “MachineLearning”. I: Applied Mathema- tics and Computation. url: http : / / personal . disco . unimib . it / Vanneschi/McGrawHill_-_Machine_Learning_-Tom_Mitchell.pdf.

MTurk (2016). “MTurk”. I: url: https://www.mturk.com/mturk/welcome.

Nationalencyklopedin (2017). “Maskininlärning”. I: url: http://www.ne.

se/sC3B6k/?t=uppslagsverk&q=maskininlC3A4rning.

NLTK (2016). “NLTK”. I: url: http://www.nltk.org/.

Olmedilla (2016). “Applying machine learning to ads integrity at Facebook”.

I: url: http://dl.acm.org/citation.cfm?id=2908134.

Omand, D (2015). “Understanding Digital Intelligence and the Norms That Might Govern It”. I: Global Commission on Internet Governance.

Phadermrod, B., R. Crowder och G. Wills (2016). “Importance-Performance Analysis based SWOT analysis”. I: International Journal of Information Management. url: http://www.sciencedirect.com.focus.lib.kth.

se/science/article/pii/S0268401216301694.

Pichai, S (2016). “This Year’s Founders’ Letter”. I: Google. url: https : / / blog . google / topics / inside - google / this - years - founders - letter/.

Porter, E. (1979). “The five competitive forces that shape strategy.” I: Har- vard Business Review.

Schwab, K (2015). “The Fourth Industrial Revolution”. I: Foreign Affairs.

Thomson, S (2016). “How Twitter has changed the world”. I: World Econo- mic Forum. url: https://www.weforum.org/agenda/2016/02/how- twitter-has-changed-the-world/.

Tweepy (2017). “Documentation”. I: url: http://docs.tweepy.org/en/

v3.5.0/.

Twitter (2017). “About”. I: url: https://about.twitter.com/company.

Twittercounter (2017). “Twitter Top 100 Most Followers”. I: url: https:

//twittercounter.com/pages/100.

Twittersupport (2017). “About your Twitter timeline”. I: url: https : / / support.twitter.com/articles/164083.

Walker, R., C. Summers och R. Smith (2017). “Vad som trendat på Twitter under ett år”. I: url: https://hbr.org/2016/04/targeted-ads-dont- just- make- you- more- likely- to- buy- they- can- change- how- you- think-about-yourself.

Ward, S. (2016). “Target Marketing”. I: url: https://www.thebalance.

com/target-marketing-2948355.

Weller, K., A. Bruns och J. Burgess (2014). “Twitter and Society”. I: Peter Lang.

(44)

Bilaga A

Frågebatteri till enkät

Intressebedömning på Twitter

Vi är tre studenter från KTH i Stockholm, som skriver vårt kandidatexa- mensarbete inom Industriell Ekonomi och Datateknik. Arbetet handlar om maskininlärning och hur det kan tillämpas för att analysera det sociala me- diet Twitter. Vi är därav i behov av personer som skulle tänka sig dela med sig av sina Twitter-flöden. Dessa flöden kommer endast användas i ut- bildningssyfte och de som deltar kommer att vara anonyma. Användares Twitter-inlägg kommer inte heller att offentliggöras.

Vänligen,

Dan Strandberg, Leo Rönnbäck och Louise Stenberg

Q1: Vad är ditt twitteranvändarnamn? (Obligatorisk) Frisvar

Q2: Bedömning av intressen

Betygsätt hur pass intresserad av respektive ämne du är. Under- rubrikerna är exempel på intressen inom vardera ämnesområde.

(Skala 1: Instämmer inte alls - 10: Instämmer helt) (Obligatorisk)

• Politik (Sakpolitik, ideologi, politiska partier och politiskt spel)

• Mat och dryck (Matlagning, bakning, bartending och drycker)

• Ekonomi (Företagande, finans, aktier, privatekonomi, nationalekonomi och redovisning)

• Idrott och sport (Klassiska idrotter, titta på sport och e-sport)

(45)

• Hälsa (Träning, kost, meditation och stresshantering)

• Historia (Historiska händelser, släktforskning och historiska personer)

• Religion (Olika religioner, teologi och sekter)

• Kultur (Konst, litteratur, fotografi, TV, film, spel, arkitektur, serier och teater)

• Musik (Musikteori, kör, olika genrer och instrument)

• Vetenskap (Filosofi, biologi, anatomi, fysik, kemi, geologi, datalogi, psy- kologi, retorik, juridik, matematik, astronomi och språk)

• Livsstil (Resor, mode, inredning, kändisar, husdjur, familjeliv, sociala medier, hållbarhet och natur)

• Teknik (Datorer, fordon, elektronik, teknikprylar och programmering) Q3: Feedback

Finns det något intresse som du saknade i listan? Om ja, vilka/vil- ket? (Inte obligatorisk)

Frisvar

(46)

Bilaga B

Pythonkod

B.1 getsubject.py

#t h i s program c r e a t e s a JSON f i l e w i t h t h e l a s t t w e e t s s i n c e Jan . 1

import s y s import j s o n import o s

from tweepy import C u r s o r

from t w i t t e r _ c l i e n t import g e t _ t w i t t e r _ c l i e n t def u s a g e ( ) :

print ( " Usage : " )

print ( " python ␣ {} ␣<wordname>" . format ( s y s . a r g v [ 0 ] ) ) i f __name__ == ’__main__ ’ :

i f len ( s y s . a r g v ) != 2 : u s a g e ( )

s y s . e x i t ( 1 ) word = s y s . a r g v [ 1 ]

c l i e n t = g e t _ t w i t t e r _ c l i e n t ( )

fname = " { } . j s o n l " . format ( word ) path = " j s o n "

f i l e p a t h = o s . path . j o i n ( path , fname )

(47)

w i t h open ( f i l e p a t h , ’w ’ ) a s f :

#f o r p a g e i n Cursor ( c l i e n t . w o r d _ t i m e l i n e , screen_name=word , c o u n t =200) . p a g e s ( 1 6 ) :

#Uncomment c o d e b e l o w i f t h e r e a r e t o o many t w e e t s and s e t t h e c o u n t l i m i t :

f o r page in C u r s o r ( c l i e n t . s e a r c h , q=word , c o u n t =2000 , w a i t _ o n _ r a t e _ l i m i t=True , w a i t _ o n _ r a t e _ l i m i t _ n o t i f y=True , s i n c e _ i d

=2017−01−01, g e o c o d e=" 5 9 . 0 , 1 8 . 0 , 1 0 0km" ) . p a g e s ( 1 6 ) :

#f o r p a g e i n Cursor ( c l i e n t . s e a r c h , q=word , c o u n t =2000 , s i n c e _ i d =2016−01−01,

w a i t _ o n _ r a t e _ l i m i t=True ,

w a i t _ o n _ r a t e _ l i m i t _ n o t i f y=True , g e o c o d e

= " 5 9 . 0 , 1 8 . 0 , 1 0 0km" ) . p a g e s ( 5 0 ) : f o r s t a t u s in page :

f . w r i t e ( j s o n . dumps ( s t a t u s . _json )+" \n" )

B.2 getuse.py

#T h i s program c r e a t e s a JSON f i l e f o r e a c h u s e r import s y s

import j s o n

from tweepy import C u r s o r

from t w i t t e r _ c l i e n t import g e t _ t w i t t e r _ c l i e n t def u s a g e ( ) :

print ( " Usage : " )

print ( " python ␣ {} ␣<username>" . format ( s y s . a r g v [ 0 ] ) ) i f __name__ == ’__main__ ’ :

i f len ( s y s . a r g v ) != 2 : u s a g e ( )

s y s . e x i t ( 1 ) u s e r = s y s . a r g v [ 1 ]

c l i e n t = g e t _ t w i t t e r _ c l i e n t ( ) fname = " { } . j s o n l " . format ( u s e r ) w i t h open ( fname , ’w ’ ) a s f :

f o r page in C u r s o r ( c l i e n t . u s e r _ t i m e l i n e ,

screen_name=u s e r , s i n c e _ i d =2017−01−01) . p a g e s

(48)

( 1 6 ) :

f o r s t a t u s in page :

f . w r i t e ( j s o n . dumps ( s t a t u s . _json )+" \n" )

B.3 twittertermfrequency.py

#T h i s program p r e p r o c c e s e s t h e t e x t and

import s y s import s t r i n g import j s o n

from c o l l e c t i o n s import Counter

from n l t k . t o k e n i z e import T w e e t T o k e n i z e r from n l t k . c o r p u s import s t o p w o r d s

reload ( s y s )

s y s . s e t d e f a u l t e n c o d i n g ( ’ u t f −8 ’ )

def p r o c e s s ( t e x t , t o k e n i z e r=T w e e t T o k e n i z e r ( ) , s t o p w o r d s

= [ ] ) :

""" P r o c e s s t h e t e x t o f a t w e e t :

− Lowercase

− T o k e n i z e

− Stopword r e m o v a l

− D i g i t s r e m o v a l

Return : l i s t o f s t r i n g s

"""

t e x t = t e x t . l o w e r ( )

t o k e n s = t o k e n i z e r . t o k e n i z e ( t e x t )

# I f we want t o n o r m a l i z e c o n t r a c t i o n , uncomment t h i s

# t o k e n s = n o r m a l i z e _ c o n t r a c t i o n s ( t o k e n s ) return [ t o k f o r t o k in t o k e n s i f t o k not in

s t o p w o r d s and not t o k . i s d i g i t ( ) and t o k . i s a l p h a ( ) and len ( t o k ) >4]

def n o r m a l i z e _ c o n t r a c t i o n s ( t o k e n s ) :

""" Example o f n o r m a l i z a t i o n f o r S w e d i s h c o n t r a c t i o n s .

Return : g e n e r a t o r

"""

token_map = {

" ok " : " o k e j " ,

References

Related documents

Subject D, for example, spends most of the time (54%) reading with both index fingers in parallel, 24% reading with the left index finger only, and 11% with the right

​ När det kommer till sportkategorin är 25% av alla nyheter negativa på etablerad media, medan enbart 4% uppfyller kriteriet för ​negativitet​ på Twitter.. Detta beror på att

Trots att den stora massan idag har möjlighet att kommunicera självständigt och söka sig till information som inte görs tillgänglig av traditionella medier, ser vi

Här blir den begränsade kommunikationen på Twitter tydlig. I min mening är det förståligt att askgeorge inte förstår vad aktören tweetonmyfeet menar, och ingen vidare

Keywords: Mixed Methods, Hashtags, Discourse Theory, Social Media, Twitter, IoT, Internet of Things, Sentiment Analysis... 1 1

Kudugunta and Ferrara compared several methods, including Contextual LSTM, Random for- est and AdaBoost, on the task of classifying if the author of a tweet is a human or a bot,

Figur 1.2 visar att journalister på kvällstidningen Aftonbladet använder sig av Twitter som nyhetskälla i större utsträckning än journalister på dagstidningen Dagens

Vi kan se att den sociala nätverkstjänsten används i relativt hög grad för att kommentera nyhetshändelser medan studenterna betydligt mer sällan söker källor och information