Modellering av volatilitet med Google Trends

(1)

Modellering av volatilitet med Google Trends

Filip Björnsjö, Per Henckel

Kandidatuppsats

Våren 2018

Statistiska Institutionen

Handledare: Patrik Andersson

(2)

Abstrakt

Denna uppsats har undersökt om det är möjligt att predicera volatilitet på aktiemarknaden med hjälp av sökordsdata från Google. Trettio finansrelaterade termer valdes ut i predicerande syfte och en binär targetvariabel för volatilitet konstruerades. De trettio sökorden reducerades till fyra komponenter med hjälp av Principalkomponentanalys (PCA) och användes sedan med hjälp av K-Nearest-Neighbor (KNN) för att predicera huruvida kommande vecka väntades bli volatil eller inte. De slutgiltiga resultaten visade att sökordsdatan kunde användas för prediktion av volatilitet.

(3)

Innehållsförteckning

Introduktion ... 1

Tidigare forskning ... 2

Data ... 3

Targetdata ... 3

Predicerande data ... 4

Allmänna aktierelaterade ord ... 4

Aktierelaterade handlingar ... 5

Första chocken ... 6

Tidningar och nyhetsmedier ... 6

Metod ... 7

Val av metod ... 7

Principalkomponentanalys (PCA) ... 9

Bakgrund ... 9

Teknisk bakgrund... 9

Antaganden och övervägningar ... 12

K-Nearest Neighbor ... 12

Bakgrund ... 12

Teknisk bakgrund... 12

Antaganden och övervägningar ... 16

Utvärdering... 16

Resultat ... 18

PCA, reduktion av data ... 18

Tolkning komponenter ... 19

Resultat klassificering ... 21

Känslighetsanalys ... 25

Slutsats ... 28

Diskussion ... 29

Bilagor ... 30

Källförteckning ... 41

(4)

1

Introduktion

Vid modellering av volatilitet kan det vara av intresse att studera hur människors handlingar, tankar och känslor påverkas av andra människors sociala närvaro. Socialpsykologi behandlar det här området och är relevant att diskutera vid försök att förstå de kvalitativa aspekter som ligger till grund för volatilitet på aktiemarknaden. Volatilitet beskrivs inom socialpsykologin som ett flockbeteende, där känslor sprids genom leden av investerare och framkallar kollektiv handling (Boström 2015). Vad för tankar och känslor som fluktuerar bland aktörerna som ligger till grund för den här typen av kollektiva fenomen är givetvis svårt att fastställa. Däremot brukar den psykologiska undertonen bland investerarna ofta beskrivas med ett ”Fear & Greed” index. Tanken med indexet är att ge en inblick i investerarnas känslor vid en given tidpunkt och på så vis kunna göra en bedömning över riskviljan. Högre rädsla föranleds av volatilitet och nedgång på marknaden enligt indexet (Investopedia 2018).

En mer exakt fastställning av vad folk känner och tänker på kan göras med hjälp av Google Trends.

Tjänsten som lanserades 2006, tillhandahåller historisk data för sökningar på Google och man kan på så vis få en unik inblick i vad sökmotorns användare känner och tänker på vid en given tidpunkt. Tidigare forskning, som närmare kommer beröras i senare avsnitt, har visat att sökordsdata kan användas i predicerande syfte för en rad olika områden. Däribland kartläggning av hur influensan väntas spridas, modellering av aktiemarknaden och bieffekter från medicin. De tidigare studierna väckte intresset för att undersöka sambandet mellan sökordsdata och volatilitet. I och med att det går att argumentera för att volatilitet är ett socialt fenomen föranlett av känslor, så borde mönster i sökningar på Google kunna fånga upp information om marknadsaktörernas känslor och kunna användas i predicerande syfte.

Frågeställningen som uppsatsen ämnar att besvara är därmed definierad enligt nedan:

Är det möjligt att med hjälp av sökordsdata från Google, predicera huruvida kommande vecka på aktiemarknaden kommer bli volatil?

För att besvara detta, så har historisk data för trettio finansrelaterade sökord hämtats enligt fyra olika kategorier. Tanken är att kategorierna ska fånga upp olika känslomässiga stadium hos investerarna som kan ha ett signalvärde om kommande volatilitet. Sökordsdatan kommer först reduceras med hjälp av Principalkomponentanalys (PCA) för att sedan användas för att predicera huruvida kommande vecka på aktiemarknaden väntas bli volatil eller inte med hjälp av maskininlärningsmetoden K-Nearest-Neighbor (KNN).

(5)

2

Tidigare forskning

Användning av Google Trends-data inom forskning är en förhållandevis ny företeelse. Ett antal studier finns dock där sökordsdata har använts i predicerande syfte. I en studie av Dugas et al. (2013) användes Google Trends för att kartlägga hur influensan väntades sprida genom delstater i USA över tid. Genom användning av sökordsdata, så kunde dels spridningen kartläggas och en prognos på när risken att drabbas av influensan var som störst i en specifik stad eller stat fastställas. Studien visade att människor tenderade att söka på symptom när man drabbats av influensen och därav kunde mönster finnas som låg till grund för resultaten. Ett annat exempel där Google Trends-data använts i hälsosammanhang är för att studera bieffekter av läkemedel. I denna studie av White et al. (2013) undersöktes huruvida bieffekter från läkemedel gick att fastställas med hjälp av sökordsdata. Studien fann en tidigare okänd bieffekt av en kombination av två läkemedel där symptomen blev tydliga i datan. Även här så hittade man mönster där människor självdiagnostiserade sina egna symptom genom Google.

Ytterligare ett exempel, som ligger närmre ämnet som uppsatsen berör, är från en studie av Preis, Moat och Stanley (2012) där Google Trends-data används för att bygga en trading-modell. Det visade sig att datan kunde ge tidiga varningssignaler på hur marknaden skulle röra sig. En låg sökintensitet på finansrelaterade termer visade sig vara en god köpsignal och en hög sökintensitet visade sig vara en bra säljsignal. Resultaten från studien ligger i linje med vad Kristoufek (2013) kom fram till när forskaren undersökte hur intensiteten i sökord hos specifika aktier kunde användas för att bygga en aktieportfölj.

Portföljen allokerades genom att ge aktier, med högt antal sökningar, en mindre andel i portföljen och aktier med färre sökningar en högre vikt. Resultaten från undersökningen var goda och portföljkonstruktionen slog jämförelseindex. Studien visade att en hög sökintensitet innebar en sorts varningssignal, vilket också Preis, Moat och Stanleys (2012) finner.

Vad som i grund och botten styr sökningarna på Google är människors känslor och tankar. Baker och Riccardi (2014) beskriver att det finns tydliga kopplingar mellan hur människor mår och hur aktiemarknaden presterar. Det fastslås att investerare vid ett positivt humör är mer riskbenägna än vid ett negativt. Således söker sig investerare till säkrare investeringar vid moment av chock eller oro på marknaden. Humör- eller orosrelaterade sökningar på Google kan därmed ha en viss predicerande förmåga på volatilitet. Liknande resultat fanns av Pappas (2013) som konstaterar att oro, vilket kan liknas vid ett dåligt humör, hjälper till att späda på en nedgång på marknaden ytterligare. Pappas (2013) drar också kopplingar mellan nedgång och sökordsbaserad data.

(6)

3

Data

Den data som uppsatsen kommer använda sig av för att besvara frågeställningen, är historisk veckodata för sökningar på Google och S&P500 under perioden 2013-04-16 till 2018-04-16. Bakgrunden till val av tidsperiod och format är att Google enbart tillhandahåller data för femårsperioder i veckoformat.

Månadsdata går visserligen att hämta för perioder som sträcker sig över längre tid, men anses inte vara passande för uppsatsens ändamål. Dagsdata går enbart att hämta för perioder om ett år, vilket inte är tillräckligt. Google tillhandahåller sökordsdatan i indexerat format (0-100), vilket innebär att siffrorna anger sökintresset i förhållande till den vecka då högst antal sökningar noterades under perioden.

Targetdata

Det index som får representera ”aktiemarknaden” och som kommer användas för att definiera den slutgiltiga binära targetvariabeln 𝑦_𝑖, är det amerikanska storbolagsindexet S&P500. Indexet innehåller 500 börsnoterade storbolag i USA och är viktat baserat på marknadsvärde (Investopedia, 2018). S&P500 anses vara ledande och är därmed väl lämpat att användas som volatilitetsindikator för den globala aktiemarknaden. För att mäta aktiemarknadens veckovolatilitet 𝑥_𝑖 = (𝑥₁, 𝑥₂… 𝑥_𝑛) används formeln

𝐴𝑑𝑗. 𝑤𝑒𝑒𝑘𝑙𝑦 ℎ𝑖𝑔ℎ

𝐴𝑑𝑗. 𝑤𝑒𝑒𝑘𝑙𝑦 𝑙𝑜𝑤 − 1 = 𝑥_𝑖

∗

.

* Adj. Weekly high/low = S&P500 veckohögst/veckolägsta justerad för utdelning och splittar.

Ett alternativ hade varit den procentuella veckoförändringen för att mäta volatilitet, men det skulle medföra en risk att missa volatilitet inom veckorna och därför har ovan definition använts. Vidare så tramsformeras volatilitetsdatan till den slutgiltiga binära targetvariabeln enligt

𝑦_𝑖= 1 𝑣𝑖𝑑 𝑣𝑜𝑙𝑎𝑡𝑖𝑙 𝑣𝑒𝑐𝑘𝑎, 𝑦_𝑖= 0 𝑣𝑖𝑑 𝑒𝑗 𝑣𝑜𝑙𝑎𝑡𝑖𝑙 𝑣𝑒𝑐𝑘𝑎,

𝐷𝑒𝑓(𝑦_𝑖= 1) = ( 𝑥_𝑖 ∈ 25 % 𝑚𝑒𝑠𝑡 𝑣𝑜𝑙𝑎𝑡𝑖𝑙𝑎 𝑣𝑒𝑐𝑘𝑜𝑟𝑛𝑎)^∗, 𝐷𝑒𝑓(𝑦_𝑖= 0) ≠ ( 𝑥_𝑖 ∈ 25 % 𝑚𝑒𝑠𝑡 𝑣𝑜𝑙𝑎𝑡𝑖𝑙𝑎 𝑣𝑒𝑐𝑘𝑜𝑟𝑛𝑎)^∗ .

* 25 % mest volatila veckorna från träningsdatan.

Definitionen av den binära targetvariabeln visualiseras i Figur 1.1, där 𝑦_𝑖 > 75:e percentilen (svart linje) klassas som volatila veckor och antar värde 1.

(7)

4 Figur 1.1, Histogram över definierad volatilitetsdata

Ovan figur visualiserar fördelningen för den definierade veckovolatiliteten. En observerad vecka till höger om dena vertikala svarta linjen, kommer anta värde 1 i targetdatan och observationer till vänster kommer anta 0.

De 25 % mest volatila veckorna anses vara en god avgränsning för att definiera en vecka som volatil.

Definitionen innebär att minsta möjliga procentsats, för att targetdatan ska anta värde 1, mellan veckohögsta och lägsta är 2,28 %, vilket är relativt volatilt.

Predicerande data

De variabler som kommer användas för att predicera huruvida följande vecka väntas bli volatil eller ej är, som tidigare nämnt, historisk sökordsdata från Google. Trettio finansrelaterade sökord valdes ut utifrån fyra olika kategorier av ord som kan tänkas predicera olika scenarion på aktiemarknaden. Antalet valdes då efterföljande analys skulle bli enklare att genomföra och att teoretisk grund för varje ord skulle finnas. Ett alternativt tillvägagångssätt hade varit att systematiskt välja ut en större mängd ord för analys och undersökning. Detta tillvägagångssätt hade dock varit tidskrävande och inte absolut nödvändigt för att besvara uppsatsens frågeställning.

Allmänna aktierelaterade ord

Den första kategorin sökord inkluderar allmänna aktierelaterade ord. Denna innefattar olika aktieindex samt ord som är kopplade till finansiella marknader. Även ord som ”trader” återfinns i kategorin eftersom det kan antas representera en del av det generella intresset kring börsen. Allmänna sökord inkluderas då tidigare forskning visade på att en intensifiering av sökningar på marknadsrelaterade

(8)

5

termer ger en god säljsignal (Pappas 2013). Utifrån det, så finns det anledning att tro att hög sökfrekvens kan innebära en sorts signal om en kommande volatilitet. Tabell 1.1 presenterar de allmänna aktierelaterade orden.

Tabell 1.1 Sökord över olika index

Sökord Förklaring

S&P500 Index baserat på 500 storbolag noterade i USA Dow Jones Index baserat 30 amerikanska industribolag

VIX Index över aktiemarknadens volatilitet

DAX30 Index baserat på de 30 största börsnoterade bolagen i Tyskland.

Nasdaq Aktieindex med inriktning på techbolag

Stocks Aktier

Stock market Aktiemarknad

Stock exchange Synonym till aktiemarknad

Futures exchange Marknadsplats för finansiella kontrakt

Bourse Börs på engelska

Bond market Obligationsmarknaden

Funds Fonder

lnterest rate Ränta

10 year treasury Tio-årig obligation

Trader Person med yrke att köpa och sälja aktier

I vänstra spalten radas de ord som representerar kategorin upp och i högra ges en kort förklaring till orden. Sökorden utgör uppsatsens predicerande data.

Aktierelaterade handlingar

Sökningar för direkta handlingar på aktiemarknaden kan tänkas ha en predicerande effekt. Dels så indikerar det på framtida aktion, men även oro för andras faktiska eller potentiella handlingar. Således definieras en kategori baserat på detta. Samtliga ord kan utläsas från Tabell 1.2 nedan.

Tabell 1.2 Sökord för aktierelaterade handlingar

Sell stocks Att sälja aktier

Buy stocks Att köpa aktier

Invest Investeringar

Loan Låna

Investment Investeringar

(9)

6 Första chocken

I och med att volatilitet enligt teori tenderar att klustra sig inkluderas en kategori som kallas “första chocken”. Dessa ord syftar till att fånga upp när en första volatilitetschock har infallit på marknaden. I och med att en vecka av volatilitet, tenderar att leda till flera veckor av volatilitet (Granger & Ding 1993) så har orden som inkluderas i denna kategori fokuserat på alternativa investeringar såväl som sökningar på prognoser av marknaden och rädsla att förlora pengar. Detta då investerare, som nämnts i avsnittet för tidigare forskning, vid moment av chock söker sig till säkrare investeringar. Sökorden som faller inom kategorin ”första chocken” kan utläsas i Tabell 1.3.

Tabell 1.3 Sökord för ord som representerar den första chocken

Gold Guld, vanlig alternativ investering vid prisfall Stocks falling Aktierna faller

Buy the dip Investeringsstrategi där man investerar efter ett aktiefall

Hedge Investeringsstrategi för att motverka förlust vid instabil marknad Market outlook Prognos för marknaden

Stock market prediction Prognos för aktiemarknaden

Tidningar och nyhetsmedier

Tidningar och nyhetsmedier kan ses som en kombination av allmänna aktierelaterade ord och första chocken. Medier fungerar dels som ett allmänt verktyg för informationssökande som kan tänkas fånga det allmänna intresset för marknaden. Kategorin förväntas även fånga chocker då investerarna väntas söka sig till medierna för information och rådgivning vid osäkerhet. Således har studien valt att inkludera en kategori ord som representerar de finansiella nyhetsmedierna. Dessa återfinns i Tabell 1.4 nedan.

Tabell 1.4 Sökord för olika nyhetsmedier

Financial Times Daglig brittisk affärstidning

CNBC Världens största nyhetskanal för finans- och ekonominyheter

Bloomberg Finansiellt mediebolag

Wall Street Journal Daglig amerikansk affärstidning

(10)

7

Metod

Val av metod

Vid val av metod så är det viktigt att undersöka den data som samlats in för att besvara frågeställningen.

Vid undersökning bör man försöka avgöra om datan följer någon känd fördelning och om den är stationär över tid. Denna information förenklar processen att välja och tillämpa en lämplig metod i och med att olika krav ställs vid olika val av teknik. Datan som den här rapporten använder sig av följer inte någon känd fördelning och är inte stationär (i.i.d) över tid. Vidare så måste metodvalet ta hänsyn till den frågeställning som uppsatsen ämnar att besvara. Detta innebär att metoden bör inneha egenskapen att klassificera binära utfall. Med dessa krav så faller de parameteriska metoderna bort, eftersom dessa ställer krav på specifika egenskaper hos datan, såsom fördelning. Valet bör därmed falla på en icke- parameterisk teknik, som inte ställer krav på fördelning eller andra egenskaper hos datan. Tre klassificeringsmetoder inom det här segmentet har listats och beskrivits nedan.

K-Nearest Neighbor (KNN)

KNN bygger på närmsta grannprincipen och klassificerar genom att titta på antalet (K) närmsta grannar.

Utifrån det, så klassificerar algoritmen den aktuella observationen. Fördelen med KNN är att både resultaten och den underliggande matematiken är enkel att förstå och tolka. Metoden är även väldigt flexibel i hur den hanterar olika problem. En nackdel är svårigheten att välja det optimala värdet för K.

Support Vector Machine (SVM)

SVM är troligtvis en av de mest väldokumenterade klassificeringsteknikerna. Algoritmen finner det hyperplan som maximerar avståndet mellan de olika klasserna i datasetet. Vid tvådimensionell data kan hyperplanet beskrivas med hjälp av en rät linje. Vid icke-linjära klassificeringsproblem så applicerar algoritmen olika typer av kernels för att möjliggöra grupperingen (Hastie, Tibshirani och Friedman 2009). Fördelen med SVM är att den är relativt flexibel och bygger på enkla idéer i grund och botten.

En nackdelen är, som Burges (1998) menar på, svårigheten att välja optimal kernel.

Beslutsträd

Det finns ett stort utbud av olika varianter och typer av beslutsträd. I den enklaste av former bygger tekniken på sekventiella klassificeringar för att predicera en binär targetvariabel. Fördelen med metodiken är enkelheten att förklara och visualisera resultaten. Tekniken kan även hantera olika

(11)

8

datatyper, vilket är en annan fördel. Några nackdelar är att beslutsträd tenderar att vara väldigt orobusta och små ändringar i träningsdatan kan förändra hela utfallet.

Jämförelse och val

De beskrivna metoderna ovan kan alla användas för uppsatsens klassificeringsproblem. Graden av lämplighet skiljer sig däremot åt. Beslutsträd bygger på en skild underliggande metodik jämt emot SVM och KNN och anses ha en fördel när det finns ett behov att förklara varför ett beslut eller klassificering sker (Das 2017). Det här vägs dock upp av metodens ”giriga” egenskap, som gör att träden är väldigt instabila vid träning (Rokach och Maimon 2008). Denna negativa aspekt återfinns inte hos varken KNN eller SVM och är det som i slutändan gör att metoden väljs bort för att lösa uppsatsens klassificeringsproblem.

Efter en närmare avvägning mellan SVM och KNN, så ansågs K-Nearest Neighbor-algoritmen vara mer lämplig. Båda metoderna besitter liknande fördelar och nackdelar, men som tidigare nämnt så finns det en problematik vid val av optimal kernel för SVM-algoritmen (Burges 1998). Liknande problem återfinns dock för KNN-algoritmen, där antalet närmsta grannar som klassificeringen ska utgå ifrån måste specificeras. Det här kan dock lösas med hjälp av en tumregel eller optimalt antal vid träning. För att välja en optimal kernel vid användning av SVM, så måste en uppfattning om datans underliggande struktur identifieras. Det här är problematiskt i och med svårigheten att visualisera och tolka data vid höga dimensioner. Således ansågs KNN vara mer attraktiv tack vare dess enkelhet.

Curse of dimensionality

Vidare så finns ytterligare ett problem för KNN som bör beaktas. Det här grundas i teorin ”curse of dimensionality” som refererar till svårigheten att finna struktur i flerdimensionell data. Svårigheten bygger på att koordinaterna hamnar långt ifrån varandra i en högdimensionell rymd och leder till att olika distansmått tappar i funktionalitet (Rojas 2015). För att ta hänsyn till det här så har datan reducerats till ett färre antal komponenter med hjälp av principalkomponentsanalys (PCA), varvid problematiken kring ”curse of dimensionality” begränsas. Det ska tilläggas att SVM också har svårigheter att finna struktur i högdimensionell data (Hastie, Tibshirani och Friedman 2009).

(12)

9

Principalkomponentanalys (PCA)

Bakgrund

Principalkomponentsanalys (PCA) är en ”unsupervised learning”-metod. Tekniken reducerar variabler till ett färre antal komponenter genom linjär transformation. Syftet är att bevara informationen från originalvariablerna och överföra den till de nya komponenter som skapas. På så vis kan man med hjälp av endast ett fåtal komponenter förklara en större del av variansen i originaldatan (Hair et al 2014). Det enda kravet som försiggår PCA är att det måste finnas en underliggande struktur i originalvariablerna.

Det finns ingen tröskel eller regel för när den underliggande strukturen uppkommer. Huruvida det förekommer någon struktur ligger således på forskarna i den aktuella studien. Ett vanligt tillvägagångssätt för att undersöka detta är att studera de parvisa korrelationerna mellan originalvariablerna och undersöka ifall det förefaller att finnas relationer mellan dem (Hair et al 2014).

Teknisk bakgrund

Komponenterna skapas ur originaldatan genom transformation, där vektorer maximerar variansen hos orginalvariablerna och på så vis bildar komponenter. Transformationen utgår ifrån orginaldatans kovariansmatriser. Den första vektorn som skapas går genom medelvärdet hos originalvariablerna och maximerar den förklarade variansen, vilket innebär att komponenten 𝑢₁ fångar upp så mycket varians som möjligt utifrån originalvariablerna 𝑋. Den nästföljande komponenten 𝑢₂ är alltid ortogonal mot den föregående vektorn och utformas också på så vis att den fångar så mycket av variationen i 𝑋 som möjligt.

Genom den ortogonala strukturen kommer således komponenterna 𝑢₁ och 𝑢₂ vara okorrelerade, vilket även medför en avtagande förklaringsgrad per komponent (Abdi & Williams 2010).

𝑢₁= 𝑎𝑟𝑔𝑚𝑎𝑥 𝑉𝑎𝑟( 𝑋 𝑢¹), 𝑢₂= 𝑎𝑟𝑔𝑚𝑎𝑥 𝑉𝑎𝑟( 𝑋 𝑢²), 𝑢_𝑡 = 𝑎𝑟𝑔𝑚𝑎𝑥 𝑉𝑎𝑟( 𝑋 𝑢^𝑡), 𝜌(𝑢₁, 𝑢₂) = 0.

(13)

10

I Figur 2.1 visualiseras det ortogonala sambandet mellan komponenterna i ett tvådimensionellt fall, samt hur de skapas för fånga maximal varians från originaldatan.

Figur 2.1 Graf över vektorerna för komponent ett och två.

Ovan spridningsdiagram visar på det ortogonala sambandet mellan två komponenters vektorer i ett tvådimensionellt fall. Pilarna symboliserar vektor ett och två.

Antal reducerade komponenter

Antal reducerade komponenter som är rekommenderat att behålla bestäms utifrån ett antal riktlinjer. Ett vanligt kriterium är det så kallade ”Latent root criterion” som innebär att alla komponenter som har ett egenvärde under 1 skall exkluderas (förutsatt att datan är standardiserad). Den bakomliggande tanken är att varje komponent skall förklara variationen hos minst en originalvariabel. Egenvärde är ett värde som fås fram i transformationen av korrelationsmatriserna när komponenterna skapas. Det är värdet som vektorn i transformationen multipliceras med och representerar den variation som varje komponent förklarar (Hair et al 2014).

Nästa riktlinje är att den förklarade variansen av de komponenter som behålls ska vara mellan 70-90 %.

I Figur 2.2 visas ett exempel där de två första komponenterna förklarar över 70 % av variansen hos originalvariablerna. Således skulle två komponenter vara passande att behålla för vidare analys. Detta villkor ger ingen gräns på hur många komponenter som ska exkluderas utan endast en riktlinje ifall komponenterna inte förklarar tillräckligt av variansen hos originaldatan.

(14)

11 Figur 2.2 Kumulativt förklarad andel av variansen.

Ovan figur visar på den kumulativa förklaringsgraden beroende på antalet komponenter. Ifall två komponenter förklara 70 %, betyder det att komponent ett och två tillsammans förklarar 70 % av variansen hos orginaldatan.

Nästa riktlinje är att undersöka ifall den förklarade variansen per komponent minskar eller planar ut efter en viss punkt. För att undersöka detta så letar man efter en ”armbåge”. Denna har ringats in i Figur 2.3 och innebär att nästkommande komponenter inte förklarar nämnvärt mer av variansen. Att behålla mer än tre komponenter i det här fallet skulle troligtvis inte göra analysen bättre (Hair et al 2014).

Figur 2.3, Förklarad varians per komponent.

Ovan figur visualiserar förklaringsgraden per komponent och visar på kriteriet för ”armbågen” som ringats in.

(15)

12 Tolkning av komponenterna

Genom tolkning av komponenterna kan man bilda sig en uppfattning hur originalvariablerna är grupperade. Det här görs genom att titta på korrelationen mellan originaldatan och de reducerade komponenterna. En korrelationen över 0.5 (absolutvärde) kan ses som betydande och över 0.3 (absolutvärde) kan fortsatt ha ett visst tolkningsvärde (Hair et al 2014). Exempelvis kan en komponent förklara hur variabel a och b samverkar eller motverkar varandra. Detta gör att en tolkning kan ges om grupperingar inom originalvariablerna samt hur relationen mellan dem är uppbyggd.

Antaganden och övervägningar

För att en PCA ska kunna utföras med gott resultat så bör det finnas en underliggande struktur i datan.

Detta kontrolleras genom att undersöka de parvisa korrelationerna hos originalvariablerna för att se om det finns indikationer på en underliggande struktur. Om det inte existerar en struktur i kommer resultaten bli lidande. (Hair et al 2014).

K-Nearest Neighbor

Bakgrund

K-Nearest Neighbor (KNN) räknas som en av de enklare klassificeringsmetoderna inom maskininlärningssegmentet, både ur ett tolkningsperspektiv men även rent matematiskt. Tekniken klassificerar utifrån närmsta grannprincipen och klarar av både binära och ordinala klassificeringsproblem och är på så vis väldigt flexibel (Peterson 2013). I det här fallet så kommer dock algoritmen endast hantera en binär targetvariabel (1 = volatil vecka, 0 = ej volatil vecka).

Teknisk bakgrund

K-Nearest Neighbor bygger i grund och botten på beräkningar av euklidiska avstånd mellan de multidimensionella koordinaterna som ingår i den aktuella datan. Klassificeringen av en koordinat utgår, som namnet på metoden antyder, ifrån de K närmsta grannarnas klasstillhörighet. För att finna dessa, så beräknas euklidiskt avståndet mellan alla datapunkter och de K med lägst avstånd används vidare.

Avståndet mellan koordinaterna X = (𝑥₁, 𝑥₂, 𝑥₃ … 𝑥_𝑛) och Y = (𝑦₁, 𝑦₂, 𝑦₃... 𝑦_𝑛) beräknas vid n- dimensionell data enligt

(16)

13

𝑑(𝑋, 𝑌) = √(𝑥₁− 𝑦₁)² + (𝑥₂− 𝑦₂)²+. . . + (𝑥_𝑛− 𝑦_𝑛)² .

Utifrån de euklidiska avstånden, så definieras så kallade Voronoiceller. Dessa illustreras i Figur 2.3 vid tvådimensionell data, där inga klassificeringar specificerats. Cellerna skapas med hjälp av träningsdatan och observationer från valideringdatan som återfinns i en specifik cell, får samma klassificering som cellens klasstillhörighet. Valideringsprocessen gås genom i mer detalj senare i det här avsnittet.

Tvådimensionell data kommer genomgående användas som exempel, då högre grader av dimensionalitet leder till svårigheter att illustrera.

Figur 2.3, Voronoiceller

Ovan figur visualiserar tvådimensionell data där observationerna är inringade av dess Voronoiceller. Varje möjlig punkt inom cellerna, är närmre cellens koordinat än till konkurrerande koordinater.

Om 𝑅_𝑖 är cellen för den specifika koordinaten 𝑥_𝑖, 𝑥 är varje möjlig koordinat inom den specifika cellen och 𝑥_𝑚 är konkurrende koordinater, så defineras cellen enligt

𝑅_𝑖 = { 𝑥 ∈ ℝ^𝑝 ∶ 𝑑(𝑥, 𝑥_𝑖) ≤ 𝑑(𝑥, 𝑥_𝑚), ∀ 𝑚} .

Formeln och cellerna kan tolkas som att varje möjlig punkt inom en specifik cell ligger närmre cellens koordinat, än till konkurrerande koordinater. Som tidigare nämnt så mäts avstånd med hjälp av euklidiskt avstånd (Peterson 2013). Ovan ekvation gäller enbart för K=1, men samma princip gäller för högre värden av K.

(17)

14

Eftersom K-nearest Neighbor faller inom ”supervised learning”-metoder, så måste klassificering av datan specificeras för att algoritmen ska vara applicerbar. Det här illustreras i Figur 2.4, där röda och svarta kors symboliserar den binära beroende variabeln. K = 1 används i nedan exempel.

Figur 2.4, Voronoiceller med klassificeringar

Ovan figur visualiserar tvådimensionell data med klassificeringar där observationerna är inringade av dess Voronoiceller. Varje möjlig punkt inom cellerna, är närmre cellens koordinat än till konkurrerande koordinater. En valideringspunkt som hamnar i rött område kommer klassificeras som röd och vice versa.

Voronoicellarna antar samma färg som dess koordinater för att tydligt visa vilka områden som kommer klassificera som röd eller svart vid validering. Med andra ord, en koordinat i valideringsdatan som hamnar i rött område kommer klassificeras som röd och vice versa. Notera att vid K=1, så kommer algoritmen klassificera alla rätt vid träning, Det här leder generellt till att extremvärden och brus i datan påverkar valideringen. Vid högre tal på K, kan man undvika dessa problem och få något som skulle kunna se ut som i Figur 2.5.

(18)

15 Figur 2.5 – Voronoiceller vid högre värde av K

Ovan figur visualiserar tvådimensionell data med klassificeringar och hur Voronoicellerna bildas vid ett högre värde av K. Notera att den underliggande strukturen fångas upp. En valideringspunkt som hamnar i rött område kommer klassificeras som röd och vice versa.

Notera att svarta plustecken återfinns på röda sidan och röda på blå sidan, dessa har alltså klassificerats fel i träningsdatan. Däremot så har det högre talet av K eliminerat bruset och fångat den underliggande strukturen. Samtidigt bör inte ett för högt värde användas, då det kan leda till allt för generaliserade avgränsningar som missar den underliggande strukturen. Det optimala valet av K beror helt och hållet på inputdatan och det är en balansgång mellan bruseliminering och generalisering. En tumregel av val för K är enligt Osadchy (2008)

𝐾 = √𝑛,

där n är antalet observationer. Ett annat sätt att välja K är genom optimalt värde baserat på precisionen in-sample. Av dessa så anses inte tumregeln vara flexibel nog, i den mening att olika data ställer olika krav på K beroende på hur specifika kluster datan innehåller. Valet föll därmed på det optimala värdet för K vid träning. Det här då tillvägagångssättet anpassar värdet för K beroende på underliggande struktur. Avvägningen över vilket värde man ska använda för K beskrivs ofta som nackdelen med metoden, då det kan vara svårt att argumentera för vilket värde som ska användas (Osadchy 2008).

Därav kommer även en känslighetsanalys utföras, där resultaten för olika värden av K kommer att analyseras.

(19)

16 Antaganden och övervägningar

Antal observationer

Tillräckligt många observationer i träningsdatan måste finnas för att fånga den underliggande strukturen.

Det aktuella datasetet har en längd om 156 observationer vid träning. Huruvida detta är tillräckligt är svårt att veta och undersöka. Vid två - och tredimensionell data så hade detta kunnat studeras genom ett sambandsdiagram, men i och med att datan som KNN appliceras på kommer att innefatta fler dimensioner än så, så blir det för komplext att visualisera. Antal observationer antas hursomhelst vara tillräckligt för att KNN-algoritmen ska lyckas fånga den underliggande strukturen.

Jämna tal på K

Vid jämna tal av K, så kan det uppstå situationer där det återfinns lika många koordinater från de olika grupperna bland de K närmsta grannarna. Algoritmen löser det här genom att klassificera 𝑦̂ = 1 enbart vid majoritet. Lösningen är inte optimal och därför är det bättre att välja ett ojämnt värde för K (Hastie, Tibshirani och Friedman 2009).

Utvärdering

Utvärderingen av modellen kommer fokusera på precision. För att kunna utvärdera detta så måste datan först delas upp i en tränings- och valideringsdel. Det här har gjorts enligt nedan:

𝑇𝑟ä𝑛𝑖𝑛𝑔𝑠𝑑𝑎𝑡𝑎 (60%) = 2013/04/16 − 2016/04/24, 𝑉𝑎𝑙𝑖𝑑𝑒𝑟𝑖𝑛𝑔𝑠𝑑𝑎𝑡𝑎 (40%) = 2016/04/25 − 2018/04/16.

En relativt stor andel valideringsdata valdes till följd av avsaknad av volatilitet under de senaste åren och det är av intresse att testa modellen under olika marknadsförhållanden. Resultaten från både tränings- och valideringsdatan kommer utvärderas och jämföras. För att modellen ska anses vara robust, så bör resultaten efterlikna varandra. Tre huvudsakliga mått har använts för att bedöma resultatens tillförlitlighet. Dessa presenteras nedan:

𝑃𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 ∶ 𝑃(𝑦 = 𝑦̂), 𝑆𝑎𝑛𝑛𝑜𝑙𝑖𝑘ℎ𝑒𝑡𝑒𝑛 𝑎𝑡𝑡 𝑒𝑛 𝑜𝑏𝑠𝑒𝑟𝑣𝑎𝑡𝑖𝑜𝑛 ä𝑟 𝑘𝑜𝑟𝑟𝑒𝑘𝑡 𝑘𝑙𝑎𝑠𝑠𝑖𝑓𝑖𝑐𝑒𝑟𝑎𝑑,

𝑆𝑒𝑛𝑠𝑖𝑡𝑖𝑣𝑖𝑡𝑒𝑡 ∶ 𝑃(𝑦 = 1 | 𝑦̂ = 1), 𝑆𝑎𝑛𝑛𝑜𝑙𝑖𝑘ℎ𝑒𝑡𝑒𝑛 𝑎𝑡𝑡 𝑒𝑛 𝑝𝑟𝑒𝑑𝑖𝑐𝑒𝑟𝑎𝑑 𝑣𝑜𝑙𝑎𝑡𝑖𝑙 𝑣𝑒𝑐𝑘𝑎 𝑣𝑎𝑟 𝑣𝑜𝑙𝑎𝑡𝑖𝑙, 𝑆𝑝𝑒𝑐𝑖𝑓𝑖𝑐𝑖𝑡𝑒𝑡 ∶ 𝑃(𝑦 = 0 | 𝑦̂ = 0), 𝑆𝑎𝑛𝑛𝑜𝑙𝑖𝑘ℎ𝑒𝑡𝑒𝑛 𝑎𝑡𝑡 𝑒𝑛 𝑝𝑟𝑒𝑑𝑖𝑐𝑒𝑟𝑎𝑑 𝑙𝑢𝑔𝑛 𝑣𝑒𝑐𝑘𝑎 𝑣𝑎𝑟 𝑙𝑢𝑔𝑛.

(20)

17

Ytterligare resultat, som dessutom ligger till grund för ovan mått, kommer användas för utvärdering.

Dessa är antalet Sann positiv (SN), Falsk positiv (FP), Sann negativ (SN) och Falsk negativ (FN) och presenteras i Tabell 2.1 nedan.

Tabell 2.1

𝑦̂ = 0 𝑦̂ = 1

𝑦 = 0 SN FP

𝑦 = 1 FN SP

Ovan tabell beskriver vad som utgör en falsk negativ (FN), Falsk positiv (FP), Sann negativ (SN) och Sann positiv (SP) observation.

Resultaten kommer även känslighetstestas för att få en uppfattning över hur robust modellen är. Det här görs genom att ta fram resultaten för olika värden av K (1-10). Vidare så kommer resultaten från PCA också analyseras. Det här ger ingen direkt information gällande modellens precision, men en insikt i vad som ligger till grund för klassificeringsbesluten. Korrelationerna mellan originalvariablerna och komponenterna studeras för detta. Processen för val av antal komponenter kommer även den presenteras.

(21)

18

Resultat

PCA, reduktion av data

Det första steget vid val av antal komponenter som skall behållas är att undersöka det så kallade ”latent root criterion”. Som tidigare nämnt, så ska komponenter med ett egenvärde under 1 exkluderas. I Bilaga 6 kan det utläsas att alla de sex första komponenterna har ett egenvärde över 1. Det här innebär att valet att behålla sju eller fler komponenter utesluts.

I Figur 3.1 visualiseras den kumulativa förklaringsgraden givet antal komponenter.

Figur 3.1 Andel förklarad varians av ett antal komponenter

Ovan figur presenterar den kumulativa förklaringsgraden beroende på antal komponenter. Svart linje utgör gränsen för kriteriet som säger att den kumulativa förklaringsgraden ska förklara mer än 70 % av variansen i orginaldatan.

Villkoret säger att de behållna komponenterna tillsammans skall förklara 70 – 90 % av variansen hos originalvariablerna. Utifrån resultaten i ovan figur utesluts valet att behålla tre eller färre komponenter till följd av för låg förklaringsgrad enligt kriteriet. Komponent nummer fyra ligger på gränsen men är så pass nära 70 % att denna behålls för vidare analys.

(22)

19

Figur 3.2 visualiserar den förklarade variansen per komponent.

Figur 3.2 Procent förklarad varians per komponent

Ovan figur presenterar den förklarade variansen per komponent. Armbågen tycks återfinnas vid komponent 3-4.

I ovan figur undersöks kriteriet ”armbågen”. Man kan tydligt se en utplaning efter komponent tre/fyra i förklarad varians. Eftersom valet att behålla tre komponenter sedan tidigare inte är aktuellt, på grund av en för låg kumulativt förklarad varians, så kommer fyra komponenter att användas från principalkomponentanalysen i modellen.

Tolkning komponenter

I tolkningen av komponenterna ges indikationer på hur originalvariablerna är grupperade och vilka samband det finns mellan de olika originalvariablerna. Det här görs genom att undersöka de parvisa korrelationerna mellan orginaldatan och komponenterna (dessa hittas i Bilaga 2).

Komponent 1

Den första komponenten tolkas som en bred komponent i och med dess starka positiva korrelationer med nästan samtliga ord inom grupperna allmänna aktierelaterade ord och handlingar. Således tolkas denna som den totala sökintensiteten för aktierelaterade ord och som det allmänna intresset för marknaden.

(23)

20 Komponent 2

Den andra komponenten har färre starka korrelationer än den första. Fem sökord har en korrelation över 0.5 och samtliga är från kategorien tidningar och nyhetsmedier. Det här indikerar att orden i kategorin fångas upp av ”nyhetskomponenten”.

Komponent 3

I komponent tre existerar inte lika många starka korrelationer som hos den första eller andra. Enda ordet som har en tolkningsbar korrelation enligt kriteriet är ordet ”hedge”, som har ett negativt samband. Det existerar även svaga samband mellan sökorden ”stocks”, ”buy stocks”, ”invest” och komponenten. Den slutgiltiga tolkning är därmed att komponenten fångar upp girighet, där marknadsaktörerna är köpvilliga och inte särskilt intresserade av att säkra upp sin portfölj.

Komponent 4

Komponent fyra liknar komponent tre, till följd av avsaknade starka relationer. De samband som sticker ut är för orden ”bond market” (neg. Korr), ”stocks falling” (pos. Korr) och ”10 year treasury” (neg.

Korr). Korrelationerna ligger inte i linje med någon ekonomisk logik och ska inte övertolkas på grund av svaga samband.

Sammanfattning komponenter

För komponent tre och fyra finns det inte lika tydliga tolkningar som för de första två, detta dels till följd av den ortogonala strukturen, men även på grund av sökordens förhållandevis komplexa förhållanden.

Komponent tre och fyra hjälper dock fortfarande till att förklara originalvariablerna. Det finns även ett fåtal ord som inte tydligt fångas upp av någon av de fyra komponenterna, detta betyder dock inte att orden bör tas bort ur den ursprungliga modellen, då de fortsatt har en viss förklaringsgrad. Då syftet med variabelreduktionen var att krympa antalet originalvariabler och inte få fram fyra perfekta komponenter, så har ett acceptabelt resultat uppnåtts.

(24)

21

Resultat klassificering

Träning

Som tidigare nämnt så har värdet för K baserats på den optimala precisionen vid träning. I Bilaga 1 som visualiserar precision beroende på K, kan man fastställa att K = 2 klassificerar effektivast och är därmed det värde som kommer användas. Figur 3.3 visualiserar klassificeringarna vid träning för valt värde av K. Notera att punkter ovanför den horisontella linjen utgör targetdatan. En röd punkt ovanför svart linje symboliserar alltså en korrekt klassificerad volatil vecka.

Figur 3.3, klassificering vid träning

Ovan figur visualiserar klassificeringarna vid träning. Notera att punkter ovanför den horisontella linjen utgör targetdatan och antar alltså värdet 1, datan nedanför antar värde 0. En röd punkt ovanför svart linje symboliserar alltså en korrekt klassificerad volatil vecka.

Vid närmare analys av ovan klassificeringar, så kan man notera hur modellen tenderar att ta bättre beslut vid bestående volatilitet. Enskilda spikar är mer svårfångade trots att resultaten från träningen är biased. Kvantitativa resultat från träning presenteras i Tabell 3.1.

(25)

22 Tabell 3.1.

Träning

Sann positiv 33

Falsk positiv 0

Sann negativ 104

Falsk negativ 19

Ovan tabell presenterar antalet SP, FP, SN och FN vid träning.

Samtliga av modellens predicerade volatila veckor var volatila, vilket var som väntat i och med hur algoritmen hanterar situationer vid likaläge (klassificerar 𝑦̂ = 1 enbart vid majoritet). Nitton volatila veckor fångades dock inte upp vid klassificeringen. Huvudmåtten för att bedöma tillförlitligheten presenteras i Tabell 3.2.

Tabell 3.2.

Precision Sensitivitet Specificitet

Träning 87,4 % 100 % 84,5 %

Ovan tabell presenterar precisionen, sensitiviteten och specificiteten vid träning.

Sensitiviteten blir vid träning inte tolkningsbar, på grund av hur KNN hanterar likalägen. Specificiteten är lägre, vilket främst kan förklaras av svårpredicerade volatilitetsspikar. Återigen så är det viktigt att påpeka att resultaten från träningen är biased, då KNN känner till varje koordinats klasstillhörighet vid klassificering, samt att optimalt värde av K in sample har använts. Resultaten är dock viktiga för att kunna jämföra med valideringsresultaten och bedöma huruvida modellen är robust eller inte.

(26)

23 Validering

Figur 3.4 visualiserar klassificeringar vid validering. Punkter ovanför horisontell linje utgör targetdatan och röda punkter ovanför linjen symboliserar återigen korrekt predicerade volatila veckor.

Figur 3.4 Klassificeringar vid validering

Ovan figur visualiserar klassificeringar vid validering. Punkter ovanför horisontell linje utgör targetdatan och röda punkter ovanför denna symboliserar återigen korrekt predicerade volatila veckor.

Vid granskning av ovan graf, så kan man notera liknande mönster som vid träning. Modellen ser ut att klassificera väl vid ihållande hög volatilitet. Dessutom så ser de enstaka volatilitetsspikarna ut att fångas upp också, vilket antyder att en grad av autokorrelation i datan inte är nödvändig för vald metodik. I Tabell 3.3 återfinns de kvantitativa resultaten från valideringen.

Tabell 3.3

Validering

Sann positiv 10

Falsk positiv 4

Sann negativ 87

Falsk negativ 3

Ovan tabell beskriver antalet SP, FP, SN och FN vid validering.

Överlag så ser resultaten i Tabell 3.3 stabila ut. Till skillnad från vid träning, så var inte samtliga av de predicerade volatila veckorna faktiskt volatila. Vidare så missade modellen enbart tre veckor som

(27)

24

faktiskt var volatila, men klassificerades som motsatsen. I Tabell 3.4 återfinns ytterligare valideringsmått.

Tabell 3.4

Precision Sensitivitet Specificitet

Validering 93,2 % 71,4 % 96,6%

Ovan tabell presenterar precisionen, sensitiviteten och specificiteten vid validering.

Vid tolkning av ovan mått, så sticker specificiteten ut. Den höga noteringen har dock troligtvis sin förklaring i brist på volatilitet i valideringsdatan och avsaknad av volatilitetsspikar. Den låga volatiliteten ser dock ut att lura modellen något och ett förhållandevis lågt tal för sensitiviteten noteras.

Den totala precisionen vid validering får dock anses vara god.

Sammanfattning totala resultat

I Tabell 3.5 presenteras de sammanställda resultaten.

Tabell 3.5

Träning Validering Total

Precision 87,4 % 93,2 % 90 %

Sensitivitet 100 % 71,4 % 91,4 %

Specificitet 84,5 % 96,6 % 89,6 %

Ovan tabell sammanfattar resultaten för Precision, sensitivitet och specificitet. Notera hur valideringen ökade vid validering jämt emot träning, vilket inte var som förväntat.

Det som främst sticker ut vid jämförelse av resultaten är hur precisionen förbättrades vid validering, vilket inte var som förväntat. Som tidigare nämnt, så beror det här troligtvis på bristen av volatilitet vid validering. Samtidigt så visar det på styrka och flexibilitet hos modellen, då valideringsdatan inte liknade det dataset som KNN tränades på. Det här bör antyda att mönster för kommande volatilitet är förhållandevis tydliga i datan.

(28)

25

Känslighetsanalys

Sensitiviteten beroende på K vid validering visualiseras i Figur 3.5 nedan.

Figur 3.5 Sensitivitet beroende på K

Ovan figur visualiserar sensitiviteten beroende på K. En negativ trend kan utläsas vilket indikerar på relativt specifika kluster i datan.

I Figur 3.5 kan noteras att K = 2, som använts, ger bäst resultat. För övriga värden på K, så varierar sensitiviteten mellan 35 – 65 %. En negativ trend kan urskiljas i resultaten, vilket antyder att volatilitetskluster i datan är förhållandevis specifika då högre värden på K leder till mer generaliserade Voronoi-celler. Däremot så presterar K = 1 dåligt, vilket antyder att det är en balansgång mellan bruseliminering och generalisering. Att sensitiviteten faller så pass kraftigt för K = 3 och K=4 till skillnad från K = 2, kan tyckas vara något oroande och återigen finns det anledning att ifrågasätta huruvida modellen är robust eller inte.

(29)

26

Specificiteten beroende på K vid validering visualiseras i Figur 3.6 nedan.

Figur 3.6 Specificitet beroende på K

Specificiteten beroende på K vid validering visualiseras i ovan figur. Intressant är att valt värde för K, gav sämst resultat. Däremot så är skillnaderna så pass små, att ett tolkning inte är särskilt informativ.

I Figur 3.6 noteras att valt värde för K, intressant nog, ger sämst resultat. Däremot så skiljer det sig mycket lite i procent och resultaten ser stabila ut till skillnad från sensitiviteten. Någon tolkning av varför just K = 2 ger sämst specificitet anser vi inte möjligt eller för den delen särskilt givande i och med de små skillnaderna. De robusta resultaten ovan, kan dock ha sin förklaring i bristen på volatilitet vid validering.

(30)

27

Precisionen beroende på K vid validering visualiseras i Figur 3.7 nedan.

Figur 3.7 Precision beroende på K

Ovan figur visualiserar precisionen beroende på K. En negativ trend kan urskiljas vilket återigen indikerar på relativt specifika kluster i datan.

Enligt figur ovan, så ger K=2 bäst resultat. Valet av metodik för val av K anses därmed lyckat. För övriga värden, så varierar precisionen mellan 80 – 92 %, vilket får anses vara bra. Återigen, så tycks det vara en balansgång mellan bruseliminering och generalisering.

(31)

28

Slutsats

Vid en sammanvägning av resultaten verkar det finnas mönster i finansrelaterade sökningar på Google innevarande vecka, som indikerar huruvida kommande vecka väntas bli volatil eller ej. Vid visualisering av valideringsresultaten i Figur 3.4, skickar modellen en tidig varningssignal redan veckan före volatilitetschocken slog till mot marknaden i februari 2018. Vidare så prediceras samtliga veckor genom

”chocken” korrekt ur den aspekt att oroligheterna inte var över, vilket antyder att det finns tydliga mönster i sökordsdatan som indikerar på kommande volatilitet. Precisionen om 93,2 % bekräftar de goda visuella resultaten. Vad som exakt ligger till grund för mönstren i sökordsdatan är dock svårt att säga. Däremot så kan man vid visualisering av komponenterna i Bilaga 3, urskilja mönster som ligger i linje med Preis, Moat och Stanley (2012) och Kristoufek (2013), där en intensifiering av sökningar för allmänna finansrelaterade termer innebar en sorts varningssignal. Komponent 1 som fångade upp de allmänna finansrelaterade sökningar, tycks börja trenda uppåt inför den volatilitet som drabbade marknaden i februari 2018. Huruvida det här har någon koppling till resultaten från klassificeringen är dock svårt att säga.

Vid känslighetsanalysen så kan man urskilja att klustren i datan är relativt specifika. Ett högre värde på K och mer generella Voronoiceller ledde till sämre resultat. Det valda värdet för K, baserat på bäst precision vid träning, gav överlag bäst precision. Det här innebär att vald metodik för val av K blev lyckad. Resultaten för övriga värden för K var dock överraskande jämna och bra. Det här kan tolkas som att modellen är robust mot parameterspecifika ändringar och att de goda resultaten inte föranleddes av ett slumpmässigt bra val av K. Det tyder även på att klustren i datan är så pass tydliga, att de kan identifieras även när KNN klassificerar utifrån fler grannar. En nackdel med detta, som tidigare nämnts, är att precisionen blir sämre. Trots att resultaten överlag ser robusta och goda ut, så finns det anledning att höja ett varningens finger för att de kan vara biased av en lugn marknad. Visserligen visar modellen på flexibilitet när valideringsdatan inte liknar träningsdatan, men det finns signaler på att validering under mer varierande marknadsförhållanden är nödvändiga för att kunna göra en slutgiltig bedömning.

Efter att ha tagit del av samtliga resultat och övervägt huruvida det tycks finnas predicerande förmåga bland sökorden, så blir svaret på uppsatsens frågeställning att man kan använda Google trends för att predicera volatilitet på aktiemarknaden trots osäkerhet kring valideringsdatan.

(32)

29

Diskussion

Resultaten från undersökningen ligger i linje med tidigare forskning som visar på predicerande egenskaper hos Google trends inom olika fält. Sökningar verkar fånga upp marknadsaktörernas känslor, vilket även visats på i tidigare studier om än i andra sammanhang. Återigen fungerar sökordsdatan som ett intressant verktyg för att kartlägga olika emotionella segment bland Googles användare. Hur tillförlitliga resultaten är, kan dock inte exakt fastställas. Som tidigare nämnt, så finns det oro kring huruvida de lugna marknadsförhållandena under validering kan ha en positiv inverkan på resultaten. En längre utvärderingsperiod är därmed nödvändig för att fastställa modellens effektivitet.

För vidare forskning, så hade det varit intressant att jämföra modellen mot en mer traditionell teknik för modellering av volatilitet, så som GARCH. Detta tillsammans med en längre utvärderingsperiod hade gjort resultat mer tolkningsbara. Vidare så går det inte att fastställa helt att Google trends överlag har predicerande förmåga, då vi endast använder 30 ord. Att systematiskt välja ett större antal ord hade kunnat ge en klarare bild över prediktionsförmågan.

(33)

30

Bilagor

Bilaga 1

(34)

31 Bilaga 2

(35)

32 Bilaga 3

(36)

33 Bilaga 4 Förklarad varians per komponent

(37)

34 Bilaga 5 Kumulativt förklarad varians

(38)

35 Bilaga 6 Egenvärden

(39)

36 Bilaga 7 Kod

(40)

37

(41)

38

(42)

39

(43)

40

(44)

41

Källförteckning

Abdi, H. & Williams, L.J. 2010, "Principal component analysis", Wiley Interdisciplinary Reviews:

Computational Statistics, vol. 2, no. 4, pp. 433-459.

Baker, H.K. & Ricciardi, V. 2014, Investor behavior: the psychology of financial planning and investing, 1st edn, John Wiley & Sons, Inc, Hoboken, New Jersey.

Boström, L., 2015, Börsens psykologi: så vinner du över dina hjärnspöken och gör bättre aktieaffärer, Sterner, Vaxholm.

Burges, C.J.C. 1998, "A Tutorial on Support Vector Machines for Pattern Recognition", Data Mining and Knowledge Discovery, vol. 2, no. 2, pp. 121-167.

Granger, Ding. 1995, ”Some properties of absolute return: An alternative Measure of Risk”, Annales D’Économie et de statistique no. 40, pp 67-91

Das, Sibanjan. 2017. Decision Trees vs. Clustering Algorithms vs. Linear Regression. Dzone.

https://dzone.com/articles/decision-trees-v-clustering-algorithms-v-linear-re . Hämtad [2018-05-11].

Dugas, A.F., Jalalpour, M., Gel, Y., Levin, S., Torcaso, F., Igusa, T. & Rothman, R.E. 2013,

"Influenza forecasting with Google Flu Trends", PloS one, vol. 8, no. 2, pp. e56176.

Hair, J.F., Black, W.C., Babin, B.J. & Anderson, R.E. 2014, Multivariate data analysis, Seventh, Pearson new international edn, Pearson Education Limited, Harlow.

Hastie, T., Tibshirani, R. & Friedman, J. 2009, The Elements of Statistical Learning: Data Mining, Inference, and Prediction, Second Edition, Springer New York.

Investopedia. 2018. Standard & Poor's 500 Index - S&P 500. Investopedia.

https://www.investopedia.com/terms/s/sp500.asp . Hämtad [2018-05-11].

Investopedia. 2018. Fear And Greed Index. Investopedia. https://www.investopedia.com/terms/f/fear- and-greed-index.asp Hämtad [2018-05-12].

Kristoufek, L. 2013, "Can Google Trends search queries contribute to risk diversification?", Scientific reports, vol. 3, pp. 2713.

Osadchy, Rita. 2008. KNN. University of Haifa.

http://www.cs.haifa.ac.il/~rita/ml_course/lectures_old/KNN.pdf Hämtad [2018-05-12].

Pappas, Stephanie. 2013. Google Predicts Stock-Market Crashes, Study Suggests. LiveScience.

https://www.livescience.com/29016-google-predicts-stock-market.html Hämtad [2018-05-11].

Peterson, Leif E. 2009. K-nearest neighbor. Scholarpedia, 4(2):1883. Hämtad [2018-05-11].

Preis, T., Moat, H.S. & Stanley, H.E. 2013, "Quantifying trading behavior in financial markets using Google Trends", Scientific reports, vol. 3, pp. 1684

Rojas, Raúl. 2015. The Curse of Dimensionality. http://www.inf.fu-berlin.de/inst/ag- ki/rojas_home/documents/tutorials/dimensionality.pdf . Hämtad [2018-05-11].

Rokach, L. & Maimon, O.Z. 2008, Data Mining with Decision Trees : Theory and Applications, World Scientific Publishing Co Pte Ltd, Singapore.

(45)

42

Spruyt, Vincent. 2014. The Curse of Dimensionality in classification. VisionDummy.

http://www.visiondummy.com/2014/04/curse-dimensionality-affect-classification . Hämtad [2018-05- 11].

White, R.W., Tatonetti, N.P., Shah, N.H., Altman, R.B. & Horvitz, E. 2013, "Web-scale pharmacovigilance: listening to signals from the crowd", Journal of the American Medical Informatics Association : JAMIA, vol. 20, no.