• No results found

Analys av nyhetsrapporteringars påverkan på värdet av tillgångar på den amerikanska aktiemarknaden

N/A
N/A
Protected

Academic year: 2021

Share "Analys av nyhetsrapporteringars påverkan på värdet av tillgångar på den amerikanska aktiemarknaden"

Copied!
76
0
0

Loading.... (view fulltext now)

Full text

(1)

Analys av nyhetsrapporteringars påverkan på värdet av tillgångar på

den amerikanska aktiemarknaden

(2)

Sammanfattning

Det är allmänt känt att aktiekurser beter sig som om de vore slumpvandringar (random walk), och att därmed prediktioner av framtida avkastning är svåra eller omöjliga att förbättra genom att ansätta någonting annat än det senaste observerade värdet. Samtidigt finns det forskning som visar att prediktioner är möjliga. Till exempel finns det idag forskning som menar att nyhetsrapporteringar med positiva ord om tillgången ger tendenser till ökad avkastning. Syftet med denna uppsats är att undersöka om antalet nyhetsrapporteringar och sentimentet på olika värdepapper på den amerikanska marknaden kan användas för att predicera avkastning. Vi har beräknat ett så kallat Sentiment score, som mäter en relation mellan antal positiva, negativa och neutrala ord i brödtext och titlar, för över 300 000 artiklar. Baserat på detta har vi tittat närmare på två strategier för att skapa portföljer: en strategi som använder regressionsanalys som knyter samman avkastningar och sentiment, och en mindre sofistikerad strategi som helt enkelt väljer de mest omskrivna tillgångarna. I en utvärdering har vi jämfört strategierna med jämförelseindex. Utvärderingen indikerar att den första strategin inte gav en avkastning som var bättre än jämförelseindex. Den andra strategin gav däremot avkastning som var signifikant bättre än avkastningen från jämförelseindex.

(3)

1

Innehållsförteckning

Centrala begrepp ... 3

1. Introduktion och syfte ... 5

1.1 Bakgrund ... 5

1.2 Syfte och forskningsfråga ... 6

2. Insamling av data och grundläggande beräkningar ... 8

2.1 Datainsamling ... 8

2.2 Grundläggande beräkningar ... 10

3. Tidsserieanalys ... 12

3.1 Tidsserier och stokastiska processer ... 12

3.1.1 Autoregressiva processer ... 12 3.2 Tidsserieregression ... 15 3.3 Dickey-Fuller-testet ... 18 3.4 Test för autokorrelation... 20 3.5 Test för heteroskedasticitet ... 21 4. En underliggande modell ... 23

4.2 Autokorrelation och heteroskedasticitet ... 28

5. Förslag på portföljstrategier ... 32

5.1 Strategi 1 ... 32

5.2 Strategi 2 ... 33

6. Utvärdering av strategier ... 35

6.1 Utvärderingsmått... 35

6.1.1 Ett parat t-test ... 35

6.1.2 CAPM-modellen ... 36

6.1.3 Risken ... 37

(4)

2

6.1.5 Potentiella källor till bias ... 38

6.2 Utvärdering av Strategi 1 ... 39

6.3 Utvärdering av Strategi 2 ... 42

7. Resultat ... 44

7.1 Strategi 1 ... 44

7.2 Strategi 2 ... 47

8. Diskussion och slutsatser ... 51

Referenser ... 54

Bilaga 1: R-koden för sentimentanalys ... 57

Bilaga 2: HTTP-request ... 61

Bilaga 3: Köpta och sålda tillgångar i Strategi 1 ... 62

(5)

3

Centrala begrepp

Tabell 1 nedan visar och förklarar några centrala begrepp som vi använder i denna uppsats.

Tabell 1. Några centrala termer.

Ord/begrepp Förklaring

Avnoteras Företag kan avnoteras från marknaden och

tas bort ur börsen. Det kan hända av många anledningar, men en av anledningarna är att företaget har gått i konkurs, eller att

företaget har slagits ihop med ett annat företag (investopedia, 2021c).

Börsdag Marknaden är inte öppen under helger eller

röda dagar. Marknaden kan vara stängd på grund av administrativa skäl. Marknaden är enbart öppen fem dagar i veckan. I

tidsserierna i rapporten så ingår bara värden då marknaden var öppen. En börsdag blir då en tidpunkt i tidsserien då marknaden var öppen.

Justerad stängning Justerad stängning eller justerad

stäningspriset är priset på tillgången som har justerats efter administrativa skäl. Det vanliga priset ger missvisande bild på aktiekursens utveckling. Därför används “justerad stängning”, som justerar priset efter dessa förändringar på aktiekursen. Priset på tillgången vid stängning på marknaden, alltså kl. 16.00 (GMT−4). På engelska heter det “adjusted close” (Investopedia, 2021a).

Large caps Tillgångar med börsvärde på mer än

10 miljarder USD (investopedia, 2021d).

Sentiment score Poängen med “sentiment score” är att sätta

antal positiva ord i relation till antal negativa ord i en artikel. Det finns flera olika sätt att räkna ut sentiment score, men i studien använder vi bara ett sätt (ScienceDirect, 2021).

De mest nämnda De mest förekommande tillgångarna i

(6)

4

Jämförelseindex Ett jämförelseindex är oftast ett index i samma marknad som tillgångarna i en portfölj (Investopedia, 2021b). Att jämföra sin portföljs avkastningar mot ett index är ett sätt att undersöka hur väl avkastningarna i en portfölj presterar. I den här uppsatsen kommer vi att jämföra mot

(7)

5

1. Introduktion och syfte

1.1 Bakgrund

I tidigare forskning kring användandet av finansiella nyheter för att predicera framtida avkastning har Narayan och Bannigidadmath (2017) undersökt hur så kallade sentiment från nyheter påverkar flera olika världsindex. De studerade hur positiva och negativa ord i nyhetssammanhang korrelerar med avkastningarna av ett index med hjälp av

tidsserieregression för perioden 1996–2012. Studien ledde fram till tre slutsatser: (1) att både positiva och negativa ord predicerar framtida avkastningar, (2) positiva ord har en större inverkan på volatiliten för tillgången än negativa ord, och (3) det finns en korrelation på 0,3 mellan positiva nyhetpubliceringar och framtida avkastningar.

Heston och Sinha (2016) undersökte nyttan av sentimentanalys gällande predicering på framtida avkastning. De kom fram till att man inte kan predicera avkastning inom några dagar efter att nyheter har publicerats, men om man aggregerar nyheter över en vecka så kan man förutsäga avkastningen upp till ett kvartal. De kom även fram till att tillgångar som får nyhetsrapporteringar presterar bättre än tillgångar som inte har några alls. Om tillgången har haft nyhetsrapportering senaste veckan så kan man förvänta sig en bättre avkastning i

genomsnitt jämfört med om tillgången inte har haft några nyhetsrapporteringar.

Leitch och Sherif (2017) studerade tweets på plattformen Twitter med ett speciellt ”Sentiment score”. Det intressanta med artikeln var hur de beräknade ”Sentiment score”. I Leitch och Sherif (2017) rapport beräknar de ”Sentiment score” med antal positiva och negativa ord. I denna uppsats beräknar vi på liknande sätt som i Leitch och Sherif (2017), fast det som

kommer att skilja våra beräkningar från deras är att vi även har med neutrala ord; se avsnitt 2.

(8)

6

1.2 Syfte och forskningsfråga

Syftet med denna uppsats är att undersöka om antalet nyhetsrapporteringar och sentimentet på olika värdepapper på den amerikanska marknaden kan användas för att predicera

avkastning.

Studien har utgått från en deduktiv strategi under framtagandet av modellen. Detta innebär att vi använder en teori och sedan observerar hur väl den stämmer överens med verkligheten. Till skillnad från en induktiv strategi som innebär att man först tar fram empirin och sedan tar fram en teori utifrån det (Oates, 2006). Den deduktiva metoden bygger på tidigare teorier om hur nyhetsinslag påverkar framtida avkastningar av en tillgång. Syftet är att observera hur väl de framtagna teorierna stämmer överens med våra data.

Vi har valt att grunda modellen i linje med modellerna i Narayan och Bannigidadmath (2017), Heston och Sinha (2016) och Leitch och Sherif (2017). Vi kommer även ha samma definition på sentimentet som i forskningen av Narayan och Bannigidadmath (2017) som använde sig av definitionen av Loughran och McDonald (2011). Denna ansats summerar till frågeställning 1 nedan.

Vidare är syftet att undersöka vad som händer med en portfölj som enbart investerar i tillgångar som har nämnts flest gånger i dagspressen senaste halvåret. De 20 mest nämnda bolagen väljs ut enligt New York Times som samlar nyhetsartiklar från hundratals olika nyhetsorganisationer i USA. Denna ansats grundar vi i Heston och Sinha (2016), som antog att bolag med nyhetsrapporteringar presterar bättre än bolag som inte har

nyhetsrapporteringar. Denna ansats summerar till frågeställning 2 nedan.

Syftet är att svara på följande två frågeställningar:

(9)

7

(10)

8

2. Insamling av data och grundläggande beräkningar

2.1 Datainsamling

Data har samlats in via Financial Modeling Prep, FMP (2021) med hjälp av API (en källa till data som används vid gränssnitt, datorprogram eller programmeringskod etc). Det finns två API-slutpunkter som har använts. Den ena slutpunkten hämtar historiska nyhetsartiklar. Enligt FMP så sparas nyheter upp till två år. Den andra slutpunkten hämtar historiska priser på aktier. För att hämta data från API:n har vi använt R-kod (se bilaga 2 för koden). Koden har programmerats så att vi hämtar uppgifter från källan och bearbetar rådata till olika listor som sedan kan läggas in i en databas eller dataframe i R etc. Kodblock 1 och Kodblock 2 nedan visar exempel på responser från slutpunkterna (inläsningen av data). En http-respons innehåller data, i det här exemplet rådata. Strukturen på rådata består av en matris, eller lista, av nyhetsartiklar och aktiekurser för perioden 2019–2021.

Artiklarna från FMP (2021) är baserade på ett RSS-flöde från New York Times (nytimes, uå), som i sin tur är baserat på hundratals olika nyhetsorganisationer i USA. FMP distribuerar data i ett simpelt JSON-format (JSON är objektorienterad information). JSON-formatet gör det möjligt att lättare hantera data i R.

Börsvärden på samtliga tillgångar är inkluderade i studien och är hämtade från samma källa. Tillgångarna handlas på de amerikanska marknaderna NASDAQ och NYSE, där man kan köpa och sälja värdepapper. Marknaden är stor och hela utbudet på marknaderna består av cirka 5 000 tillgångar (om mer än 100 miljoner USD i börsvärde). Enligt investopedia (Investopedia 2021d) är definitionen av large caps bolag med ett börsvärde på mer än 10 miljarder USD. I undersökningen fanns det en total population på 682 tillgångar med börsvärde på mer än 20 miljarder USD, vilket är mer än totala antalet i SP500 (500

tillgångar). Därför har vi beslutat om att avgränsa oss i undersökningen till 20 miljarder USD. Våra jämförelseindex, SP500 och Dow Jones US Market Index (DJ USA), har hämtats från samma källa. SP500 är ett börsvärde riktat marknadsindex som omfattar 500 tillgångar på den amerikanska marknaden. DJ USA är ett värderiktat index som ska representera den

amerikanska marknaden, och består av 30 tillgångar inom flertal olika industrier. Det är vanligt att professionella investerare utvärderar sina strategier och metoder mot

(11)

9 Tabell 2 visar hur våra data är kategoriserade.

Tabell 2: Kategorisering av rådata.

Justerad stängning Titel Text Börsvärde

Avkastningarna har beräknats med variabeln “adjClose” från http-respons.

Titeln från en artikel. Brödtext från en

artikel. Marknadsvärdet på tillgången.

Kodblock 1: Exempel på http-respons från nyhetsartiklar, API av FMP (2021) gällande en nyhetsartikel om Apple Inc., publicerad 2021-04-16.

[ {

"symbol" : "AAPL",

"publishedDate" : "2021-04-16 11:33:00",

"title" : "Apple launches $200 million forestry fund it says will bring financial return for investors",

"image" : "https://cdn.snapi.dev/images/v1/0/v/im-324560width620size15005861664712778-770347.jpg",

"site" : "Market Watch",

"text" : "Apple has created a $200 million fund designed to remove carbon emissions from the air and support the sustainable forestry the company uses to package iPhones and more. Yet the fund will still generate a financial return for investors.",

"url" : "https://www.marketwatch.com/story/apple-launches-200-million-forestry-fund-it-says-will-bring-financial-return-for-investors-11618587180"

},

...]

Kodblock 2: Exempel på http-respons från aktiekurser, API av FMP (2021), gällande aktiekursen för Apple Inc. vid 2021-04-15.

(12)

10 "adjClose" : 134.5, "volume" : 8.964277E7, "unadjustedVolume" : 8.964277E7, "change" : 0.68, "changePercent" : 0.508, "vwap" : 134.38, "label" : "April 15, 21", "changeOverTime" : 0.00508 }, ... ]

2.2 Grundläggande beräkningar

Sentiment score baseras på positiva, negativa, och i vårt fall även neutrala ord i titeln och brödtexten av en artikel. Det finns förstås många definitioner på positiva, negativa och neutrala ord, men urskiljningen bör främst baseras på vilken kontext man analyserar. I denna uppsats har vi använt en definition skapad av Loughran och McDonald (2011) som definierar ord inom finans. Det Loughran och McDonald har gjort är att gå igenom ord i engelska lexikonet och definiera alla relevanta ord som antingen positiva, negativa eller neutrala ord inom finans. Loughran och McDonald har använts i många forskningsartiklar gällande sentimentanalys, speciellt inom finans, och är citerad av bland annat Narayan och Bannigidadmath (2017).

Vi använder R-paketet “SentimentAnalysis” som definierar positiva, negativa och neutrala ord enligt Loughran och McDonald (2011). I den här studien har 276 496 artiklar (endast brödtexten och titeln) analyserats för 564 tillgångar (large caps).

Baserat på denna kategorisering så beräknar vi sedan “Sentiment score” enligt

𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆𝑆 𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑆𝑆 =𝑃𝑃𝑃𝑃𝑆𝑆+𝑁𝑁𝑁𝑁𝑁𝑁+𝑁𝑁𝑁𝑁𝑃𝑃𝑃𝑃𝑆𝑆−𝑁𝑁𝑁𝑁𝑁𝑁 . (1)

där

𝑃𝑃𝑃𝑃𝑆𝑆 = 𝐴𝐴𝑆𝑆𝑆𝑆𝐴𝐴𝐴𝐴 𝑝𝑝𝑠𝑠𝑠𝑠𝑆𝑆𝑆𝑆𝑆𝑆𝑝𝑝𝐴𝐴 𝑠𝑠𝑠𝑠𝑜𝑜, 𝑁𝑁𝑁𝑁𝑁𝑁 = 𝐴𝐴𝑆𝑆𝑆𝑆𝐴𝐴𝐴𝐴 𝑆𝑆𝑆𝑆𝑛𝑛𝐴𝐴𝑆𝑆𝑆𝑆𝑝𝑝𝐴𝐴 𝑠𝑠𝑠𝑠𝑜𝑜,

(13)

11

Sentimentet ligger i intervallet [−1, 1]. Om nämnaren är 0 så sätts sentimentet till 0. Beräkningar i R redovisas i bilaga 1.

Vi använder även en tidsserie med antalet artiklar per dag; vi återkommer till detta i avsnitt 4.

Avkastningen avser en viss företagsnivå på den amerikanska marknaden och gäller alla bolag med minst ett börsvärde över 20 miljarder USD. Avkastningen beräknas enligt formeln (2) nedan. Tidsserien “justerad stängning” har använts för att beräkna avkastningen. Justerad stängning tar hänsyn till “split” (uppdelning) i aktien. Bolag väljer godtyckligt att dela upp aktien av många anledningar, men några av dem är att priset på aktien är för högt så att privata investerare inte har råd att köpa tillgången, eller att bolaget har köpts upp av ett annat bolag. Variabeln “justerad stängning” tar hänsyn till dessa scenarion på aktiekursen. Om man använder sig av vanliga priset så kan det ge missvisande resultat på förändringen på

avkastningen. Justerad stängning tar hänsyn till om bolaget någon gång under tidsperioden av administrativa skäl ändrar priset på aktien. Låt 𝑅𝑅𝑡𝑡 beteckna avkastningen vid tidpunkten 𝑆𝑆, det

vill säga den procentuella förändringen i priset (𝑃𝑃) hos en tillgång, från tidpunkt 𝑆𝑆 − 1 till tidpunkt 𝑆𝑆,

𝑅𝑅𝑆𝑆 = 𝑃𝑃𝑆𝑆−𝑃𝑃𝑆𝑆−1

𝑃𝑃𝑆𝑆−1 .

(2)

(14)

12

3. Tidsserieanalys

De data vi använder i denna uppsats är tidsserier. De tidsseriemetoder vi använder beskrivs framförallt i detta avsnitt.

3.1 Tidsserier och stokastiska processer

Vi antar att de tidsseriedata vi observerar följer stokastiska processer (se till exempel

Hamilton, 1994). En stokastisk process är en samling, eller sekvens, av stokastiska variabler över tid, {𝑋𝑋𝑡𝑡 } = 𝑋𝑋1 , 𝑋𝑋2, . . . , 𝑋𝑋𝑇𝑇, för tidpunkterna 𝑆𝑆 = 1,2, . . . , 𝑇𝑇. De stokastiska variablerna i

sekvensen {𝑋𝑋𝑡𝑡 } har potentiellt olika fördelningar, och varje enskild variabel genererar endast

ett utfall (tidsserien har endast ett utfall per tidpunkt), vilket kan jämföras med konventionell statistisk analys där vi typiskt sett observerar flera utfall per stokastisk variabel. Att

tidsserieanalys innefattar många variabler med enskilda utfall ställer särskilda krav på den inferens vi utför på en tidsserie.

Det vanligaste kravet är att processen är stationär. Det finns två olika former av stationäritet inom tidsserieanalysen: strikt stationäritet och svag stationäritet, varav den senare är den som förutsätts i denna uppsats. En svagt stationär stokastisk process (en kovariansstationär

process) har följande egenskaper:

1. Väntevärdet är konstant: 𝑁𝑁(𝑋𝑋𝑡𝑡) = 𝜇𝜇, för alla 𝑆𝑆 = 1,2, . . . , 𝑇𝑇.

2. Kovarianserna (eller autokorrelationerna) 𝑁𝑁{(𝑋𝑋𝑡𝑡 − 𝜇𝜇)(𝑋𝑋𝑡𝑡−𝑘𝑘− 𝜇𝜇)} = 𝛾𝛾𝑘𝑘 beror endast

på avståndet 𝑆𝑆 − 𝑘𝑘 och inte på tidpunkten 𝑆𝑆.

Det följer från punkt 2 att även variansen är konstant för en kovariansstationär process, eftersom 𝑉𝑉(𝑋𝑋𝑡𝑡) = 𝑁𝑁{(𝑋𝑋𝑡𝑡 − 𝜇𝜇)(𝑋𝑋𝑡𝑡− 𝜇𝜇)} = 𝛾𝛾0 .

3.1.1 Autoregressiva processer

En stokastisk process som ofta förekommer inom tidsserieanalysen är den autoregressiva processen (AR-processen):

(15)

13

där 𝑘𝑘 är processens ordningstal, 𝑠𝑠 är en konstant och 𝜀𝜀𝑡𝑡 är en stationär, stokastisk felterm (en

stokastisk process) som är oberoende och likafördelad över tiden. Med hjälp av en lag-operator 𝐿𝐿, sådan att 𝐿𝐿𝑠𝑠𝑋𝑋

𝑡𝑡 = 𝑋𝑋𝑡𝑡−𝑠𝑠, kan AR-processen skrivas om enligt

(1 − 𝜌𝜌1𝐿𝐿 − 𝜌𝜌2𝐿𝐿2 − ⋯ − 𝜌𝜌𝑘𝑘𝐿𝐿𝑘𝑘)𝑋𝑋𝑡𝑡 = 𝑠𝑠 + 𝜀𝜀𝑡𝑡.

Om rötterna till det polynomet 𝐴𝐴(𝑧𝑧) = 1 − 𝜌𝜌1𝑧𝑧 − 𝜌𝜌2𝑧𝑧2− ⋯ − 𝜌𝜌𝑘𝑘𝑧𝑧𝑘𝑘 = 0 ligger utanför

enhetscirkeln så är 𝑋𝑋𝑡𝑡 en stationär process. Om det finns minst en rot på enhetscirkeln så är

processen icke-stationär. Vi säger då att processen har en enhetsrot.

Vi kan testa huruvida en tidsserie är icke-stationär. I denna uppsats använder vi ett av de vanligaste testen, Dickey-Fuller-testet (se avsnitt 3.3).

Om tidsserien är icke-stationär så finns det olika sätt man kan transformera den så att den blir stationär. I vår uppsats kommer vi att ta differensen av tidsserien (se avsnitt 4.2 som

beskriver bearbetningen av tidsserierna), vilket är ett av de vanligaste angreppssätten för att erhålla en stationär tidsserie. Låt 𝛥𝛥 vara en differensoperator sådant att 𝛥𝛥𝑋𝑋𝑡𝑡 = (1 − 𝐿𝐿)𝑋𝑋𝑡𝑡,

och låt 𝑋𝑋𝑡𝑡 vara en AR(1)-process som har en enhetsrot (random walk),

𝑋𝑋𝑡𝑡 = 𝑠𝑠 + 𝑋𝑋𝑡𝑡−1+ 𝜀𝜀𝑡𝑡 .

Då gäller att differensen av 𝑋𝑋𝑡𝑡 är stationär,

∆𝑋𝑋𝑡𝑡 = (1 − 𝐿𝐿)𝑋𝑋𝑡𝑡 = 𝑋𝑋𝑡𝑡− 𝑋𝑋𝑡𝑡−1 = 𝑠𝑠 + 𝜀𝜀𝑡𝑡 .

Det går att visa att alla AR(𝑘𝑘)-processer med en enhetsrot är stationära efter transformation med differensen (se till exempel Hamilton, 1994).

3.1.2 Den långsiktiga variansen

(16)

14

Om 𝑋𝑋𝑡𝑡 är en stationär tidsserie så vet vi att väntevärdena och varianserna för seriens variabler

är oförändrade över tid:

𝑁𝑁(𝑋𝑋1) = 𝑁𝑁(𝑋𝑋2) = ⋯ = 𝑁𝑁(𝑋𝑋𝑇𝑇) = 𝜇𝜇,

𝑉𝑉(𝑋𝑋1) = 𝑉𝑉(𝑋𝑋2) = ⋯ = 𝑉𝑉(𝑋𝑋𝑇𝑇) = 𝜎𝜎2,

där 𝜇𝜇 och 𝜎𝜎2 > 0 är konstanter.

Antag, för enkelhetens skull, att varje variabel i tidsserien är normalfördelad så att vi kan skriva 𝑋𝑋𝑡𝑡 ∼ 𝑁𝑁(𝜇𝜇, 𝜎𝜎2), och låt 𝑋𝑋�𝑡𝑡 = 𝑇𝑇−1∑𝑇𝑇𝑡𝑡=1𝑋𝑋𝑡𝑡 vara tidsseriens medelvärde. Om tidsserien

är stationär så kan man visa att 𝑋𝑋�𝑡𝑡 𝑝𝑝

→ 𝜇𝜇 när 𝑇𝑇 → ∞, d.v.s att medelvärdet är en konsistent estimator av väntevärdet. Om 𝑋𝑋𝑡𝑡 ∼ 𝑁𝑁(𝜇𝜇, 𝜎𝜎2) så gäller således följande för medelvärdet 𝑋𝑋�𝑡𝑡:

𝑋𝑋�𝑡𝑡 𝑑𝑑

→ 𝑁𝑁(𝜇𝜇, 𝜎𝜎𝑋𝑋�2), när 𝑇𝑇 → ∞,

där 𝜎𝜎𝑋𝑋�2 = 𝑉𝑉(𝑋𝑋�

𝑡𝑡) är den asymptotiska variansen för medelvärdet.

Antag nu att tidsserien är oberoende över tid och att tidsseriens variabler därför är

sinsemellan okorrelerade så att 𝐶𝐶𝑠𝑠𝑝𝑝(𝑋𝑋𝑡𝑡, 𝑋𝑋𝑠𝑠) = 0 för alla skilda tidpunkter 𝑆𝑆 ≠ 𝑠𝑠. Då gäller, på

grund av oberoende, att

𝜎𝜎𝑋𝑋�2 = 𝑉𝑉(𝑋𝑋�𝑡𝑡) = 𝑉𝑉(𝑇𝑇−1∑𝑇𝑇𝑡𝑡=1𝑋𝑋𝑡𝑡) = 𝑇𝑇−2𝑉𝑉(∑𝑇𝑇𝑡𝑡=1𝑋𝑋𝑡𝑡) = 𝑇𝑇−1𝑉𝑉(𝑋𝑋𝑡𝑡) = 𝑇𝑇−1𝜎𝜎2,

och således att

√𝑇𝑇(𝑋𝑋�𝑡𝑡− 𝜇𝜇)→ 𝑁𝑁(0, 𝜎𝜎𝑑𝑑 2), när 𝑇𝑇 → ∞.

Om 𝑋𝑋𝑡𝑡 autokorrelerar så uppstår dock problem. Låt 𝐶𝐶𝑠𝑠𝑝𝑝(𝑋𝑋𝑡𝑡, 𝑋𝑋𝑡𝑡−𝑘𝑘) = 𝛾𝛾𝑘𝑘, där 𝛾𝛾𝑘𝑘 ≠ 0, 𝛾𝛾−𝑘𝑘 =

𝛾𝛾𝑘𝑘 och 𝛾𝛾𝑜𝑜 = 𝑉𝑉(𝑋𝑋𝑡𝑡) = 𝜎𝜎2. Då gäller att:

(17)

15 och således att

√𝑇𝑇(𝑋𝑋�𝑡𝑡− 𝜇𝜇) 𝑑𝑑

→ 𝑁𝑁 �0, 𝛾𝛾0+ 2 ∑∞𝑗𝑗=1𝛾𝛾𝑗𝑗�, när 𝑇𝑇 → ∞.

Variansen 𝑉𝑉(𝑇𝑇1/2 𝑋𝑋�

𝑡𝑡) = 𝛾𝛾0+ 2 ∑∞𝑗𝑗=1𝛾𝛾𝑗𝑗 brukar kallas för den långsiktiga variansen. Om vi

ska kunna genomföra inferens baserat på tidsserier som autokorrelerar så behöver vi på olika sätt använda oss av den långsiktiga variansen. Den skattas med till exempel

HAC-estimatorer, som beskrivs i nästa avsnitt.

3.2 Tidsserieregression

Linjär regression är ett vanligt hjälpmedel inom tidsserieanalys. Låt 𝑌𝑌𝑡𝑡 och 𝑋𝑋𝑡𝑡 beteckna två

olika tidsserier. En linjär regression av 𝑌𝑌𝑡𝑡 mot 𝑋𝑋𝑡𝑡 skrivs enligt följande:

𝑌𝑌𝑡𝑡 = 𝛼𝛼 + 𝛽𝛽𝑋𝑋𝑡𝑡+ 𝜀𝜀𝑡𝑡, (3)

där 𝛼𝛼 och 𝛽𝛽 är koefficienter och 𝜀𝜀𝑡𝑡 är en felterm som är en stationär, stokastisk process

med väntevärde 𝐸𝐸(𝜀𝜀𝑡𝑡 ) = 0.

Minsta-kvadrat-metoden (OLS) kan används för att skatta parametrarna (se till exempel Hamilton, 1994 och Greene, 2008). För att skattningarna av 𝛼𝛼 och 𝛽𝛽 i modell (3) ska vara konsistenta så behöver följande antaganden gälla:

1. Tidsserierna 𝑌𝑌𝑡𝑡 och 𝑋𝑋𝑡𝑡 är stationära.

2. Feltermen är svagt exogen, dvs. feltermen är kontemporärt okorrelerad med 𝑋𝑋𝑡𝑡 ,

𝐸𝐸(𝜀𝜀𝑡𝑡|𝑋𝑋𝑡𝑡) = 0, 𝑡𝑡 = 1,2,3, . . . , 𝑇𝑇 för alla tidpunkter 𝑡𝑡.

Modell (3) är statisk, dvs. modellens tidsindex är samtida. Om modellen skulle vara dynamisk, dvs. om modellen skulle innehålla tidsserier med tidsindex som är förskjutna gentemot varandra, så krävs för konsistenta skattningar att feltermen saknar autokorrelation:

(18)

16

Om vi ska utföra inferens på modellens parametrar så krävs dessutom att feltermen är homoskedastisk:

4. 𝑉𝑉(𝜀𝜀𝑡𝑡|𝑋𝑋𝑡𝑡) = 𝑉𝑉(𝜀𝜀𝑡𝑡) = 𝜎𝜎𝜀𝜀2, 𝑡𝑡 = 1,2,3, . . . , 𝑇𝑇.

Den linjära ekvationen (3) innehåller endast 1 förklarande tidsserie. Om ekvationen

innehåller fler än 1 förklarande tidsserie (multipel regression) så tillkommer även kriteriet att multikollinearitet (dvs. att korrelationen inte ska vara perfekt mellan tidsserier i högerledet) ska saknas mellan tidsserierna för att leda till konsistent inferens.

Vid signifikanstester av modellens parametrar används skattade varianser för de skattade parametrarna. OLS-skattningarna av 𝛼𝛼 och 𝛽𝛽 i modell (3) ges av

𝛽𝛽̂ =∑𝑇𝑇𝑡𝑡=1(𝑋𝑋𝑡𝑡−𝑋𝑋�𝑡𝑡)(𝑌𝑌𝑡𝑡−𝑌𝑌�𝑡𝑡) ∑𝑇𝑇𝑡𝑡−1(𝑋𝑋𝑡𝑡−𝑋𝑋�𝑡𝑡)2 , 𝛼𝛼� = 𝑌𝑌� − 𝛽𝛽̂𝑋𝑋�𝑡𝑡 𝑡𝑡 , där 𝑋𝑋�𝑡𝑡 =∑ 𝑋𝑋𝑡𝑡 𝑇𝑇 𝑡𝑡=1 𝑇𝑇 och 𝑌𝑌� =𝑡𝑡 ∑𝑇𝑇𝑡𝑡=1𝑌𝑌𝑡𝑡 𝑇𝑇 .

Den skattade variansen av 𝛽𝛽̂ ges av

𝑉𝑉�(𝛽𝛽̂) = 𝜎𝜎�𝜀𝜀2

∑𝑇𝑇𝑡𝑡−1(𝑋𝑋𝑡𝑡−𝑋𝑋�𝑡𝑡)2, (4)

där

𝜎𝜎�𝜀𝜀2 =𝑇𝑇−11 ∑𝑇𝑇𝑡𝑡=1𝜀𝜀̂𝑡𝑡2,

där 𝜀𝜀̂𝑡𝑡 = 𝑌𝑌𝑡𝑡− 𝛼𝛼� − 𝛽𝛽̂𝑋𝑋𝑡𝑡 är de anpassade residualerna.

För att hypotespröva till exempel 𝛽𝛽 så kan vi använda följande teststatistika:

𝑡𝑡 = 𝛽𝛽�−𝛽𝛽

(19)

17 Hypoteserna blir då:

𝐻𝐻0: 𝛽𝛽 = 0,

𝐻𝐻1: 𝛽𝛽 ≠ 0.

För detta test kommer vi att använda 10 % signifikansnivå. Vi förkastar således nollhypo-tesen om |𝑡𝑡| > 𝑡𝑡𝑇𝑇−2;0,05, där 𝑡𝑡𝑇𝑇−2;0,05 betecknar det kritiska värdet vid 5 %. Notera att antal

frihetsgrader för t-testet förändras om regressionsmodellen (3) skulle innehålla fler tidsserier i högerledet. I detta fall är frihetsgraderna 2, vilket skulle öka med 1 grad för varje serie som läggs till.

Om det finns autokorrelation i feltermen (om antagande 3 ovan inte är uppfyllt) och/eller det finns heteroskedasticitet i feltermen (om antagande 4 ovan inte är uppfyllt) så medför det att skattningarna av varianserna får en bias, och antingen överskattas eller underskattas. Det kan i sin tur leda till vilseledande inferens, eftersom parametrarna till exempel kan bli felaktigt signifikanta.

För att ta hänsyn till autokorrelationen behöver vi skatta den långsiktiga variansen (se avsnitt 3.1.2). För detta ändamål finns det så kallade HAC-estimatorer.1 I den här uppsatsen

kommer vi att använda Newey-West-estimatorn (se Newey och West, 1987). Principen för estimatorn är att byta ut den konventionella variansskattningen i ekvation (4) med en väntevärdesriktig estimator enligt följande:

𝑉𝑉��𝛽𝛽̂�𝐴𝐴𝐴𝐴 = 𝑉𝑉�(𝛽𝛽̂)𝑓𝑓̂𝑡𝑡 , (5) där 𝑓𝑓̂𝑡𝑡 = 1 + 2 ∑𝑚𝑚−1𝑗𝑗=1 �𝑚𝑚−𝑗𝑗𝑚𝑚 � 𝑝𝑝�𝑗𝑗, (6) 𝑝𝑝�𝑗𝑗 =∑ 𝑣𝑣�𝑡𝑡 𝑣𝑣�𝑡𝑡−𝑗𝑗 𝑇𝑇 𝑡𝑡=𝑗𝑗+1 ∑𝑇𝑇 𝑣𝑣�2𝑡𝑡 𝑡𝑡=1 , 𝐶𝐶�𝑡𝑡= (𝑋𝑋𝑡𝑡− 𝑋𝑋�𝑡𝑡) 𝜀𝜀̂𝑡𝑡.

(20)

18

Notera förändringen i ekvation (5) och jämför den med ekvation (4). Ekvation (6) är en korrigeringsfaktor som justerar för autokorrelation. Notera också att ekvation (6) är kopplad till den långsiktiga variansen som beskrevs i avsnitt 3.1.2. Ekvation (6) skattar

autokorrelationerna 𝑝𝑝�𝑗𝑗 som sedan skalas upp till autokovarianser i ekvation (5).

I ekvation (6) är 𝑚𝑚 en så kallad trunkeringsparameter som brukar sättas till 𝑚𝑚 = 0,75 𝑇𝑇1/3.

Korrigeringen i ekvation (5) används i R-paketet “sandwich” som används i den här studien.

3.3 Dickey-Fuller-testet

Vi behöver testa om de tidsserier vi använder i regressioner är stationära eller inte. I denna uppsats använder vi ett av de vanligaste testen, Dickey-Fuller-testet (Dickey och Fuller, 1979). Testet är utformat under nollhypotesen att en serie är icke-stationär och att tidsserien följer en AR-process.

Betrakta följande AR(1) modell:

𝑋𝑋𝑡𝑡 = 𝛼𝛼 + 𝜌𝜌𝑋𝑋𝑡𝑡−1+ 𝜀𝜀𝑡𝑡 .

Om 𝜌𝜌 ≥ 1 så är serien inte stationär, och om 𝜌𝜌 = 1 så har processen en enhetsrot (se avsnitt 4.1). Dickey-Fuller-testet använder därför hypoteserna

𝐻𝐻𝑜𝑜: 𝜌𝜌 = 1,

𝐻𝐻1: 𝜌𝜌 < 1.

Test-statistikan är ett enkelt t-test,

𝐷𝐷𝐷𝐷 =(𝜌𝜌� − 1)𝜎𝜎�

𝜌𝜌 ,

där 𝜌𝜌� är OLS-skattningen av 𝜌𝜌 och 𝜎𝜎�𝜌𝜌 är dess skattade standardavvikelse. Trots att testet är ett

(21)

19

Fördelningen finns tabulerad i flertalet böcker, se till exempel Hamilton (1994). I denna uppsats använder vi R-paketet “tseries” som känner till fördelningen. Det faktiska testet som används är en utvidgning av Dickey-Fuller-testet som tar hänsyn till autokorrelation. Testet utgår från följande regression:

𝑋𝑋𝑡𝑡 = 𝜌𝜌𝑋𝑋𝑡𝑡−1 + ∑𝑘𝑘𝑗𝑗=1𝜃𝜃𝑗𝑗𝛥𝛥𝑋𝑋𝑡𝑡−𝑗𝑗+ 𝐶𝐶𝑡𝑡,

där 𝜃𝜃𝑗𝑗 (𝑗𝑗 = 1,2, . . . , 𝑘𝑘) är parametrar och 𝐶𝐶𝑡𝑡 är en felterm. Testet, som brukar förkortas

ADF-testet (från Augmented Dickey-Fuller), bygger på motsvarande t-test av 𝜌𝜌. För att exekvera testet behöver antalet laggar 𝑘𝑘 väljas. Vi låter R-paketet “tseries” välja antalet laggar automatiskt genom selektionsmetoden 𝑘𝑘 = (𝑇𝑇 − 1)1/3, där T är antalet observationer.

Som vi har beskrivit i avsnitt 3.1 ska en stationär tidsserie ha konstant medelvärde och konstant varians. Figur 1 och 2 åskådliggör skillnaden mellan en stationär serie och en icke-stationär serie som vi har simulerat fram. Den icke-stationära serien fluktuerar kring ett stabilt medelvärde. Den icke-stationära serien behöver inte återvända till något observerat medelvärde.

Figur 1: Exempel på en stationär process.

(22)

20

Figur 2: Exempel på en icke-stationär process.

Anm.: Den röda linjen visar medelvärdet. Tidsserien har genererats fram genomen att över tid summera kumulativt slumpade värden mellan 1 och -1 (random walk). Dickey-Fuller-testet ger p-värde 0,702.

3.4 Test för autokorrelation

En vanlig strategi för att undvika autokorrelation i feltermerna är att lägga till tidsserier i högerledet (Hanke och Wichern, 2015). Vi använder signifikanstester av olika modellers parametrar i denna uppsats. Därför är det viktigt att testa för autokorrelation inom respektive modell, eftersom autokorrelation i regressionsmodellers felterm kan leda till inkorrekt inferens (se avsnitt 3.2). Breusch–Godfrey-testet (från Breush, 1978, och Godfrey, 1978) är ett vanligt test för att undersöka om det finns autokorrelation i feltermen. Proceduren av testet beskrivs enligt följande.

Beakta följande linjära ekvation:

𝑌𝑌𝑡𝑡= 𝛽𝛽0 + 𝛽𝛽1𝑋𝑋1,𝑡𝑡+ ⋯ + 𝛽𝛽𝑝𝑝𝑋𝑋𝑝𝑝,𝑡𝑡 + 𝜀𝜀𝑡𝑡,

där feltermen följer en AR(𝑚𝑚)-process:

𝜀𝜀𝑡𝑡 = 𝜌𝜌1𝜀𝜀𝑡𝑡−1+ 𝜌𝜌2𝜀𝜀𝑡𝑡−2+ ⋯ + 𝜌𝜌𝑚𝑚𝜀𝜀𝑡𝑡−𝑚𝑚+ 𝑢𝑢𝑡𝑡, (7)

där 𝑢𝑢𝑡𝑡 är likafördelad och oberoende över tiden. Om parametrarna 𝜌𝜌𝑖𝑖 (𝑖𝑖 = 1,2, . . . , 𝑚𝑚) i

(23)

21

regressionsmodell enligt ekvation (7) direkt eftersom antagandet om svag exogenitet (se avsnitt 3.2) bryts om 𝜀𝜀𝑡𝑡 korrelerar med någon av tidsserierna 𝑋𝑋𝑗𝑗,𝑡𝑡 (𝑗𝑗 = 1,2, . . . , 𝑝𝑝). Däremot

kan vi använda följande regression för att testa om någon av 𝜌𝜌𝑖𝑖 är skilda från noll:

𝜀𝜀̂𝑡𝑡= 𝛼𝛼0+ 𝛼𝛼1𝑋𝑋1,𝑡𝑡+ ⋯ + 𝛼𝛼𝑝𝑝𝑋𝑋𝑝𝑝,𝑡𝑡+ 𝜌𝜌1𝜀𝜀𝑡𝑡−1+ 𝜌𝜌2𝜀𝜀𝑡𝑡−2+ ⋯ + 𝜌𝜌𝑚𝑚𝜀𝜀𝑡𝑡−𝑚𝑚+ 𝐶𝐶𝑡𝑡.

Förklaringsgraden 𝑅𝑅2 från regressionen används sedan i teststatistikan 𝑛𝑛𝑅𝑅2 ∼ 𝜒𝜒2

𝑚𝑚 , där 𝑛𝑛 =

𝑇𝑇 − 𝑚𝑚, där 𝑇𝑇 är antalet observationer och 𝑚𝑚 är antal laggar för 𝜀𝜀𝑡𝑡. Nollhypotesen är att det

saknas autokorrelation upp till och med lag 𝑚𝑚,

𝐻𝐻0: 𝜌𝜌𝑚𝑚 = 0, för alla 𝑚𝑚.

𝐻𝐻1: 𝜌𝜌𝑚𝑚 ≠ 0.

Vi använder 5 % signifikansnivå för detta test. Om det kritiska 𝜒𝜒2-värdet vid 5 %

signifikansnivå är mindre än testets 𝜒𝜒2-värde så kan vi förkasta 𝐻𝐻

𝑜𝑜. I de fall vi redovisar

resultat från testet så kommer vi dock att använda oss av p-värden.

3.5 Test för heteroskedasticitet

Whites test är ett statistiskt test som undersöker huruvida variansen i feltermen är konstant (homoskedastisk) för en regressionsmodell (White, 1980). Om feltermen inte har konstant varians så är modellen heteroskedastisk och antagandet 4 i avsnitt 3.2 uppfylls inte, vilket kan leda till missvisande inferens. Proceduren av testet kan beskrivas på följande vis.

Beakta återigen följande linjära ekvation som kan skattas med OLS:

𝑌𝑌𝑡𝑡 = 𝛽𝛽0 + 𝛽𝛽1𝑋𝑋1,𝑡𝑡+ ⋯ + 𝛽𝛽𝑝𝑝𝑋𝑋𝑝𝑝,𝑡𝑡+ 𝜀𝜀𝑡𝑡. (8)

Baserat på anpassningen 𝑌𝑌�𝑡𝑡 från ekvation (8) anpassas sedan följande regression:

𝜀𝜀̂𝑡𝑡2 = 𝛿𝛿0 + 𝛿𝛿1𝑌𝑌�𝑡𝑡+ 𝛿𝛿2𝑌𝑌�𝑡𝑡2, (9)

(24)

22 Hypoteserna av intresse kan nu skrivas:

𝐻𝐻𝑜𝑜: 𝛿𝛿1 = 𝛿𝛿2 = 0. Homoskedasticitet gäller.

𝐻𝐻1: 𝛿𝛿1 eller 𝛿𝛿2 är inte noll. Heteroskedasticitet gäller.

Med hjälp av förklaringsgraden (𝑅𝑅2) från regressionen (9) kan man sedan använda i

teststatistikan 𝑇𝑇𝑅𝑅2 ∼ 𝜒𝜒

(2)2 , där 𝑇𝑇 är antal observationer.

Vi använder 5 % signifikansnivå för detta test. Om det kritiska 𝜒𝜒2-värdet vid 5 %

signifikansnivå är mindre än testets 𝜒𝜒2-värde så kan vi alltså förkasta 𝐻𝐻

𝑜𝑜. I de fall vi

(25)

23

4. En underliggande modell

I det här avsnittet beskriver och anpassar vi en modell som är inspirerad av tidigare forskning. Modellen kommer att använda tidsserier för avkastning (𝑅𝑅𝑡𝑡), “Sentiment score” och antal

artiklar. Figuren 3 visar hur vi har orienterat oss för att komma fram till den underliggande modellen. Vi har godtyckligt valt 14 tillgångar som vi använder som exempelserier vid prövning av till exempel stationäritet, autokorrelation och heteroskedasticitet.

(26)

24

Baserat på resultaten som följer i detta avsnitt så har vi landat i följande underliggande modell:

𝑅𝑅𝑡𝑡= α + 𝛽𝛽𝛥𝛥𝛽𝛽𝛽𝛽𝑛𝑛𝑡𝑡𝑖𝑖𝑚𝑚𝛽𝛽𝑛𝑛𝑡𝑡 𝑠𝑠𝑠𝑠𝐶𝐶𝑟𝑟𝛽𝛽𝑡𝑡−1 + ρ𝛥𝛥𝛥𝛥𝑛𝑛𝑡𝑡𝛥𝛥𝛥𝛥 𝛥𝛥𝑟𝑟𝑡𝑡𝑖𝑖𝑘𝑘𝛥𝛥𝛥𝛥𝑟𝑟𝑡𝑡−1+ 𝜀𝜀𝑡𝑡, (10)

där 𝛼𝛼, 𝛽𝛽 och 𝜌𝜌 är parametrar som kan skattas med OLS. Periodiciteten i

regressionsmodellerna är per vecka. För enkelhetens skull kan man tänka sig att

observationerna ligger på varje måndag i perioderna. I tabell 3 kan man se sammanfattningen av tidsserierna i modellen och hur de relaterar till den tidigare forskningen.

Tabell 3: Sammanfattning av tidsserierna i modellen.

Tidsserie Beskrivning Lagg Relaterar till

Avkastning Den procentuella förändringen av det justerade

stängingspriset idag till nästa veckas stängningspris. Se ekvation (2).

Ingen

tidsförskjutning Narayan och Bannigidadmath (2017), Heston och Sinha (2016) och Leitch och Sherif (2017).

Sentiment score Sentimentet av aggregerade nyheter en vecka bakåt i tiden subtraherat med aggregerade nyheter föregående vecka. Relaterar till ekvation (1). Förskjuten en

tidpunkt Narayan och Bannigidadmath (2017), Heston och Sinha (2016) och Leitch och Sherif (2017).

Antal artiklar Alla artiklar

publicerade den här veckan subtraherat med alla artiklar publicerade föregående vecka.

Förskjuten en

(27)

25

Heston och Sinha (2016) fann att bolag med nyhetsrapporteringar hade bättre avkastningar än bolag med inga nyhetsrapporteringar inom den tidsperiod de studerade. Därför har vi

förankrat tidsserien antal artiklar utifrån den forskningen. Vi följer också Narayan och Bannigidadmath (2017), och Heston och Sinha (2016), i att aggregera nyheter under en hel vecka. Sentiment score är alltså baserat på en lista med alla ord från alla artiklar under en hel vecka. Givet den listan, så kan vi analysera antalet positiva, negativa och neutrala ord och beräkna “Sentiment score” enligt ekvationen (1) i avsnitt 2. Ett undantag som vi har gjort i beräkningarna är att antalet ord i veckan inte får överstiga 30 000 ord eftersom vi inte har datorkraft för det. I de fall då antalet ord överstiger 30 000 så har vi beskurit listan från det första indexet vid tidpunkten 𝑡𝑡 till det 30 000:e ordet. Apple Inc. är exempel på ett företag som har många nyhetsinslag och överstiger 30 000 ord vid vissa tidpunkter.

Som vi beskrev i avsnitt 3.1 är stationäritet avgörande för att tidsserieregression ska leda till konsistenta parameterestimat. Vi kommer att behandla avkastningar som stationära tidsserier eftersom avkastningar i princip alltid är stationära (Stărică och Granger, 2005). För de övriga tidsserierna, “Sentiment Score” och “Antal artiklar” kommer vi däremot att applicera Dickey-Fuller-testet för att motivera transformationerna av högerledsserierna i ekvation (10). Vi kommer dock inte genomföra Dickey-Fuller-testet med avseende på alla tillgångsvärden, vilket skulle bli för många testresultat att redovisa. Istället redovisar vi testen med avseende på några exempelserier. För att landa i en slutlig modell så kommer vi även att titta på autokorrelation och heteroskedasticitet i de modeller som anpassas med avkastningarna från dessa exempelserier.

Figur 4 visar tidsserien “Sentiment score” för tillgången Amazon Inc. och figur 5 visar dess differens. Tabell 4 visar resultaten av Dickey-Fuller-testet för dessa serier. Leitch och Sherif (2017) utgick i sin forskning ifrån att “Sentiment score” är stationär. I vårt exempel är den dock inte stationär enligt Dickey-Fuller-testet, och vi har därför valt att använda första-differensen. Figur 5 visar transformationen av den tidsserien och i tabell 4 ser vi att den är stationär enligt Dickey-Fuller-testet.

(28)

26

Tabell 4 visar även motsvarande Dickey-fuller-test med avseende på ytterligare 13

exempelserier. Resultatet ger överlag gott stöd för våra transformationer. Baserat på de tester som vi har gjort så väljer vi av enkelhetsskäl att utgå ifrån att alla tidsserier i undersökningen är stationära efter motsvarande transformationer och att stationäritetstest inte behöver

genomföras löpande för att använda Strategi 1.

Figur 4: Sentiment score.

Anm.: “Sentiment score” som är baserat på nyheter aggregerade per vecka för Amazon Inc. Tidsserien ska transformeras, eftersom DF-testet gav p-värde 0,461, vilket betyder att vi inte kunde förkasta nollhypotesen om icke-stationäritet.

Figur 5: Differensen av Sentiment score.

(29)

27

Figur 6: Antal artiklar per vecka.

Anm.: Antal artiklar per vecka för Amazon Inc. DF-testet gav p-värde 0,088, vilket betyder att vi inte kunde förkasta nollhypotesen om icke-stationäritet.

Figur 7: Differensen antal artiklar.

(30)

28

Tabell 4: Dickey-Fuller-test, p-värden.

Tillgång Sentiment score Antal artiklar Differensen av

Sentiment score Differensen av antal artiklar

TSLA 0,354 < 0,01 < 0,01 < 0,01 AAPL 0,355 0,621 < 0,01 < 0,01 NTES 0,535 0,426 < 0,01 < 0,01 AMZN 0,461 0,088 < 0,01 < 0,01 SHOP 0,025 0,015 < 0,01 < 0,01 BIDU 0,01 0,040 < 0,01 < 0,01 MSFT 0,076 0,049 < 0,01 < 0,01 PYPL < 0,01 0,120 < 0,01 < 0,01 ALC 0,297 0,644 0,105 0,221 TTD 0,031 0,016 < 0,01 < 0,01 MRNA 0,016 0,097 < 0,01 < 0,01 EW 0,052 0,546 0,010 0,059 ITW 0,447 0,622 0,019 < 0,01 TD 0,461 0,569 0,154 < 0,01

Anm.: Resultaten indikerar att differensen av antal artiklar och differensen av Sentiment score är stationära enligt det här testet.

4.2 Autokorrelation och heteroskedasticitet

(31)

29

“Antal artiklar” i högerledet i ekvation (10) talar kanske till vår fördel för att slippa autokorrelation. Istället för att testa varenda skattad modell för autokorrelation och heteroskedasticitet så kommer vi här att gå igenom samma exempelserier som för stationäritetstesterna ovan. Resultaten från autkorrelationstesterna och

heteroskedasticitetstesterna visas i tabell 5.

Tabell 5: Test för autokorrelation och test för heteroskedasticitet. Tillgång i modell Autokorrelationstest, första

ordningen (p-värde) Heteroskedasticitetstest (p-värde)

TSLA 0,601 0,767 AAPL 0,516 0,455 NTES 0,154 0,924 AMZN 0,772 0,880 SHOP 0,471 0,291 BIDU 0,354 0,641 MSFT 0,843 0,673 PYPL 0,862 0,217 ALC 0,142 0,944 TTD 0,742 0,552 MRNA 0,289 0,125 EW 0,608 0,651 ITW 0,101 0,423 TD 0,466 0,059

Anm.: Avser test av felterm i regressionsmodell (10) med respektive tillgång som vänsterledsserie. Test för autokorrelation avser Breusch-Godfrey-testet (se asvnit 3.4). Test för heteroskedasticitet avser Whites test (se avsnitt 3.5).

Resultatet från testerna i tabell 5 indikerar att det inte finns någon autokorrelation i feltermen för de modeller som skattats med avseende på de tillgångsvärden som vi använt som

(32)

30

Kodblock 3: Exempel på resultatet av ett autokorrelationstest för modell med tillgången Toronto-Dominion Bank (TD). Vi fick ett p-värde på 0,467 och förkastar inte nollhypotesen vid 5 % signifikansnivå, vilket innebär att modellen inte har autokorrelation i feltermen enligt testet.

Breusch-Godfrey test for serial correlation of order up to 1

data: lm1

LM test = 0.19503, df = 1, p-value = 0.4666

Kodblock 4: Exempel på resultatet av ett autokorrelationstest för modell med tillgången Tesla Inc (TSLA). Vi fick även här ett högt p-värde på 0,601 och förkastar inte nollhypotesen vid 5 % signifikansnivå, vilket innebär att modellen inte har autokorrelation i feltermen enligt testet.

Breusch-Godfrey test for serial correlation of order up to 1

data: lm1

LM test = 0.22302, df = 1, p-value = 0.6006

Vad gäller testen för heteroskedasticitet i modellens felterm så indikerar resultaten i tabell 5 att det inte finns någon heteroskedasticitet vid 5 % signifikansnivå, eftersom samtliga p-värden är över 5 %. I enstaka fall ligger p-värdet nära 5 %, vilket är förväntat om man utför många tester. Om testet är balanserat så ska vi ju förkasta nollhypotesen 5 % av gångerna även om nollhypotesen skulle vara sann (typ-I-fel). Överlag anser vi att vi har hyfsat gott stöd för att anta att feltermen är homoskedastisk även om modell (10) skulle anpassas med

(33)

31

Kodblock 5: Exempel på resultat från heteroskedasticitetstest för modell med tillgången Illinois Tool Works Inc (ITW). Vi fick ett p-värde på 0,423 och förkastar inte nollhypotesen vid 5 % signifikansnivå, vilket innebär att modellen inte har heteroskedasticitet i feltermen enligt testet.

# A tibble: 1 x 5

statistic p.value parameter method alternative

<dbl> <dbl> <dbl> <chr> <chr> 1 7.13 0.423 4 White's Test greater

Kodblock 6: exempel på heteroskedasticitetstest för modell med tillgången Edwards

Lifesciences Corp (EW). Vi fick ett p-värde på 0,651 och förkastar inte nollhypotesen vid 5 % signifikansnivå, vilket innebär att modellen inte har heteroskedasticitet i feltermen enligt testet.

# A tibble: 1 x 5

statistic p.value parameter method alternative

(34)

32

5. Förslag på portföljstrategier

Baserat på den underliggande modellen med nyhetsrapporteringar i avsnitt 4 kommer vi att föreslå en metod (Strategi 1) för att köpa och sälja aktier inom en portfölj. Utöver denna metod så tittar vi även på ytterligare en metod (Strategi 2) som enbart investerar i de tillgångar som har flest antal nyhetsrapporteringar.

5.1 Strategi 1

Strategi 1 bygger på modell (10) i avsnitt 4, som kommer att anpassas per tillgång:

𝑅𝑅𝑖𝑖,𝑡𝑡 = 𝛼𝛼𝑖𝑖+ 𝛽𝛽𝑖𝑖𝛥𝛥𝛥𝛥𝛥𝛥𝛥𝛥𝛥𝛥𝛥𝛥𝛥𝛥𝛥𝛥𝛥𝛥𝛥𝛥 𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝛥𝛥𝑖𝑖,𝑡𝑡−1 + 𝜌𝜌𝑖𝑖𝛥𝛥𝛥𝛥𝛥𝛥𝛥𝛥𝛥𝛥𝑙𝑙 𝛥𝛥𝑠𝑠𝛥𝛥𝛥𝛥𝑎𝑎𝑙𝑙𝛥𝛥𝑠𝑠𝑖𝑖,𝑡𝑡−1+ 𝜀𝜀𝑖𝑖,𝑡𝑡, (11)

för 𝛥𝛥 = 1,2, . . . , 𝛥𝛥, där 𝛥𝛥 är 564 tillgångar.

Givet en tillgång, skattas modellen med OLS baserat på historiska data för högerledsserierna upp till tidpunkten 𝛥𝛥 − 1. Med hjälp av de skattade parametrarna kan vi få fram en prediktion på den framtida avkastningen så snart vi har observationer för tidpunkten 𝛥𝛥 enligt

𝑅𝑅�𝑖𝑖,𝑡𝑡+1 = 𝛼𝛼�𝑖𝑖 + 𝛽𝛽̂𝑖𝑖𝛥𝛥𝛥𝛥𝛥𝛥𝛥𝛥𝛥𝛥𝛥𝛥𝛥𝛥𝛥𝛥𝛥𝛥𝛥𝛥 𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝛥𝛥𝑖𝑖,𝑡𝑡 + 𝜌𝜌�𝑖𝑖𝛥𝛥𝛥𝛥𝛥𝛥𝛥𝛥𝛥𝛥𝑙𝑙 𝛥𝛥𝑠𝑠𝛥𝛥𝛥𝛥𝑎𝑎𝑙𝑙𝛥𝛥𝑠𝑠𝑖𝑖,𝑡𝑡. (12)

För att bedöma om modellen är relevant för en given tillgång så kommer vi att titta på om de skattade parametrarna är signifikanta vid 10 % signifikansnivå. I avsnitt 4 testade vi modellen för autokorrelation och heteroskedasticitet för några utvalda serier. Testen antydde att det inte fanns någon autokorrelation eller heteroskedasticitet. Men eftersom vi nu kommer att

applicera modellen på många olika tillgångar så väljer vi att ändå använda HAC-estimatorer för att bedöma om modellens parametrar är signifikanta eller inte.

(35)

33

Baserat på modellen och våra godtyckliga val så formulerar vi följande metod: Steg 1: Stäm av att tillgången har minst 19 observationer.

Steg 2: Skatta regressionsmodellen (11).

Steg 3: Kontrollera att tecknet på parametrarna är positiva. Om tecknet för antal artiklar är negativt, ta tidsserien ur modellen och skatta en ny modell med endast “Sentiment score”. Steg 4: Kontrollera att parametrarna är signifikanta vid 10 % signifikansnivå med hjälp av Newey-West-estimatorer.

Steg 5: Givet observationer vid tidpunkten 𝛥𝛥, predicera avkastningen för tidpunkten 𝛥𝛥 + 1 med ekvation (12).

Steg 6: Om prediktionen ger ett värde på över 2 %, addera då tillgången till portföljen och håll position i en vecka.

5.2 Strategi 2

Syftet med Strategi 2 är att besvara den andra frågeställningen vi hade i avsnitt 1. Heston och Sinha (2016) fann att tillgångar som har fått nyhetspubliceringar i nyhetskällor presterar bättre på marknaden än tillgångar som inte har fått några nyheter. Strategi 2 kommer därför att välja bland företag av de 20 mest nämnda i nyhetsrapporteringar senaste halvåret.

Definitionen av vad som är de mest nämnda baseras på RSS-flödet i New York Times. Alla artiklar i undersökningen har hämtats från FMP (2021). Data är baserat på ett RSS-flöde av New York Times som baserar sitt flöde på “main US news” (nytimes.com, u.å). Flödet är på så vis baserat på många olika nyhetssajter i USA. Till exempel nämndes Apple Inc. i över 100 unika nyhetsorganisationer under 2019–2021. Enligt modern portföljteori ska man investera i så pass många tillgångar att man minimerar risken (Markowitz, 1959). Enligt Investopedia (2021i) betyder det att man normalt sett ska investera i åtminstone 20–30 tillgångar. Därför har vi valt att investera i tjugo tillgångar.

Till skillnad från Strategi 1 så exekveras Strategi 2 på dagsfrekvens. Antalet observationer är 97 686 och det totala stickprovet löper mellan 2019-05-01 och 2021-02-28. Utvärderings-fönstret är från 2019-07-11 till 2021-02-28. UtvärderingsUtvärderings-fönstret är inte lika stort som

(36)

34

De tjugo tillgångar som då har haft flest nyhetsrapporteringar kommer att väljas ut till portföljen. I den här studien kommer vi enbart titta på large caps, eftersom vi behöver avgränsa oss.

(37)

35

6. Utvärdering av strategier

Vi utvärderar de strategier (Strategi 1 och Strategi 2) vi föreslagit i avsnitt 5 genom att studera hur deras avkastningar står sig i jämförelse med två marknadsindex: SP500 och DJ USA. Se avsnitt 2 för beskrivningar av dessa index.

6.1 Utvärderingsmått

För att utvärdera våra strategier behövs statistiska tester. Vi har valt att utvärdera strategierna med hjälp av två parametriska test, i form av ett konventionellt t-test och den så kallade CAPM-modellen, samt två deskriptiva mått i form av portföljavkastningarnas

standardavvikelse (risken) och Sharpekvoten. Vi kommer även diskutera eventuella källor till bias som kan ge missvisande resultat i utvärderingen.

6.1.1 Ett parat t-test

Låt 𝑅𝑅𝑡𝑡𝑀𝑀 vara avkastningen för en av våra metoder, säg Strategi 1, och låt 𝜇𝜇𝑀𝑀 = 𝐸𝐸(𝑅𝑅𝑡𝑡𝑀𝑀) vara

den förväntade avkastningen. Låt också 𝑅𝑅𝑡𝑡𝐼𝐼vara avkastningen för ett marknadsindex vi vill

jämföra mot och låt 𝜇𝜇𝐼𝐼 = 𝐸𝐸(𝑅𝑅𝑡𝑡𝐼𝐼) vara den förväntade avkastningen. För att testa hypotesen att

𝜇𝜇𝑀𝑀 = 𝜇𝜇𝐼𝐼 så är det inom tidsserianalysen vanligt att man betraktar 𝑅𝑅𝑡𝑡𝑀𝑀 och 𝑅𝑅𝑡𝑡𝐼𝐼 som parade

observationer, och istället tittar på differensen 𝐷𝐷𝑡𝑡 = 𝑅𝑅𝑡𝑡𝑀𝑀− 𝑅𝑅𝑡𝑡𝐼𝐼 (se till exempel Diebold och

Mariano, 1995). Förutsatt att 𝑅𝑅𝑡𝑡𝑀𝑀 och 𝑅𝑅𝑡𝑡𝐼𝐼 är stationära processer (se avsnitt 3.1) så är också

𝐷𝐷𝑡𝑡 en stationär process. Dessutom är 𝜇𝜇𝑀𝑀, 𝜇𝜇𝐼𝐼 och 𝜇𝜇𝑀𝑀𝐼𝐼 = 𝜇𝜇𝑀𝑀− 𝜇𝜇𝐼𝐼 konstanter. En

hypotesprövning kring huruvida den förväntade avkastningen från vår strategi är större än avkastningen från marknadsindexet kan då specificeras mot bakgrund av följande hypoteser:

𝐻𝐻0: 𝜇𝜇𝑀𝑀𝐼𝐼 = 0

𝐻𝐻1: 𝜇𝜇𝑀𝑀𝐼𝐼 > 0.

Nollhypotesen kan testas med ett t-test,

𝛥𝛥 =𝜇𝜇�𝑀𝑀𝑀𝑀

𝑠𝑠 ∼ 𝛥𝛥𝑇𝑇−1 ,

där 𝜇𝜇̂𝑀𝑀𝐼𝐼 = 𝑇𝑇−1∑𝑇𝑇𝑡𝑡=1𝐷𝐷𝑡𝑡 och 𝑠𝑠 är den skattade standardavvikelsen för 𝜇𝜇̂𝑀𝑀𝐼𝐼. Vi använder 5 %

(38)

36

Eftersom avkastningarna inte förväntas autokorrelera (om avkastningen skulle autokorrelera så skulle den vara predicerbar med en AR-modell), så kan varianserna skattas med

konventionella estimatorer, och vi behöver inte använda estimatorer som tar hänsyn till den långsiktiga (aggregerade) variansen via HAC-estimatorer (jämför med avsnitt 3.2).

6.1.2 CAPM-modellen

Capital Assets Price Model (CAPM) är en modell för att beskriva relationen mellan risk och förväntad avkastning (se till exempel Markowitz 1959). Syftet med CAPM-modellen är att utvärdera portföljens avkastningar i till exempel Strategi 1 mot jämförelseindex DJ USA eller SP500 (se till exempel Barber m.fl., 2001). Låt 𝑅𝑅𝑝𝑝,𝑡𝑡 vara en tidsserie med avkastningar från

en av våra egna portföljer (till exempel Strategi 1) och låt 𝑅𝑅𝑖𝑖𝑖𝑖𝑖𝑖𝑖𝑖𝑖𝑖,𝑡𝑡 vara en tidsserie med

avkastningar från ett av våra jämförelseindex (till exempel DJ USA). CAPM-modellen utgår från följande regression:

𝑅𝑅𝑝𝑝,𝑡𝑡 = 𝛼𝛼 + 𝛽𝛽𝑝𝑝𝑅𝑅𝑖𝑖𝑖𝑖𝑖𝑖𝑖𝑖𝑖𝑖,𝑡𝑡+ 𝜀𝜀𝑡𝑡,

där 𝛼𝛼 och 𝛽𝛽𝑝𝑝 är parametrar som kan skattas via OLS (se avsnitt 3.2).

𝛽𝛽𝑝𝑝 (beta) visar hur mycket aktiekursen svänger i förhållande till marknaden. Parametern 𝛼𝛼

mäter portföljens överavkastning, och investerare föredrar därför höga värden på 𝛼𝛼. Om 𝛼𝛼 är 1 % så har investeringarna i portföljen överpresterat jämfört med marknaden (index eller en annan portfölj som jämförelsen görs mot) med i genomsnitt 1 % inom den tidsperioden. Parametern 𝛼𝛼 kallas även för “Jensen’s alpha”. I uppsatsen kommer vi testa om 𝛼𝛼 är signifikant större för våra strategier jämfört med marknadsindex. Se avsnitt 3.2 för skattningarna av 𝛽𝛽̂ och dess hypotesprövning. Standardavvikelsen för 𝛼𝛼� skattas av

(39)

37 Hypoteserna blir då:

𝐻𝐻𝑜𝑜: 𝛼𝛼 = 0,

𝐻𝐻1: 𝛼𝛼 > 0,

som testas med följande t-test: 𝛥𝛥 =𝛼𝛼�−𝛼𝛼𝜎𝜎�

𝛼𝛼� ∼ 𝛥𝛥𝑇𝑇−2. Vi använder signifikansnivån 5 %. Eftersom

vi använder ett enkelsidigt test så förkastar vi nollhypotesen om 𝛥𝛥 > 𝛥𝛥𝑖𝑖−2;0,05, där 𝛥𝛥𝑖𝑖−2;0,05

betecknar det kritiska värdet vid 5 % signifikansnivå.

Notera att detta t-test är ekvivalent med t-testet i avsnitt 6.1.1 under restriktionen 𝛽𝛽 = 1.

6.1.3 Risken

Vid portföljanalys brukar man beräkna standardavvikelsen för portföljens avkastning, vilket kan användas som ett mått på risk (se till exempel Markowitz, 1959). Låt 𝑅𝑅�𝑡𝑡= 𝑇𝑇−1∑𝑇𝑇𝑡𝑡=1𝑅𝑅𝑡𝑡

vara den genomsnittliga avkastningen för tidsperioderna 𝛥𝛥 = 1,2, . . . , 𝑇𝑇. Risken för en portfölj eller tillgång mäts då med den skattade standardavvikelsen,

𝜎𝜎�𝑃𝑃 = �∑ (𝑅𝑅𝑡𝑡− 𝑅𝑅�𝑡𝑡) 2 𝑇𝑇 𝑡𝑡=1 𝑇𝑇 − 1 .

6.1.4 Sharpekvoten

Sharpekvoten är en metod för att bedöma relationen mellan risk och förväntad avkastning, och kan användas för att jämföra olika portföljstrategier (se till exempel Investopedia, 2021g). Metoden är skapad av William F. Sharpe. Låt 𝜇𝜇𝑃𝑃 vara den förväntade avkastningen

och 𝜎𝜎𝑃𝑃 vara standardavvikelsen (risken) för en portfölj. För att beräkna sharpekvoten tar man

den förväntade avkastningen, delat med risken:

(40)

38

Idén är att om du har högre förväntad avkastning än risk så kommer värdet vara över 1. Ju högre avkastningen blir och ju lägre risken blir, desto högre blir kvoten. Investerare söker efter höga värden på kvoten.

6.1.5 Potentiella källor till bias

Under arbetet med denna uppsats fann vi en viktig källa till potentiell bias i våra resultat. Värdet på det justerade stängningspriset 𝑃𝑃fastställs när börsen stänger kl. 16.00 (GMT−4). Vissa nyhetsartiklar kan dock släppas efter detta klockslag. Detta ledde till att Strategi 1 i viss mån betingades på information från framtiden (se figur 8). I vårt stickprov utgör andelen artiklar som släpps efter kl. 16.00 i genomsnitt 20 % av alla artiklar som publiceras på en dag. Källan till bias har beaktats genom att utesluta artiklar publicerade efter kl. 16.00 amerikansk tid vid tidpunkten 𝛥𝛥. Denna källa till bias gäller inte för Strategi 2 eftersom beräkningen av framtida avkastningen i det fallet är gjord genom att ta nästa dags justerade stängningspris. En annan viktig distinktion är att Strategi 2 summerar antal artiklar senaste halvåret, och därmed reducerar risken för den här typen av problem.

Figur 8: Illustration av problematiken.

Vi fann ytterligare en källa till bias. Listan på bolag är från 2021, och inte från 2019-05-01 då tidsperioden börjar. Ett problem som blir bekymmersamt om man till exempel går tillbaka flera decennier, eftersom man på förhand enbart tittar på företag som har överlevt finansiellt. För Strategi 1 bestäms urvalet (listan) vid 2021. För att korrigera för detta så har vi inkluderat alla large caps som någon gång har haft börsvärde på mer än 20 miljarder USD i

(41)

39

uppsatsens diskussionsavsnitt (se avsnitt 8). I Strategi 2, när vi hämtar de 20 mest nämnda i dagspressen, så har källan till bias beaktats genom att inkludera avnoterade tillgångar i undersökningen. Det var 31 tillgångar som någon gång under perioden 2019–2021 blev avnoterade på den amerikanska marknaden och vid något tillfälle hade ett börsvärde på mer än 20 miljarder USD. En annan viktig åtgärd har varit att hämta historiska börsvärden på samtliga tillgångar i undersökningen och uppdatera listan samt att “rotera” kring de cirka 5 000 företag i undersökningen efter historiska börsvärden vid tidpunkten 𝛥𝛥. Vi har gjort detta i och med att beräkningen av börsvärde bygger på aktiepriset och om vi då har företag från 2021 “large caps” så kommer vi betinga på information från framtiden. Börsvärdet i vår rapport ändras då per kvartal när kvartalsrapporten publiceras. Detta resulterade i att listan uppdateras 7 gånger i utvärderingen.

6.2 Utvärdering av Strategi 1

För att utvärdera våra strategier har vi skapat ett R-program som loopar igenom alla tillgångar och genererar avkastningar för de tidpunkter som finns i utvärderingsperioden.

Avkast-ningarna kommer att utvärderas med utvärderingsmåtten som är beskrivna i avsnitt 6.1.

Utvärderingen bygger på att vi delar upp vårt stickprov i två delar: period 1 (som är ett inledande skattningsfönster) och period 2 (som är vårt utvärderingsfönster). Period 1 avser 2019-05-01 till 2019-12-30, och period 2 avser 2020-01-01 till 2021-02-28, där tidsenheterna löper per vecka (måndag till måndag). Det är 35 veckor i period 1 och 60 veckor i period 2. Metoden (Strategi 1) kommer först att exekveras över period 1, och sedan flytta sig fram över period 2 i ett rullande fönster och resultera i 60 avkastningar utifrån den

portföljsammansättning som Strategi 1 väljer. Selektionen sker “out of sample”.

(42)

40

Figur 9: Idén med att börja skatta modell 1 i period 1 och testa den i period 2.

Anm.: Testet börjar 2020-01-01 och allteftersom man går in i period 2 läggs nya observationer in i modellerna upp till 1 år tillbaka.

(43)

41

inga Dickey-Fuller-test, autokorrelationstest eller heteroskedasticitettest löpande. Portföljens avkastningar prövas mot DJ USA och SP500 i ett t-test och CAPM-modellen. Figur 10 illustrerar idén med urvalsstrategin, och hur själva selektionen fungerar. Figur 11 beskriver algoritmen för utvärderingen av Strategi 1 i ett så kallat aktivitetsdiagram.

Figur 10: Idén med urvalsstrategin för tillgångar i portföljen.

(44)

42

Figur 11: Förenklad beskrivning av algoritmen för utvärdering av Strategi 1 (aktivitetsdiagram).

6.3 Utvärdering av Strategi 2

(45)

43

som haft nyhetsrapporteringar presterar bättre än tillgångar som inte haft

nyhetsrappor-teringar, så vill vi även jämföra med en extra portfölj som vi själva har konstruerat mot denna bakgrund. Denna extra portfölj består av tillgångar som inte har haft några nyhetsrappor-teringar under hela perioden. Portföljen med tillgångar utan nyhetsrappornyhetsrappor-teringar har konstruerats genom att slumpvis välja tillgångar i perioden 2019-07-11 till 2021-02-28.2

Rent tekniskt går utvärderingen till på motsvarande vis som utvärderingen av Strategi 1. Skillnaden är att Strategi 2 utförs på dagsfrekvens, och har därför fler utvärderingspunkter. För att utvärdera Strategi 2 loopar vi genom alla tidpunkter från 2019-07-11 till 2021-02-28, och för varje tidpunkt loopar vi sedan igenom alla tillgångar. I loopen frågar vi om tillgången har nämnts bland de tjugo mest nämnda senaste halvåret enligt källa i New York Times. Om tillgången är bland de 20 mest nämnda vid tidpunkten 𝛥𝛥 så håller vi position 1 börsdag. Avkastningarna från portföljen sparas och utvärderas mot SP500, DJ USA och en extra portfölj. Utvärderingsfönstret består av 416 tidpunkter (dagar), exklusive helgdagar.

Strategi 2 har avnoterade tillgångar inkluderade i undersökningen, som bestod av 31 tillgångar. För denna strategi gör vi också en korrigering för att inte betinga på framtiden inom utvärderingsfönstret. Korrigeringen består i att vi uppdaterar listan över bolag löpande istället för att låta den se ut som den gjorde vid 2021. Vi väljer att uppdatera listan på tillgångar kvartalsvis när bolagens kvartalsrapporter publiceras.

(46)

44

7. Resultat

I detta avsnitt redovisas resultatet av vår analys.3 I avsnitt 5 presenterade vi två strategier:

Strategi 1 och Strategi 2. Här presenterar vi hur väl strategierna presterade “out-of-sample” i de utvärderingsfönster som vi har definierat som “period 2”. Notera att strategierna har olika stora utvärderingsfönster (se avsnitten 6.2 och 6.3). För att kunna dra några slutsatser om hur väl strategierna presterade har vi valt att utvärdera dem med formella tester (CAPM-modellen och t-test) och deskriptiva mått (Sharpekvoten och risken) som vi beskrivit i avsnitt 6.

7.1 Strategi 1

Vår första frågeställning var om Strategi 1 som är grundad i forskning kring sentiment presterar bättre än marknadsindex. Tabell 6 visar den genomsnittliga avkastningen, risken och Sharpekvoten mellan våra jämförelseindex och Strategi 1. Utifrån den genomsnittliga avkastningen i tabell 6 kan vi konstatera att strategierna presterar någorlunda jämnt för den tidsperiod vi använt. Risken som visas i tabellen är dock betydligt högre för Strategi 1 än för våra jämförelseindex. Risk är givetvis viktigt att ta hänsyn till vid investeringar. För att ta hänsyn till risken kan vi också titta på Sharpekvoten, som till exempel visar att SP500 hade avkastningar som var större i relation till risken jämfört med Strategi 1. Hypotesen i vår frågeställning är om Strategi 1 kunde överprestera våra jämförelseindex och enligt

Sharpekvoten så har Strategi 1 approximativt samma kvot som i våra jämförelseindex. Det kan möjligtvis indikera att hypotesen i frågeställningen är mindre sannolik.

Tabell 7 visar den procentuella förändringen av utvecklingen över tid för samtliga strategier och besvarar delar av frågeställningen kring utvecklingen. Här kan man se att Strategi 1 landar i ungefär samma procentuella utveckling som SP500. Strategi 1 och SP500 hade en bättre procentuell förändring än DJ USA. Vi kan konstatera att resultatet från tabell 7 visar på att Strategi 1 följer approximativt utvecklingen i index. I figur 13 visar vi även exempel på

3 All statistikanalys är gjord i R med hjälp av följande paket:

Trapletti, A., och Hornik, K. (2021). tseries: Time Series Analysis and Computational Finance. R package version 0.10-45.

Feuerriegel, S., och Pröllochs, N., (2021). SentimentAnalysis: Dictionary-Based Sentiment Analysis. R package version: 1.3-4.

Hothorn, T., Zeileis, A., Farebrother, R., Cummins. C., Millo G., och Mitchell, D., (2021). lmtest: Testing Linear Regression Models: R package version: 0.9-38.

Zeileis, A., Lumley, A., Graham, N., och Koell S., (2021). sandwich: Robust Covariance Matrix Estimators: R package version: 3.0-0.

(47)

45

köpta och sålda tillgångar under perioden. Utvecklingen för vår strategi följer utvecklingen för index ganska väl. Den svarta linjen är konstant på vissa ställen eftersom Strategi 1 inte nödvändigtvis köper eller säljer några tillgångar vid varje potentiellt köp- och säljtillfälle.

För att besvara frågeställningen och hypotesen i frågeställningen används hypotesprövning inom CAPM-modellen och ett fristående t-test. Om vi kan förkasta nollhypotesen i våra tester så presterar Strategi 1 bättre än våra jämförelseindex (se tabell 8). Enligt testerna är

avkastningarna från Strategi 1 inte statistiskt signifikant större än avkastningarna från SP500 och DJ USA. Resultatet tolkar vi som att Strategi 1 är sämre än index, eftersom Strategi 1 enbart investerar i 3–6 tillgångar per vecka och att avkastningarna inte var bättre. Modern portföljteori antyder att antalet tillgångar i portföljstrategin är för få. Den höga procentuella förändringen kan möjligtvis förklaras av forskningen av Heston och Sinha (2016), alltså att tillgångar med nyhetsrapporteringar presterar bättre än tillgångar som inte har nyhetsrappor-teringar. Utvecklingen i figur 12 tyder endast på att vid 2020-01-01 så hade man haft bättre utveckling om man hade haft investeringar i Strategi 1 jämförelsevis mot DJ USA. I utveck-lingen ökade under perioden 2020-12-01 till 2021-02-28, och kan bero på att Strategi 1 började investera i Tesla Inc. Tesla hade 2 478 nyhetsrapporteringar inom den tidsperioden, vilket var 10 gånger mer än det normala antal artiklar i perioden i vårt stickprov.

Tabell 6: Deskriptiv jämförelse av Strategi 1 och två marknadsindex.

Mått DJ USA (index) SP500 (index) Strategi 1

Genomsnittlig avkastning (per vecka) 0,00279 (0,279 %) 0,00441 (0,441 %) 0,00481 (0,481 %) Risk 0,04592 (4,59 %) 0,03189 (3,19 %) 0,05237 (5.24 %) Sharpekvot 0,06076 0,13815 0,09183

Tabell 7: Utveckling för hela utvärderingsperioden

DJ USA (index) 11,13 %

SP500 (index) 22,78 %

Strategi 1 20,62 %

(48)

46

Tabell 8: Hypotesprövning av avkastningarna med CAPM-modellen och t-test.

Statistisk metod DJ USA SP500

t-test (p-värde) 0,2802 0,3326

CAPM-modellen (p-värde

för alpha) 0,2478 0,2711

Anm.: Nollhypotesen är att den förväntade avkastningen för vår portfölj är lika med den förväntade avkastningen för respektive jämförelseindex. Nollhypotesen kan ej förkastas vid 5 % signifikansnivå.

Figur 12: Utveckling över tid.

(49)

47

Tabell 9: Exempel på köpta och sålda tillgångar vid datumen 2020-03-17 och 2021-01-05.

Förkortning Namn Bransch Beta Köpt datum Såld datum

MSFT Microsoft Corp Teknik 1,19 2020-03-17 2020-03-24 FAST Fastenal Co Industri 0,96 2020-03-17 2020-03-24

TSLA Tesla Inc Konsume

nt, cyklisk 1,32 2021-01-05 2021-01-12 PNC PNC Financial Services Group Inc Finans 1,21 2021-01-05 2021-01-12 ALXN Alexion Pharmaceutical s Inc Sjukvård 0,89 2021-01-05 2021-01-12

EXAS Exact Sciences

Corp Sjukvård 1,24 2021-01-05 2021-01-12

Anm.: Se hela listan i bilaga 3. Antalet köpta och sålda tillgångar i perioden var 200 styckena. Branschtillhörighet och beta är taget från Avanza (2021a).

Via en separat undersökning av våra testresultat fann vi också att det var cirka en tredjedel (200 av 576) av tillgångarna som någon gång under period 2 hade en signifikant parameter för “Sentiment Score” i den skattade modellen. I det perspektivet verkar det ändå finnas en koppling från “Sentiment Score” till avkastningarna.

7.2 Strategi 2

Vår hypotes för Strategi 2 är grundad i forskningen av Heston och Sinha (2016) som menade att tillgångar som har nyhetsrapporteringar presterar bättre än tillgångar som inte har några nyhetsrapporteringar. Vår frågeställning var om en metod som enbart investerar i tillgångar som tillhör de 20 som har nämnts flest gånger i dagspressen senaste halvåret per dag, är bättre än våra jämförelseindex. Frågeställningen var också att vi ville se hur utvecklingen för en portfölj med tillgångar utan nyhetsrapporteringar såg ut.

References

Related documents

Genom att använda historiska β -värden och med hjälp av dem estimera den framtida avkastningen, går det att undersöka sambandet mellan dem och därmed också se hur

Fama och MacBeth (FM) genomförde liknande studier som BJS gjorde men istället för att undersöka sambandet från samma perioder använde de historiska β-värdena och estimerade

 Reducera bort väsentliga primimplikatorer från

Identifiering av sekundärt väsentliga

Rita en valfri molekyl med alla elektroner, protoner och neutroner?. Skriv ner tre saker som påskyndar upplösningen av

A) Om lösningar är reella och olika delar vi integranden i partiella bråk. B) Om ekvationen har dubbel rot får vi enkel integral av typ ( se ex 2.) C) Om (ekv6)

För samtliga diagram visar Y-axeln den abnormala avkastningen och X-axeln visar antalet dagar för eventfönstret, vilket är 11 dagar där siffran 0 är händelsedagen, det

Faktorerna som påverkar hur lätt vagnen är att manövrera är vikten, val av hjul och storleken på vagnen. Val av material påverkar vikten i stor utsträckning och då vagnen ska