• No results found

Prognoser på försäkringsdata

N/A
N/A
Protected

Academic year: 2021

Share "Prognoser på försäkringsdata"

Copied!
47
0
0

Loading.... (view fulltext now)

Full text

(1)

Uppsala Universitet

Kandidatuppsats Statistiska institutionen

Författare: Jakob Börsum och Jakob Nyblom Termin: Höst 2018

Handledare: Martin Solberger

Prognoser på försäkringsdata

- En utvärdering av prediktionsmodeller för antal skador på den svenska

försäkringsmarknaden

(2)

1

Abstract

The purpose of this report is to predict annual insurance data with quarterly data as predictors and to evaluate its accuracy against other naive prediction models. A relationship is discerned between the two data categories and the interest goes beyond publication frequency as there is a fundamental difference between quarterly and annual data. The insurance industry organization Insurance Sweden publishes quarterly data that contain all insurance events reported while the annual data only contain insurance events which led to disbursement from the insurance companies. This discrepancy shows to be problematic when predicting annual outcomes. Forecasts are estimated by ARIMA models on short time series and compared with classic linear regression models. The implied results from all insurance subcategories in traffic, motor vehicles and household- and corporate insurance are that, in some cases, prediction using linear regression on quarterly data is more precise than the constructed naive prediction models on annual data. However, the results vary between subcategories and the regression models using quarterly data need further improvement before it is the obvious choice when forecasting annual number of events that led to disbursements from the insurance companies.

Nyckelord:

Tidsserier, Prognoser, ARIMA, Svensk Försäkring, Försäkring, Regression

(3)

2

Innehållsförteckning

1.INTRODUKTION OCH SYFTE ... 3

2.BESKRIVNING AV DATA... 4

3.TIDSSERIEANALYS ... 8

3.1 Prognoser på stationära tidsserier ... 8

3.2 Tidsserieregression ... 10

3.3 ARIMA-modeller ... 11

3.4 Slumpvandring ... 12

3.5 ADF-testet ... 13

3.6 Utvärdering av prognosmodeller ... 14

3.7 Medelvärdesprognoser ... 16

3.8 Diebold-Mariano-testet ... 17

4.BEARBETNING AV DATA OCH ANPASSNING AV MODELLER ... 20

5.RESULTAT ... 26

5.1 Hushåll- och företagsförsäkringar ... 26

5.2 Motorfordonsförsäkringar ... 33

5.3 Trafikförsäkring ... 41

6.DISKUSSION OCH SLUTSATSER ... 42

(4)

3

1. Introduktion och syfte

Svensk Försäkring är en branschorganisation för Sveriges försäkringsföretag. Organisationens syfte är att utveckla och upprätthålla goda verksamhetsförutsättningar för försäkringsföretagen samt en utökad försäkringskompetens bland de svenska hushållen och samhället i stort. I kontinuerlig diskussion med svenska politiska institut och myndigheter sker ett utbyte av analyser, ändringsförslag och rekommendationer som berör lagförslag inom försäkringsbranschen. Svensk Försäkring är även medlem i den europeiska branschorganisationen Insurance Europe och deltar i arbeten kring försäkringsfrågor på internationell nivå.

Svensk Försäkring sammanställer statistik från Finansinspektionen och Statistiska centralbyrån. Dessutom samlar Svensk Försäkring in kompletterande statistik direkt från sina medlemmar, som inkluderar bland annat uppgifter kring trafik- och motorfordonsförsäkringar och egendomsförsäkringar för hushåll och företag. För dessa försäkringar samlar Svensk Försäkring in uppgifter om antal anmälda skadehändelser på kvartalsbasis och antal försäkringsreglerade skadehändelser på årsbasis. Årsstatistiken skiljer sig från kvartalsstatistiken eftersom årsstatistiken endast innefattar skadehändelser där det åligger försäkringsföretagen ersättningsskyldighet, samt att vissa skador kan ta lång tid att skadereglera och därmed inte kommer med i det gällande årets statistik.

På Svensk Försäkring är det av intresse att förutsäga årsstatistiken innan den samlats in, och en hypotes som föreslagits är att kvartalsstatistiken kan användas för detta ändamål. Mot bakgrund av detta är syftet med uppsatsen att jämföra precisionen i olika prognosmodeller för årsstatistiken. Träffsäkerheten utvärderas med hjälp av tidsserieregression mot kvartalsdata, som jämförs med naiva prognosmodeller som endast baseras på årsdata.

Syftet sammanfattas och mynnar ut i frågeställningen: Kan kvartalsdata på antal rapporterade

skadehändelser predicera slutreglerade årsutfall med högre precision än naiva prognosmetoder baserade endast på årsdata?

(5)

4

2. Beskrivning av data

En försäkring är ett avtal mellan konsument och försäkringsbolag som ger konsumenter ekonomiskt skydd till låg kostnad för olika risker (Svensk Försäkring, 2018b). Riskernas egenskaper och utsträckning täcks av olika försäkringar och prissättning kan te sig olika beroende på konsumentens riskprofil. Svensk Försäkring samlar in antalsuppgifter för olika försäkringstyper för hushåll och företag, som visas i tabell 1.

Utöver kategorierna i tabell 1 så finns i Svensk Försäkrings statistik en övrigt-post med skadearter som inte kan placeras inom någon av de fördefinierade skadearterna. Flera av kategorierna i tabell 1 innehåller tids- serier som är väldigt korta eller har genomgått omstruktureringar över åren. Sådana serier har inte tagits med i analysen i denna uppsats. De kategorier som tagits med är: Rån och överfall, Inbrott och stöld, Cykelstöld, Maskinskada, Ansvarsskydd, Brand och åska.

Vid rån eller överfall har försäkringskonsumenten oftast rätt att erhålla skadestånd från gärningsmannen men har även vanligtvis möjlighet till ersättning från hemförsäkringen. Hemförsäkringen kan ersätta försäkringskonsumenten om konsumenten vill undvika utdragna skadeståndsärenden eller om gärnings- mannen är okänd. Ersättning gäller inte om överfallet är inom familjen eller om försäkringskonsumenten har framkallat överfallet själv. I förhållande till andra försäkringskategorier är Rån och överfall ett ovanligt försäkringsärende som 2016 hade under 10 000 anmälda skador (Konsumenternas försäkringsbyrå, 2015e).

Närmare 60 000 skador under försäkringskategorin inbrott och stöld drabbade hushåll 2016 och cirka 9 000 skador drabbade företag (Svensk Försäkring, 2018a). För att ett försäkringsärende i kategorin Inbrott och stöld ska övergå från en anmäld skadehändelse till ett slutreglerat skadeärende krävs bevis på skade- anmälarens ägande av objekten som stulits samt att inbrott har ägt rum. Ersättning av stulna föremål täcks ofta av hemförsäkringen och värderas till de stulna föremålens marknadsvärde (Konsumenternas försäkringsbyrå, 2015c).

Cykelstölder är en vanligt förekommande stöld och genererade cirka 41 000 försäkringsärenden 2016.

Ungefär 90 procent av samtliga cykelstöldsärenden blir slutreglerade (Svensk Försäkring, 2017).

Antalet skador som uppkommer av brand och/eller åska skiljer sig inte väsentligt mellan hushåll och företag. Däremot genererar skadearten olika höga skadebelopp för de två konsumentkategorierna. Under senare år har antalet skador minskat men skadebeloppen ökat. I flera fall kan skador av brand och åska kontrolleras på grund av snabba utryckningar och förebyggande processer men ibland kan det leda till

(6)

5

förödande skador på person och egendom. Antalet skador av brand och åska utgör två procent av det totala antalet anmälda skadehändelser men utgör 22 procent av de totala utbetalningsbeloppen (Svensk Försäkring, 2018c).

Ansvarsskydd ingår ofta i hemförsäkringen och syftar på möjlig ersättning av försäkringsföretagen då försäkringskonsumenten krävs på skadestånd. Skadeståndet ska grundas i att försäkringskonsumenten har vållat skadan som denne uppmanas betala skadestånd för. Exempel på skador är vattenskador som läckt till grannar, resultat av oaktsamhet eller slarv eller möjligen skador som orsakats av husdjur. Om bevisningen i ärendet menar att konsumenten är vållande och situationen är inom försäkringsvillkoren ersätter försäkringsbolaget vissa kostnader (Konsumenternas försäkringsbyrå, 2015a).

Maskinskadeförsäkringen täcker elskador på enbart apparat eller maskin i hushållet. Skador orsakade av brand eller åska faller under kategorin Brand och åska (Svensk Försäkringar, 2015).

Utöver försäkringstyperna i tabell 1 så samlar Svensk Försäkring in antalsuppgifter för trafikförsäkringen och motorfordonsförsäkringar. Enligt trafikskadelagen ska samtliga motordrivna fordon som används i trafik vara trafikförsäkrade. Den registrerade ägaren till fordonet har som skyldighet att teckna trafik- försäkringen. En trafikförsäkring skyddar mot vissa typer av skador, såsom personskador i samband med en olycka, skador på vardera parts fordon vid kollision (såvida det inte är tydligt vem som är ansvarig för olyckan) och skador på viss egendom. Däremot är skador på det egna fordonet inte täckt av försäkringen (Transportstyrelsen, 2018). Motorfordonsförsäkring är en förlängning på den obligatoriska trafik- försäkringen och täcker skador som orsakats av föraren på det egna fordonet. För motorfordonsförsäkringar samlar Svensk Försäkring in antalsuppgifter inom kategorierna Brandskada, Glasskada, Maskinskada, Räddning, Stöld samt Vagnskada. Ersättning av vagnskada kan enbart täckas av helförsäkringar och berör skada på fordon efter trafikolycka, kollision eller annan yttre olyckshändelse. Olika försäkringsbolag har olika aktsamhetskrav och försäkringsvillkor som måste följas för att ersättning ska ges och därmed slutreglera skadehändelsen. Maskinskadeförsäkringen är en del av helförsäkringen, men kan även ingå i halvförsäkringen, och ersätter skador på olika komponenter i bilen. Exempel på komponenter är motor, växellåda och bromsar. Ersättningen begränsas av bilens ålder och körsträcka (Konsumenternas försäkringsbyrå, 2015d). Liksom inom vagnskadeförsäkringen finns aktsamhetskrav inom maskinskadeförsäkringen som måste uppfyllas för att erhålla ersättning (Konsumenternas försäkringsbyrå, 2015h).

(7)

6

Glasförsäkring är en underkategori av motorfordonsförsäkring som ersätter krossade vind-, sido-, och bakrutor. Glasskador som uppstår av stenskott kan ersättas medan glasskador som uppstår av en kollision inte gör det. Brandskadeförsäkring inom motorfordonsförsäkring syftar på skador på bil som orsakats av brand, åska eller explosion. Även kortslutning i elektronik som en följd av brand kan ersättas efter att självrisken är betald, som vanligen är 1 500 till 2 000 kronor (Konsumenternas försäkringsbyrå, 2015b).

Försäkring mot stöld eller tillgrepp skyddar försäkringskonsumenten ekonomiskt om någon olovligen tar bilen för att behålla den eller sälja den. Om fordonet används olovligen utan tjuvens avsikt att behålla eller sälja fordonet gäller även försäkringen. Vid potentiell skadegörelse i samband med händelsen kan försäkringen mot stöld och tillgrepp komma till användning (Konsumenternas försäkringsbyrå, 2015g).

Räddningsförsäkringen ersätter transport av bilförare och passagerare om bilen skulle sluta fungera; till exempel vid skador, driftstopp eller stöld. Utöver transport ersätter försäkringen bärgning av bil till verkstad som försäkringsbolaget anger (Konsumenternas försäkringsbyrå, 2015f).

(8)

7

Tabell 1. Skadearter inom försäkringar för hushåll och företag.

Källa: Svensk Försäkring (2015).

Skadeart Beskrivning

Brand och åska Skada genom brand, åska,

nedsotning/sotutströmning eller frätande gas

Natur Skada genom att vatten till följd av skyfall,

snösmältning eller stigande sjö- och vattendrag, strömmat in i byggnad, eller skada.

Vatten Skada genom läckage, fukt från eller frysning av

vattenledning eller annan orsak än naturskada

Maskin Elskada på enbart apparat i hushållet eller maskin

Inbrott och stöld Gäller även fickstöld och båt med separat

båtförsäkring

Cykelstöld Gäller även el-driven cykel

Rån och överfall

Småbåt Skador på och stöld av småbåt

Resor Skador vid resa, t.ex. försenat bagage,

ersättningsresa, avbeställningsskydd m.m., samt personskador

Allrisk Skador som ersätts ur allrisk-tillägg inom

branschen

Ansvar Personskada, sakskada, förmögenhetsförlust inkl.

skada p.g.a. fastighetsöverlåtelseansvar, förmögenhetsbrott

Rättsskydd Rättsskyddsskada avseende ansvar och egendom

(9)

8

3. Tidsserieanalys

Tidsserieanalys används vid observerade utfall över tiden som kan antas komma från olika sannolikhetsfördelningar som potentiellt är korrelerade. En tidsserie är på så vis en realisation av en stokastisk process, det vill säga utfall från en sekvens av stokastiska variabler:

{𝑌𝑡} = 𝑌1, 𝑌2, . . . , 𝑌𝑇, för tidpunkterna 𝑡 = 1,2, . . . , 𝑇.

Vanligtvis betecknas en tidsserie bara 𝑌𝑡. Eftersom att endast ett utfall per variabel (det vill säga en observation per tidpunkt) observeras så ställer inferens inom tidsserieanalys särskilda krav på data. Det mest centrala kravet är stationäritet. Det finns två definitioner av stationäritet; strikt och svag. Svag stationäritet, även kallad kovariansstationäritet, kommer hädanefter vara vad som antyds med stationäritet.

För att en process ska vara kovariansstationär, måste följande kriterier vara uppfyllda (se t.ex. Hamilton, 1994):

𝐸(𝑌𝑡) = 𝜇, ∀𝑡 ∈ ℤ

𝐸(𝑌𝑡− 𝜇)(𝑌𝑡−𝑘− 𝜇) = 𝛾𝑘, ∀𝑡, 𝑘 ∈ ℤ.

Det vill säga, kovariansstationäritet innebär att väntevärdet av 𝑌𝑡 är konstant för samtliga 𝑡 och att autokovarianserna (eller autokorrelationerna) endast beror på avståndet 𝑡 − 𝑘 och inte på tidpunkten 𝑡. Om kriterierna ovan bryts så säger vi att tidsserien 𝑌𝑡 är icke-stationär. I många fall kan en icke-stationär tidsserie transformeras till en stationär tidsserie med enkla operationer. En vanlig transformation är differensering, 𝑌𝑡= 𝑌𝑡 − 𝑌𝑡−1. En sådan transformation fungerar t.ex. om processen har en enhetsrot (se avsnitt 3.3). Det är inte ovanligt att tidsserier har exponentiella trender, utöver att ha enhetsrötter. I sådana fall används vanligtvis logdifferenser, 𝑌𝑡= log 𝑌𝑡− log 𝑌𝑡−1 (se t.ex. Greene, 2003).

3.1 Prognoser på stationära tidsserier

Låt 𝑌𝑡+ℎ vara den stokastiska variabel som vi vill göra prognos på, där h vanligtvis är ett positivt heltal, och låt 𝐷(𝑌𝑡+ℎ) beteckna variabelns sannolikhetsfördelning. Om 𝑌𝑡+ℎtillhör en kovariansstationär process så är väntevärde och varians i 𝐷(𝑌𝑡+ℎ) konstanta gentemot processens övriga variabler. Låt också ℱ𝑡 vara informationsmängden tillgänglig för oss vid tidpunkten t, som åtminstone antas innehålla de historiska utfallen för den process vi vill prognostisera. Det finns ingen entydig definition av vad en prognos för 𝑌𝑡+ℎ

(10)

9

ska utföra. Den konventionella definitionen är dock att en prognos handlar om att beskriva den betingade fördelningen 𝐷(𝑌𝑡+ℎ|ℱ𝑡). Det vanligaste sättet att göra detta är med en punktprognos, som vi typiskt sett betecknar 𝑌̂𝑡+ℎ. En sådan prognos resulterar i ett punktprognosfel, säg 𝑒, enligt

𝑒𝑡+ℎ = 𝑌𝑡+ℎ− 𝑌̂𝑡+ℎ.

Om en prognos är väntevärdesriktig, det vill säga om 𝐸(𝑌̂𝑡+ℎ) = 𝐸(𝑌𝑡+ℎ), så är prognosfelets väntevärde noll, 𝐸(𝑒𝑡+ℎ) = 0. Om prognosen inte är väntevärdesriktig så har prognosen en ”bias”, som vanligtvis betecknas med omvänt tecken gentemot det förväntade prognosfelet,

𝐵𝑖𝑎𝑠(𝑌̂𝑡+ℎ) = 𝐸(𝑌̂𝑡+ℎ− 𝑌𝑡+ℎ) = −𝐸(𝑒𝑡+ℎ).

Prognosfelets varians är

𝑉(𝑒𝑡+ℎ) = 𝐸[𝑒𝑡+ℎ− 𝐸(𝑒𝑡+ℎ)]2= 𝐸(𝑒𝑡+ℎ2 ) − 𝐸(𝑒𝑡+ℎ)2= 𝐸(𝑒𝑡+ℎ2 ) − 𝐵𝑖𝑎𝑠(𝑌̂𝑡+ℎ)2,

där 𝐸(𝑒𝑡+ℎ2 ) är prognosens medelkvadratfel, som alltså kan skrivas

E(𝑒𝑡+ℎ2 ) = 𝑉(𝑒𝑡+ℎ) + 𝐵𝑖𝑎𝑠(𝑌̂𝑡+ℎ)2.

Hur punktprognosen 𝑌̂𝑡+ℎ bestäms beror på preferenserna hos användaren av prognosen. Användarens preferenser brukar beskrivas med en förlustfunktion (kostnadsfunktion) med avseende på prognosfelet, 𝐿(𝑒𝑡+ℎ). Förlustfunktionen är i sig själv en stokastisk variabel vid tidpunkten t, och en optimal prognos brukar definieras som en sådan som minimerar den förväntade förlusten (se t.ex. Patton och Timmermann, 2007),

𝑌̂𝑡+ℎ𝑜𝑝𝑡𝑖𝑚𝑎𝑙 = arg min 𝐸[𝐿(𝑒𝑡+ℎ)|ℱ𝑡].

Vanligtvis används en kvadratisk förlustfunktion, där förlusten (kostnaden) är proportionell mot kvadraten av ett prognosfel,

𝐿(𝑒𝑡+ℎ) = 𝑎𝑒𝑡+ℎ2 , 𝑎 > 0.

(11)

10

En sådan förlustfunktion är alltså symmetrisk och har kostnader som ökar exponentiellt med storleken på felet. Den optimala prognosen ges av att minimera medelkvadratfelet, eftersom 𝐸[𝐿(𝑒𝑡+ℎ)|ℱ𝑡] = 𝑎𝐸[𝑒𝑡+ℎ2 |ℱ𝑡], och uppnås via det betingade väntevärdet, 𝑌̂𝑡+ℎ𝑜𝑝𝑡𝑖𝑚𝑎𝑙 = 𝐸(𝑌𝑡+ℎ|ℱ𝑡) (se t.ex. Hamilton, 1994).

Den optimala prognosen är på så vis väntevärdesriktig och saknar ”bias”. Det följer alltså att medelkvadratfelet är lika med prognosfelets varians för en optimal prognos under en kvadratisk förlustfunktion.

3.2 Tidsserieregression

Linjär regression är central inom tidsserieanalys. Låt 𝑌𝑡 och 𝑋𝑡 beteckna två olika tidsserier. En linjär regression av 𝑌𝑡 mot 𝑋𝑡 skrivs enligt

𝑌𝑡 = 𝛼 + 𝛽𝑋𝑡+ 𝜀𝑡, (1)

där α och β är parametrar och 𝜀𝑡 är en felterm.

Vanligtvis används minsta-kvadrat-metoden för att skatta parametrarna (se t.ex. Hamilton, 1994, Greene, 2003). För att metoden ska vara konsistent så måste följande gälla för ekvation (1):

1. Tidsserierna 𝑌𝑡 och 𝑋𝑡 är stationära.

2. Feltermen är svagt exogen, dvs. 𝜀𝑡 är kontemporärt okorrelerad med 𝑋𝑡, 𝐸(𝜀𝑡|𝑋𝑡) = 0, 𝑡 = 1,2, … , 𝑇.

Om modellen är dynamisk, om ekvation (1) innehåller en eller flera tidsserier som är tidsförskjutna gentemot åtminstone en annan tidsserie i ekvationen, så krävs även att feltermen saknar autokorrelation, 𝐶𝑜𝑣(𝜀𝑡, 𝜀𝑠) = 0, för alla 𝑡 ≠ 𝑠. Det antagandet måste hålla för autoregressiva modeller, se avsnitt 3.3. Vid inferens, t.ex. hypotesprövning på modellens parametrar, krävs dessutom följande:

3. Feltermen 𝜀𝑡 är homoskedastisk, 𝑉(𝜀𝑡|𝑋𝑡) = 𝑉(𝜀𝑡), 𝑡 = 1,2, … , 𝑇.

Ekvation (1) är en enkel regression, den innehåller alltså endast en vänsterledsserie. Om ekvationen innehåller fler än en tidsserie i högerledet så tillkommer även kriteriet att multikollinjäritet ska saknas mellan tidsserierna för att inferens ska vara asymptotiskt korrekt.

(12)

11

3.3 ARIMA-modeller

En vanlig metod inom tidsserieanalys är Box-Jenkins-metoden (se t.ex. Box m.fl., 2008). Box-Jenkins- metoden innebär att tidsserier modelleras genom processer som benämns Autoregressive Integrated Moving Average (ARIMA). Dessa processer brukar presenteras i formatet 𝐴𝑅𝐼𝑀𝐴(𝑝, 𝑑, 𝑞), där 𝑝 indikerar antalet autoregressiva (𝐴𝑅) termer och 𝑞 indikerar antalet glidande medelvärdestermer (𝑀𝐴). Antalet gånger som tidsserien behöver differentieras för att bli svagt stationär betecknas 𝑑. Låt 𝑌𝑡 vara en tidsserie och 𝜀𝑡 vara en stationär tidsserie som är oberoende och likafördelad över tiden. En 𝐴𝑅𝐼𝑀𝐴(𝑝, 𝑑, 𝑞) formuleras som

𝜙(𝐵)𝛥𝑑𝑌𝑡= 𝜃(𝐵)𝜀𝑡,

där 𝛥𝑑 är differensoperatorn (𝛥1= 𝑌𝑡− 𝑌𝑡−1, 𝛥2 = 𝛥1𝑌𝑡− 𝛥1𝑌𝑡−1, och så vidare) och

𝜙(𝐵) = 1 − 𝜙1𝐵 − 𝜙2𝐵2− ⋯ − 𝜙𝑝𝐵𝑝, 𝜃(𝐵) = 1 + 𝜃1𝐵 + 𝜃2𝐵2+ ⋯ + 𝜃𝑞𝐵𝑞,

där 𝑝 hänvisar till ordningen av AR-processen, 𝑞 till ordningen av MA-processen och 𝐵 är lagoperatorn, 𝐵𝑗𝑌𝑡 = 𝑌𝑡−𝑗. Exempelvis är 𝐴𝑅𝐼𝑀𝐴(2, 0, 2)-processen följande process:

(1 − 𝜙1𝐵 − 𝜙2𝐵2)𝑌𝑡 = (1 + 𝜃1𝐵 + 𝜃2𝐵2)𝜀𝑡⇔ 𝑌𝑡 = 𝜙1𝑌𝑡−1+ 𝜙2𝑌𝑡−2+ 𝜀𝑡+ 𝜃1𝜀𝑡−1+ 𝜃2𝜀𝑡−2.

Det karakteristiska polynomet för en 𝐴𝑅𝐼𝑀𝐴(𝑝, 0, 0) kan skrivas som

𝐴(𝑧) = 1 − 𝜙1𝑧 − 𝜙2𝑧2− ⋯ − 𝜙𝑝𝑧𝑝= 0. (2)

Om rötterna till (2) finns på enhetscirkeln så är processen 𝐴𝑅𝐼𝑀𝐴(𝑝, 0, 0) icke-stationär och har en eller fler enhetsrötter.

I en 𝐴𝑅(1)-process av formen 𝑌𝑡 = 𝑐 + 𝜙𝑌𝑡−1+ 𝜀𝑡, där 𝑐 är interceptet, är processen stationär om

|𝜙| < 1. Om 𝜙 = 1, så har 𝐴𝑅(1)-processen en enhetsrot och är en slumpvandring (se t.ex. Said och Dickey, 1984).

(13)

12

Differensoperatorn 𝛥𝑑 används för att vid behov transformera tidsserien till stationäritet. I denna uppsats använder vi dock logdifferenser (se ovan), istället för differenser eftersom data antas växa exponentiellt (se avsnitt 4).

Box-Jenkins-metoden brukar utföras i tre steg. Identifikation av modellen i form av 𝐴𝑅𝐼𝑀𝐴(𝑝, 𝑑, 𝑞) är det första steget i Box-Jenkins-metoden och utförs vanligtvis genom en visuell analys av tidsserien samt av autokorrelationsfunktioner i korrelogram. För att avgöra vilken autoregressiv ordning modellen ska ha, kan först en 𝐴𝑅(1)-modell estimeras och jämföras mot en 𝐴𝑅(2)-modell för att undersöka värdet på koefficienten 𝜙2 till den laggade variabeln 𝑌𝑡−2. Om |𝜙2| är stor så finns anledning att förlänga 𝐴𝑅(1)- modellen och inkludera den laggade variabeln. Koefficienten mäter den partiella effekten som 𝑌𝑡−2 har på 𝑌𝑡, vilket en 𝐴𝑅(1)-modell inte tar i beaktning. Genom att fortsätta på detta vis för ytterligare laggar så kan vi avgöra vilka ordningstal en 𝐴𝑅𝐼𝑀𝐴(𝑝, 𝑑, 𝑞)-modell ska ha. Antalet skattade parametrar måste dock bestämmas med försiktighet då antal frihetsgrader blir färre i samma takt (se t.ex. Vandaele, 1983).

Skattning av modellens parametrar är andra steget i Box-Jenkins-metoden. Vanligen estimeras parametrarna genom maximum likelihood-metoden eller minsta-kvadrat-metoden. Det sista steget är utvärdering av modellen. När modellen ska användas för prognosändamål så är det vanligt att fokus ligger på utvärdering av modellens prognoser, se avsnitt 3.6.

3.4 Slumpvandring

En slumpvandring (random walk på engelska) är en sekvens av oberoende och likafördelade slumpvariabler med väntevärde 0 och konstant varians, säg 𝜎𝜀2,

𝑌𝑡 = 𝜀1+ 𝜀2+ ⋯ + 𝜀𝑡 = ∑ 𝜀𝑗

𝑡

𝑗=1

.

Varje 𝜀𝑡 kan intuitivt beskrivas som steg i en slumpmässig gång där nästa steg är i genomsnitt på samma nivå som föregående tidpunkt.

Väntevärdet i tidpunkten t blir

𝐸(𝑌𝑡) = 𝐸(𝜀1+ 𝜀2+ 𝜀3+ ⋯ + 𝜀𝑡) = 0,

(14)

13 och variansen i tidpunkten t blir

𝑉(𝑌𝑡) = 𝑉(𝜀1+ 𝜀2+ 𝜀3+ ⋯ + 𝜀𝑡) = 𝑡𝜎ε2.

Processen kan även skrivas som ett specialfall av en 𝐴𝑅(1)-modell där 𝜙1= 1,

𝑌𝑡 = 𝑌𝑡−1+ 𝜀𝑡.

En prognos för en slumpvandring ges under en kvadratisk förlustfunktion av 𝑌𝑡 = 𝑌̂𝑡+ℎ för alla prognoshorisonter h. Det vill säga prognosen ges av det senaste observerade utfallet.

3.5 ADF-testet

En vanlig metod för att analysera stationäritet är med hjälp av Dickey-Fuller-testet (ADF-testet) (se Dickey och Fuller, 1979). Testet prövar huruvida en tidsserie kan anpassas till en AR-process med en enhetsrot.

Låt 𝑋𝑡 vara en tidsserie som vi vill testa för enhetsrot. ADF-testet utförs genom att först tillämpa regressionsekvationen

𝑋𝑡 = 𝜌𝑋𝑡−1+ ∑𝑛 𝑎𝑗𝛥𝑋𝑡−𝑗

𝑗=1 + 𝑢𝑡,

där 𝜌 och 𝑎𝑗 är parametrar, 𝑛 är antalet laggar och 𝑢𝑡 är en felterm.

Om 𝑋𝑡 har en enhetsrot så gäller att 𝜌 = 1. Hypoteserna av intresse är därför

𝐻0: 𝜌 = 1, det finns en enhetsrot och tidsserien är inte stationär 𝐻1: 𝜌 < 1, det finns inte en enhetsrot och tidsserien är stationär

Låt 𝜌̂ vara minsta-kvadrat-skattaren av 𝜌. För att testa 𝐻0 används test-statistikan

𝑡𝑛=𝜌̂ − 1 𝜎̂𝜌̂

,

(15)

14

där 𝜎̂𝜌̂ är den estimerade standardavvikelsen av estimatet 𝜌̂ och 𝑡𝑛 är en asymptotisk fördelning som härleddes av Dickey och Fuller (1981) och förutsätter att den underliggande autoregressiva processen är ändlig och känd.

ADF-testet har vanligtvis låg styrka. Det vill säga, testet är ofta förknippat med en låg sannolikhet att förkasta en falsk nollhypotes. Testet tenderar således till att för ofta acceptera nollhypotesen ”enhetsrot” i de fall det inte finns någon enhetsrot. Detta gäller särskilt om stickprovet är litet (Banerjee. 1993, och Paparoditis och Politis, 2016).

Banerjee (1993) föreslår att antalet laggar för ADF-testet sätts till 𝑛 = (𝑇 − 1) 1/3, där 𝑇 är antalet observationer i samplet. I denna uppsats väljer vi antalet laggar i ADF-testet på detta sätt.

3.6 Utvärdering av prognosmodeller

Utvärdering av modellen är det sista steget enligt Box-Jenkins-metoden. Vid en lämplig modellskattning bör de kvarvarande residualerna likna vitt brus; ha medelvärde 0, ha konstant varians och vara okorrelerade över tid. Genom visuell analys av residualer över tid eller inspektion av autokorrelationer i korrelogram kan dessa antaganden undersökas. Om korrelogrammen visar på signifikanta autokorrelationer bör modellen revideras (se t.ex. Vandaele, 1983). Efter en utvärdering av anpassningen av modellen inom samplet så brukar själva punktprognoserna från modellen utvärderas. Vid en sådan utvärdering delas data in i en del som används för att skatta modellerna (skattningsfönster) och en del som används för att samla upp punktprognoserna (utvärderingsfönster).

I denna uppsats har uppdelningen av data i skattnings- och ett utvärderingsfönster gjorts enligt en rekursiv metod (se t.ex West, 2006). Låt 𝛽 beteckna parametern vars estimat används för att predicera 𝑌𝑡+ℎ och låt 𝑅 beteckna antalet observationer i det första skattningsfönstret. I fallet med en rekursiv metod så ökar skattningsfönstret med varje estimat. Alltså används först observationerna för tidpunkterna till 𝑅 för att estimera ett första 𝛽 som används för att predicera utfallet vid tidpunkten 𝑅 + ℎ. Sedan används observationerna för tidpunkterna 1 till 𝑅 + 1 för att göra ett nytt estimat av 𝛽 som används för att prognostisera utfallet vid tidpunkten 𝑅 + ℎ + 1, och så vidare. Slutligen används data 1 till 𝑇 − ℎ för att estimera 𝛽 och predicera utfallet vid tidpunkten 𝑇. Låt 𝑃 beteckna antalet observationer i utvärderingsfönstret. Storleken på detta fönster är 𝑃 = 𝑇 − 𝑅 + 1 − ℎ. I vår analys används kontemporära

(16)

15

prognoser på årsdata, varvid ℎ = 0, genom att använda kvartalsdata (se avsnitt 4). Därför gäller i vårt fall att 𝑃 = 𝑇 − 𝑅 + 1.

Vid prognosutvärdering är de olika begreppen prognosprecision och informativa prognoser intressanta (se t.ex. Clements och Hendry, 1998). Prognosprecision är ett godtyckligt begrepp som kopplas till konsekvenserna av en prognos för den som ska använda prognosen, och står i direkt paritet till valet av förlustfunktion, 𝐿(𝑒𝑡+ℎ). Eftersom vi utgår ifrån en kvadratisk förlustfunktion (se avsnitt 3.1) så använder vi stickprovsvarianten av medelkvadratfelet som utvärderingsmått,

𝑀𝐾𝐹 =1

𝑃 ∑ 𝑒𝑡+ℎ2

𝑇

𝑡=𝑅+ℎ

.

Om prognosfelen tillhör en stationär process så gäller då att

1

𝑃 ∑ 𝑒𝑡+ℎ2

𝑇

𝑡=𝑅+ℎ

→ 𝐸(𝑒𝑝 𝑡+ℎ2 ),

för stora 𝑅 och 𝑃. Det vill säga att stickprovsmedelkvadratfelet konvergerar i sannolikhet till medelkvadratfelet, vilket är vad en optimal prognos vill minimera under en kvadratisk förlustfunktion. I analysen i avsnitt 5 så kommer vi med hänsyn till nivåerna på tidsserierna att redovisa rotmedelkvadratfelet,

𝑅𝑀𝐾𝐹 = √𝑀𝐾𝐹.

Eftersom 𝑓(𝑥) = √𝑥 är en monoton funktion så ändras inte rangordningar om 𝑅𝑀𝐾𝐹 används istället för 𝑀𝐾𝐹.

Notera att den optimala prognosen är beroende av den tillgängliga informationsmängden ℱ𝑡. Det finns alltså inte en unik – och generell – optimal prognos, utan den skiftar med avseende på ℱ𝑡. Antag att vi som mest har en uppfattning av det obetingade väntevärdet för 𝑌𝑡+ℎ, 𝐸(𝑌𝑡+ℎ). Den optimala prognosen skulle då i alla lägen vara just 𝑌̂𝑡+ℎ𝑜𝑝𝑡𝑖𝑚𝑎𝑙 = 𝐸(𝑌𝑡+ℎ). Prognosfelet för den prognosen skulle vara

𝑒𝑡+ℎ= 𝑌𝑡+ℎ− 𝑌̂𝑡+ℎ𝑜𝑝𝑡𝑖𝑚𝑎𝑙= 𝑌𝑡+ℎ− 𝐸(𝑌𝑡+ℎ),

(17)

16

vilket är en väntevärdesriktig prognos, eftersom 𝐸(𝑒𝑡+ℎ) = 0, där variansen i prognosfelet är lika med variansen för variabeln som prognostiseras,

𝑉(𝑒𝑡+ℎ) = 𝐸[𝑌𝑡+ℎ− 𝐸(𝑌𝑡+ℎ)]2= 𝑉(𝑌𝑡+ℎ).

Det brukar därför sägas att en prognos är informativ om variansen för det betingade prognosfelet är mindre än variansen för 𝑌𝑡+ℎ,

𝑉(𝑒𝑡+ℎ|ℱ𝑡) ≤ 𝑉(𝑌𝑡+ℎ).

Eftersom det gäller att 𝑉(𝑒𝑡+ℎ|ℱ𝑡) är lika med medelkvadratfelet för en optimal prognos under en kvadratisk förlustfunktion, så är det vanligt att jämföra medelkvadratfelet med den skattade obetingade variansen för den (stationära) tidsserie som ska prognostiseras. Alternativt att rotmedelkvadratfelet jämförs med den skattade standardavvikelsen.

3.7 Medelvärdesprognoser

Om det finns flera prognosmodeller är det vanligt att ett medelvärde av de olika punktprognoserna resulterar i en punktprognosmetod som ger lägre 𝑅𝑀𝐾𝐹 än någon av de enskilda modellernas punktprognoser.

Låt 𝑌̂𝑡+ℎ(1), 𝑌̂𝑡+ℎ(2), …, 𝑌̂𝑡+ℎ(𝑚) beteckna 𝑚 olika prognoser för 𝑌𝑡+ℎ. En medelvärdesprognos ges av

𝑌̂𝑡+ℎ𝑀 = 𝑎1𝑌̂𝑡+ℎ(1)+ 𝑎2𝑌̂𝑡+ℎ(2) + ⋯ + 𝑎𝑚𝑌̂𝑡+ℎ(𝑚),

där

∑ 𝑎𝑗

𝑚

𝑗=1

= 1.

Det finns flera förslag i litteraturen på metoder för att beräkna vikterna 𝑎𝑗. Dock har det ofta visat sig att ett likaviktat medelvärde, det vill säga där vikterna är 𝑎𝑗= 1/𝑚, är ett bra alternativ, i synnerhet vid små stickprov då skattningar av vikterna kan innehålla stora fel (se t.ex. Genre m.fl., 2013).

(18)

17

3.8 Diebold-Mariano-testet

För att utvärdera huruvida prediktionsmodellernas precision är skild från träffsäkerheten i nava prognosmodeller kommer Diebold och Marianos test (DM-testet) att tillämpas (se Diebold och Mariano, 1995, och Diebold, 2015). Låt 𝑒1𝑡 och 𝑒2𝑡 vara tidsserier med prognosfel från två olika prognosmodeller, där 𝑡 är ett tidsindex som löper över utvärderingsfönstret, 𝑡 = 1,2, … , 𝑃. Låt också 𝑑𝑡 vara förlustdifferensen, 𝑑𝑡 = 𝐿(𝑒1𝑡) − 𝐿(𝑒2𝑡), som förutsätts vara en kovariansstationär process. Om prognosmodellerna har ekvivalent prognosprecision så ska det gälla att 𝐸(𝑑𝑡) = 0. För att test huruvida två modeller har samma prognosprecision kan vi därför utgå ifrån följande hypoteser:

𝐻0: 𝐸(𝑑𝑡) = 0, 𝐻1: 𝐸(𝑑𝑡) ≠ 0.

DM-testet utförs med test-statistikan

𝐷𝑀 = 𝑑̅

𝜎̂𝑑̅2,

där

𝑑̅ = 1 𝑃∑ 𝑑𝑡

𝑃

𝑡=1

är medelvärdet av förlustdifferensen och 𝜎̂𝑑̅ är dess skattade standardavvikelse. Eftersom vi använder en kvadratisk förlustfunktion så är förlustdifferensen skillnaden i 𝑅𝑀𝐾𝐹 mellan två prognosserier.

Eftersom förlustdifferensen kan autokorrelera så krävs robusta metoder för att skatta dess varians. Betrakta spektraltätheten för 𝑑̅ vid frekvensen 0,

𝑓𝑑(0) = 1

2𝜋( ∑ 𝛾𝑑(𝑘)

𝑘=−∞

),

där 𝛾𝑑(𝑘) är autokovariansen för 𝑑̅ vid 𝑘 laggar.

Om {𝑑𝑡; 𝑡 = 1, . . . , 𝑃} är en stationär process med väntevärde 𝐸(𝑑𝑡) = 𝜇 så gäller via centrala gränsvärdessatsen att

(19)

18

√𝑃(𝑑̅ − 𝜇)→ 𝑁(0,2𝜋 𝑓𝑑 𝑑(0)).

Under 𝐻0gäller således att

𝐷𝑀 = 𝑑̅

√2𝜋 𝑓̂ (0)𝑑 𝑃

→ 𝑁(0,1), 𝑑

där 𝑓̂ (0) är en konsistent estimator av 𝑓𝑑 𝑑(0) och där √2𝜋 𝑓̂ (0)𝑑

𝑃 = 𝜎̂𝑑̅2. Spektraltätheten 𝑓𝑑(0) kan i vårt fall skattas enligt

𝑓̂ (0) =𝑑 1

2𝜋𝛾̂𝑑(0),

där

𝛾̂𝑑(0) =1

𝑃∑(𝑑𝑡− 𝑑̅)2

𝑃

𝑡=1

.

𝐻0 förkastas då

|𝐷𝑀| > 𝑍𝛼/2,

där 𝑍𝛼/2 är det kritiska värdet vid (1 − 𝛼 2⁄ )- percentilen för den standardiserade normalfördelningen 𝑁(0,1), och 𝛼 är testets signifikansnivå.

Vid små stickprov kan följande justerade test-statistika användas

𝐷𝑀= [𝑃+1−2ℎ+𝑃−1ℎ(ℎ−1)

𝑃 ]

1/2

𝐷𝑀,

där ℎ avser prognoshorisonten. En ytterligare naturlig justering vid små stickprov är att låta DM*-statistikan jämföras med 𝑡𝛼/2,(𝑃−1)-fördelningens kritiska värden, det vill säga kritiska värden från t-fördelningen med

(20)

19

𝑃 − 1 frihetsgrader istället för normalfördelningens (se Harvey, Leybourne och Newbold, 1997). Alltså, att 𝐻0 förkastas då

|𝐷𝑀| > 𝑡𝛼/2,(𝑃−1).

Erhållet p-värde skriver vi i denna uppsats som

 = 𝑃𝑟(|𝐷𝑀| > 𝑡𝛼/2,(𝑃−1)|𝐻0).

Eftersom testet är dubbelsidigt, och absolutbeloppet av värdet på test-statistikan används, så spelar det ingen roll vilken serie som placeras först respektive sist i förlustdifferensen.

(21)

20

4. Bearbetning av data och anpassning av modeller

De tidsserier vi analyserar i denna uppsats är korta. Statistik över anmälda trafikförsäkringsärenden började samlas in regelbundet av Svensk Försäkring först 1996 på årsbasis. Den sista observationen för trafikförsäkringsärendena är för 2017, och antalet årsvisa observationer är därmed 22.

Data över motorfordonsförsäkringar har samlats in sedan 1991, fram till 2017, och antalet årsvisa observationer är alltså 27. De olika underkategorierna av motorfordonsförsäkringar är Brandskada, Glasskada, Maskinskada, Räddning, Stöld samt Vagnskada (se avsnitt 1). Utifrån dessa kategorier så sammanställs även en totalkategori på kvartal genom att summera samtliga anmälda skadehändelser, samt en totalkategori på år genom att summera samtliga skadereglerade försäkringsärenden.

När det gäller försäkringar för hushåll och företag så är de data som används i denna uppsats indelade i kategorierna Rån och överfall, Inbrott och stöld, Cykelstöld, Maskinskada, Ansvarsskydd, Brand och åska (se avsnitt 1). Data för dessa kategorier har 33 tidpunkter; en observation per år från 1985 fram till 2017.

Ett problem med de korta tidsserierna är lämpligheten av resultaten från de statistiska tester vi använder, t.ex. ADF-testet och DM-testet. ADF-testet har låg styrka, vilket förvärras ytterligare av de korta tidsserierna. Vilka datatransformationer som krävs för att uppfylla stationäritetsantagandet baseras därmed framförallt på teoretiska överväganden och visuell utvärdering. Efter granskning av data beslutas att den första differensen av logaritmerade värden är den transformation som behövs för att erhålla stationäritet och fortsättningsvis modellera på. Detta motiveras även av att antal försäkringsärenden borde växa exponentiellt över tiden på grund av en exponentiell befolkningsökning. De redan korta tidsserierna blir följaktligen en observation kortare. Tabell 2 visar sammanfattande statistik för årsdata som erhållits från Svensk Försäkring, efter logdifferenstransformationer.

(22)

21

Tabell 2: Deskriptiv statistik över transformerade försäkringsdata på årsbasis.

Kategori Antal obs. Väntevärde Standardavv. 𝐴𝐷𝐹

Försäkring för hushåll och företag: Rån och överfall 32 -0,017 0,076 0,147 Försäkring för hushåll och företag: Inbrott och stöld 32 0,016 0,121 0,234 Försäkring för hushåll och företag: Cykelstöld 32 0,002 0,061 0,527 Försäkring för hushåll och företag: Maskinskada 32 0,010 0,098 0,670 Försäkring för hushåll och företag: Ansvarsskydd 32 -0,003 0,065 0,051 Försäkring för hushåll och företag: Brand och åska 32 -0,046 0,276 0,071

Motorfordonsförsäkring: Totalt 26 0,026 0,082 0,306

Motorfordonsförsäkring: Brandskada 26 0,011 0,150 0,393

Motorfordonsförsäkring: Glasskada 26 0,046 0,087 0,086

Motorfordonsförsäkring: Maskinskada 26 0,065 0,172 0,574

Motorfordonsförsäkring: Räddning 26 0,060 0,105 0,038

Motorfordonsförsäkring: Stöld 26 -0,093 0,081 0,861

Motorfordonsförsäkring: Vagnskada 26 0,008 0,148 0,284

Trafikförsäkring 21 -0,033 0,087 0,199

Anm.: Data har logdifferentierats, där antal observationer avser efter transformation. Kolumnen 𝐴𝐷𝐹 visar p-värdet för ADF-test.

Utifrån resultaten från ADF-testen i tabell 2 konstateras att endast försäkringskategorin Räddning inom kategorin Motorfordonsförsäkringar erhåller signifikant värde på test-statistikan vid 5 procents signifikans- nivå, medan ytterligare tre kategorier erhåller signifikanta värden vid 10 procents signifikans-nivå. I övrigt är de utförda transformationerna inte tillräckliga för att uppnå stationäritet enligt ADF-testen. På grund av ADF-testets låga styrka kommer dock analysen fortlöpa med grund i det teoretiska antagandet om stationäritet efter logdifferenser.

Data är på olika frekvenser. Medan det vi vill predicera är på årsbasis så är våra prediktorer på kvartalsbasis.

Vi skapar därför flera nya årsserier baserat på kvartalsdata. Som exempel visar figur 1 hur nedbrytningen av kvartalsdata ser ut för kategorin Motorfordonsförsäkringar (Totalt). Den översta vänstra bilden visar årsdata och den översta högra bilden visar kvartalsdata. I kvartalsdata finns säsongsmönster eftersom antalet försäkringsärenden ökar under sommarmånaderna när det är mer bilar i trafik. I den nedre vänstra bilden har data för varje kvartal portionerats ut i nya årsvisa tidsserier. Den blå tidsserien visar observationer endast från det första kvartalet för varje år, den röda tidsserien visar observationer endast från det andra kvartalet för varje år, och så vidare. Den nedre högra bilden visar kumulativa kvartalsserier. Den röda tidsserien innehåller nu observationer för de första två kvartalen, och så vidare.

(23)

22

Figur 1: Visualisering över nedbrytning av underkategorin Motorfordonsförsäkringar (Totalt).

Tidsserierna i de två nedre bilderna i figur 1 är de serier som vi använder som prediktorer. För varje renodlad kvartalsserie i den nedre vänstra bilden skapas en prognosmodell enligt ekvation (1) i avsnitt 3, där vänsterledsserien är årsdata som ska prediceras och högerledsserien är en prediktor. Samma sak görs för de kumulativa serierna i den nedre högra bilden. Detta ger oss sju unika modeller (de blå tidsserierna i de två nedre bilderna i figur 1 är samma serie), med två parametrar per modell, varav en hör till prediktorn.

Eftersom vi har så få observationer i data så väljer vi att inte konstruera modeller med fler än en prediktor.

Denna nedbrytning och modellering upprepas för samtliga försäkringskategorier.

Utöver de olika modellerna baserade på kvartalsdata så använder vi två naiva prognosmodeller. Den första naiva prognosmodellen är en 𝐴𝑅𝐼𝑀𝐴(1, 1, 0), vilket är en 𝐴𝑅(1)-modell efter logdifferenser. Den andra naiva prognosmodellen är en slumpvandring efter logdifferenser, vilket innebär att prognosen ges av det senaste observerade värdet efter transformationen. Det bör noteras att slumpvandringen är nästlad inom ARIMA-modellen. Efter logdifferenstransformationen så skrivs nämligen ARIMA-modellen som en stationär AR-process, där slumpvandringen är specialfallet att den autoregressiva parametern är lika med 1 (se avsnitt 3.4). När nästlade modeller jämförs så håller inte de asymptotiska resultaten för DM-testet i

(24)

23

avsnitt 3.8, se t.ex. Diebold (2015) och referenser däri. Vi redovisar därför inte DM-testet mellan de naiva prognosmodellerna i denna uppsats.

Slutligen beräknas tre olika medelvärden av modellernas punktprognoser. Det första medelvärdet baseras på samtliga nio modeller, inklusive de naiva prognosmodellerna. Det andra medelvärdet baseras på endast modeller med icke-kumulativa kvartalsdata. Det tredje medelvärdet baseras på endast modeller med kumulativa kvartalsdata. Tabell 3 sammanfattar våra modeller och medelvärden.

Tabell 3: Sammanställning av modeller och medelvärden

Beskrivning Notation

Regression enligt ekvation (2) där 𝑌𝑡 är årsdata och 𝑋𝑡 är en prediktor:

Modell 1: Prediktor bestående av årstidsserie med första-kvartals-observationer M1 Modell 2: Prediktor bestående av årstidsserie med andra-kvartals-observationer M2 Modell 3: Prediktor bestående av årstidsserie med tredje-kvartals-observationer M3 Modell 4: Prediktor bestående av årstidsserie med fjärde-kvartals-observationer M4

Modell 5: Prediktor bestående av årstidsserie med kumulativa kvartals-observationer, andra kvartalet M5 Modell 6: Prediktor bestående av årstidsserie med kumulativa kvartals-observationer, tredje kvartalet M6 Modell 7: Prediktor bestående av årstidsserie med kumulativa kvartals-observationer, fjärde kvartalet M7

Naiva prognosmodeller baserat endast på årsdata:

Modell 8: 𝐴𝑅𝐼𝑀𝐴(1, 1, 0) AR

Modell 9: Slumpvandring mot årsdata efter transformation SV

Medelvärdesprognoser:

Medelvärde av punktprognoser från samtliga modeller, M1-M7, AR, SV Med1

Medelvärde av punktprognoser från modellerna M1-M4 Med2

Medelvärde av punktprognoser från modellerna M5-M7 Med3

Enligt Box-Jenkins metodologi bör korrelogrammen för autokorrelationer undersökas för att dra slutsatser kring bästa lämpliga naiva prognosmodell. Det huvudsakliga intresset är dock att bygga träffsäkra prediktionsmodeller snarare än modeller som beskriver data väl. Vi har därför valt att fokusera på utvärdering av modellernas punktprognoser. För att prognosfelen ska tillhöra stationära processer så sker all utvärdering på logdifferensnivå. Vi väljer att inte återtransformera data till exponentiell nivå innan utvärdering. Valet av storlekarna i inledande skattningsfönster respektive utvärderingsfönster sker på

(25)

24

följande vis. Modelleringen av försäkringskategorin Trafikförsäkring utförs med ett inledande skattningsfönster om 15 tidpunkter medan de återstående 7 observationerna används för att analysera träffsäkerheten. Försäkringskategorin Motorfordonsförsäkringar samt dess underkategorier modelleras med hjälp av 16 tidpunkter där de återstående 11 observationerna används för precisionsanalys av prediceringen. För de övriga försäkringskategorierna använder vi de första 16 tidpunkterna till det initiala skattningsfönstret och de resterande 16 observationer till utvärderingsfönstret.

Två kvoter av rotmedelkvadratfel kommer att beräknas mellan våra alternativa prognosmetoder (prognosmodellerna M1-M7 och medelvärdena Med1-Med3) och de respektive naiva prognosmodellerna.

Den första kvoten är

𝛹𝐴𝑅= 𝑅𝑀𝐾𝐹𝑖

𝑅𝑀𝐾𝐹𝐴𝑅,

där 𝑅𝑀𝐾𝐹𝑖 är rotmedelkvadratfelet för prognoser från metod i och 𝑅𝑀𝐾𝐹𝐴𝑅 är rotmedelkvadratfelet för prognoser från en 𝐴𝑅(1)-modell efter transformationer. Om 𝛹𝐴𝑅< 1 så har metod i högre prognosprecision än den autoregressiva modellen av ordning ett, i termer av observerat 𝑅𝑀𝐾𝐹. Den andra kvoten vi kommer att studera är

𝛹𝑆𝑉= 𝑅𝑀𝐾𝐹𝑖

𝑅𝑀𝐾𝐹𝑠𝑣 ,

där 𝑅𝑀𝐾𝐹𝑖 är rotmedelkvadratfelet för prognoser från metod i och 𝑅𝑀𝐾𝐹𝑠𝑣 är rotmedelkvadratfelet för prognoser från en slumpvandring efter transformationer. Om 𝛹𝑆𝑉< 1 så har metod i högre prognosprecision än en slumpvandring, i termer av observerat 𝑅𝑀𝐾𝐹.

Ytterligare ett verktyg för att utvärdera hur väl modellen passar data är determinationskoefficienten,

𝑅2= 1 − 𝑆𝑆𝑅

𝑇𝑡=1(𝑌𝑡− 𝑌̅)2,

där

𝑌̅ =1 𝑡∑ 𝑌𝑡

𝑇

𝑡=1

,

(26)

25 𝑆𝑆𝑅 = ∑ 𝑒𝑡2

𝑇

𝑡=1 ,

där 𝑆𝑆𝑅 beskriver hur stor del av variansen i 𝑌𝑡 som förklaras av modellen. Tolkningen av värdet på 𝑅2 skiljer sig dock mellan linjära tidsserieregressioner och ARIMA-modeller. För ARIMA-modeller är 𝑅2 påverkat av parametrarna medan variansen i feltermen saknar inflytande. Samtidigt kan inte 𝑅2användas för att jämföra och rangordna modeller som har antingen olika beroende variabler (tidsserier i vårt fall) eller samma beroende variabler med olika transformationer för att uppfylla stationäritet. Determinations- koefficienten bidrar dock till ett mer nyanserat perspektiv av modellerna och kan vara informativt utan att lägga stor analytisk tyngd vid den (Vandaele, 1983).

(27)

26

5. Resultat

I detta avsnitt redovisas resultatet av vår analys.1 I tabell 2 i avsnitt 4 visas skattade standardavvikelser för de tidsserier vi predicerar. Dessa standardavvikelser används för att undersöka om modellerna kan sägas ge informativa prognoser, varvid 𝑅𝑀𝐾𝐹 för en modells prognoser ska vara mindre än standardavvikelsen för den tidsserie som prediceras (se avsnitt 3). Modellernas anpassningsgrad och prediktionsegenskaper redovisas i resultattabeller. För varje modell redovisas p-värden från ADF-test för modellernas prediktor, p-värden för hypotesprövningen med nollhypotesen att prediktorns parameter är lika med 0, samt modellens determinationskoefficient. För prognosutvärderingen redovisas enskilda 𝑅𝑀𝐾𝐹 samt kvoter mellan 𝑅𝑀𝐾𝐹 för prognoser från de alternativa modellerna och 𝑅𝑀𝐾𝐹 för prognoser från de naiva modellerna tillsammans med p-värden för associerade DM-test (se avsnitten 3 och 4). Med tanke på att våra stickprov är små så bör inferens tolkas med försiktighet. Notera att DM-testet är dubbelsidigt (se avsnitt 3.8) och således kan indikera att de naiva prognosmodellerna har prognoser med lägre eller högre 𝑅𝑀𝐾𝐹 än för prognoserna från de alternativa modellerna. Eftersom de naiva prognosmodellerna är nästlade (se avsnitt 4) så redovisas inte DM-testen mellan dessa modeller.

5.1 Hushåll- och företagsförsäkringar

Först presenteras resultatet för hushålls- och företagsförsäkringar, per underkategori (se avsnitten 1 och 4).

Rån och överfall

Tabell 5.1 visar resultaten för försäkringskategorin Rån och överfall. I den vänstra delen av tabellen visas statistik relaterat till modellens prediktor och modellens anpassning. Enligt ADF-testen är endast prediktorerna baserade på kumulativa kvartalssvärden stationära vid 5 procents signifikansnivå. Samtliga förklaringsgrader är relativt låga, och endast två av modellerna har en signifikant parameter för prediktorn.

Modellen M7 har högst prognosprecision, men dess prognosers 𝑅𝑀𝐾𝐹 skiljer sig ej signifikant från 𝑅𝑀𝐾𝐹

1All statistisk analys är gjord i R. Följande paket användes:

Trapletti, A., Hornik, K. (2018). tseries: Time Series Analysis and Computational Finance. R package version 0.10-45.

Chan, K. S., Ripley, B. (2018). TSA: Time Series Analysis. R package version 1.2.

https://CRAN.R-project.org/package=TSA.

Hyndman, R., Athanasopoulos, G., Bergmeir, C., Caceres, G., Chhay, L., O'Hara-Wild, M., Petropoulos, F., Razbash, S., Wang, E., Yasmeen, F. (2018). forecast: Forecasting Functions for Time Series and Linear Models. R

package version 8.4. http://pkg.robjhyndman.com/forecast.

(28)

27

för prognoserna från de naiva prognosmodellerna enligt DM-testet vid 5 procents signifikansnivå. Detta resultat kan tyda på att modellen leder till en relativt stor spridning i den summerade differensen av de kvadrerade feltermerna och leder till icke-signifikanta p-värden från DM-testet. Parameterestimatet i modell M7 skiljer sig ej signifikant från 0 och modellen som helhet har relativt låg förklaringsgrad.

Modellerna M6 och M4 resulterar i högre förklaringsgrader och båda modellera har signifikanta parameterestimat för prediktorn. De har dock lägre träffsäkerhet i prognoserna. Modellen M7 är dessutom den enda modellen som kan sägas vara informativ, eftersom dess 𝑅𝑀𝐾𝐹 på 0,070 är marginellt lägre än tidsseriens standardavvikelse på 0,076 (se tabell 2 i avsnitt 4). AR-modellen har prognoser med lågt 𝑅𝑀𝐾𝐹 och enligt DM-testen ger ingen annan modell prognoser med signifikant lägre 𝑅𝑀𝐾𝐹.

Medelvärdesprognoserna presterar bra. Samtliga medelvärdesprognoser har lägre 𝑅𝑀𝐾𝐹 än prognoserna från de naiva modellerna, där medelvärdet Med1 har signifikant lägre 𝑅𝑀𝐾𝐹 vid 5 procents signifikansnivå. Genom att ta medelvärden av prognoserna får extremvärden mindre inflytande på träffsäkerheten och leder följaktligen till låga 𝑅𝑀𝐾𝐹.

Tabell 5.1: Resultat för försäkringskategorin Rån och överfall

Modell Modellanalys Prognosutvärdering

𝐴𝐷𝐹 𝑅2 𝑝 𝑅𝑀𝐾𝐹 Ψ𝐴𝑅 𝐴𝑅 Ψ𝑆𝑉 𝑆𝑉

M1 0,489 0,037 0,477 0,106 1,309 0,069 0,991 0,987

M2 0,509 0,145 0,145 0,095 1,173 0,071 0,888 0,399

M3 0,538 0,231 0,060 0,091 1,123 0,449 0,850 0,359

M4 0,459 0,275 0,037 0,084 1,037 0,830 0,785 0,276

M5 0,010 0,211 0,074 0,085 1,049 0,716 0,794 0,211

M6 0,024 0,258 0,045 0,076 0,938 0,757 0,710 0,174

M7 0,010 0,232 0,059 0,070 0,864 0,447 0,654 0,096

AR 0,081

SV 0,107

Med1 0,078 0,963 0,002 0,729 0,002

Med2 0,077 0,951 0,545 0,720 0,154

Med3 0,079 0,975 0,323 0,738 0,060

Anm.: 𝐴𝐷𝐹 visar p-värdet från ADF-test på prediktor, 𝑅2 är förklaringsgraden och 𝑝 visar p-värdet för prediktorparameter.

𝑅𝑀𝐾𝐹 är modellprognosernas rotmedelkvadratfel, Ψ är kvoten av 𝑅𝑀𝐾𝐹 från alternativ modell (täljare) och naiv modell (nämnare) och  är p-värdet från dubbelsidigt DM-test.

(29)

28 Inbrott och stöld

Tabell 5.2 presenteras resultaten för kategorin Inbrott och stöld. ADF-testet indikerar att endast M7 har en prediktor som är stationär, efter nödvändiga transformationer, vid 5 procents signifikansnivå. De resterande modellerna baserade på kumulativa kvartalsdata, M5 och M6, har prediktorer som är signifikanta vid 10 procents signifikansnivå. Samtliga förklaringsgrader är relativt höga och alla parameterskattningar för prediktorn är signifikant skilda från 0 vid 5 procents signifikansnivå. Högst prognosprecision erhålls av modellen AR, där vi även kan observera att AR-prognosernas 𝑅𝑀𝐾𝐹 är signifikant lägre än 𝑅𝑀𝐾𝐹 för prognosernas från Med1-medelvärdet, vid 5 procents signifikansnivå. Inga andra prognosers 𝑅𝑀𝐾𝐹 är signifikant skilda från vare sig AR-prognosernas eller SV-prognosernas 𝑅𝑀𝐾𝐹. AR-modellens prognoser kan även sägas vara informativa då dess prognosers 𝑅𝑀𝐾𝐹 är lägre än tidsseriens standardavvikelse på 0,121 (se tabell 2 i avsnitt 4).

Tabell 5.2: Resultat för försäkringskategorin Inbrott och stöld

Modell Modellanalys Prognosutvärdering

𝐴𝐷𝐹 𝑅2 𝑝 𝑅𝑀𝐾𝐹 Ψ𝐴𝑅 𝐴𝑅 Ψ𝑆𝑉 𝑆𝑉

M1 0,920 0,638 0,001 0,145 1,229 0,455 0,954 0,156

M2 0,726 0,711 0,001 0,152 1,288 0,467 1,000 0,160

M3 0,597 0,792 0,001 0,157 1,331 0,474 1,033 0,162

M4 0,519 0,872 0,001 0,170 1,441 0,480 1,118 0,166

M5 0,061 0,668 0,001 0,149 1,263 0,483 0,980 0,165

M6 0,082 0,671 0,001 0,142 1,203 0,490 0,934 0,167

M7 0,018 0,605 0,001 0,149 1,263 0,496 0,980 0,176

AR 0,118

SV 0,152

Med1 0,141 1,195 0,026 0,928 0,220

Med2 0,155 1,314 0,468 1,020 0,160

Med3 0,143 1,212 0,478 0,941 0,165

Anm.: 𝐴𝐷𝐹 visar p-värdet från ADF-test på prediktor, 𝑅2 är förklaringsgraden och 𝑝 visar p-värdet för prediktorparameter.

𝑅𝑀𝐾𝐹 är modellprognosernas rotmedelkvadratfel, Ψ är kvoten av 𝑅𝑀𝐾𝐹 från alternativ modell (täljare) och naiv modell (nämnare) och  är p-värdet från dubbelsidigt DM-test. P-värden som är mindre 0,001 är avrundade till 0,001.

(30)

29 Cykelstöld

Tabell 5.3 visar resultaten för kategorin Cykelstöld. ADF-testet indikerar att endast prediktorn i modell M7 är stationär, efter nödvändiga transformationer, vid 5 procents signifikansnivå. För de resterande modellerna baserade på kumulativa kvartalsdata är ADF-testet för prediktorn signifikant vid 10 procents signifikansnivå. Förklaringsgraderna är varierande, där modellerna M5 och M3 erhåller högst värden.

Prediktorparametrarna för M2-M6 är signifikant skilda från 0 vid 5 procents signifikansnivå, medan för M1 och M7 så är de signifikanta vid 10 procents signifikansnivå. Lägst 𝑅𝑀𝐾𝐹 fås av prognoserna från medelvärdet Med1 och är signifikant lägre än 𝑅𝑀𝐾𝐹 från både AR- och SV-prognoserna, vid 5 procents signifikansnivå. Inga andra prognosers 𝑅𝑀𝐾𝐹 är signifikant skilda från AR- eller SV-prognosernas 𝑅𝑀𝐾𝐹.

Prognoserna från modellerna M4, M6 och M7 och prognoserna från de tre medelvärdena kan sägas vara informativa då tidsseriens standardavvikelse är 0,061 (se tabell 2 i avsnitt 4).

Tabell 5.3: Resultat för försäkringskategorin Cykelstöld

Modell Modellanalys Prognosutvärdering

𝐴𝐷𝐹 𝑅2 𝑝 𝑅𝑀𝐾𝐹 Ψ𝐴𝑅 𝐴𝑅 Ψ𝑆𝑉 𝑆𝑉

M1 0,432 0,186 0,096 0,066 1,000 0,719 0,776 0,498

M2 0,302 0,437 0,005 0,070 1,061 0,526 0,824 0,597

M3 0,197 0,512 0,002 0,062 0,939 0,466 0,729 0,641

M4 0,166 0,492 0,002 0,059 0,894 0,479 0,694 0,631

M5 0,095 0,581 0,001 0,076 1,152 0,378 0,894 0,719

M6 0,067 0,472 0,003 0,057 0,864 0,365 0,671 0,746

M7 0,010 0,224 0,064 0,053 0,803 0,494 0,624 0,630

AR 0,066

SV 0,085

Med1 0,050 0,758 0,012 0,588 0,017

Med2 0,060 0,909 0,561 0,706 0,572

Med3 0,052 0,788 0,514 0,612 0,603

Anm.: 𝐴𝐷𝐹 visar p-värdet från ADF-test på prediktor, 𝑅2 är förklaringsgraden och 𝑝 visar p-värdet för prediktorparameter.

𝑅𝑀𝐾𝐹 är modellprognosernas rotmedelkvadratfel, Ψ är kvoten av 𝑅𝑀𝐾𝐹 från alternativ modell (täljare) och naiv modell (nämnare) och  är p-värdet från dubbelsidigt DM-test.

References

Related documents

Den pessimism som jag i viss mån ger uttryck för här när det gäller både att förstå och prognosticera växelkursrö- relser ska inte tolkas som att jag tycker att Riksbanken

Den ekonomisk-po- litiska debattnivån i landet bör kunna både höjas och friskas upp genom rap- porterna från rådet - och i sista hand borde också riskerna för

Nykter trafik 99,78% nykter trafik (2 miljoner utandningsprov) Hjälmanvändning 80% cykelhjälmsanvändning (cykelhjälmslag).. NCAP) Tunga fordon Lagkrav och frivillig utveckling

Resultatet visar på att företag noterade på Mid Cap är mer svårprognostiserade i jämförelse med de noterade på Large Cap. Som tidigare nämnts finns flera anledningar till

Då denna studie endast finner negativt samband mellan marknadsvärde och träffsäkerhet för företag med lägre marknadsvärde, skulle det vara intressant att titta vidare

Finns det ett väl dokumenterat underlag som bygger på politiskt beslutade antaganden avseende implementering av andra förutsättningar som avviker från Trafikverkets basprognoser,

I denna rapport redovisas de prognosförutsättningar som har använts samt resultat för det s k jämförelsealternativet, JA, för år 2030 och 2050 samt i vissa fall även för

Berntsson tycker att rullande prognoser är ett mer flexibelt verktyg eftersom prognoserna kan ändras utefter förutsättningarna vilket leder till att företaget kan