• No results found

Tidsserieanalys av dödsfall i trafiken

N/A
N/A
Protected

Academic year: 2021

Share "Tidsserieanalys av dödsfall i trafiken"

Copied!
91
0
0

Loading.... (view fulltext now)

Full text

(1)

Tidsserieanalys av dödsfall i trafiken

Astrid Karlsson

(2)
(3)

universitet av Astrid Karlsson och Kristian Willerö. Uppsatsen är genomförd på uppdrag av VTI och handledare vid universitetet har varit biträdande professor Stig Danielsson.

Åsa Forsman Projektledare

(4)
(5)

Tidsserieanalys

av dödsfall i trafiken

(6)
(7)

Magisteruppsats i statistik

Tidsserieanalys

av dödsfall i trafiken

Astrid Karlsson & Kristian Willerö

ISRN: LiU-MAT-D--05/03--SE

(8)
(9)

Transport Research Institute, VTI, which perform research and development concerning infrastructure, traffic, and transports. We have been working for the research organization, TSA, where a follow up of traffic accidents is an important issue. Our essay discusses the number of fatal traffic accidents from a time series perspective.

The main purpose of the this essay has been to make use of one or several time series models in order to explain the correlation that is assumed to exist between the observed and estimated number of people killed in traffic accidents . We also want to develop time series models for predictions. In our analysis, we have used ARIMA and transfer function modeling. ARIMA models explain a future observation using previous values in the same series. The transfer function model is used when the explanatory variable has an impact on the response variable for values in several time periods and when the residuals are dependent.

Our data showed a clear seasonal effect and was not stationary which is a requirement for ARIMA modeling. After an adjustment of our data, it was shown that all estimated ARIMA models based on monthly data resulted in moving average parameters. A future observation is explained in a linear composition from former errors.

The transfer function model that was adjusted explains the response variable number of people killed with explanatory variable traffic kilometrage. It could not be proven that former values had an effect on the response variable. The residuals for the model could be explained by an ARIMA-process with a moving average parameter. The transfer function model is the model that we found most appropriate and we recommend it for future development.

The estimated predictions from our models show no indications that “Nollvisionen” will be fulfilled without radical changes in traffic. The number of people killed will, according to the predictions, stay at the same level as the recent years.

(10)
(11)

transportforskningsinstitut, VTI, vilka bedriver forskning och utveckling som avser infrastruktur, trafik och transporter. Vi har arbetat för avdelningen Trafik- och säkerhetsanalys, TSA, där uppföljningen av dödsolyckor och antalet dödade i trafiken är ett viktigt inslag. Vår uppsats behandlar antalet dödade i vägtrafikolyckor ur ett tidsserieperspektiv.

Huvudsyftet med uppsatsen har varit att utnyttja den korrelation som antas finnas mellan observationerna och ta fram en eller flera tidsseriemodeller som kan förklara antalet dödade i vägtrafikolyckor. Vi vill även utveckla tidsseriemodeller för prognostisering. I våra analyser har vi använt oss av ARIMA- och transferfunktionsmodellering. ARIMA-modeller förklarar en framtida observation med hjälp av tidigare värden i samma serie. Transferfunktionsmodeller används då en förklaringsvariabel har effekt på responsvariabeln för värden i flera tidpunkter och residualerna har ett beroende.

Våra data uppvisade tydliga säsongseffekter och var inte stationära vilket är ett krav för ARIMA-modeller. Efter transformation av data så visade det sig att samtliga skattade ARIMA-modeller på månadsdata gav medelvärdesparametrar (MA-parametrar). Framtida observationer förklaras av en linjär sammansättning av tidigare brustermer.

Den transferfunktionsmodell som anpassades förklarade responsvariabeln antal dödade med förklaringsvariabeln trafikarbete. Det gick inte att påvisa att tidigare värden hade någon effekt på responsvariabeln. Residualerna för modellen kunde förklaras av en ARIMA-process med en medelvärdesparameter.

De skattade modellernas prognoser visar inga indikationer på att nollvisionens delmål 2007 på 270 dödade kommer att nås utan radikala förändringar i trafiken. Dödsantalet kommer enligt prognoserna att ligga på ungefär samma nivå som det gjort de senaste åren.

(12)
(13)

Uppsatsen är genomförd på uppdrag av Statens väg- och transportforskningsinstitut, VTI.

Vi vill speciellt tacka vår handledare Stig Danielsson för god handledning under arbetets gång. Vi vill även rikta ett särskilt tack till Åsa Forsman, vår handledare på VTI. Tack också till Ulf Brüde, VTI, för givande diskussioner och hjälp inom ämnet.

(14)
(15)

Innehållsförteckning

1 Inledning... 1

1.1 Bakgrund ... 1

1.2 Problemdiskussion ... 2

1.3 Syfte och problemformulering ... 2

1.4 Avgränsningar ... 3

1.5 Begreppslista ... 3

2 Metod ... 5

2.1 Regressionsanalys ... 5

2.2 Tidsserieanalys ... 6

2.3 Transferfunktioner – dynamisk regression... 9

2.4 Interventionsanalys... 11 3 Data ... 13 3.1 Allmänt... 13 3.1.1 Helårsdata 1956-2002 ... 14 3.1.2 Månadsdata 1977-2004 ... 14 3.1.3 Månadsdata 1994-2004 ... 15 3.2 Förklaringsvariabler ... 15 3.3 Dödsrisk ... 16 4 Resultat... 19 4.1 Modeller för åren 1956-2002 ... 19

4.1.1 Modeller för antal dödade - regressionsanalys... 19

4.1.2 Modeller för dödsrisk – regressionsanalys och ARIMA... 20

4.2 Modeller för åren 1977-2004 ... 21

4.2.1 Modell för antal dödade - ARIMA... 21

4.2.2 Modell för antal dödade - ARIMA med intervention ... 23

4.2.3 Modell för dödsrisk -ARIMA ... 23

4.3 Modeller för åren 1994-2004 ... 24

4.3.1 Modell för antal dödade - ARIMA... 24

4.3.2 Modell för antal dödade - Transferfunktion ... 25

4.3.3 Modell för dödsrisk - ARIMA ... 27

4.4 Prognoser... 27

4.4.1 Prognos med ARIMA-modell för dödsrisk 1956-2004... 27

4.4.2 Prognoser med ARIMA-modeller för antal dödade och dödsrisk 1977-2004 ... 30

4.4.3 Prognoser med modeller för tidsperioden 1994-2004... 33

4.4.4 Prognoser fram till år 2007... 36

5 Diskussion och slutsatser ... 37

Referenslista ... 41

(16)

Tabellförteckning

Tabell 1: Förväntat mönster i ACF och PACF vid enkla AR- och MA-modeller ... 8

Tabell 2: Jämförelse mellan ARIMA-modeller med och utan intervention... 23

Tabell 3: Prognoser för 2005-2007 med ARIMA-modell för dödsrisk 1956-2004 ... 30

Tabell 4: MAPE-värden för modeller från tidsperioden 1977-2004, fullständig och förkortad serie ... 30

Tabell 5: Prognoser för Jan 2004 - Mar 2005 med modeller från tidsperioden 1977-2004... 32

Tabell 6: MAPE- och MPE-värden för modeller från tidsperioden 1977-2004, de 15 prognostiserade månaderna ... 32

Tabell 7: MAPE-värden för modeller från tidsperioden 1994-2004, fullständig och förkortad serie ... 33

Tabell 8: Prognoser för Jan 2004-Mar 2005 med modeller från tidsperioden 1994-2004... 35

Tabell 9: MAPE- och MPE-värden för modeller från tidsperioden 1994-2004, de 15 prognostiserade månaderna ... 35

Tabell 10: Prognoser för 2005-2007 samtliga modeller... 36

Diagramförteckning

Diagram 1: Utveckling av antal dödade i vägtrafikolyckor 1956-2004, årsdata... 13

Diagram 2: Utveckling av antal dödade i vägtrafikolyckor 1977-2004, månadsdata ... 15

Diagram 3: Utveckling av dödsrisken 1956-2002, årsdata ... 17

Diagram 4: Utveckling av dödsrisken 1977-2004, månadsdata... 17

Diagram 5: Antal dödade 1977-2004, månadsdata, differentierat 1+12 ... 22

Diagram 6: Utveckling av antal dödade i vägtrafikolyckor 1994-2004, månadsdata ... 25

Diagram 7: Prognos med ARIMA-modell för dödsrisk 1956-2004, årsdata ... 27

Diagram 8: Prognos med ARIMA-modell för dödsrisk 1956-1997 förkortad serie, årsdata... 29

Diagram 9: Differens mellan prognoser med ARIMA-modell för antal dödade med fullstädig serie 1977-2004 och med förkortad serie 1977-2003, månadsdata... 31

Diagram 10: Differens mellan prognoser med transferfunktionsmodell med fullständig serie 1994-2004 och med förkortad serie 1994-2003, månadsdata ... 34

Figurförteckning

Figur 1: Samband mellan förklaringsvariabler, årsdata 1956-2002 ... 19

Utskriftsförteckning

Utskrift 1: Regressionsmodell för dödsrisken 1956-2002... 20

Utskrift 2: ARIMA-modell för dödsrisken 1956-2002 ... 21

Utskrift 3: ARIMA-modell antal dödade 1977-2004 ... 22

Utskrift 4: ARIMA-modell för dödsrisk 1977-2004 ... 24

Utskrift 5: ARIMA-modell antal dödade 1994-2004 ... 25

Utskrift 6: Regressionsmodell för antal dödade 1994-2004... 26

Utskrift 7: Transferfunktionsmodell 1994-2004 ... 26

Utskrift 8: ARIMA-modell dödsrisk 1994-2004... 27

Bilageförteckning

Bilaga 1 - Plot över antal dödade 1977-2004 uppdelat på månad... 43

Bilaga 2 - Källdata 1956-2004 ... 44

Bilaga 3 - Index, trafikarbete... 46

Bilaga 4 - Regressionsmodell 1 för antal dödade 1956-2002 ... 46

(17)

Bilaga 6 - Regressionsmodell för dödsrisk 1956-2002 ... 48

Bilaga 7 - ARIMA-modell för bruset från regressionsmodell för dödsrisk 1956-2002... 49

Bilaga 8 - ARIMA-modell för dödsrisk 1956-2002... 50

Bilaga 9 - ARIMA-modell för antal dödade 1977-2004 ... 52

Bilaga 10 - ARIMA-modell för antal dödade 1977-2004 med intervention... 54

Bilaga 11 - Jämförelse ARIMA-modeller 1977-2004 med och utan intervention... 55

Bilaga 12 - ARIMA-modell för dödsrisk 1977-2004... 56

Bilaga 13 - ACF och PACF för antal dödade 1994-2004 ... 58

Bilaga 14 - ACF och PACF för antal dödade differentierat på säsong 1994-2004... 59

Bilaga 15 - ARIMA-modell över antal dödade 1994-2004... 60

Bilaga 16 - Diagram över antal dödade och trafikarbete 1994-2004, månadsdata ... 61

Bilaga 17 - Regressionsmodell för antal dödade 1994-2004 ... 61

Bilaga 18 - Autoregressionsmodell för antal dödade 1994-2004... 62

Bilaga 19 - ARIMA-modell för bruset från regressionsmodell för antal dödade 1994-2004 .. 63

Bilaga 20 - Transferfunktionsmodell för antal dödade 1994-2004 ... 64

Bilaga 21 - ARIMA-modell för dödsrisk 1994-2004... 66

(18)
(19)

1 Inledning

Inledningskapitlet beskriver arbetets bakgrund, syfte och problemformulering. Vidare innehåller kapitlet en begreppslista samt en kortare beskrivning av våra data och de avgränsningar som gjorts.

1.1 Bakgrund

Statens väg- och transportforskningsinstitut, VTI, är en myndighet som arbetar under näringsdepartementet på uppdrag av regeringen. De har till huvuduppgift att bedriva forskning och utveckling som avser infrastruktur, trafik och transporter. I deras arbete ingår även att analysera transportsektorns effekter på miljön och energiförbrukningen. Målet med forskningen är att kontinuerligt förbättra kunskapen om transportsektorn med syfte att bidra till att uppfylla de mål och delmål som regeringen har, däribland säker trafik, god miljö och nollvisionen.1

Nollvisionens grundtanke är att ingen får dö eller skadas för livet i vägtrafiken. Den enda accepterade siffran för antalet trafikdödade och allvarligt skadade är noll. Riksdagen beslutade i oktober 1997 att nollvisionen skall ligga som grund för trafiksäkerhetsarbetet. Att trafikolyckor inte kan förhindras är förståeligt, människor gör misstag. Man kan däremot göra mycket för att förhindra att olyckor leder till allvarligare skador och dödsfall. Bland annat kan vägar och fordon utvecklas och bli säkrare. Som ett led i detta arbete byggs många fyrvägskorsningar om till cirkulationsplatser och vägar läggs om till mötesfria så kallade 2+1-vägar2. Dessutom kan människors insikt om vikten av ett trafiksäkert beteende bli mycket större. Nollvisionens delmål för år 2000 på 400 dödsfall i trafiken överskreds då det totala dödstalet blev 564. År 2007 finns det ett nytt delmål, nämligen att dödstalet ej får överskrida 270 människor.3

Ett viktigt inslag i trafiksäkerhetsarbetet är att följa upp antal dödsolyckor och antal dödade i trafiken. För att kunna analysera utvecklingen är statistiska modeller och metoder till stor hjälp. Modellerna används för att hitta orsaker som kan tänkas ligga bakom dödsolyckornas uppkomst och för att prognostisera.

1 www.vti.se 2 www.vv.se 3 Näringsdepartementet, proposition 1996/97:137

(20)

1.2 Problemdiskussion

På både Vägverket och VTI sker uppföljningen över antalet dödade i trafiken oftast månadsmässigt. De slår även ihop månadsdata från januari till december och tittar på årssummor för att kunna jämföra år från år. Vidare tittar de på så kallade rullande årssummor då de jämför tolvmånadersperioder. Som ett exempel på en rullande årssumma kan man jämföra januari till december med februari till januari. Ett annat sätt att jämföra tidsperioder som de använder sig av är att titta på ackumulerade data. De jämför då de ackumulerade månaderna för aktuellt år med motsvarande period tidigare år.

För att få ut mer av uppföljningen bör man använda sig av en modell som kan förklara antalet dödsfall i trafiken på ett bra sätt och som även kan användas till prognoser. VTI har tidigare tagit fram regressionsmodeller. Det man nu skulle vilja utnyttja är den korrelation som antas finnas mellan observationerna och ta fram en tidsseriemodell. Det har tagits fram modeller som med hjälp av förklaringsvariabler på ett logiskt sätt kan förklara antalet dödsfall i trafiken men korrelationssambanden mellan observationer har inte beaktats.

Många variabler kan vara potentiella förklaringsvariabler och det gäller att hitta sådana som har effekt på dödstalet i trafiken och att sedan undersöka vilka som är relevanta.

1.3 Syfte och problemformulering

Uppsatsens huvudsyfte är att försöka finna en eller flera tidsseriemodeller som kan förklara antalet dödsfall i trafiken. Vi kommer att arbeta med nedanstående problemformulering:

• Vi vill utveckla enkla tidsseriemodeller för att göra så bra prognoser som möjligt.

• Vi vill utveckla enkla tidsseriemodeller med förklaringsvariabler för att göra så bra prognoser som möjligt.

• Vi vill jämföra modellerna och sedan rekommendera någon/några av dem. • Vi vill göra en utvärdering av saklogiska förklaringsvariabler.

(21)

1.4 Avgränsningar

De data vi kommer att arbeta med är månadsdata över antal dödade i trafiken. Vi har data från januari 1956 till december 2004 (588 observationer). Då det hände väldigt mycket i trafiken fram till 1977, såsom ändringar i hastighetsbegränsningar och bilbälteslagen har vi valt att ej analysera observationer från 1956 fram till 1976 när vi studerar månadsdata. Vi får då kvar 336 observationer.

1.5 Begreppslista

Vägtrafikolycka Som vägtrafikolycka räknas händelse som inträffat på väg, vari det deltagit minst ett fordon i rörelse och som medfört person- eller egendomsskador.

Död Som död i vägtrafikolycka räknas här de personer som omkommit till följd av olyckan och inom 30 dagar från olyckstillfället. Personer som drabbats av sjukdom som skulle ha lett till döden oavsett om trafikolyckan inträffat eller inte (i den mån detta kunnat fastställas) är ej medräknade.

Dödsolycka Som dödsolycka räknas de vägtrafikolyckor där minst en person omkommit enligt definitionen ovan.4

4

(22)
(23)

2 Metod

Metodkapitlet redogör för de metoder som vi använt för att göra våra analyser. De metoder som beskrivs är: regressionsanalys, tidsserieanalys, transferfunktioner och interventionsanalys.

2.1 Regressionsanalys

När man vill studera samband mellan en responsvariabel y och en eller flera förklarande x-variabler kan man använda sig av regressionsanalys. Man beskriver eller förklarar observerad variation i y-data med hjälp av motsvarande x-data. Detta gör man genom att anpassa ett funktionssamband y= f(x). Sambandet är sällan perfekt men den variation som återstår antas ha orsakats av slumpmässiga avvikelser. Regressionsanalys används ofta då man vill se om, och i så fall hur mycket, den eller de olika förklarande x-variablerna inverkar på responsvariabeln y. Man kan även använda sig av regressionsanalys för prognoser av y.5

I enkel linjär regression förutsätter man att responsvariabeln Y systematiskt beror av den förklarande variabeln X genom en linjär funktion α +βX , där α och βär okända konstanter. Man förutsätter även att Y inte kan observeras utan en slumpmässig avvikelse, , från e α +βX . Avvikelserna e antas vara oberoende, ha väntevärde 0 och varians σ2. Ofta antas vara normalfördelad.

e

Modellen kan då skrivas:

i i

i X e

Y =α +β + (1.1)

I multipel regression tillåter man att Y beror linjärt av flera förklarande variabler, .

k

X X X1, 2,...,

Modellen för multipel linjär regression blir då:

i ik k i i i X X X e Y =α +β1 1 +β2 2 +...+β + (1.2)

Även här gäller samma antaganden för storheten .e 6

5

Multimediautgåva av Nationalencyklopedin

6

(24)

2.2 Tidsserieanalys

En tidsserie är en serie data

{

Yt,t =1,2...

}

, där tidsavståndet är detsamma mellan

successiva observationer. Karaktäristiskt för en tidsserie är att det finns ett stokastiskt beroende mellan olika Yt-värden.

ARIMA (Auto-Regressive Integrated Moving-Average)-modeller är en metodik för att göra prognoser av tidsseriedata. En ARIMA-modell ska förklara en ny observation i tidpunkten t med hjälp av tidigare värden i samma serie. Tidigare värden fungerar som förklaringsvariabler till det aktuella tidsserievärdet.

En förutsättning för att man ska kunna använda ovanstående metod är att tidsserien är stationär. Med stationär menas att serien håller en konstant nivå, konstant varians och att autokorrelationen är konstant. Om ursprungsserien inte skulle vara stationär kan man åtgärda detta genom olika transformationer. De vanligaste metoderna för att uppnå detta är att differentiera och/eller logaritmera. Att differentiera serien innebär att differenser mellan observationer på tidsavstånd k bildas. Man bildar för en ursprungsserie Yt den nya serien Zt =YtYtk. Då differentiering är nödvändig är det

vanligt att differentiera en gång på tidsavstånd 1 och/eller en gång på gällande säsongsavstånd, då data uppvisar säsongseffekt. Man differentierar så långt man behöver för att få stationära data men ändå med försiktighet så att differentieringarna inte leder till att data tappar anknytning till verkligheten. Det kan uppkomma ny autokorrelation om för många differentieringar genomförs.

En ARIMA-modell kan använda sig av autoregressiva parametrar (AR), löpande medelvärdes parametrar (MA), differensbildningar (I) eller en kombination av två eller tre av dessa (ARMA, ARIMA).

ARIMA-modellen kan skrivas som ARIMA(p,d,q)(P,D,Q)S

där p = Antal autoregressiva parametrar

d = Antal differensbildningar på tidsavstånd 1 q = Antal löpande medelvärdesparametrar P = Antal autoregressiva säsongsparametrar D = Antal differensbildningar på säsongsavstånd Q = Antal löpande medelvärdessäsongsparametrar S = Antal perioder per säsong

(25)

En autoregressiv modell ska förklara en observation i tidpunkten t med en linjär sammansättning av tidigare observationer. Den generella modellen AR(p) skrivs:

t p t p t t t c Y Y Y e Y = +φ1 1 +φ2 2 +...+φ + (1.3) där c = konstantterm j

φ = j:te autoregressiva parametern, j=1,2,…,p

= slumpterm vid tidpunkt t

t

e

En löpande medelvärdesmodell ska förklara en observation i tidpunkten t med en linjär sammansättning av tidigare brustermer. Den generella modellen MA(q) skrivs:

q t q t t t t c e e e e Y = + −θ1 1−θ2 2 −...−θ (1.4) där c = konstantterm j

θ = j:te löpande medelvärdesparametern, j=1,2,…,q

= slumpterm vid tidpunkt i

i

e

Ett exempel på en modell med båda typerna av parametrar, en ARMA(1,1) skrivs:

1 1 1 1 − + − − + = t t t t c Y e e Y φ θ (1.5)

För att bestämma ARIMA-modellens utseende kan man studera tidsseriens autokorrelationsfunktion (ACF) och dess partiella autokorrelationsfunktion (PACF). ACF mäter hur stark korrelation det finns mellan Yt och Yt-k. PACF mäter

korrelationen mellan Yt och Yt-k då de mellanliggande observationerna är betingade.

När man väl skattat ACF och PACF kan man genom att jämföra med nedanstående tabell försöka identifiera vilken process som gäller för aktuella data.

(26)

Funktionernas utseende ger oss också antalet och vilka parametrar som ska användas. Finns det signifikant partiell autokorrelation så ska man välja antalet AR-parametrar lika med antalet signifikanta korrelationer i PACF, förutsatt att ACF avtar. Korrelationerna benämns ofta som spikar. Antalet MA-parametrar bestäms också av antalet signifikanta spikar men man tittar då istället på ACF, och detta gäller förutsatt att PACF avtar. Dessa generella mönster för stationära AR- och MA-modeller sammanfattas i tabell 1. I de fall där man har signifikanta spikar i såväl ACF som PACF kan det vara lämpligt att testa processer med parametrar av båda typer. Funktionerna ger sällan en helt klar bild av vilken modell som ska användas, därför är det lämpligt att prova flera olika modeller.

Tabell 1: Förväntat mönster i ACF och PACF vid enkla AR- och MA-modeller

Process ACF PACF

AR(p) Exponentiellt eller sinusartat avtagande

Spikar i tidsavstånd 1,...,p och därefter 0

MA(q) Spikar i tidsavstånd 1,...,q och därefter 0

Exponentiellt eller sinusartat avtagande

För att testa vald modell kan man genom vanliga t-test se om parametrarna är signifikanta eller ej. I normalfallet utesluts ickesignifikanta parametrar ur modellen. Vid jämförelse mellan olika modeller kan man jämföra deras residualvarianser och man väljer då modellen med lägst varians, under förutsättningen att båda har samma antal parametrar. Ett annat mått för att bestämma vilken av flera modeller som ska väljas är Akaike´s informationskriterium(AIC). Värdet för AIC räknas ut enligt formel 1.6. m L AIC =−2log +2 (1.6) där L = Likelihoodfunktionen m = p+q+P+Q

AIC straffar i normalfallet modeller med stort antal parametrar. Man ska välja modellen med lägst AIC-värde. En sista viktig kontroll är att göra en residualanalys för att säkerställa att modellen har okorrelerade residualer, så kallat vitt brus.7

7

(27)

2.3 Transferfunktioner – dynamisk regression

Den här typen av modell är användbar när förklaringsvariabeln har effekt på responsvariabeln för värden vid flera tidpunkter. Yt ska alltså inte förklaras bara av

aktuella Xt utan man måste titta på flera X bakåt i tiden (Xt-1, Xt-2,...). Den generella

modellen skrivs: t i t i t t t c X X X N Y = +ν0 +ν1 1 +...+ν + t t i iB X N B B c+ + + + + = (ν0 ν1 2 ... ν ) t t N X B c+ + = ν( ) (1.7) där c = konstantterm j ν = impulsresponsvikten för Xt-j Bj = tidsavstånd j, j t t j X X B =

= förklaringsvariabeln vid tidpunkt t-j

j t

X

Nt = slumpterm som är en ARIMA-process

) (B

ν är den del av ekvationen som kallas transferfunktion. Den funktionen förklarar hur en förändring i Xt-serien påverkar Yt.

Transferfunktionens ordning styrs av hur stort i som finns i modellen. I vissa fall kan i vara mycket stor och detta leder till komplexa modeller med många parametrar och skattningar vilket man vill undvika och använder sig då istället av modellen:

t b t t X N B B c Y = + + ) ( ) ( δ ω (1.8) där ω(B) = s sB B ω ω ω0 − 1 1 −...− ) (B δ = r rB B δ δ − − − ... 1 1 1

De två funktionerna ω(B) och δ(B) ersätter funktionen ν(B) från den tidigare ekvationen (1.7). Anledningen till omskrivningen är att hitta ett enklare sätt att skriva transferfunktionen. Omskrivningen reducerar antalet parametrar som behöver skattas och ger vanligen mer precisa prognoser än den generella modellen.

(28)

För att bestämma modellens utseende måste man bestämma värden på konstanterna b, r och s. Då Nt följer ett ARIMA-mönster måste även parametrarna p, d och q

bestämmas. Om data har säsongsmönster måste även detta identifieras och skattas. Man kan identifiera modellen med LTF (Linear Transfer Function)-metoden som består av sex steg.

1. Anpassa en multipel linjär regressionsmodell på formen

t i t i t t t c X X X N Y = +ν01 1 +...+ν +

med så många tidsförskjutna förklaringsvariabler som möjligt men ändå så att den med längst tidsförskjutning kan vara av betydelse. I detta steg är brustermen av mindre betydelse så man kan då välja vilken AR-modell man vill av lägre ordning.

2. Man ska nu göra en residualanalys för modellen från steg 1 för att kontrollera stationäritet. Om kraven på stationäritet är uppfyllda kan man gå vidare till nästa steg, om inte utför man lämpliga differentieringar. Dessa differentieringar utförs på både respons- och förklaringsvariabler.

3. Nu ska man bestämma värden på konstanterna b, r och s. Värdet på b är antalet tidsförskjutningar som behövs innan X har effekt på Y. Med andra ord är b lika med antalet vikter (ν ) i följd som inte är signifikant skilda från noll med början i ν . Värdet på s är antalet impulsresponsvikter innan de börjar avta. Värdet på 0 r väljer man beroende på vilket mönster som koefficienterna uppvisar när de börjar avta. Konstanten r kan anta värdena 0, 1 och 2.

0 då man inte kan se något avtagande, utan responsvikterna bara är några spikar i början

1 då vikterna avtar exponentiellt

2 då det avtagande mönstret är svängande

4. Bestäm lämpligt utseende för avvikelserna i genom att anpassa en ARIMA enligt samma metod som för vanliga tidsserier.

t

N

5. Skatta om modellen med den nya ARIMA-modellen som felterm och transferfunktionen för X.

(29)

6. Sist tittar man på residualerna för att se om de kan antas vara vitt brus. Skulle så inte vara fallet bör en ny modell anpassas.

När man väl valt modell och samliga parametrar är skattade får vi följande prognosmodell: t b t t e B B X B B a Y ) ( ) ( ) ( ) ( φ θ δ ω + + = (1.9)

där et är en slumpterm vid tidpunkt t.8

2.4 Interventionsanalys

En intervention är en händelse som sker vid en given och känd tidpunkt och som har inverkan på responsvariabeln. Man kan göra modeller för interventionen med hjälp av dynamisk regression.

Interventionen kan ske på många olika sätt och den enklaste formen är en stegfunktion. En sådan resulterar i en plötslig och permanent antingen sänkning eller höjning hos responsvariabeln. Anta att interventionen sker i tidpunkt u. Man kan då använda sig av en dummyvariabel Xt med egenskaperna:

⎩ ⎨ ⎧ ≥ < = u t om u t om Xt 1 0 (1.10)

Dummyvariabeln är då 0 innan brytpunkten och 1 vid och efter brytpunkten. Modellen blir då:

t t

t X N

Y =α +ω + (1.11)

Här är ω storleken på förändringen orsakad av interventionen och är en ARIMA-modell.

t

N

Successiva effekter är en annan typ. Då ökar eller minskar serien under en lite längre tid tills serien stabiliseras på en ny nivå. Dummyvariabeln (1.10) används även här men modellen blir nu:

8

(30)

t t t X N B Y + − + = δ ω α 1 (1.12) Här är δ ω −

1 storleken på den slutliga förändringen och δ anger hastigheten av

förändringen.

Pulsfunktion är en annan enkel intervention. Då sker det en tillfällig sänkning eller höjning i en viss tidpunkt men serien återgår genast till samma nivå som tidigare. Modellen (1.11) används men dummyvariabeln blir nu:

⎩ ⎨ ⎧ = ≠ = u t om u t om Xt 1 0 (1.13) t

X är då 0 överallt förutom i själva pulsen.

En sista enkel intervention är återgående funktioner. Serien beter sig vid interventionspunkten som vid en pulsfunktion med en plötslig sänkning eller höjning. Skillnaden från pulsfunktion är att återgången till den gamla nivån är segare och det tar lite tid innan serien är tillbaka på sin gamla nivå. Dummyvariabeln ser ut som vid pulsfunktion (1.13) men modellen blir som vid successiva effekter (1.12). Här är ω storleken på den omedelbara förändringen och δ graden av tillbakagång till den ursprungliga nivån.9

9

(31)

3 Data

Datakapitlet innehåller en presentation av det datamaterial som vi använt i våra analyser. Vi beskriver vår responsvariabel, antal dödade i vägtrafikolyckor och våra förklaringsvariabler, mängden trafikarbete, antal körkortsinnehavare, antal fordon i bruk och mängden bensinleveranser. Vidare presenterar vi måttet dödsrisk.

3.1 Allmänt

Våra grunddata består av antal dödade i vägtrafikolyckor, enligt definition, per månad för tidsperioden 1956 till 2004. Siffrorna för 2004 är något osäkra eftersom det fortfarande pågår utredningar om vissa dödsfall skall klassas som vägtrafiksdödsfall eller ej. Dessa fall är få och korrigeringarna skulle ha sådan liten betydelse vid val av modell att vi kan bortse från det.

För att illustrera utvecklingen har vi använt oss av antal dödade per år. Diagram 1 visar att antalet dödade i vägtrafikolyckor ökade stadigt under 50- och 60-talet. Under hela 70-talet och något år in på 80-talet minskade antalet dödade för att sedan i några år öka något. Från 1994 och fram tills idag har antalet dödade legat på en relativt konstant nivå.

Diagram 1: Utveckling av antal dödade i vägtrafikolyckor 1956-2004, årsdata

1400 1200 1000 Antal dödade 800 600 400 200 0 1956 1958 1960 1962 1964 1966 1968 1970 1972 1974 1976 1978 1980 1982 1984 1986 1988 1990 1992 1994 1996 1998 2000 2002 2004 År

(32)

Vi har valt att studera flera tidsperioder av dessa data såväl på årsbasis som på månadsbasis. De tidsperioder vi valt att analysera är:

• 1956-2002 helårsdata • 1977-2004 månadsdata • 1994-2004 månadsdata

3.1.1 Helårsdata 1956-2002

Vi har i vårt syfte sagt att vi vill utveckla enkla tidsseriemodeller med förklaringsvariabler och utföra en utvärdering av saklogiska förklaringsvariabler. De potentiella förklaringsvariabler vi tänkt använda oss av finns bara på årsbasis och för att få en tidsserie med tillräckligt många observationer har vi varit tvungna att titta långt tillbaka i tiden. För åren 2003 och 2004 saknas data för några av våra tilltänkta förklaringsvariabler. Den serie som ger oss flest observationer med förklarings-variabler är åren 1956-2002.

3.1.2 Månadsdata 1977-2004

Nästa tidsperiod vi valt att analysera är tidsserien för 1977-2004 och den består av månadsdata. Data uppvisar ett säsongsmönster med 12 perioder per år, se bilaga 1. Anledningen till att vi valt denna tidsperiod är att det i slutet av 60-talet och början på 70-talet genomfördes flera trafikreformer som anses ha påverkat utvecklingen av antalet dödade. Dessa reformers effekt har i tidigare VTI-rapporter bedömts fått fullt genomslag 1977. Därför har vi valt detta år som startår. Diagram 2 visar tidsperiodens utveckling.

(33)

Diagram 2: Utveckling av antal dödade i vägtrafikolyckor 1977-2004, månadsdata 120 100 80 Antal dödade 60 40 20 0 1977 1980 1983 1986 1989 1992 1995 1998 2001 2004 År

Antal dödade per månad

3.1.3 Månadsdata 1994-2004

För att få aktuella och stabila data, vilket tidsserieanalys i viss mån kräver, har vi valt att analysera åren 2004. Diagram 2 visar att månadsdata för tidsperioden 1994-2004 är mycket stabila med få extremvärden och som synes relativt konstant varians.

3.2 Förklaringsvariabler

De förklaringsvariabler vi kommer att använda oss av i våra modeller för att förklara antalet dödsfall i trafiken är: mängden trafikarbete, antal körkortsinnehavare, antal fordon i bruk och mängden bensinleveranser, se bilaga 2. Där finns även siffror över antal dödsfall i vägtrafiken per år.

Trafikarbetet är ett mått på mängden trafik vid det statliga vägnätet mätt i antal fordonskilometer. Data över trafikarbete finns endast på årsbasis men med hjälp av ett index, se bilaga 3, som Vägverket använder sig av kunde vi få fram skattningar av trafikarbetet på månadsbasis.10

10

(34)

Data över antal körkortsinnehavare har vi tagit från Bilismen i Sverige11 och Vägverkets databas12. Siffror över antal fordon i bruk är även de hämtade från

Bilismen i Sverige13. Antal fordon i bruk finns uppdelad på de olika fordonstyperna

personbil, bussar, lastbilar, traktorer och motorcyklar. Data för bensinleveranser är hämtade från SCB:s databas14. Antal körkortsinnehavare saknade värden för år 2004. För mängden bensinleveranser och antal fordon i bruk saknades data för både år 2003 och år 2004. Tidsperioden 1956-2002 blir alltså den längsta tidsperioden som kan studeras för förklaringsvariablerna.

3.3 Dödsrisk

Då trafikarbetet ökat kraftigt under de tidsperioder vi studerar samtidigt som dödsantalet minskat har vi även valt att titta på dödsrisken. Dödsrisken är ett mått på risken att omkomma i en vägtrafikolycka. Vi har räknat ut dödsrisken genom att dividera antalet dödade med antalet miljoner trafikkilometer. Diagram 3 visar utvecklingen av dödsrisken för tidsperioden 1956-2002. Vi ser att dödsrisken har sjunkit betydligt fram till mitten av 90-talet för att sedan hamna på en något stabilare nivå.

Diagram 4 visar utvecklingen för dödsrisken per månad för tidsperioden 1977-2004. Dödsrisken uppvisar liknande varians- och trendbeteende som våra grunddata över antal dödade per månad.

11 Bilismen i Sverige 1966, 1969, 1976, 1978, 1999 12 www.vv.se 13 Bilismen i Sverige 2003 14 www.scb.se

(35)

Diagram 3: Utveckling av dödsrisken 1956-2002, årsdata

0,08

0,07

Antal dödade per

milj oner trafikkm 0,06 0,05 0,04 0,03 0,02 0,01 0 1956 1958 1960 1962 1964 1966 1968 1970 1972 1974 1976 1978 1980 1982 1984 1986 1988 1990 1992 1994 1996 1998 2000 2002 År Dödsrisk

Diagram 4: Utveckling av dödsrisken 1977-2004, månadsdata

0,035

0,03

Antal dödade per

milj oner trafikkm 0,025 0,02 0,015 0,01 0,005 0 1977 1982 1987 1992 1997 2002 År Dödsrisk

(36)
(37)

4 Resultat

Resultatkapitlet innehåller skattade modeller för de tre tidsperioderna 1956-2002, 1977-2004 och 1994-2004 med tillhörande analyser och prognoser. De modeller som används är regressionsmodeller, ARIMA-modeller och även en transferfunktionsmodell.

4.1 Modeller för åren 1956-2002

4.1.1 Modeller för antal dödade - regressionsanalys

För den här tidsperioden studerade vi regressionssambandet mellan vår responsvariabel, antal dödade, och våra förklaringsvariabler, som presenterades i avsnitt 3.2. Regressionsmodellen, som visas i bilaga 4, visar på hög multikollinearitet mellan förklaringsvariablerna. Detta är inte på något sätt märkligt då det finns ett tydligt samband mellan förklaringsvariablerna vilket kan ses i figur 1. Sambandet mellan mängden bensinleveranser och de övriga förklaringsvariablerna uppvisar under de sista åren ett beteende som avviker från det annars tydliga linjära sambandet. Detta kan bero på att mängden bensinleveranser efter en tidigare uppåtgående trend nu stabiliserats. Vår valda regressionsmodell har dessvärre ologiska parameterskattningar. Till exempel skulle ett ökat trafikarbete leda till ett minskat antal dödade vilket inte verkar troligt.

Figur 1: Samband mellan förklaringsvariabler, årsdata 1956-2002

Trafikarbete

Körkort

Bens in

(38)

Den höga multikollineariteten tillsammans med ologiska koefficienter gjorde oss tveksamma till modellen trots en relativt hög förklaringsgrad och signifikanta parametrar. Den förklaringsvariabel som var mest logisk att behålla i modellen var trafikarbetet som är den variabel som beskriver trafikmängden. Enligt definitionen vi använder så krävs det ett fordon i rörelse som medfört person- eller egendomsskador för att det ska räknas som en vägtrafikolycka. Man inser då att trafikarbetet, som uttrycks i antal fordonskilometer, har ett direkt samband med antalet dödade i trafiken. Vi gjorde ytterligare regressionsförsök där trafikarbetet tillsammans med ytterligare variabler skulle förklara antalet dödade men dessvärre kvarstod multikollinearitets-problemen i samtliga regressionsmodeller med fler variabler än en.

Även då trafikarbetet ensamt skulle förklara antalet dödade så blev parametern ologisk, se bilaga 5. Precis som tidigare skulle ett ökat trafikarbete minska antalet dödade i trafiken. Detta beror på att responsvariabeln och förklaringsvariabeln uppvisade olika trender. Under denna tidsperiod har antalet dödade haft en negativ trend medan trafikarbetet haft en positiv. Att antalet dödade ändå har minskat trots en ökning av trafikarbetet beror troligen på att trafiksäkerhetsarbetet varit av större magnitud än den ökning som skett av trafikarbetet.

4.1.2 Modeller för dödsrisk – regressionsanalys och ARIMA

Som vi tidigare nämnt ökar trafikarbetet kraftigt under vår tidsperiod samtidigt som dödsantalet minskar. Vi valde då att istället titta på dödsrisken, antalet dödade dividerat med trafikarbetet. Vi dividerade även våra förklaringsvariabler med trafikarbetet och tog fram regressionsmodeller. Antal körkortsinnehavare dividerat med trafikarbete blev både svårtolkat, fick ologiska parametrar och blev osignifikant som förklaringsvariabel så vi bortsåg från den. Den bästa modellen fick vi då dödsrisken förklarades av mängden bensinleveranser per trafikkilometer, antal personbilar per trafikkilometer och antal lastbilar per trafikkilometer, se SAS-utskriften nedan. Den justerade förklaringsgraden blev 92,15 procent och fullständig utskrift finns i bilaga 6.

Utskrift 1: Regressionsmodell för dödsrisken 1956-2002

Parameter- Standard-

Variabel DF skattning fel t-värde Pr > |t| Skärning 1 -0.20433 0.01764 -11.58 <.0001 bensinleveranspertrafikarbete 1 0.00102 0.00009764 10.44 <.0001 personbilpertrafikarbete 1 0.00187 0.00036359 5.14 <.0001 lastbilpertrafikarbete 1 0.00514 0.00075589 6.81 <.0001

(39)

De tidigare problemen med multikollinearitet fanns inte längre kvar. Residualerna uppvisade ej vitt brus för modellen men vi fann ingen övertygande ARIMA-modell för bruset. Möjligen att en ARIMA (1,1,1), se bilaga 7, skulle vara tillräckligt bra.

Det sista vi tog fram för denna tidsperiod var en tidsseriemodell för dödsrisken. Det behövdes två differentieringar för att få serien stationär och vi kunde sen i ACF och PACF, se bilaga 8, se indikationer på att en AR-modell vore lämplig. Det fanns en signifikant spik i PACF och ACF uppvisade ett exponentiellt avtagande. Vi valde en ARIMA (1,2,0), vars SAS-utskrift visas nedan. Fullständig utskrift finns även den i bilaga 8.

Utskrift 2: ARIMA-modell för dödsrisken 1956-2002

Ungef.

Parameter Skattning Standardfel t-värde Sh. > |t| Förskjutning AR1,1 0.68602 0.10978 6.25 <.0001 1

Autocorrelation Check of Residuals Till Sh. >

förskj. Chi2 DF Chi2 ---Autokorrelationer--- 6 6.87 5 0.2304 0.128 -0.222 -0.102 -0.050 0.140 0.191 12 12.22 11 0.3473 0.150 0.008 0.199 -0.026 -0.083 0.142 18 16.81 17 0.4671 0.101 0.140 0.099 -0.100 -0.034 0.117 24 18.02 23 0.7566 0.045 0.064 0.054 0.036 0.057 0.003

4.2 Modeller för åren 1977-2004

4.2.1 Modell för antal dödade - ARIMA

Vi kunde ur diagram 2 se att serien för tidsperioden 1977-2004 inte var stationär. För att få serien stationär krävdes två differensbildningar, en på kort tidsavstånd och en på säsongsavstånd. Serien fick följande utseende:

(40)

Diagram 5: Antal dödade 1977-2004, månadsdata, differentierat 1+12 60 40 20 0 -20 -40 -60 -80

Som diagram 5 visar så har differentieringarna tagit bort den trend som originalserien uppvisade och variansen ser ut att vara mer konstant. För att undersöka hur strukturen såg ut för den differentierade serien så studerade vi ACF och PACF. Vi tolkade utseendet i PACF, se bilaga 9, som ett exponentiellt avtagande och det var en indikation på att modellen skulle anpassas med MA-parametrar. I ACF, även den i bilaga 9, kunde vi tydligt se två signifikanta spikar, en på kort tidsavstånd och en på säsongsavstånd, vilket gav oss två MA-parametrar på dessa avstånd.

Efter att ha testat flera modeller kunde vi se att den mest lämpliga var en ARIMA(0,1,1)(0,1,1)12. Båda parametrarna blev signifikanta och residualerna är

oberoende enligt SAS-utskriften nedan. I bilaga 9 finns även den fullständiga utskriften.

Utskrift 3: ARIMA-modell antal dödade 1977-2004

Parameter Skattning Standardfel t-värde Sh. > |t| Förskjutning MA1,1 0.80995 0.03305 24.51 <.0001 1 MA2,1 0.82038 0.03329 24.64 <.0001 12

(41)

Till Sh. >

förskj. Chi2 DF Chi2 ---Autokorrelationer--- 6 4.36 4 0.3590 -0.016 -0.030 -0.080 0.069 0.028 -0.013 12 9.77 10 0.4608 0.036 0.031 0.016 -0.014 0.113 0.026 18 16.80 16 0.3987 0.111 0.014 -0.036 0.063 0.048 0.024 24 17.91 22 0.7111 -0.000 -0.014 -0.004 0.037 -0.032 -0.025 30 33.09 28 0.2326 0.028 0.143 0.079 -0.016 -0.003 0.122 36 35.47 34 0.3989 0.019 -0.030 0.027 -0.067 0.009 -0.002 42 43.99 40 0.3063 0.068 0.096 0.073 -0.054 0.020 -0.025 48 50.76 46 0.2914 0.051 0.058 -0.051 0.077 -0.058 -0.005

4.2.2 Modell för antal dödade - ARIMA med intervention

Serien för 1977-2004 uppvisar först en jämn nivå med jämn varians fram till 1989, för att sedan avta successivt och hitta en ny stabil nivå från 1994 till 2004, se diagram 2. Således var det lämpligt att prova en modell med en intervention med successiva effekter. Vi anpassade då en modell enligt formel (1.12). Det finns flera händelser som skulle kunna motivera en intervention i tidpunkten 199015.

- Lagen om godkänd promillegräns sänks från 0,5 till 0,2 - Höjning av skatten på bensinen

- 1989 var det en topp för såväl antal anmälda rattfylleribrott som misstänkt alkoholpåverkade förare

- 1989 var det en topp för antalet bilförare i den yngsta och äldsta åldersgruppen Tabell 2 visar att det skiljer väldigt lite mellan de båda modellerna vad gäller den skattade variansen och AIC. För fullständig utskrift av interventionsmodellen se bilaga 10. Inte heller då vi studerade de båda modellernas prognosers följsamhet mot verkliga värden kunde vi säga att de skiljde sig markant åt, se bilaga 11. Dessa båda resultat visade att interventionen inte gav någon avsevärt bättre modell.

Tabell 2: Jämförelse mellan ARIMA-modeller med och utan intervention

Modell MSE AIC

ARIMA 135.01 2503.05

ARIMA med intervention 136.46 2500.74

4.2.3 Modell för dödsrisk -ARIMA

Vi har även för denna tidsperiod valt att göra en ARIMA-modell för dödsrisken. Originalserien för dödsrisken är långt från stationär. I diagram 4 kunde vi tydligt se att både dödsrisken och variansen sjunker med tiden. På grund av seriens utseende var det naturligt att transformera serien genom logaritmering. Detta gav oss dock inte någon

15

(42)

förbättring utan differentiering var nödvändig. Det behövdes en differentiering på kort- och en på säsongsavstånd. ACF och PACF, se bilaga 12, visar i princip samma mönster som för data över enbart antal dödade och vår valda modell blev även här en ARIMA(0,1,1)(0,1,1)12. Vi kunde ur SAS-utskriften nedan se att de båda parametrarna

var signifikanta och att residualerna var okorrelerade. Fullständig utskrift finns även den i bilaga 12.

Utskrift 4: ARIMA-modell för dödsrisk 1977-2004

Parameter Skattning Standardfel t-värde Sh. > |t| Förskjutning MA1,1 0.80531 0.03328 24.20 <.0001 1 MA2,1 0.75792 0.03736 20.29 <.0001 12 Autocorrelation Check of Residuals

Till Sh. >

förskj. Chi2 DF Chi2 ---Autokorrelationer--- 6 4.03 4 0.4021 -0.003 -0.020 -0.071 0.066 0.017 -0.047 12 7.21 10 0.7052 0.027 0.012 0.026 -0.006 0.086 0.022 18 15.48 16 0.4896 0.135 0.028 -0.044 0.044 0.036 0.009 24 18.16 22 0.6964 -0.021 -0.028 0.034 0.046 0.013 -0.055 30 34.40 28 0.1879 0.061 0.150 0.066 -0.039 -0.033 0.113 36 35.42 34 0.4013 -0.018 -0.034 0.009 -0.031 0.009 0.011 42 43.78 40 0.3143 0.045 0.102 0.053 -0.074 0.014 -0.042 48 50.45 46 0.3021 0.031 0.068 -0.051 0.068 -0.070 0.006 4.3 Modeller för åren 1994-2004

4.3.1 Modell för antal dödade - ARIMA

I diagram 6 ges originalserien för månadsdata denna tidsperiod. Serien uppvisar ingen tydlig trend och variansen verkar konstant vilket stämmer väl överens med utseendet för en stationär serie. Men en analys av ACF och PACF, se bilaga 13, motsäger detta.

(43)

Diagram 6: Utveckling av antal dödade i vägtrafikolyckor 1994-2004, månadsdata 80 70 60 50 Antal dödade 40 30 20 10 0 1994 1995 1996 1997 1998 1999 2000 2001 2002 2003 2004 År

Antal dödade per månad

Vi differentierade serien på säsongsavstånd och det visade sig vara tillräckligt. Efter en granskning av nya ACF och PACF, se bilaga 14, kunde vi konstatera att det skulle ge en modell med antingen en MA-, en AR-parameter eller en kombination av de båda parametrarna. Den slutliga modellen blev en ARIMA(0,0,0)(0,1,1)12. SAS-utskriften

nedan visar att MA-parametern var signifikant och att modellen har oberoende residualer. Fullständig utskrift finns i bilaga 15.

Utskrift 5: ARIMA-modell antal dödade 1994-2004

Ungef.

Parameter Skattning Standardfel t-värde Sh. > |t| Förskjutning MA1,1 0.63523 0.07708 8.24 <.0001 12 Autocorrelation Check of Residuals

Till Sh. >

förskj. Chi2 DF Chi2 ---Autokorrelationer--- 6 6.41 5 0.2684 0.086 0.014 -0.164 -0.054 -0.000 0.117 12 13.06 11 0.2893 -0.029 -0.002 -0.007 0.091 0.198 -0.032 18 19.51 17 0.3003 0.104 -0.052 -0.089 -0.002 0.011 0.155 24 23.22 23 0.4477 -0.033 -0.012 -0.089 0.072 -0.085 0.058

4.3.2 Modell för antal dödade - Transferfunktion

De data vi har för den här tidsperioden är antal dödade och trafikarbete på månadsbasis. Bilaga 16 visar att de två serierna har ett likartat mönster. Vi skattade en

(44)

regressionsmodell med antal dödade som responsvariabel och trafikarbete som förklaringsvariabel. Denna gång blev inte parameterskattningen ologisk utan påvisade att ett ökat trafikarbete leder till ett högre antal dödade, se SAS-utskriften nedan eller i den fullständiga utskriften i bilaga 17. Med hjälp av transferfunktioner undersökte vi om det fanns någon dynamisk påverkan på antalet dödade av variabeln trafikarbete men detta kunde inte påvisas.

Utskrift 6: Regressionsmodell för antal dödade 1994-2004

Parameter- Standard-

Variabel DF skattning fel t-värde Pr > |t| Skärning 1 12.05241 5.50551 2.19 0.0304 trafikarbete 1 0.00546 0.00093490 5.84 <.0001

Regressionsmodellen ovan hade korrelerade residualer, vilket kan ses i bilaga 18, och vi gick vidare för att undersöka bruset och anpassa en lämplig tidsseriemodell. Brusserien behövde differentieras på säsongsavstånd för att bli stationär och vid analys av ACF och PACF, se bilaga 19, sågs indikationer på att en MA-modell på säsongsavstånd vore lämplig.

Insättning av ARIMA-modellen för bruset i transerfunktionen rensade korrelationen men gav ej signifikanta parametrar. Vi studerade impulsresponsvikternas beteende men det var mycket svårt att se något tydligt mönster. Vi provade ett stort antal olika modeller med olika värden på konstanterna b, r och s för att trots problemen kunna hitta en lämplig modell. Vi jämförde modellernas AIC-värden, tittade om modellen fick signifikanta parametrar och om vi fick vitt brus. Den bästa modellen fick vi då s=1, r=2 och b=0 vilken visas i utskrift 7. Fullständig utskrift finns i bilaga 20.

Utskrift 7: Transferfunktionsmodell 1994-2004

Ungef.

Parameter Skattning Standardfel t-värde Sh. > |t| Förskjutning MA1,1 0.64513 0.07560 8.53 <.0001 12 NUM1 0.04222 0.02110 2.00 0.0478 0 NUM1,1 0.04268 0.02131 2.00 0.0476 1 DEN1,1 0.87987 0.11150 7.89 <.0001 2 Autocorrelation Check of Residuals

Till Sh. >

förskj. Chi2 DF Chi2 ---Autokorrelationer--- 6 8.01 5 0.1558 0.077 -0.028 -0.191 -0.089 0.025 0.114 12 14.19 11 0.2228 0.007 -0.043 -0.009 0.051 0.201 -0.044 18 23.84 17 0.1238 0.058 -0.091 -0.151 -0.031 0.004 0.184 24 29.37 23 0.1682 -0.023 -0.020 -0.125 0.065 -0.119 0.051

(45)

4.3.3 Modell för dödsrisk - ARIMA

Även för denna tidsperiod undersökte vi om en tidsseriemodell kunde anpassas för dödsrisken. Grundserien över dödsrisken var ej stationär utan det krävdes en differentiering på säsongsavstånd. Den differentierade seriens ACF och PACF, som visas i bilaga 21, uppvisar indikationer att det även här skulle vara aktuellt med en MA-modell på säsongsavstånd. Den modell som vi fann lämpligast var en ARIMA (0,0,0)(0,1,1)12 vilken visas i utskrift 8 och den fullständiga utskriften finns även den i

bilaga 21.

Utskrift 8: ARIMA-modell dödsrisk 1994-2004

Ungef.

Parameter Skattning Standardfel t-värde Sh. > |t| Förskjutning MA1,1 0.54717 0.08324 6.57 <.0001 12 Autocorrelation Check of Residuals

Till Sh. >

förskj. Chi2 DF Chi2 ---Autokorrelationer--- 6 7.95 5 0.1590 0.169 0.020 -0.120 -0.027 0.064 0.123 12 17.95 11 0.0828 0.009 0.032 0.032 0.144 0.224 -0.040 18 24.07 17 0.1177 0.086 -0.059 -0.037 0.045 0.042 0.165 24 26.19 23 0.2920 0.001 0.026 -0.037 0.094 -0.030 0.049

4.4 Prognoser

4.4.1 Prognos med ARIMA-modell för dödsrisk 1956-2004

Tidigare i resultatkapitlet har vi presenterat en modell för dödsrisken för tidsperioden 1956-2002. Anledningen till detta tidsintervall var att vi tidigare använde flera förklaringsvariabler och att det saknades data för åren 2003 och 2004 för vissa variabler. I dödsriskmodellen använder vi oss enbart av antalet dödade och trafikarbete vilka vi har data för även för åren 2003 och 2004. Vi anpassade nu en ARIMA-modell för tidsperioden 1956-2004 så att alla prognoser skulle få samma startpunkt. Vi fick samma modell som tidigare en ARIMA (1,2,0).

För att utvärdera vår valda modell för dödsrisk så har vi predikterat värden så långt tillbaka som det var möjligt. Anledningen till detta var att vi ville se hur pass väl prediktionerna överensstämde med de verkliga värdena. Om våra prediktioner låg nära så skulle detta innebära att vår valda modell hade stor träffsäkerhet. Diagram 7 visar hur vår modell anpassade sig till de verkliga värdena.

(46)

1600 1400 1200 1000 Antal dödade 800 600 400 200 0 1958 1964 1970 1976 1982 1988 1994 2000 År

Verkligt värde antal dödade Prognos antal dödade

Vi studerade också om en förkortad serie kunde anpassas till samma modell. Vi tog bort de sista 7 observationerna från originalserien och studerade den nybildade serien. Den förkortade serien visade likadant beteende som den fullständiga och samma ARIMA-modell kunde anpassas. Nästa steg blev att se hur nära den förkortade seriens prognoser låg i jämförelse med de verkliga värdena. Om även dessa anpassar sig väl till de verkliga värdena så tyder det på att modellen har hög tillförlitlighet. Diagram 8 visar resultatet för den förkortade serien.

(47)

Diagram 8: Prognos med ARIMA-modell för dödsrisk 1956-1997 förkortad serie, årsdata 1600 1400 1200 1000 Antal dödade 800 600 400 200 0 1958 1964 1970 1976 1982 1988 1994 2000 År

Verkligt värde antal dödade Prognos antal dödade förkortat serie

För att ytterligare kunna undersöka modellernas tillförlitlighet använde vi oss av valideringsmåttet MAPE (Mean Absolute Percentage Error). För senare tidsperioder använder vi oss även av ett annat valideringsmått, MPE (Mean Percentage Error).16 Den fullständiga seriens MAPE-värde var 7,84 procent. Detta innebar att prognoserna avvek 7,84 procent i snitt från verkligt värde. För den förkortade serien var MAPE-värdet 7,79 procent. Då MAPE-värdena inte skilde sig betydande från varandra kunde vi konstatera att valet av modell för dödsrisk var stabilt.

Vidare tittade vi om den fullständiga och den förkortade seriens prognoser var lika. Det var endast i de senare tidpunkterna som de skilde sig märkbart åt. Avståndet mellan prognoserna blev inte så stora. Det var endast i några få tidpunkter där den ena serien överskattade och den andra underskattade som vi fick något större avvikelser.

Då vi kunde se att modellen hade hög validitet så ville vi också göra framtida prognoser med modellen. Då nollvisionens nästa delmål ligger år 2007 gjorde vi prognoser fram till detta år. För att kunna göra prognoser för antalet dödade har vi också varit tvungna att skatta variabeln trafikarbete. Trafikarbetets ökning har vi valt att skatta till en procent per år vilket är den observerade förändringen i trafikarbetet

16

(48)

mellan åren 2003 och 2004. I tabell 3 kan vi se prognoser för de tre kommande åren. Enligt vår prognos ska antalet dödade öka igen år 2007. Detta beror på att dödsrisken förväntas öka något och då vi tror att trafikarbetet ska fortsätta öka leder detta också till ett ökat antal dödade.

Tabell 3: Prognoser för 2005-2007 med ARIMA-modell för dödsrisk 1956-2004

År Antal dödade

2005 502 2006 477 2007 494

4.4.2 Prognoser med ARIMA-modeller för antal dödade och dödsrisk 1977-2004

Även för denna tidsperiod har vi jämfört prediktionerna för modellerna med de verkliga värdena. För att testa modellernas validitet gjordes samma sak även för förkortade serier där vi tog bort de 12 sista observationerna. Såväl de fullständiga som de förkortade seriernas prediktioner för de båda modellerna följde de verkliga värdena mycket bra.

Sedan tittade vi modellernas MAPE-värden för hela serien. Vi kunde se att skillnaden mellan MAPE-värdena var mycket liten både mellan de två modellerna men också liten mellan fullständiga och förkortade serier. Den lilla skillnaden mellan serierna ger oss en klar övertygelse om att de modeller vi valt för denna tidsperiod var mycket stabila. Tyvärr var inte MAPE-värdena så låga som man kan önska. De båda modellernas MAPE-värden för såväl fullständiga som förkortade serier ses i tabell 4.

Tabell 4: MAPE-värden för modeller från tidsperioden 1977-2004, fullständig och förkortad serie

Modell MAPE-värde Fullständig serie

MAPE-värde Förkortad serie ARIMA Antal dödade 16,61 % 16,64 %

ARIMA Dödsrisk 16,81 % 16,88 %

Diagram 9 illustrerar att det var liten skillnad mellan den fullständiga och den förkortade seriens prognoser för ARIMA-modellen. Vi testade även modellen för dödsrisk för aktuell tidsperiod och differenserna låg på en liknande nivå.

(49)

Diagram 9: Differens mellan prognoser med ARIMA-modell för antal dödade med fullstädig serie 1977-2004 och med förkortad serie 1977-2003, månadsdata

0,15 0,1 Differens i antal döda de per m å nad 0,05 0 2000 2001 2002 2003 -0,05 -0,1 -0,15 År

Differens mellan fullständig och förkortad serie

När väl modellerna var validerade gjorde vi prognoser för att visa hur nära de hamnade de verkliga värdena. Vi har gjort prognoser för det senast gångna året och ytterligare tre månader framåt vilka alla har verkligt observerade värden. Vid prognosen för dödsrisk har vi även här använt en ökning med en procent per år för trafikarbetet. Normalt är juni, juli och augusti de tre månaderna med flest antal dödade och våra modeller har skattat just detta. Då båda våra modeller bygger på löpande medelvärden så kunde de inte fånga upp extremvärden som vi kunde se i till exempel juni. Vi kan också se att vid en summering av alla femton månader så var skillnaderna mellan prognoserna och verkligt värde inte så stora.

(50)

Tabell 5: Prognoser för Jan 2004 - Mar 2005 med modeller från tidsperioden 1977-2004

Antal dödade Månad

Verkligt värde ARIMA Antal dödade ARIMA Dödsrisk Jan 25 36 36 Feb 31 33 34 Mar 26 33 33 Apr 36 33 34 Maj 40 43 42 Jun 65 47 46 Jul 46 57 56 Aug 57 53 52 Sep 41 43 43 Okt 49 43 42 Nov 31 46 46 Dec 46 43 44 Jan 30 30 29 Feb 31 31 31 Mar 38 30 29 Summa 592 601 597

I tabell 6 kan MAPE- och MPE-värden för de 15 prognostiserade månaderna studeras. Modellerna uppvisade inga större skillnader i sina avvikelser. Att MPE-värdena är positiva visar att våra modeller tenderar att överskatta antalet dödade.

Tabell 6: MAPE- och MPE-värden för modeller från tidsperioden 1977-2004, de 15 prognostiserade månaderna

Modell MAPE-värde MPE-värde

ARIMA Antal dödade 16,33 % 5,28 % ARIMA Dödsrisk 16,65 % 4,76 %

Båda modellerna var snarlika i sina prognoser och det blev då intressant att titta på prediktionsintervallen för modellerna. Prognoserna med ARIMA-modellen för dödsrisk har något bredare intervall än prognoserna med ARIMA-modellen för antal dödade. Båda modellerna har dock mycket vida prediktionsintervall. I bilaga 22 finns

(51)

prognoser och prediktionsintervall för ARIMA-modellen för antal dödade 1977-2004. Där kommenteras även prediktionsintervall för övriga modeller.

4.4.3 Prognoser med modeller för tidsperioden 1994-2004

Ett första test av modellerna för denna tidsperiod gav samma resultat som för de tidigare. Det vill säga att en fullständig och en förkortad serie i modellerna gav en bra anpassning i jämförelse med verkliga värden. Även en studie av MAPE-värden gav liknande resultat som tidigare. Vi kunde se att det skilde väldigt lite mellan en fullständig och en förkortad serie. Men den modell som gav bäst MAPE-värde var transferfunktionens prognoser som avvek 16,37 procent från verkliga värden. Samtliga MAPE-värden kan ses i tabell 7.

Tabell 7: MAPE-värden för modeller från tidsperioden 1994-2004, fullständig och förkortad serie

Modell MAPE-värde fullständig serie

MAPE-värde förkortad serie ARIMA Antal dödade 17,09 % 17,11 %

Transferfunktion 16,37 % 16,71 % ARIMA Dödsrisk 17,89 % 17,96 %

(52)

Även differenserna mellan de båda prognoserna var precis som för de tidigare tidsperioderna helt acceptabla för alla tre modellerna. Det som bör nämnas är att transferfunktionen hade några lite större differenser vid vissa tidpunkter. Som mest skilde det fyra dödade per månad, se diagram 10.

Diagram 10: Differens mellan prognoser med transferfunktionsmodell med fullständig serie 1994-2004 och med förkortad serie 1994-2003, månadsdata

4 3 2 Differens i antal döda de per m å nad 1 0 2000 2001 2002 2003 -1 -2 -3 -4 -5 År

Differens mellan fullständig och förkortad serie

På samma sätt som för tidsperioden 1977-2004 har vi gjort prognoser för det senast gångna året och ytterligare tre månader framåt. Tabell 8 visar de femton prognostiserade värdena. Även dessa månadsprognoser verkade följa det säsongsmönster som vi sett tidigare. Dessvärre var prognoserna för ARIMA-modellen och modellen för dödsrisk något höga.

(53)

Tabell 8: Prognoser för Jan 2004-Mar 2005 med modeller från tidsperioden 1994-2004

Antal dödade Månad

Verkligt värde ARIMA Antal dödade Transferfunktion ARIMA Dödsrisk Jan 25 34 28 35 Feb 31 35 35 36 Mar 26 38 33 40 Apr 36 39 39 41 Maj 40 47 44 48 Jun 65 52 54 56 Jul 46 56 54 59 Aug 57 56 57 58 Sep 41 44 38 45 Okt 49 42 44 43 Nov 31 44 38 45 Dec 46 47 48 50 Jan 30 31 24 31 Feb 31 33 34 34 Mar 38 34 29 34 Summa 592 632 599 655

Även här använde vi oss av MAPE- och MPE-värden för att jämföra modellernas tillförlitlighet, se tabell 9. Transferfunktionen visade sig vara klart bättre än de övriga med ett MAPE-värde på 13,49 procent och MPE-värde på 3,03 procent. Även för denna period kan vi på våra MPE-värden se att våra modeller tenderar att överskatta antalet dödade.

Tabell 9: MAPE- och MPE-värden för modeller från tidsperioden 1994-2004, de 15 prognostiserade månaderna

Modell MAPE-värde MPE-värde

ARIMA Antal dödade 16,73 % 10,52 % Transferfunktion 13,49 % 3,03 % ARIMA Dödsrisk 19,14 % 13,81 %

(54)

4.4.4 Prognoser fram till år 2007

Vilket vi tidigare nämnt så är ett av delmålen i nollvisionen att det ska vara högst 270 dödade i trafiken år 2007. Det är anledningen till att vi sammanställde en tabell med samtliga modellers prognoser fram till och med det aktuella året. De modeller som behandlat månadsdata har vi summerat för att kunna jämföra prognoserna på helår. Vi kan i tabell 10 se den prognostiserade utvecklingen för samtliga modeller fram till år 2007.

Tabell 10: Prognoser för 2005-2007 samtliga modeller

Modell År ARIMA Dödsrisk 1956 ARIMA Antal dödade 1977 ARIMA Dödsrisk 1977 ARIMA Antal dödade 1994 Transfer- funktion 1994 ARIMA Dödsrisk 1994 2005 502 486 474 519 496 532 2006 477 475 455 519 490 537 2007 494 464 436 519 485 542

Att prognosen för ARIMA-modellen för antal dödade 1994 blev samma för samtliga tre år berodde på att modellen efter 12 månader saknar nya residualer att ta med i beräkningarna. Att det saknas nya residualer att ta med är även ett problem i de övriga modellernas skattningar. De övriga modellerna har dock fler parametrar som vägs in vilket leder till att skattningarna blir olika år från år. Modellerna är endast bra för att prognostisera kortare perioder.

(55)

5 Diskussion och slutsatser

Huvudsyftet med vår uppsats har varit att försöka utveckla tidsseriemodeller som kan förklara antalet dödsfall i trafiken. För att lyckas med detta på bästa sätt hade det varit önskvärt att inte bara ha data över antalet dödade på månadsbasis utan även att de tänkbara förklaringsvariablerna funnits på månadsbasis. Anledningen till att vi ville studera data på månadsbasis var att tidsserieanalys kräver långa serier och även den längsta serien på årsbasis var i kortaste laget. Skulle vi ha fått fram data på månadsbasis för samtliga variabler hade detta förmodligen lett fram till ännu bättre modeller.

Den förklaringsvariabel vi lyckats få fram på månadsbasis är trafikarbete. Vi har räknat ut trafikarbete per månad genom att fördela det totala trafikarbetet per år med ett index som vi fått från Vägverket. Vår kontaktperson på Vägverket nämnde att fördelningen var några år gammal men att det inte fanns anledning att tro att det skulle se mycket annorlunda ut idag. Att vi skattat trafikarbetet med ett index som är lika för varje år kan mycket väl ifrågasättas. När vi tittade på säsongsmönstret för antalet dödade per månad så stämde detta väl överens med vårt index för trafikarbete vilket gjorde att indexet kändes logiskt. Även regressionsanalys visade att det fanns ett samband mellan variablerna och detta skulle kunna vara bevis för att vårt använda index är stabilt.

Vidare kan valet av våra förklaringsvariabler diskuteras. Samtliga variabler vi valt är trafikmängdsrelaterade vilket kan ses både positivt och negativt. Det positiva skulle vara att alla variabler tillhör samma kategori och rimligheten är stor att vi då täckt större delen av detta område. Det negativa skulle vara att vi utelämnat flera intressanta områden. Exempel på variabler som skulle ha varit intressanta att studera är framförallt demografiska- och beteendevariabler. Dessa skulle troligen ha inverkan på antalet dödade i trafiken. Det stora problemet med sådana variabler var att tillgängligheten är ytterst begränsad. De data vi hittade var långt från tillräckliga för att använda i tidsserieanalys.

Som vi visat så fanns det helt klart korrelation mellan observationerna i våra data så tidsseriemodeller var lämpliga att använda. Det fanns tydliga säsongseffekter som dessutom inte var stationära i våra data på månadsbasis. Så i de flesta modeller blev en differentiering på säsongsavstånd nödvändig för att få stationära data. I alla tidsseriemodeller vi fann lämpliga för tidsperioderna 1977-2004 och 1994-2004 fanns

Figure

Diagram 1: Utveckling av antal dödade i vägtrafikolyckor 1956-2004, årsdata
Diagram 2: Utveckling av antal dödade i vägtrafikolyckor 1977-2004, månadsdata  120 100 80 Antal dödade 60 40 20 0 1977 1980 1983 1986 1989 1992 1995 1998 2001 2004 År
Diagram 3: Utveckling av dödsrisken 1956-2002, årsdata
Figur 1: Samband mellan förklaringsvariabler, årsdata 1956-2002
+7

References

Related documents

We believe that, considering the results of this study, the future focus should lie within developing different Management Control Tools such as KPI’s and the Revised Budget to

Kortare citat anges med citationstecken, längre citat anges med inslag för hela citatet och skrivs med mindre typgrad (bokstavsstorlek).. Utelämnade ord i citat markeras på följande

Inte bara till den låga dödligheten i hjärtinfarkt, utan också varför det inte fanns någon krimina- litet att tala om, knappt någon med mental sjukdom, ingen alkoholism och

Tillgänglighet (i primärvården att få läkartid samma dag) blev viktigare än hur medicinskt motiverade dessa besök var.Och tidigare utrymme i pri- märvården

För att kunna ge arbetstagaren stöd i arbetet och skapa möjligheter för utveckling av arbetsförmågor krävs kunskap om vilka intresseområden, förmå- gor och stödbehov

Dessa tekniska problem har enligt undersökningen lett till ökade kostnader för kundföretagen och även till helt oväntade kostnader då det i det ursprungliga projektet ofta inte

- Alla har vi ett ansvar för att ha stått vid sidan om och inte gjort vad vi kunde för att hindra folkmordet.. Vi misslyckades med vår mest elementära plikt att gripa in och

I juni 2004 fick författarna av denna rapport i uppdrag av Naturvårdsverket och Svenska Jägareförbundet att sammanställa och utvärdera inventeringarna av lodjur från 1994