ARIMA-modell dödsrisk 1994-2004 - Tidsserieanalys av dödsfall i trafiken

Ungef.

Parameter Skattning Standardfel t-värde Sh. > |t| Förskjutning MA1,1 0.54717 0.08324 6.57 <.0001 12 Autocorrelation Check of Residuals

Till Sh. >

förskj. Chi2 DF Chi2 ---Autokorrelationer--- 6 7.95 5 0.1590 0.169 0.020 -0.120 -0.027 0.064 0.123 12 17.95 11 0.0828 0.009 0.032 0.032 0.144 0.224 -0.040 18 24.07 17 0.1177 0.086 -0.059 -0.037 0.045 0.042 0.165 24 26.19 23 0.2920 0.001 0.026 -0.037 0.094 -0.030 0.049

4.4 Prognoser

4.4.1 Prognos med ARIMA-modell för dödsrisk 1956-2004

Tidigare i resultatkapitlet har vi presenterat en modell för dödsrisken för tidsperioden 1956-2002. Anledningen till detta tidsintervall var att vi tidigare använde flera förklaringsvariabler och att det saknades data för åren 2003 och 2004 för vissa variabler. I dödsriskmodellen använder vi oss enbart av antalet dödade och trafikarbete vilka vi har data för även för åren 2003 och 2004. Vi anpassade nu en ARIMA-modell för tidsperioden 1956-2004 så att alla prognoser skulle få samma startpunkt. Vi fick samma modell som tidigare en ARIMA (1,2,0).

För att utvärdera vår valda modell för dödsrisk så har vi predikterat värden så långt tillbaka som det var möjligt. Anledningen till detta var att vi ville se hur pass väl prediktionerna överensstämde med de verkliga värdena. Om våra prediktioner låg nära så skulle detta innebära att vår valda modell hade stor träffsäkerhet. Diagram 7 visar hur vår modell anpassade sig till de verkliga värdena.

1600 1400 1200 1000 Antal dödade 800 600 400 200 0 1958 1964 1970 1976 1982 1988 1994 2000 År

Verkligt värde antal dödade Prognos antal dödade

Vi studerade också om en förkortad serie kunde anpassas till samma modell. Vi tog bort de sista 7 observationerna från originalserien och studerade den nybildade serien. Den förkortade serien visade likadant beteende som den fullständiga och samma ARIMA-modell kunde anpassas. Nästa steg blev att se hur nära den förkortade seriens prognoser låg i jämförelse med de verkliga värdena. Om även dessa anpassar sig väl till de verkliga värdena så tyder det på att modellen har hög tillförlitlighet. Diagram 8 visar resultatet för den förkortade serien.

Diagram 8: Prognos med ARIMA-modell för dödsrisk 1956-1997 förkortad serie, årsdata 1600 1400 1200 1000 Antal dödade 800 600 400 200 0 1958 1964 1970 1976 1982 1988 1994 2000 År

Verkligt värde antal dödade Prognos antal dödade förkortat serie

För att ytterligare kunna undersöka modellernas tillförlitlighet använde vi oss av valideringsmåttet MAPE (Mean Absolute Percentage Error). För senare tidsperioder använder vi oss även av ett annat valideringsmått, MPE (Mean Percentage Error).16 Den fullständiga seriens MAPE-värde var 7,84 procent. Detta innebar att prognoserna avvek 7,84 procent i snitt från verkligt värde. För den förkortade serien var MAPE- värdet 7,79 procent. Då MAPE-värdena inte skilde sig betydande från varandra kunde vi konstatera att valet av modell för dödsrisk var stabilt.

Vidare tittade vi om den fullständiga och den förkortade seriens prognoser var lika. Det var endast i de senare tidpunkterna som de skilde sig märkbart åt. Avståndet mellan prognoserna blev inte så stora. Det var endast i några få tidpunkter där den ena serien överskattade och den andra underskattade som vi fick något större avvikelser.

Då vi kunde se att modellen hade hög validitet så ville vi också göra framtida prognoser med modellen. Då nollvisionens nästa delmål ligger år 2007 gjorde vi prognoser fram till detta år. För att kunna göra prognoser för antalet dödade har vi också varit tvungna att skatta variabeln trafikarbete. Trafikarbetets ökning har vi valt att skatta till en procent per år vilket är den observerade förändringen i trafikarbetet

mellan åren 2003 och 2004. I tabell 3 kan vi se prognoser för de tre kommande åren. Enligt vår prognos ska antalet dödade öka igen år 2007. Detta beror på att dödsrisken förväntas öka något och då vi tror att trafikarbetet ska fortsätta öka leder detta också till ett ökat antal dödade.

Tabell 3: Prognoser för 2005-2007 med ARIMA-modell för dödsrisk 1956-2004

År Antal dödade

2005 502 2006 477 2007 494

4.4.2 Prognoser med ARIMA-modeller för antal dödade och dödsrisk 1977-2004

Även för denna tidsperiod har vi jämfört prediktionerna för modellerna med de verkliga värdena. För att testa modellernas validitet gjordes samma sak även för förkortade serier där vi tog bort de 12 sista observationerna. Såväl de fullständiga som de förkortade seriernas prediktioner för de båda modellerna följde de verkliga värdena mycket bra.

Sedan tittade vi modellernas MAPE-värden för hela serien. Vi kunde se att skillnaden mellan MAPE-värdena var mycket liten både mellan de två modellerna men också liten mellan fullständiga och förkortade serier. Den lilla skillnaden mellan serierna ger oss en klar övertygelse om att de modeller vi valt för denna tidsperiod var mycket stabila. Tyvärr var inte MAPE-värdena så låga som man kan önska. De båda modellernas MAPE-värden för såväl fullständiga som förkortade serier ses i tabell 4.

Tabell 4: MAPE-värden för modeller från tidsperioden 1977-2004, fullständig och förkortad serie

Modell MAPE-värde Fullständig serie

MAPE-värde Förkortad serie ARIMA Antal dödade 16,61 % 16,64 %

ARIMA Dödsrisk 16,81 % 16,88 %

Diagram 9 illustrerar att det var liten skillnad mellan den fullständiga och den förkortade seriens prognoser för ARIMA-modellen. Vi testade även modellen för dödsrisk för aktuell tidsperiod och differenserna låg på en liknande nivå.

Diagram 9: Differens mellan prognoser med ARIMA-modell för antal dödade med fullstädig serie 1977- 2004 och med förkortad serie 1977-2003, månadsdata

0,15 0,1 Differens i antal döda de per m å nad 0,05 0 2000 2001 2002 2003 -0,05 -0,1 -0,15 År

Differens mellan fullständig och förkortad serie

När väl modellerna var validerade gjorde vi prognoser för att visa hur nära de hamnade de verkliga värdena. Vi har gjort prognoser för det senast gångna året och ytterligare tre månader framåt vilka alla har verkligt observerade värden. Vid prognosen för dödsrisk har vi även här använt en ökning med en procent per år för trafikarbetet. Normalt är juni, juli och augusti de tre månaderna med flest antal dödade och våra modeller har skattat just detta. Då båda våra modeller bygger på löpande medelvärden så kunde de inte fånga upp extremvärden som vi kunde se i till exempel juni. Vi kan också se att vid en summering av alla femton månader så var skillnaderna mellan prognoserna och verkligt värde inte så stora.

Tabell 5: Prognoser för Jan 2004 - Mar 2005 med modeller från tidsperioden 1977-2004

Antal dödade Månad

Verkligt värde ARIMA Antal dödade ARIMA Dödsrisk Jan 25 36 36 Feb 31 33 34 Mar 26 33 33 Apr 36 33 34 Maj 40 43 42 Jun 65 47 46 Jul 46 57 56 Aug 57 53 52 Sep 41 43 43 Okt 49 43 42 Nov 31 46 46 Dec 46 43 44 Jan 30 30 29 Feb 31 31 31 Mar 38 30 29 Summa 592 601 597

I tabell 6 kan MAPE- och MPE-värden för de 15 prognostiserade månaderna studeras. Modellerna uppvisade inga större skillnader i sina avvikelser. Att MPE-värdena är positiva visar att våra modeller tenderar att överskatta antalet dödade.

Tabell 6: MAPE- och MPE-värden för modeller från tidsperioden 1977-2004, de 15 prognostiserade månaderna

Modell MAPE-värde MPE-värde

ARIMA Antal dödade 16,33 % 5,28 % ARIMA Dödsrisk 16,65 % 4,76 %

Båda modellerna var snarlika i sina prognoser och det blev då intressant att titta på prediktionsintervallen för modellerna. Prognoserna med ARIMA-modellen för dödsrisk har något bredare intervall än prognoserna med ARIMA-modellen för antal dödade. Båda modellerna har dock mycket vida prediktionsintervall. I bilaga 22 finns

prognoser och prediktionsintervall för ARIMA-modellen för antal dödade 1977-2004. Där kommenteras även prediktionsintervall för övriga modeller.

4.4.3 Prognoser med modeller för tidsperioden 1994-2004

Ett första test av modellerna för denna tidsperiod gav samma resultat som för de tidigare. Det vill säga att en fullständig och en förkortad serie i modellerna gav en bra anpassning i jämförelse med verkliga värden. Även en studie av MAPE-värden gav liknande resultat som tidigare. Vi kunde se att det skilde väldigt lite mellan en fullständig och en förkortad serie. Men den modell som gav bäst MAPE-värde var transferfunktionens prognoser som avvek 16,37 procent från verkliga värden. Samtliga MAPE-värden kan ses i tabell 7.

Tabell 7: MAPE-värden för modeller från tidsperioden 1994-2004, fullständig och förkortad serie

Modell MAPE-värde fullständig serie

MAPE-värde förkortad serie ARIMA Antal dödade 17,09 % 17,11 %

Transferfunktion 16,37 % 16,71 % ARIMA Dödsrisk 17,89 % 17,96 %

Även differenserna mellan de båda prognoserna var precis som för de tidigare tidsperioderna helt acceptabla för alla tre modellerna. Det som bör nämnas är att transferfunktionen hade några lite större differenser vid vissa tidpunkter. Som mest skilde det fyra dödade per månad, se diagram 10.

Diagram 10: Differens mellan prognoser med transferfunktionsmodell med fullständig serie 1994-2004 och med förkortad serie 1994-2003, månadsdata

4 3 2 Differens i antal döda de per m å nad 1 0 2000 2001 2002 2003 -1 -2 -3 -4 -5 År

Differens mellan fullständig och förkortad serie

På samma sätt som för tidsperioden 1977-2004 har vi gjort prognoser för det senast gångna året och ytterligare tre månader framåt. Tabell 8 visar de femton prognostiserade värdena. Även dessa månadsprognoser verkade följa det säsongsmönster som vi sett tidigare. Dessvärre var prognoserna för ARIMA-modellen och modellen för dödsrisk något höga.

Tabell 8: Prognoser för Jan 2004-Mar 2005 med modeller från tidsperioden 1994-2004

Antal dödade Månad

Verkligt värde ARIMA Antal dödade Transferfunktion ARIMA Dödsrisk Jan 25 34 28 35 Feb 31 35 35 36 Mar 26 38 33 40 Apr 36 39 39 41 Maj 40 47 44 48 Jun 65 52 54 56 Jul 46 56 54 59 Aug 57 56 57 58 Sep 41 44 38 45 Okt 49 42 44 43 Nov 31 44 38 45 Dec 46 47 48 50 Jan 30 31 24 31 Feb 31 33 34 34 Mar 38 34 29 34 Summa 592 632 599 655

Även här använde vi oss av MAPE- och MPE-värden för att jämföra modellernas tillförlitlighet, se tabell 9. Transferfunktionen visade sig vara klart bättre än de övriga med ett MAPE-värde på 13,49 procent och MPE-värde på 3,03 procent. Även för denna period kan vi på våra MPE-värden se att våra modeller tenderar att överskatta antalet dödade.

Tabell 9: MAPE- och MPE-värden för modeller från tidsperioden 1994-2004, de 15 prognostiserade månaderna

Modell MAPE-värde MPE-värde

ARIMA Antal dödade 16,73 % 10,52 % Transferfunktion 13,49 % 3,03 % ARIMA Dödsrisk 19,14 % 13,81 %

4.4.4 Prognoser fram till år 2007

Vilket vi tidigare nämnt så är ett av delmålen i nollvisionen att det ska vara högst 270 dödade i trafiken år 2007. Det är anledningen till att vi sammanställde en tabell med samtliga modellers prognoser fram till och med det aktuella året. De modeller som behandlat månadsdata har vi summerat för att kunna jämföra prognoserna på helår. Vi kan i tabell 10 se den prognostiserade utvecklingen för samtliga modeller fram till år 2007.

Tabell 10: Prognoser för 2005-2007 samtliga modeller

Modell År ARIMA Dödsrisk 1956 ARIMA Antal dödade 1977 ARIMA Dödsrisk 1977 ARIMA Antal dödade 1994 Transfer- funktion 1994 ARIMA Dödsrisk 1994 2005 502 486 474 519 496 532 2006 477 475 455 519 490 537 2007 494 464 436 519 485 542

Att prognosen för ARIMA-modellen för antal dödade 1994 blev samma för samtliga tre år berodde på att modellen efter 12 månader saknar nya residualer att ta med i beräkningarna. Att det saknas nya residualer att ta med är även ett problem i de övriga modellernas skattningar. De övriga modellerna har dock fler parametrar som vägs in vilket leder till att skattningarna blir olika år från år. Modellerna är endast bra för att prognostisera kortare perioder.

5 Diskussion och slutsatser

Huvudsyftet med vår uppsats har varit att försöka utveckla tidsseriemodeller som kan förklara antalet dödsfall i trafiken. För att lyckas med detta på bästa sätt hade det varit önskvärt att inte bara ha data över antalet dödade på månadsbasis utan även att de tänkbara förklaringsvariablerna funnits på månadsbasis. Anledningen till att vi ville studera data på månadsbasis var att tidsserieanalys kräver långa serier och även den längsta serien på årsbasis var i kortaste laget. Skulle vi ha fått fram data på månadsbasis för samtliga variabler hade detta förmodligen lett fram till ännu bättre modeller.

Den förklaringsvariabel vi lyckats få fram på månadsbasis är trafikarbete. Vi har räknat ut trafikarbete per månad genom att fördela det totala trafikarbetet per år med ett index som vi fått från Vägverket. Vår kontaktperson på Vägverket nämnde att fördelningen var några år gammal men att det inte fanns anledning att tro att det skulle se mycket annorlunda ut idag. Att vi skattat trafikarbetet med ett index som är lika för varje år kan mycket väl ifrågasättas. När vi tittade på säsongsmönstret för antalet dödade per månad så stämde detta väl överens med vårt index för trafikarbete vilket gjorde att indexet kändes logiskt. Även regressionsanalys visade att det fanns ett samband mellan variablerna och detta skulle kunna vara bevis för att vårt använda index är stabilt.

Vidare kan valet av våra förklaringsvariabler diskuteras. Samtliga variabler vi valt är trafikmängdsrelaterade vilket kan ses både positivt och negativt. Det positiva skulle vara att alla variabler tillhör samma kategori och rimligheten är stor att vi då täckt större delen av detta område. Det negativa skulle vara att vi utelämnat flera intressanta områden. Exempel på variabler som skulle ha varit intressanta att studera är framförallt demografiska- och beteendevariabler. Dessa skulle troligen ha inverkan på antalet dödade i trafiken. Det stora problemet med sådana variabler var att tillgängligheten är ytterst begränsad. De data vi hittade var långt från tillräckliga för att använda i tidsserieanalys.

Som vi visat så fanns det helt klart korrelation mellan observationerna i våra data så tidsseriemodeller var lämpliga att använda. Det fanns tydliga säsongseffekter som dessutom inte var stationära i våra data på månadsbasis. Så i de flesta modeller blev en differentiering på säsongsavstånd nödvändig för att få stationära data. I alla tidsseriemodeller vi fann lämpliga för tidsperioderna 1977-2004 och 1994-2004 fanns

det en eller flera löpande medelvärdesparametrar som var signifikanta. Vi har alltså fått modeller där observationen i en viss tidpunkt förklaras med en linjär sammansättning av tidigare brustermer. Att det var medelvärdesparametrar i samtliga modeller som vi testat på månadsnivå var dels en validering av våra modeller och en bekräftelse på att korrelationen hade samma struktur för de båda tidsperioderna. Om utseendet av modellernas parametrar sett helt olika ut hade troligen vidare analys varit nödvändig för att säkerställa att modellerna verkligen var stabila.Vad gäller prognoser med löpande medelvärdesparametrar måste man ta med tidigare brustermer. Väntevärdet av en framtida brusterm är alltid lika med noll och detta medför att medelvärdesmodeller endast är bra för att skatta prognoser för kortare perioder framåt i tiden. Detta gäller i allmänhet för alla ARIMA-modeller. Ett tillägg till detta är att oavsett vilken metod eller modell man använder för att göra prognoser så blir det nästan alltid stor osäkerhet långt fram i tiden.

Om vi tittar på resultatet från prognoserna så skilde sig modellerna något. Ur trafiksäkerhetssynpunkt var prognoserna mestadels positiva då de gav en nedåtgående trend förutom för ARIMA-modellen för dödsrisk 1956-2004 och ARIMA-modellen för dödsrisk 1994-2004 då antalet dödade väntades öka något. Vi bör nämna att prognosen för ARIMA-modellen för dödsrisk 1956-2004 är något darrig om man ser till att den väntas öka, sedan minska och sedan öka igen. Detta ger ett något instabilt intryck och modellens prognos bör därför inte uppmärksammas vidare. Ökningen av antalet dödade för ARIMA-modellen för dödsrisk 1994-2004 beror på en liten prognostiserad ökning av dödsrisken tillsammans med en ökad mängd trafikarbete. Även om dödsrisken skulle minska något skulle troligen den marginella minskningen inte vara av större magnitud än att ökningen av trafikarbetet i alla fall skulle ge ett ökat antal dödade.

Transferfunktionens prognoser låg närmast de sanna värdena av samtliga testade modeller och hade såväl lägst MAPE- som MPE-värde. Dessvärre var det svårt att tyda hur modellens parametrar skulle skattas och det kan vara på grund av vår indexskattning av trafikarbetet. Det vore av intresse att prova modellen med ”riktiga” värden för trafikarbete per månad då valet av b, r och s kanske skulle bli något tydligare. Trots att det finns mycket osäkerhet kring denna modell finns det en känsla av att den är logisk. Modellen förklarade antalet dödade med trafikarbete och en felterm som beskrivs av medelvärdesparametrar med säsongsbeteende. Med denna modell fick vi både en logisk förklaring av antalet dödade och ett bevis på att korrelationen i residualerna kunde beskrivas av en ARIMA-process.

Våra modeller som baserats enbart på antalet dödade gav prognoser som låg hyfsat bra i jämförelse med verkliga värden. Vid en jämförelse av enskilda observationer kan det vara ganska stor avvikelse i vissa tidpunkter. En orsak till stora avvikelser kan vara att parametrarna består av glidande medelvärden och i och med detta inte kan fånga upp extremvärden. En annan orsak till avvikelser är att slumpvariationen i dödsantalet är mycket stor. Prognoserna kan till exempel ej förutspå kraftiga väderomslag, stora trafikolyckor etcetera. Vid en jämförelse av ackumulerade data stämmer prognoserna mycket bättre än vid enskilda observationer. En fördel med dessa modeller är att de inte behöver inblandning av variabeln trafikarbete. Storleken på trafikarbetet kan ändå i viss mån säga speglas i antalet dödade.

Det är svårt att säga vilken av våra modeller som är bäst. Den modell som direkt kan uteslutas är ARIMA-modellen för dödsrisk 1956-2004 som uppvisade lite darriga prognoser. Vidare gav modellen också annorlunda parametrar än de övriga. Samtliga modeller skattade medelvärdesparametrar utom ARIMA-modellen för dödsrisk 1956- 2004 som skattade autoregressiva. Då det bara var en modell som skattade annorlunda kändes det naturligt att utesluta den. Vad gäller de andra två dödsriskmodellerna kändes de också lite osäkra. Trots att vi hävdat att vårt index för trafikarbete ska stämma så vet vi ju inte hur mycket trafikarbetet kommer att öka i framtiden. Det har inte heller varit vår mening att skatta det framtida trafikarbetet utan vår kraft har legat på att finna lämpliga tidsseriemodeller för antal dödade. Osäkerhetsaspekten i trafikarbetet gör att vi inte vill rekommendera någon av dödsriskmodellerna före någon annan.

Vid en jämförelse av resterande modellers MAPE-värden för fullständig och förkortad serie så hade transferfunktionen lägst sådant. Men vilket vi visat så var det så liten skillnad som 1,5 procentenheter mellan det bästa och sämsta värdet. Denna lilla skillnad gjorde att vi var tvungna att titta på modellernas prognoser för att avgöra vilken som var bäst. Som vi tidigare nämnt så låg transferfunktionens prognoser närmast de verkliga värdena. Detta bevisas även av transferfunktionens MAPE- och MPE-värden som var betydligt lägre än värdena för övriga modellers prognoser. Inblandningen av trafikarbetet gör dock modellen något mer osäker än de ARIMA- modeller som gjorts med bara antalet dödade. Vid en jämförelse av prognoser för de båda ARIMA-modellerna för antalet dödade så ligger ARIMA-modellen för antalet dödade 1977-2004 bäst i förhållande till verkliga värden. Även de framtida prognoserna talar för modellen. Det har varit en nedåtgående trend sedan år 2000 och det finns egentligen inget som talar för att det skulle bli på något annorlunda sätt

framåt i tiden. Men det finns å andra sidan inte något i våra data som säger att antalet dödade inte ska öka heller. Sedan 1994 har antalet dödade fluktuerat men ändå legat på ungefär samma nivå.

Våra två ARIMA-modeller baserade enbart på antalet dödade tenderar att överskatta i prognoserna vid en jämförelse med verkliga värden vilket även gäller för transferfunktionen. Detta kan vara ett bevis för att trafiksäkerhetsarbetet gett resultat. Modellernas skattningar baseras ju på de tidigare observationerna och kan då inte fånga upp trafiksäkerhetsåtgärdernas påverkan. Enligt våra prognoser kommer inte Nollvisionens delmål för år 2007 att nås. Det skulle troligen behövas radikala förändringar i trafiken för att få ner dödsantalet till delmålsnivån.

Referenslista

1 http://www.vti.se/templates/Page____3083.aspx (050228)

2 http://www.vv.se/filer/9212/Trafikteknisk_utredning.pdf (050524) 3 Näringsdepartementet, proposition 1996/97:137

4 Forsman, Yahya, Kontrolldiagram för månadsvis uppföljning av antal dödade i vägtrafiken, VTI-rapport 513, 2005

5 Multimedieutgåvan av Nationalencyklopedin, v 2.0 CD-ROM för PC, Bokförlaget Bra Böcker AB, 1998

6 Neter, Kutner, Nachtsheim, Wasserman, Applied linear statistical models, The McGraw-Hill companies, USA, 1996.

7 Makridakis, Wheelwright, Hyndman, Forcasting -Methods and applications, John Wiley & sons, USA, 1998

8 Makridakis, Wheelwright, Hyndman, Forcasting -Methods and applications, John Wiley & sons, USA, 1998

9 Makridakis, Wheelwright, Hyndman, Forcasting -Methods and applications, John Wiley & sons, USA, 1998

10 Poul Holmgren, Vägverket

11 Sveriges bilindustri- och bilgrossistförening, Bilismen i Sverige, 1966, 1969, 1976, 1978

Bilindustriföreningen, Bilismen i Sverige, 1999 12 www.vv.se (050222)

13 Bil Sweden, Bilismen i Sverige, 2003 14 www.scb.se (050224)

15 Ulf Brüde, Basstatistik över olyckor och trafik samt bakgrundsvariabler Version 2005-04-14, 2005

16 Makridakis, Wheelwright, Hyndman, Forcasting -Methods and applications, John Wiley & sons, USA, 1998

Bilagor

Bilaga 1 - Plot över antal dödade 1977-2004 uppdelat på månad

nov jun jan 120 110 100 90 80 70 60 50 40 30 20 Månad A n tal dö da de

Bilaga 2 - Källdata 1956-2004

In document Tidsserieanalys av dödsfall i trafiken (Page 45-62)