• No results found

3  Statistiska modeller över antalet dödsoffer i trafiken 16 

3.4  Avslutande kommentarer 28 

Åtskilliga exempel på modeller har givits där ekonomiska storheter är med bland de förklarande variablerna. Kapitlet avrundas med en kort sammanfattning om

modellering, för en mera omfattande diskussion se Pettitt m.fl. (1992) som också innehåller en bred litteraturöversikt fram till 1991.

Det första steget består av att välja den beroende variabeln i modellen. Vissa författare som Hermans m.fl. (2005) använder allvarliga olyckor eftersom det är något slump- mässigt ifall någon inblandad dödas eller ej och att det också är osäkert att mäta en så osannolik händelse som att trafikdödas. Det senare problemet är dock sällan aktuellt här då stora områden, ofta hela länder, observeras under lång tid. Om målet med studien är att mäta risken att avlida i trafiken kan den beroende variabeln vara ett förhållande som antal trafikdödade per capita eller trafikarbete vilket kan vara mindre lämpligt om man misstänker att olycksrisken ökar med trafikarbetet.

De modeller som det refererats till, regressions- och ARIMA(överföringsfunktions)- modeller är specialfall av tillståndsmodeller. Regression väljs ofta för att det ger samband som ger en enkel tolkning av hur en förklarande variabel inverkar på y(t). Haque(1993) anför att det är vanligt att formen på regressionssambandet väljs ad-hoc efter att ha inspekterat plottar av data. Han anser också att summan av förändringar i antal trafikdödade från olika faktorer ska stämma med den totala skillnaden i antal trafikdödade vilket är ett argument varför linjära samband som (7) är så populära. Ibland väljs en modell för att den är ny inom trafiksäkerhet men haft framgång inom andra tillämpningar som neuronnätet i Al-Alawi m.fl. (1996). Oftare väljs en modelltyp av ”tradition” för att kunna användas som standard på flera data. Det är fallet i Newstead m.fl. (1996) som är den sista i raden av flera studier över antalet trafikdödade i Victoria på 1980- och 1990-talet som alla använder produktmodellen (12), den första är

Thoresen m.fl. (1992) som också har med arbetslöshet bland förklaringsvariblerna. Pettitt m.fl. (1992) argumenterar för att logaritmeringen av variabler som i (12) är onödig om alla data har samma storleksordning över hela tidsserierna och föredrar att använda (7).

De som förespråkar ARIMA-modeller över regression, som Wagenaar (1984), anser att de modellerar ”dynamiska” samband där y(t) påverkas av vad som händer i tidigare tidpunkter bättre. Ett annat argument, t.ex. enligt van den Bossche m.fl. (2005) är att antagandet om inbördes oberoende fel e(t) vid regression är för restriktivt och att tillåta beroende mellan e(t) till viss del kan kompensera för saknade förklaringsvariabler. De flesta författare har med tiden som förklaringsvariabel för att få med en oftast nedåtgående trend då trafiksäkerheten allmänt ökar över tiden på ett sätt som inte kan förklaras av de övriga faktorer som ingår i modellen men en del utelämnar den som Partyka (1984) och Wilde, Simonet (1996).

Att välja lämpliga förklaringsvariabler är kritiskt för att få en bra modell. Ett problem man försöker undvika är förklaringsvariabler som är starkt korrelerade då skattningen av summan av deras inverkan på y(t), i en linjär modell, kanske bestäms bra men där skattningen av deras inverkan var för sig kan ha stora fel. Ett par exempel på det dök upp i artiklarna som studerades. Wilde & Simonet (1996) beräknade korrelationerna mellan industriproduktion och sina två mått på sysselsättningen som alla blev >0.9. Det kan vara en del av förklaringen till att deras modell i praktiken säger att högre arbets- löshet ger fler trafikolyckor i motsats till nästan alla andra studier. Vad som också är problematiskt är att regressionsparametern i en modell med bara industriproduktion skiljer sig kraftigt från den i modellen där de båda sysselsättningsmåtten också är med. Ett annat problem med starkt korrelerade förklaringsvariabler är att variansen av

regressionsparametrarna, som jämförs med värdet på parametern själv för att se om den är signifikant skild från 0, kan underskattas så att man kan luras att ta med onödiga variabler. Farmer (1997) undvek ett liknande problem genom att vissa regressions- parametrar i hans ursprungliga modell ändrades dramatiskt då något färre datapunkter

användes för att beräkna en ny modell. Det var ett tecken på att ”falskt signifikanta” variabler fanns med och ledde till att bara arbetslöshet och trafikarbete behölls i den slutliga modellen.

Partyka (1984) varnar också för övertro på regressionsmodeller med ett högt så

kallatR -värde som mäter hur stor del av variationen, i hennes fall hela 98 %, i y(t) som 2

förklaras av modellen. Det kan finnas ”bättre” förklaringsvariabler än de som ingår i modellen som förklarar mer än 2 % av variationen men som märks först om de också prövas i modellen.

Ett annat problem är ifall man ska ta med variabler som verkligen antas betyda något och inte bara för att få bättre anpassning av modellen till verkliga värden på y(t). Partyka prövade först en modell med bara ekonomiska variabler som gav för stora värden på antalet trafikdöda i slutet på 1970-talet och förbättrade modellen med två ”vettiga” indikatorvariabler som svarade mot oljekrisen och en hastighetssänkning på motorvägarna i USA. Andra författare som Hermans m.fl. (2005) och Garcia-Ferrer m.fl. (2006) inför indikatorvariabler som är 1 i punkter där modellfelet bedöms som stort och motsvarande datapunkt misstänks vara en ”outlier” som därigenom ska hindras från att få alltför stor inverkan på parametrarna för de intressanta förklaringsvariablerna i modellen.

En intressant användning av modeller är att göra prognoser för antalet trafikdödade i framtiden. Reinfurt m.fl. (1991) fick mindre fel när de extrapolerade en modell utan ekonomiska variabler än en där de ingick. Pettitt m.fl. (1992) använde sin första

ARIMA-modell utan förklarande variabel över antalet trafikdöda/dag som en måttstock mot ett stort antal regressionsmodeller, bl.a. var arbetslöshet med som förklarings- variabel, och det stora flertalet bedömdes representera data sämre än en ren tidsserie- modell, den enda förklaringsvariabel de ansåg tillräckligt bra var bensinförsäljning. Deras ARIMA-modell visade sig ge bättre prediktion för 1991 än den som hade med bränsleförsäljning som förklaringsvariabel men den senare hade fördelen att kunna förklara en del av nedgången i antal dödade 1991 jämfört med tidigare år.

Det är allmänt ett svårt problem att göra prognoser som inte får breda intervall inom vilket det sanna värdet antas ligga. De kan nog mest användas för att testa olika scenarier där användaren själv föreskriver värden för förklaringsvariablerna, annars måste dessa förutspås med tidsseriemodeller som förstås ökar osäkerheten i prognosen ytterligare.

De studier som beskrivits i detta kapitel är i stort sett överens om att det finns ett statistiskt samband mellan konjunkturläget och antalet trafikdödade. Det är dock fortfarande en till stora delar öppen fråga vilka ekonomiska variabler som är lämpligast att använda i en relativt enkel modell, vilken modelltyp som ska användas och om separata modeller ska tas fram för olika trafikantgrupper och/eller typer av olyckor.

Related documents