LINKÖPINGS UNIVERSITET
Modellering av spårvidd över bandel 119 inom
Stambanan genom Övre Norrland
Kandidatuppsats i Statistik och dataanalys
Frida Berglund Mayumi Setsu Oskarsson
Abstract
The Swedish Transport Administration (Trafikverket) has been in charge of the maintenance of the railway systems since 2010. The railway requires regular maintenance in order to keep tracks in good condition for passengers and other transports safety. To insure this safety it is important to measure the tracks geometrical condition. The gauge is one of the most important geometrics that cannot be too wide or narrow.
The aim of this report is to create a model that is able to simulate the deviation from normal gauge from track geometrics and properties.
The deviation from normal gauge is a random quantity that we modeled as a generalized linear model or a generalized additive model. The models can be used to simulate the possible values of the deviation. It was demonstrated in this study that GAM was able to model most of the variation in the deviation from normal gauge with the information from some track geometrics and properties.
Sammanfattning
Trafikverket har varit de som ansvarar för underhållet på den svenska järnvägen sedan 2010. För att järnvägen ska vara säker för passagerare och övriga transporter behöver den hållas i gott skick genom regelbundet underhåll. Därför är det viktigt att kontrollera spårgeometriers kvalitet. Spårvidden är en utav de viktigaste mått som varken får vara för bred eller för smal.
Syftet med denna rapport är att bygga en modell som kan användas för att simulera avvikelsen på normal spårvidd med avseende på spårgeometrier samt spårens egenskaper.
Avikkelsen från normal spårvidd är en slumpvariabel som vi modellerat med en generaliserad linjär modell och en generaliserad additiv modell. De kan sedan användas för att simulera avvikelsen på normal spårvidd. I studien visas att GAM lyckas förklara en stor del av variationen i avvikelse på normal spårvidd med hjälp av information från spårgeometrier samt spårens egenskaper.
Förord
Denna rapport är skriven som en kandidatuppsats på programmet Statistik och dataanalys vid Linköpings universitet. Uppdragsgivare för studien är Trafikverket i Luleå.
Vi önskar tacka vår uppdragsgivare hos Trafikverket, Peter Söderholm. Tack för att ni gett oss möjligheten att arbeta med er stora mängd data. Vi har lärt oss mycket inom ämnet för studien. Vi vill även tacka Bjarne Bergquist på Luleå tekniska universitet som gett oss goda råd gällande statistiska metoder. Tack även till Arne Nissen, spårtekniker på Trafikverket som har gett värdefulla tekniska kommentarer på rapporten.
Vi tackar vår handledare Oleg Sysoev för många uppskattade handledningar.
Till sist vill vi även tacka våra opponenter Dorothy Tse och Mattias Eklöv för synpunkter och konstruktiv kritik på uppsatsen.
Frida Berglund och Mayumi Setsu Oskarsson Linköpings universitet, 30 maj 2014
Innehållsförteckning
1. Inledning ... 1 1.1 Bakgrund ... 1 1.2 Definitioner ... 1 1.3 Problemformulering ... 21.4 Syfte och frågeställningar ... 3
1.5 Tidigare forskning ... 3 2. Data ... 5 2.1 Datakällor ... 5 2.2 Bearbetning ... 5 2.3 Felkällor ... 6 2.4 Beskrivande statistik ... 7 2.4.1 Responsvariabel ... 7 2.4.2 Förklaringsvariabler ... 10 3. Metod ... 17
3.1 Val av metoder ... 17
3.2 GLM och GAM ... 17
3.3 Utvärdering ... 20
3.3.1 Utvärderingsmått ... 20
3.3.2 Grafisk metod ... 21
3.4 Multikolinjäritet och concurvity ... 22
4. Analys och resultat ... 23
4.1 Fördelning för spåravvikelse ... 23
4.2 Korrelationsanalys ... 24
4.3 Modellanpassning ... 24
4.3.1 Modellanpassning med GLM ... 25
4.3.2 Modellanpassning med GAM ... 26
4.3.4 Validering av modell ... 36
5. Slutsats ... 38
6. Diskussion ... 40
6.1 Etiska överväganden ... 40
6.2 Metodavgränsning ... 40
6.3 Hantering av stor mängd data ... 40
6.4 Vidare forskning ... 40 Källförteckning ... 41 Tryckta källor ... 41 Otryckta källor ... 41 Figurförteckning ... 42
Bilageförteckning
Bilaga 1 – Begrepplista om data från mätdata ... iBilaga 2 – Begrepplista om data från BIS ... ii
Bilaga 3 – Observerade spårvidden under nio olika mätdagar ... iv
Bilaga 4 – Histogram för observerade spåravvikelse för nio olika mätdagar ... vi
Bilaga 5 – Frekvenslistor för förklaringsvariabler ... vii
Bilaga 6 – Figurer för variabler för spårläge och spårgeometrier ... ix
Bilaga 7 – R-‐paket ... xiii
Bilaga 8 – Modellparametrar från GLM-‐modelleringar ... xiv
Bilaga 9 – Diagnosplott och tabell för Modell 3 ... xv
Bilaga 10 – Resultat, Diagram och diagnos för Modell 4 (GAM) ... xvii
Bilaga 11 – Diagram och concurvity-‐diagnos för Modell 5 & Modell 6 ... xx
Bilaga 12 – Koefficienter och p-‐värde från GAM-‐modellering med hela datamängden ... xxiii
Bilaga 13 – Anpassade värden på övriga modeller ... xxv
Figurförteckning
Figur 1 – Definition för spårvidd ... 7
Figur 2 – Spåravvikelsen vid 2008-‐09-‐25 resp. 2009-‐04-‐16 ... 8
Figur 3 – Histogram för spåravvikelse vid 2008-‐09-‐25 resp. 209-‐04-‐16 ... 9
Figur 4 – Lådagram för spåravvikelsen under elva mätdagar ... 9
Figur 5 – Plankorsning över sträckan med spåravvikelse ... 10
Figur 6 – Dränering över sträckan med spåravvikelse ... 11
Figur 7 – Befästning över sträckan med spåravvikelse ... 12
Figur 8 – Kvalitetsklass (BIS) över sträckan med spåravvikelse ... 13
Figur 9 – Mätvagnens hastigheter under elva tidpunkter ... 14
Figur 10 – Kurvatur vid spåranläggning (ovan) och kurvatur som inmätts 2011-‐06-‐09 (under) ... 15
Figur 11 – Vänster sida över kort våglängd (t.v.) och vänster sida över lång våglängd (t.h.) .. 16
Figur 12 – Histogram av en gammafördelning vid simulering av fördelningen på spårvidden 23 Figur 13 – Residualplott för Modell 1-‐2 (GLM) ... 25
Figur 14 – Residualplott för Modell 3 (GAM) ... 27
Figur 15 – Två rugplott från Modell 3 (GAM) ... 28
Figur 16 – Residualplott för Modell 4 (GAM) ... 30
Figur 17 – Två rugplott från Modell 4 (GAM)-‐(1) ... 30
Figur 18 – Två rugplott från Modell 4 (GAM)-‐(2) ... 31
Figur 19 – Residualplott för Modell 6 (GAM) ... 32
Figur 20 – Två rugplott från Modell 6 (GAM) ... 34
Figur 21 – Två rugplott från Modell 6 (GAM) ... 34
Figur 22 – Observerade värden på spårvidden vs de anpassade spårvidden ... 35
Figur 23 – Observerade värden på spårvidden vs de anpassade spårvidden för två tidpunkter ... 37
Tabellförteckning
Tabell 1 – Resultat för parametriska termer för Modell 3 (GAM) ... 27Tabell 2 – Resultat för utjämningstermer för Modell 3 (GAM) ... 28
Tabell 3 – Resultat för parametriska termer för Modell 4 (GAM) ... 29
Tabell 4 – Utjämnare för olika kovariater, Modell 5-‐6 (GAM) ... 31
Tabell 5 – Resultat för parametriska termer för Modell 6 (GAM) ... 33
Tabell 6 – Resultat för utjämningstermer för Modell 6 (GAM) ... 33
Tabell 7 – Utvärderingsvärden och antal observation samt adderat tal till respons ... 36
1. Inledning
I detta kapitel presenteras Trafikverket som är uppdragsgivare för denna studie. Även bakgrund för uppdraget redovisas och dess syfte.
1.1 Bakgrund
Trafikverket är en av de myndigheter som arbetar inom transportområdet och startades den 1 april 2010. Trafikverket ansvarar för långsiktig planering av transportsystemet för alla trafikslag samt för byggande, drift och underhåll av statliga vägar och järnvägar. Sedan 2010 tog de över Banverkets ansvar att förvalta statens spåranläggningar. Denna studie undersöker järnvägsinfrastrukturer.
För att tågtrafiken ska fungera väl bör hela spåranläggningar hållas i gott skick. Ett av de viktigaste kraven för tågtrafiken är att spårens former är korrekta. Spårens former innefattar olika mått, såsom spårvidd, rälsförhöjning, skevning m.m. Med tiden slits rälerna och spårens former förändras. Det finns även olika tänkbara faktorer som påverkar spårvidd förutom tiden, till exempel olika typer av ballastmaterial, spårens geografiska läge och temperaturväxlingar. Spårvidden får varken vara för bred eller för smal. Avviker spårvidden alltför stort från normal spårvidd kan både personer och tågen skadas allvarligt i urspårningar, vilket gör att regelbundna kontroller och kunskap i spårbeteende är viktigt. Trafikverket underhåller och mäter spårens mått enligt arbetsregler som finns dokumenterade i banverksförfattningar. Dessa innefattar både svensk och europeisk standard samt arbetsbeskrivningar för att behålla spårens former i normalt läge. Denna studie är ett försök att effektivisera underhållsarbete genom att studera tidigare inmätta mått för olika spårdelar tillsammans med kända spåregenskaper.
1.2 Definitioner
I rapporten används några speciella begrepp gällande tågtrafik och spår. Dessa begrepp är viktiga för att kunna förstå denna studie. Under det här avsnittet redovisas dessa begrepp.
PlatsID
Spåren hanteras av Trafikverket med hjälp av givna markeringar i kilometer och dess förskjutningslängder i meter från de givna markeringarna. Ett PlatsID anges i kombination av en markering och förskjutningslängd angett i kilometer. Markeringarna betecknas i fyra heltal och förskjutningslängderna anges i decimaltal till följd av markeringarna. Till exempel anges PlatsID för Boden som 1146,665 km. PlatsID används som ett ID för en punkt på spåren innehållande dess position. Variabeln för PlatsID heter Plats marker.
Spåravvikelse
I denna studie är det avvikelsen från normal spårvidd som undersöks. För att kunna skriva detta på ett kortare och möjligtvis tydligare sätt kallas den oftast för
spåravvikelse. Variabeln som undersöks heter dock Spårvidd, vilket alltså inte är ett
mått på spårets vidd. Se kapitel 2.3.1 för mer information.
Bandel 119
Detta är en bandel som går mellan Boden och Luleå, som tillhör stråk 7, s.k. Stambanan genom Övre Norrland. Banlängden av bandel 119 är totalt 32,8 km som börjar med markering (PlatsID) 1146,665 km (Boden) och slutar vid 1179,500 km (Luleå). (Trafikverket, 2004)
Spårgeometrier
En del av variablerna innehåller olika geometrier på spåren. Spårgeometrier är olika mått på spåren exempelvis spårvidd, höjdläge och skevning. En del av variablerna som ingår i spårgeometrier innehåller spåranläggningsläge och dessa är kurvatur, lutning, plats marker (PlatsID). Dessa defineras enligt Trafikverket (2012). De spårgeometrier som används för denna studie listas i Bilaga 1 med beskrivningar.
1.3 Problemformulering
Trafikverket övervakar spårens kvalitet genom att mäta in spårgeometrier. Mätningar för spårgeometrier utförs med speciella mätvagnar som använder GPS (eng. Global Positioning System). Mätvagnen åker och mäter spårgeometrier med 25 cm mellanrum på spåren. Dessa utförs 1-‐6 gånger per år beroende på spårkvalitet. De uppmätta spårens geometrier skickas och sparas i Trafikverkets system, Optram. (Optimized Track Management). Optram är ett digitalt underhållsplaneringsverktyg som används på Trafikverket för att studera och analysera mätningar på spår och kontaktledningar. I systemet jämförs de mätta värdena med kontrollsiffror enligt arbetsbeskrivningar och upptäcks det fel på någon av siffrorna skickas det vidare ett larm till åtgärdssystemet BESSY (Besiktningssystemet för järnväg) för åtgärd. BESSY är ett system för genomförande av säkerhets-‐, underhålls-‐ och övertagandebesiktning av järnvägsanläggningar. (Trafikverket, 2014)
Med detta är det viktigt att mäta spårgeometrier vid behov. Frekventa mätningar kostar dock både tid och pengar. Å andra sidan kan man inte riskera trafiksäkerhet genom att reducera resurserna för detta. På uppdrag av Trafikverket studeras spåren vid bandel 119 som ligger i övre Norrland och går mellan Luleå och Boden i en fallstudie. Den är totalt 32,8 km lång och trafikeras av både person-‐ och godståg. Bandel 119 är även en teststräcka för ett forskningsprojekt av Trafikverket som leds
svenska järnvägssystemet. Trafikverket är därför intresserade av beteendet på spåren på bandel 119.
Trafikverket är även intresserade av vilka faktorer som påverkar spåravvikelse. Information om händelser och anlagda egenskaper lagras i Trafikverkets databas BIS (Baninformation) där BIS till exempel innehåller information om järnvägsbroar, materialtyp på ballast och de största tillåtna hastigheterna för tåg på spåren. Även Optram innehåller information från BIS. Alla variabler från BIS som använts för denna studie listas i Bilaga 2 med beskrivningar. Information i BIS innehåller även PlatsID och detta gör det möjligt att knyta den informationen till mätdata.
Målet för denna studie är att ta fram en modell för spåravvikelsen med hjälp av mätdata och BIS-‐data som efterliknar verkliga utfall för bandel 119.
1.4 Syfte och frågeställningar
Syftet med detta projekt är att ta reda på den generella datastrukturen genom att ta fram en modell som efterliknar verkliga utfall för järnvägsspåren på en del av järnvägen: bandel 119. Modellen kan då användas som en simuleringsmodell för att studera beteendet av spårvidd, vilket kan användas för att på ett kostnadseffektivt och säkert sätt testa gränser för när underhåll och hur ofta mätningar behöver ske. Detta besvaras genom följande frågeställningar:
• Vilka spårgeometrier påverkar avvikelsen på spårvidd?
• Vilka banrelaterade spåregenskaper respektive geotekniska händelser påverkar på spårvidd?
1.5 Tidigare forskning
I tidigare studier av spåravvikelser har olika metoder använts, vilket kan tyda på att ingen bra modell ännu har skapats. I en utav studierna användes Neurala nätverk där spårvidden grupperades med avseende på spårtyp. (Sadeghi & Askarinejad, 2012) I en annan har ett probabilistiskt tillvägagångssätt använts. (Rhayma et al. 2011) I en tredje används en stokastisk modell. (Vale och Lurdes, 2013) Då vi ej haft kunskaper om järnväg sedan tidigare hade det varit svårt att finna en gruppering för neurala nätverk. Det ickelinjära brusiga utseende som spåravvikelsen har är svårt att modellera med en enkel metod såsom multipel regression. Därför krävs mer komplexa modeller för att beskriva data. Miyata (2010) föreslår en Generaliserad
additiv modell (eng. Generalized Additive Model = GAM) för att modellera sådana
svagheter för en vanlig utjämningsmetod (Spline) för att modellera en ickelinjär brusig serie.
2. Data
Under detta kapitel redovisas datamaterialet för denna studie. Datamaterialet består av två stora delar, den ena är mätdata som mäts av mätvagnar och den andra är
BIS-‐data som innehåller banrelaterade anläggningar och händelser. Mätdata
innehåller framförallt inmätt data som gäller spårens geometrier såsom spårvidd. De innehåller även variabler som sker vid mätningar, exempelvis hastighet på mätfordonet. Listan över variabler och variablernas beskrivningar finns i Bilaga 1. Mätningar utförs i princip med 25 cm mellanrum på spåren och identifieras med PlatsID i km. Spårvidd som är responsvariabel för denna studie ingår i mätdata. Även BIS-‐data har PlatsID vilket möjliggör identifiering av gemensamma punkter från mätdata och BIS-‐data. Listan för BIS-‐data finns i Bilaga 2.
2.1 Datakällor
Datamaterialet som använts i studien har inhämtats från uppdragsgivare och Trafikverkets databas Optram. Mätdata från elva olika tidpunkter innehöll totalt 1413984 mätpunkter med mellan 107944-‐131192 mätpunkter per tidpunkt. All mätdata är från bandel 119. I Optram hämtades också 42 filer innehållande förklaringsvariabler från BIS.
2.2 Bearbetning
Då data från början fanns i 53 olika filer har sammanslagning gjorts. Förklaringsvariabler från BIS fanns i annat format än mätdata och behövde därför konfigureras för att sammanslås med mätdata. Dessa fanns i två olika format; där en händelse finns på endast en punkt och där en händelse pågår under en längre sträcka. Händelse för den första innebär till exempel existens av stolpe som identiferas vid en PlatsID. Händelse för den andra däremot kan vara något som behövs i två eller fler löpande PlatsID, exempelvis stödmur vid spåren, d.v.s. händelse som sker i mer än 25 cm. I de flesta fall har dummyvariabler används, där händelse ger värde 1 i kolumnen och 0 annars. För en del utav de förklaringsvariabler som pågår under en längre sträcka pågår händelse under hela sträckan och dessa har blivit kvalitativa variabler med två eller fler händelser i en kolumn. Mer information om förklaringsvariabler finns i avsnitt 2.4.2 Då information om datum för mätpunkter funnits i filnamnet har denna information lagts in i efterhand som en kolumn i mätdata. Även information om vilken punkt som har mätts har lagts till, då detta från början funnits i textformat i två separata kolumner.
Vid sammanslagning har även hänsyn tagits till att mätpunkter inte alltid har 25 cm mellanrum. Förklaringsvariabler har därför matchats med den punkt (PlatsID) som ligger ±14 cm ifrån punkten i mätdata, då detta mått gav minst fel.
2.3 Felkällor
Tre variabler från BIS kunde inte tas med i studien på grund av för många saknade värden. De behövde vara kvalitativa, men pågick inte under alla mätpunkter.
Två datamängder med lägst värden på spårvidd (2011-‐03-‐04 och 2011-‐04-‐01) går ej att anpassa med den slutliga modellen, då det använda programmet ej klarade av att köra dessa tidpunkter. Orsak är oklar, men i kapitel 2.4.2 presenteras ett lådagram som visar att dessa två tidpunkter även med avseende på förklaringsvariabler är annorlunda från övriga.
Datamaterialet innehöll även geografiska koordinater för varje mätpunkt. Det visade sig dock att en del av datamaterialen omfattar felaktiga koordinater. Dessutom var det känt hos Trafikverket att precisionen för positionering givet koordinaterna var ±20 meter trots att det bör vara endast ±2 meter enligt arbetsbeskrivningen. (Trafikverket, 2014) Kolumner för koordinaterna användes därför inte till analysen. Detta hade kunnat leda till felaktiga matchningar mellan mätdata och BIS-‐data. Detta visar även att PlatsID kan vara något felpositionerad vilket gör att förklaringsvariabler kan ha tillägnats fel mätpunkter.
2.4 Beskrivande statistik
I detta avsnitt redovisas beskrivande statistik för datamaterialet som användes till denna studie.
2.4.1 Responsvariabel
Den responsvariabel som undersöks är avvikelsen från normal spårvidd, som är 1435 mm på svenska järnvägsspår.
Definition enligt Trafikverket (2014) på spårvidd är enligt nedan.
”Spårvidden definieras som det minsta avståndet (G), parallellt med spårplanet, mellan rälerna, mätt vinkelrätt mot spårplanet mellan punkter (P), belägna någonstans mellan spårplanet och 14 mm (Zp) under spårplanet” se Figur 1.
Figur 1 – Definition för spårvidd
Spåravvikelsen är alltså avståndet G -‐ 1435 mm.
I Figur 2 visas spåravvikelsen på y-‐axeln och PlatsID på x-‐axeln över två tidpunkter: 2008-‐09-‐25 respektive 2011-‐08-‐09. Se Bilaga 3 för resterande tidpunkter. Bandel 119 går mellan PlatsID 1146,665 km och 1179,500 km.
Figur 2 – Spåravvikelsen vid 2008-‐09-‐25 resp. 2009-‐04-‐16
Första mätningen var något kortare än övriga mätningar, men i övrigt är de oftast mätta över hela sträckan. Avvikelserna på spårvidden varierar något beroende på plats över alla tidpunkterna. Dock visar serierna på spårvidden ett liknande mönster vid de olika tidpunkterna vilket tyder på att det skulle finnas gemensamma faktorer som förklarar spårvidden. Avvikelsen antar både negativa och positiva värden, där minsta värdet är -‐8,27 som mättes den 1 april 2011 vid PlatsID 1160 och det största värdet 34,37 som mättes den 25 september 2008 vid PlatsID 1153. Även omkring
Histogram för avvikelsen på spårvidden för 2008-‐09-‐25 respektive 2009-‐04-‐16 redovisas i figuren nedan. Histogram för de resterande tidpunkterna finns i Bilaga 4.
Figur 3 – Histogram för spåravvikelse vid 2008-‐09-‐25 resp. 209-‐04-‐16
Figur 3 visar att fördelning för spåravvikelsen är skev med en lång högersvans. Vanligast värden ligger mellan två och fyra för de flesta mätdagar, medan 2010-‐05-‐12 samt 2011-‐03-‐04 har mellan fyra och sex respektive noll och två till skillnad från övriga mätdagar.
I Figur 4 visas lådagram för spåravvikelsen över elva tidpunkter.
Figur 4 – Lådagram för spåravvikelsen under elva mätdagar
Från vänster till höger visas lådagram i ordning av tidpunkterna: 2008-‐09-‐25, 2009-‐04-‐16, 2009-‐08-‐05, 2009-‐09-‐30, 2010-‐05-‐12, 2010-‐06-‐23, 2010-‐09-‐01, 2011-‐03-‐04, 2011-‐03-‐30, 2011-‐04-‐01 och 2011-‐06-‐09. Spåravvikelserna över tidpunkterna ser ganska lika ut förutom spåravvikelsen för 2011-‐03-‐04 som ligger på den fjärde platsen från höger i Figur 4.
2.4.2 Förklaringsvariabler
Totalt 53 förklaringsvariabler användes till denna studie, de gällde dels spårgeometrier och egenskaper hos spåren. I detta avsnitt redovisas hur förklaringsvariablerna för studien ser ut. Det finns begreppslistor i Bilaga 1 och 2 som innehåller Trafikverkets definitioner för dessa variabler.
En typ av förklaringsvariabler är dummyvariabler som endast pågår i en punkt. För varje händelse innehåller kolumnen siffran 1, medan resterande punkter i kolumnen innehåller siffran 0, d.v.s. det undersöks om existensen av dessa objekt påverkar vid modellering. Exempelvis detektor, brygga och stolpe tillhör denna typ. Antal objekt varierar beroende på längden på mätningen. Dessa typer av variabler är väldigt få i jämförelse med antal mätpunkter vilket gör att effekterna dessa variabler har på spåravvikelsen förmodligen är små. Se även Bilaga 5a för frekvenserna för dessa dummyvariabler. I Figur 5 visas variabel Plankorsning tillsammans med spåravvikelsen för en tidpunkt som ett exempel.
De svarta punkterna i figuren visar existens av plankorsningar. Antal plankorsningar är 11-‐12 över sträckan beroende på mätdag. I Figur 5 ser man att plankorsningar existerar vid en del stora spåravvikelser. Tydligast syns detta vid PlatsID 1153,800 och 1165,722.
En annan typ av förklaringsvariabler är dummyvariabler som pågår under en längre sträcka. Se Bilaga 5b för frekvenserna för de 14 variablerna. Exempelvis ballast, kanalisation och geoteknik tillhör denna typ. Nedan presenteras två exempel på hur förklaringsvariabler som pågår under en längre sträcka ser ut.
Figur 6 – Dränering över sträckan med spåravvikelse
Serien i Figur 6 visar spåravvikelsen för en tidpunkt. De svarta markeringarna indikerar att det finns plastdränering vid spåren. Vid en del dräneringar finns en större spåravvikelse, vilken kan tyda på att dränering kan ha effekt på stor spåravvikelse.
I Figur 7 visar de svarta markeringarna den vanligaste befästningstypen P-‐ec.
Figur 7 – Befästning över sträckan med spåravvikelse
Det är endast i ett fåtal sträckor som annan typ av befästning används. Omkring PlatsID 1148, 1152, 1172 och 1178 finns en spåravvikelse som är större än 20 mm. Vid alla dessa punkter finns befästningstypen P-‐ec.
En del av förklaringsvariablerna som innehåller specifika egenskaper hos varje mätpunkt behandlas som kvalitativa variabler. Det finns fyra kvalitativa variabler i BIS: Kvalitetsklass, Största tillåtna hastighet (STH) och Spår. Frekvenserna för dessa variabler finns i tabellerna i Bilaga 5c, 5e och 5f. I mätdata finns också information om kvalitetsklass som skiljer sig något från BIS-‐data. Se Bilaga 5d för frekvenstabell.
Figur 8 visas den kvalitetsklass som angetts vid anläggning vilket hämtats från BIS.
Figur 8 – Kvalitetsklass (BIS) över sträckan med spåravvikelse
Då klass 1 innebär den mest trafikerade klasstypen är det viktigt att spåren vid denna klass är mer korrekta än en högre klass. Approximativt 75-‐80 procent av spårobservationerna tillhör klass 1. Omkring PlatsID 1152 och 1178 finns en större spåravvikelse som är större än 20 mm. Dessa tillhör klass 3.
Vid mätningarna mäts hastigheter för mätvagn. I Figur 9 sammanfattas hastigheten för mätvagnen under elva mätdagar.
Figur 9 – Mätvagnens hastigheter under elva tidpunkter
De flesta mätvagnar har haft samma hastigheter under mätningarna. Mätningarna från den 4 mars samt 1 april 2011 har mätts från punkten 1179,49975 till 1146,666 istället för 1146,665 till 1179,49975 som övriga mätdagar. Dessa är även mätta av en annan typ av mätvagn jämfört med de resterande mätdagarna.
I följande avsnitt redovisas övriga förklaringsvariabler som är kvantitativa variabler. Det finns 18 variabler innehållande spårgeometrier såsom standardhöjdläge och sidolägen över olika våglängder på spåren. Dessa presenteras i lådagram i Bilaga 6b-‐ 6f. Det finns även tre variabler som innehåller information om spårens läge i form av lutning och kurvatur. I Bilaga 6a finns diagram för variabeln Lutning.
I Figur 10 presenteras kurvatur för spåren. I datamängderna finns två olika uppgifter på kurvatur över bandelen, från BIS (Övre figuren) och från mätdata (Nedre figuren).
Figur 10 – Kurvatur vid spåranläggning (ovan) och kurvatur som inmätts 2011-‐06-‐09 (under)
Den information som finns i BIS-‐databasen är uppgifter om vilken radie spåret anlades med. Kurvor som anges med positiva tecken motsvarar en högerkurva i
längdmätningens riktning medan negativt tecken motsvarar vänsterkurvor. Samma mönster finns vid samtliga mätningar. Det är känt hos Trafikverket att kurvatur påverkar spåravvikelsen. Detta syns i Figur10 där stora spåravvikelser förekommer vid skarpa kurvor, till exempel vid PlatsID 1148, 1152, 1172 och 1178.
I Figur 11 presenteras två exempel på spårgeometrierna, vänster sida över kort och lång våglängd som finns i mätdata.
Figur 11 – Vänster sida över kort våglängd (t.v.) och vänster sida över lång våglängd (t.h.)
Spårgeometrierna har ett ickelinjärt beteende över bandel 119. Spridningen på positiva och negativa värden är ungefär desamma. Det finns inte heller några extrema värden under sträckan.
Beskrivande statistik av spårvidden har påvisat att det finns höga spåravvikelser vid PlatsID 1148, 1153, 1172 och 1178. En del av förklaringsvariablerna har också visat några unika beteende omkring dessa positioner vilket kan tyda på att dessa variabler kan ha signifikanta effekter på spåravvikelsen. Kurvatur som innefattar spåranläggningsläge är en av de potentiella förklaringsvariablerna. Vid skarpa kurvor syns stora spåravvikelser. Enligt beskrivande statistik för förklaringsvariabler som tillhör spårgeometrier är det svårt att avgöra hur mycket dessa variabler påverkar på spåravvikelsen. Dock har spårgeometrier strukturella korrelationer med varandra och variabler för spåranläggningsläge tillhör också spårgeometrier. Detta kan tyda på att även dessa variabler skulle ha måttlig påverkan på spåravvikelsen. Från förklaringsvariablerna för banrelaterad anläggning och händelse har Kvalitetsklass visat ett systematiskt mönster på spåravvikelse baserade på kvalitetsklasser. Därmed kan STH ha också något effekt på spårvidden, då är STH en av viktig parameter när
3. Metod
Under detta kapitel redovisas huvudsakligen processerna såsom modellering och utvärdering av de anpassade modellerna.
3.1 Val av metoder
För att kunna svara på om det finns samband mellan spårvidd och förklaringsvariabler skulle någon slags regressionsanalys kunna fungera. Dock har responsvariabeln ett ickelinjärt samband med de flesta förklaringsvariabler samt ett icke normalfördelat utseende, så att en regressionsanalys som kan hantera detta krävs. En generaliserad
linjär modell (eng. Generalized Linear Model = GLM) kan modellera en
responsvariabel som inte är normalfördelad. Som det beskrivits i kapitel 2 består datamaterialet av två delar, dels mätningsdata som innehåller spårens geometrier och dels banrelaterade anläggningsdata, som framförallt beskriver spårens egenskaper. Olika delar av spåren har olika egenskaper. Från denna förutsättning skulle en generaliserad additiv modell (eng. Generalized Additive Model = GAM) passa bra för att modellera spårvidden med sådana förklaringsvariabler.
3.2 GLM och GAM
I följande avsnitt beskrivs modellerna som använts i denna studie. Ett av tillvägagångssätten till regressionsanalys är en vanlig regressionsanalys (eng. Ordinary
least squares = OLS). Om responsvariabel 𝑦! är normalfördelad och 𝑥!" är kovariater
som är oberoende, anges en vanlig linjär modell (OLS) enligt nedan, där antal observationer är 𝑛 och antal kovariater är 𝑝:
𝑦! = 𝛽!+ 𝛽!𝑥!"
!
!!!
+ 𝜖! 𝜖! ~ 𝑁 𝜇, 𝜎! 𝑖 = 1, … , 𝑛 𝑗 = 1, … , 𝑝
𝛽! är intercept för den anpassade modellen och 𝛽! är regressionsparametrar för 𝑥!.
𝜖! är residualer d.v.s. feltermer för den anpassade modellen vilka ska ha väntevärde 𝜇 som är noll och konstant varians, vara oberoende och normalfördelade.
Förhållandet mellan responsvariabeln, alltså spåravvikelse för denna studie, och en del av kovariaterna är dock starkt ickelinjärt och därför behövs mer komplexa modeller. En additiv modell (eng. Additive Model = AM) är en ickeparametrisk regressionsmodell. Så 𝛽!𝑥!" i OLS ovan kan ersättas med en utjämningsfunktion 𝑓(∙).
𝑦! = 𝛽!+ 𝑓!(𝑥!")
!
!!!
Den okända utjämningsfunktionen 𝑓! härleds med backfitting-‐algoritm med hjälp av
en scatterplot-‐smoother för varje 𝑥! . AM är alltså en kombination av
regressionsmodeller som består av en samling av endimentionella funktioner. (Hastie & Tibshirani, 1990) I denna studie användes TPR-‐splines (Thin-‐plate-‐regression-‐
splines), P-‐splines och en adaptiv utjämnare (eng. Adaptive smoothing).
(Wood, 2008c) 𝑓! anges som den som ger den minsta PRSS (eng. Penalized Residual
Sum of Squares) vid använding för dessa utjämnare. (Wood, 2008b)
𝑃𝑅𝑆𝑆! = 𝑦! − 𝑓! 𝑥!" !+ 𝜆 𝑓!′′(𝑥) !𝑑𝑥
!
!!!
Där 𝜆 är ett straff (eng. penalty) mot kurvkrökning 𝑓! som är större än noll och
kontrolleras mot varje utjämningsterms frihetsgrad. Denna frihetsgrad är en approximativ frihetsgrad som används under backfitting-‐proceduren. (Andersen, 2012) Till skillnad från straffet för TPR-‐splines sker straffet för P-‐splines diskret på koefficienter och straffet för en adaptiv utjämnare varierar med en kovariat. (Wood, 2008c)
Spåravvikelse 𝑦! är inte heller normalfördelad. GLM kan hantera en sådan
responsvariabel. Den tillåter en responsvariabel som inte är normalfördelad och anpassar en linjär regression med hjälp av en länkfunktion. GLM består av tre komponenter, responsvariabel, kovariater (förklaringsvariabler) och länkfunktioner som beskrivs enligt följande. (McCullagh & Nelder, 1989)
Responsvariabel 𝐘 = 𝑌!, … , 𝑌! ! i GLM antas vara 𝐸 𝑌! = 𝜇! (𝑖 = 1, … , 𝑛) som är
oberoende och följer någon fördelning från den exponentiella familjen, alltså gammafördelningen för spåravvikelsen i denna studie. Kovariater 𝑥! = (𝑥!!, … , 𝑥!")′
(𝑗 = 1, … , 𝑝) ger linjära prediktorer 𝜼 = (𝜂!, … , 𝜂!)′, där 𝟏! = (1, … , 1)′:
𝜼 = 𝛽!𝟏!+ 𝑥!𝛽!
!
!!!
Linjära prediktorer 𝜼 ges således med en länkfunktion 𝑔(∙): 𝑔 𝝁 = 𝜼 ↔ 𝑔 𝜇! = 𝜂!
𝐸(𝐘) och linjära prediktorn 𝜼 länkas alltså med hjälp av en länkfunktion 𝑔(∙) i en GLM enligt följande: 𝜂! = 𝑔 𝜇! = 𝛽!+ 𝑥!"𝛽! ! !!!
Parametrar 𝜷 = (𝛽!, 𝛽!, … , 𝛽!)! härleds med Maximum likelihood-‐metoden, där en
länkfunktion 𝑔(∙) relaterar till den linjära prediktorn 𝜼. Den vanliga metoden för att lösa denna ekvation är Fishers skattningsprocedur (eng. The Fisher scoring
procedure). Den motsvarande proceduren är iterativt omviktad minsta kvadrat-‐ metoden (eng. iteratively-‐reweighted least-‐squares = IRLS). För denna studie
användes den inversa länkfunktionen −𝝁!! som är den vanligaste länkfunktionen för
data som följer någon fördelning från den exponentiella familjen. (Hastie & Tibshirani, 1990)
GAM är alltså en kombination av AM och GLM. Den linjära prediktorn 𝜂! i en GLM
ersätts med den linjära prediktorn i en AM som anges enligt följande:
𝜂! = 𝑔 𝜇! = 𝛽!+ 𝑓!(𝑥!")
!
!!!
Sammanfattningsvis modelleras GAM under följande procedur (eng. The local scoring
procedure) som beskrivs nedan. (Hastie & Tibshirani, 1990)
i. Initialisera: 𝛽! = 𝑔(𝑛!! !!!!𝑦!); 𝑓! = 𝑓!! = ⋯ = 𝑓!! = 0. = 1, … , 𝑝.
ii. Uppdatering:
Konstrurera en s.k. justerad beroendevariabel 𝑧 𝑧!! = 𝜂
!!+ (𝑦! − 𝜇!!)
𝜕𝜂!
𝜕𝜇! ! 𝐼𝑅𝐿𝑆: 𝑙 = 0, 1, …
med 𝜂!! = 𝑔 𝜇!! = 𝛽!+ !!!!𝑓!!(𝑥!") och 𝜇!! = 𝑔!!(𝜂!!)
Beräkna vikten 𝑤, där 𝑉𝒊 = 𝑣𝑎𝑟(y!)
𝑤!! = 𝜕𝜇! 𝜕𝜂! ! ! 𝑉!! !! Backfitting-‐proceduren a) Initialisera 𝑓! = 𝑓!! = ⋯ = 𝑓!! = 0. = 1, … , 𝑝.
b) Beräkna residualer: 𝑧!− 𝑓
!!(𝑥!)
!!!
c) Anpassa en viktad additiv modell på 𝑧! för att erhålla skattad
funktion 𝑓!!, additiv prediktor 𝜂!! och anpassad 𝜇!!.
d) Upprepa steg c) tills 𝑓!! konvergeras.
iii. Upprepa steg ii, så att ∆(𝜂!!!, 𝜂!) hamnar under en tröskel, där
konvergenskriterium är: ∆ 𝜂!!!, 𝜂! = ║ ! !!! 𝑓!!!!− 𝑓!!║ ║𝑓!!║ ! !!!
3.3 Utvärdering
Under detta avsnitt presenteras de utvärderingsmetoder som används för att skatta och validera de anpassade modellerna.
3.3.1 Utvärderingsmått
Det finns tre vanliga utvärderingsmått som används till GAM, CV (eng. Cross
Validation), GCV (eng. Generalized Cross Validation) och AIC. För denna studie
användes GCV och AIC, samt den justerade förklaringsgraden (justerade R2). AIC och den justerade förklaringsgraden används även till GLM.
GCV är en generaliserad korsvalidering som är en skattning av MSPE (eng. Mean
Square Prediction Error) baserande på en-‐utlämnad-‐CV (eng. a leave-‐one-‐out cross validation). CV utförs genom att dela en datamängd i två delar, träningsdata och
testdata. Först analyseras data med träningsmängden, sedan valideras resultatet med testmängden. Med en-‐utlämnad-‐CV skattas modellen för alla observationer utom i:te observation åt gången och fortsätter för alla observationer. (Miyata, 2010)
CV, GCV och AIC anges i följande formler, låt 𝑖 (𝑖 = 1, … , 𝑛) vara antal observationer: 𝐶𝑉 = 1 𝑛 𝐷(𝑦!; 𝜇!!!) ! !!! 𝐺𝐶𝑉 = 1 𝑛 !!!!𝐷(𝑦!; 𝜇!) 1 − 𝑡𝑟(𝑅)/𝑛 ! 𝐴𝐼𝐶 = 1 𝑛 𝐷(𝑦!; 𝜇!) ! !!! + 2𝑡𝑟 𝑅 𝜓/𝑛
Där, 𝐷 är devians (eng. Deviance): 𝐷 𝑦; 𝜇 = !!!!𝐷 𝑦!; 𝜇! , 𝜇!!! är det skattade
värdet utav datamängden utom i:te observationen, 𝑡𝑟(𝑅) är spåret av hatt-‐matrisen under backfitting-‐proceduren innehållande den skattade frihetsgraden (eng. effektive
dgrees of freedom = EDF ) för varje utjämningsterm och 𝜓 är en viktad parameter.
(Miyata, 2010)
Den modell som får de minsta värdena bland dessa mått väljs som den i princip bästa modellen. Dock kan både GCV och AIC vara instabila vid val för ickelinjär modell, då är frihetsgrader för sådana modeller approximativa. (Hastie & Tibshirani, 1990) Så vi bör använda dessa mått med försiktighet och anpassa modell tillsammans med andra hjälpmedel. För att se anpassning för utjämningstermer används rugplott och
residualplott används för att diagnostisera modellanpassning. Dessa diagram
förklaras i nästkommande avsnitt 3.3.2.
För att se förklaringsgrad för den anpassade modellen används andel av devians
𝐷!"#$ vilket beräknas enligt nedan. (Clark, 2013)
𝐷!"#$ =𝐷!"## − 𝐷!"#$%&'("!
𝐷!"##
Där 𝐷!"## är deviansen för den null-‐modellen vilken inte har någon term utom ett
intercept i vissa fall. Frihetsgrader för denna modell är därför antal observationer minus ett om modellen har intercept. 𝐷!"#$%&'("! är devians för den anpassade
modellen vilken har frihetsgrader som består av antal observationer minus antal parametrar. (Clark, 2013)
3.3.2 Grafisk metod
Modellanpassning kontrolleras även visuellt i en diagnosplott. En typ av plott är en residualplott som visas residualer i fyra olika typer av plottar. QQ-‐plott visar
fördelning av residualer av devians och dess kvantiler. Histogram visar fördelningen hos residualerna. Från de två plottarna kan man läsa hur residualerna är fördelade. Två andra plottar visar förhållandet mellan residualer och linjära prediktorer respektive responsvärde och anpassat värde vilket kan visa lämplighet av modellen. Residualplottarna används för att kontrollera modellanpassningen i både GLM och GAM. (Wood, 2010)
Den andra typen av plott är en s.k. rugplott som används för att se anpassningsläge för utjämningstermerna från GAM. Rugplott visar utjämnade värden för given kovariat. Svarta punkter i en rugplott representerar partiella residualer för en utjämningsterm som visar förhållandet mellan residualer från en full modell och residualer från en modell utan given kovariat medan resten av kovariaterna behålls. Systematisk avvikelse från prediktorerna indikerar problem med anpassningen. Ovanpå x-‐axeln visas fördelningen för given kovariat som en svart matta (eng. rug). Rugplott används för att se hur mycket en utjämningsterm för given kovariat bidrar i en modell. (Wood, 2010)
3.4 Multikolinjäritet och concurvity
Multikollinjäritet är när två eller fler kovariater korrelerar starkt med varandra. Då linjär regression använts i GLM behöver hänsyn tas till korrelation mellan kovariater som kan orsaka olika koefficienter för kovariater vid upprepade modellanpassningar.
Concurvity (på engelska) uppstår när någon kovariat i en modell kan approximeras
med en eller flera andra utjämningstermer i modellen (Wood, 2008a). Detta kan förekomma vid GAM-‐modellering. Concurvity kan ses som ett multikollinearitetsproblem för ickelinjära modeller och detta orsakar också tolkningsproblem för modellen. Detta kan även göra att backfitting-‐proceduren har svårare att hitta en unik utjämningskurva för kovariaten.
För att undvika problem av multikolinjäritet studeras linjära korrelationer mellan kovariaterna med hjälp av korrelationsmatriser. Detta hjälper dock inte för de ickelinjära kovariaterna. Det är fortfarande en forskningsfråga hur problem med concurvity ska hanteras. (Andersen, 2012) Wood som gjort R-‐paketet för GAM tillhandahåller en diagnos av concurvity genom att beräkna kvot av kvadrerade euklidiska normer mellan utjämningstermer. (Bilaga 7) I denna studie kontrolleras denna diagnos vid modelleringen och det utförs försök att minska kovariater som
4. Analys och resultat
I detta kapitel presenteras hur analyser har utförts och redovisas även med slutliga resultat. Första tidpunkten 2008-‐09-‐25 har använts vid modellering för att kunna användas som bas i en temporal analys. Ingen senare tidpunkt har dock använts, se Metodavgränsning i kapitel 6.2.
4.1
Fördelning för spåravvikelse
Responsvariabel ser inte ut att vara normalfördelad. Det är därför passande att identifiera den mest passande fördelningen för spårvidden. Skevheten kan liknas vid en chitvå-‐fördelning, vilket är en gammafördelning med formparametern α = m/2 och ratioparametern β = 1/2 och m frihetsgrader. (DeGroot & Schervis, 1990). Efter en simulering visade det sig att responsvariabeln kan ses som approximativt gammafördelad, där medelvärdet är α/β och variansen är α/β2 (se Figur 12). För att använda gammafördelningen behövde en konstant adderas i datamängderna, då negativa värden inte antas i fördelningen.
𝑦 ~ 𝐺𝑎𝑚𝑚𝑎 𝛼, 𝛽 𝑚𝑒𝑎𝑛 = ! ! 𝑣𝑎𝑟𝑖𝑎𝑛𝑠 = ! !!
Figur 12 – Histogram av en gammafördelning vid simulering av fördelningen på spårvidden
4.2 Korrelationsanalys
Datamaterialet innehöll totalt 53 förklaringsvariabler, varav 26 dummyvariabler, fyra kvalitativa variabler och 23 kvantitativa variabler. En del variabler visade hög korrelation till varandra som kunde leda till felaktiga skattningar av modellerna. De variablerna som korrelerade starkt med andra variabler plockades därför bort med avseende på korrelationsmatrisen, så att det inte skulle finnas kvar starka linjära korrelationer mellan de resterande kovariaterna. Totalt tio variabler togs bort från modelleringarna. De borttagna kovariaterna omfattade framförallt många spårgeometrier såsom ena sidan av de kovariater som har mätts i både höger och vänster räl. De variabler som användes modelleringarna presenteras i listan nedan.
Spårgeometrier
Höjd kortvåg vänster Höjd långvåg vänster Sidoläge kortvåg vänster Sidoläge långvåg vänster Sidoläge kortvåg höger Skevning 6m bas
Ofiltrerat sidoläge vänster Ofiltrerad höjd vänster Standard höjd
Spåranläggningsläge
Kurvatur Plats marker (PlatsID) Lutning
Banrelaterade anläggning och händelse
Detektor Brygga Ktl-‐sektionsisolator
Stolpe Plankorsning Planskild korsning
Platsmitt Rälsmörjningsapparat Skarvar
Trumma Vägbro Rör
Ballast Befästning Dränering
Frostskydd Geoteknik Järnvägsbro
Kanalisation Kvalitetsklass (BIS) Kvalitetsklass (Mätdata)
Öppet dike Plattform Spår (typ: NHSP)
Spårväxel Spont STH
Stödmur Underballast Urgrävning
Övriga
Hastighet (mätvagns)
4.3 Modellanpassning
GAM-‐modellering kräver många beräkningar under processen vilket kan vara tidskrävande vid modellanpassning med en stor datamängd. Datamängden för denna studie är stor. För att på ett effektivt sätt kunna modellera användes en mindre datamängd som utvalts från den originella datamängden vid en tidpunkt. Data valdes var 5:e observation ur alla observationer från startpunkt till slutpunkt, så att den
utvalda datamängden skulle kunna representera hela sträckan. Totalt 21589 observationer användes för modellanpassning. Därefter anpassades hela datamängden per tidsperiod med den framtagna modellen.
För att ta fram en passande länkfunktion vid GAM-‐modellering bör fördelningen av responsvariabeln anges. Som visat i föregående avsnitt har gammafördelningen identifierats som den mest passande för responsvariabeln och har därför använts för alla modellanpassningar av GAM.
4.3.1 Modellanpassning med GLM
I en granskning av datamaterialet anses spåravvikelsen ha en gammafördelning samt ickelinjära förhållanden med en del av kovariaterna. Som en första utgångspunkt började modellanpassningen med en GLM för att se om det går att modellera utan att ta hänsyn till den ickelinjära responsvariabeln. GLM utan en länkfunktion, där responsen betraktas vara normalfördelad, benämns som Modell 1 och GLM med en länkfunktion för gammafördelad respons benämns som Modell 2. Båda modeller anpassades med totalt 43 kovariater som presenterades i avsnitt 4.2. Respektive modell fick följande resultat.
Förklarad devians AIC GCV
Modell 1: 42,2 % 101489,85 6,443300
Modell 2: 49,2 % 84702,91 0,088146
GLM med normalfördelning (Modell 1) fick sämre värden på alla utvärderingsmått jämfört med en GLM med en gammafördelning (Modell 2). I figuren nedan visas residualplottar för respektive modell.
Residualplott för GLM (Normalfördelning) Residualplott för GLM (Gammafördelning)