• No results found

Modellering av spårvidd över bandel 119 inom Stambanan genom Övre Norrland : Kandidatuppsats i Statistik och dataanalys

N/A
N/A
Protected

Academic year: 2021

Share "Modellering av spårvidd över bandel 119 inom Stambanan genom Övre Norrland : Kandidatuppsats i Statistik och dataanalys"

Copied!
80
0
0

Loading.... (view fulltext now)

Full text

(1)

LINKÖPINGS  UNIVERSITET  

Modellering  av  spårvidd  över  bandel  119  inom  

Stambanan  genom  Övre  Norrland

 

Kandidatuppsats  i  Statistik  och  dataanalys

 

 

Frida  Berglund   Mayumi  Setsu  Oskarsson  

   

 

 

(2)

     

(3)

Abstract  

The   Swedish   Transport   Administration   (Trafikverket)   has   been   in   charge   of   the   maintenance   of   the   railway   systems   since   2010.   The   railway   requires   regular   maintenance   in   order   to   keep   tracks   in   good   condition   for   passengers   and   other   transports   safety.   To   insure   this   safety   it   is   important   to   measure   the   tracks   geometrical   condition.   The   gauge   is   one   of   the   most   important   geometrics   that   cannot  be  too  wide  or  narrow.    

The  aim  of  this  report  is  to  create  a  model  that  is  able  to  simulate  the  deviation  from   normal  gauge  from  track  geometrics  and  properties.  

The   deviation   from   normal   gauge   is   a   random   quantity   that   we   modeled   as   a   generalized  linear  model  or  a  generalized  additive  model.  The  models  can  be  used  to   simulate  the  possible  values  of  the  deviation.  It  was  demonstrated  in  this  study  that   GAM   was   able   to   model   most   of   the   variation   in   the   deviation   from   normal   gauge   with  the  information  from  some  track  geometrics  and  properties.  

(4)
(5)

Sammanfattning  

Trafikverket  har  varit  de  som  ansvarar  för  underhållet  på  den  svenska  järnvägen   sedan  2010.  För  att  järnvägen  ska  vara  säker  för  passagerare  och  övriga  transporter   behöver  den  hållas  i  gott  skick  genom  regelbundet  underhåll.  Därför  är  det  viktigt  att   kontrollera  spårgeometriers  kvalitet.  Spårvidden  är  en  utav  de  viktigaste  mått  som   varken  får  vara  för  bred  eller  för  smal.  

Syftet  med  denna  rapport  är  att  bygga  en  modell  som  kan  användas  för  att  simulera   avvikelsen  på  normal  spårvidd  med  avseende  på  spårgeometrier  samt  spårens   egenskaper.  

Avikkelsen  från  normal  spårvidd  är  en  slumpvariabel  som  vi  modellerat  med  en   generaliserad  linjär  modell  och  en  generaliserad  additiv  modell.  De  kan  sedan   användas  för  att  simulera  avvikelsen  på  normal  spårvidd.  I  studien  visas  att  GAM   lyckas  förklara  en  stor  del  av  variationen  i  avvikelse  på  normal  spårvidd  med  hjälp  av   information  från  spårgeometrier  samt  spårens  egenskaper.  

(6)
(7)

Förord  

Denna   rapport   är   skriven   som   en   kandidatuppsats   på   programmet   Statistik   och   dataanalys   vid   Linköpings   universitet.   Uppdragsgivare   för   studien   är   Trafikverket   i   Luleå.  

Vi  önskar  tacka  vår  uppdragsgivare  hos  Trafikverket,  Peter  Söderholm.  Tack  för  att  ni   gett  oss  möjligheten  att  arbeta  med  er  stora  mängd  data.  Vi  har  lärt  oss  mycket  inom   ämnet   för   studien.   Vi   vill   även   tacka   Bjarne   Bergquist   på   Luleå   tekniska   universitet   som   gett   oss   goda   råd   gällande   statistiska   metoder.   Tack   även   till   Arne   Nissen,   spårtekniker   på   Trafikverket   som   har   gett   värdefulla   tekniska   kommentarer   på   rapporten.  

Vi  tackar  vår  handledare  Oleg  Sysoev  för  många  uppskattade  handledningar.  

Till   sist   vill   vi   även   tacka   våra   opponenter   Dorothy   Tse   och   Mattias   Eklöv   för   synpunkter  och  konstruktiv  kritik  på  uppsatsen.  

 

Frida  Berglund  och  Mayumi  Setsu  Oskarsson   Linköpings  universitet,  30  maj  2014  

   

(8)

Innehållsförteckning  

  1.  Inledning  ...  1   1.1  Bakgrund  ...  1   1.2  Definitioner  ...  1   1.3  Problemformulering  ...  2  

1.4  Syfte  och  frågeställningar  ...  3  

1.5  Tidigare  forskning  ...  3   2.  Data  ...  5   2.1  Datakällor  ...  5   2.2  Bearbetning  ...  5   2.3  Felkällor  ...  6   2.4  Beskrivande  statistik  ...  7   2.4.1  Responsvariabel  ...  7   2.4.2  Förklaringsvariabler  ...  10   3.  Metod  ...  17  

3.1  Val  av  metoder  ...  17  

3.2  GLM  och  GAM  ...  17  

3.3  Utvärdering  ...  20  

3.3.1  Utvärderingsmått  ...  20  

3.3.2  Grafisk  metod  ...  21  

3.4  Multikolinjäritet  och  concurvity  ...  22  

4.  Analys  och  resultat  ...  23  

4.1  Fördelning  för  spåravvikelse  ...  23  

4.2  Korrelationsanalys  ...  24  

4.3  Modellanpassning  ...  24  

4.3.1  Modellanpassning  med  GLM  ...  25  

4.3.2  Modellanpassning  med  GAM  ...  26  

(9)

4.3.4  Validering  av  modell  ...  36  

5.  Slutsats  ...  38  

6.  Diskussion  ...  40  

6.1  Etiska  överväganden  ...  40  

6.2  Metodavgränsning  ...  40  

6.3  Hantering  av  stor  mängd  data  ...  40  

6.4  Vidare  forskning  ...  40   Källförteckning  ...  41   Tryckta  källor  ...  41   Otryckta  källor  ...  41   Figurförteckning  ...  42    

Bilageförteckning

  Bilaga  1  –  Begrepplista  om  data  från  mätdata  ...  i  

Bilaga  2  –  Begrepplista  om  data  från  BIS  ...  ii  

Bilaga  3  –  Observerade  spårvidden  under  nio  olika  mätdagar  ...  iv  

Bilaga  4  –  Histogram  för  observerade  spåravvikelse  för  nio  olika  mätdagar  ...  vi  

Bilaga  5  –  Frekvenslistor  för  förklaringsvariabler  ...  vii  

Bilaga  6  –  Figurer  för  variabler  för  spårläge  och  spårgeometrier  ...  ix  

Bilaga  7  –  R-­‐paket  ...  xiii  

Bilaga  8  –  Modellparametrar  från  GLM-­‐modelleringar  ...  xiv  

Bilaga  9  –  Diagnosplott  och  tabell  för  Modell  3  ...  xv  

Bilaga  10  –  Resultat,  Diagram  och  diagnos  för  Modell  4  (GAM)  ...  xvii  

Bilaga  11  –  Diagram  och  concurvity-­‐diagnos  för  Modell  5  &  Modell  6  ...  xx  

Bilaga  12  –  Koefficienter  och  p-­‐värde  från  GAM-­‐modellering  med  hela  datamängden  ...  xxiii  

Bilaga  13  –  Anpassade  värden  på  övriga  modeller  ...  xxv  

 

(10)

Figurförteckning  

Figur  1  –  Definition  för  spårvidd  ...  7  

Figur  2  –  Spåravvikelsen  vid  2008-­‐09-­‐25  resp.  2009-­‐04-­‐16  ...  8  

Figur  3  –  Histogram  för  spåravvikelse  vid  2008-­‐09-­‐25  resp.  209-­‐04-­‐16  ...  9  

Figur  4  –  Lådagram  för  spåravvikelsen  under  elva  mätdagar  ...  9  

Figur  5  –  Plankorsning  över  sträckan  med  spåravvikelse  ...  10  

Figur  6  –  Dränering  över  sträckan  med  spåravvikelse  ...  11  

Figur  7  –  Befästning  över  sträckan  med  spåravvikelse  ...  12  

Figur  8  –  Kvalitetsklass  (BIS)  över  sträckan  med  spåravvikelse  ...  13  

Figur  9  –  Mätvagnens  hastigheter  under  elva  tidpunkter  ...  14  

Figur  10  –  Kurvatur  vid  spåranläggning  (ovan)  och  kurvatur  som  inmätts  2011-­‐06-­‐09  (under)  ...  15  

Figur  11  –  Vänster  sida  över  kort  våglängd  (t.v.)  och  vänster  sida  över  lång  våglängd  (t.h.)  ..  16  

Figur  12  –  Histogram  av  en  gammafördelning  vid  simulering  av  fördelningen  på  spårvidden  23   Figur  13  –  Residualplott  för  Modell  1-­‐2  (GLM)  ...  25  

Figur  14  –  Residualplott  för  Modell  3  (GAM)  ...  27  

Figur  15  –  Två  rugplott  från  Modell  3  (GAM)  ...  28  

Figur  16  –  Residualplott  för  Modell  4  (GAM)  ...  30  

Figur  17  –  Två  rugplott  från  Modell  4  (GAM)-­‐(1)  ...  30  

Figur  18  –  Två  rugplott  från  Modell  4  (GAM)-­‐(2)  ...  31  

Figur  19  –  Residualplott  för  Modell  6  (GAM)  ...  32  

Figur  20  –  Två  rugplott  från  Modell  6  (GAM)  ...  34  

Figur  21  –  Två  rugplott  från  Modell  6  (GAM)  ...  34  

Figur  22  –  Observerade  värden  på  spårvidden  vs  de  anpassade  spårvidden  ...  35  

Figur  23  –  Observerade  värden  på  spårvidden  vs  de  anpassade  spårvidden  för  två  tidpunkter  ...  37  

 

Tabellförteckning  

Tabell  1  –  Resultat  för  parametriska  termer  för  Modell  3  (GAM)  ...  27  

Tabell  2  –  Resultat  för  utjämningstermer  för  Modell  3  (GAM)  ...  28  

Tabell  3  –  Resultat  för  parametriska  termer  för  Modell  4  (GAM)  ...  29  

Tabell  4  –  Utjämnare  för  olika  kovariater,  Modell  5-­‐6  (GAM)  ...  31  

Tabell  5  –  Resultat  för  parametriska  termer  för  Modell  6  (GAM)  ...  33  

Tabell  6  –  Resultat  för  utjämningstermer  för  Modell  6  (GAM)  ...  33  

Tabell  7  –  Utvärderingsvärden  och  antal  observation  samt  adderat  tal  till  respons  ...  36  

   

(11)

1.  Inledning  

I  detta  kapitel  presenteras  Trafikverket  som  är  uppdragsgivare  för  denna  studie.  Även   bakgrund  för  uppdraget  redovisas  och  dess  syfte.  

1.1  Bakgrund  

Trafikverket   är   en   av   de   myndigheter   som   arbetar   inom   transportområdet   och   startades   den   1   april   2010.   Trafikverket   ansvarar   för   långsiktig   planering   av   transportsystemet  för  alla  trafikslag  samt  för  byggande,  drift  och  underhåll  av  statliga   vägar  och  järnvägar.  Sedan  2010  tog  de  över  Banverkets  ansvar  att  förvalta  statens   spåranläggningar.  Denna  studie  undersöker  järnvägsinfrastrukturer.  

För  att  tågtrafiken  ska  fungera  väl  bör  hela  spåranläggningar  hållas  i  gott  skick.  Ett  av   de  viktigaste  kraven  för  tågtrafiken  är  att  spårens  former  är  korrekta.  Spårens  former   innefattar  olika  mått,  såsom  spårvidd,  rälsförhöjning,  skevning  m.m.  Med  tiden  slits   rälerna   och   spårens   former   förändras.   Det   finns   även   olika   tänkbara   faktorer   som   påverkar  spårvidd  förutom  tiden,  till  exempel  olika  typer  av  ballastmaterial,  spårens   geografiska  läge  och  temperaturväxlingar.  Spårvidden  får  varken  vara  för  bred  eller   för  smal.  Avviker  spårvidden  alltför  stort  från  normal  spårvidd  kan  både  personer  och   tågen   skadas   allvarligt   i   urspårningar,   vilket   gör   att   regelbundna   kontroller   och   kunskap  i  spårbeteende  är  viktigt.  Trafikverket  underhåller  och  mäter  spårens  mått   enligt   arbetsregler   som   finns   dokumenterade   i   banverksförfattningar.   Dessa   innefattar   både   svensk   och   europeisk   standard   samt   arbetsbeskrivningar   för   att   behålla   spårens   former   i   normalt   läge.   Denna   studie   är   ett   försök   att   effektivisera   underhållsarbete   genom   att   studera   tidigare   inmätta   mått   för   olika   spårdelar   tillsammans  med  kända  spåregenskaper.  

1.2  Definitioner  

I   rapporten   används   några   speciella   begrepp   gällande   tågtrafik   och   spår.   Dessa   begrepp   är   viktiga   för   att   kunna   förstå   denna   studie.   Under   det   här   avsnittet   redovisas  dessa  begrepp.  

PlatsID  

Spåren  hanteras  av  Trafikverket  med  hjälp  av  givna  markeringar  i  kilometer  och  dess   förskjutningslängder   i   meter   från   de   givna   markeringarna.   Ett   PlatsID   anges   i   kombination   av   en   markering   och   förskjutningslängd   angett   i   kilometer.   Markeringarna  betecknas  i  fyra  heltal  och  förskjutningslängderna  anges  i  decimaltal   till   följd   av   markeringarna.   Till   exempel   anges   PlatsID   för   Boden   som   1146,665   km.   PlatsID   används   som   ett   ID   för   en   punkt   på   spåren   innehållande   dess   position.   Variabeln  för  PlatsID  heter  Plats  marker.  

(12)

Spåravvikelse  

I  denna  studie  är  det  avvikelsen  från  normal  spårvidd  som  undersöks.  För  att  kunna   skriva   detta   på   ett   kortare   och   möjligtvis   tydligare   sätt   kallas   den   oftast   för  

spåravvikelse.  Variabeln  som  undersöks  heter  dock  Spårvidd,  vilket  alltså  inte  är  ett  

mått  på  spårets  vidd.  Se  kapitel  2.3.1  för  mer  information.  

Bandel  119  

Detta   är   en   bandel   som   går   mellan   Boden   och   Luleå,   som   tillhör   stråk   7,   s.k.   Stambanan  genom  Övre  Norrland.  Banlängden  av  bandel  119  är  totalt  32,8  km  som   börjar   med   markering   (PlatsID)   1146,665   km   (Boden)   och   slutar   vid   1179,500   km   (Luleå).  (Trafikverket,  2004)  

Spårgeometrier  

En  del  av  variablerna  innehåller  olika  geometrier  på  spåren.  Spårgeometrier  är  olika   mått   på   spåren   exempelvis   spårvidd,   höjdläge   och   skevning.   En   del   av   variablerna   som   ingår   i   spårgeometrier   innehåller   spåranläggningsläge   och   dessa   är   kurvatur,   lutning,   plats   marker   (PlatsID).   Dessa   defineras   enligt   Trafikverket   (2012).   De   spårgeometrier  som  används  för  denna  studie  listas  i  Bilaga  1  med  beskrivningar.  

1.3  Problemformulering  

Trafikverket   övervakar   spårens   kvalitet   genom   att   mäta   in   spårgeometrier.     Mätningar   för   spårgeometrier   utförs   med   speciella   mätvagnar   som   använder   GPS   (eng.   Global   Positioning   System).   Mätvagnen   åker   och   mäter   spårgeometrier   med   25  cm  mellanrum  på  spåren.  Dessa  utförs  1-­‐6  gånger  per  år  beroende  på  spårkvalitet.   De  uppmätta  spårens  geometrier  skickas  och  sparas  i  Trafikverkets  system,  Optram.   (Optimized   Track   Management).   Optram   är   ett   digitalt   underhållsplaneringsverktyg   som   används   på   Trafikverket   för   att   studera   och   analysera   mätningar   på   spår   och   kontaktledningar.   I   systemet   jämförs   de   mätta   värdena   med   kontrollsiffror   enligt   arbetsbeskrivningar  och  upptäcks  det  fel  på  någon  av  siffrorna  skickas  det  vidare  ett   larm  till  åtgärdssystemet  BESSY  (Besiktningssystemet  för  järnväg)  för  åtgärd.  BESSY  är   ett   system   för   genomförande   av   säkerhets-­‐,   underhålls-­‐   och   övertagandebesiktning   av  järnvägsanläggningar.  (Trafikverket,  2014)  

Med   detta   är   det   viktigt   att   mäta   spårgeometrier   vid   behov.   Frekventa   mätningar   kostar  dock  både  tid  och  pengar.  Å  andra  sidan  kan  man  inte  riskera  trafiksäkerhet   genom  att  reducera  resurserna  för  detta.  På  uppdrag  av  Trafikverket  studeras  spåren   vid   bandel   119   som   ligger   i   övre   Norrland   och   går   mellan   Luleå   och   Boden   i   en   fallstudie.   Den   är   totalt   32,8   km   lång   och   trafikeras   av   både   person-­‐   och   godståg.   Bandel  119  är  även  en  teststräcka  för  ett  forskningsprojekt  av  Trafikverket  som  leds  

(13)

svenska  järnvägssystemet.  Trafikverket  är  därför  intresserade  av  beteendet  på  spåren   på  bandel  119.  

Trafikverket   är   även   intresserade   av   vilka   faktorer   som   påverkar   spåravvikelse.   Information  om  händelser  och  anlagda  egenskaper  lagras  i  Trafikverkets  databas  BIS   (Baninformation)   där   BIS   till   exempel   innehåller   information   om   järnvägsbroar,   materialtyp   på   ballast   och   de   största   tillåtna   hastigheterna   för   tåg   på   spåren.   Även   Optram  innehåller  information  från  BIS.  Alla  variabler  från  BIS  som  använts  för  denna   studie  listas  i  Bilaga  2  med  beskrivningar.  Information  i  BIS  innehåller  även  PlatsID  och   detta  gör  det  möjligt  att  knyta  den  informationen  till  mätdata.  

Målet   för   denna   studie   är   att   ta   fram   en   modell   för   spåravvikelsen   med   hjälp   av   mätdata  och  BIS-­‐data  som  efterliknar  verkliga  utfall  för  bandel  119.  

1.4  Syfte  och  frågeställningar  

Syftet  med  detta  projekt  är  att  ta  reda  på  den  generella  datastrukturen  genom  att  ta   fram   en   modell   som   efterliknar   verkliga   utfall   för   järnvägsspåren   på   en   del   av   järnvägen:  bandel  119.  Modellen  kan  då  användas  som  en  simuleringsmodell  för  att   studera   beteendet   av   spårvidd,   vilket   kan   användas   för   att   på   ett   kostnadseffektivt   och  säkert  sätt  testa  gränser  för  när  underhåll  och  hur  ofta  mätningar  behöver  ske.   Detta  besvaras  genom  följande  frågeställningar:  

• Vilka  spårgeometrier  påverkar  avvikelsen  på  spårvidd?  

• Vilka   banrelaterade   spåregenskaper   respektive   geotekniska   händelser   påverkar  på  spårvidd?  

 

1.5  Tidigare  forskning  

I  tidigare  studier  av  spåravvikelser  har  olika  metoder  använts,  vilket  kan  tyda  på  att   ingen  bra  modell  ännu  har  skapats.  I  en  utav  studierna  användes  Neurala  nätverk  där   spårvidden   grupperades   med   avseende   på   spårtyp.   (Sadeghi   &   Askarinejad,  2012)   I   en  annan  har  ett  probabilistiskt  tillvägagångssätt  använts.  (Rhayma  et  al.  2011)  I  en   tredje  används  en  stokastisk  modell.  (Vale  och  Lurdes,  2013)  Då  vi  ej  haft  kunskaper   om   järnväg   sedan   tidigare   hade   det   varit   svårt   att   finna   en   gruppering   för   neurala   nätverk.   Det   ickelinjära   brusiga   utseende   som   spåravvikelsen   har   är   svårt   att   modellera   med   en   enkel   metod   såsom   multipel   regression.   Därför   krävs   mer   komplexa   modeller   för   att   beskriva   data.   Miyata   (2010)   föreslår   en   Generaliserad  

additiv   modell   (eng.   Generalized   Additive   Model   =   GAM)   för   att   modellera   sådana  

(14)

svagheter   för   en   vanlig   utjämningsmetod   (Spline)   för   att   modellera   en   ickelinjär   brusig  serie.  

(15)

2.  Data  

Under  detta  kapitel  redovisas  datamaterialet  för  denna  studie.  Datamaterialet  består   av   två   stora   delar,   den   ena   är   mätdata   som   mäts   av   mätvagnar   och   den   andra   är  

BIS-­‐data   som   innehåller   banrelaterade   anläggningar   och   händelser.   Mätdata  

innehåller  framförallt  inmätt  data  som  gäller  spårens  geometrier  såsom  spårvidd.  De   innehåller   även   variabler   som   sker   vid   mätningar,   exempelvis   hastighet   på   mätfordonet.   Listan   över   variabler   och   variablernas   beskrivningar   finns   i   Bilaga   1.   Mätningar   utförs   i   princip   med   25  cm   mellanrum   på   spåren   och   identifieras   med   PlatsID  i  km.  Spårvidd  som  är  responsvariabel  för  denna  studie  ingår  i  mätdata.  Även   BIS-­‐data   har   PlatsID   vilket   möjliggör   identifiering   av   gemensamma   punkter   från   mätdata  och  BIS-­‐data.  Listan  för  BIS-­‐data  finns  i  Bilaga  2.  

2.1  Datakällor  

Datamaterialet   som   använts   i   studien   har   inhämtats   från   uppdragsgivare   och   Trafikverkets   databas   Optram.   Mätdata   från   elva   olika   tidpunkter   innehöll   totalt   1413984   mätpunkter   med   mellan   107944-­‐131192   mätpunkter   per   tidpunkt.   All   mätdata   är   från   bandel   119.   I   Optram   hämtades   också   42   filer   innehållande   förklaringsvariabler  från  BIS.  

2.2  Bearbetning  

Då   data   från   början   fanns   i   53   olika   filer   har   sammanslagning   gjorts.   Förklaringsvariabler   från   BIS   fanns   i   annat   format   än   mätdata   och   behövde   därför   konfigureras  för  att  sammanslås  med  mätdata.  Dessa  fanns  i  två  olika  format;  där  en   händelse   finns   på   endast   en   punkt   och   där   en   händelse   pågår   under   en   längre   sträcka.   Händelse   för   den   första   innebär   till   exempel   existens   av   stolpe   som   identiferas   vid   en   PlatsID.   Händelse   för   den   andra   däremot   kan   vara   något   som   behövs  i  två  eller  fler  löpande  PlatsID,  exempelvis  stödmur  vid  spåren,  d.v.s.  händelse   som  sker  i  mer  än  25  cm.  I  de  flesta  fall  har  dummyvariabler  används,  där  händelse   ger   värde   1   i   kolumnen   och   0   annars.   För   en   del   utav   de   förklaringsvariabler   som   pågår  under  en  längre  sträcka  pågår  händelse  under  hela  sträckan  och  dessa  har  blivit   kvalitativa   variabler   med   två   eller   fler   händelser   i   en   kolumn.   Mer   information   om   förklaringsvariabler   finns   i   avsnitt   2.4.2   Då   information   om   datum   för   mätpunkter   funnits   i   filnamnet   har   denna   information   lagts   in   i   efterhand   som   en   kolumn   i   mätdata.  Även  information  om  vilken  punkt  som  har  mätts  har  lagts  till,  då  detta  från   början  funnits  i  textformat  i  två  separata  kolumner.    

Vid  sammanslagning  har  även  hänsyn  tagits  till  att  mätpunkter  inte  alltid  har  25  cm   mellanrum.   Förklaringsvariabler   har   därför   matchats   med   den   punkt   (PlatsID)   som   ligger  ±14  cm  ifrån  punkten  i  mätdata,  då  detta  mått  gav  minst  fel.  

(16)

2.3  Felkällor  

Tre  variabler  från  BIS  kunde  inte  tas  med  i  studien  på  grund  av  för  många  saknade   värden.  De  behövde  vara  kvalitativa,  men  pågick  inte  under  alla  mätpunkter.  

Två  datamängder  med  lägst  värden  på  spårvidd  (2011-­‐03-­‐04  och  2011-­‐04-­‐01)  går  ej   att  anpassa  med  den  slutliga  modellen,  då  det  använda  programmet  ej  klarade  av  att   köra  dessa  tidpunkter.  Orsak  är  oklar,  men  i  kapitel  2.4.2  presenteras  ett  lådagram   som   visar   att   dessa   två   tidpunkter   även   med   avseende   på   förklaringsvariabler   är   annorlunda  från  övriga.  

Datamaterialet  innehöll  även  geografiska  koordinater  för  varje  mätpunkt.  Det  visade   sig  dock  att  en  del  av  datamaterialen  omfattar  felaktiga  koordinater.  Dessutom  var   det   känt   hos   Trafikverket   att   precisionen   för   positionering   givet   koordinaterna   var   ±20   meter   trots   att   det   bör   vara   endast   ±2   meter   enligt   arbetsbeskrivningen.   (Trafikverket,   2014)   Kolumner   för   koordinaterna   användes   därför   inte   till   analysen.   Detta  hade  kunnat  leda  till  felaktiga  matchningar  mellan  mätdata  och  BIS-­‐data.  Detta   visar  även  att  PlatsID  kan  vara  något  felpositionerad  vilket  gör  att  förklaringsvariabler   kan  ha  tillägnats  fel  mätpunkter.  

 

(17)

2.4  Beskrivande  statistik  

I   detta   avsnitt   redovisas   beskrivande   statistik   för   datamaterialet   som   användes   till   denna  studie.  

2.4.1  Responsvariabel  

Den   responsvariabel   som   undersöks   är   avvikelsen   från   normal   spårvidd,   som   är   1435  mm  på  svenska  järnvägsspår.  

Definition  enligt  Trafikverket  (2014)  på  spårvidd  är  enligt  nedan.  

”Spårvidden   definieras   som   det   minsta   avståndet   (G),   parallellt   med   spårplanet,   mellan   rälerna,   mätt   vinkelrätt   mot   spårplanet   mellan   punkter   (P),   belägna   någonstans  mellan  spårplanet  och  14  mm  (Zp)  under  spårplanet”  se  Figur  1.  

 

Figur  1  –  Definition  för  spårvidd  

Spåravvikelsen  är  alltså  avståndet  G  -­‐  1435  mm.  

(18)

I  Figur  2  visas  spåravvikelsen  på  y-­‐axeln  och  PlatsID  på  x-­‐axeln  över  två  tidpunkter:   2008-­‐09-­‐25  respektive  2011-­‐08-­‐09.  Se  Bilaga  3  för  resterande  tidpunkter.  Bandel  119   går  mellan  PlatsID  1146,665  km  och  1179,500  km.  

   

Figur  2  –  Spåravvikelsen  vid  2008-­‐09-­‐25  resp.  2009-­‐04-­‐16  

Första   mätningen   var   något   kortare   än   övriga   mätningar,   men   i   övrigt   är   de   oftast   mätta   över   hela   sträckan.   Avvikelserna   på   spårvidden   varierar   något   beroende   på   plats  över  alla  tidpunkterna.  Dock  visar  serierna  på  spårvidden  ett  liknande  mönster   vid  de  olika  tidpunkterna  vilket  tyder  på  att  det  skulle  finnas  gemensamma  faktorer   som   förklarar   spårvidden.   Avvikelsen   antar   både   negativa   och   positiva   värden,   där   minsta  värdet  är  -­‐8,27  som  mättes  den  1  april  2011  vid  PlatsID  1160  och  det  största   värdet   34,37   som   mättes   den   25   september   2008   vid   PlatsID   1153.  Även   omkring  

(19)

Histogram   för   avvikelsen   på   spårvidden   för   2008-­‐09-­‐25   respektive   2009-­‐04-­‐16   redovisas  i  figuren  nedan.  Histogram  för  de  resterande  tidpunkterna  finns  i  Bilaga  4.    

   

Figur  3  –  Histogram  för  spåravvikelse  vid  2008-­‐09-­‐25  resp.  209-­‐04-­‐16  

Figur   3   visar   att   fördelning   för   spåravvikelsen   är   skev   med   en   lång   högersvans.   Vanligast  värden  ligger  mellan  två  och  fyra  för  de  flesta  mätdagar,  medan  2010-­‐05-­‐12   samt   2011-­‐03-­‐04   har   mellan   fyra   och   sex   respektive   noll   och   två   till   skillnad   från   övriga  mätdagar.  

I  Figur  4  visas  lådagram  för  spåravvikelsen  över  elva  tidpunkter.    

 

Figur  4  –  Lådagram  för  spåravvikelsen  under  elva  mätdagar  

(20)

Från   vänster   till   höger   visas   lådagram   i   ordning   av   tidpunkterna:   2008-­‐09-­‐25,   2009-­‐04-­‐16,   2009-­‐08-­‐05,   2009-­‐09-­‐30,   2010-­‐05-­‐12,   2010-­‐06-­‐23,   2010-­‐09-­‐01,   2011-­‐03-­‐04,   2011-­‐03-­‐30,   2011-­‐04-­‐01   och   2011-­‐06-­‐09.   Spåravvikelserna   över   tidpunkterna  ser  ganska  lika  ut  förutom  spåravvikelsen  för  2011-­‐03-­‐04  som  ligger  på   den  fjärde  platsen  från  höger  i  Figur  4.  

2.4.2  Förklaringsvariabler  

Totalt   53   förklaringsvariabler   användes   till   denna   studie,   de   gällde   dels   spårgeometrier   och   egenskaper   hos   spåren.   I   detta   avsnitt   redovisas   hur   förklaringsvariablerna  för  studien  ser  ut.  Det  finns  begreppslistor  i  Bilaga  1  och  2  som   innehåller  Trafikverkets  definitioner  för  dessa  variabler.  

En   typ   av   förklaringsvariabler   är   dummyvariabler   som   endast   pågår   i   en   punkt.   För   varje  händelse  innehåller  kolumnen  siffran  1,  medan  resterande  punkter  i  kolumnen   innehåller  siffran  0,  d.v.s.  det  undersöks  om  existensen  av  dessa  objekt  påverkar  vid   modellering.    Exempelvis  detektor,  brygga  och  stolpe  tillhör  denna  typ.  Antal  objekt   varierar  beroende  på  längden  på  mätningen.  Dessa  typer  av  variabler  är  väldigt  få  i   jämförelse   med   antal   mätpunkter   vilket   gör   att   effekterna   dessa   variabler   har   på   spåravvikelsen   förmodligen   är   små.   Se   även   Bilaga   5a   för   frekvenserna   för   dessa   dummyvariabler.  I  Figur  5  visas  variabel  Plankorsning  tillsammans  med  spåravvikelsen   för  en  tidpunkt  som  ett  exempel.    

 

(21)

De  svarta  punkterna  i  figuren  visar  existens  av  plankorsningar.  Antal  plankorsningar   är   11-­‐12   över   sträckan   beroende   på   mätdag.   I   Figur   5   ser   man   att   plankorsningar   existerar  vid  en  del  stora  spåravvikelser.  Tydligast  syns  detta  vid  PlatsID  1153,800  och   1165,722.  

En  annan  typ  av  förklaringsvariabler  är  dummyvariabler  som  pågår  under  en  längre   sträcka.   Se   Bilaga   5b   för   frekvenserna   för   de   14   variablerna.   Exempelvis   ballast,   kanalisation  och  geoteknik  tillhör  denna  typ.  Nedan  presenteras  två  exempel  på  hur   förklaringsvariabler  som  pågår  under  en  längre  sträcka  ser  ut.  

 

Figur  6  –  Dränering  över  sträckan  med  spåravvikelse  

 

Serien   i   Figur   6   visar   spåravvikelsen   för   en   tidpunkt.   De   svarta   markeringarna   indikerar   att   det   finns   plastdränering   vid   spåren.   Vid   en   del   dräneringar   finns   en   större   spåravvikelse,   vilken   kan   tyda   på   att   dränering   kan   ha   effekt   på   stor   spåravvikelse.    

(22)

I  Figur  7  visar  de  svarta  markeringarna  den  vanligaste  befästningstypen  P-­‐ec.  

 

Figur  7  –  Befästning  över  sträckan  med  spåravvikelse  

Det   är   endast   i   ett   fåtal   sträckor   som   annan   typ   av   befästning   används.   Omkring   PlatsID  1148,  1152,  1172  och  1178  finns  en  spåravvikelse  som  är  större  än  20  mm.   Vid  alla  dessa  punkter  finns  befästningstypen  P-­‐ec.  

En   del   av   förklaringsvariablerna   som   innehåller   specifika   egenskaper   hos   varje   mätpunkt  behandlas  som  kvalitativa  variabler.  Det  finns  fyra  kvalitativa  variabler  i  BIS:   Kvalitetsklass,   Största   tillåtna   hastighet   (STH)   och   Spår.   Frekvenserna   för   dessa   variabler  finns  i  tabellerna  i  Bilaga  5c,  5e  och  5f.  I  mätdata  finns  också  information  om   kvalitetsklass  som  skiljer  sig  något  från  BIS-­‐data.  Se  Bilaga  5d  för  frekvenstabell.  

 

(23)

Figur  8  visas  den  kvalitetsklass  som  angetts  vid  anläggning  vilket  hämtats  från  BIS.    

 

Figur  8  –  Kvalitetsklass  (BIS)  över  sträckan  med  spåravvikelse  

Då  klass  1  innebär  den  mest  trafikerade  klasstypen  är  det  viktigt  att  spåren  vid  denna   klass   är   mer   korrekta   än   en   högre   klass.   Approximativt   75-­‐80  procent   av   spårobservationerna   tillhör   klass  1.   Omkring   PlatsID   1152   och   1178   finns   en   större   spåravvikelse  som  är  större  än  20  mm.  Dessa  tillhör  klass  3.    

(24)

Vid  mätningarna  mäts  hastigheter  för  mätvagn.  I  Figur  9  sammanfattas  hastigheten   för  mätvagnen  under  elva  mätdagar.  

    Figur  9  –  Mätvagnens  hastigheter  under  elva  tidpunkter  

De   flesta   mätvagnar   har   haft   samma   hastigheter   under   mätningarna.   Mätningarna   från  den  4  mars  samt  1  april  2011  har  mätts  från  punkten  1179,49975  till  1146,666   istället  för  1146,665  till  1179,49975  som  övriga  mätdagar.  Dessa  är  även  mätta  av  en   annan  typ  av  mätvagn  jämfört  med  de  resterande  mätdagarna.  

I   följande   avsnitt   redovisas   övriga   förklaringsvariabler   som   är   kvantitativa   variabler.   Det   finns   18   variabler   innehållande   spårgeometrier   såsom   standardhöjdläge   och   sidolägen  över  olika  våglängder  på  spåren.  Dessa  presenteras  i  lådagram  i  Bilaga  6b-­‐ 6f.  Det  finns  även  tre  variabler  som  innehåller  information  om  spårens  läge  i  form  av   lutning  och  kurvatur.  I  Bilaga  6a  finns  diagram  för  variabeln  Lutning.  

(25)

I  Figur  10  presenteras  kurvatur  för  spåren.  I  datamängderna  finns  två  olika  uppgifter   på  kurvatur  över  bandelen,  från  BIS  (Övre  figuren)  och  från  mätdata  (Nedre  figuren).  

 

 

Figur  10  –  Kurvatur  vid  spåranläggning  (ovan)  och  kurvatur  som  inmätts  2011-­‐06-­‐09  (under)  

Den   information   som   finns   i   BIS-­‐databasen   är   uppgifter   om   vilken   radie   spåret   anlades   med.   Kurvor   som   anges   med   positiva   tecken   motsvarar   en   högerkurva   i  

(26)

längdmätningens   riktning   medan   negativt   tecken   motsvarar   vänsterkurvor.   Samma   mönster   finns   vid   samtliga   mätningar.   Det   är   känt   hos   Trafikverket   att   kurvatur   påverkar  spåravvikelsen.  Detta  syns  i  Figur10  där  stora  spåravvikelser  förekommer  vid   skarpa  kurvor,  till  exempel  vid  PlatsID  1148,  1152,  1172  och  1178.  

I  Figur  11  presenteras  två  exempel  på  spårgeometrierna,  vänster  sida  över  kort  och   lång  våglängd  som  finns  i  mätdata.  

   

Figur  11  –  Vänster  sida  över  kort  våglängd  (t.v.)  och  vänster  sida  över  lång  våglängd  (t.h.)  

Spårgeometrierna   har   ett   ickelinjärt   beteende   över   bandel   119.   Spridningen   på   positiva  och  negativa  värden  är  ungefär  desamma.  Det  finns  inte  heller  några  extrema   värden  under  sträckan.  

Beskrivande  statistik  av  spårvidden  har  påvisat  att  det  finns  höga  spåravvikelser  vid   PlatsID  1148,  1153,  1172  och  1178.  En  del  av  förklaringsvariablerna  har  också  visat   några  unika  beteende  omkring  dessa  positioner  vilket  kan  tyda  på  att  dessa  variabler   kan   ha   signifikanta   effekter   på   spåravvikelsen.   Kurvatur   som   innefattar   spåranläggningsläge  är  en  av  de  potentiella  förklaringsvariablerna.  Vid  skarpa  kurvor   syns   stora   spåravvikelser.   Enligt   beskrivande   statistik   för   förklaringsvariabler   som   tillhör  spårgeometrier  är  det  svårt  att  avgöra  hur  mycket  dessa  variabler  påverkar  på   spåravvikelsen.  Dock  har  spårgeometrier  strukturella  korrelationer  med  varandra  och   variabler  för  spåranläggningsläge  tillhör  också  spårgeometrier.  Detta  kan  tyda  på  att   även   dessa   variabler   skulle   ha   måttlig   påverkan   på   spåravvikelsen.   Från   förklaringsvariablerna   för   banrelaterad   anläggning   och   händelse   har   Kvalitetsklass   visat  ett  systematiskt  mönster  på  spåravvikelse  baserade  på    kvalitetsklasser.  Därmed   kan  STH  ha  också  något  effekt  på  spårvidden,  då  är  STH  en  av  viktig  parameter  när  

(27)

3.  Metod  

Under   detta   kapitel   redovisas   huvudsakligen   processerna   såsom   modellering   och   utvärdering  av  de  anpassade  modellerna.  

3.1  Val  av  metoder  

För  att  kunna  svara  på  om  det  finns  samband  mellan  spårvidd  och  förklaringsvariabler   skulle   någon   slags   regressionsanalys   kunna   fungera.   Dock   har   responsvariabeln   ett   ickelinjärt   samband   med   de   flesta   förklaringsvariabler   samt   ett   icke   normalfördelat   utseende,  så  att  en  regressionsanalys  som  kan  hantera  detta  krävs.  En  generaliserad  

linjär   modell   (eng.   Generalized   Linear   Model   =   GLM)   kan   modellera   en  

responsvariabel   som   inte   är   normalfördelad.   Som   det   beskrivits   i   kapitel   2   består   datamaterialet   av   två   delar,   dels   mätningsdata   som   innehåller   spårens   geometrier   och   dels   banrelaterade   anläggningsdata,   som   framförallt   beskriver   spårens   egenskaper.   Olika   delar   av   spåren   har   olika   egenskaper.   Från   denna   förutsättning   skulle  en  generaliserad  additiv  modell  (eng.  Generalized  Additive  Model  =  GAM)  passa   bra  för  att  modellera  spårvidden  med  sådana  förklaringsvariabler.  

3.2  GLM  och  GAM  

I   följande   avsnitt   beskrivs   modellerna   som   använts   i   denna   studie.   Ett   av   tillvägagångssätten  till  regressionsanalys  är  en  vanlig  regressionsanalys  (eng.  Ordinary  

least  squares  =  OLS).  Om  responsvariabel  𝑦!  är  normalfördelad  och  𝑥!"  är  kovariater  

som   är   oberoende,   anges   en   vanlig   linjär   modell   (OLS)   enligt   nedan,   där   antal   observationer  är  𝑛  och  antal  kovariater  är  𝑝:  

𝑦! = 𝛽!+ 𝛽!𝑥!"

!

!!!

+ 𝜖!      𝜖!  ~  𝑁 𝜇, 𝜎!      𝑖 = 1, … , 𝑛      𝑗 = 1, … , 𝑝  

𝛽!  är   intercept   för   den   anpassade   modellen   och  𝛽!  är   regressionsparametrar   för  𝑥!.  

𝜖!  är  residualer  d.v.s.  feltermer  för  den  anpassade  modellen  vilka  ska  ha  väntevärde  𝜇   som  är  noll  och  konstant  varians,  vara  oberoende  och  normalfördelade.  

Förhållandet   mellan   responsvariabeln,   alltså   spåravvikelse   för   denna   studie,   och   en   del   av   kovariaterna   är   dock   starkt   ickelinjärt   och   därför   behövs   mer   komplexa   modeller.   En   additiv   modell   (eng.   Additive   Model   =   AM)   är   en   ickeparametrisk   regressionsmodell.  Så  𝛽!𝑥!"  i  OLS  ovan  kan  ersättas  med  en  utjämningsfunktion  𝑓(∙).  

𝑦! = 𝛽!+ 𝑓!(𝑥!")

!

!!!

(28)

Den  okända  utjämningsfunktionen    𝑓!  härleds  med  backfitting-­‐algoritm  med  hjälp  av  

en   scatterplot-­‐smoother   för   varje   𝑥! .   AM   är   alltså   en   kombination   av  

regressionsmodeller  som  består  av  en  samling  av  endimentionella  funktioner.  (Hastie   &   Tibshirani,   1990)   I   denna   studie   användes   TPR-­‐splines   (Thin-­‐plate-­‐regression-­‐

splines),   P-­‐splines   och   en   adaptiv   utjämnare   (eng.   Adaptive   smoothing).  

(Wood,  2008c)    𝑓!  anges  som  den  som  ger  den  minsta  PRSS  (eng.  Penalized  Residual  

Sum  of  Squares)  vid  använding  för  dessa  utjämnare.  (Wood,  2008b)  

𝑃𝑅𝑆𝑆! = 𝑦! − 𝑓! 𝑥!" !+ 𝜆 𝑓!′′(𝑥) !𝑑𝑥

!

!!!

 

Där  𝜆  är   ett   straff   (eng.   penalty)   mot   kurvkrökning  𝑓!  som   är   större   än   noll   och  

kontrolleras   mot   varje   utjämningsterms   frihetsgrad.   Denna   frihetsgrad   är   en   approximativ   frihetsgrad   som   används   under   backfitting-­‐proceduren.   (Andersen,   2012)   Till   skillnad   från   straffet   för   TPR-­‐splines   sker   straffet   för   P-­‐splines   diskret   på   koefficienter   och   straffet   för   en   adaptiv   utjämnare   varierar   med   en   kovariat.   (Wood,  2008c)  

Spåravvikelse   𝑦!  är   inte   heller   normalfördelad.   GLM   kan   hantera   en   sådan  

responsvariabel.   Den   tillåter   en   responsvariabel   som   inte   är   normalfördelad   och   anpassar   en   linjär   regression   med   hjälp   av   en   länkfunktion.   GLM   består   av   tre   komponenter,   responsvariabel,   kovariater   (förklaringsvariabler)   och   länkfunktioner   som  beskrivs  enligt  följande.  (McCullagh  &  Nelder,  1989)    

Responsvariabel  𝐘 = 𝑌!, … , 𝑌! !  i   GLM   antas   vara  𝐸 𝑌! = 𝜇!  (𝑖 = 1, … , 𝑛)  som   är  

oberoende   och   följer   någon   fördelning   från   den   exponentiella   familjen,   alltså   gammafördelningen  för  spåravvikelsen  i  denna  studie.  Kovariater  𝑥! = (𝑥!!, … , 𝑥!")′  

(𝑗 = 1, … , 𝑝)  ger  linjära  prediktorer  𝜼 = (𝜂!, … , 𝜂!)′,  där  𝟏! = (1, … , 1)′:  

𝜼 = 𝛽!𝟏!+ 𝑥!𝛽!      

!

!!!

 

Linjära  prediktorer  𝜼  ges  således  med  en  länkfunktion  𝑔(∙):   𝑔 𝝁 = 𝜼   ↔  𝑔 𝜇! = 𝜂!  

(29)

𝐸(𝐘)  och  linjära  prediktorn  𝜼  länkas  alltså  med  hjälp  av  en  länkfunktion  𝑔(∙)  i  en  GLM   enligt  följande:   𝜂! = 𝑔 𝜇! = 𝛽!+ 𝑥!"𝛽!       ! !!!  

Parametrar  𝜷 = (𝛽!, 𝛽!, … , 𝛽!)!  härleds   med   Maximum   likelihood-­‐metoden,   där   en  

länkfunktion  𝑔(∙)  relaterar  till  den  linjära  prediktorn  𝜼.  Den  vanliga  metoden  för  att   lösa   denna   ekvation   är   Fishers   skattningsprocedur   (eng.   The   Fisher   scoring  

procedure).   Den   motsvarande   proceduren   är   iterativt   omviktad   minsta   kvadrat-­‐ metoden   (eng.   iteratively-­‐reweighted   least-­‐squares   =   IRLS).   För   denna   studie  

användes  den  inversa  länkfunktionen  −𝝁!!  som  är  den  vanligaste  länkfunktionen  för  

data   som   följer   någon   fördelning   från   den   exponentiella   familjen.   (Hastie   &   Tibshirani,  1990)  

GAM   är   alltså   en   kombination   av   AM   och   GLM.   Den   linjära   prediktorn  𝜂!  i   en   GLM  

ersätts  med  den  linjära  prediktorn  i  en  AM  som  anges  enligt  följande:  

𝜂! = 𝑔 𝜇! = 𝛽!+ 𝑓!(𝑥!")

!

!!!

 

Sammanfattningsvis  modelleras  GAM  under  följande  procedur  (eng.  The  local  scoring  

procedure)  som  beskrivs  nedan.  (Hastie  &  Tibshirani,  1990)      

i. Initialisera:    𝛽! = 𝑔(𝑛!! !!!!𝑦!);  𝑓! = 𝑓!! = ⋯ =   𝑓!! = 0.       = 1, … , 𝑝.  

ii. Uppdatering:    

Konstrurera  en  s.k.  justerad  beroendevariabel  𝑧   𝑧!! = 𝜂

!!+ (𝑦! − 𝜇!!)  

𝜕𝜂!

𝜕𝜇! !    𝐼𝑅𝐿𝑆: 𝑙 = 0, 1, …  

med      𝜂!! = 𝑔 𝜇!! = 𝛽!+ !!!!𝑓!!(𝑥!")      och        𝜇!! = 𝑔!!(𝜂!!)  

Beräkna  vikten  𝑤,  där    𝑉𝒊 = 𝑣𝑎𝑟(y!)    

𝑤!! = 𝜕𝜇! 𝜕𝜂! ! ! 𝑉!! !!   Backfitting-­‐proceduren   a) Initialisera      𝑓! = 𝑓!! = ⋯ =   𝑓!! = 0.       = 1, … , 𝑝.  

(30)

b) Beräkna  residualer:  𝑧! 𝑓

!!(𝑥!)

!!!  

c) Anpassa   en   viktad   additiv   modell   på  𝑧!  för   att   erhålla   skattad  

funktion  𝑓!!,  additiv  prediktor  𝜂!!  och  anpassad  𝜇!!.  

d) Upprepa  steg  c)  tills  𝑓!!  konvergeras.  

 

iii. Upprepa   steg   ii,   så   att   ∆(𝜂!!!, 𝜂!)  hamnar   under   en   tröskel,   där  

konvergenskriterium  är:   ∆ 𝜂!!!, 𝜂! = ! !!! 𝑓!!!!− 𝑓!! 𝑓!! ! !!!        

3.3  Utvärdering  

Under  detta  avsnitt  presenteras  de  utvärderingsmetoder  som  används  för  att  skatta   och  validera  de  anpassade  modellerna.  

3.3.1  Utvärderingsmått  

Det   finns   tre   vanliga   utvärderingsmått   som   används   till   GAM,   CV   (eng.   Cross  

Validation),   GCV   (eng.   Generalized   Cross   Validation)   och   AIC.   För   denna   studie  

användes  GCV  och  AIC,  samt  den  justerade  förklaringsgraden  (justerade  R2).  AIC  och   den  justerade  förklaringsgraden  används  även  till  GLM.  

GCV   är   en   generaliserad   korsvalidering   som   är   en   skattning   av   MSPE   (eng.   Mean  

Square   Prediction   Error)   baserande   på   en-­‐utlämnad-­‐CV   (eng.   a   leave-­‐one-­‐out   cross   validation).   CV   utförs   genom   att   dela   en   datamängd   i   två   delar,   träningsdata   och  

testdata.  Först  analyseras  data  med  träningsmängden,  sedan  valideras  resultatet  med   testmängden.  Med  en-­‐utlämnad-­‐CV  skattas  modellen  för  alla  observationer  utom  i:te   observation  åt  gången  och  fortsätter  för  alla  observationer.  (Miyata,  2010)  

(31)

CV,  GCV  och  AIC  anges  i  följande  formler,  låt  𝑖  (𝑖 =  1, … , 𝑛)  vara  antal  observationer:   𝐶𝑉 = 1 𝑛 𝐷(𝑦!; 𝜇!!!) ! !!!   𝐺𝐶𝑉 = 1 𝑛 !!!!𝐷(𝑦!; 𝜇!) 1 − 𝑡𝑟(𝑅)/𝑛 !   𝐴𝐼𝐶 = 1 𝑛 𝐷(𝑦!; 𝜇!) ! !!! + 2𝑡𝑟 𝑅 𝜓/𝑛  

Där,   𝐷  är   devians   (eng.   Deviance):   𝐷 𝑦; 𝜇 = !!!!𝐷 𝑦!; 𝜇! ,   𝜇!!!  är   det   skattade  

värdet  utav  datamängden  utom  i:te  observationen,  𝑡𝑟(𝑅)  är  spåret  av  hatt-­‐matrisen   under  backfitting-­‐proceduren  innehållande  den  skattade  frihetsgraden  (eng.  effektive  

dgrees   of   freedom   =   EDF   )   för   varje   utjämningsterm   och  𝜓  är   en   viktad   parameter.  

(Miyata,  2010)  

Den  modell  som  får  de  minsta  värdena  bland  dessa  mått  väljs  som  den  i  princip  bästa   modellen.  Dock  kan  både  GCV  och  AIC  vara  instabila  vid  val  för  ickelinjär  modell,  då  är   frihetsgrader  för  sådana  modeller  approximativa.  (Hastie  &  Tibshirani,  1990)  Så  vi  bör   använda   dessa   mått   med   försiktighet   och   anpassa   modell   tillsammans   med   andra   hjälpmedel.   För   att   se   anpassning   för   utjämningstermer   används   rugplott   och  

residualplott   används   för   att   diagnostisera   modellanpassning.   Dessa   diagram  

förklaras  i  nästkommande  avsnitt  3.3.2.  

För   att   se   förklaringsgrad   för   den   anpassade   modellen   används   andel   av   devians  

𝐷!"#$  vilket  beräknas  enligt  nedan.  (Clark,  2013)  

𝐷!"#$ =𝐷!"## − 𝐷!"#$%&'("!

𝐷!"##  

Där  𝐷!"##  är   deviansen   för   den   null-­‐modellen   vilken   inte   har   någon   term   utom   ett  

intercept   i   vissa   fall.   Frihetsgrader   för   denna   modell   är   därför   antal   observationer   minus   ett   om   modellen   har   intercept.  𝐷!"#$%&'("!  är   devians   för   den   anpassade  

modellen   vilken   har   frihetsgrader   som   består   av   antal   observationer   minus   antal   parametrar.  (Clark,  2013)  

3.3.2  Grafisk  metod  

Modellanpassning  kontrolleras  även  visuellt  i  en  diagnosplott.  En  typ  av  plott  är  en   residualplott   som   visas   residualer   i   fyra   olika   typer   av   plottar.   QQ-­‐plott   visar  

(32)

fördelning  av  residualer  av  devians  och  dess  kvantiler.  Histogram  visar  fördelningen   hos  residualerna.  Från  de  två  plottarna  kan  man  läsa  hur  residualerna  är  fördelade.   Två   andra   plottar   visar   förhållandet   mellan   residualer   och   linjära   prediktorer   respektive  responsvärde  och  anpassat  värde  vilket  kan  visa  lämplighet  av  modellen.   Residualplottarna   används   för   att   kontrollera   modellanpassningen   i   både   GLM   och   GAM.  (Wood,  2010)  

Den  andra  typen  av  plott  är  en  s.k.  rugplott  som  används  för  att  se  anpassningsläge   för   utjämningstermerna   från   GAM.   Rugplott   visar   utjämnade   värden   för   given   kovariat.   Svarta   punkter   i   en   rugplott   representerar   partiella   residualer   för   en   utjämningsterm   som   visar   förhållandet   mellan   residualer   från   en   full   modell   och   residualer  från  en  modell  utan  given  kovariat  medan  resten  av  kovariaterna  behålls.   Systematisk   avvikelse   från   prediktorerna   indikerar   problem   med   anpassningen.   Ovanpå  x-­‐axeln  visas  fördelningen  för  given  kovariat  som  en  svart  matta  (eng.  rug).   Rugplott  används  för  att  se  hur  mycket  en  utjämningsterm  för  given  kovariat  bidrar  i   en  modell.  (Wood,  2010)  

3.4  Multikolinjäritet  och  concurvity  

Multikollinjäritet   är   när   två   eller   fler   kovariater   korrelerar   starkt   med   varandra.   Då   linjär  regression  använts  i  GLM  behöver  hänsyn  tas  till  korrelation  mellan  kovariater   som  kan  orsaka  olika  koefficienter  för  kovariater  vid  upprepade  modellanpassningar.  

Concurvity   (på   engelska)   uppstår   när   någon   kovariat   i   en   modell   kan   approximeras  

med   en   eller   flera   andra   utjämningstermer   i   modellen   (Wood,   2008a).   Detta   kan   förekomma   vid   GAM-­‐modellering.   Concurvity   kan   ses   som   ett   multikollinearitetsproblem   för   ickelinjära   modeller   och   detta   orsakar   också   tolkningsproblem   för  modellen.   Detta   kan   även   göra   att   backfitting-­‐proceduren  har   svårare  att  hitta  en  unik  utjämningskurva  för  kovariaten.  

För   att   undvika   problem   av   multikolinjäritet   studeras   linjära   korrelationer   mellan   kovariaterna   med   hjälp   av   korrelationsmatriser.   Detta   hjälper   dock   inte   för   de   ickelinjära   kovariaterna.   Det   är   fortfarande   en   forskningsfråga   hur   problem   med   concurvity   ska   hanteras.   (Andersen,   2012)   Wood   som   gjort   R-­‐paketet   för   GAM   tillhandahåller   en   diagnos   av   concurvity   genom   att   beräkna   kvot   av   kvadrerade   euklidiska   normer   mellan   utjämningstermer.   (Bilaga   7)   I   denna   studie   kontrolleras   denna   diagnos   vid   modelleringen   och   det   utförs   försök   att   minska   kovariater   som  

(33)

4.  Analys  och  resultat  

I  detta  kapitel  presenteras  hur  analyser  har  utförts  och  redovisas  även  med  slutliga   resultat.   Första   tidpunkten   2008-­‐09-­‐25   har   använts   vid   modellering   för   att   kunna   användas  som  bas  i  en  temporal  analys.  Ingen  senare  tidpunkt  har  dock  använts,  se   Metodavgränsning  i  kapitel  6.2.  

4.1  

Fördelning  för  spåravvikelse

 

Responsvariabel   ser   inte   ut   att   vara   normalfördelad.   Det   är   därför   passande   att   identifiera  den  mest  passande  fördelningen  för  spårvidden.  Skevheten  kan  liknas  vid   en  chitvå-­‐fördelning,  vilket  är  en  gammafördelning  med  formparametern  α  =  m/2  och   ratioparametern   β   =   1/2   och   m   frihetsgrader.   (DeGroot  &  Schervis,  1990).   Efter   en   simulering   visade   det   sig   att   responsvariabeln   kan   ses   som   approximativt   gammafördelad,  där  medelvärdet  är  α/β  och  variansen  är  α/β2  (se  Figur  12).  För  att   använda   gammafördelningen   behövde   en   konstant   adderas   i   datamängderna,   då   negativa  värden  inte  antas  i  fördelningen.  

𝑦  ~  𝐺𝑎𝑚𝑚𝑎 𝛼, 𝛽   𝑚𝑒𝑎𝑛 = ! !   𝑣𝑎𝑟𝑖𝑎𝑛𝑠 = ! !!      

Figur  12  –  Histogram  av  en  gammafördelning  vid  simulering  av  fördelningen  på  spårvidden  

 

(34)

4.2  Korrelationsanalys  

Datamaterialet  innehöll  totalt  53  förklaringsvariabler,  varav  26  dummyvariabler,  fyra   kvalitativa   variabler   och   23   kvantitativa   variabler.   En   del   variabler   visade   hög   korrelation  till  varandra  som  kunde  leda  till  felaktiga  skattningar  av  modellerna.  De   variablerna   som   korrelerade   starkt   med   andra   variabler   plockades   därför   bort   med   avseende   på   korrelationsmatrisen,   så   att   det   inte   skulle   finnas   kvar   starka   linjära   korrelationer   mellan   de   resterande   kovariaterna.   Totalt   tio   variabler   togs   bort   från   modelleringarna.   De   borttagna   kovariaterna   omfattade   framförallt   många   spårgeometrier   såsom   ena   sidan   av   de   kovariater   som   har   mätts   i   både   höger   och   vänster  räl.  De  variabler  som  användes  modelleringarna  presenteras  i  listan  nedan.  

Spårgeometrier  

Höjd  kortvåg  vänster   Höjd  långvåg  vänster   Sidoläge  kortvåg  vänster   Sidoläge  långvåg  vänster   Sidoläge  kortvåg  höger   Skevning  6m  bas  

Ofiltrerat  sidoläge  vänster   Ofiltrerad  höjd  vänster   Standard  höjd  

     

Spåranläggningsläge  

Kurvatur   Plats  marker  (PlatsID)   Lutning  

     

Banrelaterade  anläggning  och  händelse  

Detektor   Brygga   Ktl-­‐sektionsisolator  

Stolpe   Plankorsning   Planskild  korsning  

Platsmitt   Rälsmörjningsapparat   Skarvar  

Trumma   Vägbro   Rör  

Ballast   Befästning   Dränering  

Frostskydd   Geoteknik   Järnvägsbro  

Kanalisation   Kvalitetsklass  (BIS)   Kvalitetsklass  (Mätdata)  

Öppet  dike   Plattform   Spår  (typ:  NHSP)  

Spårväxel   Spont   STH  

Stödmur   Underballast   Urgrävning  

     

Övriga  

Hastighet  (mätvagns)      

 

4.3  Modellanpassning  

GAM-­‐modellering   kräver   många   beräkningar   under   processen   vilket   kan   vara   tidskrävande  vid  modellanpassning  med  en  stor  datamängd.  Datamängden  för  denna   studie   är   stor.   För   att   på   ett   effektivt   sätt   kunna   modellera   användes   en   mindre   datamängd  som  utvalts  från  den  originella  datamängden  vid  en  tidpunkt.  Data  valdes   var   5:e   observation   ur   alla   observationer   från   startpunkt   till   slutpunkt,   så   att   den  

(35)

utvalda   datamängden   skulle   kunna   representera   hela   sträckan.   Totalt   21589   observationer   användes   för   modellanpassning.   Därefter   anpassades   hela   datamängden  per  tidsperiod  med  den  framtagna  modellen.    

För  att  ta  fram  en  passande  länkfunktion  vid  GAM-­‐modellering  bör  fördelningen  av   responsvariabeln   anges.   Som   visat   i   föregående   avsnitt   har   gammafördelningen   identifierats  som  den  mest  passande  för  responsvariabeln  och  har  därför  använts  för   alla  modellanpassningar  av  GAM.  

4.3.1  Modellanpassning  med  GLM  

I  en  granskning  av  datamaterialet  anses  spåravvikelsen  ha  en  gammafördelning  samt   ickelinjära   förhållanden   med   en   del   av   kovariaterna.   Som   en   första   utgångspunkt   började  modellanpassningen  med  en  GLM  för  att  se  om  det  går  att  modellera  utan   att   ta   hänsyn   till   den   ickelinjära   responsvariabeln.   GLM   utan   en   länkfunktion,   där   responsen  betraktas  vara  normalfördelad,  benämns  som  Modell  1  och  GLM  med  en   länkfunktion   för   gammafördelad   respons   benämns   som   Modell   2.   Båda   modeller   anpassades   med   totalt   43   kovariater   som   presenterades   i   avsnitt   4.2.   Respektive   modell  fick  följande  resultat.  

  Förklarad  devians   AIC   GCV  

Modell  1:   42,2  %   101489,85   6,443300  

Modell  2:   49,2  %   84702,91   0,088146  

 

GLM   med   normalfördelning   (Modell   1)   fick   sämre   värden   på   alla   utvärderingsmått   jämfört   med   en   GLM   med   en   gammafördelning   (Modell   2).   I   figuren   nedan   visas   residualplottar  för  respektive  modell.  

Residualplott  för  GLM  (Normalfördelning)   Residualplott  för  GLM  (Gammafördelning)  

   

References

Related documents

Helena Öhlund (S) Region Norrbotten är ordförande i Strukturfondspartnerskapet och Rickard Carstedt (S) Region Västerbotten är vice ordförande. Efter att partnerskapet gjort

utan lät arkitekten J W Gerss göra nya ritningar, som sändes till församlingen för yttrande hösten 1824.. Gerss föreslog en treskeppig

Den 11 december träffades strukturfondspartnerskapet för Övre Norrland, det vill säga representanter från Västerbotten och Norrbotten, för att prioritera EU-medel till

För behandling med kombination av inhalationskortikosteroid och beta-2-recep- torstimulerare (ICS + LABA) rekommenderas budesonid + formoterol ( DuoResp, Symbicort ), beklometason

Den 29 maj träffades strukturfondspartnerskapet för Övre Norrland, det vill säga representanter från Västerbotten och Norrbotten, för att prioritera EU- medel till

David Daoud & Mohamed Barbiche 3 Augusti 2020 utvecklare på forskningsprojekt i fortsättning om att den konceptuella modellen kan byggas vidare till en simuleringsmodell

Enligt Trafikverkets basprognos kommer godstrafiken på Västra stam- banan att öka med cirka 25 % fram till år 2030, vilket innebär att antalet godståg ökar från 48 till cirka 60

Sven-Jöran Schrader Tågkompaniet, Stein-Christian Andersen Tågkompaniet, Benny Nilsson SJ Götalandståg, Gunnar Wulf Snälltåget, Veronica Säll SJ AB, Magnus Larsson SJ AB,