• No results found

Alpina skid˚ akare

N/A
N/A
Protected

Academic year: 2021

Share "Alpina skid˚ akare"

Copied!
44
0
0

Loading.... (view fulltext now)

Full text

(1)

Vt 2012

Examensarbete, 30 hp

Regression då data utgörs av urval av ranger

Linnea Widman

(2)

Sammanfattning

or alpina skid˚akare m¨ater man prestationer i s˚a kallad FIS-ranking. Vi under- oker n˚agra metoder f¨or hur man kan analysera data d¨ar responsen best˚ar av ranger som dessa. Vid situationer d˚a responsdata utg¨ors av urval av ranger finns ingen sj¨alvklar analysmetod. Det vi unders¨oker ¨ar skillnaderna vid anv¨andan- det av olika regressionsanpassningar s˚a som linj¨ar, logistisk och ordinal logistisk regression f¨or att analysera data av denna typ. Vidare anv¨ands bootstrap f¨or att bilda konfidensintervall. Det visar sig att f¨or v˚ara datamaterial ger metoder- na liknande resultat n¨ar det g¨aller att hitta betydelsefulla f¨orklarande variabler.

Man kan d¨armed utg˚aende fr˚an denna unders¨okning, inte se n˚agra sk¨al till varf¨or man ska anv¨anda de mer avancerade modellerna.

(3)

Abstract

Alpine skiers measure their performance in FIS ranking. We will investigate some methods on how to analyze data where response data is based on ranks like this. In situations where response data is based on ranks there is no obvious method of analysis. Here, we examine differences in the use of linear, logistic and ordinal logistic regression to analyze data of this type. Bootstrap is used to make confidence intervals. For our data these methods give similar results when it comes to finding important explanatory variables. Based on this survey we cannot see any reason why one should use the more advanced models.

(4)

Inneh˚ all

1 Inledning . . . . 2

2 Matematiska modeller . . . . 2

2.1 Linj¨ar regression . . . . 2

2.2 Logistisk regression. . . . 6

2.3 Ordinal logistisk regression . . . . 7

2.4 amf¨orelse av regressionsmodeller. . . . 8

3 Datamaterial . . . . 8

3.1 Alpina skid˚akare . . . . 8

3.2 Testdata. . . . 9

4 Resultat . . . . 10

4.1 Alpina skid˚akare . . . . 10

4.2 Testdatat . . . . 20

5 Diskussion . . . . 29

A Alpina skid˚akare 30 1 orklarande variabler vs. Ranking . . . . 30

2 Beskrivande statistik . . . . 31

3 Spearmans korrelation . . . . 32

B Tabeller f¨or Testdata 33 1 Linj¨ar regression . . . . 33

2 Bootstrap . . . . 35

2.1 Spearmans korrelation . . . . 35

2.2 Bootstrap . . . . 36

3 Logistisk regression . . . . 37

4 Ordinal logistisk regression . . . . 38

(5)

1 Inledning

Vid idrottsmedicin i Ume˚a bedriver man i f¨orsta hand undervisning, men ¨aven forskning och testverksamhet f¨orekommer. I deras idrottslabb finns m¨ojlighe- ter att m¨ata bland annat fysisk styrka, aeroba (syrekr¨avande [4]) variabler och kroppssammans¨attningsvariabler (body composition variables)[20]. I detta labb har tester utf¨orts f¨or l¨angd- och alpina skid˚akare, i syftet att utreda vilka va- riabler som p˚averkar f¨oruts¨attningarna f¨or att lyckas inom sin gren. Ett s¨att att m¨ata individernas prestationer ¨ar genom ett rangsystem, den s˚a kallade FIS-rankingen, som baseras p˚a placeringar i olika t¨avlingar. Ju fler resultat och speciellt topplaceringar man erh˚aller desto b¨attre ranking f˚ar man. D˚a rangerna

¨ar baserade p˚a t¨avlingsresultat p˚averkas de av olika faktorer som till exempel hur t¨avlingsf¨orh˚allandena ser ut, om man har en bra eller d˚alig dag, hur m˚anga avlingar man deltagit i osv. Detta medf¨or att rankingen inte ger en helt r¨attvis bild av olika personers f¨orm˚aga. En som har t¨avlat mycket och haft medelm˚at- tiga placeringar kan ha b¨attre rang ¨an en som inte har haft m¨ojlighet att t¨avla lika mycket men som har haft bra placeringar d˚a han eller hon v¨al har delta- git. Trots att FIS-rankingen har dessa brister ¨ar det den, i brist p˚a annat, som anv¨ands som responsvariabel. F¨or att i f¨orv¨ag kunna uppskatta prestationer, vill man veta vilka variabler som p˚averkar rankingen samt hur. Har man tr¨anat och f¨orberett sig tillr¨ackligt f¨or en topplacering eller ¨ar det andra faktorer som spelar st¨orre roll? Vi har inte tillg˚ang till alla t¨avlande och deras ranger, utan endast ett urval. Det finns ingen sj¨alvklar metod f¨or hur man ska analysera samband d˚a responsvariabeln utg¨ors av ett urval av ranger. Syftet med detta arbete ¨ar att studera och j¨amf¨ora metoder som kan anv¨andas f¨or att analysera modeller d¨ar fysiologiska m˚att f¨orklarar rankingv¨ardet. Dessa metoder j¨amf¨ors och presenteras i de kommande sektionerna. I Sektion 2ordjupar vi oss i den teoretiska delen. I Sektion3 kommer vi titta p˚a de olika datamaterialen, hur de ser ut och ¨ar uppbyggda. I Sektion4ar vi igenom resultat fr˚an analyserna och sedan avslutar vi med en diskussion i Sektion5och bilagor i AppendixAochB.

2 Matematiska modeller

Det vi b¨orjar med ¨ar att titta p˚a hur tillg¨angliga datamaterial ser ut f¨or att f˚a en uppfattning om vilka t¨ankbara samband det finns mellan olika variabler. F¨or detta anv¨ands linj¨ar regression, men eftersom data ej n¨odv¨andigtvis ¨ar normal- ordelat anv¨ander vi oss ¨aven av bootstrap f¨or att best¨amma konfidensintervall.

En annan metod som anv¨ands ¨ar logistisk regression d¨ar rankingv¨ardena delas in i en h¨og respektive en l˚ag kategori. Detta kan ses som en ¨overg˚ang till ordinal regression d¨ar rankingv¨ardena delas in i fler ¨an tv˚a kategorier. Dessa metoder presenteras i de f¨oljande undersektionerna2.1-2.3. I Sektion2.4tittar vi p˚a hur man kan j¨amf¨ora olika regressionsmodeller med varandra.

2.1 Linj¨ar regression

Enkel linj¨ar regression g˚ar ut p˚a att anpassa en r¨atlinjig modell, y = β0+ β1x, av responsv¨ardena y mot en f¨orklarande variabel x, d¨ar β0 och β1 ¨ar ok¨anda parametrar. Till m¨atv¨ardena tillkommer ett m¨atfel ε, d¨arav f˚ar vi f¨or observa- tion i ekvationen yi = β0+ β1xi+ εi; i = 1, . . . , n. M¨atfelet antas oftast vara

(6)

oberoende och normalf¨ordelad med v¨antev¨arde 0 och varians σ2, N (0, σ2). Ob- servationsparen (xi, yi); i = 1, . . . , n, av f¨orklarande- och responsvariabler ¨ar de vi anv¨ander f¨or att uppskatta β0 och β1. Uppskattningarna g¨ors med minsta kvadratmetoden (se [12]), vilket ger:

βˆ1= P(xi− ¯x)(yi− ¯y) P(xi− ¯x)2

= P xiyi1n(P xi) (P yi) P x2i n1(P xi)2

= Sxy Sxx

, βˆ0= ¯y − ˆβ1x.¯

Om vi antar att b˚ade x och y ¨ar slumpvariabler kan vi ist¨allet m¨ata det linj¨ara sambandet med hj¨alp av korrelationskoefficienten r, (Syy ber¨aknas p˚a motsva- rande s¨att som Sxx.):

r = Sxy

pSxx· Syy

=

starkt linj¨art samband om |r| ¨ar n¨ara 1, svagt linj¨art samband om r ¨ar n¨ara 0,

−1 ≤ r ≤ 1.

(2.1)

(2.1) kallas ¨aven f¨or Pearsons korrelation. En annan korrelationskoefficient som kan anv¨andas ¨ar Spearmans korrelation, vilken har samma ekvation som Pear- sons men med rankade variabler [2]. Vi kan ¨aven skatta σ2i regressionsmodellen antev¨ardesriktigt med hj¨alp av observationerna:

s2= 1

n − 2 SyySxy2 Sxx

!

. (2.2)

Residualerna ber¨aknas genom ˆεi= yi− ˆβ0− ˆβxi= yi− ˆyi, d¨ar ˆyi¨ar det skattade ardet (fitted value). Dessa kan betraktas som observationer av m¨atfelet. Utifr˚an residualerna kan vi analysera regressionsmodellen och dra statistiska slutsater.

ε b¨ˆ or uppf¨ora sig ungef¨ar som en normalf¨ordelad, N (0, σ2)-variabel.

Vi kan ¨aven bilda konfidensintervall och utf¨ora test f¨or β0, β1 och β0+ β1x.

Vi b¨orjar med lutningskoefficienten β1, d¨ar ˆβ1 ¨ar en observation fr˚an normal- ordelningen N β1, σ2/Sxx och ett 95% konfidensinterfall f¨or β1 ges av:

Iβ1 =



βˆ1± z0.025· σ

Sxx



, ar normalf¨ordelningskvantilen z0.025 = 1.96.

a vi oftast inte k¨anner σ kan vi byta ut denna mot s =

s2 fr˚an (2.2). I samband med att vi anv¨ander oss av den skattade standardavvikelsen anv¨ander vi oss av t-f¨ordelningen ist¨allet f¨or normalf¨ordelningen vid skapandet av konfi- densintervallet. Vi ers¨atter d˚a z0.025med t-f¨ordelningskvantilen tn−2, 0.025, d˚a vi har p = 2 skattade parametrar, vilket ger intervallet:

Iβ1 =



βˆ1± tn−2, 0.025· s

Sxx



. (2.3)

(7)

a liknande s¨att f˚ar vi konfidensintervallen f¨or β0och β0+ β1x:

Iβ0=

βˆ0± tn−2, 0.025· s s

1 n+x)2

Sxx

,

Iβ01x=

βˆ0+ ˆβ1x ± tn−2, 0.025· s s

1

n+(x − ¯x)2 Sxx

. (2.4)

Det sista intervallet (2.4) g¨aller f¨or det f¨orv¨antade v¨ardet, men det vi oftast oker ¨ar det predikterade v¨ardet f¨or y, det vill s¨aga ett kommande y-v¨arde. F¨or prediktorn ˆy f˚ar vi ist¨allet prediktionsintervallet:

Iy =

βˆ0+ ˆβ1x ± tn−2, 0.025· s s

1 + 1

n+(x − ¯x)2 Sxx

,

ar den extra 1:an under rottecknet kommer fr˚an att man m˚aste ta h¨ansyn till atfelet vid skattning av y. Det vi oftast vill testa med dessa intervall ¨ar H0mot H1ar H0or (2.3) ¨ar β1= 0 mot H1: β16= 0. F¨or att f¨orkasta H0kr¨aver vi att nollan ej t¨acks av intervallet. Oftast anv¨ander man konfidensgraden 95% som ovan. Om annan konfidensgrad ¨onskas ers¨atter man tn−2,0.025med motsvarande kvantil.

Enkel linj¨ar regression kan generaliseras till en godtycklig linj¨ar modell:

y = β0+ β1x1+ β2x2+ . . . + βkxk+ ε.

or fortsatt l¨asning se till exempel Draper & Smith [9].

Bootstrapping f¨or regressionsmodellen

a m¨atfelet inte ¨ar normalf¨ordelat ¨ar det sv˚art att best¨amma skattningens f¨or- delning vilket f¨orsv˚arar bildandet av konfidensintervall. Icke-parametrisk boot- strapping ¨ar en metod som kan anv¨andas f¨or att skatta dessa konfidensintervall.

Anta att vi ¨ar intresserade av f¨ordelningen hos en skattning. Det kan till exempel vara medelv¨ardet hos ett stickprov, vilket behandlas i Crawley [5], lika v¨al som lutningskoefficienterna vid en linj¨ar regression, se till exempel Fox [11]. Om man

¨ar intresserad av medelv¨ardet kan man fr˚an de observerade v¨ardena slumpm¨as- sigt med ˚aterl¨aggning sampla fr˚an ursprungsstickprovet lika m˚anga v¨arden som ursprungsmedelv¨ardet baseras p˚a. Vi f˚ar d˚a ett s˚a kallat bootstrapstickprov. F¨or varje bootstrapstickprov ber¨aknar man och sparar undan medelv¨ardet. Vi f˚ar aledes en sekvens av bootstrapmedelv¨arden. Dessa kan anv¨andas f¨or att f˚a en uppfattning om medelv¨ardets f¨ordelning och f¨or skapande av konfidensintervall.

Denna metod g˚ar under ben¨amningen icke-parametrisk bootstrap. Den typ av bootstrap vi kommer att titta n¨armare p˚a ¨ar bootstrap vid linj¨ar regression, vilket kan utf¨oras p˚a tv˚a s¨att. Det f¨orsta ¨ar att vi drar med ˚aterl¨aggning fr˚an de ursprungliga observationsparen och f˚ar s˚aledes nya boostrapstickprov. Fr˚an dessa utf¨or vi linj¨ar regression och sparar undan skattningar av parametrarna.

Fr˚an denna sekvens av skattningar uppskattas f¨ordelningen och konfidensinter- vall bildas. Den andra metoden utg˚ar ifr˚an residualerna, ε, fr˚an den ursprungliga regressionen. Residualerna dras d¨arefter med ˚aterl¨aggning och adderas till de an- passade (skattade) responsv¨ardena, ˆyi, fr˚an ursprungsanpassningen. Vi f˚ar d˚a de

(8)

nya responsv¨ardena y = ˆy + ε. De nya responsv¨ardena bildar tillsammans med de ursprungliga v¨ardena p˚a de f¨orklarande variablerna ett bootstrapstickprov och som ovan utf¨ors linj¨ar regression och skattningarna sparas.[6] Om det finns outliers med stora residualer kan metoderna ge skillnad, men om datat inte har allt f¨or m˚anga outliers ger de liknande resultat. Vi anv¨ander oss av den f¨orsta metoden. Nedan tittar vi n¨armare p˚a olika s¨att att best¨amma konfidensintervall med bootstrap.

Konfidensintervall. Det finns flera olika s¨att att best¨amma konfidensinter- vallen p˚a. Det enklaste av dem ¨ar att helt enkelt anv¨anda sig av percentilv¨arde- na. Ett 1 − α percentilintervall f¨or till exempel v¨antev¨ardet µ f¨or en stokastisk variabel blir:

Iµ= (xα/2, x1−α/2),

ar x ¨ar de ordnade medelv¨ardena fr˚an bootstrapstickproven och xα ¨ar dess α-percentilv¨arde. Om man till exempel vill ha ett 95% konfidensintervall f¨or µ tar man 2.5%− och 97.5%−percentilerna av de ordnade medelv¨ardena. Per- centilmetoden har vissa nackdelar, speciellt om vi har en skev f¨ordelning [3].

Om f¨ordelningen ¨ar asymetrisk kommer intervallet hamna i fel l¨age. Efron [10]

presenterar en alternativ metod som g˚ar ut p˚a att man anv¨ander sig av per- centilerna i kombination med att man utnyttjar det s¨okta v¨ardet i originaldata.

Ett 100(1 − α)% konfidensintervall f¨or µ med denna metod ges av:

Iµ= ˆ

x − (x1−α/2− ˆx), ˆx − (xα/2− ˆx)

=

=

x − x1−α/2, 2ˆx − xα/2 ,

ar ˆx ¨ar orginalmaterialets medelv¨arde. F¨or att f˚a ett lite mer tillf¨orlitligt konfi- densintervall kan vi ta hj¨alp av den skattade standardavvikelsen i ber¨akningarna a f¨oljande s¨att:

Ix= (ˆx − q1d(ˆx), ˆx − q2d(ˆx)) ar

q1= x1−α/2− ˆx sx , q2= xα/2− ˆx

sx , d(ˆx) = s/

n or s2=

n

X

i=1

(xi− ¯x)2/(n − 1)

och s2x= 1 n − 1

n

X

i=1

(xi − ¯x)2.

Vi har allts˚a subtraherat ˆx fr˚an percentilv¨ardena f¨or att sedan dividera med dess standardavvikelse. Mer om olika typer av boostrapintervall kan man l¨asa om i Davison och Hinkley, [7].

(9)

2.2 Logistisk regression

or att kunna behandla responsdata som endast antar tv˚a v¨arden kan man anv¨anda logistisk regression. Exempel p˚a s˚adant responsdata ¨ar sjuk eller frisk, grupp 1 eller 2, ja eller nej mm. Dessa v¨arden kodas vanligtvis som 0 och 1, vilket betyder att vi har en responsvariabel y som ¨ar Bernoullif¨ordelad. Vi vill modellera v¨antev¨ardet, vilket ¨ar p = P (y = 1), med en linj¨arkombination av orklarande variabler, z = β0+ β1x1+ β2x2+ . . . + βkxk. F¨or att g¨ora detta anv¨ands den logistiska funktionen f (z) = 1+e1−z, som f¨or z → −∞ medf¨or att f (z) → 0 och d˚a z → ∞ g˚ar f (z) → 1, f¨or att skapa en regressionsmodell (se Kleinbaum [14] och Crawley [6]). Det spelar ingen roll vad z ¨ar, f (z) kommer alltid att ligga mellan 0 och 1. Detta g¨or att funktionen ¨ar v¨al anpassad till modeller d¨ar man modellerar sannolikheter.

or den logistiska modellen har vi funktionen:

f (z) = 1

1 + e−(β0+Pk1ixi)), vilket ger den logistiska modellen:

P (x) = 1

1 + e−(β0+Piβixi) = eβ0+Piβixi

1 + eβ0+Piβixi = p, (2.5) ar

P (x) = P (y = 1|x1, x2, . . . , xk), or f¨orklarande variabler x.

Odds ratio. Vi kan utifr˚an den logistiska modellen ber¨akna den s˚a kallade oddskvoten eller OR (odds ratio) f¨or ett visst utfall. OR definieras som P (x)/(1−

P (x)) = p/q. Vi f˚ar ekvationen:

p q = ez

1 + ez



1 − ez 1 + ez

−1

= ez 1 + ez

 1 1 + ez

−1

= ez. I det enklaste fallet l˚ater vi

z = β0+ β1x.

Genom att logaritmera p/q f˚ar vi logit av p, dvs. logittransformationen ger:

ln p q



= z = β0+ β1x.

Vi har d¨armed en linj¨ar prediktor som vi kan arbeta med. Mer allm¨ant f˚ar vi den logistiska modellen:

logitP (x) = ln

 P (x) 1 − P (x)



= β0+X

βixi. (2.6)

(10)

or att skatta β-parametrarna i (2.6), anv¨ands maximum-likelihoodmetoden[1].

Skattningen best¨ams vanligtvis numeriskt.

Konfidensintervall f¨or β-parametrarna erh˚alls genom att normalapproximera skattningarna. Ett 100(1 − α)%-intervall f¨or βi blir d˚a, [13]:

Iβi= ˆβi± zα/2se( ˆβi) ,

ar se( ˆβi) ¨ar den skattade standardavvikelsen f¨or ˆβ och best¨ams numeriskt med hj¨alp av skattningen av inversen av informationsmatrisen [8]. Oavsett om vi har sannolikheter, odds eller log odds (logit) ¨ar det samma sak vi m¨ater, det ¨ar bara uttryckt p˚a olika s¨att. Varf¨or anv¨ander vi d˚a tre olika s¨att att uttrycka samma sak, om vi redan har sannolikheten och varf¨or g¨or vi om den till odds or att omvandla till log odds senare? De tv˚a f¨orsta s¨atten att skriva modellen

¨ar mest l¨attbegripliga men f¨or att kunna analysera dikotoma beroende variabler matematiskt beh¨over vi logit.[15] Vi ser detta vid j¨amf¨orelse av den logistiska modellen i ekvation (2.5) med logit modellen i ekvation (2.6). Fr˚an den senare ar vi direkt β-koefficienterna och kan tolka dessa.

2.3 Ordinal logistisk regression

or att inte bara j¨amf¨ora de med b¨ast ranking med de med s¨amst kan ¨aven en eller flera mellangrupper inf¨oras f¨or att f˚a en finare indelning. Vi har d˚a utfall med ordning, och kan anv¨anda oss av ordinal logistisk regression. Denna tar ansyn till inb¨ordes ordning men inte till storleksskillnad. Ordinala data kan till exempel vara ˚aldersgrupper man har samlat diverse information om, men det kan ¨aven vara som i v˚art fall d˚a man vill dela upp ranking i olika storleksgrupper.

[13]

or ordinal regression handlar det om att modellera kumulativa sannolik- heter. En kumulativ sannolikhet f¨or den ordinala responsvariabeln y ¨ar san- nolikheten f¨or y att hamna i kategori j eller l¨agre och betecknas P (y ≤ j).

Exempelvis, blir de kumulativa sannolikheterna f¨or 5 kategorier P (y = 1), P (y ≤ 2) = P (y = 1) + P (y = 2) och s˚a vidare till P (y ≤ 5) = 1. Vi antar nu att vi har J stycken ordnade kategorier. Oddsen modelleras p˚a motsvarande att som f¨or logistisk regression och vi f˚ar den kumulativa logistiska modellen:

ln

 P (y ≤ j) 1 − P (y ≤ j)



= αj− (β1x1+ β2x2+ . . . + βkxk)

= αj− βX, j = 1, . . . , J − 1,

or en oberoende variabel, d¨ar αj ¨ar intercepten. Vi kan notera att varje ku- mulativ logit har samma β-v¨arde vilket betyder att vi har samma effekt fr˚an den oberoende variabeln f¨or olika logitfunktioner. D¨aremot har den ett nytt intercept αj or varje logit, detta d˚a den kumulativa sannolikheten blir st¨orre a j ¨okar och d¨armed blir ¨aven interceptet, αj st¨orre. Denna modell kallas f¨or proportional odds model. Parametrarna skattas ¨aven h¨ar med hj¨alp av maximum- likelihoodmetoden. Vi kan ¨aven notera att man vanligtvis l˚ater regressionspa- rametern ha negativt tecken, eftersom de flesta programpaket g¨or den paramet- riseringen. I normalfallet f¨or ordinal logistisk regression har man ett givet antal grupper med flera observationer i varje grupp. I v˚art fall har vi observationer fr˚an ett urval av grupperna d¨ar antalet observationer per grupp i de flesta fall

(11)

endast ¨ar 1. F¨or mer om ordinal regression se till exempel Agresti [1] och Noruˇsis [17].

2.4 amf¨orelse av regressionsmodeller

or att j¨amf¨ora olika stora modeller anv¨ands t.ex. Akaike’s Information Crite- rion, AIC, som defineras av:

AIC = −2 × log-likelihood + 2(p + 1)

ar p ¨ar antalet parametrar i modellen och 1:an kommer fr˚an att vi har skattat variansen vid ber¨akning av log-likelihood.[6]

Aven R¨ 2som definieras av:

R2= 1 − Sεε

Syy = 1 −P ε2i Syy

anv¨ands som ett m˚att p˚a hur mycket av variationen som f¨orklaras av linj¨a- ra regressionsmodellen. N¨ar flera f¨orklarande variabler anv¨ands anv¨ander man ett justerat R2-v¨arde f¨or att se hur mycket av variationen som f¨orklaras av modellen. Anledningen till att man justerar v¨ardet ¨ar f¨or att kompensera f¨or frihetsgraderna som f¨orloras. Det justerade R2-v¨ardet definieras av:

R2just= 1 − Sεε/(n − p)

Syy/(n − 1) = (n − 1)R2− k n − p ,

ar p ¨ar antalet parametrar i modellen och k = p − 1 ¨ar antalet f¨orklarande variabler.[16]

Sensitivitet ¨ar ytterligare ett m˚att som kan anv¨andas vid simulering och bootstrap. Vilket g˚ar ut p˚a att ge konfidensintervallen ett v¨arde, -1 f¨or ett intervall som har hamnat helt fel, dvs. man tittar p˚a tecknet f¨or ursprungsko- efficienten om det ¨ar positivt ¨ar negativa intervall fel och om det ¨ar negativt

¨ar positiva intervall fel. 0 om nollan ¨ar med i intervallet och 1 d˚a intervallen hamnat r¨att. Sensitiviteten p˚a antalet r¨att (R%) blir d˚a procentantalet av 1:or.

Sensitiviten p˚a antalet fel (F%), blir andelen 0:or och sensitiviteten f¨or antalet helt fel blir andelen −1:or.[19]

3 Datamaterial

or att kunna analysera hur rangerna kan kopplas till fysikaliska och fysiologiska oruts¨attningar ¨ar tv˚a datamaterial fr˚an Idrottsmedicin i Ume˚a tillg¨angliga. Ett

¨ar f¨or alpina skid˚akare och det andra ¨ar f¨or l¨angdskid˚akare. B˚ada ¨ar f¨or damer och herrar f¨odda 1992 och 1993. Vi har valt att endast betrakta ett av dessa, amligen alpindata, d˚a l¨angdmaterialet inneh¨oll mycket bortfall.

3.1 Alpina skid˚akare

I studien ing˚ar 23 skid˚akare, 6 herrar och 7 damer f¨odda 1992 och 7 herrar och 3 damer f¨odda 1993. Vi betraktar de f¨odda 1992 som ett datamaterial med oli- ka individer och de f¨odda 1993 som ett annat datamaterial. De har utf¨ort ett antal tester vid tv˚a tillf¨allen, ett p˚a h¨osten 2009 och det andra p˚a v˚aren/h¨osten

(12)

2010. Detta har gjort att det finns upprepade m¨atningar p˚a samma individer i datamaterialen. Vi bortser fr˚an detta och betraktar m¨atv¨ardena som om de kommer fr˚an olika individer. Vid b˚ada tillf¨allena har en rad olika m˚att m¨atts a som aerobtr¨oskel, anaerobtr¨oskel, laktat mm. Eftersom vi inte ¨ar intresse- rade av de specifika resultaten utan endast av att utv¨ardera analysmetoderna har vi f¨or enkelhetens skull valt att betrakta Vikt, L¨angd och en variabel vid namn Testv¨arde som m¨ater syreupptagningsf¨orm˚aga per kg kroppsvikt. D˚a vi har b˚ade damer och herrar i datamaterialet centreras variablerna f¨or att f˚a bort onsberoende resultat. Hur detta utf¨ors beskrivs i BilagaASektion2. Ranking- ardena ¨ar heltal mellan 2 och 29 men en del brister hos dessa responsvariabler har visats, bl.a. kommer de fr˚an olika rankinglistor vilket medf¨or att de inte ¨ar helt j¨amf¨orbara. Vi har ¨aven v¨aldigt f˚a personer i varje grupp. Av denna an- ledning har vi simulerat ett nytt datamaterial, ett testdata, med utg˚angspunkt fr˚an alpindata.

3.2 Testdata

Vi har valt att simulera vikt, l¨angd och testv¨arde (kallas testv i tabeller i resul- tatavsnittet f¨or testdata). Vikt och testv¨arde valdes inte bara f¨or enkelhetens skull utan ¨aven f¨or att det var de variablerna som gav mest betydelsefulla re- sultat i det verkliga materialet. I praktiska fall st¨oter man ofta p˚a korrelerade orklarande variabler. D˚a vikt och l¨angd anses biologiskt sett bero p˚a varandra valde vi d¨arf¨or att ocks˚a simulera l¨angd som beroende av vikt. Proceduren f¨or att simulera data beskrivs i f¨oljande algoritm.

Algoritm f¨or Testdata

1. Simulera n observationer f¨or skapande av populationerna f¨or vikt (v), angd (l) och testv¨arde (t). Vikt och l¨angd simuleras fr˚an en 2-dimensionell normalf¨ordelning med v¨antev¨arden 70 och 170. Standardavvikelse f¨or b˚a- da ¨ar 5 och korrelationskoefficienten ¨ar 0.8. Testv¨arde simuleras fr˚an en normalf¨ordelning med v¨antev¨arde 55 och standardavvikelse 1, okorrelerad med vikt och l¨angd.

2. Definiera βi, i = 1, 2, 3.

3. V¨alj slumpm¨assigt ut ett stickprov med ¨onskad stickprovsstorlek fr˚an po- pulationen.

4. Simulera n m¨atfel, ε, fr˚an en normalf¨ordelning med v¨antev¨arde noll och standardavvikelse fem.

5. Bilda observationerna Y = β1∗v+β2∗l+β3∗t+ε. (Interceptets koefficient, β0, har antagits vara 0 f¨or enkelhetens skull.)

6. Rangordna Y . Detta ger oss responsvariabeln R.

Metod f¨or Testdata

or alpina skid˚akarna till¨ampar vi modellerna som beskrivits i Sektion 2. N¨ar vi simulerar data har vi m¨ojlighet att f˚a en uppfattning om hur os¨akra olika skattningar blir. Vi beh¨over utf¨ora samma ber¨akningar flera g˚anger f¨or olika

(13)

simulerade material och utifr˚an dessa f˚a en bild av den sanna f¨ordelningen och skapa konfidensintervall f¨or parameterskattningarna. Fr˚an algoritmen ovan f˚ar vi i steg 1 de f¨orklarande variablerna f¨or observationerna och i steg 2 ursprungsko- efficienterna. Dessa ¨ar hela tiden desamma, d¨aremot ¨ar rangv¨ardena som bildas i steg 4 till 6 olika f¨or varje g˚ang vi v¨aljer ett nytt stickprov i steg 3. Det vi g¨or ¨ar att v¨alja fr˚an utvald stickprovsstorlek, till exempel 20, 40 och 100, slumpm¨assigt fr˚an n = 1000 observationer och sparar undan informationen vi beh¨over f¨or att kunna utf¨ora ¨onskade ber¨akningar. Detta utf¨ors 1000-2000 g˚anger innan bl.a.

konfidensintervallen ber¨aknas, beroende p˚a situation. Vissa modeller har kr¨avt st¨orre antal simuleringar ¨an andra f¨or att f˚a ett stabilt resultat, dvs. resultat som ej varierar alltf¨or mycket mellan olika k¨orningar. Vi anv¨ander oss hela tiden av samma individer under en k¨orning, men simulerar olika utfall f¨or dem.

4 Resultat

Nedan presenterar vi f¨orst resultatet av analysen f¨or de alpina skid˚akarna. Ma- terialet f¨or de alpina skid˚akarna ¨ar ej optimalt d˚a vi anv¨ander oss av b˚ade m¨an och kvinnor, vars f¨orklarande variabler skiljer sig ˚at av biologiska sk¨al. Vi cen- trerar d¨arf¨or de f¨orklarande variablerna f¨or att f˚a bort k¨onsskillnaderna som uppst˚ar, se Bilaga A Sektion2. Materialet med de alpina skid˚akarna anv¨ands fr¨amst f¨or att illustrera metoderna. Sedan g˚ar vi ¨over till det simulerade ma- terialet, Testdata. Vi har i b¨agge fallen b¨orjat med linj¨ar regression b˚ade utan och med bootstrap f¨or att sedan g˚a vidare med logistisk och ordinal logistisk regression. Eftersom vi fokuserar p˚a analysmetoden och inte p˚a sj¨alva resulta- tet f¨or det aktuella datamaterialet till˚ater vi oss att g¨ora antaganden som ¨ar tveksamma i praktiken. Till exempel har vi observationer fr˚an tv˚a olika tillf¨al- len vilket g¨or att vi har beroende observationer f¨or de alpina skid˚akarna. En undergrupp av b˚ade damer och herrar har valts ut till analyserna, n¨amligen de odda 1992. Vi bortser d¨armed fr˚an problemet med responsvariablerna, dvs. att observationerna kommer fr˚an olika rankinglistor f¨or k¨onen. Vi behandlar det som om det vore samma rankinglistor f¨or dem i samma ˚alderskategori. F¨or det simulerade materialet har vi anv¨ant oss av n˚agra olika stickprovsstorlekar och gjort liknande analyser som f¨or skid˚akarna.

4.1 Alpina skid˚akare

a det ¨ar v¨aldigt f˚a i varje grupp sammansl˚ar vi alla f¨odda 1992 till ett material dvs. b˚ade damer och herrar i samma analys. Vi tittar n¨armare p˚a de f¨odda 1992, or vilka vi fick veta fr˚an b¨orjan att viss korrelation mellan vikt och rankingen fr˚an december storslalom 2009 fanns, enligt resultat fr˚an idrottsmedicin. Det ¨ar denna ranking vi kommer att anv¨anda h¨adanefter i analyserna. Vid en f¨orsta titt a materialet var det ¨aven den enkla linj¨ara regressionsmodellen med ranking mot Vikt som gav det starkaste sambandet. Vi tittar ¨aven p˚a sambandet mellan ranking och Vikt respektive L¨angd, och d˚a speciellt om vi f˚ar en b¨attre model- lanpassning om vi ¨aven anv¨ander L¨angd i modellen, d˚a vikt och l¨angd har n¨ara biologiska samband. En tredje f¨orklarande variabel vi unders¨oker i kombination med de andra tv˚a ¨ar Testv¨arde. I Figur 1 ser vi hur de centrerade variablerna CVikt, CL¨angd och CTestv¨arde f¨orh˚aller sig mot Ranking.

(14)

M M

M M

M

M M

M

M

W

W

W

W W W W

W

W

W

W W W W

−5 0 5 10

5101520

CVikt

Ranking

M M M M

M

M M M

M W

W

W

W W

W W

W

W

W

W W

W W

−10 −5 0 5

5101520

CLängd

Ranking

M M M

M M

M M

M

M W

W

W

W W

W W W

W

W

W W W

W

−8 −4 0 2 4 6

5101520

CTestvärde

Ranking

Figur 1: Fr˚an v¨anster sett har vi f¨or de centrerade variablerna CVikt, CL¨angd och CTestv¨arde alla plottade mot Ranking, d¨ar W betecknar kvinna och M man.

Vi ser i alla tre plottarna en antydan till en indelning i tv˚a grupper, en undre och en ¨ovre grupp f¨or rankingen. Vi har i och f¨or sig tv˚a grupper d˚a vi har ade damer och herrar i datamaterialet vilket vi ser tecken p˚a d˚a vi tittar p˚a onsindelningen. Det ¨ar ingen skillnad i x-led f¨or m¨annen (M) och kvinnorna (W) d¨aremot i y-led d¨ar kvinnorna har l¨agre ranking ¨an m¨annen. D¨aremot om vi studerar Figur A.1i Appendix ser vi, n¨ar variablerna inte ¨ar centrerade, en indelning d¨ar kvinnorna hamnar mer till v¨anster i graferna och m¨annen mer till h¨oger. Det betyder att kvinnorna v¨ager mindre, de ¨ar kortare och visar p˚a agre syreupptagningsf¨orm˚aga per kg kroppsvikt j¨amf¨ort med m¨annen men d˚a vi v¨aljer att centrera variablerna ska detta ej p˚averka resultatet. Vi har valt att inte betrakta faktorn k¨on i analyserna utan ist¨allet se dem som individer fr˚an samma lista.

Linj¨ar regression. Vi b¨orjar med att anpassa en regressionsmodell f¨or ran- king mot CVikt, CL¨angd och CTestv¨arde f¨or de f¨odda 1992 vilket blir modell 1a.

Fr˚an residualanalysen ser vi en outlier som ligger nere till h¨oger i v¨anstra grafen i Figur 2. Vi ser samma outlier i normalitetsplotten till h¨oger i samma figur.

Denna plot visar ¨aven p˚a normalitet f¨or data d¨ar vi ej f¨orv¨antade normalitet d˚a vi har med ranger att g¨ora. Denna outlier ¨ar den f¨orsta observationen och om vi tittar i Tabell A.2ser vi en genomsnittsvikt f¨or m¨an p˚a 75.39 kg och l¨angd a 177.89 cm medan om vi tittar i Tabell A.1¨over den beskrivande statistiken or variablerna, innan de centreras, ser vi en genomsnittsvikt p˚a 70.97 kg och en angd p˚a 173.1 cm. Den observerade outliern ¨ar en man som motsvarar maxv¨ar- dena f¨or b˚ade Vikt och L¨angd, allts˚a 86 kg och 186 cm. Detta g¨or att outliern averkar parameterskattningarna mycket, d˚a han ¨ar b˚ade ca 15 kg tyngre och ca 13 cm l¨angre ¨an genomsnittet. ¨Aven d˚a vi tittar p˚a den beskrivande statisti- ken f¨or det centrerade datat i Tabell 1 motsvarar han fortfarande maxv¨ardena or b˚ade CVikt och CL¨angd. Det r¨acker inte med att variablerna har centre- rats. Han v¨ager ¨and˚a mer och ¨ar l¨angre ¨an genomsnittet s˚a pass mycket att parameterskattningarna p˚averkas starkt.

(15)

8 10 14

−10−50510

Fitted values

Residuals

Residuals vs Fitted

4

1 2

● ●

−2 −1 0 1 2

−2−1012

Theoretical Quantiles

Standardized residuals

Normal Q−Q

4

1

5

Figur 2: Diagnostikplottar f¨or linj¨ar regression f¨or modell 1a med CVikt, CL¨angd och CTestv¨arde mot Ranking.

Tabell 1: Beskrivande statistik f¨or Alpinvariablerna: CVikt, CL¨angd, CTestv¨arde och Ranking.

CVikt (kg) CL¨angd (cm) CTestv¨arde Ranking

Min. -7.12 -10.07 -8.22 2.00

1st Qu -2.12 -3.07 -0.93 7.00

Median -0.12 0.11 0.57 10.00

Mean 0.00 -0.00 -0.00 12.17

3rd Qu 1.74 2.93 1.17 18.00

Max. 10.61 8.11 5.78 24.00

I Tabell2 ser vi resultatet f¨or modell 1a d¨ar den anpassade modellen ¨ar:

y = 12.17 + 0.82 ∗ CVikt − 0.46 ∗ CL¨angd − 0.49 ∗ CTestv¨arde.

Vi ser att ingen av de tre f¨orklarande variablerna ¨ar signifikanta, vilket vi kan asa av fr˚an b˚ade konfidensintervallen och p-v¨ardena. Vi har ¨aven en v¨aldigt l˚ag orklaringsgrad p˚a 0.08.

ar vi pr¨ovar att ta bort outliern ser vi i Figur3or modell 1b en mer slump- assig f¨ordelning i den f¨orsta grafen. Vi har fortfarande n˚agra andra t¨ankbara outliers som visar sig, men de p˚averkar inte lika mycket som den f¨orsta ob- servationen gjorde. I Figur 3 orv¨antade vi oss inte heller att se normalitet i QQ-plotten d˚a vi har att g¨ora med rankingv¨arden. Fr˚an Tabell3 ser vi ¨aven allm¨ant l¨agre p-v¨arden hos variablerna (f¨orutom hos CTestv¨arde) och kortare konfidensintervall ¨an vad vi gjorde i Tabell 2 ar den f¨orsta ˚akaren var med.

Det justerade R2-v¨ardet visar ¨aven det en b¨attre f¨orklaringsgrad. Det ¨okar fr˚an 0.08 till 0.24 och CVikt har blivit signifikant.

References

Related documents

L˚ at y(t) vara andelen av populationen som ¨ar smittad efter tiden t dygn, r¨aknad fr˚ an uppt¨ack- ten... Observera att ¨amnets koncentration ¨ar samma som m¨angden av

Rutinen som anv¨ands f¨ or att definiera operatorn, kan ha antingen ett eller tv˚ a argument, men eftersom funktionen normalt definieras i samma modul som inneh˚

Implementera algoritmen och testk¨ or med n˚ agra funktioner. Utveckla en utbytesalgoritm f¨ or L ∞ approximering av 2π-periodiska kontinuerliga funktioner med trigonometriska

Man kan faktiskt g¨ora ett konfidensintervall f¨or medianen med konfidensgrad minst lika med 1 − α helt utan n˚ agra som helst antaganden om den bakom- liggande f¨ordelningen

Br¨ unhilde kan kontakta sin bank med hj¨ alp av sin mobil. Hon har en id´ e om hur hon kan spara pengar. Varje dag sent p˚ a kv¨ allen g˚ ar hon in p˚ a sitt konto och ¨ overf¨

Till exempel fick jag inte med n˚ agot Ljus- och Optikland i f¨ orsta f¨ ors¨ oket, och pilen mot Kosmologi, som ligger utanf¨ or den h¨ ar kartan, borde peka mer upp˚ at,

L¨ osningen till uppgift 2(b)(ii) fr˚ an provduggan Vi m˚ aste visa tv˚ a

Matematiska institutionen Stockholms