• No results found

Prediktion av proffsgolfares genomsnittscore på den amerikanska PGA-touren med hjälp av regressionsanalys

N/A
N/A
Protected

Academic year: 2021

Share "Prediktion av proffsgolfares genomsnittscore på den amerikanska PGA-touren med hjälp av regressionsanalys"

Copied!
60
0
0

Loading.... (view fulltext now)

Full text

(1)

INOM

EXAMENSARBETE TEKNIK, GRUNDNIVÅ, 15 HP

STOCKHOLM SVERIGE 2016,

Prediktion av proffsgolfares genomsnittscore på den

amerikanska PGA-touren med hjälp av regressionsanalys

ROBIN BORGMAN

AXEL HELLSTRÖM

(2)
(3)

Prediktion av proffsgolfares genomsnittscore på den amerikanska PGA-touren med hjälp av regressionsanalys

R O B I N B O R G M A N A X E L H E L L S T R Ö M

Examensarbete inom teknik: Tillämpad matematik och industriell ekonomi (15 hp) Civilingenjörsutbildning i industriell ekonomi (300 hp)

Kungliga Tekniska högskolan 2016 Handledare på KTH: Thomas Önskog, Jonatan Freilich Examinator: Henrik Hult

TRITA-MAT-K 2016:06 ISRN-KTH/MAT/K--16/06--SE

Royal Institute of Technology SCI School of Engineering Sciences KTH SCI

(4)
(5)

Sammanfattning

Detta kandidatexamensarbete unders¨okte hurvida proffsgolfares genomsnittsco- re p˚a den amerikanska PGA-touren kunde predikteras med hj¨alp av regres- sionsanalys. Data f¨or s¨asongerna 2011-2015 h¨amtades fr˚an PGA-Tourens hem- sida. I grundmodellen anv¨andes 19 kovariat f¨or att f˚anga upp s˚a m˚anga som m¨ojligt av golfens alla moment. Grundmodellen utv¨arderades och f¨orb¨attrades s˚a att den slutgiltiga modellen reducerades p˚a ett av de ursprungliga kovaria- ten. Tillf¨orlitlighet, relevans och anv¨andbarhet utreddes och diskuterades. Den slutgiltiga prediktionsmodellen hade en justerad f¨orklaringsgrad p˚a 70.9% och β-koefficienter som samtliga hade entydig och f¨orv¨antad riktningsp˚averkan p˚a genomsnittscoren. D¨armed ans˚ags slutmodellen anv¨andbar f¨or prediktion av ge- nomsnittscore. De olika slagkategorierna m¨ats i olika enheter, vilket gjorde det sv˚arare att direkt svara p˚a olika delars relativa inverkan. Detta till trots kunde slutsatser dras att ruffinspel kr¨aver st¨orre marginell f¨orb¨attring ¨an fairwayinspel och att relativt sm˚a f¨orb¨attringar inom puttkategorierna minskar genomsnittsco- ren m¨arkbart.

Arbetet analyserade ocks˚a en teknologisk transformation inom golfen, n¨amligen multi-komponentbollen. Statistik fr˚an PGA-touren anv¨andes f¨or att unders¨oka hurvida olika prestationsm¨assiga m¨onster kunde tydas som en effekt av multi- komponentbollens genomslag p˚a touren. Analysen visade en tydlig ¨okning i ut- slagsl¨angd, utan m¨arkbara f¨ors¨amringar av andra delar inom spelet. Slutsatsen drogs att multi-komponentteknologin var en radikal innovation i en arkitektuell dimension. D¨artill utv¨arderades och konstaterades att multi-komponentteknologin kunde klassas som ett teknologiskt sp˚ar inom paradigmet f¨or golfbollstillverk- ning.

(6)

Abstract

This bachelor thesis examined if the average score of proffesional golf players on the PGA-tour could be predicted by the tools of regression analysis. Data was collected from the seasons 2011-2015 from PGA-tours webpage. In the original model 19 covariates were used to describe as many as possible of all the different elements in the game. The model was evaluated and improved so that the final model was reduced by one of the original covariates. The reliability, relevence and usability of the final model was investigated and discussed. The final model had an adjusted effect size of 70.9% and β-coefficients that all had the expected relationship to the average score, in terms of direction. Hence the model was determined to be useful for the prediction of PGA-tour players average score.

Different types of shots were measured in different units which meant that any direct conclusion on their relative importance were difficult to draw. Despite this it was concluded that approach shots from the rough required a greater marginal improvement relative to the approach shots from the fairway. Also small procentage improvements in putting was conlcuded to reduce the average score noticeable.

The thesis also analyzed a technological transformation in golf, namely the intro- duction of the multi-component ball. Statistics from the PGA Tour was used to investigate whether various performance-related patterns could be interpreted as an effect of multi-component ball’s intorduction on the tour. The analysis showed a clear increase in driving distance, without significant loss in other parts of the game. It was concluded that multi-component technology was a radical innovation in an architectural dimension. In addition to this the multi- component technology was evaluated and established as a technological track in the paradigm for golf ball manufacturing.

(7)

Inneh˚ all

1 Introduktion 6

1.1 Bakgrund . . . 6

1.2 Problemformulering . . . 6

1.2.1 Fr˚agest¨allning . . . 6

1.3 Syfte . . . 7

2 Teori 7 2.1 Golfteori . . . 7

2.1.1 F¨orklaring av spelet . . . 7

2.1.2 Utrustning . . . 8

2.1.3 Ordlista . . . 9

2.2 Linj¨ar regression . . . 10

2.2.1 Introduktion . . . 10

2.2.1.1 Homoskedasticitet . . . 10

2.2.1.2 Heteroskedasticitet . . . 10

2.2.2 Klassiska antaganden . . . 10

2.2.3 Ordinary Least Square-metoden(OLS) . . . 11

2.2.4 Antaganden f¨or OLS . . . 12

2.2.5 Tolkning av resultat . . . 12

2.2.5.1 Konfidensintervall . . . 12

2.2.5.2 F¨orklaringsgrad och R2 . . . 13

2.2.5.3 Akaike (AIC) . . . 13

2.2.5.4 P-v¨arde . . . 14

2.2.5.5 t-test . . . 14

2.2.5.6 F-test . . . 15

2.2.6 Problem vid linj¨ar regression . . . 15

2.2.6.1 Multikollinearitet . . . 15

2.2.6.2 Endogeniety . . . 16

2.2.7 Tester . . . 17

2.2.7.1 Breusch-Pagan test . . . 17

2.2.7.2 Normalplot . . . 17

2.2.7.3 Residualplot . . . 18

2.2.7.4 Variance Inflation Factor (VIF) . . . 18

3 Metod 19 3.1 Datainsamling . . . 19

3.2 Val av spelare . . . 19

3.3 Val av kovariat . . . 19

3.4 Genomf¨orande av regression . . . 21

3.4.1 Test av antaganden . . . 21

3.4.2 Test av modell . . . 21

3.4.3 F¨orb¨attring av modell . . . 22

(8)

4 Resultat 23

4.1 Grundmodellen . . . 23

4.1.1 Sammanfattning . . . 23

4.1.2 Konfidensintervall . . . 24

4.1.3 Akaike . . . 25

4.1.4 F¨orklaringsgrad och F-v¨arde . . . 26

4.2 Reducerade modellen . . . 27

4.2.1 Test av antaganden . . . 27

4.2.1.1 Multikollinearitet . . . 27

4.2.1.2 Homoskedasticitet . . . 27

4.2.1.3 Normalf¨ordelade residualer . . . 28

4.2.2 Sammanfattning . . . 29

4.2.3 Konfidensintervall . . . 30

4.2.4 Akaike . . . 31

4.2.5 F¨orklaringsgrad och F-v¨arde . . . 32

5 Analys 32 5.1 Utv¨ardering av modell . . . 32

5.2 Diskussion . . . 34

5.3 Brister . . . 35

5.3.1 F¨orb¨attringsm¨ojligheter . . . 36

6 Industriell ekonomi till¨ampning 37 6.1 Reglement . . . 37

6.2 Utveckling av golfbollsteknologi . . . 38

6.2.1 Multikomponentbollens teknologi . . . 39

6.3 Till¨ampning teknologisk transformation golfbollen . . . 40

6.3.1 Dimensioner av innovation . . . 40

6.4 Matematisk teori . . . 41

6.4.1 Welch t-test . . . 41

6.5 Metod . . . 42

6.5.1 Datainsamling . . . 42

6.5.2 Val av kategorier . . . 42

6.5.3 J¨amf¨orelsetal . . . 43

6.5.4 Statistisk signifikans . . . 43

6.6 Resultat . . . 43

6.6.1 Signifikans . . . 45

6.6.2 Genomsnittsscore . . . 45

6.6.3 Driverdistans . . . 45

6.6.4 Driverprecision . . . 45

6.6.5 Greentr¨affar . . . 45

6.6.6 Scrambling . . . 45

6.6.7 Puttning . . . 46

6.7 Diskussion . . . 46

6.7.1 Tillf¨orlitlighet . . . 47

6.8 Analys . . . 48

(9)

6.8.1 Teknologiskt paradigm och sp˚ar . . . 48 6.8.2 Andrahandsf¨ordelar . . . 50

7 Slutsats 51

1 Introduktion

1.1 Bakgrund

Inom den professionella golfen, framf¨orallt p˚a den allra h¨ogsta niv˚an, har till¨amp- ning av statistik v¨axt[1]. Speciellt i USA har statistiken blivit ett vanligt verk- tyg f¨or experter och spelare vid analys av spelet. P˚a senare ˚ar har den tekniska utvecklingen skapat f¨oruts¨attningar att till st¨orre grad ¨an tidigare m¨ata olika kategorier av slag. Idag registrerar PGA-touren statistik f¨or de cirka 200 spelare som t¨avlar under en s¨asong ¨over samtliga cirka 50 t¨avlingar som spelas. D¨artill existerar fler ¨an 100 olika kategorier av statistik, vilket medf¨or att tillg˚angen p˚a data ¨ar god.

Vid granskning av en specifik spelare ¨ar det vanligt att titta p˚a de olika statis- tiska f¨ardigheterna som denne uppn˚ar. Det kan innefatta hur l˚angt en spelare sl˚ar, hur n¨ara flaggan han kommer fr˚an olika avst˚and, vilken precision han har vid n¨arspelsslag kring greenerna eller hur effektiv han ¨ar n¨ar det kommer till att f˚a bollen i h˚al med puttern. Utifr˚an en s˚adan analys kan slutsatser dras ang˚aende vilka delar av spelet som b¨or ses som spelarens styrkor och vilka som

¨ar svagheter.

1.2 Problemformulering

Sett till golfens olika delar kan statistiken som spelarna har tillg˚ang till ge feed- back p˚a vad tr¨aning inom olika omr˚aden ger f¨or resultat. Dessutom kan spelare och tr¨anare identifiera svagheter som beh¨over f¨orb¨attras f¨or att utveckla den individuella f¨orm˚agan. Hur en f¨orb¨attrad del i spelet faktiskt p˚averkar helhets- resultatet, scoren, finns det d¨aremot inga vedertagna verktyg f¨or idag.

1.2.1 Fr˚agest¨allning

Ar det m¨¨ ojligt att med regressionsanalys skapa en modell som beskriver hur ge- nomsnittscoren kan f¨orklaras fr˚an statistisk data ¨over olika typer av slag?

(10)

1.3 Syfte

Syftet med arbetet ¨ar att unders¨oka om man med hj¨alp av linj¨ar regression med god precision kan prediktera ett resultat utifr˚an statistiska egenskaper.

En regressionsmodell kan p˚a s˚a s¨att indikera vad en f¨orb¨attring inom en viss statistisk kategori har f¨or inverkan p˚a genomsnittsscoren. S˚aledes kan modellen anv¨andas av professionella spelare och deras tr¨anare i arbetet och planering mot att f¨orb¨attra prestation och resultat.

2 Teori

2.1 Golfteori

2.1.1 F¨orklaring av spelet

Golf ¨ar en individuell sport d¨ar en spelare ska ta sig runt 18 olika banor genom att sl˚a s˚a f˚a slag som m¨ojligt. Man anv¨ander sig av klubbor f¨or att sl˚a en boll som ¨ar 42.67 mm i diameter[2]. Meningen med spelet ¨ar att man p˚a varje bana b¨orjar fr˚an en markerad utslagsplats och sedan upprepade g˚anger sl˚ar den stillaliggande bollen f¨or att f˚a den i ett h˚al som ¨ar 10.8 cm i diameter. N¨asta slag sl˚as d¨arifr˚an det f¨oreg˚aende slaget hamnade, f¨orutom det f¨orsta slaget som alltid utf¨ors ifr˚an utslagsplatsen.

En bana brukar kallas f¨or ett golfh˚al, och n¨ar man anv¨ander uttrycket golfbana syftar man p˚a alla de 18 h˚alen tillsammans. Ett golfh˚al har olika spelytor med gr¨as klippt till olika h¨ojder. Dessutom f¨orekommer hinder i form av vatten och bunkrar, sandfyllda ytor. Greenerna ¨ar omr˚aden d¨ar de faktiska h˚alen ¨ar place- rade, gr¨aset ¨ar kortklippt f¨or att man p˚a dessa ytor ska kunna rulla bollen mot h˚alet. Utslagplatsen kallas f¨or tee och best˚ar ocks˚a av relativt kortklippt gr¨as.

Mellan tee och green finns fairway, ruff och ovann¨amnda hinder. Fairway ¨ar den huvudsakligen tillt¨ankta spelytan d¨ar det ¨ar l¨attast att kontrollera sina slag ifr˚an. Gr¨aset ¨ar kortklippt och det ¨ar denna spelyta en spelare f¨ors¨oker tr¨affa d˚a greenen inte ¨ar n˚abar. Fairway g˚ar ofta hela v¨agen fram till greenen och t¨acker dessutom en smal remsa runt densamma. Bredvid fairway finns ruffen.

Denna best˚ar av h¨ogre gr¨as vilken g¨or att kontakten mellan boll och klubba blir sv˚arare att kontrollera. Ruff kan ha olika klipph¨ojder och det ¨ar vanligt att den stegvis blir h¨ogre ju l¨angre ifr˚an fairway du kommer. H¨ogre gr¨as inneb¨ar mindre kontroll i slagen vilket s˚aledes medf¨or att precision fr˚an tee premieras. Hinder som bunkrar och vattenhinder kan vara placerade b˚ade vid greenerna eller vid tillt¨ankta tr¨affytor l¨angs med h˚alet. Ur en bunker kan man sl˚a bollen men ur vattenhinder f˚ar man vanligtvis placera ut en ny boll, droppa, och addera ett pliktslag till scoren.[3]

P˚a de allra flesta golfbanor finns det tre olika typer av golfh˚al. Dessa karakteri-

(11)

seras av sitt PAR-v¨arde som indikerar hur m˚anga slag h˚alet ¨ar designat f¨or att kr¨ava. De vanligaste PARen ¨ar 3,4 och 5. PAR 3 h˚al ¨ar designade f¨or att fr˚an tee kunna n˚a till green med ett slag, PAR 4 kunna n˚a med tv˚a slag och PAR 5 kunna n˚a med tre slag. N¨ar man lyckats ta sig till greenomr˚adet ¨ar det t¨ankt att beh¨ova 2 slag f¨or att f˚a bollen i h˚alet.

2.1.2 Utrustning

Inom sporten finns det olika typer av klubbor som anv¨ands av en spelare. Under en golfrunda ¨ar det till˚atet att anv¨anda sig av 14 stycken olika klubbor. Dessa skiljer sig i design, och generellt g¨aller att klubbor som anv¨ands f¨or l¨angre slag har l¨angre skaft och l¨agre loft. Tv¨artom f¨or korta slag. De olika typerna av klubbor har olika egenskaper och dessa beskrivs var f¨or sig nedan:

• Driver ¨ar den klubban som vanligtvis g˚ar l¨angst. Den anv¨ands ofta bara som utslagsklubba fr˚an tee. Den har ett l˚angt skaft och ett huvud som ¨ar stort och avrundat baktill.

• Fairway woods kan f¨orekomma flera i en spelares klubbupps¨attning. Liknar drivern men har mindre huvud, mer loft och vanligtvis kortare skaft. Dessa kan anv¨andas b˚ade f¨or utslag eller f¨or slag in mot greenen. ¨Ar vanligtvis de klubbor som g˚ar l¨angst efter drivern. De mindre huvudena och ¨okade loften g¨or att de ¨ar enklare att anv¨anda fr˚an l¨agen d˚a bollen ligger p˚a gr¨aset, ist¨allet f¨or uppeggad som den g¨or vid driverutslag.

• J¨arnklubbor ¨ar de klubbor som f¨orekommer i st¨orst antal i klubbupps¨attni- ngen. Dessa ¨okar gradvis i loft och minskar i l¨angd f¨or att de skall anv¨andas f¨or slag fr˚an olika distanser. Klubborna anv¨ands mestadels f¨or inspel till greenerna.

• Hybrider ¨ar en relativt ny innovation. De ¨ar byggda som en blanding av j¨arnlubbor och fairway woods och f¨orenklar ¨overg˚angen mellan dessa tv˚a klubbsorter. Hybriderna ers¨atter ofta l˚agt loftade j¨arnklubbor d˚a de med sina st¨orre huvuden ¨ar l¨attare att sl˚a med.

• Wedgar ¨ar v¨aldigt lika j¨arnklubborna men har kortare skaft och ¨ar de klubbor med mest loft i klubbhuvudena. Dessa anv¨ands till fulla slag fr˚an kortare distanser och till n¨arspelslagen som chippar och bunkerslag.

• Putter ¨ar vanligtvis den kortaste klubban i upps¨attningen men ocks˚a den med minst loft, bara n˚agra enstaka grader. Den anv¨ands f¨or att sl˚a rullande slag p˚a greenerna och f¨ors¨oka f˚a bollen i h˚alet. Puttern ¨ar vanligtvis den klubba som anv¨ands flest g˚anger under en golfrunda. [4]

(12)

2.1.3 Ordlista

Ordlista med golftermer som anv¨ands i rapporten.

Bollflykt : Hur bollen flyger.

Bollhastighet : Bollens hastighet direkt efter bolltr¨aff.

Bunker : Hinder i form av sandfylld spelyta.

Chip: Typ av slag som anv¨ands n¨ar bollen befinner sig n¨ara greenen p˚a gr¨as.

Green: Den kortklippta spelytan d¨ar h˚alet befinner sig.

Greenomr˚ade: Spelytan som omringar greenen. H¨ar anv¨ands n¨arspelsslag.

Inspel : Ett fullt slag som anv¨ands n¨ar man ska f¨ors¨oka tr¨affa greenen.

Loft : Klubbhuvudets vinkel i f¨orh˚allande till marken.

N¨arspel : Slagen som anv¨ands n¨ara och p˚a greenen. Inkluderar puttar, chippar och bunkerslag.

Pliktslag: Strafflag som adderas till scoren utan att ett faktiskt slag har utf¨orts.

F¨orekommer vid regelbrott eller n¨ar man hamnat i ett l¨age som man inte kan sl˚a ifr˚an, exempelvis i ett vattenhinder.

Putt : Typ av slag som anv¨ands p˚a greenen f¨or att rulla bollen mot h˚alet.

Ruff : Spelytan som omringar fairway och greener, gr¨aset ¨ar l¨angre och slag sv˚arare att kontrollera.

Runda: En hel spelomg˚ang, 18 spelade h˚al.

Score: Antalet slag. Kan antingen vara p˚a ett enskilt h˚al eller f¨or en hel runda.

Spinn: Bak˚atskruv p˚a bollen som uppst˚ar vid golfslag, f˚ar bollen att stanna snabbt efter landning.

Svinghastighet(Klubbhastighet): Hastighet p˚a klubban vid bolltr¨affen.

Tee: Utslagsplats p˚a varje h˚al.

Utslag: F¨orsta slaget p˚a ett h˚al fr˚an Tee.

(13)

2.2 Linj¨ ar regression

2.2.1 Introduktion

Regressionsanalys ¨ar en statistisk metod som anv¨ands f¨or att skapa en modell som beskriver data s˚a bra som m¨ojligt. M˚alet ¨ar att beskriva relationen mel- lan responsvariabeln Y och kovariaten X1, ..., Xk. Kovariaten f¨orklarar v¨ardet p˚a responsvariablen till en viss grad, och skillnaden mellan utfallet och det f¨orklarade v¨ardet f˚angas upp i en residual term ei. Modellen f¨or linj¨ar regres- sion ¨ar

Y = Xβ + e (1)

Y =

 y1 y2 . . . yn

, X =

1 x1,1 x1,2 . x1,k 1 x2,1 x2,2 . x2,k

. . . . .

. . . . .

. . . . .

1 xn,1 xn,2 . xn,k

 , β =

 β0 β1 . . . βk

 , e =

 e1 e2 . . . en

 β ¨ar ok¨anda parameterv¨arden tillh¨orande respektive kovariat som estimeras fr˚an datan. Kovariaten anses vara f¨orutbest¨amda medan residualen ¨ar en oberoende slumpvariabel. Vid modellering kan residualen antingen antas vara homoskedas- tisk eller heteroskedastisk.[5]

2.2.1.1 Homoskedasticitet

Homoskedasticitet inneb¨ar att residualerna har samma varians. Det ¨ar ett van- ligt antagande och f¨orenklar ber¨akningar. [5]

E[ei] = 0, E[e2i] = σ2

2.2.1.2 Heteroskedasticitet

Heteroskedasticitet inneb¨ar att residualernas varians skiljer sig ˚at. Vid model- lering b¨or heteroskedasticitet vara det naturliga antagandet. D¨aremot f¨orsv˚arar hetroskedasticitet ber¨akningen av kovariansmatrisen och d¨arf¨or f¨ors¨oker man undvika att anta heteroskedasticitet genom att formulera modellen s˚a att resi- dualernas har samma varians, homoskedasticitet. [5]

2.2.2 Klassiska antaganden

Linj¨ar regression grundar sig p˚a en rad antaganden.

(14)

1. Responsvariabeln ¨ar linj¨art beroende av kovariaten 2. Kovariaten ¨ar f¨orutbest¨amda

3. Residualerna ¨ar slumpvariabeler utan beroende mellan observationer s˚a att E[ei] = 0,E[e2i] = σ2i och E[e2i] < ∞

4. σ2i ¨ar ok¨and [5]

2.2.3 Ordinary Least Square-metoden(OLS)

OLS-metoden ¨ar en v¨antev¨ardesriktigt metod f¨or estimation av βi:s. De estime- rade ˆβ erh˚alls genom att minimera skillnaden mellan det observerade Y-v¨ardet och modellens Y-v¨arde i kvadrat, |ˆe|2 . Detta uppn˚as genom att l¨osa norma- lekvationerna:

XTˆe = 0 (2)

Fr˚an (1) och (2) erh˚alls att:

β = (Xˆ TX)−1XTY (3)

Vidare s˚a ¨ar

β = (Xˆ TX)−1XT(Xβ + e) = β + (XTX)−1XTe (4)

Som medf¨or att ˆβ ¨ar en v¨antev¨ardesriktig estimation av β

E[ ˆβ] = β (5)

Kovariansmatrisen f¨or ˆβ ges av:

Cov( ˆβ) = E[( ˆβ − β)( ˆβ − β)T] = (XTX)−1XTD(ˆe2i)X(XTX)−1 (6)

C ˆov( ˆβ) = n

n − k − 1(XTX)−1XTD(ˆe2i)X(XTX)−1 (7)

Vid homoskedasticitet ¨ar OLS-metoden BLUES, “Best Linear Unbiased Estima- tor”. Vid fall av heteroskedasticitet ¨ar OLS-metoden ineffektiv och inte BLUES.

OLS-metoden generar dock fortfarande v¨antev¨ardesriktiga och konsistenta esti- mationer av regressionskoefficienterna[6]. Det finns estimationer som asympto- tiskt och teoretiskt ¨ar b¨attre ¨an OLS vid heteroskedasticitet. Dessa ¨ar dock inte lika robusta som OLS, d¨arf¨or ¨ar OLS-metoden i praktiken det b¨asta valet ¨aven vid heteroskedasticitet.[5]

(15)

2.2.4 Antaganden f¨or OLS

F¨or att kunna tilll¨ampa OLS-estimation kr¨avs att antagande 1-4 uppfylls. Anta- gande 5-6 kr¨avs f¨or dra statistikt s¨akerst¨allda slutsatser fr˚an OLS-estimationen.

1. Residualerna har v¨antev¨ardet noll, E[ei] = 0, f¨or alla i = 1, 2, ..., n.

2. Residualerna har samma varians, homoskedisticitet. V AR(ei) = σ2, f¨or alla i = 1, 2, ..., n.

3. Residualerna ¨ar inte korrelerade, E[eiej] = 0, f¨or j 6= i f¨or i, j = 1, 2, ..., n.

4. Kovariaten ¨ar f¨orbest¨amda, fixa i repeterade samplar och d¨armed ej kor- relerade med residualerna.

D¨artill m˚aste

n

P

i=1 x2i

n 6= 0 samt anta ett ¨andligt v¨arde n¨ar n → ∞

5. Residualerna ei¨ar oberoende samt N (0, σ2) f¨ordelade. Kr¨avs f¨or att h¨arleda β-v¨ardernas f¨ordelning samt andra statistika, bland annat konfidensinter- vall, F-test och t-test.

6. Ingen perfekt multikollinearitet(se 2.2.6.1), de beroende variablerna ¨ar in- te perfekt korrelerade med varandra. Kr¨avs f¨or att OLS-estimation ska generera unika β-v¨arden.

[6]

2.2.5 Tolkning av resultat

F¨or att tolka resultatet fr˚an en linj¨ar regression finns det olika metoder. Meto- derna baseras p˚a kontroll av olika parameterv¨arden. Parameterv¨ardena kan indi- kera hur tillf¨orlitligt resultatet ¨ar genom att identifiera brister och f¨orb¨attrings- m¨ojligheter.

2.2.5.1 Konfidensintervall

Konfidensintervall synligg¨or m¨ojliga v¨arden f¨or β-konstanterna inom en given konfidensniv˚a. Intervallen kan anv¨andas f¨or att unders¨oka nollhypoteser. En nollhypotes inneb¨ar ofta att inverkan fr˚an ett kovariat p˚a responsvariabeln sak- nas. Ett s˚adant kovariat skulle medf¨ora att tillh¨orande β ¨ar lika med noll. Vid fall d˚a konfidensintervallet f¨or en β-parameter inkluderar noll, kan nollhypotesen inte f¨orkastas p˚a den unders¨okta konfidensniv˚an. Vid andra fall, n¨ar intervallen

¨ar strikt positiva eller strikt negativa, kan nollhypotesen f¨orkastas. Inom den unders¨okta konfidensniv˚an kan ¨aven kovariatets riktningsp˚averkan p˚a respon- svariabeln fastst¨allas.[5]

(16)

Ett konfidensintervall p˚a niv˚an 1 − α ges av:

βˆj±p

Fα(1, n − k − 1)SE( ˆβj) (8) D¨ar Fα(1, n − k − 1) ¨ar α -kvantilen f¨or en F-f¨ordelning med 1 frihetsgrad i t¨aljaren och n − k − 1 frihetsgrader i n¨amnaren. SE( ˆβj) ¨ar den estimerade standardavvikelsen f¨or ˆβj

n = antalet observationer k = antalet kovariat

2.2.5.2 F¨orklaringsgrad och R2

R2 ¨ar ett m˚att p˚a hur bra data passar en modell. R2 kan definieras som den relativa skillnaden mellan summan av residualerna i kvadrat vid regression p˚a Y med alla kovariat och regression p˚a Y med endast sk¨arningspunktsv¨ardet, β0.

Definition:

R2= |ˆe|2− |ˆe|2

|ˆe|2 (9)

ˆe ¨ar residualen f¨or en full regressionsmodell.

ˆ

e¨ar resiudalen f¨or en regressionsmodell med enbart sk¨arningspunkten(intercept).

2 ¨ar justerad f¨or antalet frihetsgrader. Det justerade ¯R2 ¨ar alltid mindre ¨an R2. F¨ordelen med ¯R2¨ar att den minskar vid till¨agg av kovariat utan substantiell p˚averkan p˚a responsvariabeln.

F¨orklaringsgrad kan ¨aven generaliseras och till¨ampas vid regression p˚a Y med alla kovariat samt vid regression p˚a Y med endast ett f˚atal kovariat borttagna.

Vid fall d¨ar endast ett kovariat tagits bort i den reducerade modellen definieras f¨orklaringsgraden som η2(eta-squared).

η2=|ˆe∗∗|2− |ˆe|2

|ˆe∗∗|2 (10)

ˆ

e∗∗¨ar residualen f¨or en regressionsmodell d¨ar ett kovariat exkluderats. [5]

2.2.5.3 Akaike (AIC)

Akaike Information Criterion(AIC) ¨ar ett test som kan utf¨oras vid utv¨ardering av kovariat till en regressionsmodell. AIC testar informationsf¨orlusten som upp- st˚ar i en given modell. Testet kan anv¨andas genom att j¨amf¨ora AIC-v¨ardet fr˚an den fulla och flera reducerade modeller, d¨ar vissa kovariat har eliminerats. AIC- v¨ardet beskriver informationsf¨orlusten av en modell i relation till den “sanna”

(17)

modellen. Vid AIC-test vill man v¨alja den modell som minimerar AIC v¨ardet, eftersom det minimerar informationsf¨orlusten.

Metoden kan inte svara p˚a hur modellen b¨or se ut, bara ge svar p˚a vilken av flera modeller som har den minsta f¨orv¨antade informationsf¨orlusten.

Vid ett AIC-test v¨aljer man den modell som minimerar:

AIC = nln(|ˆe|2) + 2k (11)

d¨ar n ¨ar antalet observationer och k antalet kovariat.

∆AIC = AICF U LL− AICREDU CERAD (12) Om ∆AIC > 0 ger den reducerade modellen upphov till en mindre informa- tionsf¨orlust och ¨ar s˚aledes att f¨oredra. [5]

2.2.5.4 P-v¨arde

P-v¨ardet definieras som sannolikheten f¨or ett minst lika extremt utfall givet att nollhypotesen ¨ar sann. D˚a P-v¨ardet ¨ar en sannolikhet ligger v¨ardet mellan 0 och 1. Ett l˚agt v¨arde indikerar att nollhypotesen ¨ar felaktig och b¨or f¨orkastas. Hur l˚agt P-v¨arde som kan accepteras f¨or att nollhypotesen inte b¨or f¨orkastas beror p˚a vilken konfidensniv˚a som till¨ampas. P˚a 95% niv˚a accepteras P-v¨arden mindre

¨an 0.05 och p˚a 97.5% accepteras ett v¨arde p˚a 0.025 och s˚a vidare. [6]

2.2.5.5 t-test

Ett test av nollhypotesen, H0 : βj = β0. β0 antas vara ett specifikt v¨arde, i denna rapport 0, och test-v¨arde erh˚alls fr˚an

T =

βˆj− β0

SD( ˆβj) (13)

som j¨amf¨ors med en t-f¨ordelning med n − k frihetsgrader.

P-v¨ardet f¨or nollhypotesen ¨ar P r(t(n − k − 1) > T ) k ¨ar antalet kovariat

n ¨ar antalet observationer [5][6]

(18)

2.2.5.6 F-test

Testar nollhypotesen att ett eller flera av β-koefficienterna ¨ar lika med 0. βi = βj = ... = βm= 0

Ett F-v¨arde erh˚alls fr˚an

F = 1

r( ˆβ2TV−1βˆ2) (14) D¨ar F-v¨ardet approximativt ¨ar F (r,n−k−1)-f¨ordelad under nollhypotesen.

βˆ2 ¨ar en vektor med de estimerade koefficienter som testas, i denna rapport samtliga f¨orutom sk¨arningspunkten.

r ¨ar antalet koefficienter i β2, antalet koefficienter som testas f¨or nollhypote- sen.

V ¨ar den del av den estimerade kovariansmatrisen som tillh¨or de r-stycken β- koefficienterna

k ¨ar antalet kovariat n ¨ar antalet observationer

P-v¨ardet f¨or nollhypotesen ¨ar P r(F (r, n − k − 1) > F ) [5]

2.2.6 Problem vid linj¨ar regression

Vid linj¨ar regression finns det ett antal potentiella problem som kan uppst˚a och b¨or beaktas.

2.2.6.1 Multikollinearitet

Perfekt multikollinearitet inneb¨ar att ett kovariat ¨ar linj¨art beroende av ett eller flera av de andra kovariaten. Det medf¨or att det finns flera parameterl¨osningar f¨or β-konstanterna f¨or dessa kovariat. Ett klassiskt exempel p˚a perfekt multi- kollinearitet ¨ar modellering som inkluderar tv˚a variabler som ger samma infor- mation, en dummyvariabel f¨or att vara man och en f¨or att vara kvinna. B¨agge kovariaten ger samma information. Att inte vara man och att vara kvinna ¨ar ekvivalent. Vid s˚adana situationer ¨ar l¨osningen att exkludera en av dessa vari- abler.

En mer vanligt f¨orekommande variant av multikollinearitet inneb¨ar att ˚atminst- one ett av kovariaten ¨ar starkt korrelerad med en linj¨arkombination av andra kovariat. Det medf¨or att standardfelet f¨or ˚atminstone ett av kovariaten blir v¨aldigt stor, och s˚aledes genererar en mer os¨aker estimation av parameterv¨ardet.

(19)

Standardfelen minskar med ¨okat antal observationer, och d¨arf¨or blir multikolli- nearitet ofta ett problem vid f¨or f˚a datapunkter.

Ett vanligt exempel p˚a den senare typen av multikollinearitet ¨ar att inkludera ett kovariat f¨or ˚alder och ett annat f¨or ˚ar av arbetserfarenhet, som uppenbart

¨ar starkt korrelerade.[5]

2.2.6.2 Endogeniety

Endogeneity uppst˚ar n¨ar residualen ¨ar beroende av ett eller flera av kovaria- ten. Det medf¨or att det f¨orv¨antade v¨ardet av residualen inte ¨ar lika med noll, E[ei] 6= 0, vilket mots¨ager ett grundl¨aggande antagande. Endogeniety ¨ar endast ett problem n¨ar regressionens syfte ¨ar att g¨ora en strukturell analys av parame- terv¨arden i modellen. Endogeneity kan uppst˚a av flera olika anledningar men problemet resulterar alltid i oprecisa estimat.[5]

Nedan beskrivs tre m¨ojliga orsaker till endogeniety.

1. Sample selection bias ¨ar ett samlingsnamn f¨or de felaktigheter i data som kan uppkomma vid urvalet. Felaktigheterna kan uppst˚a av tv˚a olika sk¨al. Det kan antingen vara p˚agrund av val av dem som blir unders¨okta, self selection bias. Alternativt som en konsekvens av felaktigheter gjorda av analytikern vid valet av datapunkter.

2. Saknade kovariat. I vissa fall kan residualens beroende av kovariaten h¨arledas fr˚an avsaknad av ett relevant kovariat. Problemet kan illustreras genom en regression p˚a bilpris med br¨anslef¨orbrukning som kovariat. L˚ag br¨anslef¨orbrukning ¨ar ett positivt attribut och b¨or d¨arf¨or h¨oja bilpriset.

Men om regressionen ger en negativ p˚averkan av br¨anslef¨orbrukning p˚a bilpriset kan f¨orklaringen ˚aterfinnas i residualen. H¨astkrafter i bilmotorn har ocks˚a positiv p˚averkan p˚a bilpriset. Fler h¨astkrafter medf¨or d¨aremot

¨aven en ¨okning av br¨anslef¨orbrukningen. S˚a p˚averkan av h¨astkrafterna ligger i residualen som ¨ar korrelerad med br¨anslef¨orbrukningen. L¨osningen i ett s˚adant fall inneb¨ar att inkludera h¨astkrafterna som ett kovariat.

3. Simultaneity inneb¨ar att ett eller flera av kovariaten X influeras av den beroende variablen Y. Vidare att det finns ett samband mellan n˚agot eller n˚agra av kovariaten och den beroende variabeln som g˚ar i b˚ada riktning- arna.

Ett typiskt exempel p˚a detta ¨ar brottslighet och antalet poliser inom ett omr˚ade. D¨ar h¨og brottslighet leder till fler poliser. Fler poliser leder till att brottsligheten minskar, sambandet g˚ar i b˚ada riktningarna.

[5]

(20)

2.2.7 Tester

2.2.7.1 Breusch-Pagan test

Breusch-Pagan ¨ar ett vanligt f¨orekommande test f¨or linj¨ar heteroskedasticitet.

Testet anv¨ander ett test-v¨arde f¨or nollhypotesen homoskedasticitet. F¨or nollhy- postesen tas ett P-v¨arde fram.

Detta sker genom att en OLS estimation av kovariatens β-v¨arden genomf¨ors.

Yi= Xβ +  (15)

D¨arefter f˚as modellens predikterade Y-v¨arden( ˆY ) genom.

Y = X ˆˆ β (16)

Vidare g¨ors en OLS estimation p˚a

ˆ

2= δ0+ ˆY δ1+ ¯ (17)

Fr˚an modellens R2-v¨arde erh˚alls ett test-v¨arde fr˚an

nR2∈ χ2(k) (18)

Frihetsgraderna f¨or χ2-testet ¨ar antalet kovariat, k. Fr˚an χ2-testet erh˚alls ett P-v¨arde. Om P-v¨ardet ¨ar l¨agre ¨an signifikansniv˚an α kan nollhypotesen om homoskedasticitet f¨orkastas.

P-v¨arde ¨ar P r(χ2(k) > nR2) [7]

2.2.7.2 Normalplot

Normalplot ¨ar en ¨ar en grafisk metod f¨or verifikation av antagandet om nor- malf¨ordelade residualer. En normalplot j¨amf¨or de storleksordnade residualer- na fr˚an data gentemot de f¨orv¨antade storleksordnade v¨ardena fr˚an en nor- malf¨ordelning, N (0, σ2). Ett linj¨art m¨onster i grafen tyder p˚a att residualerna

¨ar normalf¨ordelade.

[8]

(21)

2.2.7.3 Residualplot

F¨or att unders¨oka om heteroskadasticitet ¨ar n¨arvarande i modellen kan residu- alplottar granskas. Residualerna plottas antigen gentemot den oberoende vari- abeln eller mot n˚agon av de beroende variablerna. Om punkterna i plottarna inte p˚avisar ett tydligt m¨onster kan residualernas varians antas vara konstant, modellen ¨ar homoskedastisk. Om d¨aremot ett m¨onster upptr¨ader bland punk- terna i plotten kan residualernas varians inte antas vara konstant, modellen ¨ar heteroskedastisk.[8]

2.2.7.4 Variance Inflation Factor (VIF)

VIF ¨ar en metod som kan anv¨andas f¨or att m¨ata graden av multikollinearitet hos de beroende variablerna. Mer specifikt m¨ater VIF hur mycket variansen

¨okar hos de estimerade koefficienterna p˚a grund av multikollinearitet mellan de beroende variablerna. VIF anger hur mycket av ett kovariats r¨orelser som kan f¨orklaras av de ¨ovriga kovariaten i modellen.

VIF-v¨ardet f¨or varje enskild beroende variabel ber¨aknas genom att en regres- sion genomf¨ors med den valda beroende variabeln som responsvariabel medan resterande f¨orblir f¨orklaringsvariabler. VIF-v¨ardet erh˚alls fr˚an regressionens R2 enligt:

V IF = 1

1 − R2 (19)

En tumregel ¨ar att ett VIF-v¨arde > 10 indikerar att multikollineraitet f¨orekomm- er i modellen. [5]

En brist med VIF-testet ¨ar att det inte utreder vilka f¨orklaringsvariabler den unders¨okta beroende variabeln ¨ar korrelerad med. [5][9]

(22)

3 Metod

3.1 Datainsamling

Data fr˚an s¨asongerna 2011-2015 h¨amtades fr˚an PGA-tourens hemsida[10]. Da- tainsamlingen skedde genom kopiering och inklistring av tabeller in i Excel.

Excelfilerna sparades som csv-filer. Data fr˚an csv-filerna bearbetades f¨or att bilda ¨onskade kovariat. Den ¨onskade datan sammanst¨alldes sedan i ett separat dokument.

S¨asongen 2016 inkluderades ej d˚a statistiken inte fanns f¨or en fullst¨andig s¨asong.

F¨or modellens f¨orm˚aga att f¨orklara golfen med moderna f¨oruts¨attningar, sam- tidigt som tillr¨ackligt m˚anga datapunkter erh¨olls, ans˚ags statistik fr˚an de fem senaste fullst¨andiga s¨asongerna l¨amplig.

3.2 Val av spelare

Spelare som har spelat fler ¨an 50 ronder p˚a PGA-touren under en given s¨asong har inkluderats i datan. Detta medf¨or att vissa spelare kan f¨orekomma fler g˚anger i datan utifall att denne uppfyllt kravet flera av de inkluderade s¨asongerna.

Statistiken f¨or den enskilda spelaren ¨ar dock inte samma d˚a den ¨ar baserad p˚a prestationer fr˚an en annan s¨asong. Kravet p˚a fler ¨an 50 ronder ¨ar valt f¨or att ge god statistisk grund och samtidigt f˚a med tillr¨ackligt m˚anga datapunkter.

3.3 Val av kovariat

Eftersom syftet med arbetet var att unders¨oka hur genomsnittscoren p˚a PGA- touren kunde beskrivas av olika slagm¨assiga f¨orm˚agor valdes kovariaten f¨or att f˚anga en helt¨ackande upps¨attning av de vanligast f¨orekommande slagen.

Genomsnittscore(Avg.Score): Responsvariabeln valdes till justerad genomsnitt- score f¨or enskilda spelare under en full s¨asong p˚a PGA-touren. B¨asta genomsnittscore st¨ammer inte alltid perfekt med vem som tj¨anar mest pengar eller kommer h¨ogst upp p˚a rankingen. D˚a rankingpo¨ang och pris- pengar inte f¨oljer en linj¨ar f¨ordelning ans˚ags ¨and˚a genomsnittscoren vara den l¨ampligaste variabeln f¨or att beskriva resultat inom golfen. Genom- snittscore kan ¨aven kopplas till det kompetenssystem som existerar inom amat¨orgolfen, n¨amligen HCP-systemet[12]. En l¨agre genomsnittscore ¨ar ett b¨attre resultat.

Justeringen tar h¨ansyn till de enskilda rundornas sv˚arighetsgrad. En en- skild rundas justering ber¨aknas genom att subtrahera den aktuella run- dans PAR-v¨arde med starf¨altets genomsnittscore f¨or rundan. Justeringen adderas sedan ihop med justeringarna fr˚an f¨oreg˚aende rundor. Den totala

(23)

justeringen divideras med antalet spelade rundor. Genomsnittsjustering- en adderas sedan till genomsnittscoren. Denna bearbetning ¨ar utf¨ord av PGA-touren.[10]

Utslagsprecision(Driving.Acc): Precision fr˚an tee valdes som ett av kovariaten.

En st¨orre andel av utslagen som tr¨affar fairway b¨or s¨anka genomsnittsco- ren. Kovariatet m¨ats som andelen utslag som tr¨affar fairway.

Genomsnittlig utslagsl¨angd (Driving.dist): Hur l˚angt en spelare sl˚ar bollen fr˚an tee b¨or p˚averka scoren. Ju mer distans som t¨acks fr˚an utslaget, desto mindre blir kvar till h˚alet. Att sl˚a l˚angt b¨or s¨anka genomsnittscoren d˚a f¨oruts¨attningar skapas f¨or kortare och mer kontrollerbara andraslag. Ko- variatet m¨ats i antal yards ifr˚an tee bollen hamnar.

Inspel fr˚an fairway(FI/FU): Inspelen mot greenerna b¨or vara en viktig faktor f¨or f¨orb¨attrad score. Ju n¨armare h˚alet man hamnar desto b¨attre ¨ar gene- rellt f¨oruts¨attningarna f¨or att s¨atta n¨asta slag i h˚al. Inspelen fr˚an fairway delades in i fyra olika distanskategorier. Inspel fr˚an under 100 yards, inspel fr˚an 100-150 yards, inspel fr˚an 150-200 yards och inspel fr˚an mer ¨an 200 yards. Detta ans˚ags rimligt d˚a sv˚arighetsgraden skiljer sig ˚at beroende p˚a hur l˚angt man beh¨over sl˚a bollen. Resultatet inom kategorin m¨ats i antal fot fr˚an h˚alet en spelare i genomsnitt hamnar fr˚an de olika inspelskatego- rierna. F¨arre antal fot fr˚an h˚alet b¨or s¨anka genomsnittscoren.

Inspel fr˚an ruff (RI/RU): Samma motivering som inspelen fr˚an fairway. Skillna- den ¨ar att denna data m¨ater inspel som sker ifr˚an ruffen. Distansindelning och prestationsm¨atning var samma som f¨or fairwayinspelen. ¨Aven h¨ar b¨or f¨arre fot fr˚an h˚al f¨orb¨attra genomsnittscoren.

N¨arspelsslag/chippar (CI/CU): Korta slag runt greenerna, chippar, som ¨amnar att komma n¨ara h˚alet anv¨ands n¨ar spelaren missat inspelet. Kovariaten har h¨ar delats in i fyra olika kategorier, beroende p˚a fr˚an vilken distans fr˚an h˚alet som ett n¨arspelsslag ¨ar utf¨ort. N¨arspelsslagen inkluderar b˚ade slag fr˚an gr¨as och slag fr˚an bunkrar n¨ara greenerna. Sv˚arighetsgraden varierar beroende p˚a distans och d¨arf¨or b¨or n¨arspelet delas in i olika kategorier.

Inom 10 yards, 10-20 yards, 20-30 yards och utanf¨or 30 yards var de kate- gorier som valdes. Prestationen m¨ats ¨aven h¨ar i genomsnittligt antal fot fr˚an h˚alet och f¨arre fot b¨or minska genomsnittsscoren.

Puttar satta i h˚al (PI/PU): Puttarna ¨ar vanligtvis de slag som f˚ar bollen i h˚alet.

Hur bra en spelare ¨ar p˚a att s¨atta puttar i h˚alet ¨ar d¨arf¨or ett naturligt kovariat. Sannolikheten att s¨atta en putt ¨okar ju n¨armare h˚alet putten sl˚as ifr˚an. Kovariaten f¨or satta puttar delades s˚aledes in i fyra olika kategorier.

Puttar inom 5 fot, puttar fr˚an 5-15 fot, puttar fr˚an 15-25 fot och puttar fr˚an mer ¨an 25 fot fr˚an h˚alet. Inom 5 fot s¨atts en stor andel av puttarna och utanf¨or 25 fot ¨ar procentsatsen relativt l˚ag[10]. Prestationen inom de fyra kategorierna ¨ar m¨atta i procent av puttar satta och h¨oga procentsatser

(24)

Undvikande av treputt (X3PuttAvoid): M˚alet ¨ar sl˚a varje putt i h˚al men vid tillf¨allen d˚a avst˚andet ¨ar l˚angt ¨ar sannolikheten att lyckas med detta li- ten. Vid s˚adana fall ¨ar tv˚a puttar den realistiska uppgiften. Att p˚a en green anv¨anda tre eller fler puttar r¨aknas som ett misstag. D¨arf¨or inklu- derades ¨aven ett kovariat f¨or en spelares f¨orm˚aga att undvika tre puttar eller fler per green. Kovariaten m¨ats i procent, d¨ar antalet treputtar un- der en s¨asong s¨atts i relation till antalet spelade h˚al. S˚aledes b¨or en l˚ag procentsats medf¨ora en l¨agre genomsnittscore.

[10]

3.4 Genomf¨ orande av regression

Regressionen genomf¨ordes i programmeringsspr˚aket R, som ¨ar designat f¨or sta- tistiska ber¨akningar. Data l¨astes in fr˚an en csv-fil och en linj¨ar modell anpassades till datapunkterna. Detta utf¨ordes med hj¨alp av R:s inbyggda funktion lm som

¨ar framtagen f¨or anpassning av linj¨ara modeller. D¨arefter testades modellen och vid behov gjordes f¨or¨andringar.

3.4.1 Test av antaganden

F¨or slutmodellen testades tre olika antaganden.

1. F¨or att kontrollera att kovariaten var oberoende unders¨oktes multikolline- aritet med hj¨alp av ett VIF-test.

2. F¨or att kontrollera antagandet om homoskedisticitet granskades plottar av residualerna. Dessutom utf¨ordes ett Breusch-Pagan-test.

3. F¨or att kontrollera hurvida residualerna var normalf¨ordelade granskades en normalplot.

3.4.2 Test av modell

F¨or att f˚a en ¨overblick av modellens tillf¨orlitlighet unders¨oktes parameterv¨arder- nas konfidensintervall, standardavvikelse, eta-square och P-v¨arde. Dessa para- metrar kan anv¨andas f¨or att identifiera modellfel och statistiska avvikelser. Det

¨ar dock sv˚art att dra direkta slutsatser om ˚atg¨arder utifr˚an dessa d˚a de ¨ar sv˚artolkade och vedertagna riktlinjer saknas. D¨arf¨or granskades AIC-v¨arden, F- v¨arde och T-v¨arden f¨or att avg¨ora huruvida ett kovariat borde uteslutas eller inte.

(25)

3.4.3 F¨orb¨attring av modell

Vid fall d¨ar testerna identifierade brister i modellen korrigerades den f¨or att f¨orb¨attra precision och tillf¨orlitlighet. L¨osningar och f¨orklaringar till de pro- blem som uppstod s¨oktes. Efter korregeringar testades modellen ˚aterigen f¨or att unders¨oka eventuell f¨orb¨attring. I samspel med matematiska f¨or¨andringar, som val av kovariat, avv¨agdes korrigeringars inverkan p˚a modellens syfte.

(26)

4 Resultat

4.1 Grundmodellen

H¨ar presenteras resultatet f¨or grundmodellen som tagits fram f¨or att prediktera genomsnittscorer p˚a PGA-touren. Modellen inneh˚aller 19 kovariat som valts f¨or att spegla s˚a m˚anga som m¨ojligt av golfens alla moment.

Modellen:

Avg.Score = β0(intercept)+β1(Driving.dist)+β2(Driving.Acc)+β3(3P uttAvoid)+

β4(F I100) + β5(F I100T 150) + β6(F I150T 200) + β7(F U 200) + β8(RI100) + β9(RI100T 150)+β10(RI150T 200)+β11(RU 200)+β12(CI10)+β13(CI10T 20)+

β14(CI20T 30)+β15(CU 30)+β16(P I5)+β17(P I5T 15)+β18(P I15T 25)+β19(P U 25)

4.1.1 Sammanfattning

I tabellen nedan visas kovariatens estimerade koefficienter samt deras standar- davvikelse, T-v¨arde, P-v¨arde och η2.

Tabell 1: Sammanfattning

Estimat Std. Fel T-v¨arde P-v¨arde η2 (Intercept) 91.315 1.791 50.991 < 2 ∗ 10−16 - Driving.dist -0.046 0.002 -22.355 < 2 ∗ 10−16 0.3576 Driving.Acc -0.057 0.003 -17.507 < 2 ∗ 10−16 0.2545 X3PuttAvoid 0.112 0.024 4.664 3.57 ∗ 10−6 0.0237

FI100 0.028 0.007 4.149 3.66 ∗ 10−5 0.0188

FI100T150 0.052 0.010 5.520 4.44 ∗ 10−8 0.0328 FI150T200 0.061 0.008 8.028 3.08 ∗ 10−15 0.0670 FU200 0.038 0.004 8.617 < 2 ∗ 10−16 0.0764

RI100 0.009 0.003 3.208 0.00138 0.0113

RI100T150 0.003 0.004 0.782 0.43440 0.0007

RI150T200 0.020 0.004 5.422 7.59 ∗ 10−8 0.0317

RU200 0.005 0.002 2.620 0.00895 0.0076

CI10 0.093 0.028 3.290 0.00104 0.0119

CI10T20 0.199 0.021 9.335 < 2 ∗ 10−16 0.0885

CI20T30 0.076 0.014 5.565 3.45 ∗ 10−8 0.0333

CU30 0.033 0.008 4.021 6.28 ∗ 10−5 0.0177

PI5 -0.110 0.017 -6.607 6.73 ∗ 10−11 0.0463 PI5T15 -0.052 0.005 -11.365 < 2 ∗ 10−16 0.1258 PI15T25 -0.033 0.005 -7.071 3.09 ∗ 10−12 0.0527 PU25 -0.064 0.008 -7.665 4.64 ∗ 10−14 0.0614

(27)

Det noteras att T-v¨ardet, P-v¨ardet och η2 f¨or kovariatet RI100T150 skiljer sig fr˚an de ¨ovriga. Ett T-v¨arde relativt n¨ara 0, ett h¨ogt P-v¨arde och en l˚ag f¨orklaringsgrad indikerar att detta kovariat m¨ojligen borde uteslutas.

4.1.2 Konfidensintervall

Tabell 2: Konfidensintervall

2.5 % 97.5 % (Intercept) 87.800 94.830 Driving.dist -0.050 -0.042 Driving.Acc -0.064 -0.051 X3PuttAvoid 0.065 0.159

FI100 0.015 0.042

FI100T150 0.034 0.071 FI150T200 0.046 0.076

FU200 0.030 0.047

RI100 0.004 0.015

RI100T150 -0.005 0.011 RI150T200 0.013 0.027

RU200 0.001 0.009

CI10 0.038 0.149

CI10T20 0.157 0.241

CI20T30 0.049 0.103

CU30 0.017 0.049

PI5 -0.142 -0.077

PI5T15 -0.060 -0.043 PI15T25 -0.042 -0.024

PU25 -0.080 -0.047

I tabellen ovan visas konfidensintervall f¨or β-v¨ardena. ¨Aven h¨ar utm¨arker sig kovariatet RI100T150. Konfidensintervallet f¨or RI100T150 inkluderar noll. Det- ta inneb¨ar att kovariatets p˚averkan p˚a responsvariabeln med 95%-s¨akerhet inte kan fastst¨allas.

(28)

4.1.3 Akaike

I tabell 3 visas ∆AIC f¨or kovariaten. ∆AIC = AICF U LL−AICREDU CERAD Tabell 3: ∆AIC

Kovariat ∆AIC

Driving.dist -404.152 Driving.Acc -267.554 X3PuttAvoid -19.975

FI100 -15.430 FI100T150 -28.631 FI150T200 -61.635 FU200 -70.932

RI100 -8.460

RI100T150 1.375 RI150T200 -27.570

RU200 -4.988

CI10 -8.996

CI10T20 -83.018 CI20T30 -29.129

CU30 -14.383

PI5 -41.570

PI5T15 -121.364 PI15T25 -47.739

PU25 -56.174

Notera att AICRE D U C E RAD ¨ar AIC-v¨ardet f¨or modellen d¨ar motsvarande ko- variat har eliminerats.

Enligt teorin ska modellen med l¨agst AIC v¨aljas f¨or att minimera informa- tionsf¨orlusten. F¨or att informationsf¨orlusten(AIC) ska minimeras kr¨avs det att alla kovariat med ett positivt ∆AIC utesluts ur modellen. Tabell 3 illustre- rar att alla kovariat f¨orutom RI100T150 har ett negativt ∆AIC. D˚a kovariatet RI100T150 har ett positivt ∆AIC b¨or kovariatet uteslutas ur modellen. Notera att kovariatet hade avvikande v¨arden i tabell 1 och 2 vilket ¨aven indikerade p˚a att kovariatet m¨ojligen borde uteslutas.

(29)

4.1.4 F¨orklaringsgrad och F-v¨arde

I rutan nedan visas grundmodellens f¨orklaringsgrad och F-v¨arde. F¨orklaringsgra- den R2¨ar 0.714 och den justerade ¯R2 ¨ar p˚a 0.708. R2 m¨ater hur v¨al kovariaten f¨orklarar responsvariabelns r¨orelser, se teoridelen. Ett justerat ¯R2 p˚a 0.708 in- neb¨ar att variationen i responsvariabeln f¨orklaras till 70.8% av de 19 kovariaten, justerat f¨or antalet frihetsgrader.

Observationer 918 R2 0.714

Justerad ¯R2 0.708 AIC 783.1444

Std. fel residual 0.366 (df = 898) F-v¨arde 118.277 (df = 19; 898)

(30)

4.2 Reducerade modellen

Den reducerade modellen inneh˚aller 18 kovariat. Kovariatet RI100T150 som i grundmodellen hade ett positivt ∆AIC har h¨ar uteslutits.

Modellen:

Avg.Score = β0(intercept)+β1(Driving.dist)+β2(Driving.Acc)+β3(3P uttAvoid)+

β4(F I100) + β5(F I100T 150) + β6(F I150T 200) + β7(F U 200) + β8(RI100) + β9(RI150T 200) + β10(RU 200) + β11(CI10) + β12(CI10T 20) + β13(CI20T 30) + β14(CU 30) + β15(P I5) + β16(P I5T 15) + β17(P I15T 25) + β18(P U 25)

4.2.1 Test av antaganden 4.2.1.1 Multikollinearitet

Tabellen nedan visar de beroende variablernas VIF-v¨arde. Alla tabellv¨arden understiger 10 vilket enligt tumregeln indikerar p˚a l˚ag grad av multikollineari- tet.

Tabell 4: VIF-test

Driving.dist Driving.Acc X3PuttAvoid FI100 FI100T150

2.104 1.768 1.914 1.177 1.342

FI150T200 FU200 RI100 RI150T200 RU200

1.381 1.248 1.070 1.086 1.055

CI10 CI10T20 CI20T30 CU30 PI5

1.113 1.347 1.241 1.134 1.669

PI5T15 PI15T25 PU25

1.333 1.115 1.067

4.2.1.2 Homoskedasticitet

F¨or att verifiera antagandet om homoskedasticitet genomf¨ordes ett Breusch- Pagan-test samt granskning av residualplottar.

Breusch-Pagan-testet resulterade i ett P-v¨arde p˚a 0.5728 > 0.05. Det inneb¨ar att nollhypotesen, att homoskedasticitet r˚ader, inte kan f¨orkastas.

Vid granskning av residualplottar uppt¨acktes inga m¨onster som tyder p˚a he- teroskedasticitet. Nedan visas residualerna plottade gentemot responsvariabeln samt en utav f¨orklaringsvariablerna, kovariatet PU25.

(31)

(a) Residualerna plottade mot responsvari- abeln

(b) Residualerna plottade mot kovariatet PU25

Figur 1: Residualplottar

4.2.1.3 Normalf¨ordelade residualer

Punkterna i normalplotten f¨oljer ett linj¨art m¨onster vilket indikerar att residu- alerna ¨ar normalf¨ordelade.

(32)

4.2.2 Sammanfattning

I tabellen nedan visas kovariatens estimerade koefficienter samt deras standar- davvikelse, T-v¨arde, P-v¨arde och η2f¨or den reducerade modellen.

Tabell 5: Sammanfattning

Estimat Std. Fel T-v¨arde P-v¨arde η2 (Intercept) 91.226 1.787 51.055 < 2 ∗ 10−16 - Driving.dist -0.046 0.002 -22.355 < 2 ∗ 10−16 0.357274623 Driving.Acc -0.057 0.003 -17.495 < 2 ∗ 10−16 0.253994721 X3PuttAvoid 0.113 0.024 4.724 2.69 ∗ 10−6 0.024217732

FI100 0.029 0.007 4.188 3.09 ∗ 10−5 0.019136374

FI100T150 0.053 0.009 5.602 2.82 ∗ 10−8 0.033726878 FI150T200 0.061 0.008 8.039 2.83 ∗ 10−15 0.067069475 FU200 0.039 0.004 8.729 < 2 ∗ 10−16 0.078140409

RI100 0.009 0.003 3.265 0.00114 0.011717626

RI150T200 0.020 0.004 5.512 4.63 ∗ 10−8 0.032691666

RU200 0.005 0.002 2.582 0.00997 0.007363655

CI10 0.093 0.028 3.287 0.00105 0.011878577

CI10T20 0.200 0.021 9.360 < 2 ∗ 10−16 0.088805375 CI20T30 0.076 0.014 5.575 3.28 ∗ 10−8 0.033413637

CU30 0.033 0.008 4.049 5.59 ∗ 10−5 0.017907002

PI5 -0.109 0.017 -6.570 8.52 ∗ 10−11 0.045812627 PI5T15 -0.051 0.005 -11.349 < 2 ∗ 10−16 0.125325486 PI15T25 -0.033 0.005 -7.064 3.23 ∗ 10−12 0.052593337 PU25 -0.064 0.008 -7.675 4.30 ∗ 10−14 0.061494340

Notera att inget kovariat har ett T-v¨arde, P-v¨arde som utm¨arker sig. Det vill s¨aga, P-v¨ardena ¨ar mindre ¨an 0.05 och T-v¨ardena har realtivt stora ab- solutv¨arden.

(33)

4.2.3 Konfidensintervall

Tabell 6: Konfidensintervall

2.5 % 97.5 % (Intercept) 87.719 94.733 Driving.dist -0.050 -0.042 Driving.Acc -0.064 -0.051 X3PuttAvoid 0.066 0.160

FI100 0.015 0.042

FI100T150 0.034 0.072 FI150T200 0.046 0.076

FU200 0.030 0.048

RI100 0.004 0.015

RI150T200 0.013 0.028

RU200 0.001 0.009

CI10 0.038 0.149

CI10T20 0.158 0.242

CI20T30 0.049 0.103

CU30 0.017 0.049

PI5 -0.141 -0.076

PI5T15 -0.060 -0.042 PI15T25 -0.042 -0.024

PU25 -0.080 -0.047

I tabellen ovan visas ett 95% konfidensintervall f¨or β-v¨ardena. Inget av β- v¨ardenas konfidensintervall inneh˚aller 0. Det inneb¨ar att kovariatens riktnings- inverkan p˚a responsvariabeln kan fastst¨allas.

(34)

4.2.4 Akaike

∆AIC = AICF U LL− AICREDU CERAD Tabell 7: ∆AIC

Driving.dist -403.791 Driving.Acc -266.995 X3PuttAvoid -20.506

FI100 -15.737 FI100T150 -29.495 FI150T200 -61.732 FU200 -72.691

RI100 -8.820

RI150T200 -28.512

RU200 -4.785

CI10 -8.970

CI10T20 -83.373 CI20T30 -29.198

CU30 -14.588

PI5 -41.050

PI5T15 -120.923 PI15T25 -47.597

PU25 -56.262

Notera att AICRE D U C E RAD ¨ar AIC-v¨ardet f¨or modellen d¨ar motsvarande ko- variat har eliminerats.

I tabelllen ovan visas att alla kovariat har ett negativt ∆AIC. Ett negativt ∆ AIC inneb¨ar att det enskilda kovariatet bidrar till att modellens AIC minskar.

Det ¨ar ekvivalent med att informationsf¨orlusten minskar. Inget kovariat bidrar allts˚a till att ¨oka informationsf¨orlusten i denna modell. S˚aledes b¨or inget ytter- ligare kovariat uteslutas.

(35)

4.2.5 F¨orklaringsgrad och F-v¨arde

I rutan nedan visas den f¨orb¨attrade modellens f¨orklaringsgrad, AIC-v¨arde och F-v¨arde. F¨orklaringsgraden, R2 ¨ar 0.714 och d¨armed lika stor som i grundmo- dellen. Den justerade- ¯R2 ¨ar 0.709 vilket ¨ar h¨ogre ¨an grundmodellens justerade- R¯2 som var 0.708. Ett h¨ogre justerat- ¯R2 inneb¨ar att kovariaten f¨orklarar en st¨orre andel av variationen hos responsvariabeln justerat f¨or frihetsgrader. Det inneb¨ar att modellens kovariat b¨attre beskriver responsvariabeln. ¨Okningen i justerat- ¯R2 ¨ar f¨orsumbar men d˚a kovariatet f¨or RI100T150 inte bidrog med n˚agon information har modellen f¨orb¨attrats. Minskningen i AIC-v¨ardet inneb¨ar att informationsf¨orlusten ¨ar mindre i den reducerade modellen. Att F-v¨ardet har ¨okat fr˚an 118.277 till 124.868 i reducerade modellen indikerar ocks˚a att mo- dellen har f¨orb¨attrats.

Observationer 918 R2 0.714

Justerad R2 0.709 AIC 781.7693

Residual Std. fel 0.366 (df = 899) F-V¨arde 124.868 (df = 18; 899)

5 Analys

5.1 Utv¨ ardering av modell

Den slutliga modellen inneh˚aller 18 kovariat. Kovariaten har samtliga P-v¨arden som understiger 0.02, T-v¨arden med relativt stort avst˚and till noll, negativt

∆AIC samt ett 95 % konfidensintervall som exkluderar noll. Det leder till att tv˚a slutsatser kan dras. F¨or det f¨orsta att modellen med 95% s¨akerhet kan f¨oruts¨aga huruvida ett kovariat har postiv eller negativ inverkan p˚a respon- svariabeln. F¨or det andra att en uteslutning av n˚agot kovariat leder till en informationsf¨orlust.

Den f¨orb¨attrade modellens f¨orklaringsgrad, R2, ¨ar 0.714 det justerade ¯R2 ¨ar 0.709. Det inneb¨ar att modellens kovariat f¨orklarar 70.9% av responsvariabelns variation, justerat f¨or antalet frihetsgrader. En f¨orklaringsgrad p˚a 70.9% tyder p˚a att modellen inte ¨ar optimal, men tillr¨ackligt h¨og f¨or att beskriva responsva- riabeln f¨or genomsnittscoren v¨al.

Modellen ska kunna anv¨andas f¨or att utv¨ardera hur olika kategorim¨assiga f¨orb¨at- tringar p˚averkar genomsnittscoren. I tabell 8 nedan illustreras hur mycket varje enskilt kovariat beh¨over f¨orb¨attras f¨or att minska genomsnittscoren med 0.1 slag.

Varje enskild f¨orb¨attring sker medan de ¨ovriga kovariaten ¨ar konstanta.

(36)

Tabell 8: F¨orb¨attringskrav

Driving.dist 2.185 yards Driving.Acc 1.746 %

FI100 −3.508 feet FI100T150 −1.885 feet FI150T200 −1.641 feet FU200 −2.577 feet RI100 −10.646 feet RI150T200 −4.899 feet

RU200 −20.546 feet

CI10 −1.074 feet

CI10T20 −0.500 feet CI20T30 −1.316 feet

CU30 −3.017 feet

PI5 0.918 %

PI5T15 1.955 %

PI15T25 3.048 %

PU25 1.568 %

ThreePuttAvoid -0.883 %

Vid gransking av utslagskovariaten identifieras att en l¨angd¨okning p˚a 2.185 yards kr¨avs f¨or att s¨anka genomsnittscoren med 0.1 slag. Detta kan tyckas rela- tivt l¨attuppn˚aligt d˚a det motsvarar en ¨okning av genomsnittliga utslagsl¨angden p˚a < 1%. Sv˚arigheten ligger i att denna l¨angd¨okning m˚aste ske med bibeh˚allen precision. Ett liknande resonemang kan f¨oras f¨or precision d¨ar antalet fair- waytr¨affar m˚aste ¨oka med 1.746% f¨or att genomsnittscoren ska minska med 0.1 slag.

Noterbart ¨ar att ruffinspelen ¨ar de kovariat som individuellt beh¨over f¨orb¨attras relativt mycket f¨or att minska genomsnittscoren med 0.1 slag, j¨amf¨ort med fairwayinspelen. Att slag fr˚an ruffen kr¨aver en st¨orre f¨orb¨attring beh¨over inte n¨odv¨andigtvis betyda att dessa slag ¨ar mindre viktiga. Sv˚arighetgraden och den tidsm¨assiga kostnaden i tr¨aning f¨or en f¨orb¨attring m˚aste ocks˚a v¨agas in. En or- sak till ruffinspelens relativt stora f¨orb¨attringskrav ¨ar troligtvis sv˚arighetsgraden f¨or kontroll av spinn som f¨ors¨amrar precisionen j¨amf¨ort med liknande inspel fr˚an fairway. En annan orsak skulle kunna vara att dessa inspel ¨ar mindre vanligt f¨orekommande, d˚a majoriteten av spelarna har en fairwaytr¨affprocent

¨over 60[10]. D¨armed kr¨avs det en st¨orre f¨orb¨attring, f¨or att ¨oka sannolikhe- ten att minska genomsnittscoren lika mycket som f¨or ett oftare f¨orekommande slag.

N¨arspelslagen har alla relativt l˚aga f¨orb¨attringskrav, vilket indikerar att p˚averkan p˚a genomsnittscoren ¨ar h¨og. F¨or chipparna ger n˚agra f˚a fot n¨armare h˚al 0.1 slag f¨arre i genomsnittscore. Detta beror troligtvis b˚ade p˚a att spelarna redan sl˚ar sig n¨ara h˚al med dessa slag och att sannolikheten f¨or att s¨atta n¨astkommande

(37)

slag ¨okar snabbt med minskat avst˚and till h˚alet.

Eftersom puttarna ¨ar representerade som andel satta i h˚al kommer ¨aven sm˚a

¨okningar i procentsatser direkt minska antalet slag som anv¨ands under en runda.

De l˚aga f¨orb¨attringskraven f¨or puttarna understryker den vedertagna synen p˚a n¨arspelet som kanske den viktigaste delen inom golf[34].

5.2 Diskussion

En spelares distans fr˚an tee har en negativ inverkan p˚a genomsnittscoren. L¨angre utslag medf¨or l¨agre genomsnittscore. Detta resultat st¨ammer v¨al ¨overens med Fradkin, Sherman och Finch’s slutsats kring svinghastighetens korrelation med golf-HCP[11]. Svinghastighet avg¨or hur l˚angt en golfboll kan sl˚as, och en amat¨or- golfspelares HCP baseras p˚a genomsnittsscore i f¨orh˚allande till PAR[12]. ¨Okad distans medf¨or uppenbarligen kortare avst˚and kvar till h˚alet. D¨armed blir f¨orut- s¨attningarna f¨or f¨oljande slag b¨attre om l¨angre distans t¨acks ifr˚an utslaget.

D¨aremot kan ¨okad distans f¨orsv˚ara uppgiften att tr¨affa fairway, som i sin tur ocks˚a p˚averkar genomsnittscoren.

Alla ¨ovriga kovariat som inkluderades i den slutliga modellen hade ocks˚a f¨orv¨ant- ad riktningsp˚averkan p˚a genomsnittscoren. Vilket ger modellen en viss trov¨ardig- het.

Genom att applicera individuell statistik till prediktionsmodellen kan spelare identifiera hur en kategorim¨assig f¨orb¨attring p˚averkar den f¨orv¨antade genom- snittsscoren. Tanken ¨ar att modellen p˚a s˚a s¨att kan anv¨andas som ett verktyg vid tr¨aningsplanering. Om en viss rimlig f¨orb¨attring inom f¨orm˚agan f¨or inspel skulle medf¨ora en relativt stor f¨orb¨attring av genomsnittscoren, borde spela- ren f˚a bel¨agg f¨or en ¨okad dos av j¨arnspelstr¨aning. D˚a anv¨ands modellen f¨or att utveckla rent golftekniska f¨ardigheter. Det finns ¨aven andra individuella fakto- rer som kan p˚averka prestationen under golft¨avlingar. Mentala aspekter som sj¨alvf¨ortroende, koncentration och erfarenhet ¨ar n¨odv¨andiga f¨or att kunna ut- nyttja f¨ardigheter under pressade situationer[13]. Att n˚a f¨orb¨attring inom en viss kategori kan snarare kr¨ava mental f¨orb¨attring ¨an teknisk. Mentala f¨ardigheters p˚averkan p˚a genomsnittscoren hade s˚aledes varit intressanta att identifiera. Des- sa ¨ar dock sv˚arm¨atbara, varf¨or de inte inkluderats i modellen.

En viss kategorim¨assig f¨orb¨attring kommer enligt modellen alltid ge samma marginella f¨orb¨attring i genomsnittscore, oavsett spelare. M¨ojligheten att uppn˚a olika kategorim¨assiga f¨orb¨attringar kan d¨aremot skilja sig mellan individer, bero p˚a nuvarande f¨orm˚agor. Modellen b¨or d¨arf¨or anv¨andas i samspel med individuell avv¨agning ¨over m¨ojliga f¨orb¨attringar. Hur mycket och vilken typ av tr¨aning som kr¨avs kompletteras av modellens prediktion av hur f¨orb¨attringen p˚averkar genomsnittscoren.

Att kovariatet RI100T150, ruffinspel fr˚an 100-150 yards, utesl¨ots i den slutliga

(38)

d¨ar en specifik typ av slag, som ¨ar relativt vanligt f¨orekommande, utel¨amnas.

Anledningen var att kovariatets inverkan p˚a genomsnittscoren var os¨aker och inte bidrog till modellens prediktionsf¨orm˚aga. Orsaken till detta ¨ar troligtvis stora avvikelser i data f¨or denna kategori. Avvikelserna skulle kunna bero p˚a att denna typ av slag f¨or vissa spelare inte f¨orekommer tillr¨ackligt ofta. Med andra ord, att antalet observationer i vissa fall ¨ar f¨or f˚a, vilket leder till missvisande statistik.

5.3 Brister

Regressionsmodellens kovariat best˚ar av statistiska data fr˚an olika typer av golfslag. F¨or att modellen tydligt skall identifiera potentiella f¨orb¨attringsm¨ojlig- heter f¨or en spelare och dess p˚averkan p˚a genomsnittsscoren ¨onskas en tydlig uppdelning bland olika typer av slag. Ett problem skulle kunna vara att de olika slagkategorierna, kovariaten, som anv¨ands i regressionen ger upphov till korre- lation sinsemellan. Exempelvis inspelen ¨ar uppdelade i olika l¨angdkategorier.

Det kan t¨ankas att en spelares prestationsf¨orm˚aga inom inspel fr˚an under 100 yards ¨ar korrelerad med prestationsf¨orm˚agan inom inspelen fr˚an 100-150 yards, d¨ar b˚ada kategorier s˚aledes inkluderar inspel fr˚an distanser n¨ara 100 yards. En faktor som kan minska korrelationen ¨ar att kategorierna inkluderar slag fr˚an relativt stora intervall, vilket medf¨or att prestationen f¨ordelas ¨over distanser som tydligt skiljer sig fr˚an andra kategorier. Detta bekostas d¨aremot av att precisionen p˚a exakt vilka slag som b¨or f¨orb¨attras minskar.

Korrelation mellan kovariat som ¨ar uppdelade i flera distanskategorier ¨ar m¨ojlig f¨or s˚av¨al inspel, chippar, och puttar. Utslagskovariaten kan ocks˚a t¨ankas ge upp- hov till korrelation. Dessa kovariat finns representerade som precision och total l¨angd. Ett samband de tv˚a emellan kan motiveras av ju mer kraft desto sv˚arare blir precision. H¨ogre svinghastighet genererar mer skruv i bollen, som s˚aledes kan flyga mer sidledes. En h¨ogre svinghastighet ¨ar ocks˚a mer k¨anslig f¨or bollens utg˚angsvinkel relativt centrum av fairway. Problemet med multikollinearitet ¨ar att β’s standardavvikelse blir stor. Stor standardavvikelse kan leda till att β’s konfidensintervall innefattar noll. Detta g¨or modellen sv˚artolkad d˚a det inte g˚ar att avg¨ora kovariatens p˚averkan p˚a responsvariabeln. Standardavvikelsen minskar dock med antalet observationer vilket g¨or att problemet med multi- kollineariet ¨ar ekvivalent med f¨or f˚a observationer. Resultatet fr˚an VIF-testet visar att ingen st¨orre multikollinearitet ¨ar n¨arvarande i modellen. Det indikerar att m¨angden data ¨ar tillr¨ackligt stor f¨or att eliminera den st¨orsta andelen av potentiell multikollinearitet.

Ett problem som uppst˚ar vid analys av statistiska data f¨or golft¨avlingar ¨ar de stora variationerna i yttre f¨orh˚allanden som pr¨aglar spelet. Till skillnad fr˚an m˚anga andra sporter, som fotboll eller ishockey med flera, finns det inga strikta regler hur spelytan utformas. Alla golfbanor ¨ar olika designade vilket g¨or att slagen spelare st¨alls inf¨or varierar. ¨Aven v¨aderf¨orh˚allanden har inverkan p˚a spe- let, vilket g¨or att samma t¨avling och bana kan spelas annorlunda fr˚an ˚ar till ˚ar.

(39)

Vind, regn och temperatur har p˚averkan p˚a s˚av¨al spelunderlaget som bollens agerande i luften. F¨orh˚allandevariationerna medf¨or s˚aledes att alla golft¨avlingar

¨

ar unika, och samma score p˚a samma bana kan skilja sig i sv˚arihetsgrad fr˚an dag till dag eller ˚ar till ˚ar. Allts˚a kan statistiken f¨or prestationer inom golfen vara en aning missvisande, eftersom de inte tar h¨ansyn till de yttre f¨orh˚allanden som r˚ader varje enskild t¨avling. Vi valde d¨arf¨or att anv¨anda justerad genomsnittscore som responsvariabel. Trots detta skulle variationen i yttre f¨orh˚allanden m¨ojligen kunna f¨orklara den relativt l˚aga f¨orklaringsgraden. D˚a varierande f¨orh˚allanden kan leda till att residualens varians blir st¨orre. Det i sin tur resulterar i ett l¨agre R2. Om alla spelare skulle spela samma t¨avlingar varje ˚ar skulle detta problem troligtvis minska.[14]

5.3.1 F¨orb¨attringsm¨ojligheter

I modellen skulle det kunna identifieras ett antal f¨orb¨attringsm¨ojligheter. En skulle kunna vara att ut¨oka antalet kovariat. Antingen genom f¨orfining av be- fintliga kovariat, s˚a att dessa innefattar data fr˚an ett mindre intervall, exempel- vis inspelskategorierna. Alternativt en ut¨okning genom inkludering av helt nya kovariat som tillf¨or ny information och f¨orklarar residualens varians till en viss del. Dessa skulle antingen kunna beskriva ytterligare moment inom golfspelet, eller andra aspekter som p˚averkar gensomsnittscoren. Exempelvis ett kovariat som beskriver mentala faktorer kan t¨ankas p˚averka. Problemet med mjuka fak- torer som mental f¨orm˚aga ¨ar att det ¨ar sv˚arm¨atbara. D¨arf¨or inkluderas det inte i modellen.

En annan ˚atg¨ard skulle kunna vara att anv¨anda data samlad fr˚an en och samma golfbana. Det b¨or minska residualens varians, eftersom de yttre f¨orh˚allandenas variationer minskar, och s˚aledes h¨ojs f¨orklaringsgraden. Problemet blir dock att antalet observationer sjunker vilket kan leda till h¨ogre standardavvikelse. D¨artill blir modellen alltf¨or specifik, och inte l¨amplig f¨or sitt syfte att redog¨ora f¨or kategorim¨assiga f¨or¨andringars p˚averkan f¨or enskilda spelares genomsnittscorer under en s¨asong p˚a PGA-touren.

(40)

6 Industriell ekonomi till¨ ampning

En gransking och analys av hur teknologiska framsteg inom golfbollsteknologin har f¨or¨andrat spelet p˚a den absolut h¨ogsta niv˚an, PGA-touren.

Syftet ¨ar att unders¨oka data fr˚an f¨ore och efter transformationstidpunkten f¨or multi-komponentbollen. F¨ors¨oka identifiera m¨onster f¨or hur spelet p˚a den profes- sionella niv˚an har f¨or¨andrats. Avsnittet hoppas d¨arf¨or kunna bidra till ytterliga- re insikt i golfbollens teknologiska f¨or¨andring och dess inverkan p˚a golfen.

6.1 Reglement

De teknologiska framsteg som sker f¨or utrustningen inom golfen m˚aste uppfyl- la de regler som finns uppsatta av United States Golf Association(USGA) och Royal and Ancient(RA), som ¨ar det stora regelorganen i USA och Europa. Ge- nom det gemensamma reglementet, “The Rules of Golf”, kan spelets utveckling styras och de aktiva tillverkningsf¨oretagen kontrolleras.

Golfbollens restriktioner uppdelad i sex kategorier:

1. Generellt: Golfbollen f˚ar inte avsev¨art skilja sig fr˚an den traditionella och allm¨ant vedertagna designen. Materialet och konstruktionen f˚ar in- te mots¨atta sig syftet eller avsikten med reglerna. Golfbollen m˚aste va- ra tillverkad av elastomeriska material, men sp˚ar av andra material kan godk¨annas. Bollen f˚ar inte ha komponenter som r¨or sig i f¨orh˚allande till varandra, allts˚a l¨osa komponenter, eller har komponenter som har en an- nan medelpunkt ¨an bollen.

Modifikationer har genomf¨orts till reglerna g¨allande konstruktionen av k¨arnan. Bollen till˚ats ha en k¨arna mindre ¨an 22.9 mm i diameter givet att k¨arnan best˚ar av flytande material isolerat i ett st¨angt utrymme. D¨artill kan k¨arnan, om den inte ¨ar elastomerisk, vara rigid, h˚ard eller ih˚alig.

2. Vikt : En golfboll f˚ar maximalt v¨aga 45.93 gram. Detta ¨ar den enda vikt- restriktionen och en boll f˚ar d¨arf¨or tillverkas l¨attare om s˚a ¨onskas.

3. Storlek: Bollens minimalt till˚atna diameter ¨ar 42.67mm. Bollen f˚ar vara st¨orre ¨an s˚a, givet att den uppfyller alla andra krav.

4. Sf¨arisk symmetrisk: Bollen m˚aste vara tillverkad f¨or att bete sig som sym- metrisk.

5. Utg˚angshastighet: Bollen f˚ar inte ge upphov till f¨or stor utg˚angshastighet relativt klubbans hastighet vid bolltr¨affen. Denna restriktion ¨ar ocks˚a kopplad till klubbans konstruktion. Maximal “smash-factor” det vill s¨aga bollhastighet dividerat med klubbhastighet ¨ar 1.50, vilket kan uppn˚as med en driver.

References

Related documents

De st¨ orsta skillnaderna med ljud i j¨ amf¨ orelse med momentet utan ljud ger ¨ aven h¨ ar ljud 3, ¨ aven om skillnaderna inte ¨ ar lika stora som i studien med fast ordning p˚

att de flesta metaller har gitterkonstanter och antal av valens-elektroner som ¨ ar av samma storleksordning som i kalium, kommer inte detta att kvalitativt ¨ andra mycket fr˚ an ¨

[r]

⇒ f¨or samma diagnosprestanda, modellbaserad diagnos beh¨over inte n¨odv¨andigtvis vara ber¨akningsm¨assigt mer kr¨avande eller mer komplext ¨an traditionella ansatser. Men det

F¨or resultatet fr˚ an modell 1 kan det ses att trycket ¨ar st¨orre framtill och ¨aven vid. ¨overg˚ angen fr˚ an huven

Keywords: Vortex, Vortex suppressor, Vortex suppression device, Ladle shroud, Late stage steelmaking, Casting, Water modelling,

al fann även att det ofta finns en koppling mellan fysiskt och sexuellt våld på så vis att dessa former av våld ofta skedde i relation till varandra; vissa kvinnor utsattes

Po¨ angen p˚ a godk¨ anda duggor summeras och avg¨ or slutbetyget.. L¨ osningarna skall vara v¨ almotiverade och