• No results found

En analys av sambandet mellan studieprestation på högskolenivå och utvalda faktorer

N/A
N/A
Protected

Academic year: 2022

Share "En analys av sambandet mellan studieprestation på högskolenivå och utvalda faktorer"

Copied!
40
0
0

Loading.... (view fulltext now)

Full text

(1)

INOM

EXAMENSARBETE TEKNIK, GRUNDNIVÅ, 15 HP

STOCKHOLM SVERIGE 2018,

En analys av sambandet mellan studieprestation på högskolenivå och utvalda faktorer

PETER DAKERMANDJI

DANTE FORSTÉN

(2)
(3)

Sammanfattning

I detta projekt inom matematisk statistik ges en inblick i vilka faktorer som kan p˚averka en h¨ogskolestudents studieprestation. Tv˚a h¨alsorelaterade faktorer som s¨omn och fysisk aktivitet beaktades samt om studenten har f¨or¨aldrar med akademisk bakgrund. F¨or att studera sambandet mellan dessa faktorer och studieprestationen p˚a h¨ogskoleniv˚a till¨ampades en multipel linj¨ar regression.

Regressionsmodellen baserades p˚a data som insamlades fr˚an enbart studenter i Kungliga Tekniska H¨ogskolan i Stockholm via ett internet baserat fr˚ageformul¨ar.

Sammanfattningsvis kan det konstateras att det utifr˚an denna unders¨okning identifierats ett positivt samband mellan h¨ogskolestudentens studieprestation och att minst en av dennes f¨or¨aldrar har en akademisk bakgrund, framf¨orallt om omr˚adet till denna akademiska bakgrund var inom teknik/vetenskap. Dessu- tom hittades ett positivt samaband mellan studieprestationen och interaktionen mellan s¨omn och ˚alder. I denna unders¨okning hittades d¨aremot inga tillr¨ackliga bevis f¨or att p˚ast˚a att fysisk aktivitet har ett samband med h¨ogskolestudentens studieprestation. Regrssionsmodellen erh¨oll ett l˚agt v¨arde p˚a determinationsko- efficienten, d¨ar de m¨ojliga orsakerna diskuteras utf¨orligt i denna rapport.

(4)
(5)

Title of thesis

An analysis of the relationship between study performance in an academic level

and selected factors

Abstract

This thesis in mathematical statistics, gives the reader an insight of which fac- tors affect the study performance of a university student. Two health related factors such as the amount of sleep and physical activity were examined as well as the student’s parental academic background. A regression analysis was con- ducted in order to analyze the relationship between these factors and the study performance of a university student. The regression model was based on data collected solely by students from the Royal Institute of Technology in Stockholm through an internet based questionnaire.

In summary, a positive relationship was identified between the student’s study performance and having at least one parent with an academical background, especially if the academical background was in the area of technical- and scien- tifical studies. A positive relationship was also found between the study perfor- mance and the interaction between sleep and age. However, could a relationship not be found between the physical activity and the study performance. The fi- nal regression model provided a low value for the coefficient of determination where the possible causes are well discussed in this report.

(6)
(7)

Inneh˚ allsf¨ orteckning

1 Inledning 9

1.1 Bakgrund . . . 9

1.1.1 Tidigare studier . . . 9

1.2 Syfte . . . 9

1.3 Problemformulering . . . 9

1.3.1 Fr˚agest¨allning . . . 10

2 Matematisk teori 11 2.1 Komplexa unders¨okningar . . . 11

2.1.1 Obundet slumpm¨assigt urval (OSU) . . . 11

2.1.2 Korrektion f¨or ¨andliga populationer . . . 11

2.2 Den linj¨ara regressionsmodellen . . . 12

2.3 Antaganden . . . 12

2.4 Multipel linj¨ar regressionsanalys . . . 12

2.4.1 Estimering av regressionskoefficienter . . . 13

2.4.2 Interaktionseffekter . . . 13

2.5 Normalf¨ordelade feltermer . . . 13

2.5.1 Homoskedasticitet . . . 14

2.5.2 Endogenitet . . . 14

2.5.3 Quantile-Quantile plot . . . 14

2.5.4 Residualplot . . . 15

2.6 Multikollinearitet . . . 16

2.6.1 VIF . . . 16

2.7 Hypotespr¨ovning . . . 17

2.7.1 t-test & p-v¨arde . . . 17

2.8 R2 och justerad R2 . . . 18

2.9 Akaike Information Criterion (AIC) . . . 19

3 Metod 20 3.1 Datainsamling . . . 20

3.1.1 Responsvariabeln . . . 20

3.1.2 F¨orklarande variabler . . . 21

3.1.3 F¨orkastade enk¨atsvar . . . 21

3.2 Genomf¨orande . . . 22

3.2.1 Mjukvaror . . . 22

4 Resultat 23 4.1 Enk¨atsvar . . . 23

4.2 Initial regressionsmodell . . . 24

4.3 Modifiering av regressionsmodell . . . 24

4.4 Slutgiltig regressionsmodell . . . 26

4.4.1 Modellvalidering . . . 27

5 Diskussion 29

(8)

6 Slutsats 31

7 Referenser 32

8 Bilagor 34

8.1 Bilaga A - Fr˚ageformul¨ar . . . 34

(9)

1 Inledning

1.1 Bakgrund

I dagens stressfyllda samh¨alle kan det vara m¨odosamt f¨or studenter att finna motivation och energi att hinna med studierna parallellt med en fritid. Det uppst˚ar sv˚arigheter i att veta vad och hur mycket man b¨or l¨agga fokus p˚a i vardagen, vilket kan resultera i oro, stress, ˚angest och dylikt. Dessa fysiologisk- hormonella reaktioner ¨ar i stort fokus idag och vanliga ¨amnen f¨or forskning ¨ar bland annat hur tr¨aning och s¨omn p˚averkar hj¨arnan.

1.1.1 Tidigare studier

I en interventionsstudie som genomf¨ordes av Lina B. K¨all, Michael Nilsson och Thomas Lind´en studerades fysiska aktivitetens inverkan p˚a studieresultatet f¨or grundskoleelever. Studien visade att ¨okad fysisk aktivitet m¨ojligtvis kan f¨orb¨attra studieresultaten f¨or grundskoleeleverna.

I en annan interventionsstudie utf¨ord av Ingegerd Ericsson, som genomf¨ordes p˚a grundskoleelever i ˚arskurs 1-3, studerades relationerna mellan barnens motorik, koncentrationsf¨orm˚aga och studieprestation. Studien unders¨okte om ¨okad fysisk aktivitet p˚averkade koncentrationsf¨orm˚agan och resultatet av studien visar ett positivt samband.

Enligt ˚arsrapporten fr˚an UK ¨A (2014) ¨ar det dubbelt s˚a vanligt att barn vars f¨or¨aldrar ¨ar akademiker b¨orjar studera efter gymnasiet.

1.2 Syfte

D˚a de flesta tidigare studierna har riktat sig till grundskoleelever ¨ar syftet med denna studie att ge l¨asaren en inblick i hur tv˚a olika typer av faktorer p˚averkar h¨ogskolestudenternas prestation. Dessa typer av faktorer ¨ar de h¨alsorelaterade faktorerna s¨omn och tr¨aning samt f¨or¨aldrarnas akademiska bakgrund.

1.3 Problemformulering

F¨or att genomf¨ora denna studie samlas data in via en enk¨atunders¨okning som riktar sig till en population av utvalda civilingenj¨orsprogram p˚a KTH. Popula- tionen begr¨ansas till samma skola och program med likartade kursuppl¨agg f¨or att undvika p˚averkande faktorer s˚asom sv˚arighetsgrader p˚a kurser. Datan insamlad fr˚an enk¨atunders¨okningen skall vidare analyseras med statistiska metoder i form av linj¨ar regressionsanalys f¨or att m¨ata faktorernas samband med studiepresta- tionen som i denna unders¨okning m¨ats i snittbetyg.

(10)

1.3.1 Fr˚agest¨allning

Fr˚agest¨allningen f¨or detta projekt kan beskrivas med nedanst˚aende punkter:

• Kommer ett samband finnas mellan studenternas studieprestation och tiden de l¨agger ner till s¨omn och fysisk aktivitet?

• Presterar studenter b¨attre med f¨or¨aldrar som har n˚agon form av akademisk bakgrund?

(11)

2 Matematisk teori

2.1 Komplexa unders¨ okningar

I en komplex unders¨okning (Complex Survey i engelskspr˚akig litteratur) delas populationen in i flera niv˚aer av grupper (s˚a kallade strata) och i den l¨agsta av dessa niv˚aer tas sedan stickprov som utg¨or observationerna f¨or analysen.

Exempelvis kan niv˚aindelningen vara att man begr¨ansar sig till Sverige, Stock- holm, sedan KTH och slutligen civilingenj¨orsprogrammen d¨ar dessa blir den l¨agsta niv˚an. Om populationen delas in i strata med mindre inre variation, kan m¨angden observationer oftast minskas utan f¨orlust av resultatens tillf¨orlitlighet.

Med en utf¨ord komplex unders¨okning kan inte observationerna antas vara helt oberoende; detta d˚a stickprov fr˚an samma undergrupp troligen kommer vara mer lika ¨an stickprov fr˚an en annan undergrupp (Frongillo, 1996).

2.1.1 Obundet slumpm¨assigt urval (OSU)

En urvalsmetod som kan anv¨andas f¨or datainsamling ¨ar ett obundet slumpm¨assigt urval (OSU) (Simple Random Sampling i engelskspr˚akig litteratur). OSU in- neb¨ar att man inte ”styr” urvalet utan att det helt och h˚allet ¨ar slumpen som best¨ammer (Dahmstr¨om, 2005). Vid anv¨andandet av denna urvalsmetod g¨aller att:

• En population av N element antas, som samtidigt ¨ar urvalsenheterna.

Varje t¨ankbart stickprov om n st element har samma sannolikhet.

• Varje element har samma sannolikhet att bli valt och denna inklusion- ssanoliket ¨ar lika n/N

Det finns tv˚a olika varianter p˚a denna urvalsmetod, n¨amligen (Dahmstr¨om, 2005):

• Dragning med ˚aterl¨aggning d¨ar totalt Nn st olika stickprov kan erh˚allas.

• Dragning utan ˚aterl¨aggning d¨ar Nn st olika stickprov kan erh˚allas.

2.1.2 Korrektion f¨or ¨andliga populationer

Vid insamling av data fr˚an en ¨andlig population m˚aste en korrektion g¨oras f¨or medelfelet (Standard Error, SE, i engelskspr˚akig litteratur). Denna korrektion utf¨ors via Finite Population Correction (FPC) som ber¨aknas enligt (Dahm- str¨om, 2005)

F P C =r N − n

N − 1 (1)

Om stickprovsstorleken ¨ar mindre ¨an 10% av populationsstorleken kan FPC ignoreras, men b¨or annars inkluderas f¨or att ge en mer korrekt analys (Blom, 2005).

(12)

2.2 Den linj¨ ara regressionsmodellen

Linj¨ar regressionsanalys anv¨ands f¨or att approximera en beroende variabel (re- sponsvariabel) med hj¨alp av en eller flera oberoende variabler (f¨orklarande vari- abler). I en modell med endast en f¨orklarande variabel ben¨amns analysen f¨or simpel linj¨ar regression och i fallet med tv˚a eller fler f¨orklarande variabler ben¨amns analysen f¨or multipel linj¨ar regression (Montgomery, 2012).

2.3 Antaganden

Vid anv¨andande av linj¨ar regressionsanalys m˚aste n˚agra antaganden g¨oras, n¨amligen att

• Det f¨oreligger ett linj¨art samband mellan de f¨orklarande variablerna och responsvariabeln.

• Multikollinearitet r˚ader ej, vilket inneb¨ar att det inte existerar ett exakt linj¨art samband mellan de f¨orklarande variablerna.

• Feltermerna εi ¨ar normalf¨ordelade enligt: εi ∼ N (0, σ2). Med denna f¨ordelning g¨aller det vidare att

– E(εi) = 0, det vill s¨aga att v¨antev¨ardet av feltermerna antas vara noll

– Var(εi) = σ2, det vill s¨aga att variansen ¨ar densamma f¨or samtliga feltermer, detta ben¨amns homoskedasticitet.

2.4 Multipel linj¨ ar regressionsanalys

Med ett insamlat dataset {yi, xi1, xi2, ..., xik}ni=1, d¨ar xi ¨ar de f¨orklarande vari- ablerna, yi ¨ar responsvariabeln, n ¨ar storleken p˚a datasetet och k ¨ar antalet f¨orklarande variabler, st¨alls modellen f¨or regressionsanalys upp enligt

yi= xiTβ + εi= β0+ β1xi1+ ... + βkxik+ εi. (2) β0 utg¨or ett intercept, β1, β2, · · · , βk ¨ar koefficienter f¨or de f¨orklarande vari- ablerna (regressionskoefficienter) och εi ¨ar en felterm. De n ekvationerna kan skrivas p˚a matrisnotation enligt

Y = Xβ + ε d¨ar

Y=

 y1 y2

... yn

 , X=

1 x11 · · · x1k 1 x21 · · · x2k

... ... . .. ... 1 xn1 · · · xnk

 , β =

 β0 β1

... βk

 , ε =

 ε1 ε2

... εk

(13)

2.4.1 Estimering av regressionskoefficienter

Regressionskoefficienten, βi, reflekterar hur responsvariabeln ¨andras med f¨or¨andringar i den i :te f¨orklarande variabeln, f¨orutsatt att ¨ovriga f¨orklarande variabler h˚alls konstanta.

Regressionskoefficienterna, βi, ¨ar ok¨anda konstanter som kan estimeras med bland annat Ordinary Least Square (OLS) utifr˚an den insamlade datan. OLS- estimeringen av β, ˆβ, ¨ar v¨ardet som minimerar summan av de kvadrerade resid- ualerna vilket kan f˚as genom att l¨osa normalekvationen, XTε = 0. H¨ˆ arledningen av ekvationen utel¨amnas i denna rapport, OLS-estimeringen av β ¨ar (Lang, 2015)

β = (Xˆ TX)−1XTY (3)

2.4.2 Interaktionseffekter

Regressionmodeller kan ¨aven inneh˚alla interaktionseffekter som kan p˚averka modellen. Om tv˚a eller fler f¨orklarande variabler antas vara interaktiva ¨ar det viktigt att ta h¨ansyn till interaktionseffekterna, om inte kan det medf¨ora komplikationer i den slutgiltiga regressionmodellen (Frost, 2017a). Exempelvis, betrakta modellen:

y = β0+ β1x1+ β2x2+ β12x1· x2+  (4) x3 s¨atts till x3= x1· x2och β3= β12.

Ekvationen ovan skrivs nu om till:

y = β0+ β1x1+ β2x2+ β3x3+  (5) som nu ¨ar en linj¨ar regressionsmodell (om modellen ¨ar linj¨ar i parametrarna βi

anses modellen vara linj¨ar).

Interaktionen inneb¨ar att effekten skapad av en variabel, x1, beror p˚a niv˚an av den andra variabeln, x2. (Montgomery, 2012).

2.5 Normalf¨ ordelade feltermer

Ett vanligt antagande f¨or regressionsanalysen ¨ar som tidigare n¨amnt (se 2.3 An- taganden) att feltermerna, εi, ¨ar normalf¨ordelade enligt εi ∼ N (0, σ2). Detta antagande g¨ors f¨or att f¨orenkla teorin och ber¨akningarna, men ¨ar inte helt san- ningsriktig. Dock kommer detta antagande att g¨oras f¨or denna studie.

Ur antagandet f¨oljer det att homoskedasticitet och exogenitet b¨or f¨oreligga f¨or att regressionsmodellen skall ge ett rillr¨attavisande resultat (Lang 2015).

(14)

2.5.1 Homoskedasticitet

Homoskedasticitet inneb¨ar att feltermerna har konstant varians, Var(εi) = σ2, och om motsatsen r˚ader (heteroskedasticitet) tenderar p-v¨ardena att bli l¨agre

¨

an de borde (se sektion 2.7.1 f¨or beskrivning av p-v¨arde). Anledningen till detta

¨

ar f¨or att OLS-metoden detekterar inte den ¨okade variansen i estimeringen av regressionskoefficienten som uppst˚ar vid heteroskedasticitet. Om p-v¨ardet ¨ar l¨agre ¨an vad det b¨or, kan den dragna slutsatsen om signifikansniv˚an vara felak- tig.

Om heteroskedasticitet r˚ader b¨or modellen i f¨orsta hand omformuleras genom att exempelvis l¨agga till/ta bort f¨orklarande variabler eller transformera dem.

Ett annat s¨att ¨ar att utf¨ora en viktad regressionsanalys vilket minskar summan av de viktade kvadrerade residualerna; med r¨att viktning ¨overg˚ar heteroskedas- ticiteten till homoskedasticitet. Om datan manipuleras genom exempelvis trans- formationer eller viktning kan resultatet dock bli sv˚arare att tolka (Lang 2015).

2.5.2 Endogenitet

Ett antagande f¨or regressionsmodellen ¨ar att E(εi) = 0 (2.2 Antaganden) vilket

¨

ar en direkt konsekvens av exogenitetsantagandet som s¨ager att E(ε|X) = 0.

Antagandet om exogenitet ¨ar ett krav f¨or att OLS-modellen f¨or estimeringen av regressionskoefficienterna skall h˚alla. Om antagandet inte ¨ar uppfyllt, allts˚a att E(ε|X) 6= 0, kallas de f¨orklarande variabler som korrelerar med sina feltermer f¨or endogena. Det problem som uppst˚ar d˚a ¨ar att de regressionskoefficienter som tillh¨or de endogena variablerna blir ¨overestimerade vid positiv korrelation med feltermerna och underestimerade vid negativ korrelation med feltermerna (Lang, 2015).

2.5.3 Quantile-Quantile plot

En quantile-quantile plot (Q-Q plot) ¨ar ett grafiskt hj¨alpmedel f¨or att avg¨ora om ett dataset har en viss f¨ordelning, exempelvis normal eller logaritmisk, och i regressionsanalysen antas feltermerna vara normalf¨ordelade vilket kan kon- trolleras med en s˚adan graf. I en Q-Q plot visas de estimerade kvantilerna f¨or datasetet mot kvantilerna f¨or f¨ordelningen, och om b˚ada kvantilerna besit- ter samma f¨ordelning kommer punkterna att forma en rak linje (Ford, 2015).

M˚attligt avvikande v¨arden ¨ar vanliga, men vid mer extrema avvikningar b¨or feltermerna analyseras mer noggrannt. Nedan visas olika former och dess re- spektive ben¨amningar.

(15)

Figur 2.1: Olika former av Q-Q plot.

2.5.4 Residualplot

F¨or att unders¨oka om det r˚ader heteroskedacitet i regressionsmodellen kan det analyseras grafiskt via residualplottar. Det g˚ar ¨aven att unders¨oka om regres- sionmodellen uppfyller antangandet om linj¨aritet. (Wooldridge, 2013) En resid- ualplot som g˚ar att anv¨anda ¨ar en s˚a kallad Residuals vs. Fitted-plot.

(16)

Figur 2.2: Olika scenarion av residualplot.

Skulle punkterna f¨olja ett m¨onster, s˚asom den andra plotten p˚a figur 2.2 skulle det inneb¨ara att regressionsmodeller inneh˚aller heteroskedastiska residualerter- mer, vilket b¨or ˚atg¨ardas. D¨aremot om inget m¨onster uppt¨acks, s˚asom den f¨orsta plotten p˚a figur 2.2 r˚ader homoskedacitet och antagandet om residualernas lika varians uppfylls. Den tredje plotten p˚a figur 2.2 visar en parabelformad struktur och detta indikerar icke-linj¨aritet vilket bryter antagandet om linj¨aritet.

2.6 Multikollinearitet

Multikollinearitet r˚ader n¨ar tv˚a eller fler av de f¨orklarande variablerna i regres- sionsanalysen har ett linj¨art samband med varandra, vilket i princip inneb¨ar att samma information anv¨ands p˚a mer ¨an ett s¨att. H¨og multikollinearitet orsakar problem i analysen d˚a variansen i estimeringen av koefficienterna f¨or de f¨orklarande variablerna, βi, ¨okar. Resultatet blir en instabil estimering av parametrarna och medf¨or sv˚arigheter att fastst¨alla de f¨orklarande variablernas effekt p˚a responsvariabeln (Wooldridge, 2013).

2.6.1 VIF

En metod f¨or att testa multikollineariteten ¨ar att ber¨akna Variance Inflation Factor (VIF) f¨or regressionskoefficienterna. VIF m¨ater hur mycket de estimer- ade regressionskoefficienterna ¨ar amplifierade i j¨amf¨orelse med d˚a de oberoende variablerna inte ing˚ar i ett linj¨art samband. VIF ber¨aknas f¨or den i :te koeffi- cienten enligt (Dickey, 1998)

VIFi= 1

(1 − R2i) (6)

d¨ar R2i ¨ar determinationskoefficienten fr˚an regressionen av den i :te f¨orklarande variabeln, Xi, p˚a de ¨ovriga f¨orklarande variablerna. Om VIFi > 10 anses de f¨orklarande variablerna vara starkt korrelerade vilket inneb¨ar att multi- kollinearitet r˚ader.

(17)

2.7 Hypotespr¨ ovning

F¨or att bed¨omma om den uppst¨allda hypotesen ¨ar rimlig m˚aste ett hypotest utf¨oras. En hypotespr¨ovning evaluerar tv˚a olika hypoteser i en population f¨or att sedan best¨amma vilken av dessa hypoteser som st¨ammer mest ¨overens med dataurvalet. En hypotespr¨ovning best˚ar vanligtvis av en nollhypotes H0och en alternativ hypotes HA (Minitab,2017). Signifikansniv˚an α s¨atts vanligtvis till 5% och om p-v¨ardet ¨overstiger denna niv˚a kan inte nollhypotesen f¨orkastas.

2.7.1 t-test & p-v¨arde

Ett s¨att att testa hypotesen ¨ar att utf¨ora t-test (¨aven kallad Student’s t-test) som j¨amf¨or tv˚a medelv¨arden och anlyserar deras olikheter. Testet visar dessutom hur signifikanta dessa olikheter ¨ar, allts˚a om olikheterna ¨ar slumpartade eller inte (Wooldridge, 2013). T-testet f¨oljer en t-f¨ordelningskurva som uppkommer i scenarion d¨ar medelv¨ardet estimeras av en normalf¨ordelad population vars stor- lek ¨ar liten och standardavvikelse ¨ar ok¨and. Skulle antalet frihetsgrader ¨oka g˚ar t-f¨ordelningen mot en standardiserad normalf¨ordelning (Hazewinkel, 2001).

Figur 2.3: t-f¨ordelningskurvan med olika frihetsgrader k.

I sammanhang med regressionsanalys st¨alls vanligtvis nollhypotesen upp s˚a att den f¨orklarande variabeln ¨ar lika med noll; allts˚a att regressionmodellen ¨ar b¨attre om den iakttagna oberoende variabeln exkluderas fr˚an modellen. Den al- ternativa hypotesen p˚ast˚ar det motsatta, att den beaktade oberoende variabeln b¨or inkluderas i modellen (Montgomery, 2012). Matematiskt kan detta skrivas

H0: βi= 0 HA: βi6= 0

(18)

Vidare ¨ar t-v¨ardet matematiskt definierad som t =

βˆi− βi

SE( ˆβi) (7)

d¨ar SE( ˆβi) ¨ar medelfelet f¨or den i:te estimerade koefficienten.

Ett h¨ogt t-v¨arde kommer att medf¨ora ett h¨ogt p-v¨arde och vice versa. Hur h¨ogt eller l˚agt t-v¨ardet ¨ar beror p˚a om p-v¨ardet ¨ar inom den valda signifikansniv˚an eller inte.

P-v¨ardet f¨or t-testet kan erh˚allas enligt

P r(X > |t|) (8)

d¨ar X f¨oljer en t-f¨ordelning.

P-v¨ardet avg¨or om det observerade f¨orh˚allandet i samplingspopulationen ocks˚a existerar i en st¨orre population. P-v¨ardet testar nollhypotesen f¨or varje f¨orklarande variabel och unders¨oker om n˚agot samband finns med responsvariabeln. Ett p- v¨arde st¨orre ¨an den givna signifikansniv˚an, α, indikerar brist p˚a bevis i datasetet f¨or att f¨orkasta nollhypotesen, vilket medf¨or att den beaktade f¨orklarande vari- abeln b¨or exkluderas eller modifieras. S˚aledes skall p-v¨ardet vara mindre ¨an den givna signifikansniv˚an, α, f¨or att nollhypotesen skall f¨orkastas.

2.8 R

2

och justerad R

2

Determinationskoefficienten R2(¨aven kallad f¨orklaringsgrad) ¨ar andelen av den totala kvadratsumman av responsvariabeln ”f¨orklarad” av de oberoende vari- ablerna i modellen (Dickey, 1998). Matematiskt uttrycks detta som

R2= Pn

i=1( ˆyi− ¯y)2 Pn

i=1(yi− ¯y)2 (9)

d¨ar n ¨ar antalet observationer, den ber¨aknade i:te punkt fr˚an regressionsmod- ellen, ¯y det skattade medelv¨ardet f¨or y och yi det i:te v¨ardet av den beroende variabeln fr˚an m¨atningen.

D˚a determinationskoefficienten tenderar att ¨oka ju fler oberoende variabler som anv¨ands i modellen, vilket resulterar i en felaktig determinationskoefficient, anv¨ands en s˚a kallad justerad determinationskoefficient. Detta ¨ar aktuellt f¨or fallet med multipel linj¨ar regression och ¨ar definerad som

R2adj = 1 −(1 − R2)(n − 1)

n − k (10)

d¨ar k ¨ar antalet oberoende variabler i modellen.

(19)

Detta uttryck tar bort frihetsgradernas inverkan och med modeller som in- volverar flera parametrar. Till skillnad fr˚an R2 ¨okar vanligtvis inte R2adj n¨ar parametrar l¨aggs till i modellen. V¨ardet av R2adj kommer att stabilisera till en

¨

ovre gr¨ans n¨ar parametrar l¨aggs till. (Dickey, 1998)

2.9 Akaike Information Criterion (AIC)

Ett AIC-test kan anv¨andas f¨or att kontrollera kvaliteten av regressionsmodeller och ¨ar definierad matematiskt som

AIC = n · ln |ˆε|2 + 2k (11) d¨ar ˆε ¨ar den estimerade residualen f¨or regressionsmodellen som testas.

AIC-testet tillhandah˚aller information om vilken regressionsmodell som generar minst informationsf¨orlust i f¨orh˚allande till den ”exakta” modellen. Den regres- sionsmodell som minimerar AIC-v¨ardet ¨ar den regressionsmodell som minimerat informationsf¨orlusten, och ¨ar d¨arf¨or att f¨oredra (Lang, 2015).

(20)

3 Metod

Denna studie kan delas upp i tre steg, n¨amligen enk¨atunders¨okning, val av re- gressionsmodell och slutligen modifiering och validering av modellen.

Enk¨atunders¨okningen utf¨ordes p˚a en population som approximerats som ett obundet slumpm¨assigt urval f¨or att ta h¨ansyn till ”Finite Population Correction”- faktorn (se 2.1.2 Korrektion f¨or ¨andliga populationer). N¨ar datan samlats in st¨alldes en initial regressionsmodell upp, med val av f¨orklarande variabler utifr˚an enk¨atsvaren. Denna regressionsmodell modifierades till en slutgiltig modell som valideras utifr˚an de olika testerna beskrivna under teoriavsnittet.

3.1 Datainsamling

Som tidigare n¨amnt (1.3 Problemformulering) begr¨ansades populationen till samma skola och program med likartade kursuppl¨agg f¨or att minska antalet p˚averkande faktorer. Populationen innefattade d¨arav studenter fr˚an civilin- genj¨orsprogrammen Maskinteknik, Farkostteknik och Design och produktfram- tagning vid KTH. Vidare prioriterades data fr˚an studenter som har studerat i minst tre ˚ar f¨or att erh˚alla en b¨attre analys; detta eftersom snittbetyget kon- vergerar med fler avklarade kurser.

Datan samlades in via en enk¨at (se Bilaga 1) som besvarades online via Google Formul¨ar. Enk¨aten delades ut till tre Facebook-grupper som huvudsakligen inkluderar medlemmar utifr˚an ovanst˚aende populationsbegr¨ansning och det to- tala antalet medlemmar i grupperna som sett informationen ang˚aende enk¨aten valdes som populationens storlek, N. Stickprovsstorleken, n, ¨ar antal svar som anv¨andes i regressionsanalysen.

3.1.1 Responsvariabeln

Den responsvariabel som valdes f¨or att reflektera studieprestationen blev i denna analys studentens snittbetyg. I enk¨aten fanns kryssalternativ f¨or olika intervall av snittbetyg enligt

• F-E (0.0 - 3.0)

• E-D (3.0 - 3.5)

• D-C (3.5 - 4.0)

• C-B (4.0 - 4.5)

• B-A (4.5 - 5.0)

Skalan avser KTH-studenter och betygen ¨ar enligt den sjugradiga m˚alrelaterade betygsskalan vars varje numeriska v¨arde ¨ar representerad ovan (KTH, 2018).

Det inkluderades ¨aven en f¨oljdfr˚aga med enk¨atsvararens exakta snittbetyg, som

(21)

var valfri att besvara. Vektorn med snittbetyg inneh¨oll de exakta snittbetygen f¨or de studenter som svarade med detta, och de som enbart angav snittbetyget i intervallerna fick medelv¨ardet i intervallet som snittbetyg (exempelvis ett svar D-C fick v¨ardet 3.75). Undantag f¨or svar F-E som gavs v¨ardet 3.0.

3.1.2 F¨orklarande variabler

De f¨orklarande variablerna som anv¨andes i analysen var:

• ˚Alder : denna variabel anv¨ands i analysen med v¨ardet som ¨ar angivet p˚a enk¨aten.

• S¨omn: denna variabel m¨ats i antal timmar studenten i genomsnitt sover p˚a vardagarna.

• Tr¨aning: denna variabel m¨ats i antal dagar studenten i genomsnitt tr¨anar per vecka.

• F¨or¨aldrarnas akademiska bakgrund : denna variabel delas upp i tv˚a dummy variabler d¨ar

– F¨or¨alder 1 ¨ar f¨orsta variabeln som antar v¨ardet 1 om en av f¨or¨aldrarna har akademisk bakgrund, och 0 om ingen av f¨or¨aldrarna har akademisk bakgrund.

– F¨or¨alder 2 ¨ar andra variabeln som antar v¨ardet 1 om den andra f¨or¨aldern ocks˚a har akademisk bakgrund. V¨ardet 0 h¨ar inneb¨ar att antingen ena f¨or¨alderna eller ingen av f¨or¨aldrarna har akademisk bak- grund, beroende p˚a v¨ardet i f¨oreg˚aende variabel.

• Teknisk bakgrund : denna variabel bildas som en dummy variabel som an- tar v¨ardet 1 om minst en av f¨or¨aldrarna har akademisk bakgrund inom omr˚adet teknik/vetenskap och v¨ardet 0 om f¨or¨aldrarna har akademisk bak- grund inom annat omr˚ade alternativt inte har n˚agon akademisk bakgrund.

Denna uppdelning gjordes f¨or att h¨alften av studenterna som svarade p˚a denna fr˚aga angav teknik/vetenskap (se 4.1 Enk¨atsvar).

3.1.3 F¨orkastade enk¨atsvar

Enk¨aten inneh¨oll fr˚agor som inte besvarades med kryssalternativ, vilket ledde till att orimliga v¨arden uppstod; exempelvis ett svar p˚a snittbetyget som inte fanns inom det korrekta intervallet. Enk¨atsvaren med orimliga v¨arden beak- tades ej i analysen.

˚Alder var en valfri fr˚aga, och d˚a denna variabel anv¨andes i analysen f¨orkastades

¨

aven de enk¨atsvar d¨ar svar p˚a denna fr˚aga var utel¨amnad.

(22)

3.2 Genomf¨ orande

N¨ar enk¨atunders¨okningen ans˚ags vara f¨ardig kunde regressionsanalysen p˚ab¨orjas d¨ar en initial modell st¨alldes upp och VIF-v¨arden kontrollerades f¨or att identi- fiera eventuella korrelationer mellan variablerna. Modellen modifierades d¨arefter utifr˚an erh˚allna p-v¨arden, AIC och R2samt R2adj till en slutgiltig modell; detta genom att antingen ta bort eller modifiera den f¨orklarande variabel med f¨or h¨ogt p-v¨arde tills dess att ¨onskad signifikansniv˚a α p˚a 5% uppn˚addes.

N¨ar ¨onskad signifikansniv˚a var uppn˚add verifierades modellens validitet utifr˚an de antaganden som gjorts f¨or multipel linj¨ar regressionsanalys (se 2.3 Antagan- den).

3.2.1 Mjukvaror

De program som anv¨andes i studien var

• Google Forms, f¨or att utf¨ora enk¨atunders¨okningen

• Microsoft Excel, f¨or att sammanst¨alla datan fr˚an enk¨atunders¨okningen

• R, med till¨aggspaketet ”Survey”, f¨or att genomf¨ora regressionsanalysen utifr˚an en komplex unders¨okning och korrektionsfaktorn f¨or ¨andliga pop- ulationer (se avsnitt 2.1.2)

(23)

4 Resultat

4.1 Enk¨ atsvar

Totalt erh¨olls 204 enk¨atsvar ur en population p˚a 403 studenter. Av dessa 204 svar anv¨andes 182 svar f¨or analysen. Nedan f¨oljer samlad statistik av samtliga svar.

Figur 4.1: ˚Aldersf¨ordelning med ˚alder p˚a horisontell axel och antal p˚a vertikal axel

Figur 4.2: K¨onsf¨ordelning till v¨anster och typ av civilingenj¨orsprogram till h¨oger

Figur 4.3: ˚Arskurs till v¨anster och antal f¨or¨aldrar med akademisk bakgrund till h¨oger

Figur 4.4: Genomsnittlig tr¨aning per vecka till v¨anster och genomsnittlig s¨omn i vardagen till h¨oger

(24)

Figur 4.5: Snittbetyg

4.2 Initial regressionsmodell

Den initiala regressionsmodellen som st¨alldes upp var Snittbetyg = β0+ β1(F¨or¨alder 1) + β2(F¨or¨alder 2)

3(Teknisk bakgrund) + β4(S¨omn) + β5(Tr¨aning) + ε.

d¨ar de f¨orklarande variablernas inneb¨ord beskrivs i detalj i metodavsnittet.

I Tabell 4.1 nedan presenteras erh˚allna resultat f¨or respektive f¨orklarande vari- abel. VIF-v¨arden skall enligt tidigare n¨amnt ligga <10 vilket ¨ar fallet. P-v¨ardet f¨or respektive f¨orklarande variabel skall ha ett v¨arde under (eller lika med) signifikansniv˚an p˚a 5% vilket inte g¨aller och inneb¨ar allts˚a att modellen b¨or modifieras.

F¨orklarande variabel β-estimering Medelfel p-v¨arde VIF

(Intercept) 4.358 0.201 0.000 -

F¨or¨alder 1 0.174 0.073 0.019 1.59

F¨or¨alder 2 -0.093 0.065 0.156 1.59

Teknisk bakgrund 0.267 0.065 0.000 1.62

S¨omn -0.064 0.031 0.039 1.27

Tr¨aning 0.021 0.016 0.198 1.35

Tabell 4.1: Resultat f¨or den initiala modellen

4.3 Modifiering av regressionsmodell

D˚a den initiala modellen inte h˚aller ¨onskv¨arda v¨arden m˚aste de f¨orklarande variablerna modifieras.

Modifiering 1

F¨orst och fr¨amst reduceras modellen och den f¨orklarande variabeln F¨or¨alder 2 tas bort. Vidare omformuleras d˚a den f¨orklarande variabeln F¨or¨alder 1 och inneb¨ar att minst en av f¨or¨aldrarna har akademisk bakgrund om variabeln erh˚aller v¨ardet 1 (v¨ardet 0 inneb¨ar som innan att ingen av studentens f¨or¨aldrar har akademisk bakgrund). Med denna modell erh˚alls v¨arden enligt Tabell 4.2 nedan.

(25)

F¨orklarande variabel β-estimering Medelfel p-v¨arde VIF

(Intercept) 4.318 0.200 0.000 -

F¨or¨alder 1 0.136 0.068 0.048 1.38

Teknisk bakgrund 0.233 0.062 0.000 1.47

S¨omn -0.059 0.031 0.060 1.31

Tr¨aning 0.021 0.016 0.200 1.38

Tabell 4.2: Resultat efter modifiering 1

Som i den initiala modellen ¨ar VIF-v¨ardena godk¨anda men regressionsmod- ellen m˚aste vidare modifieras f¨or att uppn˚a ¨onskv¨ard signifikansniv˚a p˚a de f¨orklarande variablerna.

Modifiering 2

D˚a f¨orklaringsvariabeln Tr¨aning hade h¨ogsta p-v¨ardet i modellen ovan hanteras denna. Variabeln ¨ar dock ¨onskv¨arda i analysen och modifieras d¨arf¨or ist¨allet f¨or att tas bort, och modifikationen som testas h¨ar ¨ar en interaktion med variabeln S¨omn. Resultaten kan ses i Tabell 4.3 nedan (ett kolontecken mellan tv˚a vari- abler inneb¨ar en interaktion mellan dem).

F¨orklarande variabel β-estimering Medelfel p-v¨arde VIF

(Intercept) 4.373 0.213 0.000 -

F¨or¨alder 1 0.135 0.068 0.049 1.38

Teknisk bakgrund 0.234 0.061 0.000 1.47

S¨omn -0.067 0.034 0.048 1.56

S¨omn:Tr¨aning 0.003 0.002 0.164 1.66

Tabell 4.3: Resultat efter modifiering 2

Som i modellen efter f¨orsta modifieringen ¨ar VIF-v¨ardena godk¨anda men regres- sionsmodellen m˚aste vidare modifieras f¨or att uppn˚a ¨onskv¨ard signifikansniv˚a p˚a de f¨orklarande variablerna.

(26)

Modifiering 3

I den andra modifieringen testades Tr¨aning i en interaktion med S¨omn men var ej statistiskt signifikant, och d¨arf¨or valdes denna f¨orklarande variabel att tas bort fr˚an analysen. Resultaten f¨or de tre kvarvarande f¨orklarande variablerna ses i Tabell 4.4 nedan.

F¨orklarande variabel β-estimering Medelfel p-v¨arde VIF

(Intercept) 4.303 0.20058 0.000 -

F¨or¨alder 1 0.145 0.06936 0.038 1.42

Teknisk bakgrund 0.233 0.06195 0.000 1.41

S¨omn -0.050 0.02913 0.088 1.03

Tabell 4.4: Resultat efter modifiering 3

Som i ¨ovriga modeller ¨ar VIF-v¨ardena godk¨anda men regressionsmodellen m˚aste vidare modifieras f¨or att uppn˚a ¨onskv¨ard signifikansniv˚a p˚a de f¨orklarande vari- ablerna.

4.4 Slutgiltig regressionsmodell

I den tredje modifieringen av modellen hade den f¨orklarande variabeln Tr¨aning tagits bort, men d¨aremot uppn˚adde inte S¨omn en godk¨and signifikansniv˚a. P˚a samma s¨att ¨onskades inte denna f¨orklarande variabel att tas bort, och d¨arf¨or interagerades denna variabel med studentens ˚alder. Resultaten kan ses i Tabell 4.5 nedan.

F¨orklarande variabel β-estimering Medelfel p-v¨arde VIF

(Intercept) 4.406 0.162 0.000 -

F¨or¨alder 1 0.144 0.070 0.041 1.45

Teknisk bakgrund 0.228 0.062 0.000 1.41

S¨omn:˚Alder -0.003 0.001 0.006 1.03

Tabell 4.5: Resultat f¨or den slutgiltiga regressionsmodellen

Modellen ovan h˚aller de kriterier som var satta, n¨amligen en signifikansniv˚a p˚a 5% och ett VIF-v¨arde <10 f¨or de f¨orklarande variablerna. Varje modells AIC- v¨arde samt R2- och R2adj-v¨arde ¨ar ¨aven presenterade i tabellen nedan, d¨ar det kan konstateras att den slutgiltiga modellen ¨aven hade l¨agst AIC-v¨arde (vilket f¨oredras) samt h¨ogst R2- och Radj2 -v¨arde (vilket f¨oredras) ¨aven om skillnaderna

¨

ar marginella.

(27)

Regressionsmodell AIC-v¨arde R2-v¨arde R2adj-v¨arde

Initial modell 41.57 0.115 0.090

Modifiering 1 41.57 0.110 0.090

Modifiering 2 41.53 0.111 0.091

Modifiering 3 41.53 0.105 0.090

Slutgiltig modell 41.03 0.115 0.100

Tabell 4.6: AIC-, R2- och R2adj-v¨arden f¨or de olika regressionsmodellerna

4.4.1 Modellvalidering

F¨or att vidare validera modellen kontrolleras om antagandena f¨or regressions- analysen, enligt 2.3 Antaganden, ¨ar uppfyllda.

Q-Q plot

Ett av dessa antaganden ¨ar att feltermerna ¨ar normalf¨ordelade (se 2.3 Antagan- den). Som Figur 4.5 nedan visar ¨ar residualerna approximativt normalf¨ordelade;

sm˚a avvikelser ¨ar vanligt f¨orekommande.

Figur 4.6: Q-Q plot f¨or slutgiltig modell

(28)

Homoskedasticitet

F¨or att kontrollera antagandet om homoskedasticitet och linj¨aritet anv¨andes en residualplot. I Figur 4.6 nedan kan det ses att antagandena ¨ar uppfyllda (j¨amf¨or med Figur 2.2 i teoriavsnittet), och anledningen till residualplottens utseende diskuteras n¨armare i diskussionsavsnittet.

Figur 4.7: Residualplot f¨or slutgiltig modell

(29)

5 Diskussion

L˚ag f¨orklaringsgrad

Som resultatet visar har den slutgiltiga modellen en l˚ag determationskoefficient, vilket i teorin inte ¨ar efterstr¨avat f¨or att erh˚alla ett tydligt resultat. Determina- tionskoefficienten ¨ar den procentuella m¨angd av responsvariabeln som f¨orklaras av modellen vilket inneb¨ar kortfattat hur v¨al modellen kan f¨orklara verkligheten.

Men inneb¨ar en l˚ag determinationskoefficient alltid att modellen ¨ar d˚alig? I vissa studief¨alt ¨ar det f¨orv¨antat att f˚a en l˚ag determinationskoefficient, exem- pelvis studier som f¨ors¨oker f¨orutsp˚a m¨anskligt beteende (Minitab, 2013) ten- derar att ge ett l˚agt R2v¨arde d˚a m¨anskligt beteende ¨ar komplext och sv˚art att f¨orutsp˚a. Ett l˚agt R2-v¨arde inneb¨ar inte n¨odv¨andigtvis att regressionsmodellen

¨

ar d˚alig, bara att modellen har s¨amre f¨oruts¨agelse. De statistiskt signifikanta β- estimeringarna kan anv¨andas f¨or att dra viktiga slutsatser p˚a hur ¨andringarna i de f¨orklarande variablerna ¨ar associerade med ¨andringar i responsvariabeln.

Oavsett v¨arde p˚a R2-v¨ardet representerar de signifikanta regressionskoefficien- terna f¨or¨andringen i responsvariabeln per enhet ¨andring i tillh¨orande f¨orklarande variabel givet att ¨ovriga f¨orklarande variabler h˚alls konstanta.

En annan faktor som kan vara en orsak till den l˚aga f¨orklaringsgraden ¨ar att m¨anniskor i allm¨anhet tenderar att svara utifr˚an deras romantiserade bild av verkligheten och inte deras faktiska bild av verkligheten, exempelvis en re- spondent som svarar att personen tr¨anar 4 dagar i veckan egentligen inte g¨or det. Dessutom kan fr˚agorna i enk¨aten vara sv˚ara att besvara d˚a de ¨ar v¨aldigt generella.

Residualplottens utseende

Anledningen till att det tydligt finns fem stycken r¨ata linjer i Figur 4.6 ¨ar f¨or att responsvariabeln ¨ar diskret. Detta inneb¨ar att den bara kan anta ett visst antal v¨arden, i v˚arat fall de v¨arden som motsvarar intervallen f¨or snittbetyget vilket ¨ar fem olika v¨arden. Utifr˚an detta kan vi i helhet se i Figur 4.6 att homoskedasticitet r˚ader.

Borttagandet av variabeln Tr¨aning

I den slutgiltiga modellen har variabeln Tr¨aning valts att exkluderas ur mod- ellen. Som n¨amnt i resultatdelen ¨ar detta f¨or att p-v¨ardet inte uppn˚ar den satta signifikansniv˚an p˚a 5%, vilket medf¨or att nollhypotesen inte kan f¨orkastas. Om nollhypotesen inte kan f¨orkastas f¨or den valda signifikansniv˚an, f¨oreligger in- get samband mellan responsvariabeln och den f¨orklarande variabeln. I denna studie inneb¨ar detta resultatet f¨or v˚ar lokala population inte har tillr¨ackligt med bevis f¨or att g¨alla f¨or en global population. Orsakerna kan vara m˚anga till varf¨or Tr¨aning-variabeln gav det l˚aga p-v¨ardet. Som tidigare n¨amnt tenderar m¨anniskor att svara utifr˚an deras deras romantiserade bild av verkligheten, inte

(30)

minst i Tr¨anings-aspektet och detta kan vara en orsak till det l˚aga p-v¨ardet som Tr¨aning-variabeln erh¨oll.

Val av populationsstorlek N

Populationsstorleken, N, valdes som det totala antalet studenter som sett in- formationen ang˚aende enk¨aten, vilket uppgick till ett antal av 403. Denna populationsstorlek valdes f¨or att detta blir den l¨agsta niv˚an av grupper (se 2.1 Komplexa unders¨okningar) som stickprov tas ifr˚an. Man kan argumentera f¨or att den l¨agsta niv˚an b¨or vara antalet medlemmar i Facebook-grupperna, men p˚a grund av inaktivitet hos medlemmar som till exempel medlemmar som inte l¨angre studerar, valdes denna ytterligare niv˚a att l¨aggas till.

Interaktionens inneb¨ord

D˚a den f¨orklarande variabeln S¨omn inte uppn˚adde signifikansniv˚an valdes den att modifieras. Modifieringen blev en interaktion med studentens ˚alder, vilket gav en korrekt signifikansniv˚a i den slutgiltiga modellen. Denna interaktion inneb¨ar i ord att s¨omnens p˚averkan p˚a snittbetyget beror p˚a ˚aldern p˚a stu- denten, och omv¨ant att ˚alderns p˚averkan p˚a snittbetyget beror p˚a studentens s¨omnvanor.

R och survey package

I mjukvaran R s˚a anv¨andes till¨aggspaketet Survey f¨or att genomf¨ora analysen, d˚a vi hade en komplex unders¨okning. Med funktionerna i detta paket kunde inte n˚agot F-test, η2-v¨arde eller p-v¨arde f¨or hela modellen att erh˚allas och ¨ar anledningen till att de inte ˚aterfinns i resultatdelen.

F¨orb¨attringsomr˚aden

N˚agot vi skulle f¨orb¨attra ¨ar att ta med fler f¨orklarande variabler som kunde f¨orb¨attra regressionmodellen, exempelvis studenternas studietid. Varf¨or dessa variabler valdes att exkluderas fr˚an analysen ¨ar p˚a grund av deras uppenbara koppling till responsvariabeln vilket skulle f¨orsv˚ara tolkningen av de ¨ovriga parametrarna. Nu i efterhand skulle det f¨ormodligen vara b¨attre att inklud- era dessa faktorer i analysen, d˚a regressionmodellen m¨ojligen skulle erh˚alla en b¨attre f¨orklaringsgrad. Dessutom skulle de andra parametrarnas inverkan p˚a responsvariabeln ¨and˚a kunnas unders¨okas med hj¨alp av estimaterna av regres- sionskoefficienterna.

(31)

6 Slutsats

Syftet med detta projekt var att ge l¨asaren en inblick p˚a hur h¨aslorelaterade fak- torer som tr¨aning och s¨omn samt f¨or¨aldrarnas akademiska bakgrund p˚averkar studentens studieprestation. Den slutgiltiga regressionsmodellen gav ett l˚agt v¨arde p˚a f¨orklaringsgraden vilket inneb¨ar att modellen har en d˚alig f¨oruts¨agelse.

Trots detta erh¨oll statistisk signifikanta estimeringar till samtliga regressionko- efficienter, f¨orutom regressionkoefficienten med variabeln Tr¨aning. Regression- skoefficienterna kan anv¨andas f¨or att tolka hur responsvariabeln p˚averkas av f¨or¨andringar i den tillh¨orande f¨orklarande variabeln. Sammanfattningsvis kan dessa slutsatser dras fr˚an denna analys

• Ett positivt samband identifierades mellan snittbetyget och om studenten hade minst en f¨or¨aldrer med akademisk bakgrund, framf¨orallt om denne f¨or¨aldrer hade en akademisk bakgrund inom omr˚adet Teknik/Vetenskap.

• Interaktionen mellan ˚Alder & S¨omn gav ett positivt samband till regres- sionsmodellen.

• Inga tillr¨ackliga bevis identifierades i denna analys f¨or att p˚ast˚a att fy- sisk aktivitet har ett positivt samband med studieprestationen hos en h¨ogskolestudent inom den valda signifikansniv˚an.

(32)

7 Referenser

AstroML (2012). Example of Student’s t distribution

http://www.astroml.org/book_figures/chapter3/fig_student_t_distribution.

html#example-of-student-s-t-distribution

Blom, G., Enger, J., Englung, G., Grandell, G. Holst, L (2005). Sannolikhet- steori och statistikteori med till¨ampningar, Upplaga 5:14. Studentliteratur.

Dahmstr¨om, K. (2005). Fr˚an datainsamling till rapport - att g¨ora en statis- tisk unders¨okning, Fj¨arde upplagan. Studentlitteratur.

Dickey, D.A., Pantula, S.G., Rawlings, J.O., (1998). Applied Regression Analy- sis: A Research Tool, Second Edition. Springer.

Ericsson, I. (2003). Motorik, Koncentrationsf¨orm˚aga och Skolprestationer. Malm¨o H¨ogskola.

Faraway, J.J. (2005). Linear Models with R. Chapman Hall/CRC.

Ford, C. (2015). Understanding Q-Q Plots.

http://data.library.virginia.edu/understanding-q-q-plots/

Frongillo, E. (1996). What is a Complex Survey?

https://www.cscu.cornell.edu/news/statnews/stnews11.pdf Frost, J. (2017a). Understanding Interaction Effects in Statistics.+

http://statisticsbyjim.com/regression/interaction-effects/

Frost, J. (2017b). How to Interpret P-values and Coefficients in Regression Analysis.

http://statisticsbyjim.com/regression/interpret-coefficients-p-values-regression/

Frost, J. (2017c). How to Interpret the F-test of Overall Significance in Re- gression Analysis.

http://statisticsbyjim.com/regression/interpret-f-test-overall-significance-regression/

Hazewinkel, M. (2001). Student distribution

https://www.encyclopediaofmath.org/index.php/Student_distribution Kahlroth, M., Lindqvist, T. (2014). Universitet och h¨ogskolor: ˚Arsrapport 2014, 2014:7. Universitetskanslers¨ambetet (UK ¨A).

(33)

KTH, (2018). Hur medelbetygsutr¨akning g˚ar till i KTH:s Ladok vid stipendieans¨okan till KTH:s stiftelser.

https://www.kth.se/student/studentliv/stipendier/medelbetyg-1.

68811

K¨all, L.B., Nilsson, M., Lind´en, T. (2014). The impact of a physical ac- tivity intervention program on academic achievement in a Swedish elementary school setting. J Sch Health. 2014; 84: 473-480.

Lang, H. (2015). Elements of Regression Analysis. KTH Mathematics.

Lohr, S.L. (2010). Sampling: Design and Analysis, Second Edition. Ari- zona State University. Brooks/Cole Cengage Learning.

Lumley, T. (2010). Complex Surveys: A Guide to Analysis Using R.

Wiley.

Minitab (2013). Regression Analysis: How Do I Interpret R-squared and Assess the Goodness-of-Fit?

http://blog.minitab.com/blog/adventures-in-statistics-2/

regression-analysis-how-do-i-interpret-r-squared-and-assess-the-goodness-of-fit Minitab (2017). What is a hypothesis test?

http://support.minitab.com/en-us/minitab/17/topic-library/

basic-statistics-and-graphs/hypothesis-tests/basics/

what-is-a-hypothesis-test/

Montgomery, D.C., Peck, E.A. Vining , G.G (2012). Introduction to Linear Regression Analysis, Fifth edition. Wiley.

Seltman, H. (2015). Experimental Design and Analysis. Carnegie Mellon University.

Sridharan, R. (2015). Linear Regression http://www.mit.edu/~6.s085/

notes/lecture3.pdf

(34)

8 Bilagor

8.1 Bilaga A - Fr˚ ageformul¨ ar

(35)
(36)
(37)
(38)
(39)
(40)

References

Related documents

Lexical Items Proper Nouns Common Nouns Abstract Nouns Concrete Nouns Indefinite Article Definite Article Quantifiers Numerals Possessive adjectives Demonstrative Adjectives

All the implemented algorithms need the y-coordinate of the vanishing point (Sec- tion 2.1) to calculate a distance measure from the camera to a vehicle and to determine

Thus, the aim of this prospective epidemiolog- ical study of women in homecare work was to evaluate what signs (posture, total spinal mobility, Beighton score, segmental

Beslut i detta ärende har fattats av generaldirektör Joakim Stymne i närvaro av biträdande generaldirektör Helen Stoye, avdelningschef Magnus Sjöström samt enhetschef Maj

Barnombudsmannen Box 22106 104 22 Stockholm Norr Mälarstrand 6 Telefon 08-692 29 50 Fax 08-654 62 77 www.barnombudsmannen.se REMISSVAR 2021-02-17 Dnr: BO2020-0323

För myndigheter med stor spridning inom inköpen kommer detta arbete inte enbart vara initialt utan kommer innebära en ökad arbetsbelastning. Samma gäller uppföljning av

from these semi-monthly events there has also been a winter school where the early stage researchers were assigned and trained to instruct school children using the Photonics

Tydligast blir detta i gesäller- nas bruk av &#34;skymfningen&#34; som ett sätt att vidmakthålla en förhållandevis stark ställning i förhallande till Den