• No results found

4.4 Slutgiltig regressionsmodell

4.4.1 Modellvalidering

F¨or att vidare validera modellen kontrolleras om antagandena f¨or regressions-analysen, enligt 2.3 Antaganden, ¨ar uppfyllda.

Q-Q plot

Ett av dessa antaganden ¨ar att feltermerna ¨ar normalf¨ordelade (se 2.3 Antagan-den). Som Figur 4.5 nedan visar ¨ar residualerna approximativt normalf¨ordelade;

sm˚a avvikelser ¨ar vanligt f¨orekommande.

Figur 4.6: Q-Q plot f¨or slutgiltig modell

Homoskedasticitet

F¨or att kontrollera antagandet om homoskedasticitet och linj¨aritet anv¨andes en residualplot. I Figur 4.6 nedan kan det ses att antagandena ¨ar uppfyllda (j¨amf¨or med Figur 2.2 i teoriavsnittet), och anledningen till residualplottens utseende diskuteras n¨armare i diskussionsavsnittet.

Figur 4.7: Residualplot f¨or slutgiltig modell

5 Diskussion

L˚ag f¨orklaringsgrad

Som resultatet visar har den slutgiltiga modellen en l˚ag determationskoefficient, vilket i teorin inte ¨ar efterstr¨avat f¨or att erh˚alla ett tydligt resultat. Determina-tionskoefficienten ¨ar den procentuella m¨angd av responsvariabeln som f¨orklaras av modellen vilket inneb¨ar kortfattat hur v¨al modellen kan f¨orklara verkligheten.

Men inneb¨ar en l˚ag determinationskoefficient alltid att modellen ¨ar d˚alig? I vissa studief¨alt ¨ar det f¨orv¨antat att f˚a en l˚ag determinationskoefficient, exem-pelvis studier som f¨ors¨oker f¨orutsp˚a m¨anskligt beteende (Minitab, 2013) ten-derar att ge ett l˚agt R2v¨arde d˚a m¨anskligt beteende ¨ar komplext och sv˚art att f¨orutsp˚a. Ett l˚agt R2-v¨arde inneb¨ar inte n¨odv¨andigtvis att regressionsmodellen

¨

ar d˚alig, bara att modellen har s¨amre f¨oruts¨agelse. De statistiskt signifikanta β-estimeringarna kan anv¨andas f¨or att dra viktiga slutsatser p˚a hur ¨andringarna i de f¨orklarande variablerna ¨ar associerade med ¨andringar i responsvariabeln.

Oavsett v¨arde p˚a R2-v¨ardet representerar de signifikanta regressionskoefficien-terna f¨or¨andringen i responsvariabeln per enhet ¨andring i tillh¨orande f¨orklarande variabel givet att ¨ovriga f¨orklarande variabler h˚alls konstanta.

En annan faktor som kan vara en orsak till den l˚aga f¨orklaringsgraden ¨ar att m¨anniskor i allm¨anhet tenderar att svara utifr˚an deras romantiserade bild av verkligheten och inte deras faktiska bild av verkligheten, exempelvis en re-spondent som svarar att personen tr¨anar 4 dagar i veckan egentligen inte g¨or det. Dessutom kan fr˚agorna i enk¨aten vara sv˚ara att besvara d˚a de ¨ar v¨aldigt generella.

Residualplottens utseende

Anledningen till att det tydligt finns fem stycken r¨ata linjer i Figur 4.6 ¨ar f¨or att responsvariabeln ¨ar diskret. Detta inneb¨ar att den bara kan anta ett visst antal v¨arden, i v˚arat fall de v¨arden som motsvarar intervallen f¨or snittbetyget vilket ¨ar fem olika v¨arden. Utifr˚an detta kan vi i helhet se i Figur 4.6 att homoskedasticitet r˚ader.

Borttagandet av variabeln Tr¨aning

I den slutgiltiga modellen har variabeln Tr¨aning valts att exkluderas ur mod-ellen. Som n¨amnt i resultatdelen ¨ar detta f¨or att p-v¨ardet inte uppn˚ar den satta signifikansniv˚an p˚a 5%, vilket medf¨or att nollhypotesen inte kan f¨orkastas. Om nollhypotesen inte kan f¨orkastas f¨or den valda signifikansniv˚an, f¨oreligger in-get samband mellan responsvariabeln och den f¨orklarande variabeln. I denna studie inneb¨ar detta resultatet f¨or v˚ar lokala population inte har tillr¨ackligt med bevis f¨or att g¨alla f¨or en global population. Orsakerna kan vara m˚anga till varf¨or Tr¨aning-variabeln gav det l˚aga p-v¨ardet. Som tidigare n¨amnt tenderar m¨anniskor att svara utifr˚an deras deras romantiserade bild av verkligheten, inte

minst i Tr¨anings-aspektet och detta kan vara en orsak till det l˚aga p-v¨ardet som Tr¨aning-variabeln erh¨oll.

Val av populationsstorlek N

Populationsstorleken, N, valdes som det totala antalet studenter som sett in-formationen ang˚aende enk¨aten, vilket uppgick till ett antal av 403. Denna populationsstorlek valdes f¨or att detta blir den l¨agsta niv˚an av grupper (se 2.1 Komplexa unders¨okningar) som stickprov tas ifr˚an. Man kan argumentera f¨or att den l¨agsta niv˚an b¨or vara antalet medlemmar i Facebook-grupperna, men p˚a grund av inaktivitet hos medlemmar som till exempel medlemmar som inte l¨angre studerar, valdes denna ytterligare niv˚a att l¨aggas till.

Interaktionens inneb¨ord

D˚a den f¨orklarande variabeln S¨omn inte uppn˚adde signifikansniv˚an valdes den att modifieras. Modifieringen blev en interaktion med studentens ˚alder, vilket gav en korrekt signifikansniv˚a i den slutgiltiga modellen. Denna interaktion inneb¨ar i ord att s¨omnens p˚averkan p˚a snittbetyget beror p˚a ˚aldern p˚a stu-denten, och omv¨ant att ˚alderns p˚averkan p˚a snittbetyget beror p˚a studentens s¨omnvanor.

R och survey package

I mjukvaran R s˚a anv¨andes till¨aggspaketet Survey f¨or att genomf¨ora analysen, d˚a vi hade en komplex unders¨okning. Med funktionerna i detta paket kunde inte n˚agot F-test, η2-v¨arde eller p-v¨arde f¨or hela modellen att erh˚allas och ¨ar anledningen till att de inte ˚aterfinns i resultatdelen.

F¨orb¨attringsomr˚aden

N˚agot vi skulle f¨orb¨attra ¨ar att ta med fler f¨orklarande variabler som kunde f¨orb¨attra regressionmodellen, exempelvis studenternas studietid. Varf¨or dessa variabler valdes att exkluderas fr˚an analysen ¨ar p˚a grund av deras uppenbara koppling till responsvariabeln vilket skulle f¨orsv˚ara tolkningen av de ¨ovriga parametrarna. Nu i efterhand skulle det f¨ormodligen vara b¨attre att inklud-era dessa faktorer i analysen, d˚a regressionmodellen m¨ojligen skulle erh˚alla en b¨attre f¨orklaringsgrad. Dessutom skulle de andra parametrarnas inverkan p˚a responsvariabeln ¨and˚a kunnas unders¨okas med hj¨alp av estimaterna av regres-sionskoefficienterna.

6 Slutsats

Syftet med detta projekt var att ge l¨asaren en inblick p˚a hur h¨aslorelaterade fak-torer som tr¨aning och s¨omn samt f¨or¨aldrarnas akademiska bakgrund p˚averkar studentens studieprestation. Den slutgiltiga regressionsmodellen gav ett l˚agt v¨arde p˚a f¨orklaringsgraden vilket inneb¨ar att modellen har en d˚alig f¨oruts¨agelse.

Trots detta erh¨oll statistisk signifikanta estimeringar till samtliga regressionko-efficienter, f¨orutom regressionkoefficienten med variabeln Tr¨aning. Regression-skoefficienterna kan anv¨andas f¨or att tolka hur responsvariabeln p˚averkas av f¨or¨andringar i den tillh¨orande f¨orklarande variabeln. Sammanfattningsvis kan dessa slutsatser dras fr˚an denna analys

• Ett positivt samband identifierades mellan snittbetyget och om studenten hade minst en f¨or¨aldrer med akademisk bakgrund, framf¨orallt om denne f¨or¨aldrer hade en akademisk bakgrund inom omr˚adet Teknik/Vetenskap.

• Interaktionen mellan ˚Alder & S¨omn gav ett positivt samband till regres-sionsmodellen.

• Inga tillr¨ackliga bevis identifierades i denna analys f¨or att p˚ast˚a att fy-sisk aktivitet har ett positivt samband med studieprestationen hos en h¨ogskolestudent inom den valda signifikansniv˚an.

7 Referenser

AstroML (2012). Example of Student’s t distribution

http://www.astroml.org/book_figures/chapter3/fig_student_t_distribution.

html#example-of-student-s-t-distribution

Blom, G., Enger, J., Englung, G., Grandell, G. Holst, L (2005). Sannolikhet-steori och statistikteori med till¨ampningar, Upplaga 5:14. Studentliteratur.

Dahmstr¨om, K. (2005). Fr˚an datainsamling till rapport - att g¨ora en statis-tisk unders¨okning, Fj¨arde upplagan. Studentlitteratur.

Dickey, D.A., Pantula, S.G., Rawlings, J.O., (1998). Applied Regression Analy-sis: A Research Tool, Second Edition. Springer.

Ericsson, I. (2003). Motorik, Koncentrationsf¨orm˚aga och Skolprestationer. Malm¨o H¨ogskola.

Faraway, J.J. (2005). Linear Models with R. Chapman Hall/CRC.

Ford, C. (2015). Understanding Q-Q Plots.

http://data.library.virginia.edu/understanding-q-q-plots/

Frongillo, E. (1996). What is a Complex Survey?

https://www.cscu.cornell.edu/news/statnews/stnews11.pdf Frost, J. (2017a). Understanding Interaction Effects in Statistics.+

http://statisticsbyjim.com/regression/interaction-effects/

Frost, J. (2017b). How to Interpret P-values and Coefficients in Regression Analysis.

http://statisticsbyjim.com/regression/interpret-coefficients-p-values-regression/

Frost, J. (2017c). How to Interpret the F-test of Overall Significance in Re-gression Analysis.

http://statisticsbyjim.com/regression/interpret-f-test-overall-significance-regression/

Hazewinkel, M. (2001). Student distribution

https://www.encyclopediaofmath.org/index.php/Student_distribution Kahlroth, M., Lindqvist, T. (2014). Universitet och h¨ogskolor: ˚Arsrapport 2014, 2014:7. Universitetskanslers¨ambetet (UK ¨A).

KTH, (2018). Hur medelbetygsutr¨akning g˚ar till i KTH:s Ladok vid stipendieans¨okan till KTH:s stiftelser.

https://www.kth.se/student/studentliv/stipendier/medelbetyg-1.

68811

K¨all, L.B., Nilsson, M., Lind´en, T. (2014). The impact of a physical ac-tivity intervention program on academic achievement in a Swedish elementary school setting. J Sch Health. 2014; 84: 473-480.

Lang, H. (2015). Elements of Regression Analysis. KTH Mathematics.

Lohr, S.L. (2010). Sampling: Design and Analysis, Second Edition. Ari-zona State University. Brooks/Cole Cengage Learning.

Lumley, T. (2010). Complex Surveys: A Guide to Analysis Using R.

Wiley.

Minitab (2013). Regression Analysis: How Do I Interpret R-squared and Assess the Goodness-of-Fit?

http://blog.minitab.com/blog/adventures-in-statistics-2/

regression-analysis-how-do-i-interpret-r-squared-and-assess-the-goodness-of-fit Minitab (2017). What is a hypothesis test?

http://support.minitab.com/en-us/minitab/17/topic-library/

basic-statistics-and-graphs/hypothesis-tests/basics/

what-is-a-hypothesis-test/

Montgomery, D.C., Peck, E.A. Vining , G.G (2012). Introduction to Linear Regression Analysis, Fifth edition. Wiley.

Seltman, H. (2015). Experimental Design and Analysis. Carnegie Mellon University.

Sridharan, R. (2015). Linear Regression http://www.mit.edu/~6.s085/

notes/lecture3.pdf

8 Bilagor

8.1 Bilaga A - Fr˚ ageformul¨ ar

Related documents