Institutionen för teknikvetenskap och matematik
Tentamen i Statistik 1: Undersökningsmetodik Ämneskod S0006M
Tentamensdatum 2014-03-26 Totala antalet uppgifter:
Totala antalet poäng
5 25
Skrivtid 09.00-14.00
Lärare: Mykola Shykula, Inge Söderkvist, Ove Edlund, Niklas Grip
Jourhavande lärare: Mykola Shykula Tel: 0920-49 30 56
Betygsgränser: U:0-11, G: 12-25
Tillåtna hjälpmedel: Kursbok, miniräknare och egenkonstruerat formelblad på ett A4.
Läs noggrant informationen nedan innan du börjar skriva tentamen
Svara kort och koncist.
Till alla uppgifterna ska fullständiga lösningar lämnas.
Lösningen till varje ny uppgift skall börjas på en ny sida.
Använd bara en sida av varje A4-ark.
Numrera alla lösningsblad.
Resonemang, ekvationslösningar och uträkningar skall vara lätta att följa.
Efter varje uppgift anges maximala antalet poäng som ges.
Även delvis lösta problem kan ge poäng.
Tabell för normalfördelningen finns bifogad längst bak.
Uppgift 1
Din arbetsgivare ger dig i uppdrag att genomföra en undersökning. Du ska ta reda på om en person som har körkort, har lägre risk att råka ut för olyckor då han/hon går till fots, än en som inte har körkort.
I denna uppgift ska du beskriva planeringsfasen av undersökningen genom att göra det följande:
a) Beskriv metoden som du vill använda i undersökningen. Detta bör innefatta vald
population, urvalsmetod och metod för datainsamling, men även annat som är relevant för genomförandet. Motivera dina val! (2p)
b) Finns det i frågeformuleringen en risk för bias, och i så fall vad i består denna? Motivera!
(1p)
c) Konstruera en enkät med 3‐5 frågor som du vill använda i din undersökning. (2p)
Din presentation av detta ska rymmas på max två A4‐sidor!
Svar: Diskussions frågor ovan ska kontrollera om man var aktiv på seminarier under kursen. Bra motiverade logiska förslag/beskrivningar som besvarar uppgiftens syfte kommer att räknas som rätta svar.
Uppgift 2
En längdskidåkare hade följande blodvärden vid en serie tester
14.8 15.0 15.3 15.9 14.6 16.8 14.7 11.7 14.1 15.0 15.4
a) Bestäm median samt under och övre kvartil. (1p) Svar: M = 15.0, Q1 = 14.6, Q3 = 15.4
b) Finns det några uteliggare? (1p)
1.5 1.5 13.4
1.5 1.5 16.6
Svar. Ja, det finns två uteliggare: 11.7 och 16.8
c) Gör en boxplot över blodvärdena och markera eventuella uteliggare. (1p)
17 16 15 14 13 12 11
blodvarde
Boxplot of blodvarde
d) Bestäm medelvärde, varians och typvärde för följande mätvärden. (2p) 1 7 5 8
Svar. Medelvärde: ̅ 5.25 Varians: 9.58 Typvärde: finns inget
Uppgift 3
Genomsnittligt elpris för svenska lägenheter respektive villor den 1 april 2008‐2013 var
År 2008 2009 2010 2011 2012 2013
Lägenhet (öre/kWh) 48.9 52.4 56.2 59.1 61.6 63.7
Villa (öre/kWh) 42.4 45.6 48.9 51.3 54.1 56.4
KPI (med 1949=100) 1716 1711 1733 1778 1794 1793
a) Bestäm och jämför prisförändringen för lägenheter och villor mellan 2008 och 2013. (1p) Svar. Med ca 30.3% ökade priset för lägenheter jmf med 33% för villor mellan 2008 och 2013. Alltså, ökade villornas elpris med ca 2.7% mer än lägenheternas under perioden.
b) Bestäm och jämför den genomsnittliga årliga prisförändringen för lägenheter och villor mellan 2008 och 2013. (2p)
Svar. Lägenhet –
..1.0543; villa –
..1.0587.
I genomsnitt per år mellan 2008 och 2013 alltså ökade lägenheternas elpris med ca 5.43% jmf med 5.87% för villornas. Dvs villorna gick 0.44% bättre per år (i genomsnitt).
c) Vad är elprisen år 2013 med 2008 års penningvärde? Tolka. (2p)
Svar. Lägenhet – 63.7*(1716/1793)=60.964; villa – 56.4*(1716/1793)=53.978
Tolkning: den riktiga (dvs utöver KPIs utveckling) elprisökningen för lägenheter var alltså ca 24.7% (ty 60.964/48.9=1.2467) och ca 27.3% (ty 53.978/42.4=1.273) för villor.
Uppgift 4
a) Hur stor andel av 0,1 ‐observationerna kommer på sikt att överstiga 0? (1p) Svar. 50% (enligt symmetri)
b) Hur stor andel av 0,1 ‐observationerna kommer på sikt att hamna mellan ‐0.5 och 0.5?
(1p)
Svar. 38.3% (enligt symmetri 0.5 0.5 | | 1 2 0.3085 0.383 för ~ 0,1 )
c) För vilket värde på kommer på sikt 99% av 0,1 ‐observationerna att hamna mellan och ? (1p)
Svar. 2.58 (titta vilket z motsvarar i Tabell A area 0.995, egen enligt symmetri)
d) Vid tillverkning av chokladkakan Tjåkko kasseras automatiskt alla exemplar med en vikt (enhet: g) utanför intervallet (198.7, 203.3). Gränserna har bestämts utifrån det faktum att vikterna kan anses följa en normalfördelning med väntevärde 201.0 och
standardavvikelse 1.06. Hur stor andel av kakorna kommer att sorteras bort i det långa loppet? (2p)
Svar. ca 3%. Lösning. Låt ~ 201.0, 1.06 vara en slumpvariabel som anger en chokladkakans vikt. Andel av kakorna som kommer att sorteras bort är lika med
1 198.7 203.3 1
.. ..1
2.17 2.17 | | 2 0.015 0.03
Uppgift 5
Viskositeten hos motorolja avtar med temperaturen. Samhörande värden på viskositet ((lb)(sec)/(in.)
2) och temperatur (°F) har mätts up
Temp. ( ): 165 170 175 180 185 190 195 200
Visk. ( ): 28.5 26.1 23.9 22 20.4 18.5 17.1 15.8
Ekvationen för en enkel regressionslinje (med viskositet som responsvariabel) anges i följande Minitabutskrift:
Regression Analysis: Visk versus Temp
The regression equation is Visk = 87,5 - 0,361 Temp
Predictor Coef SE Coef T P Constant 87,455 2,563 34,13 0,000 Temp -0,36119 0,01401 -25,77 0,000
S = 0,454104 R-Sq = 99,1% R-Sq(adj) = 99,0%
Den enkla linjära regressionsmodellen som ligger till grund för utskriften kan skrivas som , där slumpfelen ~ 0, , 1,2, … , , 8.
a) Ange och tolka och , dvs. de skattade interceptet respektive lutningen. (2p) Svar. 87.5, 0.361. Tolkning: vid temperaturen 0°F är viskositeten 87.5(lb)(sec)/(in.)
2; ökar temperaturen med 10°F så sjunker viskositeten med 3.61(lb)(sec)/(in.)
2.
b) Beräkna korrelationen mellan variablerna temperatur och viskositet. Vad säger oss denna korrelation? (2p)
Svar. 0.995 √0.991 √ , negativ korrelation blir det eftersom lutningen ( 0.361) är negativ. Denna korrelation, på ‐0.995, säger oss att det är ett mycket starkt negativt linjärt samband som råder i datamaterialet.
c) Residualerna representerar den variation i den beroende variabeln som
regressionsmodellen inte lyckats förklara. Minitab ger följande ”Residuals vs Fits” plot. Tolka bilden nedan. Kan man förbättra modellen? På vilket sätt? (1p)
Svar. På bilden nedan ser vi att residualerna inte är slumpmässiga – vi ser ett tydlig kvadratiskt kurvatur‐mönster. Modellen kommer förhoppningsvis att förbättras om vi tar hänsyn till det här mönstret i den urspungliga modellen, t ex kan vi lägga kvadratiska termer av samtliga förklarande variabler in i modellen.
27,5 25,0
22,5 20,0
17,5 15,0
2,0 1,5 1,0 0,5 0,0 -0,5 -1,0
Fitted Value
Standardized Residual
Versus Fits (response is Visk)