Skrivtid 0900–1400
Tentamen i: Statistik 1, Unders¨okningsmetodik 7.5 hp
Antal uppgifter: 5
Krav f¨or G: 15
L¨arare: Robert Lundqvist & Eva L¨ovf
Jour: Robert Lundqvist, tel 49 24 04
Resultatet ansl˚as senast: 13/6 2008
Till˚atna hj¨alpmedel:
• En statistikbok, g¨arna Introduction to the Practice of Statistics av Moore &
McCabe. Undantag: kombinationen Praktisk statistik/R¨akna med slumpen
• Minir¨aknare
Om den bok du har med dig inte inneh˚aller tabell f¨or normalf¨ordelningen eller annan tabell du tycker dig beh¨ova s˚a ska s˚adana tabeller finnas hos tentamensvakt.
T¨ank p˚a att redovisa dina l¨osningar p˚a ett klart och tydligt s¨att. Endast det nume- riska svaret r¨acker inte f¨or full po¨ang. Korrekt l¨osning ger det po¨angantal som st˚ar angivet efter uppgiftstexten.
LYCKA TILL!
OBS! Gl¨om inte att fylla i kursutv¨arderingen i Fronter
Tentamen i Statistik 1, Unders¨okningsmetodik, S0006M, 2008-06-04
1. Det ¨okande intresset och anv¨andandet av Internet har medf¨ort att m˚anga f¨oretag f¨ors¨oker s¨alja sina produkter p˚a webben. Det ¨ar d¨arf¨or intressant att veta vilka som anv¨ander webben och hur mycket. En person p˚a en mark- nadsavdelning fick i uppdrag att unders¨oka detta. Bland annat unders¨oktes antal timmar Internet anv¨andes veckan innan unders¨okningen. ¨ Aven bak- grundsvariabler som ˚alder togs med i unders¨okningen. Ett obundet slump- m¨assigt urval (”simple random sample”) p˚a 15 personer ur en population av vuxna medborgare (20 ˚ar eller ¨aldre) gav f¨oljande resultat.
Alder ˚ 30 42 55 40 44
Internettid 10 5 0 14 24
Alder ˚ 60 24 33 28 45
Internettid 0 15 12 20 10
Alder ˚ 49 52 33 25 28
Internettid 5 8 12 15 0
(a) Sammanst¨all variabeln ˚alder i ett stam-bladsdiagram. Ber¨akna medel- v¨ardet och standardavvikelsen p˚a ˚aldern f¨or de fem f¨orsta individerna i tabellen ovan (en begr¨ansning bara f¨or att du inte ska beh¨ova r¨akna p˚a s˚a m˚anga v¨arden).
(b) Ber¨akna medianen och kvartilerna f¨or internettiderna, samt beskriv hur du r¨aknar ut dessa. Ber¨akna ¨aven kvartilavst˚andet (”interquartile range”).
(c) Illustrera internettiderna i ett l˚adagram (”boxplot”). Unders¨ok om det finns n˚agra uteliggare (”outliers”) i materialet med sedvanliga st¨angsel, dvs de gr¨anser som ges av
q
1− 1.5 · (q
3− q
1) , q
3+ 1.5 · (q
3− q
1)
(d) F¨or att beskriva hur ˚alder p˚averkar internettiden kan man g¨ora en re- gressionsanpassning som i detta fall blir f¨oljande uttryck:
ˆ
y = 21.8 − 0.3x
Kan koefficienterna i det sambandet ges meningsfulla tolkningar? Ge
i s˚a fall s˚adana tolkningar. Om det inte ¨ar m¨ojligt att ge meningsfull
tolkning, motivera d˚a detta.
(e) F¨orklaringsgraden f¨or regressionssambandet ovan blev 23%. Vad kan utifr˚an det v¨ardet s¨agas om styrkan i sambandet mellan variablerna?
Best¨am ¨aven korrelationskoefficienten.
(f) Hur skulle korrelationskoefficienten f¨or¨andras om enheten p˚a Internet- tiden ¨andras till minuter ist¨allet f¨or timmar: blir den l¨agre, of¨or¨andrad eller h¨ogre?
(g) Om riktningskoefficienten i ett regressionssamband blir n¨ara 0 bety- der det d˚a att den f¨orklarande variabeln m˚aste ha liten p˚averkan p˚a svarsvariabeln? Om inte, motivera d˚a ditt svar.
(h) Utifr˚an dina erfarenheter fr˚an den gjorda unders¨okningen f˚ar du fr˚agan om du kan g¨ora en ny unders¨okning av internetanv¨andningen bland studenterna p˚a ett visst l¨aros¨ate. I uppdraget skulle d˚a ing˚a att g¨ora ett stratifierat urval utifr˚an k˚artillh¨orighet med 100 studenter fr˚an var och en av de tre k˚arerna vid det aktuella l¨aros¨atet. Beskriv kortfattat hur det urvalet skulle g¨oras: vad du beh¨over f¨or hj¨alpmedel och underlag,
och hur du skulle g˚a tillv¨aga. (15p)
2. I arbetslivet utf¨ors m˚anga arbeten i projekt. Vid ett st¨orre f¨oretag hade tiden f¨or projekten som bedrivits vid f¨oretaget sammanst¨allts, och det materialet visade att projekttiden kunde beskrivas med en normalf¨ordelning d¨ar ge- nomsnittet var 21 dagar och standardavvikelsen 5 dagar.
(a) Om projekttiden ¨overstiger 30 dagar blir l¨onsamheten l¨agre eftersom faktureringen f¨ordr¨ojs och kunden f˚ar on¨odigt l˚ang v¨antetid. Hur stor andel av projekten ¨overstiger 30 dagar?
(b) Vilket antal dagar ¨overskrider 90% av projekten?
(c) En person som samlat p˚a sig data fr˚an liknande projekt i ett annat f¨oretag tycker det verkar tveksamt att anv¨anda 5 dagar som standard- avvikelse f¨or populationen av projekt, d¨aremot verkar genomsnittet rimligt. Om andelen projekt som tagit h¨ogst 15 dagar ¨ar 10%, vad ¨ar d˚a standardavvikelsen i den populationen av projekt? (6p) I ovanst˚aende uppgifter ¨ar det s¨arskilt viktigt att inf¨orda variabler definieras tydligt, att f¨oruts¨attningarna ¨ar klart beskrivna och att ber¨akningarna g˚ar att f¨olja.
3. En liter mj¨olk kostade ˚ar 1980 2.41 kr. ˚ Ar 2003 kostade en liter mj¨olk 7.25 kr.
(a) Hur stor ¨ar den genomsnittliga prisf¨or¨andringen per ˚ar p˚a mj¨olk, mel-
lan ˚ar 1980 och 2003?
Tentamen i Statistik 1, Unders¨okningsmetodik, S0006M, 2008-06-04
(b) R¨akna om mj¨olkpriset ˚ar 1980 till penningv¨ardet f¨or ˚ar 2003. KPI, som
har bas˚ar 1980, var 278 ˚ar 2003. (4p)
4. Vid ett visst l¨aros¨ate vill man se hur studenter f¨ordelar sin tid, och ett led i det arbetet ¨ar att ett urval av studenter dagligen ska f¨ora en loggbok. F¨or de studenterna kommer det att finnas b˚ade bakgrundsinformation och data fr˚an loggboken. N˚agra av variablerna ¨ar f¨oljande:
Personnummer Ger indirekt ˚alder
K˚artillh¨orighet Tre m¨ojliga alternativ
Program
Tid de har schemalagd undervisning under en vecka
Summan av de dagliga noteringarna
Tid de l¨agger ner p˚a studierna utanf¨or schema under en vecka
Summan av de dagliga noteringarna
Omfattning p˚a arbete vid sidan av studierna varje vecka
Tre intervall fr˚an ”S˚a gott som ingen” till ”20 timmar eller mer”
(a) Ge tv˚a exempel p˚a metoder f¨or att beskriva variabeln schemalagd tid grafiskt. Namnge metoderna och ge g¨arna enkla skisser p˚a hur dia- grammen kan t¨ankas se ut.
(b) Ge exempel p˚a hur sambandet mellan schemalagd tid och studietid utanf¨or schema kan beskrivas grafiskt. Namnge en metod och ge g¨arna en skiss p˚a hur diagrammet kan t¨ankas se ut.
(c) Ge exempel p˚a hur man kan g¨ora en grafisk beskrivning av samban- det mellan k˚artillh¨orighet och den tid man la ner p˚a studier utanf¨or schemalagda pass. Namnge en metod och ge g¨arna en skiss p˚a hur
diagrammet kan t¨ankas se ut. (3p)
5. Du har f˚att i uppgift att utreda olika s¨att att korta ner handl¨aggningstiden f¨or en viss typ av bank¨arenden. Som en del i det f¨orberedande arbetet ska de nuvarande tiderna beskrivas, och ett histogram visar ett snedf¨ordelat mate- rial med de flesta tiderna i intervallet 2 till 5 dagar, och med ett mindre antal
¨arenden som dr¨ojer ¨anda upp till 20 dagar. Du vill komplettera de grafiska beskrivningarna med sammanfattande m˚att. Fr˚agan uppkommer d˚a vilket spridningsm˚att som ska anv¨andas, och ett alternativ ¨ar standardavvikelsen.
Det m˚attet ¨ar dock kanske inte det b¨asta i detta fall. Motivera varf¨or stan- dardavvikelsen inte ¨ar l¨ampligt som spridningsm˚att i material som detta.
(2p)
1. (a) Ett stambladdiagram f¨or variabeln ˚alder kan se ut p˚a f¨oljande s¨att:
2|4 betyder 24, bladen ¨ ar ental 2 | 4588
3 | 033 4 | 02459 5 | 25 6 | 0
Medelv¨ardet av de fem f¨orsta v¨ardet blir
¯ x = 1
5 ∑ x
i= 42.2
och standardavvikelsen blir
s =
r 1
n − 1 ∑ (x
i− ¯ x)
2= 8.9554
(b) Med 15 v¨arden ¨ar medianen v¨arde nr 8 i storleksordning, dvs 10 tim- mar. Den undre kvartilen q
1kan tas fram som medianen i den undre halvan, dvs v¨arde nr 4 som ¨ar 5 timmar. P˚a motsvarande s¨att ¨ar den
¨ovre kvartilen q
3median i den ¨ovre halvan, i detta fall 15 timmar.
Kvartilavst˚andet (IQR) blir d˚a q
3− q
1= 10 timmar.
(c) En boxplot kan se ut p˚a f¨oljande s¨att:
++---+---+---+---+---+
| |
| |
| |
| |
| +---+---+ |
|+---| | |---+|
| +---+---+ |
| |
| |
| |
++---+---+---+---+---+
0 5 10 15 20
Internettid (timmar)
L¨osningar S0006M 2008-06-04
Med de givna gr¨anserna f¨or uteliggare (−10, 30) finns inga uteliggare i materialet.
(d) Riktningskoefficienten −0.3 kan tolkas p˚a f¨oljande s¨att: n¨ar ˚aldern
¨okar med ett ˚ar s˚a minskar internettiden per vecka med i genomsnitt 0.3 timmar.
Interceptet 21.8 kan inte ges meningsfull tolkning eftersom det inte finns n˚agra observationer p˚a internettiden f¨or ˚aldrar n¨ara 0.
(e) Med f¨orklaringsgraden 23% har man ett svagt linj¨art samband, el- ler annorlunda uttryckt, det ¨ar bara 23 % av variationen i y-led som f¨orklaras av regressionsmodellen.
Om f¨orklaringsgraden ¨ar 23% s˚a ¨ar korrelationskoefficienten √ 0.23 = 0.4796, vilket s¨ager samma sak: det ¨ar ett relativt svagt linj¨art samband mellan variablerna ˚alder och internettid. Att det ¨ar ett minustecken beror f¨orst˚as p˚a att det ¨ar ett negativt samband, vilket framg˚ar av den negativa riktningskoefficienten.
(f) Om enheten p˚a internettiden ¨andras kommer korrelationskoefficienten att vara of¨or¨andrad. Sambandet mellan variablerna ¨ar lika stark oavsett skalan f¨or variablerna.
(g) Om riktningskoefficienten ¨ar n¨ara 0 betyder det inte att den f¨orklarande variabelns p˚averkan p˚a svarsvariabeln ¨ar liten. Den kan ha liten bety- delse, men det har inte att g¨ora med sifferv¨ardet. Ett exempel som visar detta ¨ar ovanst˚aende material. Om enheten f¨or ˚aldern skulle vara tio- tal ˚ar ist¨allet f¨or ˚ar hade riktningskoefficienten f˚att v¨ardet -0.03, hade det varit hundratal ˚ar skulle v¨ardet blivit -0.003. I alla dessa fall har variabeln samma p˚averkan p˚a svarsvariabeln.
(h) F¨or att g¨ora ett stratifierat urval ska populationen delas i i strata, i detta fall ett stratum f¨or varje k˚ar. F¨or att kunna g¨ora detta m˚aste man allts˚a ha uppgifter om vilken k˚ar varje individ i populationen tillh¨or.
N¨ar sedan den indelningen ¨ar klar ska ett slumpm¨assigt urval g¨oras i varje stratum, och d¨ar kan man ta hj¨alp av exempelvis slumptalstabell eller programvara. Med slumptalstabell skulle man kunna g˚a tillv¨aga p˚a f¨oljande s¨att:
• I stratum 1 numreras alla individerna fr˚an 1 till sista personen.
• En startpunkt i slumptalstabellen v¨aljs ut p˚a ett ”slumpm¨assigt”
s¨att.
• Ett antal siffror som t¨acker upp antalet i den aktuella gruppen tas fram: om det ¨ar mellan 1 och 99 personer tas tv˚a siffror, om det
¨ar mellan 100 och 999 tas 3 efter varandra f¨oljande siffror och s˚a
vidare.
• Om siffrorna st¨ammer ¨overens med en av personerna i listan v¨aljs den personen ut.
• Om siffrorna inte passar in p˚a n˚agon av personerna i listan eller om det ¨ar en tidigare vald person hoppas den siffran ¨over.
• Kombinationer av siffror som f¨oljer efter varandra tas fram f¨or- slagsvis radvis p˚a ovanst˚aende s¨att ¨anda tills urvalet ¨ar klart.
2. Om X st˚ar f¨or projekttiden g¨aller f¨or den variabeln att den kan beskrivas med en normalf¨ordelning d¨ar genomsnittet µ ¨ar 21 dagar och standardavvikelsen σ ¨ar 5 dagar.
(a) Det som s¨oks ¨ar andelen av projekten som har en tid p˚a ¨over 30 dagar, dvs andelen X > 30.
5 10 15 20 25 30 35
0.000.020.040.060.08
Med sedvanlig standardisering f˚ar man att den andelen motsvarar an-
delen v¨arden f¨or den standardiserade normalf¨ordelningen som ¨oversti-
ger (30 − 21)/5 = 1.8, dvs andelen Z > 1.8.
L¨osningar S0006M 2008-06-04
−3 −2 −1 0 1 2 3
0.00.10.20.30.4
Enligt tabellen ¨ar det 97.72% av v¨ardena som ¨ar l¨agre ¨an 1.8, vilket inneb¨ar att andelen som ¨overstiger 30 m˚aste vara 1 −0.9772 = 0.0228.
(b) Det som s¨oks ¨ar det antal dagar som 90% av projekten ¨overstiger, dvs det v¨arde c som g¨or att andelen X > c blir 90%.
5 10 15 20 25 30 35
0.000.020.040.060.08