• No results found

Tentamen i: Statistik 1, Unders¨okningsmetodik 7.5 hp

N/A
N/A
Protected

Academic year: 2021

Share "Tentamen i: Statistik 1, Unders¨okningsmetodik 7.5 hp"

Copied!
10
0
0

Loading.... (view fulltext now)

Full text

(1)

Skrivtid 0900–1400

Tentamen i: Statistik 1, Unders¨okningsmetodik 7.5 hp

Antal uppgifter: 5

Krav f¨or G: 15

L¨arare: Robert Lundqvist & Eva L¨ovf

Jour: Robert Lundqvist, tel 49 24 04

Resultatet ansl˚as senast: 13/6 2008

Till˚atna hj¨alpmedel:

• En statistikbok, g¨arna Introduction to the Practice of Statistics av Moore &

McCabe. Undantag: kombinationen Praktisk statistik/R¨akna med slumpen

• Minir¨aknare

Om den bok du har med dig inte inneh˚aller tabell f¨or normalf¨ordelningen eller annan tabell du tycker dig beh¨ova s˚a ska s˚adana tabeller finnas hos tentamensvakt.

T¨ank p˚a att redovisa dina l¨osningar p˚a ett klart och tydligt s¨att. Endast det nume- riska svaret r¨acker inte f¨or full po¨ang. Korrekt l¨osning ger det po¨angantal som st˚ar angivet efter uppgiftstexten.

LYCKA TILL!

OBS! Gl¨om inte att fylla i kursutv¨arderingen i Fronter

(2)

Tentamen i Statistik 1, Unders¨okningsmetodik, S0006M, 2008-06-04

1. Det ¨okande intresset och anv¨andandet av Internet har medf¨ort att m˚anga f¨oretag f¨ors¨oker s¨alja sina produkter p˚a webben. Det ¨ar d¨arf¨or intressant att veta vilka som anv¨ander webben och hur mycket. En person p˚a en mark- nadsavdelning fick i uppdrag att unders¨oka detta. Bland annat unders¨oktes antal timmar Internet anv¨andes veckan innan unders¨okningen. ¨ Aven bak- grundsvariabler som ˚alder togs med i unders¨okningen. Ett obundet slump- m¨assigt urval (”simple random sample”) p˚a 15 personer ur en population av vuxna medborgare (20 ˚ar eller ¨aldre) gav f¨oljande resultat.

Alder ˚ 30 42 55 40 44

Internettid 10 5 0 14 24

Alder ˚ 60 24 33 28 45

Internettid 0 15 12 20 10

Alder ˚ 49 52 33 25 28

Internettid 5 8 12 15 0

(a) Sammanst¨all variabeln ˚alder i ett stam-bladsdiagram. Ber¨akna medel- v¨ardet och standardavvikelsen p˚a ˚aldern f¨or de fem f¨orsta individerna i tabellen ovan (en begr¨ansning bara f¨or att du inte ska beh¨ova r¨akna p˚a s˚a m˚anga v¨arden).

(b) Ber¨akna medianen och kvartilerna f¨or internettiderna, samt beskriv hur du r¨aknar ut dessa. Ber¨akna ¨aven kvartilavst˚andet (”interquartile range”).

(c) Illustrera internettiderna i ett l˚adagram (”boxplot”). Unders¨ok om det finns n˚agra uteliggare (”outliers”) i materialet med sedvanliga st¨angsel, dvs de gr¨anser som ges av

q

1

− 1.5 · (q

3

− q

1

) , q

3

+ 1.5 · (q

3

− q

1

)

(d) F¨or att beskriva hur ˚alder p˚averkar internettiden kan man g¨ora en re- gressionsanpassning som i detta fall blir f¨oljande uttryck:

ˆ

y = 21.8 − 0.3x

Kan koefficienterna i det sambandet ges meningsfulla tolkningar? Ge

i s˚a fall s˚adana tolkningar. Om det inte ¨ar m¨ojligt att ge meningsfull

tolkning, motivera d˚a detta.

(3)

(e) F¨orklaringsgraden f¨or regressionssambandet ovan blev 23%. Vad kan utifr˚an det v¨ardet s¨agas om styrkan i sambandet mellan variablerna?

Best¨am ¨aven korrelationskoefficienten.

(f) Hur skulle korrelationskoefficienten f¨or¨andras om enheten p˚a Internet- tiden ¨andras till minuter ist¨allet f¨or timmar: blir den l¨agre, of¨or¨andrad eller h¨ogre?

(g) Om riktningskoefficienten i ett regressionssamband blir n¨ara 0 bety- der det d˚a att den f¨orklarande variabeln m˚aste ha liten p˚averkan p˚a svarsvariabeln? Om inte, motivera d˚a ditt svar.

(h) Utifr˚an dina erfarenheter fr˚an den gjorda unders¨okningen f˚ar du fr˚agan om du kan g¨ora en ny unders¨okning av internetanv¨andningen bland studenterna p˚a ett visst l¨aros¨ate. I uppdraget skulle d˚a ing˚a att g¨ora ett stratifierat urval utifr˚an k˚artillh¨orighet med 100 studenter fr˚an var och en av de tre k˚arerna vid det aktuella l¨aros¨atet. Beskriv kortfattat hur det urvalet skulle g¨oras: vad du beh¨over f¨or hj¨alpmedel och underlag,

och hur du skulle g˚a tillv¨aga. (15p)

2. I arbetslivet utf¨ors m˚anga arbeten i projekt. Vid ett st¨orre f¨oretag hade tiden f¨or projekten som bedrivits vid f¨oretaget sammanst¨allts, och det materialet visade att projekttiden kunde beskrivas med en normalf¨ordelning d¨ar ge- nomsnittet var 21 dagar och standardavvikelsen 5 dagar.

(a) Om projekttiden ¨overstiger 30 dagar blir l¨onsamheten l¨agre eftersom faktureringen f¨ordr¨ojs och kunden f˚ar on¨odigt l˚ang v¨antetid. Hur stor andel av projekten ¨overstiger 30 dagar?

(b) Vilket antal dagar ¨overskrider 90% av projekten?

(c) En person som samlat p˚a sig data fr˚an liknande projekt i ett annat f¨oretag tycker det verkar tveksamt att anv¨anda 5 dagar som standard- avvikelse f¨or populationen av projekt, d¨aremot verkar genomsnittet rimligt. Om andelen projekt som tagit h¨ogst 15 dagar ¨ar 10%, vad ¨ar d˚a standardavvikelsen i den populationen av projekt? (6p) I ovanst˚aende uppgifter ¨ar det s¨arskilt viktigt att inf¨orda variabler definieras tydligt, att f¨oruts¨attningarna ¨ar klart beskrivna och att ber¨akningarna g˚ar att f¨olja.

3. En liter mj¨olk kostade ˚ar 1980 2.41 kr. ˚ Ar 2003 kostade en liter mj¨olk 7.25 kr.

(a) Hur stor ¨ar den genomsnittliga prisf¨or¨andringen per ˚ar p˚a mj¨olk, mel-

lan ˚ar 1980 och 2003?

(4)

Tentamen i Statistik 1, Unders¨okningsmetodik, S0006M, 2008-06-04

(b) R¨akna om mj¨olkpriset ˚ar 1980 till penningv¨ardet f¨or ˚ar 2003. KPI, som

har bas˚ar 1980, var 278 ˚ar 2003. (4p)

4. Vid ett visst l¨aros¨ate vill man se hur studenter f¨ordelar sin tid, och ett led i det arbetet ¨ar att ett urval av studenter dagligen ska f¨ora en loggbok. F¨or de studenterna kommer det att finnas b˚ade bakgrundsinformation och data fr˚an loggboken. N˚agra av variablerna ¨ar f¨oljande:

Personnummer Ger indirekt ˚alder

K˚artillh¨orighet Tre m¨ojliga alternativ

Program

Tid de har schemalagd undervisning under en vecka

Summan av de dagliga noteringarna

Tid de l¨agger ner p˚a studierna utanf¨or schema under en vecka

Summan av de dagliga noteringarna

Omfattning p˚a arbete vid sidan av studierna varje vecka

Tre intervall fr˚an ”S˚a gott som ingen” till ”20 timmar eller mer”

(a) Ge tv˚a exempel p˚a metoder f¨or att beskriva variabeln schemalagd tid grafiskt. Namnge metoderna och ge g¨arna enkla skisser p˚a hur dia- grammen kan t¨ankas se ut.

(b) Ge exempel p˚a hur sambandet mellan schemalagd tid och studietid utanf¨or schema kan beskrivas grafiskt. Namnge en metod och ge g¨arna en skiss p˚a hur diagrammet kan t¨ankas se ut.

(c) Ge exempel p˚a hur man kan g¨ora en grafisk beskrivning av samban- det mellan k˚artillh¨orighet och den tid man la ner p˚a studier utanf¨or schemalagda pass. Namnge en metod och ge g¨arna en skiss p˚a hur

diagrammet kan t¨ankas se ut. (3p)

5. Du har f˚att i uppgift att utreda olika s¨att att korta ner handl¨aggningstiden f¨or en viss typ av bank¨arenden. Som en del i det f¨orberedande arbetet ska de nuvarande tiderna beskrivas, och ett histogram visar ett snedf¨ordelat mate- rial med de flesta tiderna i intervallet 2 till 5 dagar, och med ett mindre antal

¨arenden som dr¨ojer ¨anda upp till 20 dagar. Du vill komplettera de grafiska beskrivningarna med sammanfattande m˚att. Fr˚agan uppkommer d˚a vilket spridningsm˚att som ska anv¨andas, och ett alternativ ¨ar standardavvikelsen.

Det m˚attet ¨ar dock kanske inte det b¨asta i detta fall. Motivera varf¨or stan- dardavvikelsen inte ¨ar l¨ampligt som spridningsm˚att i material som detta.

(2p)

(5)

1. (a) Ett stambladdiagram f¨or variabeln ˚alder kan se ut p˚a f¨oljande s¨att:

2|4 betyder 24, bladen ¨ ar ental 2 | 4588

3 | 033 4 | 02459 5 | 25 6 | 0

Medelv¨ardet av de fem f¨orsta v¨ardet blir

¯ x = 1

5 ∑ x

i

= 42.2

och standardavvikelsen blir

s =

r 1

n − 1(x

i

− ¯ x)

2

= 8.9554

(b) Med 15 v¨arden ¨ar medianen v¨arde nr 8 i storleksordning, dvs 10 tim- mar. Den undre kvartilen q

1

kan tas fram som medianen i den undre halvan, dvs v¨arde nr 4 som ¨ar 5 timmar. P˚a motsvarande s¨att ¨ar den

¨ovre kvartilen q

3

median i den ¨ovre halvan, i detta fall 15 timmar.

Kvartilavst˚andet (IQR) blir d˚a q

3

− q

1

= 10 timmar.

(c) En boxplot kan se ut p˚a f¨oljande s¨att:

++---+---+---+---+---+

| |

| |

| |

| |

| +---+---+ |

|+---| | |---+|

| +---+---+ |

| |

| |

| |

++---+---+---+---+---+

0 5 10 15 20

Internettid (timmar)

(6)

L¨osningar S0006M 2008-06-04

Med de givna gr¨anserna f¨or uteliggare (−10, 30) finns inga uteliggare i materialet.

(d) Riktningskoefficienten −0.3 kan tolkas p˚a f¨oljande s¨att: n¨ar ˚aldern

¨okar med ett ˚ar s˚a minskar internettiden per vecka med i genomsnitt 0.3 timmar.

Interceptet 21.8 kan inte ges meningsfull tolkning eftersom det inte finns n˚agra observationer p˚a internettiden f¨or ˚aldrar n¨ara 0.

(e) Med f¨orklaringsgraden 23% har man ett svagt linj¨art samband, el- ler annorlunda uttryckt, det ¨ar bara 23 % av variationen i y-led som f¨orklaras av regressionsmodellen.

Om f¨orklaringsgraden ¨ar 23% s˚a ¨ar korrelationskoefficienten √ 0.23 = 0.4796, vilket s¨ager samma sak: det ¨ar ett relativt svagt linj¨art samband mellan variablerna ˚alder och internettid. Att det ¨ar ett minustecken beror f¨orst˚as p˚a att det ¨ar ett negativt samband, vilket framg˚ar av den negativa riktningskoefficienten.

(f) Om enheten p˚a internettiden ¨andras kommer korrelationskoefficienten att vara of¨or¨andrad. Sambandet mellan variablerna ¨ar lika stark oavsett skalan f¨or variablerna.

(g) Om riktningskoefficienten ¨ar n¨ara 0 betyder det inte att den f¨orklarande variabelns p˚averkan p˚a svarsvariabeln ¨ar liten. Den kan ha liten bety- delse, men det har inte att g¨ora med sifferv¨ardet. Ett exempel som visar detta ¨ar ovanst˚aende material. Om enheten f¨or ˚aldern skulle vara tio- tal ˚ar ist¨allet f¨or ˚ar hade riktningskoefficienten f˚att v¨ardet -0.03, hade det varit hundratal ˚ar skulle v¨ardet blivit -0.003. I alla dessa fall har variabeln samma p˚averkan p˚a svarsvariabeln.

(h) F¨or att g¨ora ett stratifierat urval ska populationen delas i i strata, i detta fall ett stratum f¨or varje k˚ar. F¨or att kunna g¨ora detta m˚aste man allts˚a ha uppgifter om vilken k˚ar varje individ i populationen tillh¨or.

N¨ar sedan den indelningen ¨ar klar ska ett slumpm¨assigt urval g¨oras i varje stratum, och d¨ar kan man ta hj¨alp av exempelvis slumptalstabell eller programvara. Med slumptalstabell skulle man kunna g˚a tillv¨aga p˚a f¨oljande s¨att:

• I stratum 1 numreras alla individerna fr˚an 1 till sista personen.

• En startpunkt i slumptalstabellen v¨aljs ut p˚a ett ”slumpm¨assigt”

s¨att.

• Ett antal siffror som t¨acker upp antalet i den aktuella gruppen tas fram: om det ¨ar mellan 1 och 99 personer tas tv˚a siffror, om det

¨ar mellan 100 och 999 tas 3 efter varandra f¨oljande siffror och s˚a

vidare.

(7)

• Om siffrorna st¨ammer ¨overens med en av personerna i listan v¨aljs den personen ut.

• Om siffrorna inte passar in p˚a n˚agon av personerna i listan eller om det ¨ar en tidigare vald person hoppas den siffran ¨over.

• Kombinationer av siffror som f¨oljer efter varandra tas fram f¨or- slagsvis radvis p˚a ovanst˚aende s¨att ¨anda tills urvalet ¨ar klart.

2. Om X st˚ar f¨or projekttiden g¨aller f¨or den variabeln att den kan beskrivas med en normalf¨ordelning d¨ar genomsnittet µ ¨ar 21 dagar och standardavvikelsen σ ¨ar 5 dagar.

(a) Det som s¨oks ¨ar andelen av projekten som har en tid p˚a ¨over 30 dagar, dvs andelen X > 30.

5 10 15 20 25 30 35

0.000.020.040.060.08

Med sedvanlig standardisering f˚ar man att den andelen motsvarar an-

delen v¨arden f¨or den standardiserade normalf¨ordelningen som ¨oversti-

ger (30 − 21)/5 = 1.8, dvs andelen Z > 1.8.

(8)

L¨osningar S0006M 2008-06-04

−3 −2 −1 0 1 2 3

0.00.10.20.30.4

Enligt tabellen ¨ar det 97.72% av v¨ardena som ¨ar l¨agre ¨an 1.8, vilket inneb¨ar att andelen som ¨overstiger 30 m˚aste vara 1 −0.9772 = 0.0228.

(b) Det som s¨oks ¨ar det antal dagar som 90% av projekten ¨overstiger, dvs det v¨arde c som g¨or att andelen X > c blir 90%.

5 10 15 20 25 30 35

0.000.020.040.060.08

(9)

Med standardiseringen f˚as att den andelen m˚aste vara densamma som andelen Z-v¨arden som ¨overstiger (c − 21)/5. Samtidigt s¨ager tabellen att andelen v¨arden f¨or den f¨ordelningen som ¨overstiger −1.28 ¨ar 90%.

Det betyder att

c − 21

5 = −1.28 vilket i sin tur betyder att c = 14.6.

(c) L˚at Y vara projekttiderna i det andra f¨oretaget. D¨ar ¨ar allts˚a µ = 21 rimligt, men σ ¨ar ok¨ant. D¨aremot ¨ar det klart att andelen projekt som tagit h¨ogst 15 dagar ¨ar 10%, dvs andelen Y > 15 ¨ar 10%.

Med standardiseringen inneb¨ar detta att andelen Z <

15−21σ

ocks˚a ska vara 10%. Enligt tabell vet vi att den andelen Y < −1.28 ¨ar just 10%.

Detta sammantaget betyder att 15 − 21

σ = −1.28 vilket ger att σ = 4.6875.

3.

Ar ˚ 1980 2003

Pris (kr) 2.41 7.25

KPI 100 278

(a) Om k st˚ar f¨or en genomsnittlig tillv¨axtfaktor g¨aller att priset ˚ar 1980 multiplicerat med en serie av dessa faktorer ska ge slutpriset ˚ar 2003, dvs

2 .41 · k

23

= 7.25

Detta betyder att k

23

= 3, 0083, vilket i sin tur betyder att k = 3.0083

(1/23)

= 1, 0491

Den genomsnittliga pris¨okningen var allts˚a 4,91%.

(b) En vara som ˚ar 2003 kostade 278 kr hade 1980 ett pris p˚a 100 kr. En vara som ˚ar 1980 kostade 1 kr kostade d˚a 278/100 = 2.78 kr ˚ar 2003.

En vara (exempelvis mj¨olk) som ˚ar 1980 kostade 2.41 kr skulle d˚a ˚ar

2003 kosta 2 .41 ·2.78 = 6,6998 kr. Detta betyder allts˚a att det faktiska

mj¨olkpriset ¨okade mer ¨an KPI.

(10)

L¨osningar S0006M 2008-06-04

4. (a) F¨or att beskriva variabeln tid i schemalagd undervisning grafiskt kan man till exempel anv¨anda n˚agon av f¨oljande metoder:

• Stambladdiagram

• Histogram

• Boxplot

• Dotplot

(b) B˚ada variablerna ¨ar numeriska/kvantitativa. Sambandet mellan tid i och utanf¨or schema kan d˚a till exempel beskrivas med en vanlig sam- bandsplott (”scatter plot”): ena variabeln p˚a x-axeln och den andra p˚a y-axeln.

(c) En av variablerna (k˚artillh¨orighet) ¨ar kategorisk och den andra ¨ar nu- merisk/kvantitativ. Ett s¨att att ˚ask˚adligg¨ora sambandet mellan de tv˚a kan d˚a vara att g¨ora en boxplot f¨or var och en av k˚arerna.

5. Standardavvikelsen ¨ar inte bra att anv¨anda f¨or snedf¨ordelade material d¨arf¨or att den ¨ar s˚a k¨anslig f¨or mer extrema v¨arden i likhet med medelv¨ardet. Det beror p˚a konstruktionen:

s =

r 1

n − 1(x

i

− ¯ x)

2

Avst˚andet fr˚an ett h¨ogt v¨arde till medelv¨ardet tas med inte bara med i sig,

det f¨orstoras ocks˚a genom att differensen mellan m¨atv¨arde och medelv¨arde

kvadreras. Eventuella uteliggare kommer allts˚a att bidra mycket till slut-

summan.

References

Related documents

Element¨ ar gruppteori, hemuppgifter till torsdag vecka 401. Vilka element kan v¨aljas som generator f¨ or

Material i grupp II och III har ocks˚ a h¨ og kompressibilitet f¨ or att de har dels kovalent bindning, dels metallisk bindning, vilket leder till kovalenta kristaller som har ¨

En o¨ andligt l˚ ang (o¨ andlig i b˚ ada riktningarna) massiv cylinder med radien R har temperaturen 100 ◦ C efter att under en l¨ angre tid ha legat i kokande vatten.

Denna situation har varat s˚ a l¨ ange att tempera- turj¨ amvikt

F¨or n˚agot st¨orre stickprov (en tum- regel ¨ar storlekar st¨orre ¨an 15, se IPS sidan 463) r¨acker det med att variabeln ¨ar symmetrisk och att det inte finns n˚agra

(a) En grafisk beskrivning av resultaten fr˚an fr˚agan om EU-valet ska be- skrivas grafiskt vore ett enkelt stapeldiagram: en stapel f¨or antal som skulle r¨osta Ja, en stapel

(b) F¨or att beskriva boendetiden grafiskt p˚a ett s˚adant s¨att att det blir l¨att att j¨amf¨ora de olika ˚aldersgruppernas boendetid kan man till exempel anv¨anda

Matematiska institutionen Stockholms