• No results found

Tentamen i: Statistik 1, Unders¨okningsmetodik 7.5 hp

N/A
N/A
Protected

Academic year: 2021

Share "Tentamen i: Statistik 1, Unders¨okningsmetodik 7.5 hp"

Copied!
13
0
0

Loading.... (view fulltext now)

Full text

(1)

LULE ˚ A TEKNISKA UNIVERSITET Amneskod ¨ S0006M Institutionen f¨or matematik Datum 2008-08-23

Skrivtid 0900–1400

Tentamen i: Statistik 1, Unders¨okningsmetodik 7.5 hp

Antal uppgifter: 6

Krav f¨or G: 14

L¨arare: Robert Lundqvist, tel 49 24 04

Jour: Robert Lundqvist, tel 49 24 04

Resultatet ansl˚as senast: 18/9 2008

Till˚atna hj¨alpmedel:

• En statistikbok, g¨arna Introduction to the Practice of Statistics av Moore &

McCabe. Undantag: kombinationen Praktisk statistik/R¨akna med slumpen

• Minir¨aknare

T¨ank p˚a att redovisa dina l¨osningar p˚a ett klart och tydligt s¨att. Endast det nume- riska svaret r¨acker inte f¨or full po¨ang. Korrekt l¨osning ger det po¨angantal som st˚ar angivet efter uppgiftstexten.

LYCKA TILL!

(2)

Tentamen i Statistik 1, S0006M, 2008-08-23

1. I tillverkningen av en viss komponent till personbilar uppst˚ar sm¨arre fel i ytskiktet. Urval av komponenter tas ut regelbundet f¨or unders¨okning, och antalet fel sammanst¨alls. F¨or ett urval av 14 komponenter f˚ar man f¨oljande resultat:

Antal fel per komponent 0 1 2 3

Frekvens 3 6 4 1

(a) Vad blir medelv¨arde och standardavvikelse f¨or antalet fel per kompo- nent?

(b) Vad blir median, undre och ¨ovre kvartil f¨or antalet fel per komponent?

(c) Beskriv antalet fel per komponent med en boxplot/l˚adagram. (6p) 2. I en viss syssla kr¨avs f¨orm˚aga att uppfatta detaljer. F¨or att ta reda p˚a vil- ka av de anst¨allda som ska f˚a tr¨ana upp sig i den sysslan genomfors ett test d¨ar man m¨ater andelen korrekta bed¨omningar (enhet: %), resultat i ett fr˚ageformul¨ar (enhet: antal korrekta svar). I nedanst˚aende tabell ges resul- taten f¨or de testade personerna:

Person Andel korrekta Antal Person Andel korrekta Antal

nr bed¨om- korrekta nr bed¨om- korrekta

ningar svar ningar svar

1 58 5 9 98 9

2 53 4 10 45 2

3 33 10 11 97 8

4 97 10 12 90 6

5 36 2 13 96 7

6 83 7 14 66 3

7 67 6 15 82 6

8 84 9

(a) Om man studerar dessa variabler med andelen korrekta bed¨omningar som svarsvariabel och antalet korrekta svar som f¨orklarande variabel f˚as f¨oljande resultat:

ˆ

y = 43.5 + 4.6x

Kan koefficienterna i den modellen ges meningsfulla tolkningar? Om

s˚a ¨ar fallet, ge s˚adana tolkningar. Om inte, motivera detta.

(3)

Tentamen i Statistik 1, S0006M, 2008-08-23

(b) En viss anst¨alld var inte med i testet av andelen korrekta bed¨omningar men besvarade ¨and˚a fr˚agorna i fr˚ageformul¨aret. D¨ar fick hon 5 korrek- ta svar. Hur stor andel korrekta bed¨omningar kan hon f¨orv¨antas g¨ora utifr˚an det resultatet?

(c) I testet gjordes ocks˚a noteringar om vilken av de tv˚a avdelningar som de anst¨allda kom ifr˚an. I nedanst˚aende tabell ges den informationen.

Person 1 2 3 4 5 6 7 8

Avdelning A A A A A A A A

Person 9 10 11 12 13 14 15

Avdelning B B B B B B B

Uppgifterna om avdelning kan tas med i modellen om den kodas p˚a s˚a vis att en anst¨alld som arbetar vid avdelning A f˚ar v¨ardet 0, och en anst¨alld fr˚an avdelning B f˚ar v¨ardet 1. Om den informationen tas med i en s˚a kallad multipel regressionsmodell f˚as resultatet

ˆ

y = 29.3 + 5.2x + 22.1d

d¨ar x ¨ar samma variabel som i f¨oreg˚aende analys och d ¨ar variabeln f¨or avdelning.

Kan v¨ardet 22.1 ges en meningsfull tolkning? G¨or i s˚a fall detta. Om det inte ¨ar m¨ojligt, motivera d˚a detta.

(d) En mindre insatt medarbetare gjorde samma slags analys av ovanst˚a- ende material, men v¨ande p˚a variablerna s˚a att den f¨orklarande vari- abeln sattes som svarsvariabel och samma omv¨andning f¨or svarsva- riabeln. I en s˚adan analys, kommer korrelationskoefficienten att vara samma som med ”r¨attv¨anda” variabler, eller blir det med samma sif-

ferv¨arde fast med annat tecken? (5p)

3. I tillverkningen av st˚albalkar ska en viss typ av balk v¨aga 2000 kg. Den vik- ten ¨ar dock inte exakt densamma f¨or alla balkar, utan vikten kan beskrivas med en normalf¨ordelning med genomsnittet 2000 kg och standardavvikel- sen 2.3 kg.

(a) Om en balk v¨ager mer ¨an 2004 kg m˚aste den efterbearbetas vilket medf¨or en minskad vinst vid f¨ors¨aljning. Hur stor andel av balkarna kommer att kr¨ava s˚adan efterbearbetning?

(b) N¨ar man ska best¨amma en procedur f¨or kontroll av balkarna blir det en

fr˚aga om att inte skicka iv¨ag f¨or m˚anga d˚aliga balkar men inte heller

kontrollera alltf¨or m˚anga bra. Procedurens utformning – hur m˚anga

(4)

Tentamen i Statistik 1, S0006M, 2008-08-23

balkar som ska kontrolleras – kr¨aver allts˚a en slags f¨orhandling mellan tillverkare och kund.

En typisk fr˚agest¨allning i de f¨orhandlingarna blir att ta reda p˚a h¨ogsta vikt i gruppen av de 10% l¨attaste balkarna. Best¨am denna.

(c) F¨or en annan balktyp har man inte ingen bra uppgift p˚a standardavvi- kelsen f¨or vikten. D¨aremot vet man att genomsnittet 3000 kg ¨ar rimligt och att 5% av balkarna mycket v¨ager mindre ¨an 2990 kg. Ber¨akna ut- ifr˚an dessa uppgifter standardavvikelsen f¨or balkarnas vikt. (7p) I denna uppgift ¨ar det s¨arskilt viktigt att du tydligt definierar de variabler och h¨andelser du anv¨ander i ber¨akningarna.

4. Inom en kedja av m¨obelvaruhus ville man se om en viss utbildning av s¨aljarna gjorde n˚agon skillnad i resultatet. Den unders¨okningen lades upp s˚a att man f¨orst tog ut ett slumpm¨assigt urval av f¨ors¨aljare d¨ar veckof¨ors¨alj- ningen i kronor sammanst¨alldes. Samma f¨ors¨aljare gick igenom utbildning- en, och efter en tid sammanst¨alldes dessa personers f¨ors¨aljning. I nedanst˚a- ende tabell ges resultatet:

S¨aljare 1 2 3 4 5 6 7 8 9 10 11 12

F¨ore 32 29 42 51 21 40 62 56 36 43 50 50

Efter 34 28 47 51 21 50 63 56 36 43 52 61

(a) Beskriv resultaten efter utbildning i ett l¨ampligt stambladdiagram.

(b) Beskriv hur ett slumpm¨assigt urval av s¨aljare kan g¨oras: vilka hj¨alp- medel du beh¨over, vilka underlag som kr¨avs och tillv¨agag˚angss¨att.

(c) Ge exempel p˚a ett s¨att att grafiskt ˚ask˚adligg¨ora resultaten s˚a att det g˚ar att se om det blivit n˚agon individuell f¨or¨andring. (4p) 5. I ett urval ur SCB:s databaser f¨or hush˚allens utgifter kan man f¨or gruppen ensamst˚aende utan barn se att deras ˚arliga utgifter f¨or alkoholhaltiga drycker (l¨att¨ol inr¨aknat) har utvecklat sig p˚a f¨oljande s¨att:

Utgifter, kr/hush˚ all efter

hush˚ allstyp, utgiftsslag och tid

˚ Ar 2003 2004 2005 2006 2007

Utgifter 3260 3000 2610 3050 2930

(5)

Tentamen i Statistik 1, S0006M, 2008-08-23

(a) Ber¨akna en indexserie f¨or dessa utgifter med 2003 som bas˚ar, dvs det

˚ar d˚a index ¨ar 100.

(b) F¨or samma tidsperiod var konsumentprisindex f¨oljande:

Konsumentprisindex (KPI) ˚ arsmedeltal totalt, skuggindextal, 1980=100 efter tid

2001 267 2002 272 2003 278 2004 279 2005 280 2006 284 2007 290

Vad blir utgifterna f¨or ˚ar 2003 med 2007 ˚ars penningv¨arde?

(c) Hur stor ¨ar den genomsnittliga ˚arliga f¨or¨andringen av konsumentpris-

index under perioden 2003 till 2007? (3p)

6. Du har f˚att i uppdrag att genomf¨ora en unders¨okning i en stadsdel d¨ar syftet

¨ar att f˚a ett underlag f¨or b˚ade framtida byggnationer och f¨or att f˚a en bild av hur inv˚anarna st¨aller sig till f¨or¨andringar i den kommunala f¨orvaltningen av omr˚adet. N˚agra av de variabler som ska m¨atas ¨ar f¨oljande:

• ˚ Aldersgrupp, d¨ar svar ges som en av fyra fasta alternativ.

• Grad av f¨ orv¨arvsarbete: heltid eller mer, deltid eller inte alls.

• Hur l¨ange man bott i omr˚adet d¨ar svar ska anges som antalet ˚ar.

• Inst¨allning till byggande av ett villaomr˚ade i anslutning till det aktuel- la bostadsomr˚adet: svar ska anges som ”positiv”, ”neutral”, ”negativ”

eller ”ingen ˚asikt”.

(a) N¨ar man plottar upp tiden de svarande bott i omr˚adet i ett histogram vi- sar den en p˚atagligt sned f¨ordelning med en ”svans” ˚at h¨oger. Beskriv vad det s¨ager om boendetiden i ord.

(b) Ge ett f¨orslag p˚a hur boendetiden kan beskrivas grafiskt s˚a att det blir l¨att att j¨amf¨ora de olika ˚aldersgruppernas boendetid.

(c) Ge ett f¨orslag p˚a hur man kan ˚ask˚adligg¨ora inst¨allningen till byggande

f¨or olika boendetider i en tabell. (3p)

(6)

Svar till tentamen i Statistik 1, S0006M, 2008-08-23

1. L˚at x st˚a f¨or antalet fel per komponent. F¨or den variabeln g¨aller enligt upp- giften att

Antal fel 0 1 2 3

per komponent (x)

Frekvens 3 6 4 1

(a) Medelv¨ardet blir

¯ x = 1

nx

i

= 14 1 (0 + 0 + 0 + · · · + 3) = 1.214 och standardavvikelse blir

s =

r 1

n − 1(x

i

− ¯ x)

2

=

= r 1

13 ((0 − 1.214)

2

) + · · ·(3 − 1.214)

2

= 0.8925824 (b) Medianen, det mittersta v¨ardet ¨ar medelv¨ardet av 7:e och 8:e v¨ardet

i storleksordning, dvs 1. Undre kvartil blir d˚a medianen i den und- re halvan, dvs v¨arde nr 4 som ocks˚a ¨ar 1. Den ¨ovre kvartilen blir p˚a motsvarande s¨att 2.

(c) Antalet fel per komponent kan beskrivas med en boxplot av f¨oljande utseende:

++---+---+---+---+---+---++

| |

| |

| |

| +---+ |

|+---| |---+|

| +---+ |

| |

| |

++---+---+---+---+---+---++

0 0.5 1 1.5 2 2.5 3

(7)

Svar till tentamen i Statistik 1, S0006M, 2008-08-23

2. L˚at x st˚a f¨or antalet korrekta svar och y f¨or andelen korrekta bed¨omningar.

Resultatet i regressionsanalysen blev

ˆ

y = 43.5 + 4.6x

(a) H¨ar kan v¨ardet 43.5 inte ges meningsfull tolkning eftersom man inte har n˚agra observationer p˚a y f¨or v¨arden p˚a x som ligger n¨ara 0. V¨ardet 4.6 kan dock s¨agas visa att genomsnittligt antal bed¨omningar ¨okar med 4.6 procentenheter n¨ar antalet korrekta svar ¨okar med 1.

(b) Om x = 5 betyder det att motsvarande v¨arde p˚a y blir 43.5 + 4.6 · 5 = 66.5.

(c) L˚at d beteckna avdelning. Koefficienten f¨or den variabeln ¨ar 22.1, vilket kan tolkas som att v¨ardet p˚a svarsvariabeln, andelen korrekta bed¨omningar, ¨okar med i genomsnitt 22.1 procentenheter n¨ar d ¨okar med 1, dvs n¨ar man j¨amf¨or en anst¨alld fr˚an avdelning A med en fr˚an avdelning B.

(d) Om man v¨ander p˚a variablerna kommer korrelationskoeffienten att bli densamma, dvs samma sifferv¨arde och samma tecken. Rent allm¨ant g¨aller att med ett positivt samband s˚a h¨anger h¨oga v¨arden p˚a den ena variablen ihop med h¨oga v¨arden p˚a den andra. F¨or ett negativt sam- band g¨aller f¨orst˚as motsvarande m¨onster.

3. L˚at x beteckna vikten f¨or den aktuella balktypen. F¨or den g¨aller att genom- snittet µ = 2000 kg och standardavvikelsen σ = 2.3 kg.

(a) Det som s¨oks ¨ar andelen x som ¨ar h¨ogre ¨an 2004 kg:

(8)

Svar till tentamen i Statistik 1, S0006M, 2008-08-23

1994 1996 1998 2000 2002 2004 2006

0.000.050.100.15

Den andelen motsvarar en andel f¨or den standardiserade normalf¨or- delningen: om man tar till sedvanlig standardisering (z = (x − µ )/ σ framg˚ar att n¨ar x = 2004 s˚a ¨ar z = (2004 − 2000)/2.3 = 1.74, vilket i sin tur betyder att andelen x > 2004 ¨ar lika stor som andelen z > 1.74:

−3 −2 −1 0 1 2 3

0.00.10.20.30.4

Enligt tabell ¨ar den andelen 4.10%, dvs andelen balkar som kr¨aver

(9)

Svar till tentamen i Statistik 1, S0006M, 2008-08-23

efterbearbetning ¨ar 4.10%.

(b) Det som s¨oks ¨ar c, h¨ogsta vikt i gruppen av de 10% l¨attaste balkarna:

1994 1996 1998 2000 2002 2004 2006

0.000.050.100.15

Andelen x < c ska vara 10%. Med sedvanlig standardisering f˚as att n¨ar x = c s˚a ¨ar z = (c − 2000)/2.3, vilket i sin tur betyder att

andelen x < c ¨ar lika stor som andelen z < c − 2000 2.3

Enligt uppgiften ¨ar den andelen 10%. Enligt tabell f¨or z-v¨ardena g¨aller att dessa 10% n˚as n¨ar z < −1.28. Detta betyder att

c − 2000

2.3 = −1.28

vilket i sin tur ger att c = 1997.056. H¨ogsta vikt i gruppen av de 10%

l¨attaste balkarna ¨ar allt˚as 1997.056 kg.

(c) F¨or en annan balktyp s¨oks standardavvikelsen σ f¨or vikten. Man kan

utg˚a fr˚an att genomsnittet ¨ar 3000 kg och att 5% av balkarna mycket

v¨ager mindre ¨an 2990 kg.

(10)

Svar till tentamen i Statistik 1, S0006M, 2008-08-23

2990 3000 3010

0.000.010.020.030.040.050.06

Om w st˚ar f¨or balkvikten vet vi allts˚a att andelen w < 2990 ¨ar 5%.

D˚a g¨aller med standardiseringen att n¨ar w = 2990 s˚a ¨ar z = (2990 − 3000)/ σ . Det betyder som tidigare att andelen w < 2990 ¨ar lika stor som andelen z < (2990 − 3000)/ σ . Samtidigt ger tabell att andelen z < −1.64 ¨ar just dessa 5%. Det betyder att

2990 − 3000

σ = −1.64

Detta ger att σ = 6.098. Standardavvikelsen f¨or vikten p˚a dessa balkar

¨ar allts˚a 6.098 kg.

4. Ett stambladdiagram f¨or resultaten efter utbildning kan se ut p˚a f¨oljande s¨att:

1 2*|1

2 2.|8

3 3*|4

4 3.|6

5 4*|3

6 4.|7

6 5*|012

3 5.|6

2 6*|13

(11)

Svar till tentamen i Statistik 1, S0006M, 2008-08-23

1*|1 represents 11 Leaf digit unit = 1

5. Ett slumpm¨assigt urval av de 11 s¨aljarna kan g¨oras p˚a flera s¨att, ett vanligt och principiellt enkelt ¨ar att anv¨anda en slumptalstabell. Det som d˚a ska g¨oras ¨ar f¨oljande:

• Ta fram en urvalsram, dvs en lista med alla s¨aljare.

• Numrera namnen i ramen fr˚an 1 till sista namn.

• En godtycklig startpunkt i slumptalstabellen v¨aljs ut.

• Om s¨aljarna ¨ar h ¨ ogst 99 personer tas tv˚a siffror ut ur tabellen. Om sif- forna motsvarar en viss s¨aljare tas den personen med i urvalet. Om s¨aljarna ¨ar fler ¨an 99 och h¨ogst 999 tas tre siffror ut, och om en siffer- kombination motsvarar en av s¨aljarna i ramen tas den personen med.

Om sifferkombinationen inte passar in p˚a n˚agon i listan g˚ar man vida- re.

• N¨ar en sifferkombination ¨ar tagen g˚ar man vidare i tabellen p˚a ett kon- sekvent s¨att: radvis till n¨asta grupp av tv˚a (alt tre) siffror eller m¨ojligen kolumnvis.

6. F¨or¨andringen kan beskriva p˚a flera s¨att:

(a) Eftersom v¨ardena h¨anger ihop parvis kan man g¨ora en sambandsplott d¨ar resultat f¨ore utbildning l¨aggs p˚a ena axeln och resultat efter utbild- ning p˚a den andra:

+---+---+---+----+---+---+----+---+--+

| *|

60+ * +

| * |

e 50+ * ** +

f | * |

t 40+ * +

e | * |

r | * |

30+ * +

|* |

20+---+---+---+----+---+---+----+---+--+

20 25 30 35 40 45 50 55 60

f¨ ore

(12)

Svar till tentamen i Statistik 1, S0006M, 2008-08-23

(b) Ett annat s¨att ¨ar att bilda differensen mellan resultaten individvis:

2 -1 5 0 0 10 1 0 0 0 2 11

Dessa kan sedan beskrivas med n˚agon l¨amplig metod – stambladdia- gram, ”dotplot”, boxplot – eller annan metod som bygger p˚a en endi- mensionell beskrivning.

7. De aktuella utgifterna ges i nedanst˚aende tabell:

Utgifter, kr/hush˚ all efter

hush˚ allstyp, utgiftsslag och tid

˚ Ar 2003 2004 2005 2006 2007 Utgifter 3260 3000 2610 3050 2930

(a) En indexserie f¨or dessa utgifter med 2003 som bas˚ar ges av

Ar ˚ 2003 2004 2005 2006 2007

Index 100 92.02 80.06 93.56 89.88

d¨ar index f¨or ˚ar 2004 har ber¨aknats tenom att ta det ˚arets index genom bas˚arets, dvs

30003260

· 100.

(b) Det som s¨oks ¨ar utgifterna f¨or ˚ar 2003 med 2007 ˚ars penningv¨arde.

H¨ar kan man med hj¨alp av KPI visa att

Ar ˚ -03 -07

1 kr motsvarar 290/270 kr 3260 kr motsvarar 3260 · 290 278

En utgift fr˚an 2003 p˚a 3260 motsvarar allts˚a 3400.72 kr i 2007 ˚ars penningv¨arde.

(c) Det som s¨oks ¨ar den genomsnittliga ˚arliga f¨or¨andringen av konsument- prisindex under perioden 2003 till 2007.

Om f st˚ar f¨or den ˚arliga tillv¨axtfaktorn g¨aller att 278 · f

4

= 290

vilket betyder att f = (290/278)

1/4

= 1.0106. Den ˚arliga f¨or¨andringen uttryck i procent ¨ar allts˚a 1.06%.

8. Grunden ¨ar f¨oljande variabler:

(13)

Svar till tentamen i Statistik 1, S0006M, 2008-08-23

• ˚ Aldersgrupp, d¨ar svar ges som en av fyra fasta alternativ.

• Grad av f¨ orv¨arvsarbete: heltid eller mer, deltid eller inte alls.

• Hur l¨ange man bott i omr˚adet d¨ar svar ska anges som antalet ˚ar.

• Inst¨allning till byggande av ett villaomr˚ade i anslutning till det aktuel- la bostadsomr˚adet: svar ska anges som ”positiv”, ”neutral”, ”negativ”

eller ”ingen ˚asikt”.

(a) Boendetiden ¨ar enligtuppgiften sned med en ”svans” ˚at h¨oger. Det be- tyder att det de flesta har en kortare boendetid, men det finns n˚agra f˚a som har p˚atagligt l¨angre boendetid ¨an flertalet.

(b) F¨or att beskriva boendetiden grafiskt p˚a ett s˚adant s¨att att det blir l¨att att j¨amf¨ora de olika ˚aldersgruppernas boendetid kan man till exempel anv¨anda parallella boxplottar: en boxplott f¨or varje ˚aldersgrupp och varje boxplott visar den gruppens boendetid. Andra varianter? Dotplot med samma uppdelning, parallella histogram?

(c) F¨or att ˚ask˚adligg¨ora inst¨allningen till byggande f¨or olika boendetider i en tabell ¨ar det enklaste att f¨orst g¨ora om boendetiden till en kategorisk variabel, dvs dela in alla v¨arden i grupper. D¨arefter kan man l¨att g¨ora en vanlig korstabell av f¨oljande snitt:

Boendetid

Grupp 1 Grupp 2 Grupp 3 Grupp 4 positiv

Inst¨allning neutral

negativ

ingen ˚asikt

References

Related documents

Man har tv˚a v˚agar, A och B, d¨ar man misst¨anker att v˚ag B har ett systematiskt fel s˚a att den ger f¨or h¨ogt utslag medan man vet att v˚ag A v¨ager r¨att i

(a) En grafisk beskrivning av resultaten fr˚an fr˚agan om EU-valet ska be- skrivas grafiskt vore ett enkelt stapeldiagram: en stapel f¨or antal som skulle r¨osta Ja, en stapel

(c) Ett l¨ampligt s¨att att ˚ask˚adligg¨ora sambandet mellan dessa variabler ¨ar att g¨ora ett diagram med tv˚a boxplottar: en boxplot f¨or gruppen som inte f˚att p˚aminnelser

(f) Hur skulle korrelationskoefficienten f¨or¨andras om enheten p˚a Internet- tiden ¨andras till minuter ist¨allet f¨or timmar: blir den l¨agre, of¨or¨andrad eller h¨ogre.. (g)

Som hemarbete ges sedan figurens utskärning

Endast definitioner och trigonometriska r¨ aknelagar f˚ ar anv¨ andas utan att de f¨ orst bevisas. Sida 2

Eftersom ämnen tar mycket större plats i gasform än i fast eller flytande form blåses ballongen upp.. Tips Det går också bra att fylla ballongen med bakpulver och hälla en

Förekomsten av mycket hygroskopiska föreningar i aerosoler kan påskynda processen för bildandet molndroppar, medan närvaron av mindre hygroskopiska ämnen kan förlänga den tid som