• No results found

Tentamen i: Statistik AI 15 hp

N/A
N/A
Protected

Academic year: 2021

Share "Tentamen i: Statistik AI 15 hp"

Copied!
11
0
0

Loading.... (view fulltext now)

Full text

(1)

LULE ˚ A TEKNISKA UNIVERSITET Amneskod ¨ S0002M Institutionen f¨or matematik Datum 2009-06-05

Skrivtid 0900–1400

Tentamen i: Statistik AI 15 hp

Antal uppgifter: 6

Krav f¨or G: 12

L¨arare: Robert Lundqvist, tel 49 24 04

Jour: Robert Lundqvist, tel 49 24 04

Resultatet ansl˚as senast: 26/6 2009

Till˚atna hj¨alpmedel:

• En statistikbok. Undantag: kombinationen Praktisk statistik/R¨akna med slumpen

• Minir¨aknare

T¨ank p˚a att redovisa dina l¨osningar p˚a ett klart och tydligt s¨att. Endast det nume- riska svaret r¨acker inte f¨or full po¨ang. Korrekt l¨osning ger det po¨angantal som st˚ar angivet efter uppgiftstexten.

LYCKA TILL!

(2)

Tentamen i Statistik AI, S0002M, 2009-06-05

(3)

Tentamen i Statistik AI, S0002M, 2009-06-05

1. N¨ar st˚albalkar tillverkas ska balkarna sk¨aras av till en best¨amd l¨angd. Det

¨ar viktigt att h˚alla avvikelserna s˚a sm˚a som m¨ojligt. En kort balk kan g¨ora att kundens anv¨andning f¨orsv˚aras och en l˚ang balk inneb¨ar att kunden f˚ar material utan kostnad. D¨arf¨or m¨ats avvikelserna fr˚an best¨alld l¨angd, och f¨or en viss dagsproduktion s˚ag avvikelserna ut p˚a f¨oljande s¨att (enhet: cm):

0.032 0.027 0.015 0.037 0.037 0.021 0.014 0.015 0.028 0.013 0.015 0.031 0.036 0.010 0.044 0.022 (a) Beskriv materialet i ett l¨ampligt stambladdiagram.

(b) Beskriv materialet med en boxplot. Ber¨akna ocks˚a gr¨anserna f¨or ute- liggare med g¨angse q

1

−1.5(q

3

−q

1

), q

3

+1.5(q

3

−q

1

). Om uteliggare finns ska boxplotten visa dessa p˚a sedvanligt s¨att.

(c) Best¨am ett 90% konfidensintervall f¨or genomsnittlig avvikelse. Ange tydligt vilka f¨ordelningsantaganden detta intervall grundar sig p˚a.

(d) Om du antar att det under en f¨oljd av 5 dagar g¨ors ber¨akningar av s˚adana 90% konfidensintervall, hur stor ¨ar d˚a sannolikheten att minst ett av intervallen inte tr¨affar den genomsnittliga avvikelsen? Ange tyd- ligt de f¨ordelningsantaganden dina ber¨akningar grundar sig p˚a. (8p) 2. I samma tillverkningsprocess har det visat sig att tiden f¨or att kapa balkarna

¨ar l˚ang och att det kan finnas m¨ojligheter att tj¨ana in en hel del om den tiden g˚ar att korta. Du ska delta i utredningen om m¨ojliga f¨orb¨attringar, och din f¨orsta uppgift blir att ta fram n˚agra viktiga m˚att f¨or processen.

(a) Det har visat sig rimligt att beskriva tiden f¨or kapning med en nor- malf¨ordelning d¨ar genomsnittet ¨ar 1.2 minuter och standardavvikel- sen ¨ar 0.06 minuter. Hur stor andel av tiderna kommer under dessa f¨oruts¨attningar att bli l¨angre ¨an 1.3 minuter?

(b) Vad ska det vara f¨or genomsnittstid om 5% av tiderna ska vara l¨angre

¨an 1.25 minuter? Utg˚a fr˚an att standardavvikelsen ¨ar lika stor som i f¨oruts¨attningarna till de f¨oreg˚aende uppgifterna.

I dina l¨osningar ska det givetvis vara s˚a att inf¨orda beteckningar ska f¨or-

klaras tydligt. (4p)

3. I en branschtidning har man testat ett antal ¨overvakningskameror. H¨alften

har en viss typ av filformat, den andra h¨alften ett annat format. Bildkvalite-

ten har granskats med en standardiserad m¨atmetod d¨ar resultaten uttrycks i

procent. Enhet f¨or priset var i dollar. I nedanst˚aende tabell ges resultaten f¨or

de 30 testade kamerorna:

(4)

Tentamen i Statistik AI, S0002M, 2009-06-05

Kamera Bild- Pris Fil- Kamera Bild- Pris Fil-

kvalitet format kvalitet format

1 94 350 A 16 88 410 B

2 91 280 A 17 83 285 B

3 88 285 A 18 82 460 B

4 88 260 A 19 80 280 B

5 87 360 A 20 80 280 B

6 86 360 A 21 80 280 B

7 86 375 A 22 79 375 B

8 85 200 A 23 78 520 B

9 83 395 A 24 78 210 B

10 82 300 A 25 77 370 B

11 82 240 A 26 77 250 B

12 80 350 A 27 76 330 B

13 80 275 A 28 74 270 B

14 79 400 A 29 71 250 B

15 79 379 A 30 71 300 B

(a) Om bildkvalitet ¨ar den beroende variabeln och pris den f¨orklarande f˚ar man f¨oljande resultat med regressionsanalys:

ˆ

y = 79.6 + 0.0056 · x

Kan koefficienterna i denna modell ges meningsfulla skattningar? Om s˚a ¨ar fallet, ge s˚adana skattningar. Om det inte g˚ar, motivera d˚a detta.

(b) Vad blir genomsnittlig bildkvalitet f¨or kameror som kostar 400 dollar?

(c) Om man i modellen ¨aven tar med filformat f˚as f¨oljande resultat i reg- ressionsanalysen:

ˆ

y = 81.8 + 0.0089 · x

1

− 6.495 · x

2

d¨ar y ¨ar bildkvalitet, x

1

¨ar pris och x

2

¨ar formatet (s¨atts till 0 om det

¨ar en kamera som ger format av typ A och 1 om formatet ¨ar av typ B). Kan koefficienten f¨or format ges meningsfull tolkning? Om s˚a ¨ar fallet, ge s˚adan tolkning. Om det inte g˚ar, motivera d˚a detta. (4p) 4. I en unders¨okning av hush˚allens f¨orv¨antningar om den framtida ekonomin

ingick fr˚agor om bland annat f¨oljande:

• ˚Alder

• K¨on

(5)

Tentamen i Statistik AI, S0002M, 2009-06-05

• Har du t¨ankt r¨osta i EU-valet? Svarsalternativ: Ja, Nej eller Vet ej.

• Vad tror du om din egen ekonomi under det kommande ˚aret? Svars- alternativ: Min ekonomi kommer att bli b¨attre, Min ekonomi kommer att vara of¨or¨andrad, Min ekonomi kommer att vara s¨amre eller Vet ej.

(a) Ge f¨orslag p˚a hur resultaten fr˚an fr˚agan om EU-valet ska beskrivas grafiskt.

(b) Ge f¨orslag p˚a hur sambandet mellan k¨on och fr˚agan om den egna eko- nomin ska beskrivas grafiskt.

(c) Ge f¨orslag p˚a hur sambandet mellan ˚alder och k¨on kan beskrivas gra-

fiskt. (3p)

I dessa uppgifter ska du utg˚a fr˚an att ”r˚adata” ska kunna anv¨andas, dvs ing- en bearbetning i form av grupperingar eller ber¨akningar ska beh¨ova g¨oras annat ¨an m¨ojligen att r¨akna fram l¨ages- eller spridningsm˚att baserade p˚a ordningsv¨arden.

5. (a) I en unders¨okning av vad medborgarna i en viss kommun tycker om privatiseringar av kommunal verksamhet ska ett slumpm¨assigt urval g¨oras. T¨ank dig att du med ”medborgare” menar r¨ostber¨attigad person som bott stadigvarande i kommunen de senaste tv˚a ˚aren, en population som best˚ar av 45 000 personer i den aktuella kommunen. Du ska g¨ora ett slumpm¨assigt urval p˚a 200 personer bland dessa. Till din hj¨alp har du en slumptalstabell. Vad mer beh¨ovs f¨or att g¨ora urvalet? G¨or en kortfattad beskrivning av hur du g˚ar till v¨aga. (2p) 6. Du har f˚att i uppdrag av en upphandlingsavdelningen inom f¨oretaget att se om det finns skillnader mellan tv˚a tryckeriers pris p˚a en viss typ av stan- dardtj¨anster. F¨or att f˚a en r¨attvis j¨amf¨orelse tas 8 olika underlag ut, varefter de skickas till tryckerierna f¨or att f˚a en kostnadsber¨akning. I nedanst˚aende tabell ges pris per enhet (i kronor) f¨or de olika underlagen:

Underlag 1 2 3 4 5 6 7 8

Tryckeri 1 17.7 19.4 16.5 17.3 15.6 16.1 19.7 18.6 Tryckeri 2 18.9 20.3 18.2 16.8 17.1 16.8 20.6 18.9

Finns det n˚agon signifikant genomsnittlig skillnad mellan tryckeriernas pri- ser per enhet? Besvara fr˚agan genom att best¨amma ett l¨ampligt 95% konfi- densintervall. I dina svar ska det ocks˚a framg˚a l¨ampliga hypoteser. Resulta-

tet ska f¨orklaras tydligt i ord. (4p)

(6)

Svar till tentamen i Statistik 1, S0002M, 2009-06-05

1. (a) Materialet best˚ar av uppm¨atta avvikelser fr˚an best¨amd l¨angd f¨or totalt 16 st˚albalkar. Ett stambladdiagram f¨or dessa avvikelser kan se ut p˚a f¨oljande s¨att:

The decimal point is 2 digit(s) to the left of the | 1 | 034555

2 | 1278 3 | 12677 4 | 4

H¨ar ska som det anges i diagrammet v¨arden tolkas som att 1|0 st˚ar f¨or v¨ardet 0.010.

(b) Med 16 v¨arden ges medianen av medelv¨ardet av 8:e och 9:e v¨ardet i storleksordning, dvs (0.022 + 0.027)/2 = 0.0245. Med 8 v¨arden i respektive halva ges undre och ¨ovre kvartil av medelv¨ardena av 4:e och 5:e v¨ardena uppifr˚an och nedifr˚an, dvs q

1

= 0.015 och q

3

= 0.034.

(c) Med q

1

− 1.5(q

3

− q

1

), q

3

+ 1.5(q

3

− q

1

) som gr¨anser f¨or uteligga- re ska v¨arden l¨agre ¨an −0.0135 eller h¨ogre ¨an 0.0625 markeras som uteliggare. N˚agra s˚adana finns inte. En boxplot kan d¨arf¨or se ut p˚a f¨oljande s¨att:

0.0100.0150.0200.0250.0300.0350.0400.045

(d) Om X st˚ar f¨or avvikelsen g¨aller att X ska vara normalf¨ordelad med genomsnittet µ och standardavvikelsen σ , b˚ada ok¨anda. Ett 90% kon- fidensintervall f¨or genomsnittlig avvikelse, dvs f¨or µ , ges av uttrycket

¯ x ± t

s

n

d¨ar t

= 1.753 ¨ar det v¨arde som f¨or en variabel t som f¨oljer t-f¨ordelning

(7)

Svar till tentamen i Statistik 1, S0002M, 2009-06-05

med 15 frihetsgrader g¨or att P (t > t

) = 0.05. Medelv¨ardet ¯x = 0.0248, s = 0.0106 och n = 16. Detta ger tillsammans intervallet

[0.020171, 0.029454]

Med 90% s¨akerhet kan du allts˚a s¨aga att den genomsnittliga avvikelsen t¨acks av intervallet ovan.

(e) L˚at Y st˚a f¨or antalet intervall som inte tr¨affar den genomsnittliga av- vikelsen Det ¨ar 10% sannolikhet att ett intervall inte tr¨affar, och an- talet intervall som missar kan beskrivas med en binomialf¨ordelning d¨ar n = 5 och p = 0.10. Den fr˚aga som ¨ar st¨alld kan d˚a skrivas som P (Y ≥ 1). Ett s¨att att ber¨akna denna sannolikhet ¨ar att ber¨akna

P (Y ≥ 1) = P(Y = 1) + ··· + P(Y = 10) men det ¨ar mycket mer kr¨avande ¨an att ber¨akna motsatsen:

P (Y ≥ 1) = 1 − P(Y < 1) = 1 − P(Y = 0) Den senare sannolikheten f˚as genom

P (Y = 0) = 10 0



0.10

0

· 0.90

10

≈ 0.3487 Den s¨okta sannolikheten ¨ar allts˚a 65.1%.

2. L˚at X st˚a f¨or tiden det tar att kapa en balk.

(a) Tiden X s¨ags vara normalf¨ordelad med genomsnittet µ = 1.2 och stan- dardavvikelsen σ = 0.06 minuter. Det som s¨oks ¨ar andelen tider som

¨ar l¨angre ¨an 1.3 minuter, dvs andelen X > 1.3.

1.05 1.10 1.15 1.20 1.25 1.30 1.35

0123456

(8)

Svar till tentamen i Statistik 1, S0002M, 2009-06-05

Med sedvanlig standardisering, dvs med transformationen Z = (X − µ )/ σ f˚as att andelen X > 1.3 ¨ar lika stor som andelen Z > (1.3 − 1.2)/0.06, dvs andelen Z > 1.67:

−3 −2 −1 0 1 2 3

0.00.10.20.30.4

Enligt tabell ¨ar andelen Z ≤ 1.67 0.8525, s˚a andelen Z > 1.67 blir d˚a 1 − 0.9525 = 0.0475.

(b) Om W st˚ar f¨or den nya tiden, s˚a g¨aller f¨or denna att genomsnittstiden µ ¨ar ok¨and men standardavvikelsen σ = 0.06 som tidigare. Det ¨ar ocks˚a k¨ant att andelen tiden som ¨ar l¨angre ¨an 1.25 minuter ska vara 5%. Vi s¨oker allts˚a det v¨arde p˚a µ som uppfyller det senare villkoret, dvs andelen W > 1.25 ska vara 5%.

Med standardisering f˚as att den givna andelen ska vara lika stor som andelen Z > (1.25 − µ )/0.06. Den andelen ¨ar 5%. Enligt tabell ges detta resultat n¨ar Z > 1.64. Detta betyder att (1.25 − µ )/0.06 m˚aste vara 1.64, vilket i sin tur betyder att µ = 1.1516 minuter.

3. H¨ar kan vi anv¨anda f¨oljande beteckningar:

y bildkvalitet (%) x

1

pris (dollar)

x

2

filformat (0 om format A, 1 om format B) (a) Resultatet av regressionsanpassning blir

ˆ

y = 79.6 + 0.0056 · x

1

H¨ar kan 0.0056 tolkas p˚a f¨oljande s¨att: om priset ¨okar med en dollar

s˚a klar bildkvaliteten med i genomsnitt 0.056 procentenheter. V¨ardet

79.6 kan d¨aremot inte ges n˚agon meningsfull tolkning eftersom det

intefinns n˚agra observerade v¨arden p˚a bildkvalitet f¨or kameror som

kostar 0 dollar eller d¨arikring.

(9)

Svar till tentamen i Statistik 1, S0002M, 2009-06-05

(b) Med ovanst˚aende modell skulle genomsnittlig bildkvalitet f¨or kameror som kostar 400 dollar vara

ˆ

y = 79.6 + 0.0056 · 400 = 81.84 (c) I modellen tas filformat med vilket ger f¨oljande resultat:

ˆ

y = 81.8 + 0.0089 · x

1

− 6.495 · x

2

H¨ar kan v¨ardet −6.495 tolkas sp˚a f¨oljande s¨att: f¨or x

2

= 1, dvs kameror med filformat B, ¨ar bildkvaliteten i genomsnitt 6.495 procentenheter l¨agre ¨an d˚a x

2

= 0, dvs kameror med filformat A.

4. I en unders¨okning av hush˚allens f¨orv¨antningar om den framtida ekonomin ingick fr˚agor om bland annat f¨oljande:

• ˚Alder

• K¨on

• Har du t¨ankt r¨osta i EU-valet? Svarsalternativ: Ja, Nej eller Vet ej.

• Vad tror du om din egen ekonomi under det kommande ˚aret? Svars- alternativ: Min ekonomi kommer att bli b¨attre, Min ekonomi kommer att vara of¨or¨andrad, Min ekonomi kommer att vara s¨amre eller Vet ej.

(a) En grafisk beskrivning av resultaten fr˚an fr˚agan om EU-valet ska be- skrivas grafiskt vore ett enkelt stapeldiagram: en stapel f¨or antal som skulle r¨osta Ja, en stapel f¨or antal som skulle r¨osta Nej och en stapel f¨or antal som skulle r¨osta Vet ej. Andra varianter p˚a det temat vore f¨orst˚as att anv¨anda andelar, och/eller att ”stacka”staplarna.

(b) Sambandet mellan k¨on och fr˚agan om den egna ekonomin ska beskri- vas grafiskt kan beskrivas med ett stapeldiagram. Det g˚ar att organisera p˚a flera s¨att, och en m¨ojlighet vore att f¨or varje grupp (m¨an/kvinnor) ta fram tre staplar som beskriver antalet som svarar p˚a respektive svars- alternativ. Ett annat s¨att att organisera vore att ta en grupp av staplar f¨or varje svarsalternativ, och f¨or varje s˚adan grupp ta tv˚a staplar som visar antalet/andelen m¨an och kvinnor.

(c) Sambandet mellan ˚alder och k¨on kan beskrivas grafiskt med hj¨alp av

ett diagram best˚aende av tv˚a boxplottar, en f¨or gruppen av m¨an och en

f¨or gruppen av kvinnor. Varje s˚adan boxplot skulle d˚a beskriva ˚alder i

aktuell grupp.

(10)

Svar till tentamen i Statistik 1, S0002M, 2009-06-05

5. I en unders¨okning av vad medborgarna i en viss kommun tycker om priva- tiseringar av kommunal verksamhet ska ett slumpm¨assigt urval g¨oras. Det som d˚a beh¨ovs ¨ar

• en urvalsram, dvs en lista, f¨orteckning eller fil med individerna i po- pulationen

• en slumptalstabell

Personerna i urvalsramen numreras fr˚an 1 till 45000 (eller egentligen 00001 till 45000. D¨arefter tas en startpunkt ut i slumptalstabellen. Fem efter va- randra f¨oljande v¨arden tas ut vid den startpunkten Om de siffrorna ¨ar en kombination inom intervallet 0 till 45000 tas motsvarande person. Efter det hoppar man vidare (f¨orslagsvis radvis) till n¨asta grupp av fem siffror. Om de fem siffrorna inte motsvarar en person med det numret i urvalsramen finns hoppar man vidare.

6. Uppgiften ¨ar att se om det finns n˚agon signifikant genomsnittlig skillnad mellan tv˚a tryckeriers enhetspris p˚a en viss typ av standardtj¨anster. Un- ders¨okningen har gjorts som ett”stickprov i par” (matched pairs) eftersom det handlar om 8 olika underlag som alla ”m¨atts” p˚a tv˚a olika s¨att. Det in- neb¨ar att f¨or alla underlagen ska skillnaden mellan kostnaderna ber¨aknas.

H¨ar har ber¨akningen gjorts som differensen mellan kostnad f¨or tryckeri 2 och motsvarande f¨or trycker i 1. I nedanst˚aende tabell ges dessa skillnader:

Differens 1.2 0.9 1.7 -0.5 1.5 0.7 0.9 0.3 H¨ar blir ¯ x = 0.8375 och s = 0.6988511.

Den fr˚aga som ¨ar st¨alld kan ses som ett sedvanligt hypotestest med hypo- teserna H

0

: µ = 0 mot H

a

: µ 6= 0. F¨or att utf¨ora testet ska ett konfidensin- tervall tas fram, dvs i detta fall ett konfidensintervall f¨or den genomsnittliga skillnaden µ . Om det intervallet t¨acker 0 drar vi slutsatsen att nollhypotesen inte kan f¨orkastas, om det d¨aremot ligger p˚a endera sidan om 0 drar vi slut- satsen att det finns en signifikant skillnad. Eftersom intervallet ska ha 95%

konfidensgrad kan vi s¨aga att testet utf¨ors med 5% signifikansniv˚a.

Intervallet ges av uttrycket

¯ x ± t

s

n

d¨ar t

= 2.365 ¨ar det v¨arde som f¨or en variabel t som f¨oljer t-f¨ordelning med

7 frihetsgrader g¨or att P (t > t

) = 0.025. Detta ger tillsammans intervallet

(11)

Svar till tentamen i Statistik 1, S0002M, 2009-06-05

[0.2532459, 1.4217541]

Eftersom intervallet ligger helt p˚a den positiva sidan kan vi allts˚a s¨aga att det finns en signifikant genomsnittlig skillnad mellan tryckeriernas enhets- kostnader, ett resultat vi f˚att n¨ar vi anv¨ant ett test med 5% signifikansniv˚a.

(Konfidensintervallet s¨ager f¨orst˚as ocks˚a mer: vi ser att det f¨oreligger en

signifikant skillnad som med 95% s¨akerhet t¨acks av intervallet ovan.)

References

Related documents

L¨ osningar skall presenteras p˚ a ett s˚ adant s¨ att att r¨ akningar och resonemang blir l¨ atta att f¨ olja.. M¨ ark varje l¨ osningsblad med namn

L¨ osningarna skall presenteras p˚ a ett s˚ adant s¨ att att r¨ akningar och resonemang blir l¨ atta att f¨ olja.. M¨ ark l¨ osningsbladen med namn

L¨ osningarna skall presenteras p˚ a ett s˚ adant s¨ att att r¨ akningar och resonemang blir l¨ atta att f¨ olja. M¨ ark l¨ osningsbladen med namn och personnr... 1. a) Definiera

f¨ or matriser. a) Formulera och bevisa formeln f¨ or partiell integration!. (3p) b) Vilken deriveringsregel bygger substitutionsmetoden

(a) Utg˚aende fr˚an att de ovan beskrivna h¨andelserna ¨ar oberoende av var- andra, hur stor ¨ar sannolikheten att en slumpm¨assigt utvald student inte har f˚att

(b) Ett annat s¨att att g¨ora j¨amf¨orelsen mellan tv˚a serier av detta slag ¨ar att titta p˚a ”tecknet” i j¨amf¨orelsen, dvs antalet positiva skillnader n¨ar man tar

(c) Ett l¨ampligt s¨att att ˚ask˚adligg¨ora sambandet mellan dessa variabler ¨ar att g¨ora ett diagram med tv˚a boxplottar: en boxplot f¨or gruppen som inte f˚att p˚aminnelser

Matematiska institutionen Stockholms