• No results found

Tentamen i: Statistik AI, 10p

N/A
N/A
Protected

Academic year: 2021

Share "Tentamen i: Statistik AI, 10p"

Copied!
12
0
0

Loading.... (view fulltext now)

Full text

(1)

LULE ˚ A TEKNISKA UNIVERSITET Amneskod ¨ S0002M MAM801 IEK309 Institutionen f¨or matematik Datum 2008-01-19

Skrivtid 0900–1400

Tentamen i: Statistik AI, 10p

Antal uppgifter: 6

Krav f¨or G: 11

L¨arare: Robert Lundqvist, tel 49 24 04

Jour: Robert Lundqvist, tel 49 24 04

Resultatet ansl˚as senast: 6/2 2008

Till˚atna hj¨alpmedel:

• Vilket slags pappersbundet material som helst: b¨ocker, formelsamlingar, ta- beller, anteckningar, gamla tentor eller liknande.

• Engelsk-svenskt lexikon

• Engelsk-svensk ordlista med statistiska termer

• Manual till minir¨aknare

• R¨aknedosa (dator ¨ar inte till˚aten)

T¨ank p˚a att redovisa dina l¨osningar p˚a ett klart och tydligt s¨att. Endast det nume- riska svaret r¨acker inte f¨or full po¨ang. Korrekt l¨osning ger det po¨angantal som st˚ar angivet efter uppgiftstexten.

LYCKA TILL!

(2)

Tentamen i Statistik AI, MAM801, 2008-01-19

1. I en unders¨okning av svenska folkets datorvanor 1984

1

sammanst¨alldes bland annat andelen som anv¨ande datorer i arbetet i landets l¨an. I nedan- st˚aende tabell ges andelarna:

L¨an Andel L¨an Andel

Stockholm 26 Halland 14

Uppsala 21 G¨oteborg/Bohusl¨an 20

S¨odermanland 20 Alvsborg ¨ 14

Osterg¨otland ¨ 17 Skaraborg 12

J¨onk¨oping 16 V¨armland 17

Kronoberg 17 Kopparberg 16

Kalmar 13 G¨avleborg 16

Gotland 7 V¨asternorrland 20

Blekinge 16 J¨amtland 10

Kristianstad 16 V¨asterbotten 14

Malm¨ohus 19 Norrbotten 12

(a) Beskriv materialet i ett stambladdiagram. Ber¨akna median och kvarti- ler d¨ar du ocks˚a anger hur ordningsv¨arde f¨or dessa best¨amts.

(b) Beskriv materialet i en boxplot/l˚adagram. Best¨am om det finns n˚agra uteliggare d¨ar gr¨anser f¨or vad som ska betraktas som uteliggare defi- nieras som q

1

− 1.5(q

3

− q

1

), q

3

+ 1.5(q

3

− q

1

). (4p) 2. Ett f¨oretag hyr ut kopieringsmaskiner. D¨ar ing˚ar ocks˚a service i tv˚a de- lar: dels ska akuta problem ˚atg¨ardas, dels ska f¨oretaget genomf¨ora rutinun- derh˚all av kopieringsmaskinerna.

Den tid rutinunderh˚all har tagit sammanst¨alldes f¨or elva tillf¨allen:

1

Folkets datorvanor - Datoranv¨andningsunders¨okningen juni 1984, Information i prognos-

fr˚agor 1984:5, Statistiska centralbyr˚an

(3)

Tentamen i Statistik AI, MAM801, 2008-01-19

Antal Arbetstid

Tillf¨alle kopieringsmaskiner (minuter)

1 4 109

2 2 58

3 5 138

4 7 189

5 1 37

6 3 82

7 4 103

8 5 134

9 2 68

10 4 112

11 6 154

G¨ors en regressionanpassning med antal maskiner som oberoende variabel och arbetstid som beroende variabel f˚as f¨oljande uttryck:

ˆ

y = 11.46 + 24.60 · x

(a) Vad blir utifr˚an denna modell f¨orv¨antad arbetstid f¨or en kund som har 4 kopieringsmaskiner?

(b) Kan koefficienterna i regressionsmodellen ges meningsfulla tolkning- ar? Om s˚a ¨ar fallet, g¨or s˚adana tolkningar i ord. Om det inte g˚ar att g¨ora meningsfulla tolkningar, motivera d˚a detta. (3p) 3. I unders¨okningen om svenska folkets datorvanor st¨alldes fr˚agan ”Har Du sj¨alv n˚agon g˚ang anv¨ant n˚agon typ av dator eller datoriserad utrustning eller i ¨ovrigt haft ADB-arbete?”. I unders¨okningen fr˚agade man 5289 personer, och andelen som besvarade fr˚agan med ett Nej var 67.2%.

Best¨am ett konfidensintervall med konfidensgraden 90% f¨or andelen i po- pulationen som inte hade anv¨ant dator, datoriserad utrustning eller hade haft ADB-arbete. Ange tydligt om f¨oruts¨attningarna f¨or konfidensintervallet ¨ar

uppfyllda. Tolka intervallet tydligt i ord. (3p)

4. Finns det n˚agon p˚avisbar skillnad mellan reparationskostnader vid olika bil- verkst¨ader? F¨or att besvara fr˚agan tog f¨ors¨akringsbolaget fram sju bilar med olika omfattning p˚a skadorna och l¨amnade in dem p˚a tv˚a verkst¨ader f¨or att f˚a kostnadsf¨orslag. I nedanst˚aende tabell ges f¨orslagen i hundratal kronor f¨or de tv˚a verkst¨aderna:

Bil 1 2 3 4 5 6 7

Verkstad 1 49.7 63.0 77.0 62.3 69.3 63.7 72.1

Verkstad 2 55.3 70.7 85.4 61.6 72.8 68.6 81.9

(4)

Tentamen i Statistik AI, MAM801, 2008-01-19

(a) Finns det n˚agon p˚avisbar skillnad mellan de kostnadsf¨orslag som ges vid de tv˚a verkst¨aderna? I fall s˚adan skillnad finns, hur stor ¨ar den?

Besvara fr˚agorna genom att best¨amma och tolka ett konfidensinter- vall f¨or den genomsnittliga skillnaden mellan de tv˚a verkst¨adernas kostnadsf¨orslag. Ange ocks˚a l¨ampliga noll- och alternativhypoteser.

Anv¨and 95% konfidensgrad. Ange ocks˚a de antaganden om f¨ordelning som m˚aste vara uppfyllda f¨or att resultaten ska vara n˚agorlunda giltiga.

(b) Ett annat s¨att att g¨ora j¨amf¨orelsen mellan tv˚a serier av detta slag ¨ar att titta p˚a ”tecknet” i j¨amf¨orelsen, dvs antalet positiva skillnader n¨ar man tar skillnaden mellan verkst¨adernas kostnadsf¨orslag. Om alla v¨ardena

¨ar positiva talar det f¨or att ena verkstaden ¨ar systematiskt l¨agre ¨an den andra, men om det finns b˚ade positiva och negativa skillnader kan det vara sv˚arare att s¨aga om det finns n˚agon skillnad.

Om du bildar sju differenser och bara ser till tecknet s˚a f˚ar vi i ovan- st˚aende material sex plustecken och ett minustecken n¨ar skillnaden mellan kostnadsf¨orslagen fr˚an verkstad 1 dras fr˚an motsvarande fr˚an verkstad 2. Hur stor ¨ar sannolikheten att f˚a minst sex s˚adana plustec- ken utifr˚an antagandet att det ¨ar lika stor chans att f˚a ett minus- som ett plustecken? Ange tydligt de f¨ordelningsantaganden du utg˚ar fr˚an i

ber¨akningarna. (5p)

5. Du har f˚att ett uppdrag av ett visst st˚alverk. De tillverkar ¨amnen som trans- porteras till en kund p˚a annan ort, och det ¨ar viktigt f¨or b˚ade s¨aljare och k¨opare att ¨amnena ¨ar av r¨att dimension.

Det har visat sig att en viss typ av ¨amnen har en l¨angd som kan betraktas som normalf¨ordelad med genomsnittet 5 meter och standardavvikelsen 0.02 meter.

(a) Hur stor andel av ¨amnena kommer att vara kortare ¨an 4.95 meter?

(b) Vad blir kortaste l¨angd i gruppen av de 3% l¨angsta ¨amnena?

(c) Antag att du som definition p˚a ”l˚ang” s¨ager att ett ¨amne ¨ar bland de 3% l¨angsta. En typisk s¨andning av den aktuella typen av ¨amnen ¨ar p˚a 20 stycken. Hur stor ¨ar sannolikheten att det i en s˚adan s¨andning finns minst 4 ¨amnen som ¨ar l˚anga enligt din definition? Utg˚a fr˚an att

¨amnenas l¨angder ¨ar oberoende av varandra.

(d) F¨or denna typ av ¨amnen m¨ats flera egenskaper som det ocks˚a st¨alls

krav p˚a. Antag att det ¨ar 4% sannolikhet att ett ¨amne har fel l¨angd,

3% sannolikhet att det har breddfel och 7% sannolikhet att det har

fel p˚a formen (¨ar vridet, ickerektangul¨art eller liknande). Hur stor ¨ar

(5)

Tentamen i Statistik AI, MAM801, 2008-01-19

sannolikheten att ett ¨amne har minst ett av felen? Utg˚a fr˚an att felen antas uppst˚a oberoende av varandra.

I alla deluppgifterna ska det tydligt framg˚a hur du definierat slumpvari- abler och/eller de h¨andelser du arbetar med, likas˚a ska de antaganden om f¨ordelning som ber¨akningarna bygger p˚a beskrivas tydligt. (4p) 6. F¨or att f¨orb¨attra m¨atning av l¨angden p˚a produkter fr˚an ett visst st˚alverk

¨overv¨ager man att inf¨ora en ny m¨atmetod. Den anv¨ands parallellt med en etablerad metod, och under en perioden v¨ags resultaten fr˚an b˚ada metoder- na ihop f¨or att ge ett enda v¨arde.

Den gamla metoden ger v¨arden med en standardavvikelse p˚a 6 mm, och den nya ger v¨arden med en standardavvikelse p˚a 2 mm. Hur stor ¨ar stan- dardavvikelsen f¨or medelv¨ardet av tv˚a m¨atningar d¨ar en gjorts med den gamla metoden och den andra med den nya metoden? M¨atningar gjorda med de tv˚a metoderna kan betraktas som oberoende av varandra. Du kan ocks˚a f¨oruts¨atta att ingen av metoderna har n˚agot systematiskt fel, dvs de

kommer i genomsnitt att ge korrekta v¨arden. (3p)

(6)

L¨osningar till tentamen i Statistik AI, S0002M, 2008-01-19

1. Datamaterialet var f¨oljande v¨arden:

26 14 21 20 20 14 17 12 16 17 17

16 13 16 7 20 16 10 16 14 19 12

(a) Ett stambladdiagram kan se ut p˚a f¨oljande s¨att:

The decimal point is 1 digit(s) to the right of the | 0 | 7

1 | 0223444 1 | 666667779 2 | 0001 2 | 6

H¨ar ¨ar medianen medelv¨ardet av v¨arde nr 11 och 12, dvs (16+16)/2 = 16. Undre kvartil blir medianen i den undre halvan, dvs v¨arde nr 6 som

¨ar 14. Den ¨ovre kvartilen ¨ar p˚a motsvarande s¨att median i den ¨ovre hal- van, dvs v¨arde nr 6 r¨aknat fr˚an h¨ogsta v¨ardet, n˚agot som blir 19.

(b) En boxplot/l˚adagram kan se ut p˚a f¨oljande s¨att:

+--+----+---+----+----+----+---+----+----+----++

| |

| |

| |

| +----+---+ |

|+---| | |---+|

| +----+---+ |

| |

| |

+--+----+---+----+----+----+---+----+----+----++

8 10 12 14 16 18 20 22 24 26

Med kvartilerna 14 och 19 blir gr¨anserna [6.5, 26.5], och det finns inga v¨arden utanf¨or dessa vilket allts˚a s¨ager att det inte finns v¨arden som ska betraktas som uteliggare.

2. L¨ampliga variabler ¨ar x: antal kopieringsmaskiner som hyrs och y: tid i mi-

nuter det tar f¨or rutinunderh˚all. Den regressionsanpassning som gjorts gav

resultatet

(7)

L¨osningar till tentamen i Statistik AI, S0002M, 2008-01-19

ˆ

y = 11.46 + 24.60 · x

(a) Om x = 4 s˚a blir motsvarande v¨arde p˚a y, dvs underh˚allstiden109.86 minuter (11 .46 + 24.60 · 4).

(b) V¨ardet 24.60 s¨ager att underh˚allstiden ¨okar med i genomsnitt 24.60 minuter f¨or varje ytterligare kopieringsmaskin. V¨ardet 11.46 ¨ar inte m¨ojligt att tolka eftersom det inte kan finnas underh˚allstid n¨ar man inte har n˚agra kopieringsmaskiner.

3. L˚at p beteckna andelen i populationen som besvarade fr˚agan ”Har Du sj¨alv n˚agon g˚ang anv¨ant n˚agon typ av dator eller datoriserad utrustning eller i

¨ovrigt haft ADB-arbete?” med . I unders¨okningen hade man fr˚agat 5289 personer, och ˆ p, andelen som besvarade fr˚agan med ett Nej var 67.2%.

Ett konfidensintervall f¨or p ges av uttrycket

ˆ p ± z

r p ˆ (1 − ˆp) n

Eftersom konfidensgraden skulle vara 90% blir z

= 1.645. Med ˆp = 0.672 ger detta intervallet

0 .672 ± 0.0107

Populationsandelen som inte anv¨ant dator, datoriserad utrustning eller hade haft ADB-arbete t¨acks allts˚a med 90% s¨akerhet av intervallet [0.661, 0.683].

De krav som st¨alls ¨ar att antalet ”lyckade” och ”misslyckade” utfall, dvs antalet Nej– och Ja–svar b˚ada ¨ar minst 15, vilket de ¨ar i detta fall.

4. Materialet handlar om att se om det finns n˚agon p˚avisbar skillnad mel- lan reparationskostnader vid olika bilverkst¨ader. De v¨arden som erh˚allits

¨ar f¨oljande:

Bil 1 2 3 4 5 6 7

Verkstad 1 49.7 63.0 77.0 62.3 69.3 63.7 72.1 Verkstad 2 55.3 70.7 85.4 61.6 72.8 68.6 81.9

(a) Vi ska g¨ora ett hypotestest d¨ar en l¨amplig nollhypotes ¨ar H

0

: µ = 0 och

en alternativhypotes ¨ar H

a

: µ 6= 0, d¨ar µ ¨ar genomsnittet f¨or skillnaden

mellan verkst¨adernas kostnadsf¨orslag.

(8)

L¨osningar till tentamen i Statistik AI, S0002M, 2008-01-19

F¨or varje bil finns det tv˚a v¨arden, ett fr˚an vardera verkstaden. L˚at x

i

st˚ar f¨or kostnadsf¨orslagen vid verkstad 1 f¨or bil nr i och y

i

f¨or motsvarande f¨or verkstad 2. F¨or varje bil kan man bilda differensen d

i

= y

i

− x

i

, dvs

Bil 1 2 3 4 5 6 7

d

i

5.6 7.7 8.4 -0.7 3.5 4.9 9.8

Ett konfidensintervall f¨or den genomsnittliga skillnaden µ ges av ut- trycket

d ¯ ± t

s

n

d¨ar ¯ d = 5.6, s = 3.5233 och n = 7. Konstanten t

= 2.447 eftersom vi ska ha 95% konfidensgrad och stickprovsstorleken ger 6 frihetsgrader.

Intervallet blir [2.341, 8.859], dvs med 95% s¨akerhet kan vi s¨aga att den genomsnittliga skillnaden mellan verkst¨adernas kostnadsf¨orslag t¨acks med 95% s¨akerhet av intervallet ovan. Detta betyder att vi kan s¨aga att det finns en p˚avisbar (eller annorlunda uttryckt: signifikant) skillnad mellan verkst¨adernas kostnadsf¨orslag.

F¨or att ber¨akningarna ska vara giltiga kr¨avs eftersom stickprovet ¨ar s˚a pass litet att vi kan betrakta differenserna mellan kostnadsf¨orslagen som observationer fr˚an en normalf¨ordelning. Om det ¨ar uppfyllt g˚ar dock inte enkelt att uttala sig om.,

(b) L˚at w st˚a f¨or antalet plustecken som f˚as n¨ar man bildar differensen mellan verkstads 2 och verkstad 1. Den variabeln b¨or ha sitt ursprung fr˚an en binomialf¨ordelning med n = 7. Om det ska vara lika stor san- nolikhet att f˚a ett minus– som ett plustecken m˚aste det d˚a ocks˚a g¨alla att p = 0.5.

Det som s¨oks ¨ar sannolikheten att f˚a sex eller fler plustecken, dvs P (w ≥ 6). Detta man r¨aknas ut p˚a flera s¨att. Ett s¨att ¨ar att anv¨anda tabell:

P (w ≥ 6) = 1 − P(w < 6) = P(w ≤ 5) =

= 1 − (0.0078 + 0.0547 + ···+ 0.1641) = 1 − 0.9375 = 0.0625 Ett annat ¨ar f¨orst˚as att r¨akna ut

P (w ≥ 6) = P(w = 6) + P(w = 7) =

= 0.0546875 + 0.0078125 = 0.8375

(9)

L¨osningar till tentamen i Statistik AI, S0002M, 2008-01-19

Detta ¨ar ett exempel p˚a ett s˚a kallat teckentest, en metod f¨or parvi- sa j¨amf¨orelser som inte kr¨aver att observationerna kommer fr˚an nor- malf¨ordelning. Se exempelvis IPS s. 468-470.

5. L˚at X st˚a f¨or l˚angden p˚a ¨amne. Den variabeln kan betraktas som normalf¨or- delad med genomsnittet 5 och standardavvikelsen 0.02, dvs N(5, , 0.02).

(a) Det som s¨oks ¨ar andelen ¨amnen som kommer att vara kortare ¨an 4.95 meter.

4.94 4.96 4.98 5.00 5.02 5.04 5.06

05101520

Om X = 4.95 s˚a f˚ar man med transformationen z = (x − µ )/ σ att z =

−2.5. D˚a g¨aller att

andelen X < 4.95 ¨ar lika stor som andelen z < −2.5 Enligt tabell ¨ar den andelen 0.0062, dvs 0.62%.

(b) L˚at c st˚a f¨or kortaste l¨angd i gruppen av de 3% l¨angsta ¨amnena. Det

som s¨oks kan d˚a det v¨arde c som avgr¨ansar den h¨ogra svansen i nedan-

st˚aende figur:

(10)

L¨osningar till tentamen i Statistik AI, S0002M, 2008-01-19

4.94 4.96 4.98 5.00 5.02 5.04 5.06

05101520

Andelen X > c m˚aste vara samma sak som andelen z >

0.02c−5

. Den an- delen ska vara 0.03. Enligt tabell ¨ar andelen z > 1.88 just 3%, vilket betyder att

c − 5

0.02 = 1.88

Detta ger att c = 5.0376, dvs kortaste l¨angd bland de 3% l¨angsta ¨ar 5.0376 meter.

(c) Om L st˚ar f¨or antalet l˚anga ¨amnen g¨aller att den variabeln kan ses som binomialf¨ordelad med n = 20 och p = 0.03. Den fr˚aga som ska besva- ras ¨ar sannolikheten att f˚a minst 4 ¨amnen som ¨ar l˚anga, dvs P (L ≥ 4).

Detta kan ber¨aknas p˚a flera s¨att:

P (L ≥ 4) = 1 − P(L ≤ 3) =

= 1 − [P(L = 0) + P(L = 1) + P(L = 2) + P(L = 3)] =

= [enl tabell] =

= 1 −[0.5438+0.3364+0.098+0.0183] = 1−0.99733 = 0.00267 (d) L˚at L st˚a f¨or h¨andelsen att ett ¨amne har fel l¨angd, B f¨or att ¨amne har

bredd fel och F att det har formfel. F¨or dessa h¨andelser g¨aller att

(11)

L¨osningar till tentamen i Statistik AI, S0002M, 2008-01-19

P(L) = 0.04 P(B) = 0.03 P(F) = 0.07

H¨andelserna antas vara oberoende av varandra. Det som s¨oks ¨ar h¨an- delsen att ett ¨amne har minst ett av felen. Detta kan skrivas som

P(L eller B eller F) =

P (L) + P(B) + P(F)−

P (L och B) − P(L och F) − P(B och F)+

P(L och B och F) Oberoendet g¨or att exempelvis P( och B) = P(L)P(B), vilket g¨or att alla sannolikheterna tillsammans ger

P(L eller B eller F) =

0 .04 + 0.03 + 0.07−

0 .04 · 0.03 − 0.04 · 0.07 − 0.03 · 0.07 + 0.04 · 0.03 · 0.07 = 0.133984 Ett annat – kanske enklare s¨att – att r¨akna ut det hela ¨ar att titta p˚a motsatsen:

P (minst ett fel) = 1 − P(inget fel) D¨ar kan P(inget fel) ber¨aknas som

P(inget fel) = P(L

c

och B

c

och F

c

) = P(L

c

)P(B

c

)P(F

c

) =

(1 − P(L))(1 − P(B))(1 − P(F)) =

(1 − 0.04)(1 − 0.03)(1 − 0.07) = 0.866016

Det betyder att P (minst ett fel) = 1 − 0.866016 = 0.133984.

(12)

L¨osningar till tentamen i Statistik AI, S0002M, 2008-01-19

6. Om v

1

st˚ar f¨or v¨ardet med den gamla metoden och v

2

f¨or m¨atv¨arde med den nya metoden g¨aller att σ

v1

= 6 och σ

v2

= 2.

Ett medelv¨ardeska bildas, dvs ¯ v =

v1+v2 2

. Detta kan skrivas som

¯ v = 1

2 (v

1

+ v

2

) = 1 2 v

1

+ 1

2 v

1

Med reglerna

σ

X2+Y

= σ

X2

+ σ

Y2

σ

a+bX2

= b

2

σ

X2

betyder detta att

σ

v¯2

= σ

21

2(v1+v2)

= 1 4 σ

v21+v2

D¨ar g¨aller att

σ

v21+v2

= σ

v21

+ σ

v22

= = 6

2

+ 2

2

= 40 Sammantaget betyder detta att

σ

x2¯

= 1

4 40 = 10 eller σ

x¯

= √

10 = 3.162.

References

Related documents

Kortfattad och relevant sjukhistoria för att skapa en gemensam helhets- bild av patientens tillstånd fram tills nu..

Stenvinkel P, Wadström J, Bertram T, Detwiler R, Gerber D, Brismar T, Blomberg P, Lundgren L Implantation of autologous selected renal cells in diabetic chronic kidney disease stage

En huvudaktör inom den europeiska tjänstesekto m. Vi hjälper individer och familjer, företag och organisationer. Vi gör det möjligt för våra kunder att kopplas samman och

Det är först sedan alla flygplan, till Sverige såväl som för- hoppningsvis till andra flygvapen, levererats som en slutlig bedömning kan göras.. Det pekar dock redan nu på

Ovning 1: Hur m˚ ¨ anga relationer finns det p˚ a en m¨ angd med 3 element? Hur m˚ anga reflexiva relationer finns det? Vad kan du s¨ aga i det allm¨ anna fallet, om antalet

Kulorna ¨ ar sm˚ a j¨ amf¨ ort med avst˚ andet mellan dem och kan approximeras

Det ¨ ar en mots¨ agelse till att vi f˚ ar stryka alla gemensamma faktorer och d¨ arf¨ or ¨ ar x irrationellt.. (a) Skissa grafen av den trigonometriska

[r]