Tentamen i: Statistik AI, 10p

(1)

LULE ˚ A TEKNISKA UNIVERSITET Amneskod ¨ S0002M MAM801 IEK309 Institutionen f¨or matematik Datum 2008-01-19

Skrivtid 0900–1400

Tentamen i: Statistik AI, 10p

Antal uppgifter: 6

Krav f¨or G: 11

L¨arare: Robert Lundqvist, tel 49 24 04

Jour: Robert Lundqvist, tel 49 24 04

Resultatet ansl˚as senast: 6/2 2008

Till˚atna hj¨alpmedel:

• Vilket slags pappersbundet material som helst: b¨ocker, formelsamlingar, ta- beller, anteckningar, gamla tentor eller liknande.

• Engelsk-svenskt lexikon

• Engelsk-svensk ordlista med statistiska termer

• Manual till minir¨aknare

• R¨aknedosa (dator ¨ar inte till˚aten)

Tänk p˚a att redovisa dina lösningar p˚a ett klart och tydligt sätt. Endast det nume- riska svaret räcker inte för full poäng. Korrekt lösning ger det poängantal som st˚ar angivet efter uppgiftstexten.

LYCKA TILL!

(2)

Tentamen i Statistik AI, MAM801, 2008-01-19

1. I en unders¨okning av svenska folkets datorvanor 1984

¹

sammanställdes bland annat andelen som använde datorer i arbetet i landets län. I nedan- st˚aende tabell ges andelarna:

L¨an Andel L¨an Andel

Stockholm 26 Halland 14

Uppsala 21 G¨oteborg/Bohusl¨an 20

S¨odermanland 20 Alvsborg ¨ 14

Osterg¨otland ¨ 17 Skaraborg 12

Jönköping 16 Värmland 17

Kronoberg 17 Kopparberg 16

Kalmar 13 G¨avleborg 16

Gotland 7 V¨asternorrland 20

Blekinge 16 J¨amtland 10

Kristianstad 16 V¨asterbotten 14

Malm¨ohus 19 Norrbotten 12

(a) Beskriv materialet i ett stambladdiagram. Beräkna median och kvarti- ler där du ocks˚a anger hur ordningsvärde för dessa bestämts.

(b) Beskriv materialet i en boxplot/l˚adagram. Bestäm om det finns n˚agra uteliggare där gränser för vad som ska betraktas som uteliggare defi- nieras som q

1

− 1.5(q

³

− q

¹

), q

3

+ 1.5(q

3

− q

¹

). (4p) 2. Ett företag hyr ut kopieringsmaskiner. Där ing˚ar ocks˚a service i tv˚a de- lar: dels ska akuta problem ˚atgärdas, dels ska företaget genomföra rutinun- derh˚all av kopieringsmaskinerna.

Den tid rutinunderh˚all har tagit sammanställdes för elva tillfällen:

1

Folkets datorvanor - Datoranv¨andningsunders¨okningen juni 1984, Information i prognos-

fr˚agor 1984:5, Statistiska centralbyr˚an

(3)

Tentamen i Statistik AI, MAM801, 2008-01-19

Antal Arbetstid

Tillf¨alle kopieringsmaskiner (minuter)

1 4 109

2 2 58

3 5 138

4 7 189

5 1 37

6 3 82

7 4 103

8 5 134

9 2 68

10 4 112

11 6 154

G¨ors en regressionanpassning med antal maskiner som oberoende variabel och arbetstid som beroende variabel f˚as f¨oljande uttryck:

ˆ

y = 11.46 + 24.60 · x

(a) Vad blir utifr˚an denna modell förväntad arbetstid för en kund som har 4 kopieringsmaskiner?

(b) Kan koefficienterna i regressionsmodellen ges meningsfulla tolkning- ar? Om s˚a är fallet, gör s˚adana tolkningar i ord. Om det inte g˚ar att göra meningsfulla tolkningar, motivera d˚a detta. (3p) 3. I undersökningen om svenska folkets datorvanor ställdes fr˚agan ”Har Du själv n˚agon g˚ang använt n˚agon typ av dator eller datoriserad utrustning eller i övrigt haft ADB-arbete?”. I undersökningen fr˚agade man 5289 personer, och andelen som besvarade fr˚agan med ett Nej var 67.2%.

Bestäm ett konfidensintervall med konfidensgraden 90% för andelen i po- pulationen som inte hade använt dator, datoriserad utrustning eller hade haft ADB-arbete. Ange tydligt om förutsättningarna för konfidensintervallet är

uppfyllda. Tolka intervallet tydligt i ord. (3p)

4. Finns det n˚agon p˚avisbar skillnad mellan reparationskostnader vid olika bil- verkstäder? För att besvara fr˚agan tog försäkringsbolaget fram sju bilar med olika omfattning p˚a skadorna och lämnade in dem p˚a tv˚a verkstäder för att f˚a kostnadsförslag. I nedanst˚aende tabell ges förslagen i hundratal kronor för de tv˚a verkstäderna:

Bil 1 2 3 4 5 6 7

Verkstad 1 49.7 63.0 77.0 62.3 69.3 63.7 72.1

Verkstad 2 55.3 70.7 85.4 61.6 72.8 68.6 81.9

(4)

Tentamen i Statistik AI, MAM801, 2008-01-19

(a) Finns det n˚agon p˚avisbar skillnad mellan de kostnadsförslag som ges vid de tv˚a verkstäderna? I fall s˚adan skillnad finns, hur stor är den?

Besvara fr˚agorna genom att bestämma och tolka ett konfidensinter- vall för den genomsnittliga skillnaden mellan de tv˚a verkstädernas kostnadsförslag. Ange ocks˚a lämpliga noll- och alternativhypoteser.

Använd 95% konfidensgrad. Ange ocks˚a de antaganden om fördelning som m˚aste vara uppfyllda för att resultaten ska vara n˚agorlunda giltiga.

(b) Ett annat sätt att göra jämförelsen mellan tv˚a serier av detta slag är att titta p˚a ”tecknet” i jämförelsen, dvs antalet positiva skillnader när man tar skillnaden mellan verkstädernas kostnadsförslag. Om alla värdena

är positiva talar det för att ena verkstaden är systematiskt lägre än den andra, men om det finns b˚ade positiva och negativa skillnader kan det vara sv˚arare att säga om det finns n˚agon skillnad.

Om du bildar sju differenser och bara ser till tecknet s˚a f˚ar vi i ovan- st˚aende material sex plustecken och ett minustecken när skillnaden mellan kostnadsförslagen fr˚an verkstad 1 dras fr˚an motsvarande fr˚an verkstad 2. Hur stor är sannolikheten att f˚a minst sex s˚adana plustec- ken utifr˚an antagandet att det är lika stor chans att f˚a ett minus- som ett plustecken? Ange tydligt de fördelningsantaganden du utg˚ar fr˚an i

ber¨akningarna. (5p)

5. Du har f˚att ett uppdrag av ett visst st˚alverk. De tillverkar ämnen som trans- porteras till en kund p˚a annan ort, och det är viktigt för b˚ade säljare och köpare att ämnena är av rätt dimension.

Det har visat sig att en viss typ av ämnen har en längd som kan betraktas som normalfördelad med genomsnittet 5 meter och standardavvikelsen 0.02 meter.

(a) Hur stor andel av ¨amnena kommer att vara kortare ¨an 4.95 meter?

(b) Vad blir kortaste längd i gruppen av de 3% längsta ämnena?

(c) Antag att du som definition p˚a ”l˚ang” säger att ett ämne är bland de 3% längsta. En typisk sändning av den aktuella typen av ämnen är p˚a 20 stycken. Hur stor är sannolikheten att det i en s˚adan sändning finns minst 4 ämnen som är l˚anga enligt din definition? Utg˚a fr˚an att

ämnenas längder är oberoende av varandra.

(d) För denna typ av ämnen mäts flera egenskaper som det ocks˚a ställs

krav p˚a. Antag att det är 4% sannolikhet att ett ämne har fel längd,

3% sannolikhet att det har breddfel och 7% sannolikhet att det har

fel p˚a formen (är vridet, ickerektangulärt eller liknande). Hur stor är

(5)

Tentamen i Statistik AI, MAM801, 2008-01-19

sannolikheten att ett ¨amne har minst ett av felen? Utg˚a fr˚an att felen antas uppst˚a oberoende av varandra.

I alla deluppgifterna ska det tydligt framg˚a hur du definierat slumpvari- abler och/eller de händelser du arbetar med, likas˚a ska de antaganden om fördelning som beräkningarna bygger p˚a beskrivas tydligt. (4p) 6. För att förbättra mätning av längden p˚a produkter fr˚an ett visst st˚alverk

överväger man att införa en ny mätmetod. Den används parallellt med en etablerad metod, och under en perioden vägs resultaten fr˚an b˚ada metoder- na ihop för att ge ett enda värde.

Den gamla metoden ger värden med en standardavvikelse p˚a 6 mm, och den nya ger värden med en standardavvikelse p˚a 2 mm. Hur stor är stan- dardavvikelsen för medelvärdet av tv˚a mätningar där en gjorts med den gamla metoden och den andra med den nya metoden? Mätningar gjorda med de tv˚a metoderna kan betraktas som oberoende av varandra. Du kan ocks˚a förutsätta att ingen av metoderna har n˚agot systematiskt fel, dvs de

kommer i genomsnitt att ge korrekta v¨arden. (3p)

(6)

L¨osningar till tentamen i Statistik AI, S0002M, 2008-01-19

1. Datamaterialet var f¨oljande v¨arden:

26 14 21 20 20 14 17 12 16 17 17

16 13 16 7 20 16 10 16 14 19 12

(a) Ett stambladdiagram kan se ut p˚a f¨oljande s¨att:

The decimal point is 1 digit(s) to the right of the | 0 | 7

1 | 0223444 1 | 666667779 2 | 0001 2 | 6

Här är medianen medelvärdet av värde nr 11 och 12, dvs (16+16)/2 = 16. Undre kvartil blir medianen i den undre halvan, dvs värde nr 6 som

är 14. Den övre kvartilen är p˚a motsvarande sätt median i den övre hal- van, dvs värde nr 6 räknat fr˚an högsta värdet, n˚agot som blir 19.

(b) En boxplot/l˚adagram kan se ut p˚a f¨oljande s¨att:

+--+----+---+----+----+----+---+----+----+----++

| |

| +----+---+ |

|+---| | |---+|

| +----+---+ |

| |

+--+----+---+----+----+----+---+----+----+----++

8 10 12 14 16 18 20 22 24 26

Med kvartilerna 14 och 19 blir gränserna [6.5, 26.5], och det finns inga värden utanför dessa vilket allts˚a säger att det inte finns värden som ska betraktas som uteliggare.

2. L¨ampliga variabler ¨ar x: antal kopieringsmaskiner som hyrs och y: tid i mi-

nuter det tar f¨or rutinunderh˚all. Den regressionsanpassning som gjorts gav

resultatet

(7)

L¨osningar till tentamen i Statistik AI, S0002M, 2008-01-19

ˆ

y = 11.46 + 24.60 · x

(a) Om x = 4 s˚a blir motsvarande v¨arde p˚a y, dvs underh˚allstiden109.86 minuter (11 .46 + 24.60 · 4).

(b) Värdet 24.60 säger att underh˚allstiden ökar med i genomsnitt 24.60 minuter för varje ytterligare kopieringsmaskin. Värdet 11.46 är inte möjligt att tolka eftersom det inte kan finnas underh˚allstid när man inte har n˚agra kopieringsmaskiner.

3. L˚at p beteckna andelen i populationen som besvarade fr˚agan ”Har Du sj¨alv n˚agon g˚ang anv¨ant n˚agon typ av dator eller datoriserad utrustning eller i

¨ovrigt haft ADB-arbete?” med . I unders¨okningen hade man fr˚agat 5289 personer, och ˆ p, andelen som besvarade fr˚agan med ett Nej var 67.2%.

Ett konfidensintervall f¨or p ges av uttrycket

ˆ p ± z

^∗

r p ˆ (1 − ˆp) n

Eftersom konfidensgraden skulle vara 90% blir z

^∗

= 1.645. Med ˆp = 0.672 ger detta intervallet

0 .672 ± 0.0107

Populationsandelen som inte använt dator, datoriserad utrustning eller hade haft ADB-arbete täcks allts˚a med 90% säkerhet av intervallet [0.661, 0.683].

De krav som ställs är att antalet ”lyckade” och ”misslyckade” utfall, dvs antalet Nej– och Ja–svar b˚ada är minst 15, vilket de är i detta fall.

4. Materialet handlar om att se om det finns n˚agon p˚avisbar skillnad mel- lan reparationskostnader vid olika bilverkst¨ader. De v¨arden som erh˚allits

¨ar f¨oljande:

Bil 1 2 3 4 5 6 7

Verkstad 1 49.7 63.0 77.0 62.3 69.3 63.7 72.1 Verkstad 2 55.3 70.7 85.4 61.6 72.8 68.6 81.9

(a) Vi ska göra ett hypotestest där en lämplig nollhypotes är H

₀

: µ = 0 och

en alternativhypotes ¨ar H

a

: µ _{6= 0, där} µ är genomsnittet för skillnaden

mellan verkst¨adernas kostnadsf¨orslag.

(8)

L¨osningar till tentamen i Statistik AI, S0002M, 2008-01-19

F¨or varje bil finns det tv˚a v¨arden, ett fr˚an vardera verkstaden. L˚at x

_i

st˚ar för kostnadsförslagen vid verkstad 1 för bil nr i och y

_i

för motsvarande för verkstad 2. För varje bil kan man bilda differensen d

_i

= y

i

− x

i

, dvs

Bil 1 2 3 4 5 6 7

d

_i

5.6 7.7 8.4 -0.7 3.5 4.9 9.8

Ett konfidensintervall f¨or den genomsnittliga skillnaden µ ^{ges av ut-} trycket

d ¯ ± t

^∗

s

√ n

d¨ar ¯ d = 5.6, s = 3.5233 och n = 7. Konstanten t

^∗

= 2.447 eftersom vi ska ha 95% konfidensgrad och stickprovsstorleken ger 6 frihetsgrader.

Intervallet blir [2.341, 8.859], dvs med 95% säkerhet kan vi säga att den genomsnittliga skillnaden mellan verkstädernas kostnadsförslag täcks med 95% säkerhet av intervallet ovan. Detta betyder att vi kan säga att det finns en p˚avisbar (eller annorlunda uttryckt: signifikant) skillnad mellan verkstädernas kostnadsförslag.

För att beräkningarna ska vara giltiga krävs eftersom stickprovet är s˚a pass litet att vi kan betrakta differenserna mellan kostnadsförslagen som observationer fr˚an en normalfördelning. Om det är uppfyllt g˚ar dock inte enkelt att uttala sig om.,

(b) L˚at w st˚a för antalet plustecken som f˚as när man bildar differensen mellan verkstads 2 och verkstad 1. Den variabeln bör ha sitt ursprung fr˚an en binomialfördelning med n = 7. Om det ska vara lika stor san- nolikhet att f˚a ett minus– som ett plustecken m˚aste det d˚a ocks˚a gälla att p = 0.5.

Det som söks är sannolikheten att f˚a sex eller fler plustecken, dvs P (w ≥ 6). Detta man räknas ut p˚a flera sätt. Ett sätt är att använda tabell:

P (w ≥ 6) = 1 − P(w < 6) = P(w ≤ 5) =

= 1 − (0.0078 + 0.0547 + ···+ 0.1641) = 1 − 0.9375 = 0.0625 Ett annat är först˚as att räkna ut

P (w ≥ 6) = P(w = 6) + P(w = 7) =

= 0.0546875 + 0.0078125 = 0.8375

(9)

L¨osningar till tentamen i Statistik AI, S0002M, 2008-01-19

Detta är ett exempel p˚a ett s˚a kallat teckentest, en metod för parvi- sa jämförelser som inte kräver att observationerna kommer fr˚an nor- malfördelning. Se exempelvis IPS s. 468-470.

5. L˚at X st˚a för l˚angden p˚a ämne. Den variabeln kan betraktas som normalför- delad med genomsnittet 5 och standardavvikelsen 0.02, dvs N(5, , 0.02).

(a) Det som söks är andelen ämnen som kommer att vara kortare än 4.95 meter.

4.94 4.96 4.98 5.00 5.02 5.04 5.06

05101520

Om X = 4.95 s˚a f˚ar man med transformationen z = (x − µ )/ σ ^{att z} =

−2.5. D˚a g¨aller att

andelen X < 4.95 ¨ar lika stor som andelen z < −2.5 Enligt tabell ¨ar den andelen 0.0062, dvs 0.62%.

(b) L˚at c st˚a för kortaste längd i gruppen av de 3% längsta ämnena. Det

som söks kan d˚a det värde c som avgränsar den högra svansen i nedan-

st˚aende figur:

(10)

L¨osningar till tentamen i Statistik AI, S0002M, 2008-01-19

4.94 4.96 4.98 5.00 5.02 5.04 5.06

05101520

Andelen X > c m˚aste vara samma sak som andelen z >

_0.02^c⁻⁵

. Den an- delen ska vara 0.03. Enligt tabell ¨ar andelen z > 1.88 just 3%, vilket betyder att

c − 5

0.02 = 1.88

Detta ger att c = 5.0376, dvs kortaste längd bland de 3% längsta är 5.0376 meter.

(c) Om L st˚ar för antalet l˚anga ämnen gäller att den variabeln kan ses som binomialfördelad med n = 20 och p = 0.03. Den fr˚aga som ska besva- ras är sannolikheten att f˚a minst 4 ämnen som är l˚anga, dvs P (L ≥ 4).

Detta kan ber¨aknas p˚a flera s¨att:

P (L ≥ 4) = 1 − P(L ≤ 3) =

= 1 − [P(L = 0) + P(L = 1) + P(L = 2) + P(L = 3)] =

= [enl tabell] =

= 1 −[0.5438+0.3364+0.098+0.0183] = 1−0.99733 = 0.00267 (d) L˚at L st˚a för händelsen att ett ämne har fel längd, B för att ämne har

bredd fel och F att det har formfel. För dessa händelser gäller att

(11)

L¨osningar till tentamen i Statistik AI, S0002M, 2008-01-19

P(L) = 0.04 P(B) = 0.03 P(F) = 0.07

Händelserna antas vara oberoende av varandra. Det som söks är hän- delsen att ett ämne har minst ett av felen. Detta kan skrivas som

P(L eller B eller F) =

P (L) + P(B) + P(F)−

P (L och B) − P(L och F) − P(B och F)+

P(L och B och F) Oberoendet g¨or att exempelvis P( och B) = P(L)P(B), vilket g¨or att alla sannolikheterna tillsammans ger

P(L eller B eller F) =

0 .04 + 0.03 + 0.07−

0 .04 · 0.03 − 0.04 · 0.07 − 0.03 · 0.07 + 0.04 · 0.03 · 0.07 = 0.133984 Ett annat – kanske enklare sätt – att räkna ut det hela är att titta p˚a motsatsen:

P (minst ett fel) = 1 − P(inget fel) D¨ar kan P(inget fel) ber¨aknas som

P(inget fel) = P(L

^c

och B

^c

och F

^c

) = P(L

^c

)P(B

^c

)P(F

^c

) =

(1 − P(L))(1 − P(B))(1 − P(F)) =

(1 − 0.04)(1 − 0.03)(1 − 0.07) = 0.866016

Det betyder att P (minst ett fel) = 1 − 0.866016 = 0.133984.

(12)

L¨osningar till tentamen i Statistik AI, S0002M, 2008-01-19

6. Om v

₁

st˚ar f¨or v¨ardet med den gamla metoden och v

₂

för mätvärde med den nya metoden gäller att σ

v₁

= 6 och σ

v₂

= 2.

Ett medelv¨ardeska bildas, dvs ¯ v =

^v¹^+v₂ ²

. Detta kan skrivas som

¯ v = 1

2 (v

1

+ v

2

) = 1 2 v

₁

+ 1

2 v

₁

Med reglerna

σ

_X²_+Y

= σ

_X²

+ σ

_Y²

σ

_a+bX²

= b

²

σ

_X²

betyder detta att

σ

_v_¯²

= σ

²1

2(v1+v2)

= 1 4 σ

_v²₁_+v₂

D¨ar g¨aller att

σ

_v²₁_+v₂

= σ

_v²₁

+ σ

_v²₂

= = 6

²

+ 2

²

= 40 Sammantaget betyder detta att

σ

x²¯

= 1

4 40 = 10 eller σ

x¯