LULE ˚ A TEKNISKA UNIVERSITET Amneskod ¨ S0002M MAM801 IEK309 Institutionen f¨or matematik Datum 2008-01-19
Skrivtid 0900–1400
Tentamen i: Statistik AI, 10p
Antal uppgifter: 6
Krav f¨or G: 11
L¨arare: Robert Lundqvist, tel 49 24 04
Jour: Robert Lundqvist, tel 49 24 04
Resultatet ansl˚as senast: 6/2 2008
Till˚atna hj¨alpmedel:
• Vilket slags pappersbundet material som helst: b¨ocker, formelsamlingar, ta- beller, anteckningar, gamla tentor eller liknande.
• Engelsk-svenskt lexikon
• Engelsk-svensk ordlista med statistiska termer
• Manual till minir¨aknare
• R¨aknedosa (dator ¨ar inte till˚aten)
T¨ank p˚a att redovisa dina l¨osningar p˚a ett klart och tydligt s¨att. Endast det nume- riska svaret r¨acker inte f¨or full po¨ang. Korrekt l¨osning ger det po¨angantal som st˚ar angivet efter uppgiftstexten.
LYCKA TILL!
Tentamen i Statistik AI, MAM801, 2008-01-19
1. I en unders¨okning av svenska folkets datorvanor 1984
1sammanst¨alldes bland annat andelen som anv¨ande datorer i arbetet i landets l¨an. I nedan- st˚aende tabell ges andelarna:
L¨an Andel L¨an Andel
Stockholm 26 Halland 14
Uppsala 21 G¨oteborg/Bohusl¨an 20
S¨odermanland 20 Alvsborg ¨ 14
Osterg¨otland ¨ 17 Skaraborg 12
J¨onk¨oping 16 V¨armland 17
Kronoberg 17 Kopparberg 16
Kalmar 13 G¨avleborg 16
Gotland 7 V¨asternorrland 20
Blekinge 16 J¨amtland 10
Kristianstad 16 V¨asterbotten 14
Malm¨ohus 19 Norrbotten 12
(a) Beskriv materialet i ett stambladdiagram. Ber¨akna median och kvarti- ler d¨ar du ocks˚a anger hur ordningsv¨arde f¨or dessa best¨amts.
(b) Beskriv materialet i en boxplot/l˚adagram. Best¨am om det finns n˚agra uteliggare d¨ar gr¨anser f¨or vad som ska betraktas som uteliggare defi- nieras som q
1− 1.5(q
3− q
1), q
3+ 1.5(q
3− q
1). (4p) 2. Ett f¨oretag hyr ut kopieringsmaskiner. D¨ar ing˚ar ocks˚a service i tv˚a de- lar: dels ska akuta problem ˚atg¨ardas, dels ska f¨oretaget genomf¨ora rutinun- derh˚all av kopieringsmaskinerna.
Den tid rutinunderh˚all har tagit sammanst¨alldes f¨or elva tillf¨allen:
1
Folkets datorvanor - Datoranv¨andningsunders¨okningen juni 1984, Information i prognos-
fr˚agor 1984:5, Statistiska centralbyr˚an
Tentamen i Statistik AI, MAM801, 2008-01-19
Antal Arbetstid
Tillf¨alle kopieringsmaskiner (minuter)
1 4 109
2 2 58
3 5 138
4 7 189
5 1 37
6 3 82
7 4 103
8 5 134
9 2 68
10 4 112
11 6 154
G¨ors en regressionanpassning med antal maskiner som oberoende variabel och arbetstid som beroende variabel f˚as f¨oljande uttryck:
ˆ
y = 11.46 + 24.60 · x
(a) Vad blir utifr˚an denna modell f¨orv¨antad arbetstid f¨or en kund som har 4 kopieringsmaskiner?
(b) Kan koefficienterna i regressionsmodellen ges meningsfulla tolkning- ar? Om s˚a ¨ar fallet, g¨or s˚adana tolkningar i ord. Om det inte g˚ar att g¨ora meningsfulla tolkningar, motivera d˚a detta. (3p) 3. I unders¨okningen om svenska folkets datorvanor st¨alldes fr˚agan ”Har Du sj¨alv n˚agon g˚ang anv¨ant n˚agon typ av dator eller datoriserad utrustning eller i ¨ovrigt haft ADB-arbete?”. I unders¨okningen fr˚agade man 5289 personer, och andelen som besvarade fr˚agan med ett Nej var 67.2%.
Best¨am ett konfidensintervall med konfidensgraden 90% f¨or andelen i po- pulationen som inte hade anv¨ant dator, datoriserad utrustning eller hade haft ADB-arbete. Ange tydligt om f¨oruts¨attningarna f¨or konfidensintervallet ¨ar
uppfyllda. Tolka intervallet tydligt i ord. (3p)
4. Finns det n˚agon p˚avisbar skillnad mellan reparationskostnader vid olika bil- verkst¨ader? F¨or att besvara fr˚agan tog f¨ors¨akringsbolaget fram sju bilar med olika omfattning p˚a skadorna och l¨amnade in dem p˚a tv˚a verkst¨ader f¨or att f˚a kostnadsf¨orslag. I nedanst˚aende tabell ges f¨orslagen i hundratal kronor f¨or de tv˚a verkst¨aderna:
Bil 1 2 3 4 5 6 7
Verkstad 1 49.7 63.0 77.0 62.3 69.3 63.7 72.1
Verkstad 2 55.3 70.7 85.4 61.6 72.8 68.6 81.9
Tentamen i Statistik AI, MAM801, 2008-01-19
(a) Finns det n˚agon p˚avisbar skillnad mellan de kostnadsf¨orslag som ges vid de tv˚a verkst¨aderna? I fall s˚adan skillnad finns, hur stor ¨ar den?
Besvara fr˚agorna genom att best¨amma och tolka ett konfidensinter- vall f¨or den genomsnittliga skillnaden mellan de tv˚a verkst¨adernas kostnadsf¨orslag. Ange ocks˚a l¨ampliga noll- och alternativhypoteser.
Anv¨and 95% konfidensgrad. Ange ocks˚a de antaganden om f¨ordelning som m˚aste vara uppfyllda f¨or att resultaten ska vara n˚agorlunda giltiga.
(b) Ett annat s¨att att g¨ora j¨amf¨orelsen mellan tv˚a serier av detta slag ¨ar att titta p˚a ”tecknet” i j¨amf¨orelsen, dvs antalet positiva skillnader n¨ar man tar skillnaden mellan verkst¨adernas kostnadsf¨orslag. Om alla v¨ardena
¨ar positiva talar det f¨or att ena verkstaden ¨ar systematiskt l¨agre ¨an den andra, men om det finns b˚ade positiva och negativa skillnader kan det vara sv˚arare att s¨aga om det finns n˚agon skillnad.
Om du bildar sju differenser och bara ser till tecknet s˚a f˚ar vi i ovan- st˚aende material sex plustecken och ett minustecken n¨ar skillnaden mellan kostnadsf¨orslagen fr˚an verkstad 1 dras fr˚an motsvarande fr˚an verkstad 2. Hur stor ¨ar sannolikheten att f˚a minst sex s˚adana plustec- ken utifr˚an antagandet att det ¨ar lika stor chans att f˚a ett minus- som ett plustecken? Ange tydligt de f¨ordelningsantaganden du utg˚ar fr˚an i
ber¨akningarna. (5p)
5. Du har f˚att ett uppdrag av ett visst st˚alverk. De tillverkar ¨amnen som trans- porteras till en kund p˚a annan ort, och det ¨ar viktigt f¨or b˚ade s¨aljare och k¨opare att ¨amnena ¨ar av r¨att dimension.
Det har visat sig att en viss typ av ¨amnen har en l¨angd som kan betraktas som normalf¨ordelad med genomsnittet 5 meter och standardavvikelsen 0.02 meter.
(a) Hur stor andel av ¨amnena kommer att vara kortare ¨an 4.95 meter?
(b) Vad blir kortaste l¨angd i gruppen av de 3% l¨angsta ¨amnena?
(c) Antag att du som definition p˚a ”l˚ang” s¨ager att ett ¨amne ¨ar bland de 3% l¨angsta. En typisk s¨andning av den aktuella typen av ¨amnen ¨ar p˚a 20 stycken. Hur stor ¨ar sannolikheten att det i en s˚adan s¨andning finns minst 4 ¨amnen som ¨ar l˚anga enligt din definition? Utg˚a fr˚an att
¨amnenas l¨angder ¨ar oberoende av varandra.
(d) F¨or denna typ av ¨amnen m¨ats flera egenskaper som det ocks˚a st¨alls
krav p˚a. Antag att det ¨ar 4% sannolikhet att ett ¨amne har fel l¨angd,
3% sannolikhet att det har breddfel och 7% sannolikhet att det har
fel p˚a formen (¨ar vridet, ickerektangul¨art eller liknande). Hur stor ¨ar
Tentamen i Statistik AI, MAM801, 2008-01-19
sannolikheten att ett ¨amne har minst ett av felen? Utg˚a fr˚an att felen antas uppst˚a oberoende av varandra.
I alla deluppgifterna ska det tydligt framg˚a hur du definierat slumpvari- abler och/eller de h¨andelser du arbetar med, likas˚a ska de antaganden om f¨ordelning som ber¨akningarna bygger p˚a beskrivas tydligt. (4p) 6. F¨or att f¨orb¨attra m¨atning av l¨angden p˚a produkter fr˚an ett visst st˚alverk
¨overv¨ager man att inf¨ora en ny m¨atmetod. Den anv¨ands parallellt med en etablerad metod, och under en perioden v¨ags resultaten fr˚an b˚ada metoder- na ihop f¨or att ge ett enda v¨arde.
Den gamla metoden ger v¨arden med en standardavvikelse p˚a 6 mm, och den nya ger v¨arden med en standardavvikelse p˚a 2 mm. Hur stor ¨ar stan- dardavvikelsen f¨or medelv¨ardet av tv˚a m¨atningar d¨ar en gjorts med den gamla metoden och den andra med den nya metoden? M¨atningar gjorda med de tv˚a metoderna kan betraktas som oberoende av varandra. Du kan ocks˚a f¨oruts¨atta att ingen av metoderna har n˚agot systematiskt fel, dvs de
kommer i genomsnitt att ge korrekta v¨arden. (3p)
L¨osningar till tentamen i Statistik AI, S0002M, 2008-01-19
1. Datamaterialet var f¨oljande v¨arden:
26 14 21 20 20 14 17 12 16 17 17
16 13 16 7 20 16 10 16 14 19 12
(a) Ett stambladdiagram kan se ut p˚a f¨oljande s¨att:
The decimal point is 1 digit(s) to the right of the | 0 | 7
1 | 0223444 1 | 666667779 2 | 0001 2 | 6
H¨ar ¨ar medianen medelv¨ardet av v¨arde nr 11 och 12, dvs (16+16)/2 = 16. Undre kvartil blir medianen i den undre halvan, dvs v¨arde nr 6 som
¨ar 14. Den ¨ovre kvartilen ¨ar p˚a motsvarande s¨att median i den ¨ovre hal- van, dvs v¨arde nr 6 r¨aknat fr˚an h¨ogsta v¨ardet, n˚agot som blir 19.
(b) En boxplot/l˚adagram kan se ut p˚a f¨oljande s¨att:
+--+----+---+----+----+----+---+----+----+----++
| |
| |
| |
| +----+---+ |
|+---| | |---+|
| +----+---+ |
| |
| |
+--+----+---+----+----+----+---+----+----+----++
8 10 12 14 16 18 20 22 24 26
Med kvartilerna 14 och 19 blir gr¨anserna [6.5, 26.5], och det finns inga v¨arden utanf¨or dessa vilket allts˚a s¨ager att det inte finns v¨arden som ska betraktas som uteliggare.
2. L¨ampliga variabler ¨ar x: antal kopieringsmaskiner som hyrs och y: tid i mi-
nuter det tar f¨or rutinunderh˚all. Den regressionsanpassning som gjorts gav
resultatet
L¨osningar till tentamen i Statistik AI, S0002M, 2008-01-19
ˆ
y = 11.46 + 24.60 · x
(a) Om x = 4 s˚a blir motsvarande v¨arde p˚a y, dvs underh˚allstiden109.86 minuter (11 .46 + 24.60 · 4).
(b) V¨ardet 24.60 s¨ager att underh˚allstiden ¨okar med i genomsnitt 24.60 minuter f¨or varje ytterligare kopieringsmaskin. V¨ardet 11.46 ¨ar inte m¨ojligt att tolka eftersom det inte kan finnas underh˚allstid n¨ar man inte har n˚agra kopieringsmaskiner.
3. L˚at p beteckna andelen i populationen som besvarade fr˚agan ”Har Du sj¨alv n˚agon g˚ang anv¨ant n˚agon typ av dator eller datoriserad utrustning eller i
¨ovrigt haft ADB-arbete?” med . I unders¨okningen hade man fr˚agat 5289 personer, och ˆ p, andelen som besvarade fr˚agan med ett Nej var 67.2%.
Ett konfidensintervall f¨or p ges av uttrycket
ˆ p ± z
∗r p ˆ (1 − ˆp) n
Eftersom konfidensgraden skulle vara 90% blir z
∗= 1.645. Med ˆp = 0.672 ger detta intervallet
0 .672 ± 0.0107
Populationsandelen som inte anv¨ant dator, datoriserad utrustning eller hade haft ADB-arbete t¨acks allts˚a med 90% s¨akerhet av intervallet [0.661, 0.683].
De krav som st¨alls ¨ar att antalet ”lyckade” och ”misslyckade” utfall, dvs antalet Nej– och Ja–svar b˚ada ¨ar minst 15, vilket de ¨ar i detta fall.
4. Materialet handlar om att se om det finns n˚agon p˚avisbar skillnad mel- lan reparationskostnader vid olika bilverkst¨ader. De v¨arden som erh˚allits
¨ar f¨oljande:
Bil 1 2 3 4 5 6 7
Verkstad 1 49.7 63.0 77.0 62.3 69.3 63.7 72.1 Verkstad 2 55.3 70.7 85.4 61.6 72.8 68.6 81.9
(a) Vi ska g¨ora ett hypotestest d¨ar en l¨amplig nollhypotes ¨ar H
0: µ = 0 och
en alternativhypotes ¨ar H
a: µ 6= 0, d¨ar µ ¨ar genomsnittet f¨or skillnaden
mellan verkst¨adernas kostnadsf¨orslag.
L¨osningar till tentamen i Statistik AI, S0002M, 2008-01-19
F¨or varje bil finns det tv˚a v¨arden, ett fr˚an vardera verkstaden. L˚at x
ist˚ar f¨or kostnadsf¨orslagen vid verkstad 1 f¨or bil nr i och y
if¨or motsvarande f¨or verkstad 2. F¨or varje bil kan man bilda differensen d
i= y
i− x
i, dvs
Bil 1 2 3 4 5 6 7
d
i5.6 7.7 8.4 -0.7 3.5 4.9 9.8
Ett konfidensintervall f¨or den genomsnittliga skillnaden µ ges av ut- trycket
d ¯ ± t
∗s
√ n
d¨ar ¯ d = 5.6, s = 3.5233 och n = 7. Konstanten t
∗= 2.447 eftersom vi ska ha 95% konfidensgrad och stickprovsstorleken ger 6 frihetsgrader.
Intervallet blir [2.341, 8.859], dvs med 95% s¨akerhet kan vi s¨aga att den genomsnittliga skillnaden mellan verkst¨adernas kostnadsf¨orslag t¨acks med 95% s¨akerhet av intervallet ovan. Detta betyder att vi kan s¨aga att det finns en p˚avisbar (eller annorlunda uttryckt: signifikant) skillnad mellan verkst¨adernas kostnadsf¨orslag.
F¨or att ber¨akningarna ska vara giltiga kr¨avs eftersom stickprovet ¨ar s˚a pass litet att vi kan betrakta differenserna mellan kostnadsf¨orslagen som observationer fr˚an en normalf¨ordelning. Om det ¨ar uppfyllt g˚ar dock inte enkelt att uttala sig om.,
(b) L˚at w st˚a f¨or antalet plustecken som f˚as n¨ar man bildar differensen mellan verkstads 2 och verkstad 1. Den variabeln b¨or ha sitt ursprung fr˚an en binomialf¨ordelning med n = 7. Om det ska vara lika stor san- nolikhet att f˚a ett minus– som ett plustecken m˚aste det d˚a ocks˚a g¨alla att p = 0.5.
Det som s¨oks ¨ar sannolikheten att f˚a sex eller fler plustecken, dvs P (w ≥ 6). Detta man r¨aknas ut p˚a flera s¨att. Ett s¨att ¨ar att anv¨anda tabell:
P (w ≥ 6) = 1 − P(w < 6) = P(w ≤ 5) =
= 1 − (0.0078 + 0.0547 + ···+ 0.1641) = 1 − 0.9375 = 0.0625 Ett annat ¨ar f¨orst˚as att r¨akna ut
P (w ≥ 6) = P(w = 6) + P(w = 7) =
= 0.0546875 + 0.0078125 = 0.8375
L¨osningar till tentamen i Statistik AI, S0002M, 2008-01-19
Detta ¨ar ett exempel p˚a ett s˚a kallat teckentest, en metod f¨or parvi- sa j¨amf¨orelser som inte kr¨aver att observationerna kommer fr˚an nor- malf¨ordelning. Se exempelvis IPS s. 468-470.
5. L˚at X st˚a f¨or l˚angden p˚a ¨amne. Den variabeln kan betraktas som normalf¨or- delad med genomsnittet 5 och standardavvikelsen 0.02, dvs N(5, , 0.02).
(a) Det som s¨oks ¨ar andelen ¨amnen som kommer att vara kortare ¨an 4.95 meter.
4.94 4.96 4.98 5.00 5.02 5.04 5.06
05101520
Om X = 4.95 s˚a f˚ar man med transformationen z = (x − µ )/ σ att z =
−2.5. D˚a g¨aller att
andelen X < 4.95 ¨ar lika stor som andelen z < −2.5 Enligt tabell ¨ar den andelen 0.0062, dvs 0.62%.
(b) L˚at c st˚a f¨or kortaste l¨angd i gruppen av de 3% l¨angsta ¨amnena. Det
som s¨oks kan d˚a det v¨arde c som avgr¨ansar den h¨ogra svansen i nedan-
st˚aende figur:
L¨osningar till tentamen i Statistik AI, S0002M, 2008-01-19
4.94 4.96 4.98 5.00 5.02 5.04 5.06
05101520
Andelen X > c m˚aste vara samma sak som andelen z >
0.02c−5. Den an- delen ska vara 0.03. Enligt tabell ¨ar andelen z > 1.88 just 3%, vilket betyder att
c − 5
0.02 = 1.88
Detta ger att c = 5.0376, dvs kortaste l¨angd bland de 3% l¨angsta ¨ar 5.0376 meter.
(c) Om L st˚ar f¨or antalet l˚anga ¨amnen g¨aller att den variabeln kan ses som binomialf¨ordelad med n = 20 och p = 0.03. Den fr˚aga som ska besva- ras ¨ar sannolikheten att f˚a minst 4 ¨amnen som ¨ar l˚anga, dvs P (L ≥ 4).
Detta kan ber¨aknas p˚a flera s¨att:
P (L ≥ 4) = 1 − P(L ≤ 3) =
= 1 − [P(L = 0) + P(L = 1) + P(L = 2) + P(L = 3)] =
= [enl tabell] =
= 1 −[0.5438+0.3364+0.098+0.0183] = 1−0.99733 = 0.00267 (d) L˚at L st˚a f¨or h¨andelsen att ett ¨amne har fel l¨angd, B f¨or att ¨amne har
bredd fel och F att det har formfel. F¨or dessa h¨andelser g¨aller att
L¨osningar till tentamen i Statistik AI, S0002M, 2008-01-19
P(L) = 0.04 P(B) = 0.03 P(F) = 0.07
H¨andelserna antas vara oberoende av varandra. Det som s¨oks ¨ar h¨an- delsen att ett ¨amne har minst ett av felen. Detta kan skrivas som
P(L eller B eller F) =
P (L) + P(B) + P(F)−
P (L och B) − P(L och F) − P(B och F)+
P(L och B och F) Oberoendet g¨or att exempelvis P( och B) = P(L)P(B), vilket g¨or att alla sannolikheterna tillsammans ger
P(L eller B eller F) =
0 .04 + 0.03 + 0.07−
0 .04 · 0.03 − 0.04 · 0.07 − 0.03 · 0.07 + 0.04 · 0.03 · 0.07 = 0.133984 Ett annat – kanske enklare s¨att – att r¨akna ut det hela ¨ar att titta p˚a motsatsen:
P (minst ett fel) = 1 − P(inget fel) D¨ar kan P(inget fel) ber¨aknas som
P(inget fel) = P(L
coch B
coch F
c) = P(L
c)P(B
c)P(F
c) =
(1 − P(L))(1 − P(B))(1 − P(F)) =
(1 − 0.04)(1 − 0.03)(1 − 0.07) = 0.866016
Det betyder att P (minst ett fel) = 1 − 0.866016 = 0.133984.
L¨osningar till tentamen i Statistik AI, S0002M, 2008-01-19
6. Om v
1st˚ar f¨or v¨ardet med den gamla metoden och v
2f¨or m¨atv¨arde med den nya metoden g¨aller att σ
v1= 6 och σ
v2= 2.
Ett medelv¨ardeska bildas, dvs ¯ v =
v1+v2 2. Detta kan skrivas som
¯ v = 1
2 (v
1+ v
2) = 1 2 v
1+ 1
2 v
1Med reglerna
σ
X2+Y= σ
X2+ σ
Y2σ
a+bX2= b
2σ
X2betyder detta att
σ
v¯2= σ
212(v1+v2)