TENTAMEN I SF1912/SF1914/SF1915/SF1916 SANNOLIKHETSTEORI OCH STATISTIK, ONSDAGEN DEN 24:E OKTOBER 2018 KL 8.00–13.00.
Examinator f¨or SF1914/SF1916: Tatjana Pavlenko, 08-790 84 66 Examinator f¨or SF1915: Bj¨orn-Olof Skytt, 08-790 86 49.
Examinator f¨or SF1912: Per-J¨orgen S¨ave-S¨oderbergh, 08-790 65 85.
Till˚atna hj¨alpmedel : Formel- och tabellsamling i Matematisk statistik (utdelas vid tentamen), minir¨aknare.
Tentamen best˚ar av tv˚a delar, ben¨amnda del I och del II. Del I best˚ar av uppgifterna 1-12. P˚a denna del skall endast svar anges, antingen i form av ett numeriskt v¨arde med tre v¨ardesiffrors noggrannhet eller i form av val av ett av de m¨ojliga svarsalternativen. Studenter som ¨ar godk¨anda p˚a kontrollskrivningen beh¨over ej besvara uppgift 1-3, utan f˚ar tillgodor¨akna sig dessa tre upp- gifter. Gr¨ansen f¨or godk¨ant ¨ar prelimin¨art 9 po¨ang. M¨ojlighet att komplettera ges f¨or tentander med, prelimin¨art, 8 po¨ang. Tid och plats f¨or komplettering kommer att anges p˚a kursens hemsida.
Del II best˚ar av uppgifterna 13-16 och varje korrekt l¨osning ger 10 po¨ang. Del II r¨attas bara f¨or studenter som ¨ar godk¨anda p˚a del I och po¨ang p˚a del II kr¨avs f¨or h¨ogre betyg ¨an E. P˚a denna del skall resonemang och utr¨akningar skall vara s˚a utf¨orliga och v¨al motiverade att de ¨ar l¨atta att f¨olja. Inf¨orda beteckningar skall f¨orklaras och definieras och numeriska svar skall anges med minst tv˚a v¨ardesiffrors noggrannhet. Studenter som ¨ar godk¨anda p˚a datorlaborationen f˚ar 4 bonuspo¨ang p˚a del II p˚a ordinarie tentamenstillf¨allet och det f¨orsta omtentamenstillf¨allet.
Tentamen kommer att vara r¨attad inom tre arbetsveckor fr˚an skrivningstillf¨allet och kommer att finnas tillg¨anglig p˚a studentexpeditionen minst sju veckor efter skrivningstillf¨allet.
Del I
Uppgift 1
F¨or h¨andelserna A och B g¨aller att P (A) = 1/4, P (B|A) = 1/3 och P (B|A∗) = 1/2. Ber¨akna P (A|B).
Svar:...
Uppgift 2 En stokastisk variabel X har f¨ordelningsfunktionen
FX(x) =
0, x < 0 x3, 0 ≤ x ≤ 1 1, x > 1 Best¨am E(X).
Svar:...
2
Uppgift 3
Ange f¨ordelningen f¨or Z = 4X − 5Y d˚a X ∈ N (1, 2) och Y ∈ N (1, 3) och ¨ar X och Y oberoende.
Svar:...
Uppgift 4
Antalet samtal till ett f¨oretags callcenter under en tiominuters period antas vara Poissonf¨ordelad med v¨antev¨arde 1.2. Vad ¨ar sannolikheten att det kommer fler ¨an 1 men f¨arre ¨an 4 samtal under perioden 9.30 − 9.40?
A: 0.0867 B: 0.113 C: 0.304 D: 0.330 Svar:...
Uppgift 5
Ber¨akna P (X ≥ 2) d˚a den stokastiska variabeln X ¨ar exponentialf¨ordelad med E(X) = 3.
A: 0.00248 B: 0.513 C: 0.997 D: 0.487 Svar:...
Uppgift 6 Best¨am c s˚a att P (X > c) = 0.05 d˚a X ∈ N (3, 2).
A: 0.290 B: 1.64 C: 5.33 D: 6.29 Svar:...
Uppgift 7
En v¨algjord sexsidig t¨arning kastas fyra g˚anger. Vad ¨ar sannolikhet att exakt tre av kasten ¨ar en sexa?
Svar:...
Uppgift 8
L˚at x = 38 vara ett utfall av en stokastisk variabel X ∈ Bin(600, p) d¨ar p ¨ar ok¨and. Best¨am medelfelet f¨or skattningen p∗ = X/n.
A: 9.89 · 10−5 B: 0.00994 C: 0.0593 D: 5.97 Svar:...
Uppgift 9
Man har tv˚a oberoende observationer x1 = 3 och x2 = 5 av en stokastisk variabel med t¨athetsfunktionen fX(x) = x
ae−(x/a)2/2, x > 0, a > 0.
Best¨am Maximum-Likelihood skattningen av a.
A: 2.00 B: 4.12 C: 6.00 D: 8.72 Svar:...
Uppgift 10
L˚at 20 personer utf¨ora m¨atningar p˚a en N (µ, σ)-f¨ordelad stokastisk variabel. D¨arefter g¨or de var och en ett 95% konfidensintervall f¨or µ. Vilket ¨ar det troligaste v¨ardet p˚a det antal intervall som kommer att missa µ?
Svar:...
4
Uppgift 11
Givet ¨ar 5 oberoende observationer av en stokastisk variabel X som ¨ar N (µ, σ). Stickprovsme- delv¨ardet ¨ar ¯x = 0.16 och stickprovsstandardavvikelsen ¨ar s = 0.0158. Best¨am ¨ovre gr¨ansen f¨or ett ensidigt upp˚at begr¨ansat 95% konfidensintervall f¨or σ.
A: 0.0375 B: 0.00103 C: 0.0456 D: 0.00948 Svar:...
Uppgift 12
Givet ¨ar 7 oberoende observationer av en stokastisk variabel X som ¨ar N (µ, 0.4). Stickprovsme- delv¨ardet ber¨aknat p˚a 7 observationerna ¨ar ¯x = 0.719. Man testar nollhypotesen H0 : µ = 1 mot H1 : µ < 1. Best¨am testets p-v¨arde.
A: 0.241 B: 0.100 C: 0.0314 D: 0.969 Svar:...
Del II
Uppgift 13
L˚at x1 och x2 vara tv˚a oberoende observationer fr˚an N (µ, σ) samt x3 en observation, oberoende av de f¨orsta tv˚a, fr˚an N (2µ, σ).
a) Skatta µ med hj¨alp av minsta-kvadratmetoden. Alla tre observationerna m˚aste ut-
nyttjas. (4 p)
b) Avg¨or om skattningen ¨ar v¨antev¨ardesriktig. (3 p)
c) En naturlig v¨antev¨ardesriktig skattning av µ ¨ar att ta medelv¨ardet mellan x1, x2 och x3/2, dvs µ∗ = x1
3 +x2 3 +x3
6. Unders¨ok vilken av MK-skattningen och µ∗ som ¨ar effektivast.
(3 p) Uppgift 14
En forskningsenhet som anv¨ander provresultat fr˚an tv˚a olika laboratorier vill unders¨oka om labora- torierna m¨ater likv¨ardigt. Unders¨okningen gick till s˚a att ett prov s¨andes till de tv˚a laboratorierna som vart och ett fick g¨ora fem oberoende m¨atningar av provet. Man antar att provresultaten mo- delleras som oberoende observationer p˚a normalf¨ordelade stokastiska variabler, alla med samma varians. Resultaten fr˚an m¨atningarna anges i tabellen nedan.
Lab 1: 41.33 41.35 41.24 41.24 41.32 Lab 2: 41.24 41.27 41.28 41.27 41.30
Testa p˚a signifikansniv˚an 1% om de tv˚a laboratorierna m¨ater likv¨ardigt. Ange tydligt vilka de uppst¨allda hypoteserna ¨ar och vad slutsatsen ¨ar. (10 p)
Uppgift 15
Vid senaste Folk- och Bostadsr¨akningen, som gjordes f¨or c:a 10-15 ˚ar sedan, har en miljonpopula- tion av individer klassificerats i fyra klasser A, B, C, D, vars relativa storlekar var 20%, 30%, 10%, 40% respektive. I ˚ar klassificerades ett slumpm¨assigt urval om 100 individer p˚a samma s¨att. Av dessa tillh¨orde 13, 37, 17, 33 i n¨amnd ordning ovanst˚aende klasser.
Unders¨ok om proportionerna av klasserna i populationen har f¨or¨andrats eller inte sedan den se- naste Folk- och Bostadsr¨akningen. Anv¨and signifikansniv˚an 5%. Ange tydligt vilka de uppst¨allda
hypoteserna ¨ar och vad slutsatsen ¨ar. (10 p)
Uppgift 16
L˚at oss anta att det i branschen f¨or p¨alsschampoo f¨or hundar finns tv˚a dominerande tillverkare, A och B, som tillsammans har drygt 50% av marknaden.
Tillverkare A g¨or en marknadsunders¨okning i vilken 1000 hund¨agare tillfr˚agas, och 184 av dessa s¨ager sig f¨oredra schampoo som A s¨aljer. Tillverkare B, som ¨ar den st¨orsta p˚a marknaden och vill trycka ner konkurrensen, g¨or d˚a en egen unders¨okning i vilken 196 av 500 tillfr˚agade hund¨agare
s¨ager sig f¨oredra schampoot fr˚an B. Detta tar tillverkare B som int¨akt f¨or att i en stor kampanj p˚ast˚a att ”V˚art schampoo ¨ar mer ¨an dubbelt s˚a popul¨art som n˚agon annan tillverkares schampoo”.
Vi skall unders¨oka, ur statistisk synvinkel, om detta h˚aller.
(a) Definiera storheten, eller parametern,
∆ = andelen hund¨agare som f¨oredrar p¨alsschampoo fr˚an B
− 2 × andelen hund¨agare som f¨oredrar p¨alsschampoo fr˚an A.
Anv¨and tillverkare A:s unders¨okning f¨or att skatta andelen andelen hund¨agare som f¨oredrar p¨alsschampoo fr˚an A, och tillverkare B:s unders¨okning f¨or att skatta andelen andelen hund¨agare som f¨oredrar p¨alsschampoo fr˚an B, f¨or att konstruera en skattning ∆∗ av ∆. R¨akna ocks˚a ut denna skattnings v¨arde f¨or de aktuella data. Det vill s¨aga, i bokens terminologi, ange b˚ade stickprovsva-
riabel och skattning. (2 p)
(b) Ber¨akna variansen av ∆∗ uttryckt i l¨ampliga parametrar. (3 p)
(c) Ange medelfelet f¨or ∆∗ f¨or de aktuella data. (2 p)
(d) Finns det fog f¨or B:s p˚ast˚aende i kampanjen (j¨amf¨or A och B)? Svara p˚a fr˚agan med hj¨alp av ett l¨ampligt konfidensintervall eller test och v¨alj signifikansniv˚a sj¨alv. (3 p)
Lycka till!
Avd. Matematisk statistik
L ¨OSNINGSF ¨ORSLAG TENTAMEN I SF1912/SF1914/SF1915/SF1916 SANNOLIKHETSTEO- RI OCH STATISTIK,
ONSDAGEN DEN 24:E OKTOBER 2018 KL 8.00–13.00.
Del I Uppgift 1
Eftersom A och A∗ utg¨or en partition av Ω kan vi anv¨anda lagen om total sannolikhet p˚a B P (B) = P (A) P (B | A) + P (A∗) P (B | A∗) = 1
4 × 1 3+ 3
4× 1 2 = 11
24 Enligt definitionen av betingad sannolikhet har vi
P (A | B) = P (A ∩ B)
P (B) = P (A) P (B | A)
P (B) =
1 4 × 13
11 24
= 2
11 = 0.182 Uppgift 2
Vi b¨orjar med att ta fram X t¨athetsfunktion fX(x) = dFX(x)
dx = 3x2, 0 ≤ x ≤ 1 0, f¨or ¨ovrigt.
V¨antev¨ardet ges d¨arf¨or som E (X) =
Z ∞
−∞
x · fX(x) dx = Z 1
0
x · 3x2dx = 3 x4 4
= 3
4 = 0.75 Uppgift 3
Enligt sats 6.3 ¨ar 4X ∈ N (4 × 1, |4| × 2), d.v.s. 4X ∈ N (4, 8). P˚a samma s¨att ¨ar 5Y ∈ N (5, 15).
Enligt sats 6.4 om differenser mellan normalf¨ordelade stokastiska variabler ¨ar 4X−5Y ∈ N 4 − 5,√
82+ 152.
D˚a √
82+ 152 =√
289 = 17, har vi att 4X − 5Y ∈ N (−1, 17) Uppgift 4
Vi anv¨ander tabell 5 i nedanst˚aende ber¨akning, d˚a X ∈ Po (1.2).
P (1 < X < 4) = P (1 < X ≤ 3) = FX(3) − FX(1) = 0.96623 − 0.66263 = 0.304
Uppgift 5
Vi ber¨aknar sannolikheter f¨or kontinuerliga stokastiska variabler som areor under t¨athetsfunktionen.
I detta fall
P (X ≥ 2) = Z ∞
2
fX(x) dx = Z ∞
2
1
3e−x/3dx =−e−x/3∞
2 = e−2/3 = 0.513 Uppgift 6
Villkoret kan skrivas som
P (X ≤ c) = 0.95.
Eftersom X ∈ N (3, 2) finner vi
P (X ≤ c) = P X − 3
2 ≤ c − 3 2
= Φ c − 3 2
= 0.95 vilket inneb¨ar att
c − 3
2 ) = 1.6649 ⇔ c = 3 + 2 × 1.6449 = 6.290 Uppgift 7
L˚at A =sexa. D˚a ¨ar P (A) = 16 och om X =antal sexor under de fyra kasten, s˚a vet vi att X ∈ Bin 4,16. D˚a har vi att
P (X = 3) =4 3
1 6
3
5 6
1
= 4 × 5
64 = 20
1296 = 0.0154 Uppgift 8
d (p∗) =
rp∗(1 − p∗)
n =
s
x
n 1 −xn
n =
s
38
600 1 −60038
600 = 0.00994
3
Uppgift 9 Likelihooden ¨ar
L (a) = x1 a
x2 a exp
−1 2
x1 a
2
+x2 a
2 Loglikelihooden
ln L (a) = ln x1+ ln x2− 2 ln a − 1
2a2 x21+ x22 S¨att derivatan av loglikelihooden till noll och l¨os f¨or a:
d ln L (a)
da = 0 ⇔ −2
a +x21+ x22
a3 = 0 ⇔ a =
rx21+ x22 2 D˚a x1 = 3 och x2 = 4 ¨ar ML-skattningen av a
a =
r9 + 25
2 =√
17 = 4.12 Uppgift 10
L˚at A =konfidensintervallet inneh˚aller inte det sanna parameterv¨ardet. D˚a ¨ar P (A) = 0.05 och om X =antal konfidensintervall som missar, s˚a vet vi att X ∈ Bin (20, 0.05). Om vi studerar tabellen ser vi att sannolikheten f¨or X = 1 ¨ar st¨orst. Allts˚a ¨ar det mest troligt att ett konfidensintervall missar den sanna parametern.
Uppgift 11
Ett ensidigt upp˚at begr¨ansat konfidensinterval f¨or σ ges av (0, ks), d¨ar k = 1/
qχ21−α(n−1)
n−1 . Vi har n − 1 = 4 frihetsgrader. F¨or 95% ¨ar χ20.95(4) = 0.71. D¨armed blir den ¨ovre gr¨ansen
ks = 1
qχ21−α(n−1) n−1
× s = 1 q0.71
4
× 0.0158 = 0.0375
Uppgift 12 Vi vet att X ∼ N
1,0.4√7
, d˚a H0 antas vara sann. Dessutom att x = 0.719.
Definitionen av p-v¨arde ¨ar
p − v¨ardet = P (att f˚a det observerade eller n˚agot extremare | H0 sann)
Vi f¨orkastar H0 till f¨orm˚an f¨or H1 f¨or avvikande l˚aga v¨arden p˚a X. Det mera extrema som det talas om i definitionen av p-v¨ardet ¨ar allts˚a ¨annu mindre v¨arden av X.
Under f¨oruts¨attning att H0 ¨ar sann, d v s µ = 1, ber¨aknar vi f¨oljande P X ≤ 0.719
= P X − 1
√0.4 7
≤ 0.719 − 1
√0.4 7
!
= Φ 0.719 − 1
0.4√ 7
!
= Φ (−1.86)
= 1 − Φ (1.86)
= 1 − 0.9686
= 0.0314
Del I
1. 0.182 2. 0.750 3. N (−1, 17) 4. C
5. B 6. D 7. 0.0154 8. B 9. B 10. 1 11. A 12. C
Del II
Uppgift 13
Data x1, x2, x3 ¨ar observationer fr˚an X1, X2, X3, d¨ar Xi:na ¨ar oberoende samt X1 och X2 ¨ar N (µ, σ), X3 ∈ N (2µ, σ).
a)
Q(µ) = (x1− µ)2+ (x2− µ)2+ (x3− 2µ)2. Minimera Q genom att s¨atta derivatan av Q med avseende p˚a µ till noll.
dQ
dµ = −2(x1− µ) − 2(x2− µ) − 4(x3− 2µ) = 0, vilket ger
µ∗M K = x1+ x2+ 2x3
6 .
b)
E(µ∗M K) = E X1+ X2+ 2X3 6
= 1
6(E(X1) + E(X2) + 2E(X3)) = 1
6(µ + µ + 2 · 2µ) = µ, dvs MK-skattningen ¨ar v¨antev¨arderiktig.
5
c)
V (µ∗M K) = V 1
6X1+ 1
6X2+ 1 3X3
= 1
62V (X1) + 1
62V (X2) + 1
32V (X3)
= 1
36σ2+ 1
36σ2+ 1
9σ2 = σ2 6 . V (µ∗) = V 1
3X1+ 1
3X2+1 6X3
= 1
9σ2+ 1
9σ2+ 1
36σ2 = σ2 4 > σ2
6 , dvs MK-skattningen har minst varians (¨ar effektivast).
Uppgift 14
Modell: Resultaten fr˚an lab 1, x1, . . . , x5 observationer av X ∈ N (µ1, σ). Resultaten fr˚an lab 2, y1, . . . , y5 observationer av X ∈ N (µ2, σ). Med hj¨alp av r¨aknare f˚as
x = 41.296 sx = 0.0522 samt
y = 41.272 sy = 0.0217
Eftersom de tv˚a σ-skattningarna ¨ar n˚agorlunda lika (b¨or egentligen testas med ett test som inte ing˚ar i kursen) anser vi att antagandet om lika σ i modellen ¨ar uppfyllt och vi g¨or d¨arf¨or en gemensam skattning av σ.
σ∗ = sp =
s(5 − 1) s2x+ (5 − 1) s2y
(5 − 1) + (5 − 1) = 0.0400 L¨ampliga hypoteser: H0 : µ1 = µ2, dvs ingen skillnad i f¨orv¨antat labbresultat H1 : µ1 6= µ2, dvs skillnad i f¨orv¨antat labbresultat
G¨or ett tv˚asidigt 99% f¨or µ1− µ2:
Iµ1−µ2 = x − y ± t0.005(8) sp
r1 5 +1
5
!
= 41.296 − 41.270 ± 3.36 · 0.0400 r1
5+ 1 5
!
= (−0.06, 0.11)
Eftersom intervallet t¨acker ¨over 0, kan H0 ej f¨orkastas p˚a niv˚an 0.01. Dessa data har allts˚a inte visat att det finns n˚agon skillnad i f¨orv¨antat labbresultat mellan labben. Det finns allts˚a ingen omedelbar anledning till oro.
Uppgift 15 Bilda χ2-teststorheten
Q = (13 − 20)2/20 + (37 − 30)2/30 + (17 − 10)2/10 + (33 − 40)2/40 = 490/48 = 10.2.
Om hypotesen H0 “relativa storlekarna ¨ar of¨or¨andrade” ¨ar sann s˚a ¨ar 10.2 observation av (ap- proximativt) χ2(3). Hypotesen f¨orkastas f¨or stora v¨arden p˚a Q.
Ur tabell erh˚alls χ20.05(3) = 7.81 < 10.2. H¨arav f¨oljer p˚a de angivna signifikansniv˚aerna att H0 kan f¨orkastas p˚a niv˚an 5%.
Uppgift 16
(a) L˚at pAoch pBbeteckna andelen hund¨agare som f¨oredrar schampoo fr˚an tillverkare A respektive B, l˚at n1 och n2 beteckna antalet tillfr˚agade i de b˚ada unders¨okningarna (vi har n1 = 1000 och n2 = 500) och l˚at xA och xB beteckna antalet tillfr˚agade som i unders¨okning 1 f¨oredrog A respektive i unders¨okning 2 f¨oredrog B (vi har xA= 184 och xB = 196).
Vi kan skatta pA och pB med p∗A = XA/n1 respektive p∗B = XB/n2, d¨ar XA och XB ¨ar de stokastiska variabler som xA respektive xB ¨ar observationer av. Som skattning av ∆ kan vi sedan ta ∆∗ = p∗B− 2p∗A. Med de aktuella data f˚ar vi skattningenn196/500 − 2 × 184/1000 = 0.024.
(b) Det ¨ar rimligt att anta att de olika hund¨agare som ingick i undes¨okningarna har ˚asikter som
¨ar oberoende av varandra. Vi f˚ar d˚a XA∈ Bin(n1, pA) och XB ∈ Bin(n2, pB). Eftersom resultaten kommer fr˚an olika unders¨okningar ¨ar XAoch XB oberoende (det hade inte varit fallet om de kom fr˚an en och samma unders¨okning), och d¨arf¨or g¨aller
V (∆∗) = V (XB/n2− 2XA/n1) = V (XB)
n22 + (−2)2V (XA)
n2A = pB(1 − pB)
n2 + 4pA(1 − pA) n1 . (c) Vi kan f˚a en skattning av variansen f¨or ∆∗ genom att ers¨atta pA och pB i ovanst˚aende uttryck med motsvarande skattningar 196/500 = 0.392 och 184/1000 = 0.184. Detta ger variansskatt- ningen 0.00108. Roten ur detta, 0.0328, ¨ar en skattning av standardavvikelsen f¨or ∆∗, dvs det ¨ar medelfelet f¨or denna skattning.
(d) L˚at d(∆∗) beteckna medelfelet f¨or skattningen ∆∗. Under v˚ara f¨oruts¨attningar p˚a n1, n2, pA och pB g¨aller att f¨ordelningarna f¨or b˚ade XA och XB kan approximeras med normalf¨ordelningar.
Eftersom ∆∗ ¨ar en linj¨arkombination av dessa tv˚a oberoende variabler kan ¨aven ∆∗ anses vara approximativt normalf¨ordelad. Denna variabel har v¨antev¨arde ∆ = pB− 2pA, ty E(p∗A) = pA och E(p∗B) = pB (b˚ada skattningarna ¨ar v¨antev¨ardesriktiga). D¨arf¨or g¨aller att (∆∗− ∆)/d(∆∗) ungef¨ar
¨ar f¨ordelad som en N (0, 1)-variabel.
P˚ast˚aendet i kampanjen ¨ar pB > 2pA, dvs ∆ > 0. Vi kontrollerar om det ¨ar rimligt att p˚ast˚a detta genom att testa H0 : ∆ = 0 mot H1 : ∆ > 0. Om H0 ¨ar sann g¨aller s˚aledes att (∆∗− 0)/d(∆∗) = 0.024/0.0328 = 0.73 ¨ar en observation fr˚an N (0, 1). Vi skall f¨orkasta H0 till f¨orm˚an f¨or H1 om detta v¨arde ligger l˚angt ut i h¨ogra svansen p˚a f¨ordelningen N (0, 1), mer precist om det ¨ar st¨orre
¨an t ex 5%-kvantilen λ0.05 = 1.64. Detta ¨ar inte fallet, s˚a det finns inget statistiskt underlag f¨or vad som h¨avdas i kampanjen.
Alternativt kan vi g¨ora ett ned˚at begr¨ansat approximativt 95%-igt konfidensintervall f¨or ∆: [∆∗− λ0.05d(∆∗), ∞) = [−0.030, ∞). Intervallet inneh˚aller talet 0, och d¨arf¨or kan inte H0 f¨orkastas mot H1.