Avd. Matematisk statistik
TENTAMEN I SF1901 SANNOLIKHETSTEORI OCH STATISTIK, TORSDAGEN DEN 5:E APRIL 2018 KL 14.00–19.00.
Examinator: Thomas ¨Onskog, 08 – 790 84 55.
Till˚atna hj¨alpmedel : Formel- och tabellsamling i Matematisk statistik, Mathematics Handbook (Beta), minir¨aknare.
Inf¨orda beteckningar skall f¨orklaras och definieras. Resonemang och utr¨akningar skall vara s˚a utf¨orliga och v¨al motiverade att de ¨ar l¨atta att f¨olja. Numeriska svar skall anges med minst tv˚a siffrors noggrannhet. Tentamen best˚ar av 6 uppgifter. Varje korrekt l¨osning ger 10 po¨ang.
Gr¨ansen f¨or godk¨ant ¨ar prelimin¨art 24 po¨ang. M¨ojlighet att komplettera ges f¨or tentander med, prelimin¨art, 22–23 po¨ang. Tid och plats f¨or komplettering kommer att anges p˚a kursens hemsida.
Det ankommer p˚a dig sj¨alv att ta reda p˚a om du har r¨att att komplettera.
Po¨ang fr˚an kontrollskrivning och laborationer under period 3, VT2018 f˚ar tillgodor¨aknas under f¨oruts¨attning att tentanden erh˚allit minst 20 po¨ang p˚a denna tentamen.
Tentamen kommer att vara r¨attad inom tre arbetsveckor fr˚an skrivningstillf¨allet och kommer att finnas tillg¨anglig p˚a studentexpeditionen minst sju veckor efter skrivningstillf¨allet.
Uppgift 1
a) L˚at A och B vara tv˚a h¨andelser. F¨oljande sannolikheter ¨ar k¨anda:
P (A ∪ B) = 0.92 P (A ∪ B∗) = 0.88 P (A∗∪ B) = 0.68
Avg¨or om h¨andelserna A och B oberoende? Noggrann motivering kr¨avs. (5 p) b) I en k¨and t¨avling m¨ots 18 t¨avlande i en f¨orsta semifinal och 19 andra t¨avlande i en andra semifinal. Fr˚an varje semifinal g˚ar 10 t¨avlande vidare till final. I finalen deltar f¨orutom de 20 som kvalificerat sig fr˚an semifinalerna ¨aven 6 direktkvalificerade t¨avlande. Antag att alla dessa 26 som deltar i finalen ¨ar lika bra i den meningen att deras placering i finalen sker helt slumpvis. Best¨am sannolikheten att minst 2 av de 5 t¨avlande som placerar sig b¨ast i finalen
var direktkvalificerade? (5 p)
Uppgift 2
Arrang¨orerna av en stor skidt¨avling planerar att k¨opa in 35 500 liter bl˚ab¨arssoppa f¨or att kunna servera ˚akarna under loppet. De antar att den volym bl˚ab¨arssoppa som en ˚akare dricker ¨ar obero- ende av hur mycket bl˚ab¨arssoppa de andra ˚akarna dricker och att den m¨angd bl˚ab¨arssoppa som en enskild ˚akare dricker kan beskrivas av en stokastisk variabel X som uppfyller E(X) = 0.7 och D(X) = 0.6.
Ber¨akna med l¨amplig och v¨almotiverad approximation sannolikheten att bl˚ab¨arsoppan r¨acker till de 50 000 ˚akare som f¨orv¨antas genomf¨ora loppet. (10 p)
Var god v¨and!
Uppgift 3
a) I en butiksunders¨okning k¨opte 23 av 200 utvalda kunder minst en vara. L˚at detta vara ett slumpm¨assigt urval ur en mycket stor konsumentpopulation. Best¨am ett 95% konfidensin- tervall f¨or andelen kunder, p, som k¨oper minst en vara i en aff¨ar. (7 p) b) Testa hypotesen p = 0.15 mot hypotesen p 6= 0.15 p˚a signifikansniv˚an 5%. Slutsatsen ska
tydligt framg˚a. (3 p)
Uppgift 4
En glasskiosk p˚a en badstrand h˚aller ¨oppet n¨ar det inte regnar. Antalet kunder som handlar i glasskiosken en godtyckligt vald dag antas vara Po(λt)-f¨ordelat d¨ar λ ¨ar en ok¨and konstant och t
¨ar antalet timmar som det inte regnar den dagen. Nedanst˚aende tabell inneh˚aller antalet regnfria timmar ti och antalet kunder xi samtliga dagar under en godtyckligt vald vecka.
ti 2 8 12 11 7 5 1
xi 10 65 150 135 62 66 0
a) Tag, baserat p˚a observationerna t1, . . . , tnoch x1, . . . , xnfram ett uttryck f¨or ML-skattningen av λ. Ber¨akna ¨aven denna skattning numeriskt med hj¨alp av informationen i tabellen. (4 p) b) Visa att ML-skattningen av λ ¨ar v¨antev¨ardesriktig. (2 p)
c) En annan v¨antev¨ardesriktig skattning av λ ges av λ∗obs = 1
n
n
X
i=1
xi ti.
Visa att f¨or n = 2 s˚a ¨ar variansen av denna skattning alltid st¨orre ¨an eller lika med variansen
av ML-skattningen. (4 p)
Uppgift 5
V¨adret i Skandinavien p˚averkas av vilken bana som l˚agtrycken tar d˚a de r¨or sig ¨osterut ¨over Atlanten. Om l˚agtrycken r¨or sig l¨angs en nordligare bana, s˚a kommer de in ¨over Skandinavien och ger i allm¨anhet upphov till milt och fuktigt v¨ader. Om l˚agtrycken ist¨allet r¨or sig l¨angs en sydligare bana, s˚a kommer de in ¨over den europeiska kontinenten och detta g¨or i allm¨anhet att arktiska luftmassor r¨or sig ned ¨over Skandinavien med kallt och torrt v¨ader h¨ar som f¨ojd. Detta m¨onster ¨ar s¨arskilt tydligt vintertid. L˚agtryckens bana ¨over Atlanten p˚averkas i sin tur av skillnaden i lufttryck mellan Island och Azorerna, n˚agot som kallas f¨or den Nordatlantiska oscillationen (NAO). NAO s¨ags vara i sin positiva fas n¨ar skillnaden i lufttryck ¨ar mindre ¨an normalt och i sin negativa fas n¨ar skillnaden i lufttryck ¨ar st¨orre ¨an normalt.
Medeltemperaturen i Stockholm under mars 2018 var omkring tv˚a grader l¨agre ¨an normalv¨ardet p˚a 0.1◦C. Nedanst˚aende tabell inneh˚aller information om medeltemperaturen T (m¨att i ◦C) i Stockholm under mars m˚anad ˚aren 1900 − 2016 och information om vilken NAO-fas som varit f¨orh¨arskande motsvarande m˚anad.
forts tentamen i SF1901 2018-04-05 3 T < −2 −2 ≤ T < 0 0 ≤ T < 2 T ≥ 2
Positiv NAO-fas 2 14 26 25
Negativ NAO-fas 22 18 8 2
Testa p˚a signifikansniv˚an 0.1% hypotesen att T ¨ar oberoende av NAO-fasen. (10 p) Uppgift 6
Medeltemperaturen (m¨att i ◦C) i Stockholm under en marsm˚anad kan antas ges av en N (θ, 2.5)- f¨ordelad stokastisk variabel. Vi vill best¨amma θ och m¨ater d¨arf¨or medeltemperaturen t1, ..., tn i Stockholm under n p˚a varandra f¨oljande marsm˚anader.
a) Utforma ett statistiskt test p˚a signifikansniv˚an 5% f¨or att testa om θ ¨ar signifikant st¨orre
¨an v¨ardet θ = 0.1◦C (som angavs i uppgift 5). Ange noga noll- och mothypoteserna samt kriterier f¨or n¨ar nollhypotesen ska f¨orkastas. (5 p) b) Under hur m˚anga marsm˚anader beh¨over vi m¨ata medeltemperaturen f¨or att testets styrka ska vara 90% om det sanna v¨ardet ¨ar θ = 2◦C. (5 p)
Lycka till!
L ¨OSNINGSF ¨ORSLAG TENTAMEN I SF1901 SANNOLIKHETSTEORI OCH STATISTIK.
TORSDAGEN DEN 5 APRIL 2018 KL 14.00–19.00 Uppgift 1
a) H¨andelserna A och B ¨ar oberoende om P (A ∩ B) = P (A)P (B). Vi har att P (A ∪ B∗) = 1 − P (A∗∩ B) och P (A∗∪ B) = 1 − P (A ∩ B∗).
och f˚ar
P (A ∩ B) = P (A ∪ B) − P (A ∩ B∗) − P (A∗∩ B) = 0.92 − (1 − 0.68) − (1 − 0.88) = 0.48.
Vidare g¨aller det att
P (A) = P (A ∪ B) − P (A∗∩ B) = 0.92 − (1 − 0.88) = 0.8, samt
P (B) = P (A ∪ B) − P (A ∩ B∗) = 0.92 − (1 − 0.68) = 0.6.
Detta ger P (A)P (B) = 0.8 · 0.6 = 0.48 = P (A ∩ B).
Svar: A och B ¨ar oberoende h¨andelser.
b) L˚at X vara antalet direktkvalificerade t¨avlande som hamnar bland de 5 b¨asta. D˚a har vi att X ∈ Hyp(N, n, p), d¨ar N = 26, n = 5 och p = 6/26. Den s¨okta sannolikheten blir d¨armed
P (X ≥ 2) = 1 − P (X ≤ 1) = 1 −
6 0
20
5 + 61 20
4
26 5
= 0.3224
Svar: Sannolikheten att minst 2 av de 5 b¨asta var direktkvalificerade ¨ar 0.3224.
Uppgift 2
L˚at Xivara m¨angden bl˚ab¨arssoppa som ˚akare nr i dricker. D˚a ¨ar Y =P50000
i=1 Xi den m¨angd soppa som beh¨ovs. Vi har
E(Y ) =
50000
X
i=1
E(Xi) = 50000 · 0.7 = 35000 och
V (Y ) =
50000
X
i=1
V (Xi) = 50000 · 0.62 = 18000 vilket ger D(Y ) =√ 18000.
forts tentamen i SF1901 2018-04-05 2
D˚a 50000 ¨ar ett mycket stort antal och de stokastiska variablerna Xi¨ar oberoende och likaf¨ordelade, s˚a kan vi till¨ampa CGS p˚a Y och det f¨oljer att Y ¨ar approximativt N (35000,√
18000)-f¨ordelat.
Detta ger
P (soppan r¨acker) = P (Y ≤ 35500) = P Y − 35000
√18000 ≤ 35500 − 35000
√18000
= P Y − 35000
√18000 ≤ 3.727
≈ Φ(3.727) = 0.99990.
Svar: Sannolikheten att bl˚ab¨arssoppan r¨acker ¨ar 99.990%.
Uppgift 3
a) Vi antar att varje kund har samma sannolikhet p att handla minst en vara. D˚a g¨aller att anta- let unders¨okta kunder X som handlar minst en vara uppfyller X ∈ Bin(n, p) = Bin(200, p) i v˚art fall. En punktskattning av sannolikheten p ges nu av
p∗obs = x n = 23
200 = 0.115.
Vi vill nu ta fram ett approximativt konfidensintervall f¨or p och f¨or att vi ska kunna anv¨anda normalapproximation kr¨avs att n · p∗obs · (1 − p∗obs) ≥ 10. Eftersom p∗obs = 0.115 och n = 200 s˚a g¨aller det att
np∗obs(1 − p∗obs) = 200 · 23 200 ·177
200 = 20.355 > 10, varf¨or normalapproximationen till binomialf¨ordelningen ¨ar till˚aten.
Vi bildar nu ett konfidensintervall f¨or p.
Ip = p∗obs±
rp∗obs(1 − p∗obs) n · λα
2 = 0.115 ±
r0.115 · 0.885
200 · λ0.025
= 0.115 ±
r0.115 · 0.885
200 · 1.96 = 0.115 ± 0.044 = (0.071, 0.159) Svar: Ett approximativt konfidensintervall f¨or p med konfidensgrad 95% ges av
Ip = (0.071, 0.159).
b) Vi ska nu testa nollhypotesen H0 : p = 0.15 mot mothypotesen H1 : p 6= 0.15 p˚a (approxi- mativa) riskniv˚an 5%. Vi ser att
0.15 ∈ Ip = (0.071, 0.159) ,
och eftersom intervallet inneh˚aller p = 0.15, s˚a f¨orkastar vi ej H0 p˚a den approximativa niv˚an 5%.
Svar: Vi kan p˚a niv˚an 5% ej f¨orkasta hypotesen att sannolikheten att en kund handlar minst en vara ¨ar p = 0.15.
Uppgift 4
a) ML-skattningen av λ ¨ar det v¨arde som maximerar likelihoodfunktionen L(λ) = fX1(x1) · · · fXn(xn) = (λt1)x1
x1! e−λt1· · ·(λtn)xn xn! e−λtn. Det v¨arde p˚a λ som maximerar L(λ) maximerar ¨aven
ln(L(λ)) = ln(λt1)x1
x1! e−λt1· · ·(λtn)xn
xn! e−λtn
=
n
X
i=1
(xiln(λ) + xiln(ti) − ln(xi!) − λti).
Derivering med avseende p˚a θ ger 0 = d
dθ ln(L(θ)) = 1 λ
n
X
i=1
xi−
n
X
i=1
ti,
s˚a likelihoodfunktionen maximeras av λ = Pn
i=1xi/Pn
i=1ti. F¨or de sju observationerna (x1, ..., xn) = (10, 65, 150, 135, 62, 66, 0) och (t1, ...tn) = (2, 8, 12, 11, 7, 5, 1) f˚as skattningen
λ∗obs = (10 + 65 + 150 + 135 + 62 + 66 + 0)/(2 + 8 + 12 + 11 + 7 + 5 + 1) = 10.61.
Svar: ML-skattningen ges av λ∗obs =Pn
i=1xi/Pn
i=1ti = 10.61.
b) Stickprovsvariabeln f¨or ML-skattningen ges av λ∗ =
Pn i=1Xi Pn
i=1ti
d¨ar Xi ¨ar Poissonf¨ordelade s.v. med v¨antev¨arde λti. Allts˚a ¨ar E (λ∗) = E
Pn i=1Xi Pn
i=1ti
= 1
Pn i=1ti
n
X
i=1
E (Xi) = 1 Pn
i=1ti
n
X
i=1
λti = λ,
och skattningen λ∗obs ¨ar v¨antev¨ardesriktig.
Svar: ML-skattningen av θ ¨ar v¨antev¨ardesriktig.
c) Variansen f¨or ML-skattningen ges av V
Pn i=1Xi Pn
i=1ti
= V (Pn i=1Xi) (Pn
i=1ti)2 = Pn
i=1V (Xi) (Pn
i=1ti)2 = Pn
i=1λti (Pn
i=1ti)2 = λ Pn
i=1ti, och variansen f¨or den andra skattningen ges av
V 1
n
n
X
i=1
Xi ti
!
= 1
n2V
n
X
i=1
Xi ti
!
= 1 n2
n
X
i=1
V Xi ti
= 1 n2
n
X
i=1
1
t2iV (Xi) = 1 n2
n
X
i=1
1 t2iλti
= λ
n2
n
X
i=1
1 ti
,
forts tentamen i SF1901 2018-04-05 4
Antag nu att n = 2 och s¨att t1 = αt samt t2 = (1 − α)t, f¨or ett godtyckligt tal α ∈ [0, 1], s˚a att t1 + t2 = t. D˚a blir variansen f¨or ML-skattningen λ/t och variansen f¨or den andra skattningen
λ 22
1
αt+ 1 (1 − α)t
= λ
4α(1 − α)t.
Funktionen f (α) = 4α(1 − α) maximeras p˚a intervallet α ∈ [0, 1] av α = 0.5 och antar d¨ar v¨ardet f (0.5) = 1. D¨armed uppfyller variansen f¨or den andra skattningen
λ 4α(1 − α)
| {z }
≤1
t ≥ λ
t = variansen f¨or ML-skattningen,
vilket skulle bevisas.
Uppgift 5
Vi g¨or h¨ar ett test av oberoende. Som nollhypotes H0 v¨aljer vi att medeltemperaturen i Stockholm i mars ¨ar oberoende av NAO-fasen, medan mothypotesen H1 ¨ar att medeltemperaturen och NAO- fasen ¨ar beroende. Vi g¨or h¨ar en tabell med observerade antal enligt
T < −2 −2 ≤ T < 0 0 ≤ T < 2 T ≥ 2
Positiv NAO-fas 2 14 26 25
Negativ NAO-fas 22 18 8 2
L˚at xij beteckna antalet marsm˚anader som faller inom kategori i g¨allande NAO-fas och inom kategori j g¨allande medeltemperaturen. L˚at vidare ni beteckna det totala antalet marsm˚anader som faller inom kategori i g¨allande NAO-fas och l˚at mj beteckna det totala antalet marsm˚anader som faller inom kategori j g¨allande medeltemperatur. Om vi l˚ater N beteckna det totala antalet unders¨okta ˚ar, s˚a blir teststorheten
Q =
2
X
i=1 4
X
j=1
(xij − niNmj)2
nimj
N
= (2 − 67·24117 )2
67·24 117
+(14 − 67·32117 )2
67·32 117
+(26 − 67·34117 )2
67·34 117
+(25 − 67·27117 )2
67·27 117
+ (22 − 50·24117 )2
50·24 117
+(18 − 50·32117 )2
50·32 117
+(8 − 50·34117 )2
50·34 117
+(2 − 50·27117 )2
50·27 117
= 44.76.
Om H0¨ar sann s˚a ¨ar 44.76 ett utfall av en stokastisk variabel som ¨ar approximativt χ2-f¨ordelad med (2 − 1)(4 − 1) = 3 frihetsgrader. Approximationen ¨ar applicerbar eftersom nimj/N ≥ 50 · 24/117 = 10.26 > 5. Eftersom χ20.001(3) = 16.3 < 44.76, s˚a kan H0 f¨orkastas p˚a signifikansniv˚an 0.1%. Vi drar f¨oljande slutsats.
Svar: P˚a signifikansniv˚an 0.1% finns ett beroende mellan medeltemperaturen i Stockholm i mars och NAO-fasen.
Uppgift 6
a) Antag att vi m¨ater medeltemperaturen under n stycken marsm˚anader. De uppm¨atta tem- peraturerna t1, . . . , tn ¨ar enligt problemformuleringen observationer av N (θ, 2.5)-f¨ordelade stokastiska variabler T1, . . . , Tn. D˚a vi vill unders¨oka om medeltemperaturen ¨ar signifikant st¨orre ¨an θ = 0.1◦C, s˚a v¨aljer vi att testa
H0 : θ = 0.1 mot H1 : θ > 0.1.
Under H0 ¨ar stickprovsmedelv¨ardet T f¨ordelat enligt N (0.1, 2.5/√
n), och vi f¨orkastar d¨arf¨or H0 till f¨orm˚an f¨or H1 p˚a signifikansniv˚an 5% om
t − 0.1 2.5/√
n > λ0.05 ⇔ t > 0.1 + λ0.052.5
√n.
Detta kritiska omr˚ade bildar, tillsammans med de b˚ada hypoteserna ovan, svar p˚a a).
b) Testets styrka f¨or θ = 2◦C ber¨aknas enligt h(2) = P (H0f¨orkastas
θ = 2 ¨ar det r¨atta parameterv¨ardet)
= P
T > 0.1 + λ0.052.5
√n θ = 2
= P
T − 2 > −1.9 + λ0.052.5
√n θ = 2
= P
T − 2 2.5/√
n > −1.9
√n
2.5 + λ0.05 θ = 2
= 1 − Φ
−1.9
√n
2.5 + λ0.05
, eftersom (T − 2)/(2.5/√
n) ¨ar standardiserat normalf¨ordelat om θ = 2 ¨ar r¨att parame- terv¨arde. Enligt problemformuleringen ska det g¨alla att h(2) = 0.9, d.v.s. Φ(−1.9√
n/2.5 + λ0.05) = 0.1, vilket, p˚a grund av symmetrin hos den standardiserade normalf¨ordelningen, betyder att
−1.9√
n/2.5 + λ0.05 = −λ0.1 ⇔ n = 2.5 1.9
2
(λ0.05+ λ0.1)2
≈ 2.5 1.9
2
(1.6446 + 1.2816)2 ≈ 14.82,
d¨ar vi erh˚all de tv˚a kvantilerna ur tabell. Vi avrundar upp˚at och konstaterar att vi b¨or m¨ata medeltemperaturer under femton ˚ars tid.
Svar: Vi b¨or m¨ata medeltemperaturen under 15 marsm˚anader.