Avd. Matematisk statistik
TENTAMEN I SF1901 SANNOLIKHETSTEORI OCH STATISTIK, M˚ANDAGEN DEN 8:E JANUARI 2018 KL 14.00–19.00.
Examinator: Thomas ¨Onskog, 08 – 790 84 55.
Till˚atna hj¨alpmedel : Formel- och tabellsamling i Matematisk statistik, Mathematics Handbook (Beta), minir¨aknare.
Inf¨orda beteckningar skall f¨orklaras och definieras. Resonemang och utr¨akningar skall vara s˚a utf¨orliga och v¨al motiverade att de ¨ar l¨atta att f¨olja. Numeriska svar skall anges med minst tv˚a siffrors noggrannhet. Tentamen best˚ar av 6 uppgifter. Varje korrekt l¨osning ger 10 po¨ang.
Gr¨ansen f¨or godk¨ant ¨ar prelimin¨art 24 po¨ang. M¨ojlighet att komplettera ges f¨or tentander med, prelimin¨art, 22–23 po¨ang. Tid och plats f¨or komplettering kommer att anges p˚a kursens hemsida.
Det ankommer p˚a dig sj¨alv att ta reda p˚a om du har r¨att att komplettera.
Po¨ang fr˚an kontrollskrivning och laborationer under innevarande kursomg˚ang (period 2, HT2017) f˚ar tillgodor¨aknas under f¨oruts¨attning att tentanden erh˚allit minst 20 po¨ang p˚a denna tentamen.
Tentamen kommer att vara r¨attad inom tre arbetsveckor fr˚an skrivningstillf¨allet och kommer att finnas tillg¨anglig p˚a studentexpeditionen minst sju veckor efter skrivningstillf¨allet.
Uppgift 1
P˚a en viss arbetsplats anv¨ands drogtester f¨or arbetss¨okande. Antag att det anv¨anda drogtestet vi- sar positivt med 98 procents sannolikhet f¨or en droganv¨andare, men att drogtestet med 1 procents sannolikhet visar positivt ¨aven f¨or en person som inte anv¨ander droger. Att testet visar positivt betyder att testet indikerar att personen anv¨ander droger. Om 10% av alla som s¨oker arbete p˚a arbetsplatsen anv¨ander droger, vad ¨ar d˚a sannolikheten att en arbetss¨okande som testat positivt
inte anv¨ander droger? (10 p)
Uppgift 2
Golftermen hole-in-one inneb¨ar att bollen g˚ar i h˚alet p˚a f¨orsta slaget fr˚an utslagsplatsen. Hole- in-one ¨ar mycket s¨allsynt och intr¨affar i regel endast p˚a s.k. par 3-h˚al, f¨or vilka avst˚andet mellan utslagsplatsen och h˚alet ¨ar kort. Enligt Deutsche Golf Verband ¨ar sannolikheten att sl˚a en hole-in- one p˚a ett par 3-h˚al 1/10150. Med en fyrboll menas en grupp p˚a fyra spelare som g˚ar en golfrunda tillsammans. Under ett tr¨aningsl¨ager f¨or svenska seniorlandslaget i golf intr¨affade nyligen den mycket s¨allsynta h¨andelsen att tv˚a spelare, som spelade i samma fyrboll, lyckades med att sl˚a hole-in-one p˚a samma par 3-h˚al! L˚at X beteckna antalet par 3-h˚al en given fyrboll beh¨over spela innan minst tv˚a spelare i gruppen lyckas med att sl˚a hole-in-one p˚a samma par 3-h˚al. Best¨am E(X). Spelare antas sl˚a hole-in-one oberoende av varandra. (10 p)
Var god v¨and!
Uppgift 3
Antalet uppdrag X1, X2 respektive X3, som tre kunder ger ett dataf¨oretag under en m˚anad ¨ar oberoende stokastiska variabler, d¨ar X1 ∈ Po(µ1), X2 ∈ Po(µ2) och X3 ∈ Po(µ3).
a) Antag nu att µ1 = 24, µ2 = 9 och µ3 = 12. Best¨am en approximation av sannolikheten att den f¨orsta kunden ger fler uppdrag ¨an de tv˚a sista kunderna tillsammans. Alla approxima-
tioner som utnyttjas skall naturligtvis motiveras. (5 p)
b) Antag nu att µ1, µ2 och µ3 ¨ar ok¨anda. Best¨am, baserat p˚a observationerna x1 = 25, x2 = 10 och x3 = 12, ett konfidensintervall f¨or µ1 − (µ2 + µ3) med approximativ konfidensgrad
95%. (5 p)
Uppgift 4
I samband med en trafikoml¨aggning ville man unders¨oka f¨or¨andringen i restid till arbetet. Man bad d¨arf¨or 12 personer registrera sina restider, m¨atta i minuter, dels en viss dag f¨ore oml¨aggningen, dels en viss dag efter oml¨aggningen. Resultatet blev:
Person nr 1 2 3 4 5 6 7 8 9 10 11 12
F¨ore 20 25 26 22 24 48 52 27 18 12 28 31 Efter 18 23 26 18 26 44 51 26 22 11 29 31
Antag att observationerna ¨ar oberoende och antag att tidsskillnaderna beskrivs av samma nor- malf¨ordelning f¨or alla personer.
a) Best¨am ett 95% konfidensintervall f¨or den genomsnittliga tidsvinsten ∆. (7 p) b) V¨agverket hade som prognos att oml¨aggningen skulle minska den genomsnittliga restiden
med 3 minuter. Utf¨or d¨arf¨or ett statistiskt test p˚a niv˚an 5% av hypotesen H0 : ∆ = 3 min,
mot
H1 : ∆ 6= 3 min.
Det skall klart framg˚a om hypotesen H0 f¨orkastas eller ej. (3 p)
Uppgift 5
En aktiem¨aklare har tillg˚ang till historisk data i form av 623 (logaritmiska) veckoavkastningar f¨or en viss aktie och vill unders¨oka f¨ordelningen hos dessa. Mer specifikt ¨ar aktiem¨aklaren intresserad av att veta om avkastningarna ¨ar N (0, σ)-f¨ordelade, d¨ar σ ¨ar ok¨and, och klassificerar d¨arf¨or de historiska avkastningarna med avseende p˚a vilket intervall de faller inom. F¨oljande f¨oljande tabell erh˚alls:
Intervall (−∞, −2] (−2, 0] (0, 2] (2, ∞)
Antal 56 260 269 38
forts tentamen i SF1901 2018-01-08 3
Med andra ord s˚a ¨ar 56 avkastningar mindre ¨an −2, 260 avkastningar faller inom intervallet (−2, 0], osv. Dessutom skattas standardavvikelsen f¨or avkastningarna till s = 1.50. Testa, p˚a niv˚an 5%, hypotesen att avkastningarna, vilka kan antas vara oberoende, ¨ar normalf¨ordelade. (10 p)
Uppgift 6
Antag att arean av en cirkel ges av en Exp(1/θ)-f¨ordelad stokastisk variabel X. T¨athetsfunktionen f¨or X ¨ar s˚aledes
fX(t) = 1
θe−t/θ, t ≥ 0
d¨ar θ > 0 ¨ar v¨antev¨ardet, θ = E(X). F¨or att skatta arean θ g¨ors upprepade best¨amningar av cirkelns radie y1, . . . , yn. Dessa modelleras som utfall av oberoende och likaf¨ordelade stokastiska variabler. F¨orh˚allandet mellan area och radie ¨ar X = πY2.
a) Visa att t¨athetsfunktionen f¨or Y ¨ar
fY(t) = 2πt
θ e−πt2/θ, t ≥ 0.
(4 p) b) Tag, baserat p˚a observationerna y1, . . . , yn, fram ett uttryck f¨or ML-skattningen av θ. Ber¨akna
¨
aven denna numeriskt d˚a y1 = 0.20, y2 = 0.25 och y3 = 0.18 cm. (4 p)
c) ¨Ar ML-skattningen av θ v¨antev¨ardesriktig? (2 p)
Lycka till!
L ¨OSNINGSF ¨ORSLAG TENTAMEN I SF1901 SANNOLIKHETSTEORI OCH STATISTIK.
M˚ANDAGEN DEN 8 JANUARI 2018 KL 14.00–19.00 Uppgift 1
L˚at D beteckna h¨andelsen att en arbetss¨okande anv¨ander droger och T h¨andelsen att testet visar positivt (dvs. indikerar att personen anv¨ander droger). Det ¨ar givet att P (D) = 0.1, att P (T |D) = 0.98 samt att P (T |D∗) = 0.01. Vi s¨oker sannolikheten att en arbetss¨okande inte anv¨ander droger givet att hen har testat positivt, dvs. P (D∗|T ). Med Bayes’ sats f˚as
P (D∗|T ) = P (T |D∗)P (D∗) P (T )
= P (T |D∗)P (D∗)
P (T |D)P (D) + P (T |D∗)P (D∗)
= 0.01 · 0.9 0.98 · 0.1 + 0.01 · 0.9
= 0.0841
Svar: Sannolikheten att en arbetss¨okande som testar positivt inte anv¨ander droger ¨ar 8.41%.
Uppgift 2
L˚at p = 1/10150 beteckna sannolikheten att en spelare lyckas sl˚a hole-in-one. D˚a spelare antas sl˚a hole-in-one oberoende av varandra ¨ar antalet spelare Y i en given fyrboll (som best˚ar av fyra personer) som sl˚ar hole-in-one vid ett givet h˚al binomialf¨ordelat; mer specifikt g¨aller att
Y ∈ Bin(4, p).
S˚alunda ges, med hj¨alp av binomialf¨ordelningens sannolikhetsfunktion, sannolikheten ˜p att minst tv˚a spelare i gruppen lyckas att sl˚a hole-in-one av
˜
p = P (Y ≥ 2) = 1 − P (Y ≤ 1) = 1 − P (Y = 0) − P (Y = 1)
= 1 −4 0
p0(1 − p)4−4 1
p1(1 − p)3 = 1 − (1 − p)4− 4p(1 − p)3
= [s¨att in p = 1/10150] ≈ 5.82 · 10−8.
L˚at nu X beteckna antalet par 3-h˚al en given fyrboll beh¨over spela innan minst tv˚a spelare i gruppen lyckas med att sl˚a hole-in-one p˚a samma par 3-h˚al. D˚a g¨aller att
X ∈ ffg(˜p), och s˚alunda, enligt avsnitt 3 i formelsamlingen, att
E(X) = 1
˜
p = 1
5.82 · 10−8 ≈ 1.72 · 107.
forts tentamen i SF1901 2018-01-08 2
Svar: Det f¨orv¨antade antalet spelade h˚al ¨ar 1.72 · 107. Uppgift 3 a) Vi vill best¨amma sannolikheten
P (X1 > X2+ X3) = P (X1− (X2+ X3) > 0).
Eftersom summan av tv˚a oberoende Poissonf¨ordelade s.v. ¨ar Poissonf¨ordelad, s˚a g¨aller det att X2+ X3 ∈ Po(9 + 12) = Po(21). Eftersom koefficienten 21 ¨ar st¨orre ¨an 15, s˚a g¨aller det approximativt att X2 + X3 ∈ N(21,√
21). P˚a samma s¨att ¨ar X1 ∈ Po(24) ≈ N(24,√ 24).
Eftersom linj¨arkombinationer av normalf¨ordelade s.v. ¨ar normalf¨ordelade, s˚a g¨aller approx- imativt att
X1− (X2 + X3) ∈ N(24 − 21,√
24 + 21) = N(3,√ 45).
Den s¨okta sannolikheten blir d¨armed approximativt P (X1 > X2+ X3) = PX1− (X2+ X3) − 3
√45 > 0 − 3
√45
≈ 1 − Φ
− 3
√45
= Φ
1
√5
= 0.673.
Svar: Sannolikheten att den f¨orsta kunden ger fler uppdrag ¨an de tv˚a sista kunderna tillsammans ¨ar approximativt 67.3%.
b) En punktskattning f¨or θ = µ1− (µ2+ µ3) ges av
θ∗obs = x1− (x2+ x3) = 25 − (10 + 12) = 3.
Den motsvarande stickprovsvariabeln, θ∗ = X1−(X2+X3), ¨ar approximativt normalf¨ordelad eftersom µ2 + µ3 skattas med x2+ x3 = 22 > 15 och µ1 skattas med x1 = 25 > 15. Allts˚a
¨ar θ∗ approximativt N(θ,√
µ1+ µ2+ µ3)-f¨ordelad. Standardavvikelsen f¨or stickprovsvaria- beln beror av de ok¨anda parametrarna µ1, µ2 och µ3 och kan skattas av medelfelet d =
√x1+ x2+ x3. Ett konfidensintervall f¨or θ med approximativ konfidensgrad 95% ges av Iθ = (x1− (x2+ x3) − λ0.025√
x1+ x2+ x3, x1− (x2+ x3) + λ0.025√
x1+ x2+ x3)
= (3 − 1.96 ·√
47, 3 + 1.96 ·√
47) = (3 − 13.4, 3 + 13.4).
Svar: Ett konfidensintervall f¨or µ1− (µ2+ µ3) med approximativ konfidensgrad 95% ges av Iµ1−(µ2+µ3)= (−10.4, 16.4).
Uppgift 4
a) Uppgiften handlar om j¨amf¨orelse av v¨antev¨arden med stickprov i par.
Person nr 1 2 3 4 5 6 7 8 9 10 11 12
F¨ore 20 25 26 22 24 48 52 27 18 12 28 31
Efter 18 23 26 18 26 44 51 26 22 11 29 31
zi = F¨ore − Efter 2 2 0 4 -2 4 1 1 -4 1 -1 0
Vi betraktar zi, i = 1, . . . , 12, som utfall av oberoende N(∆, σ)-f¨ordelade stokastiska variab- ler. ∆ skattas med z = 8/12 = 0.67 som ¨ar ett utfall av en N(∆, σ/√
n)-f¨ordelad stokastisk variabel Z, d¨ar σ ¨ar ok¨ant. Om vi skattar σ med medelfelet sz =q
1 n−1
Pn
i=1(zi− z)2 = 2.31, s˚a f˚as konfidensintervallet
I∆ =
z − t0.025(n − 1) sz
√n, z − t0.025(n − 1) sz
√n
=
0.67 − 2.202.31
√12, 0.67 + 2.202.31
√12
= (0.67 − 1.47, 0.67 + 1.47) = (−0.80, 2.13).
Svar: Ett konfidensintervall f¨or ∆ med konfidensgrad 95% ges av I∆= (−0.80, 2.13).
b) Eftersom ∆ = 3 inte ligger i det framtagna konfidensintervallet f¨or ∆, s˚a f¨orkastas nollhy- potesen p˚a signifikansniv˚an 5%.
Svar: Nollhypotesen f¨orkastas p˚a signifikansniv˚an 5%.
Uppgift 5
Vi anv¨ander oss av χ2-metoden f¨or test av given f¨ordelning (se formelsamlingen, avsnitt 14.3). En- ligt lydelsen klassificeras var och en av de n = 623 avkastningarna, vilka vi betecknar y1, . . . , y623, med avseende p˚a indelningen
A1 : y ∈ (−∞, −2], A2 : y ∈ (−2, 0], A3 : y ∈ (0, 2], A4 : y ∈ (2, ∞).
Vi har allts˚a att g¨ora med r = 4 olika utfall i detta fall. D˚a vi vill testa huruvida avkastningar- na ¨ar N (0, σ)-normalf¨ordelade r¨aknar vi f¨orst ut sannolikheterna p1, . . . , p4 f¨or de olika utfallen A1, . . . , A4 under antagandet att varje avkastning Y ¨ar N (0, σ)-f¨ordelad. Under detta antagande
¨ar Y /σ standardiserat normalf¨ordelad, vilket ger p1 = P (A1) = P (Y ≤ −2) = P Y
σ ≤ −2 σ
= Φ
−2 σ
,
d¨ar Φ ¨ar standardnormalf¨ordelningens f¨ordelningsfunktion. D˚a dessutom N (0, σ)-f¨ordelningen ¨ar symmetrisk och kontinuerlig g¨aller det att
p4 = P (A4) = P (Y > 2) = P (Y < −2) = P (Y ≤ −2) = p1 = Φ
−2 σ
. Vidare g¨aller
p2 = P (A2) = P (−2 < Y ≤ 0) = P (Y ≤ 0) − P (Y ≤ −2) = 1
2− p1 = 1 2 − Φ
−2 σ
och p3 = p2. Nollhypotesen att avkastningarna ¨ar N (0, σ)-f¨ordelade kan s˚alunda uttryckas som H0 : p1 = p4 = Φ
−2 σ
, p2 = p3 = 1 2− Φ
−2 σ
.
forts tentamen i SF1901 2018-01-08 4
Standardavvikelsen σ ¨ar ok¨and men enligt lydelsen skattad till σobs∗ = s = 1.50, vilket ger oss approximationen
p1 ≈ p1(s) = Φ
−2 s
= Φ
− 2 1.50
= 1 − Φ
2 1.50
≈ 1 − 0.9082 = 0.0912,
d¨ar v¨ardet 0.9082 erh¨olls ur tabell (Matlab ger p1(s) = 0.0918). Vidare erh˚alls skattningarna p2(s) = 0.5 − p1(s) = 0.5 − 0.0912 = 0.4088,
p3(s) = p2(s) = 0.4088, p4(s) = p1(s) = 0.0912
av p2, p3 respektive p4. L˚at nu xj beteckna antalet avkastningar (av de n = 623) som klassificeras som Aj, j = 1, . . . , 4. D˚a npj(s) ≥ 5 f¨or alla j kan, under H0, teststorheten
Qobs =
4
X
j=1
(xj− npj(s))2 npj(s)
= (56 − 623 · 0.0912)2
623 · 0.0912 + (260 − 623 · 0.4088)2 623 · 0.4088 +(269 − 623 · 0.4088)2
623 · 0.4088 +(38 − 623 · 0.0912)2
623 · 0.0912 ≈ 7.16
s¨agas vara en observation av en approximativt χ2-f¨ordelad stokastisk variabel med r − k − 1 = 4 − 1 − 1 = 2 frihetsgrader, d¨ar k = 1 ¨ar antalet skattade parametrar (i v˚art fall σ). D˚a
Qobs > χ20.05(2) = 5.99,
d¨ar v¨ardet av kvantilen χ20.05(2) erh¨olls ur tabell, kan H0 f¨orkastas p˚a (den approximativa) niv˚an 5%.
Svar: Hypotesen att avkastningarna ¨ar N (0, σ)-f¨ordelade kan f¨orkastas p˚a niv˚an 5%.
Uppgift 6
a) F¨ordelningsfunktionen f¨or Y =pX/π kan uttryckas FY(t) = P (Y ≤ t) = P (p
X/π ≤ t) = P (X ≤ πt2) = FX(πt2), s˚a t¨athetsfunktionen f¨or Y ges av
fY(t) = d
dtFY(t) = d
dtFX(πt2) = fX(πt2)2πt = 2πt
θ e−πt2/θ, f¨or t ≥ 0, vilket skulle bevisas.
b) ML-skattningen av θ ¨ar det v¨arde som maximerar likelihoodfunktionen L(θ) = fY1(y1) · · · fYn(yn) = 2πy1
θ e−πy12/θ· · ·2πyn
θ e−πy2n/θ = (2π)n(y1· · · yn)
θn e−πθPni=1y2i.
Det v¨arde p˚a θ som maximerar L(θ) maximerar ¨aven
ln(L(θ)) = ln
(2π)n(y1· · · yn)
θn e−πθPni=1yi2
= n ln(2π) + ln(y1· · · yn) − n ln(θ) − π θ
n
X
i=1
y2i.
Derivering med avseende p˚a θ ger
0 = d
dθ ln(L(θ)) = −n θ + π
θ2
n
X
i=1
y2i = −n θ2
"
θ − π n
n
X
i=1
y2i
# ,
s˚a likelihoodfunktionen maximeras av θ = πnPn
i=1yi2. F¨or de tre observationerna y1 = 0.20, y2 = 0.25 och y3 = 0.18 f˚as skattningen
θ∗obs = π
3(0.202+ 0.252+ 0.182) = 0.14 cm2. Svar: ML-skattningen ges av θ∗obs = π
n
n
P
i=1
yi2 = 0.14 cm2. c) Stickprovsvariabeln f¨or ML-skattningen uppfyller
θ∗ = π n
n
X
i=1
Yi2 = 1 n
n
X
i=1
Xi = X
d¨ar X1, . . . , Xn ¨ar exponentialf¨ordelade s.v. med v¨antev¨arde θ. Allts˚a ¨ar E (θ∗) = E(X) = E(Xi) = θ och skattningen θobs∗ ¨ar v¨antev¨ardesriktig.
Svar: ML-skattningen av θ ¨ar v¨antev¨ardesriktig.