Matematisk statistik L ¨OSNINGAR TILLTentamen: 2016–01–14 kl 1400–1900 Matematikcentrum FMS 012 — Matematisk statistik AK f¨or CDI, Pi, F, 9 hp Lunds universitet MAS B03 — Matematisk statistik AK f¨or fysiker, 9 hp 1. (a) Eftersom de fyra kategorierna ¨ar disjunkta g¨alller att P(J) + P(C) + P(S) + P( ¨O) = 1, dvs
P( ¨O) = 1 − 0.3 − 0.1 − 0.2 = 0.4 = 40 %.
(b) Enligt satsen om total sannolikhet f˚ar vi att sannolikheten f¨or hj¨artk¨arlsjukdom, H, blir P(H) = P(H ∣ J) ⋅ P(J) + P(H ∣ C) ⋅ P(C) + P(H ∣ S) ⋅ P(S) + P(H ∣ ¨O) ⋅ P( ¨O)
=0.04 ⋅ 0.3 + 0.06 ⋅ 0.1 + 0.04 ⋅ 0.2 + 0.11 ⋅ 0.4 = 0.07 = 7 %.
(c) Enligt Bayes sats g¨aller att
P( ¨O ∣ H) = P(H ∣ ¨O) ⋅ P( ¨O)
P(H) = 0.11 ⋅ 0.4
0.07 = 0.044
0.07 =0.629 = 62.9 %.
2. (a) Vi har att
P(1 < X < 2) =
∫ 2 1
fX(x) dx =
∫ 2 1
e−xdx =[−e−x]2
1 =e−1− e−2 =0.2325.
(b) EftersomX och Y ¨ar oberoende g¨aller att den simultana t¨athetsfunktionen blir fX ,Y(x, y) = fX(x) ⋅ fY(y) = { e−x, x ≥ 1, 0 ≤y ≤ 1,
0 f.¨o.
och sannolikheten f˚as som P(1 < X + Y < 2) =
∫ ∫
A
fX ,Y(x, y) dxdy =
∫ ∫
A
e−xdxdy
d¨ar integrationsomr˚adetA = {x ≥ 0, 0 ≤ y ≤ 1, 1 < x + y < 2} ges av figuren:
-x
6
y 1
0
@
@
@
@
@
1 0
@
@
@
@
@
2 A
Det ¨ar enklast att b¨orja med att integrera ¨overx:
P(1 < X + Y < 2) =
∫ ∫
A
e−xdxdy =
∫ 1 y=0
(∫ 2−y x=1−y
e−xdx )
dy
=
∫ 1 0
[−e−x]2−y 1−y dy =
∫ 1 0
(e−(1−y)− e−(2−y))dy =
∫ 1 0
(ey−1− ey−2)dy
=[ey−1− ey−2]1
0 =e1−1− e1−2− (e0−1− e0−2) = 1 − 2e−1+e−2 =0.3996.
Alt: Man kan ocks˚a b¨orja med y men det ¨ar jobbigare:
P(1 < X + Y < 2) =
∫ 1 x=0
e−x (∫ 1
y=1−x
1dy )
dx +
∫ 2 x=1
e−x
(∫ 2−x y=0
1dy )
dx
Alt. Eller via faltningsformeln f¨or Z = X + Y : fZ(z) =∫∞
−∞fX(z) fY(z − x) dx, men d˚a m˚aste man skilja p˚a fallen 0 ≤ z ≤ 1 och z ≥ 1 ¨aven om vi h¨ar bara beh¨over r¨akna ut den f¨or
3. (a) Vi har en observationx = 4 fr˚an X (5) ∈ Po(5l) d¨ar E(X (5)) = 5l vilket ger Q(l) = (x − E(X (5)))2=(x − 5l)2,
dQ
dl = −2 ⋅ 5 ⋅ (x − 5l) = 0 ⇒ l∗ = x 5 = 4
5 =0.8 s−1.
(b) OmH0:l = 1 ¨ar sann g¨aller att X (5) ∈ Po(5) och P-v¨ardet f¨or direktmetoden ges av P = P(f˚a det vi fick eller v¨arre n¨ar H0 ¨ar sann) = P(X (5) ≤ 4 om X (5) ∈ Po(5))
=[Tabell 4] = 0.44049.
EftersomP = 0.44 ∕< a = 0.05 kan H0inte f¨orkastas p˚a signifikansniv˚ana = 0.05. Vi kan inte p˚ast˚a att intensiteten ¨ar mindre ¨an 1.
(c) Vi har att antalet s¨onderfall under en minut, dvs 60 sekunder, ¨arX (60) ∈ Po(60l). D˚a ges p av
p = P(X (60) = 0) = e−60l (60l)0
0! =e−60l
MothypotesenH1:p > e−60kan d˚a skrivas om somp = e−60l >e−60 ⇔l < 1.
Det ¨ar ju det vi testade i (b) och slutsatsen blir att hon inte kan p˚ast˚a attp ¨ar st¨orre ¨an e−60. 4. (a) Vi har att (s2)∗ =s2= Q0
n − (p + 1) = 12320.82
100 − 3 =127.02 = 11.272.
(b) Medicinens inverkan p˚a blodtrycket beskrivs av b1. Om vi vill testa att medicinen s¨anker blodtrycket vill vi g¨ora ett ensidigt test avH0: b1 = 0 mot H1: b1 < 0 p˚a signifikansniv˚a, t.ex.,a = 0.05. Om vi vill testa att medicinen p˚averkar blodtrycket, g¨or vi ett tv˚asidigt test d¨ar mothypotesen ist¨allet ¨arH1:b1 ∕= 0.
Vi har attb1∗ ∈ N(b1, s√
(XtX )−11,1)
=N(
b1, s√
0.0012) med medelfelet d(b1∗) =s√
0.0012) = 11.27 ⋅√
0.0012 = 0.3904.
Ett 95 % konfidensintervall f¨orb1ges av Ensidigt test:
Ib1 =(−∞, b1∗+ta(n − (p + 1)) ⋅ d(b1∗)) = (−∞, −1.17 +t0.05(97)
| {z }
1.66
⋅0.3904)
=(−∞, −0.52).
Tv˚asidigt test:
Ib1 =b1∗± ta/2(n − (p + 1)) ⋅ d(b1∗) = −1.17 ±t0.025(97)
| {z }
1.98
⋅0.3904 = (−1.94, −0.40).
Eftersom v¨ardetb1 =0 inte ligger i konfidensintervallet kanH0f¨orkastas. Medicinen har en signifikant inverkan p˚a blodtrycket.
Med teststorhet ist¨allet f¨or konfidensintervall:
Ensidigt: Eftersom b1∗− 0
d(b1∗) = −1.17
0.3904 = −3.00 < −t0.05(97) = 1.66 kanH0f¨orkastas.
Tv˚asidigt: Eftersom
b1∗− 0 d(b1∗)
= ∣ − 1.17∣
0.3904 =3.00 > t0.025(97) = 1.98 kanH0f¨orkastas.
(c) Det f¨orv¨antade blodtrycket ges avm0 = b0+b1x10+b2x20 = b0+25b1 +7b2 = x0b d¨ar x0 =( 1 x10 x20 ) = ( 1 25 7 ).
Skattningen blirm∗0 =x0b∗ =124.76 − 1.17 ⋅ 25 + 1.94 ⋅ 7 = 109.09.
Eftersomm∗0 ∈ N(
m0, s√x0(XtX )−1x0t) = N (m0, s√
0.0476) med medelfelet d(m∗0) = s√
0.0476 = 11.27 ⋅√
0.0476 = 2.46 ges konfidensintervallet av Im0 =m∗0± t1−a/2(n − (p + 1)) ⋅ d(m∗0) = 109.09 ±t0.025(97)
| {z }
1.98
⋅2.46 = (104.2, 114.0).
(d) Vi vill g¨ora ett prediktionsintervall f¨or den nya observationeny0 =m0+e0. EftersomY (x0) =m∗0+e0 ∈ N(
m0+0, √V(m∗0) +s2) = N (m0,s√1 + x0(XtX )−1x′0) = N(
m0, s√
1 + 0.0476) ges prediktionsintervallet av IY (x0)=m∗0± t0.025(97) ⋅s√1 + x0(XtX )−1x0t
=109.09 ± 1.98 ⋅ 11.27 ⋅√
1 + 0.0476 = (86.2, 132.0).
5. (a) Vi harnL=325 oberoende observationer avXLi=”tid f¨or l¨ovs˚angare nr.i” ∈ N(
mL,s) d¨ar m∗L= ¯xL=117.8 ochsL=19.0
samtnR =470 oberoende observationer avXRi =”tid f¨or r¨ors˚angare nr.i” ∈ N(
mR, s) d¨ar m∗R = ¯xR =125.0 ochsR =20.6.
Den gemensamma variansens2 skattas d˚a med (s2)2 =s2p = (nL− 1) ⋅ s2L+(nR− 1) ⋅ s2R
nL− 1 + nR− 1 = (325 − 1) ⋅ 19.02+(470 − 1) ⋅ 20.62 325 − 1 + 470 − 1
=398.47 = 19.962. Det ger uppskattningarna
pL=P(XL <100) = F(100 −mL
s ) ≈F(100 − 117.8
19.96 ) =F(−0.89)
=1 −F(0.89) = [Tabell 1] = 1 − 0.8137 = 0.1863, pR =P(XR <100) =F(100 −mR
s ) ≈F(100 − 125.0
19.96 ) = F(−1.25)
=1 −F(1.25) = [Tabell 1] = 1 − 0.8948 = 0.1052.
(b) Eftersom vi har unders¨okt ett visst antal f˚aglar och r¨aknat hur m˚anga av dem som har en viss egenskap (oberoende av varandra) blir antalet f˚agler med den egenskapen binomialf¨ordelat.
Vi har allts˚a en observationyL=50 fr˚anYL =”antal l¨ovs˚angare som stannar mindre ¨an 100 timmar” ∈ Bin(nL, pL) = Bin(325, pL) och en annanyR =40 fr˚an YR =”antal r¨ors˚angare som stannar mindre ¨an 100 timmar” ∈ Bin(nR, pR) = Bin(470,pR).
Vi f˚ar d˚a skattningarna p∗L = yL
nL
= 50
325 = 0.1548 respektive p∗R = yR
nR
= 40
470 = 0.0851 och vill testaH0:pL=pR motH1:pL∕= pRp˚a signifikansniv˚an (approx.)a = 5 %.
Om H0 ¨ar sann, dvspL = pR = p, g¨aller att YL ∈ Bin(325, p) och YR ∈ Bin(470, p) och vi kan utnyttja att YL +YR ∈ Bin(325 + 470, p) f¨or att skatta det gemensamma p med p∗ = yL+yR
nL+nR
= 50 + 40
325 + 470 =0.1132.
EftersomnLp∗(1 −p∗) = 32.6 och nRp∗(1 −p∗) = 47.2 b˚ada ¨ar st¨orre ¨an 10 kan vi nor- malapproximera s˚a attYL∈
∼ N(325p, √325p(1 − p)) resp. YR∈
∼ N(470p, √470p(1 − p))
Det ger i sin tur attp∗L∈
∼ N (
p,
√p(1 − p) 325
)
resp.p∗R ∈
∼N (
p,
√p(1 − p) 470
) s˚a att
p∗L− p∗R ∈∼N (
0,
√
p(1 − p) ( 1
325 + 1 470
))
n¨arH0¨ar sann.
Medelfelet n¨arH0 ¨ar sann blir d(p∗L− p∗R) =
√
p∗(1 −p∗) ( 1
325+ 1 470
)
=0.0229.
Eftersom
p∗L− p∗R d(p∗L− p∗R)
= ∣0.1538 − 0.0851∣
0.0229 = 3.01 > la/2 = l0.025 = 1.96 kan H0
f¨orkastas. Sannolikheterna skiljer sig ˚at.
6. (a) Vi vill ML-skatta de tv˚a parametrarnap1ochp2. Den tredje f˚as sedan ur bivillkoretp1+p2+ p3 = 1. Eftersom vi inte ska r¨akna ut n˚agra egenskaper hos skattningarna kan vi s¨atta in de observerade v¨ardena fr˚an b¨orjan:
L(p1,p2) = P(f˚a det vi f˚att) = P(X1 =30,X2 =45,X3 =75)
= 150!
30! ⋅ 45! ⋅ 75!p301 p452 (1 −p1− p2)75, lnL(p1,p2) = ln 150!
30! ⋅ 45! ⋅ 75! +30 lnp1+45 lnp2+75 ln(1 −p1− p2).
Derivera lnL(p1,p2) m.a.p.p1:
∂lnL
∂p1
= 30 p1
− 75
1 −p1− p2 =0 ⇔ 30 − 30p1− 30p2 =75p1
⇔ 105p1 =30 − 30p2 ⇔ 7p1=2 − 2p2, och m.a.p.p2:
∂lnL
∂p2
= 45 p2
− 75
1 −p1− p2 =0 ⇔ 45 − 45p1− 45p2 =75p2
⇔ 120p1 =45 − 45p2 ⇔ 8p2=3 − 3p1. Utnytta den sista likheten f¨or att skriva om den f¨orsta:
7p1=2 − 2p2 ⇔ 28p1=8 − 8p2⇔ 28p1 =8 − (3 − 3p1) = 5 + 3p1
⇔ 25p1 =5 ⇒p∗1 = 5 25 = 1
5 =0.2 och sedan tillbaks i den sista:
8p2=3 − 3p1 ⇔ p2= 3 − 3p1
8 ⇒ p∗2 = 3 − 3p∗1
8 = 3 − 3 ⋅15
8 = 3
10 =0.3.
Till slut f˚ar vip∗3 =1 −p∗1− p∗2 =1 − 0.2 − 0.3 = 0.5 och allts˚ap∗(1) = (0.2, 0.3, 0.5).
Anm.: Om man inte s¨atter in v¨ardena ska man till slut f˚a fram det man nog kan gissa att det borde bli:
p∗(1) = (x1
n,x2
n,x3
n) = ( 30 150, 45
150, 75
150) = (0.2, 0.3, 0.5).
(b) Eftersomp(3) = p(1) ⋅ P2 f˚ar vi skattningen
p∗(3) =p∗(1) ⋅P2 =( 0.2 0.3 0.5 )
⎛
⎝
0.2 0.8 0.0 0.4 0.0 0.6 0.1 0.0 0.9
⎞
⎠
⎛
⎝
0.2 0.8 0.0 0.4 0.0 0.6 0.1 0.0 0.9
⎞
⎠
=[p∗(1) ⋅ (P2)] =( 0.2 0.3 0.5 )
⎛
⎝
0.36 0.16 0.48 0.14 0.32 0.54 0.11 0.08 0.81
⎞
⎠
=[(p∗(1) ⋅P) ⋅ P] =( 0.21 0.16 0.63 )
⎛
⎝
0.2 0.8 0.0 0.4 0.0 0.6 0.1 0.0 0.9
⎞
⎠
=( 0.169 0.168 0.663 ) .
Slut!