Avd. Matematisk statistik
TENTAMEN I SF1901 SANNOLIKHETSTEORI OCH STATISTIK, M˚ANDAGEN DEN 14:E AUGUSTI 2017 KL 08.00–13.00.
Examinator: Thomas ¨Onskog, 08 – 790 84 55.
Till˚atna hj¨alpmedel : Formel- och tabellsamling i Matematisk statistik, Mathematics Handbook (Beta), hj¨alpreda f¨or minir¨aknare, minir¨aknare.
Inf¨orda beteckningar skall f¨orklaras och definieras. Resonemang och utr¨akningar skall vara s˚a utf¨orliga och v¨al motiverade att de ¨ar l¨atta att f¨olja. Numeriska svar skall anges med minst tv˚a siffrors noggrannhet. Tentamen best˚ar av 6 uppgifter. Varje korrekt l¨osning ger 10 po¨ang.
Gr¨ansen f¨or godk¨ant ¨ar prelimin¨art 24 po¨ang. M¨ojlighet att komplettera ges f¨or tentander med, prelimin¨art, 22–23 po¨ang. Tid och plats f¨or komplettering kommer att anges p˚a kursens hemsida.
Det ankommer p˚a dig sj¨alv att ta reda p˚a om du har r¨att att komplettera.
Tentamen kommer att vara r¨attad inom tre arbetsveckor fr˚an skrivningstillf¨allet och kommer att finnas tillg¨anglig p˚a studentexpeditionen minst sju veckor efter skrivningstillf¨allet.
Uppgift 1
En l¨akare har f¨oljande praxis g¨allande operation vid en viss sjukdom: Om hon ¨ar 80% s¨aker p˚a att en patient har sjukdomen rekommenderar hon operation. Om hon ¨ar mindre s¨aker ¨an s˚a rekommenderar hon ist¨allet ytterligare test, vilka ¨ar dyra och kan vara sm¨artsamma f¨or patienten.
F¨or en specifik patient ¨ar l¨akaren 60% s¨aker p˚a att patienten har sjukdomen - baserat p˚a diverse test och tidigare liknande fall - och best¨aller d¨armed test A. Patienten i fr˚aga ¨ar diabetiker och test A ¨ar s˚adant att det alltid ger ett positivt resultat om patienten har sjukdomen, men f¨or diabetiker som inte har sjukdomen ger det ett positivt resultat i 30% av fallen. Antag nu att test A ger ett positivt resultat f¨or patienten i fr˚aga. Vad b¨or l¨akaren g¨ora, ska hon rekommendera operation eller utf¨ora ytterligare test? Motivera ditt svar.
(10 p)
Uppgift 2
Den trendiga badbutiken Poolen och Plurret vill i slutet av s¨asongen bli av med de 2 000 bad- byxorna som ¨ar kvar av ˚arets kollektion. D¨arf¨or anordnar man en realisation p˚a de kvarvarande badbyxorna. Av erfarenhet vet man att antalet badbyxor som en kund k¨oper p˚a s˚adana realisa- tioner dels ¨ar oberoende av hur m˚anga badbyxor andra kunder k¨oper, dels kan betraktas som en stokastisk variabel X med sannolikhetsfunktionen
pX(k) =
0.2 om k = 0, 0.5 om k = 1, 0.2 om k = 2, 0.1 om k = 3, 0 om k > 3.
Ber¨akna med l¨amplig och v¨almotiverad approximation det minsta antalet kunder som m˚aste kom- ma till butiken om sannolikheten ska vara 90% att butiken ska f˚a samtliga kvarvarande badbyxor s˚alda.
(10 p) Uppgift 3
I s˚a kallade extremv¨ardesmodeller (av intresse i f¨ors¨akringsbranschen) f¨orekommer en kontinuerlig stokastisk variabel X som har f¨ordelningsfunktionen
FX(x) =
1 − 1
x2, f¨or x ≥ 1,
0, annars.
a) Ber¨akna f¨or varje reellt tal x sannolikheten
G(x) = P (X ≤ 5 + x|X > 5) .
(7 p) b) ¨Ar G(x) definierad i deluppgift (a) en f¨ordelningsfunktion? Motivera Ditt svar noggrant. F¨or
att f˚a po¨ang i (b) kr¨avs r¨att svar i (a). (3 p)
Uppgift 4
Ett flygbolag h¨avdar sig ha en av de b¨attre punktligheterna fr˚an en specifik st¨orre flygplats j¨amf¨ort med konkurrerande flygbolag. “Punktlighet” m¨ats h¨ar i andelen flyg som avg˚ar inom 20 minuter fr˚an utsatt tid. Bolaget p˚ast˚ar att f¨arre ¨an ett av 15 flyg ¨ar mer ¨an 20 minuter f¨orsenat, vilket skulle bekr¨afta deras p˚ast˚aende om hur bolaget st˚ar sig gentemot sina konkurrenter. Flygbolaget har nyligen tecknat ett avtal med ett stort m¨obelf¨oretag vilket inneb¨ar att flygbolaget f˚ar monopol p˚a de flygresor som de anst¨allda vid m¨obelf¨oretaget g¨or i tj¨ansten i utbyte mot l¨agre biljettpriser.
Ledningen f¨or m¨obelf¨oretaget tvivlar dock p˚a flygbolagets p˚ast˚aende om sin punktlighet och ber sina anst¨allda att under en m˚anads tid notera om deras flyg fr˚an flygplatsen avg˚ar i tid, det vill s¨aga inom 20 minuter fr˚an utsatt tid, eller ej. Av de totalt 250 flygresor som m¨obelf¨oretagets anst¨allda g¨or under denna m˚anad, avg˚ar 20 av flygen senare ¨an de till˚atna 20 minuterna.
Genomf¨or ett statistiskt test som p˚a (m¨ojligen approximativa) niv˚an 5% pr¨ovar bolagets p˚ast˚aende om dess punktlighet. Var noga med att ange dina hypoteser och motivera dina slutsatser.
(10 p) Uppgift 5
Den trendiga badbutikskedjan Poolen och Plurret s¨aljer bl.a. badbyxor. Badbyxorna finns i fyra olika f¨arger. F¨or att kunna planera produktionen vill man unders¨oka om de fyra f¨argernas po- pularitet f¨ordelar sig p˚a ungef¨ar samma s¨att som ˚aret innan eller inte. Unders¨okningen g˚ar till p˚a f¨oljande s¨att. N¨ar innevarande ˚ars f¨ors¨aljning b¨orjar s˚a noterar man vilken f¨arg var och en av de 2 000 f¨orst s˚alda badbyxorna har. Om de fyra f¨argerna f¨ordelar sig p˚a ungef¨ar samma s¨att i
˚arets unders¨okning som de gjorde i f¨orra ˚arets s˚a st¨alls produktionen inte om. Om d¨aremot de fyra f¨argernas proportioner i f¨oreg˚aende ˚ars unders¨okning skiljer sig till¨ackligt mycket ˚at fr˚an hur deras proportioner ¨ar i innevarande ˚ars unders¨okning s˚a st¨alls produktionen om. Tabellen nedan visar antalet s˚alda badbyxor av respektive f¨arg i respektive ˚ars unders¨okning.
forts tentamen i SF1901 2017-08-14 3 F¨arg Bl˚a Svart Gr¨on R¨od
F¨oreg˚aende ˚ar 943 357 498 202 Innevarande ˚ar 860 347 476 317
Avg¨or utg˚aende fr˚an ovanst˚aende data om produktionen b¨or st¨allas om eller inte. Anv¨and riskniv˚an 5%. Var noga med att ange dina hypoteser och motivera dina slutsatser.
(10 p)
Uppgift 6
I signalbehandling anv¨ands ofta en procedur som p˚a engelska kallas dithering. Ett mycket enkelt och rudiment¨art exempel p˚a dithering ¨ar f¨oljande. L˚at m vara ett ok¨ant tal (’en analog signal’), om vilket vi vet att 0 ≤ m ≤ 1. Den stokastiska variabeln X ¨ar likformigt f¨ordelad p˚a (0, 1). Vi bildar en ny stokastisk variabel (dithering av m)
Y = bm + Xc,
d¨ar bxc ¨ar den s.k. heltalsdelen, dvs. det st¨orsta heltalet som ¨ar mindre ¨an eller lika med x.
a) Enligt denna konstruktion ¨ar Y en bin¨ar stokastisk variabel, dvs. den har tv˚a m¨ojliga v¨arden
0 och 1. Best¨am sannolikhetsfunktionen f¨or Y . (5 p)
b) L˚at
y1 = 1, y2 = 1, y3 = 1, y4 = 0, y5 = 1, y6 = 0, y7 = 1, y8 = 0
vara slumpm¨assiga nollor och ettor, som ses som utfall av Y1, Y2, . . . , Y8, respektive, d¨ar Yi = bm + Xic och alla Xi ¨ar oberoende, U (0, 1)-f¨ordelade stokastiska variabler. Skatta m p˚a basis av y1, y2, . . . , y8 med hj¨alp av maximum-likelihood-metoden (ML).
(Den som inte har l¨ost deluppgift (a) kan anv¨anda sannolikhetsfunktionen P (Y = 0) = 1−p, P (Y = 1) = p, 0 ≤ p ≤ 1 och skatta p med hj¨alp av ML.) (5 p)
Lycka till!
L ¨OSNINGSF ¨ORSLAG TENTAMEN I SF1901 SANNOLIKHETSTEORI OCH STATISTIK.
M˚ANDAGEN DEN 14 AUGUSTI 2017 KL 08.00–13.00 Uppgift 1
L˚at S beteckna h¨andelsen att patienten har sjukdomen och A h¨andelsen att testet visar positivt (det vill s¨aga indikerar att patienten har sjukdomen). Det ¨ar givet att P (S) = 0.6 - l¨akarens uppfattning baserat p˚a tidigare patienter och diverse test - samt att, p˚a grund av patientens diabetes,
P (A|S) = 1, P (A|Sc) = 0.3.
Vi s¨oker sannolikheten att patienten har sjukdomen givet ett positivt testresultat, P (S|A). Om denna sannolikhet ¨overstiger 0.8 b¨or l¨akaren rekommendera operation, annars b¨or hon utf¨ora ytterligare test. Med Bayes’ sats f˚as
P (S|A) = P (A|S)P (S) P (A)
= P (A|S)P (S)
P (A|S)P (S) + P (A|Sc)P (Sc)
= 1 × 0.6
1 × 0.6 + 0.3 × 0.4
= 0.833
Med ett positivt testresultat ¨ar l¨akaren allts˚a mer ¨an 80% s¨aker p˚a att patienten har sjukdomen och b¨or d¨armed rekommendera operation.
Svar: L¨akaren ¨ar nu mer ¨an 80% s¨aker och b¨or rekommendera operation.
Uppgift 2
L˚at Xi vara en stokastisk variabel som betecknar antalet badbyxor som kund nr i k¨oper. Vi f˚ar d˚a
µ = E[Xi] =
3
X
k=0
k · pXi(k) = 0 · 0.2 + 1 · 0.5 + 2 · 0.2 + 3 · 0.1 = 1.2,
och
σ = D(Xi) =p
V (Xi) = q
E(Xi2) − (E(Xi))2 = q
E(Xi2) − 1.22, d¨ar
E(Xi2) =
3
X
k=0
k2· pXi(k) = 02· 0.2 + 12· 0.5 + 22· 0.2 + 32· 0.1 = 2.2.
Detta medf¨or att
σ =p
2.2 − 1.22) =√ 0.76.
forts tentamen i SF1901 2017-08-14 2
L˚at nu
Y =
n
X
i=1
Xi.
d¨ar n ¨ar det antal vi s¨oker. Vi antar nu att Xi:na ¨ar m˚anga och oberoende. Eftersom de dessutom
¨ar likaf¨ordelade g¨aller d˚a enligt Centrala Gr¨ansv¨ardessatsen att Y ∼ N (nµ, σ√
n) = N (n · 1.2,√
0.76 ·√ n).
Det ska g¨alla att P (Y ≥ 2000) = 0.90, d¨ar Y ¨ar det totala antalet badbyxor som n kunder k¨opt, men eftersom vi har approximerat en summa av diskreta stokastiska variabler med en kontinuerlig s˚a kan vi g¨ora halvkorrektion och l¨oser d˚a P (Y ≥ 1999.5) = 0.90. Vidare g¨aller
P (Y ≥ 1999.5) = 0.90 ⇔ P (Y ≤ 1999.5) = 0.10.
F¨or att kunna anv¨anda kvantiler f¨or den standardiserade normalf¨ordelningen, s˚a g¨or vi omskriv- ningen
PY − n · 1.2
√0.76 ·√
n ≤ 1999.5 − n · 1.2
√0.76 ·√ n
= P
Z ≤ 1999.5 − n · 1.2
√0.76 ·√ n
= 0.10, d¨ar Z ∈ N (0, 1). P˚a grund av symmetri g¨aller d˚a att
P
Z ≥ n · 1.2 − 1999.5
√0.76 ·√ n
= 0.10, dvs.
n · 1.2 − 1999.5
√0.76 ·√
n = λ0.10 = 1.2816.
S¨atter vi nu√
n = m f˚as en andragradsekvation med l¨osning m = 0.46553040717 ± 40.8223801188.
Kvadrering av den positiva roten m = 0.46553040717+40.8223801188 ger n = 1704.6915556, vilket avrundas upp˚at till 1705.
Svar: Det kr¨avs att det kommer 1705 kunder f¨or att sannolikheten ska vara 90% f¨or att alla badbyxor skall s¨aljas.
Uppgift 3 a) Vi definierar f¨orst h¨andelserna
A = {X ≤ 5 + x} och B = {X > 5}.
Definitionen av betingad sannolikhet ger nu
G(x) = P (X ≤ 5 + x|X > 5) = P (A|B) = P (A ∩ B) P (B) ,
d¨ar A ∩ B = {5 < X ≤ 5 + x}. Vi uttrycker P (A ∩ B) med hj¨alp av f¨ordelningsfunktionen f¨or X som
P (A ∩ B) = P (5 < X ≤ 5 + x) = FX(5 + x) − FX(5).
och p˚a samma s¨att g¨aller
P (B) = P (X > 5) = 1 − P (X ≤ 5) = 1 − FX(5).
Ins¨attning av FX ger nu
G(x) = P (A ∩ B)
P (B) = FX(5 + x) − FX(5)
1 − FX(5) = 1 − (5+x)1 2 − 1 − 512
1 − 1 −512
=
1
52 − (5+x)1 2
1 52
= 1 − 52 (5 + x)2. S˚aledes har vi f¨or x ≥ 0 att
G(x) = 1 − 25 (5 + x)2.
Dessutom har vi att G(0) = 1 − (5)252 = 0 och G(x) = 0 f¨or x < 0, ty om x < 0, f˚as att A ∩ B = ∅ och s˚aledes g¨aller
G(x) = P (X ≤ 5 + x|X > 5) = P (A ∩ B) P (B) = 0.
Svar: G(x) = 1 − (5+x)25 2, f¨or x ≥ 0 och G(x) = 0 annars.
b) En funktion G ¨ar en f¨ordelningsfunktion om den uppfyller villkoren (1) limx→∞G(x) = 1,
(2) limx→−∞G(x) = 0,
(3) G(x) ¨ar en icke-avtagande (h¨oger)kontinuerlig funktion.
Fr˚an deluppgift (a) vet vi att
x→∞lim G(x) = 1 − lim
x→∞
25
(5 + x)2 = 1 − 0 = 1,
s˚a (1) ¨ar uppfyllt. Fr˚an deluppgift (a) g¨aller dessutom att G(x) ¨ar lika med konstanten 0 f¨or negativa x eller med andra ord att
x→−∞lim G(x) = lim
x→−∞0 = 0,
vilket verifierar (2). Genom att derivera G(x) en g˚ang med avseende p˚a x f˚as att G0(x) = − −25 · 2 · (5 + x)
(5 + x)4
= 50
(5 + x)3.
F¨or x > 0 g¨aller allts˚a att G0(x) > 0, vilket inneb¨ar att G(x) ¨ar (str¨angt) v¨axande. En deriverbar funktion ¨ar som bekant alltid kontinuerlig. Med h¨anvisning till (1) − (3) drar vi s˚alunda den slutsatsen att G(x) ¨ar en f¨ordelningsfunktion.
Svar: G(x) ¨ar en f¨ordelningsfunktion.
forts tentamen i SF1901 2017-08-14 4
Uppgift 4
L˚at X1, . . . , X250 vara oberoende Bernoulli-f¨ordelade stokastiska variabler med sannolikhet p f¨or en 1:a:
P (Xi = 1) = p, P (Xi = 0) = 1 − p, i = 1, . . . , 250.
Varje Xi svarar mot en av de n = 250 flygresorna som m¨obelf¨oretagets anst¨allda tar under m˚anaden i fr˚aga; Xi = 1 tolkas som att det i:te flyget var mer ¨an 20 minuter f¨orsenat. Sanno- likheten p svarar i sin tur mot flygbolagets punktlighet. Vi ¨ar intresserade av att genomf¨ora ett statistiskt test av
H0 : p = 1 15 mot
H1 : p > 1 15,
p˚a (approximativa) niv˚an 5%. Notera att vi tar flygbolagets p˚ast˚aende om “ett av 15” bokstavligt n¨ar vi v¨aljer H0.
L˚at x1, . . . , x250 vara utfallet av de anst¨alldas resor under en m˚anad. Det g¨aller att Y = Pn i=1Xi har en Bin(n, p)-f¨ordelning och y = Pn
i=1xi = 20 kan ses som ett utfall fr˚an denna f¨ordelningen.
En punktskattning av sannolikheten p ges d¨arf¨or av p∗obs = y
n = 20
250 = 0.08.
Vi tar fram ett approximativt ensidigt konfidensintervall f¨or p och anv¨ander konfidensmetoden f¨or att pr¨ova H0 mot H1. D˚a p∗obs = 0.08 och n = 250 g¨aller
np∗obs(1 − p∗obs) = 250 × 20
250 × 230
250 = 18.4 > 10,
varf¨or normalapproximationen till binomialf¨ordelningen ¨ar till¨ampbar. Vi har d¨armed approxima- tivt att
Y = Pn
i=1Xi
n ∼ N
p,p(1 − p) n
Valet av H1 g¨or att vi s¨oker ett nedre begr¨ansat konfidensintervall. Med normalapproximationen f¨or Y har vi
P
Y − p qp(1−p)
n
< λ0.05
= 0.95,
vilket ger konfidensintervallet, med approximativ konfidensgrad 95%,
p∗obs − λ0.05
rp∗obs(1 − p∗obs)
n , ∞
! ,
f¨or sannolikheten p. Ins¨attning av n = 250, λ0.05= 1.64 och p∗obs = 0.08 ger intervallet 0.08 −
r0.08 × 0.92
250 × 1.64, ∞
!
= (0.052, ∞).
Eftersom intervallet inneh˚aller p0 = 0.067 f¨orkastar vi ej H0 p˚a den approximative niv˚an 5%.
Svar: Vi kan ej f¨orkasta flygbolagets p˚ast˚aende p˚a niv˚an 5%.
Uppgift 5
Vi g¨or h¨ar ett homogenitetstest (avsnitt 14.3 i formelsamlingen) eftersom vi ska unders¨oka om sannolikheterna f¨or f¨argerna ¨ar desamma i de b˚ada f¨ors¨oksserierna. Nollhypotesen H0 ¨ar d˚a att f¨ordelningen av f¨argerna ¨ar of¨or¨andrad mellan de b˚ada unders¨okningstillf¨allena. Mothypotesen H1
¨
ar d˚a att det skett en s˚adan f¨or¨andring.
Vi g¨or h¨ar en tabell med observerade antal enligt Observerade antal Bl˚a Svart Gr¨on R¨od Totalt
F¨oreg˚aende ˚ar 943 357 498 202 2000 Innevarande ˚ar 860 347 476 317 2000
Totalt 1803 704 974 519 4000
Teststorheten blir Q =
2
X
i=1 4
X
j=1
xij −niNmj2 nimj
N
= (943 − 2000·18034000 )2
2000·1803 4000
+(357 − 2000·7044000 )2
2000·704 4000
+(498 − 2000·9744000 )2
2000·974 4000
+ (202 − 2000·5194000 )2
2000·519 4000
+ (860 −2000·18034000 )2
2000·1803 4000
+ (347 − 2000·7044000 )2
2000·704 4000
+ (476 − 2000·9744000 )2
2000·974 4000
+ (317 −2000·5194000 )2
2000·519 4000
= 29.94.
Om H0¨ar sann och nimj/N ≥ 5 s˚a ¨ar 29.94 ett utfall fr˚an en stokastisk variabel som approximativt har en χ2-f¨ordelning med (4 − 1)(2 − 1) = 3 frihetsgrader. nimj/N ≥ 259.5 > 5 s˚a villkoret ¨ar uppfyllt. Eftersom χ20.05(3) = 7.81 < 29.94 s˚a kan H0 f¨orkastas p˚a niv˚an 5%. Alternativt kan vi ber¨akna sannolikheten att en χ2(2)-variabel ¨ar st¨orre ¨an eller lika med 29.94 (X2cdf p˚a en TI- r¨aknare). Denna sannolikhet, dvs p-v¨ardet f¨or testet, ¨ar 1.4 · 10−6. Detta p-v¨arde ¨ar s˚a l˚agt att vi f¨orkastar H0 p˚a riskniv˚an 5%. B˚ade teststorheten och p-v¨ardet f˚as direkt med funktionen X2-Test p˚a en TI-r¨aknare.
Svar: Vi drar slutsatsen att f¨or¨andringen i kundernas f¨argval ¨ar statistiskt s¨akerst¨alld p˚a riskniv˚an 5% och att produktionen d¨arf¨or skall st¨allas om.
Uppgift 6
a) Om 0 ≤ m ≤ 1 och den stokastiska variabeln X ¨ar U (0, 1)-f¨ordelad, s˚a vet vi om summan m + X att dess v¨arden alltid ligger mellan 0 och 2 och inom detta intervall g¨aller
bm + Xc =
0, f¨or 0 ≤ m + X < 1, 1, f¨or 1 ≤ m + X < 2, 2, f¨or m + X = 2,
forts tentamen i SF1901 2017-08-14 6
Fallet m + X = 2 intr¨affar med sannolikhet noll, ty X ¨ar kontinuerlig, och kan d¨arf¨or f¨orsummas. Det g¨aller att
pY(0) = P (Y = 0) = P (0 ≤ m + X < 1) = P (−m ≤ X < 1 − m) = Z 1−m
0
dx = 1 − m, ty X ∈ U (0, 1) implicerar att P (−m ≤ X < 1 − m) = P (0 ≤ X < 1 − m). Komplement- satsen ger sedan pY(1) = 1 − pY(0) = 1 − (1 − m) = m.
Svar: Sannolikhetsfunktionen f¨or Y ges av pY(0) = 1 − m och pY(1) = m.
b) Sannolikheten f¨or att f˚a observationerna
y1 = 1, y2 = 1, y3 = 1, y4 = 0, y5 = 1, y6 = 0, y7 = 1, y8 = 0
¨ar p.g.a oberoendet
P (Y1 = y1, Y2 = y2, . . . , Y8 = y8) = P (Y1 = y1) · P (Y2 = y2) · · · P (Y8 = y8)
= P (Y1 = 1) · P (Y2 = 1) · · · P (Y8 = 0)
= m · m · m · (1 − m) · m · (1 − m) · m · (1 − m)
= m5(1 − m)3.
Vi maximerar likelihoodfunktionen L(m) = m5(1 − m)3 genom att maximera l(m) = ln L(m) = 5 ln m + 3 ln(1 − m).
Vi deriverar en g˚ang och s¨atter derivatan lika med noll:
d
dml(m) = 51
m − 3 1
1 − m = 0, vilket ger
51
m = 3 1
1 − m ⇒ 5(1 − m) = 3m ⇒ 5 − 5m = 3m ⇒ m∗obs = 5 8. Svar: ML-skattningen av m ¨ar m∗obs = 58.
Kommentar: Det framg˚ar av deluppgift (b) att den digitala informationen y1 = 1, y2 = 1, y3 = 1, y4 = 0, y5 = 1, y6 = 0, y7 = 1, y8 = 0 kan anv¨andas f¨or att rekonstruera den analoga signalen m. Rekonstruktionen f¨orb¨attras (enligt de stora talens lag), om antalet bitar yi v¨axer, vilket ¨ar en av de ingenj¨orsm¨assiga motiveringarna till dithering.