Del II

(1)

TENTAMEN I SF1912/SF1914/SF1915/SF1916 SANNOLIKHETSTEORI OCH STATISTIK, ONSDAGEN DEN 24:E OKTOBER 2018 KL 8.00–13.00.

Examinator för SF1914/SF1916: Tatjana Pavlenko, 08-790 84 66 Examinator för SF1915: Björn-Olof Skytt, 08-790 86 49.

Examinator för SF1912: Per-Jörgen Säve-Söderbergh, 08-790 65 85.

Till˚atna hj¨alpmedel : Formel- och tabellsamling i Matematisk statistik (utdelas vid tentamen), minir¨aknare.

Tentamen best˚ar av tv˚a delar, benämnda del I och del II. Del I best˚ar av uppgifterna 1-12. P˚a denna del skall endast svar anges, antingen i form av ett numeriskt värde med tre värdesiffrors noggrannhet eller i form av val av ett av de möjliga svarsalternativen. Studenter som är godkända p˚a kontrollskrivningen behöver ej besvara uppgift 1-3, utan f˚ar tillgodoräkna sig dessa tre upp- gifter. Gränsen för godkänt är preliminärt 9 poäng. Möjlighet att komplettera ges för tentander med, preliminärt, 8 poäng. Tid och plats för komplettering kommer att anges p˚a kursens hemsida.

Del II best˚ar av uppgifterna 13-16 och varje korrekt lösning ger 10 poäng. Del II rättas bara för studenter som är godkända p˚a del I och poäng p˚a del II krävs för högre betyg än E. P˚a denna del skall resonemang och uträkningar skall vara s˚a utförliga och väl motiverade att de är lätta att följa. Införda beteckningar skall förklaras och definieras och numeriska svar skall anges med minst tv˚a värdesiffrors noggrannhet. Studenter som är godkända p˚a datorlaborationen f˚ar 4 bonuspoäng p˚a del II p˚a ordinarie tentamenstillfället och det första omtentamenstillfället.

Tentamen kommer att vara rättad inom tre arbetsveckor fr˚an skrivningstillfället och kommer att finnas tillgänglig p˚a studentexpeditionen minst sju veckor efter skrivningstillfället.

Del I

Uppgift 1

För händelserna A och B gäller att P (A) = 1/4, P (B|A) = 1/3 och P (B|A^∗) = 1/2. Beräkna P (A|B).

Svar:...

Uppgift 2 En stokastisk variabel X har f¨ordelningsfunktionen

FX(x) =







0, x < 0 x³, 0 ≤ x ≤ 1 1, x > 1 Best¨am E(X).

Svar:...

(2)

2

Uppgift 3

Ange fördelningen för Z = 4X − 5Y d˚a X ∈ N (1, 2) och Y ∈ N (1, 3) och är X och Y oberoende.

Svar:...

Uppgift 4

Antalet samtal till ett företags callcenter under en tiominuters period antas vara Poissonfördelad med väntevärde 1.2. Vad är sannolikheten att det kommer fler än 1 men färre än 4 samtal under perioden 9.30 − 9.40?

A: 0.0867 B: 0.113 C: 0.304 D: 0.330 Svar:...

Uppgift 5

Beräkna P (X ≥ 2) d˚a den stokastiska variabeln X är exponentialfördelad med E(X) = 3.

A: 0.00248 B: 0.513 C: 0.997 D: 0.487 Svar:...

Uppgift 6 Best¨am c s˚a att P (X > c) = 0.05 d˚a X ∈ N (3, 2).

A: 0.290 B: 1.64 C: 5.33 D: 6.29 Svar:...

(3)

Uppgift 7

En välgjord sexsidig tärning kastas fyra g˚anger. Vad är sannolikhet att exakt tre av kasten är en sexa?

Svar:...

Uppgift 8

L˚at x = 38 vara ett utfall av en stokastisk variabel X ∈ Bin(600, p) där p är okänd. Bestäm medelfelet för skattningen p^∗ = X/n.

A: 9.89 · 10⁻⁵ B: 0.00994 C: 0.0593 D: 5.97 Svar:...

Uppgift 9

Man har tv˚a oberoende observationer x₁ = 3 och x₂ = 5 av en stokastisk variabel med t¨athetsfunktionen f_X(x) = x

ae^−(x/a)²^/2, x > 0, a > 0.

Best¨am Maximum-Likelihood skattningen av a.

A: 2.00 B: 4.12 C: 6.00 D: 8.72 Svar:...

Uppgift 10

L˚at 20 personer utföra mätningar p˚a en N (µ, σ)-fördelad stokastisk variabel. Därefter gör de var och en ett 95% konfidensintervall för µ. Vilket är det troligaste värdet p˚a det antal intervall som kommer att missa µ?

Svar:...

(4)

4

Uppgift 11

Givet är 5 oberoende observationer av en stokastisk variabel X som är N (µ, σ). Stickprovsme- delvärdet är ¯x = 0.16 och stickprovsstandardavvikelsen är s = 0.0158. Bestäm övre gränsen för ett ensidigt upp˚at begränsat 95% konfidensintervall för σ.

A: 0.0375 B: 0.00103 C: 0.0456 D: 0.00948 Svar:...

Uppgift 12

Givet är 7 oberoende observationer av en stokastisk variabel X som är N (µ, 0.4). Stickprovsme- delvärdet beräknat p˚a 7 observationerna är ¯x = 0.719. Man testar nollhypotesen H0 : µ = 1 mot H₁ : µ < 1. Bestäm testets p-värde.

A: 0.241 B: 0.100 C: 0.0314 D: 0.969 Svar:...

(5)

Del II

Uppgift 13

L˚at x₁ och x₂ vara tv˚a oberoende observationer fr˚an N (µ, σ) samt x₃ en observation, oberoende av de f¨orsta tv˚a, fr˚an N (2µ, σ).

a) Skatta µ med hj¨alp av minsta-kvadratmetoden. Alla tre observationerna m˚aste ut-

nyttjas. (4 p)

b) Avgör om skattningen är väntevärdesriktig. (3 p)

c) En naturlig väntevärdesriktig skattning av µ är att ta medelvärdet mellan x₁, x₂ och x₃/2, dvs µ^∗ = x₁

3 +x₂ 3 +x₃

6. Unders¨ok vilken av MK-skattningen och µ^∗ som ¨ar effektivast.

(3 p) Uppgift 14

En forskningsenhet som använder provresultat fr˚an tv˚a olika laboratorier vill undersöka om laboratorierna mäter likvärdigt. Undersökningen gick till s˚a att ett prov sändes till de tv˚a laboratorierna som vart och ett fick göra fem oberoende mätningar av provet. Man antar att provresultaten mo- delleras som oberoende observationer p˚a normalfördelade stokastiska variabler, alla med samma varians. Resultaten fr˚an mätningarna anges i tabellen nedan.

Lab 1: 41.33 41.35 41.24 41.24 41.32 Lab 2: 41.24 41.27 41.28 41.27 41.30

Testa p˚a signifikansniv˚an 1% om de tv˚a laboratorierna mäter likvärdigt. Ange tydligt vilka de uppställda hypoteserna är och vad slutsatsen är. (10 p)

Uppgift 15

Vid senaste Folk- och Bostadsräkningen, som gjordes för c:a 10-15 ˚ar sedan, har en miljonpopula- tion av individer klassificerats i fyra klasser A, B, C, D, vars relativa storlekar var 20%, 30%, 10%, 40% respektive. I ˚ar klassificerades ett slumpmässigt urval om 100 individer p˚a samma sätt. Av dessa tillhörde 13, 37, 17, 33 i nämnd ordning ovanst˚aende klasser.

Undersök om proportionerna av klasserna i populationen har förändrats eller inte sedan den senaste Folk- och Bostadsräkningen. Använd signifikansniv˚an 5%. Ange tydligt vilka de uppställda

hypoteserna ¨ar och vad slutsatsen ¨ar. (10 p)

Uppgift 16

L˚at oss anta att det i branschen för pälsschampoo för hundar finns tv˚a dominerande tillverkare, A och B, som tillsammans har drygt 50% av marknaden.

Tillverkare A gör en marknadsundersökning i vilken 1000 hundägare tillfr˚agas, och 184 av dessa säger sig föredra schampoo som A säljer. Tillverkare B, som är den största p˚a marknaden och vill trycka ner konkurrensen, gör d˚a en egen undersökning i vilken 196 av 500 tillfr˚agade hundägare

(6)

säger sig föredra schampoot fr˚an B. Detta tar tillverkare B som intäkt för att i en stor kampanj p˚ast˚a att ”V˚art schampoo är mer än dubbelt s˚a populärt som n˚agon annan tillverkares schampoo”.

Vi skall unders¨oka, ur statistisk synvinkel, om detta h˚aller.

(a) Definiera storheten, eller parametern,

∆ = andelen hundägare som föredrar pälsschampoo fr˚an B

− 2 × andelen hundägare som föredrar pälsschampoo fr˚an A.

Använd tillverkare A:s undersökning för att skatta andelen andelen hundägare som föredrar pälsschampoo fr˚an A, och tillverkare B:s undersökning för att skatta andelen andelen hundägare som föredrar pälsschampoo fr˚an B, för att konstruera en skattning ∆^∗ av ∆. Räkna ocks˚a ut denna skattnings värde för de aktuella data. Det vill säga, i bokens terminologi, ange b˚ade stickprovsva-

riabel och skattning. (2 p)

(b) Ber¨akna variansen av ∆^∗ uttryckt i l¨ampliga parametrar. (3 p)

(c) Ange medelfelet f¨or ∆^∗ f¨or de aktuella data. (2 p)

(d) Finns det fog för B:s p˚ast˚aende i kampanjen (jämför A och B)? Svara p˚a fr˚agan med hjälp av ett lämpligt konfidensintervall eller test och välj signifikansniv˚a själv. (3 p)

Lycka till!

Avd. Matematisk statistik

L ¨OSNINGSF ¨ORSLAG TENTAMEN I SF1912/SF1914/SF1915/SF1916 SANNOLIKHETSTEO- RI OCH STATISTIK,

ONSDAGEN DEN 24:E OKTOBER 2018 KL 8.00–13.00.

Del I Uppgift 1

Eftersom A och A^∗ utg¨or en partition av Ω kan vi anv¨anda lagen om total sannolikhet p˚a B P (B) = P (A) P (B | A) + P (A^∗) P (B | A^∗) = 1

4 × 1 3+ 3

4× 1 2 = 11

24 Enligt definitionen av betingad sannolikhet har vi

P (A | B) = P (A ∩ B)

P (B) = P (A) P (B | A)

P (B) =

1 4 × ¹₃

11 24

= 2

11 = 0.182 Uppgift 2

Vi b¨orjar med att ta fram X t¨athetsfunktion fX(x) = dF_X(x)

dx = 3x², 0 ≤ x ≤ 1 0, f¨or ¨ovrigt.

(7)

Väntevärdet ges därför som E (X) =

Z ∞

−∞

x · f_X(x) dx = Z 1

0

x · 3x²dx = 3 x⁴ 4

= 3

4 = 0.75 Uppgift 3

Enligt sats 6.3 är 4X ∈ N (4 × 1, |4| × 2), d.v.s. 4X ∈ N (4, 8). P˚a samma sätt är 5Y ∈ N (5, 15).

Enligt sats 6.4 om differenser mellan normalf¨ordelade stokastiska variabler ¨ar 4X−5Y ∈ N 4 − 5,√

8²+ 15².

D˚a √

8²+ 15² =√

289 = 17, har vi att 4X − 5Y ∈ N (−1, 17) Uppgift 4

Vi anv¨ander tabell 5 i nedanst˚aende ber¨akning, d˚a X ∈ Po (1.2).

P (1 < X < 4) = P (1 < X ≤ 3) = FX(3) − FX(1) = 0.96623 − 0.66263 = 0.304

Uppgift 5

Vi beräknar sannolikheter för kontinuerliga stokastiska variabler som areor under täthetsfunktionen.

I detta fall

P (X ≥ 2) = Z ∞

2

f_X(x) dx = Z ∞

2

1

3e^−x/3dx =−e^−x/3^∞

2 = e^−2/3 = 0.513 Uppgift 6

Villkoret kan skrivas som

P (X ≤ c) = 0.95.

Eftersom X ∈ N (3, 2) finner vi

P (X ≤ c) = P X − 3

2 ≤ c − 3 2

= Φ c − 3 2

= 0.95 vilket inneb¨ar att

c − 3

2 ) = 1.6649 ⇔ c = 3 + 2 × 1.6449 = 6.290 Uppgift 7

L˚at A =sexa. D˚a ¨ar P (A) = ¹₆ och om X =antal sexor under de fyra kasten, s˚a vet vi att X ∈ Bin 4,¹₆. D˚a har vi att

P (X = 3) =4 3

1 6

3

5 6

1

= 4 × 5

6⁴ = 20

1296 = 0.0154 Uppgift 8

d (p^∗) =

rp^∗(1 − p^∗)

n =

s

x

n 1 −^x_n

n =

s

38

600 1 −₆₀₀³⁸

600 = 0.00994

(8)

3

Uppgift 9 Likelihooden ¨ar

L (a) = x₁ a

x₂ a exp

−1 2

x₁ a

2

+x₂ a

2 Loglikelihooden

ln L (a) = ln x₁+ ln x₂− 2 ln a − 1

2a² x²₁+ x²₂ Sätt derivatan av loglikelihooden till noll och lös för a:

d ln L (a)

da = 0 ⇔ −2

a +x²₁+ x²₂

a³ = 0 ⇔ a =

rx²₁+ x²₂ 2 D˚a x₁ = 3 och x₂ = 4 ¨ar ML-skattningen av a

a =

r9 + 25

2 =√

17 = 4.12 Uppgift 10

L˚at A =konfidensintervallet inneh˚aller inte det sanna parametervärdet. D˚a är P (A) = 0.05 och om X =antal konfidensintervall som missar, s˚a vet vi att X ∈ Bin (20, 0.05). Om vi studerar tabellen ser vi att sannolikheten för X = 1 är störst. Allts˚a är det mest troligt att ett konfidensintervall missar den sanna parametern.

Uppgift 11

Ett ensidigt upp˚at begränsat konfidensinterval för σ ges av (0, ks), där k = 1/

qχ²_1−α(n−1)

n−1 . Vi har n − 1 = 4 frihetsgrader. För 95% är χ²_0.95(4) = 0.71. Därmed blir den övre gränsen

ks = 1

qχ²_1−α(n−1) n−1

× s = 1 q0.71

4

× 0.0158 = 0.0375

Uppgift 12 Vi vet att X ∼ N

1,^0.4^√₇

, d˚a H0 antas vara sann. Dessutom att x = 0.719.

Definitionen av p-v¨arde ¨ar

p − v¨ardet = P (att f˚a det observerade eller n˚agot extremare | H₀ sann)

Vi förkastar H0 till förm˚an för H1 för avvikande l˚aga värden p˚a X. Det mera extrema som det talas om i definitionen av p-värdet är allts˚a ännu mindre värden av X.

Under förutsättning att H₀ är sann, d v s µ = 1, beräknar vi följande P X ≤ 0.719

= P X − 1

√0.4 7

≤ 0.719 − 1

√0.4 7

!

= Φ 0.719 − 1

0.4√ 7

!

= Φ (−1.86)

= 1 − Φ (1.86)

= 1 − 0.9686

= 0.0314

(9)

Del I

1. 0.182 2. 0.750 3. N (−1, 17) 4. C

5. B 6. D 7. 0.0154 8. B 9. B 10. 1 11. A 12. C

Del II

Uppgift 13

Data x₁, x₂, x₃ är observationer fr˚an X₁, X₂, X₃, där X_i:na är oberoende samt X₁ och X₂ är N (µ, σ), X₃ ∈ N (2µ, σ).

a)

Q(µ) = (x₁− µ)²+ (x₂− µ)²+ (x₃− 2µ)². Minimera Q genom att s¨atta derivatan av Q med avseende p˚a µ till noll.

dQ

dµ = −2(x₁− µ) − 2(x₂− µ) − 4(x₃− 2µ) = 0, vilket ger

µ^∗_{M K} = x1+ x2+ 2x3

6 .

b)

E(µ^∗_{M K}) = E X₁+ X₂+ 2X₃ 6

= 1

6(E(X1) + E(X2) + 2E(X3)) = 1

6(µ + µ + 2 · 2µ) = µ, dvs MK-skattningen är väntevärderiktig.

(10)

5

c)

V (µ^∗_{M K}) = V 1

6X₁+ 1

6X₂+ 1 3X₃

= 1

6²V (X₁) + 1

6²V (X₂) + 1

3²V (X₃)

= 1

36σ²+ 1

9σ² = σ² 6 . V (µ^∗) = V 1

3X₁+ 1

3X₂+1 6X₃

= 1

9σ²+ 1

36σ² = σ² 4 > σ²

6 , dvs MK-skattningen har minst varians (¨ar effektivast).

Uppgift 14

Modell: Resultaten fr˚an lab 1, x₁, . . . , x₅ observationer av X ∈ N (µ₁, σ). Resultaten fr˚an lab 2, y₁, . . . , y₅ observationer av X ∈ N (µ₂, σ). Med hj¨alp av r¨aknare f˚as

x = 41.296 s_x = 0.0522 samt

y = 41.272 s_y = 0.0217

Eftersom de tv˚a σ-skattningarna är n˚agorlunda lika (bör egentligen testas med ett test som inte ing˚ar i kursen) anser vi att antagandet om lika σ i modellen är uppfyllt och vi gör därför en gemensam skattning av σ.

σ^∗ = s_p =

s(5 − 1) s²_x+ (5 − 1) s²_y

(5 − 1) + (5 − 1) = 0.0400 Lämpliga hypoteser: H₀ : µ₁ = µ₂, dvs ingen skillnad i förväntat labbresultat H₁ : µ₁ 6= µ₂, dvs skillnad i förväntat labbresultat

G¨or ett tv˚asidigt 99% f¨or µ₁− µ₂:

Iµ1−µ2 = x − y ± t0.005(8) sp

r1 5 +1

5

!

= 41.296 − 41.270 ± 3.36 · 0.0400 r1

5+ 1 5

!

= (−0.06, 0.11)

Eftersom intervallet täcker över 0, kan H₀ ej förkastas p˚a niv˚an 0.01. Dessa data har allts˚a inte visat att det finns n˚agon skillnad i förväntat labbresultat mellan labben. Det finns allts˚a ingen omedelbar anledning till oro.

Uppgift 15 Bilda χ²-teststorheten

Q = (13 − 20)²/20 + (37 − 30)²/30 + (17 − 10)²/10 + (33 − 40)²/40 = 490/48 = 10.2.

(11)

Om hypotesen H₀ “relativa storlekarna är oförändrade” är sann s˚a är 10.2 observation av (approximativt) χ²(3). Hypotesen förkastas för stora värden p˚a Q.

Ur tabell erh˚alls χ²_0.05(3) = 7.81 < 10.2. Härav följer p˚a de angivna signifikansniv˚aerna att H0 kan förkastas p˚a niv˚an 5%.

Uppgift 16

(a) L˚at p_Aoch p_Bbeteckna andelen hundägare som föredrar schampoo fr˚an tillverkare A respektive B, l˚at n₁ och n₂ beteckna antalet tillfr˚agade i de b˚ada undersökningarna (vi har n₁ = 1000 och n₂ = 500) och l˚at x_A och x_B beteckna antalet tillfr˚agade som i undersökning 1 föredrog A respektive i undersökning 2 föredrog B (vi har x_A= 184 och x_B = 196).

Vi kan skatta pA och pB med p^∗_A = XA/n1 respektive p^∗_B = XB/n2, där XA och XB är de stokastiska variabler som x_A respektive x_B är observationer av. Som skattning av ∆ kan vi sedan ta ∆^∗ = p^∗_B− 2p^∗_A. Med de aktuella data f˚ar vi skattningenn196/500 − 2 × 184/1000 = 0.024.

(b) Det är rimligt att anta att de olika hundägare som ingick i undesökningarna har ˚asikter som

är oberoende av varandra. Vi f˚ar d˚a X_A∈ Bin(n₁, p_A) och X_B ∈ Bin(n₂, p_B). Eftersom resultaten kommer fr˚an olika undersökningar är X_Aoch X_B oberoende (det hade inte varit fallet om de kom fr˚an en och samma undersökning), och därför gäller

V (∆^∗) = V (X_B/n₂− 2X_A/n₁) = V (X_B)

n²₂ + (−2)²V (X_A)

n²_A = p_B(1 − p_B)

n₂ + 4p_A(1 − p_A) n₁ . (c) Vi kan f˚a en skattning av variansen för ∆^∗ genom att ersätta p_A och p_B i ovanst˚aende uttryck med motsvarande skattningar 196/500 = 0.392 och 184/1000 = 0.184. Detta ger variansskatt- ningen 0.00108. Roten ur detta, 0.0328, är en skattning av standardavvikelsen för ∆^∗, dvs det är medelfelet för denna skattning.

(d) L˚at d(∆^∗) beteckna medelfelet för skattningen ∆^∗. Under v˚ara förutsättningar p˚a n₁, n₂, p_A och p_B gäller att fördelningarna för b˚ade X_A och X_B kan approximeras med normalfördelningar.

Eftersom ∆^∗ är en linjärkombination av dessa tv˚a oberoende variabler kan även ∆^∗ anses vara approximativt normalfördelad. Denna variabel har väntevärde ∆ = p_B− 2p_A, ty E(p^∗_A) = p_A och E(p^∗_B) = p_B (b˚ada skattningarna är väntevärdesriktiga). Därför gäller att (∆^∗− ∆)/d(∆^∗) ungefär

¨ar f¨ordelad som en N (0, 1)-variabel.

P˚ast˚aendet i kampanjen är p_B > 2p_A, dvs ∆ > 0. Vi kontrollerar om det är rimligt att p˚ast˚a detta genom att testa H₀ : ∆ = 0 mot H₁ : ∆ > 0. Om H₀ är sann gäller s˚aledes att (∆^∗− 0)/d(∆^∗) = 0.024/0.0328 = 0.73 är en observation fr˚an N (0, 1). Vi skall förkasta H0 till förm˚an för H1 om detta värde ligger l˚angt ut i högra svansen p˚a fördelningen N (0, 1), mer precist om det är större

än t ex 5%-kvantilen λ_0.05 = 1.64. Detta är inte fallet, s˚a det finns inget statistiskt underlag för vad som hävdas i kampanjen.

Alternativt kan vi göra ett ned˚at begränsat approximativt 95%-igt konfidensintervall för ∆: [∆^∗− λ_0.05d(∆^∗), ∞) = [−0.030, ∞). Intervallet inneh˚aller talet 0, och därför kan inte H₀ förkastas mot H₁.