Varje korrekt l¨osning ger 10 po¨ang

(1)

TENTAMEN I SF1901 SANNOLIKHETSTEORI OCH STATISTIK, ONSDAGEN DEN 25:E OKTOBER 2017 KL 08.00–13.00.

Examinator: Thomas ¨Onskog, 08 – 790 84 55.

Till˚atna hj¨alpmedel : Formel- och tabellsamling i Matematisk statistik, Mathematics Handbook (Beta), minir¨aknare.

Införda beteckningar skall förklaras och definieras. Resonemang och uträkningar skall vara s˚a utförliga och väl motiverade att de är lätta att följa. Numeriska svar skall anges med minst tv˚a siffrors noggrannhet. Tentamen best˚ar av 6 uppgifter. Varje korrekt lösning ger 10 poäng.

Gränsen för godkänt är preliminärt 24 poäng. Möjlighet att komplettera ges för tentander med, preliminärt, 22–23 poäng. Tid och plats för komplettering kommer att anges p˚a kursens hemsida.

Det ankommer p˚a dig sj¨alv att ta reda p˚a om du har r¨att att komplettera.

Poäng fr˚an kontrollskrivning och laborationer under innevarande kursomg˚ang (period 4, VT2017) f˚ar tillgodoräknas under förutsättning att tentanden erh˚allit minst 20 poäng p˚a denna tentamen.

Tentamen kommer att vara rättad inom tre arbetsveckor fr˚an skrivningstillfället och kommer att finnas tillgänglig p˚a studentexpeditionen minst sju veckor efter skrivningstillfället.

Uppgift 1

P˚a en viss sorts artiklar kan tre slags fel uppkomma: A, B respektive C. Fel av typ A uppkommer oberoende av fel av typ B och C. Vidare g¨aller att sannolikheterna att fel A, B respektive C uppkommer ¨ar 0.05, 0.02 respektive 0.03. En artikel som har fel av typ B har dessutom med sannolikhet 0.5 fel av typ C. En artikel klassas som felaktig om den har minst ett av felen. Vad

¨ar sannolikheten att en p˚a m˚af˚a vald artikel ¨ar felaktig? (10 p) Uppgift 2

Belysningssystemet i en stor vänthall best˚ar av en stor mängd belysningsenheter som g˚ar sönder oberoende av varandra. Tiden fr˚an att en belysningsenhet g˚ar sönder till dess att nästa belysningsenhet g˚ar sönder är exponentialfördelad med väntevärdet 0.5 dagar.

a) Antag att 6 belysningsenheter har g˚att sönder. Bestäm sannolikheten för att det dröjer mer

¨

an en dag innan ytterligare en belysningsenhet har g˚att s¨onder, dvs tills det finns 7 trasiga

belysningsenheter i belysningssystemet. (2 p)

b) Företaget som ansvarar för belysningen i vänthallen byter trasiga belysningsenheter först när 100 belysningsenheter har g˚att sönder. Bestäm sannolikheten för att det dröjer minst 45 dagar innan byte av trasiga belysningsenheter sker. (8 p)

Var god v¨and!

(2)

forts tentamen i SF1901 2017-10-25 2

Uppgift 3

Overlevnadsfunktionen f¨¨ or en stokastisk variabel X definieras som S_X(x) = 1 − P (X ≤ x). L˚at x₁, . . . , x_nvara utfall av de oberoende stokastiska variablerna X₁, . . . , X_nsom alla har överlevnads- funktionen SX(x) = 1 − x^θ+1, där 0 ≤ x ≤ 1 och θ > −1. Bestäm minsta-kvadratskattningen av

den ok¨anda parametern θ. (10 p)

Uppgift 4

En forskare p˚a en lantbrukshögskola vill undersöka om halten av quercetin, en antioxidant som anses motverka uppkomsten av bl. a. cancer, skiljer sig ˚at mellan tv˚a olika äppelsorter. Hen mäter därför upp halten quercetin (i mg/100 g) i 8 äpplen av den första sorten (x₁, . . . , x₈) och i 10 äpplen av den andra sorten (y₁, . . . , y₁₀) och räknar ut att x = ¹₈ P8

i=1x_i = 4.4723,P8

i=1(x_i−x)² = 0.1277, y = ₁₀¹ P10

i=1y_i = 4.6266, och P10

i=1(y_i − y)² = 0.1997. Mätvärdena kan antas vara observationer av oberoende stokastiska variabler X₁, . . . , X₈ och Y₁, . . . , Y₁₀. Vidare antas att X_i ∈ N (µ₁, σ), i = 1, ..., 8, samt att Y_i ∈ N (µ₂, σ), i = 1, ..., 10, där parametrarna µ₁, µ₂ och σ är okända.

a) Best¨am ett 95 % konfidensintervall f¨or µ₁ − µ₂ och testa p˚a signifikansniv˚an 5% hypotesen

H₀: µ₁ = µ₂. Slutsatsen ska klart framg˚a. (5 p)

b) Antag nu, till skillnad fr˚an i (a)-delen, att det ¨ar k¨ant fr˚an tidigare studier att σ = 0.16.

Best¨am ett 95% konfidensintervall f¨or µ1− µ2, och testa p˚a signifikansniv˚an 5% hypotesen

H₀: µ₁ = µ₂. Slutsatsen ska klart framg˚a. (5 p)

Uppgift 5

Sm˚att & gott är en chokladkonfektyr som best˚ar av mjölkchoklad med ett skal av färgad soc- kerkaramell. Företaget som tillverkar dem hävdar att förekomsten av de olika färgerna ges enligt tabellen nedan:

Brun Gul R¨od Orange Bl˚a Gr¨on

30% 20% 20% 10% 10% 10%

En stor p˚ase med Sm˚att & gott-konfektyrer valdes ut slumpmässigt och den visade sig inneh˚alla 58 bruna, 45 gula, 27 röda, 14 orangea, 12 gröna och 13 bl˚aa konfektyrer. Genomför ett lämpligt test som prövar om detta resultat stöder företagets p˚ast˚aende. Var noga med att ange dina hypoteser och motivera dina slutsatser. Använd 5% signifikansniv˚a. (10 p)

Uppgift 6

En astronom i Sverige ska mäta avst˚andet µ till en ljusstark stjärna. Hen utför n₁ mätningar, x₁, . . . , x_n₁, som antas vara utfall av oberoende stokastiska variabler X₁, . . . , X_n₁. En kollega i Chile vill mäta samma avst˚and och utför n₂ mätningar, y₁, . . . , y_n₂, som antas vara utfall av oberoende stokastiska variabler Y₁, . . . , Y_n₂. Mätresultatet för det svenska instrumentet har standardavvikelse σ₁ och mätresultatet för det chilenska instrumentet har standardavvikelse σ₂. Inget av de b˚ada instrumenten har n˚agra systematiska fel. Nu vill astronomerna kombinera sina b˚ada skattningar av avst˚andet, ¯x och ¯y, genom att bilda linjärkombinationen µ^∗_obs = c₁· ¯x + c₂· ¯y, där c₁ och c₂ är tv˚a konstanter. Ange det villkor p˚a konstanterna c₁ och c₂ som gör skattningen µ^∗ väntevärdesriktig.

Antag vidare att n₁ = n₂ och att σ₁ = 2 · σ₂. Vilka v¨arden p˚a konstanterna c₁ och c₂ ger den mest effektiva skattningen µ^∗_obs = c₁· ¯x + c₂· ¯y? (10 p)

Lycka till!

(3)

L ¨OSNINGSF ¨ORSLAG TENTAMEN I SF1901 SANNOLIKHETSTEORI OCH STATISTIK.

ONSDAGEN DEN 25 AUGUSTI 2017 KL 08.00–13.00 Uppgift 1

Det ¨ar givet att P (A) = 0.05, P (B) = 0.02 och P (C) = 0.03 samt att P (C | B) = 0.5. Vi f˚ar P (B ∩ C) = P (B)P (C | B) = 0.02 · 0.5 = 0.01.

Den s¨okta sannolikheten ¨ar

P (A ∪ B ∪ C) = P (A) + P (B ∪ C) − P (A ∩ (B ∪ C))

= P (A) + P (B ∪ C) − P (A)P (B ∪ C), ty A ¨ar oberoende av B och C. Vidare ¨ar

P (B ∪ C) = P (B) + P (C) − P (B ∩ C) = 0.02 + 0.03 − 0.01 = 0.04 och vi f˚ar allts˚a

P (A ∪ B ∪ C) = 0.05 + 0.04 − 0.05 · 0.04 = 0.088.

Svar: Sannolikheten att en godtyckligt vald artikel ¨ar defekt ¨ar 0.088.

Uppgift 2

L˚at Xi vara en stokastisk variabel som betecknar tid mellan att belysningsenhet i − 1 och att belysningsenhet i g˚ar sönder. Vi vet att X_i ∈ Exp(2) för alla positiva heltal i, eftersom väntevärdet för en Exp(λ)-fördelat stokastisk variabel är 1/λ.

a) Vi söker sannolikheten P (X7 > 1) och f˚ar med hjälp av täthetsfunktionen för exponenti- alfördelningen

P (X₇ > 1) = Z ∞

1

p_X₇(x)dx = Z ∞

1

2e^−2xdx = [−e^−2x]^∞₁ = e⁻².

Svar: Sannolikheten att det dröjer mer än en dag är 0.135.

b) L˚at Y = P100

i=1X_i vara en stokastisk variabel som betecknar tiden som det tar innan 100 belysningsenheter har g˚att sönder. Vi vill bestämma sannolikheten P (Y ≥ 45). Eftersom Y är en summa av ett stort antal oberoende och likafördelade stokastiska variabler, s˚a ger Centrala Gränsvärdessatsen att Y är approximativt normalfördelad. Eftersom E(X_i) = 0.5 och D(X_i) = 0.5, s˚a gäller

Y ∼ N (100 · 0.5,√

100 · 0.5) = N (50, 5).

(4)

För att kunna använda kvantiler för den standardiserade normalfördelningen, s˚a gör vi om- skrivningen

P (Y ≥ 45) = P Y − 50

5 ≥ 45 − 50 5

= P (Z ≥ −1), d¨ar Z ∈ N (0, 1). P˚a grund av symmetri g¨aller det att

P (Z ≥ −1) = P (Z ≤ 1) = Φ(1) = 0.841.

Svar: Sannolikheten att det dr¨ojer minst 45 dagar ¨ar 0.841.

Uppgift 3

För att kunna bestämma minsta-kvadratskattningen behöver vi bestämma väntevärdet av de stokastiska variablerna X_i. Fördelningsfunktionen för X_i ges, enligt definitionen och den givna informationen i uppgiftsformuleringen, av

F_X_i(x) = P (X_i ≤ x) = 1 − S_X(x) = 1 − (1 − x^θ+1) = x^θ+1.

Fr˚an sambandet mellan täthets- och fördelningsfunktionen för en kontinuerlig stokastisk variabel f˚as vidare

E(X_i) = Z 1

0

xp_X_i(x)dx = Z 1

0

xF_X⁰

i(x)dx = Z 1

0

x(θ + 1)x^θdx = Z 1

0

(θ + 1)x^θ+1dx

= (θ + 1)x^θ+2 θ + 2

¹

0

= θ + 1 θ + 2.

Minsta-kvadratskattningen av den ok¨anda parametern θ minimerar kvadratsumman

Q(θ) =

n

X

i=1

(x_i− E(X_i))² =

n

X

i=1

x_i− θ + 1 θ + 2

2

.

Derivering med avseende p˚a θ ger dQ

dθ = 2

n

X

i=1

x_i− θ + 1 θ + 2

−1(θ + 2) − 1(θ + 1) (θ + 2)²

= − 2

(θ + 2)²

n

X

i=1

x_i−n(θ + 1) θ + 2

! .

S¨atter vi derivatan till noll, s˚a f˚ar vi, med notationen ¯x = ¹_nPn

i=1x_i, ekvationen dQ

dθ = 0 ⇒

n

X

i=1

x_i− n(θ + 1)

θ + 2 = 0 ⇒ x =¯ θ + 1

θ + 2 ⇒ (θ + 2)¯x = θ + 1

⇒ θ(¯x − 1) = 1 − 2¯x ⇒ θ = 1 − 2¯x

¯ x − 1 . Svar: Minsta-kvadratskattningen av θ ¨ar θ_obs^∗ = ^2¯_1−¯^x−1_x.

(5)

Uppgift 4

a) Vi har tv˚a normalfördelade stickprov med samma okända varians. Vi bestämmer först ett konfidensintervall för differensen µ₁ − µ₂ av de b˚ada väntevärdena. Enligt avsnitt 11.2 i formelsamlingen gäller det att

X − Y − (µ₁− µ₂) Sq

1 n1 + _n¹

2

∼ t(n₁+ n₂− 2),

d¨ar

S² = (n₁− 1)S₁²+ (n₂− 1)S₂²

n₁+ n₂− 2 = 1 n₁+ n₂ − 2

n1

X

i=1

(X_i− X)²+

n2

X

i=1

(Y_i− Y )².

Fr˚an definitionen av t-fördelningens kvantiler och det faktum att n₁ = 8 och n₁ = 10 gäller det därmed att

P

−t0.025(16) ≤ X − Y − (µ₁− µ₂) S

q9 40

≤ t0.025(16)

= 0.95,

vilket efter omskrivningar av de b˚ada olikheterna ger P

X − Y − t_0.025(16)S r 9

40 ≤ µ₁− µ₂ ≤ X − Y + t_0.025(16)S r 9

40

= 0.95.

Ett konfidensintervall med konfidensgrad 95% f¨or µ₁− µ₂ ges d¨armed av

I_µ₁−µ₂ = x − y ± t_0.025(16)s r 9

40 = −0.1543 ± 2.12

r0.1277 + 0.1997 16

r 9 40

= −0.1543 ± 0.1438 = (−0.2981, −0.0105).

Eftersom 0 /∈ I_µ₁−µ₂, s˚a avvisas H₀ (p˚a signifikansniv˚an 5%).

Svar: P˚a signifikansniv˚an 5% finns det en skillnad mellan halterna av quercetin hos de b˚ada

¨appelsorterna.

b) Vi har tv˚a normalfördelade stickprov med samma kända varians σ = 0.16. Vi bestämmer först ett konfidensintervall för differensen µ₁ − µ₂ av de b˚ada väntevärdena. Enligt avsnitt 11.2 i formelsamlingen gäller det att

X − Y − (µ₁ − µ₂) σq

1 n1 +_n¹

2

∼ N (0, 1).

Fr˚an definitionen av normalfördelningens kvantiler och det faktum att n₁ = 8 och n₁ = 10 gäller det därmed att

P

−λ_0.025≤ X − Y − (µ1− µ2) σ

q9 40

≤ λ_0.025

= 0.95,

(6)

och genom omskrivning av de b˚ada olikheterna f˚as P

X − Y − λ_0.025σ r 9

40 ≤ µ₁− µ₂ ≤ X − Y + λ_0.025σ r 9

40

= 0.95, vilket ger konfidensintervallet

I_µ₁−µ₂ = x − y ± λ_0.025σ r 9

40 = −0.1543 ± 1.96 · 0.16 r 9

40 = −0.1543 ± 0.1488

= (−0.3031, −0.0055).

Eftersom 0 /∈ I_µ₁_−µ₂, s˚a avvisas H₀ (p˚a signifikansniv˚an 5%).

Svar: P˚a signifikansniv˚an 5% finns det en skillnad mellan halterna av quercetin hos de b˚ada

¨appelsorterna.

Uppgift 5

Vi gör här ett test av given fördelning (avsnitt 14.3 i formelsamlingen). Som nollhypotes H0 väljer vi att fördelningen av färgerna är s˚asom godistillverkaren p˚ast˚ar, dvs att

P (Brun) = p₁ = 0.3, P (Gul) = p₂ = 0.2, P (R¨od) = p₃ = 0.2, P (Orange) = p₄ = 0.1, P (Bl˚a) = p₅ = 0.1, P (Gr¨on) = p₆ = 0.1.

Mothypotesen H₁ är att minst en av sannolikheterna ovan avviker fr˚an det givna värdet p_j. L˚at x_j beteckna antalet konfektyrer av färg j i den undersökta p˚asen och l˚at n = P6

j=1x_j = 166.

Teststorheten blir Q =

6

X

j=1

(x_j− np_j)²

np_j = (58 − 169 · 0.3)²

169 · 0.3 +(45 − 169 · 0.2²

169 · 0.2 + (27 − 169 · 0.2)² 169 · 0.2 + (14 − 169 · 0.1)²

169 · 0.1 +(12 − 169 · 0.1)²

169 · 0.1 +(13 − 169 · 0.1)²

169 · 0.1 = 8.95.

Om H₀ är sann och np_j ≥ 5 s˚a är 8.95 ett utfall fr˚an en stokastisk variabel som approximativt har en χ²-fördelning med 6 − 1 = 5 frihetsgrader. Eftersom np_j ≥ 16.6 > 5 i detta fall s˚a är villkoret uppfyllt. Eftersom χ²_0.05(5) = 11.1 > 8.95, s˚a kan H₀ inte förkastas p˚a niv˚an 5%. Alternativt kan vi beräkna sannolikheten att en χ²(5)-variabel är större än eller lika med 8.95 (X2cdf p˚a en TI-räknare). Denna sannolikhet, dvs p-värdet för testet, är 0.111. Detta p-värde är s˚a högt att vi inte kan förkasta H₀ p˚a riskniv˚an 5%. B˚ade teststorheten och p-värdet f˚as direkt med funktionen X2-Test p˚a en TI-räknare.

Svar: P˚a riskniv˚an 5% stämmer företagets p˚ast˚aende om fördelningen av färgerna.

Uppgift 6

Skattningen µ^∗ är väntevärdesriktig om E(µ^∗) = µ. Eftersom µ^∗ = c₁X + c¯ ₂Y , s˚¯ a gäller E(µ^∗) = E(c₁X + c¯ ₂Y ) = c¯ ₁E( ¯X) + c₂E( ¯Y ) = c₁

n₁

n1

X

i=1

E(X_i) + c₂ n₂

n2

X

j=1

E(Y_j)

= c1

n₁n₁µ + c2

n₂n₂µ = (c₁+ c₂)µ.

(7)

Skattningen är allts˚a väntevärdesriktig om c₁+ c₂ = 1. Den mest effektiva skattningen erh˚alls om c₁ och c₂ väljs s˚a att variansen av skattningen minimeras. Variansen av skattningen ges av

V (µ^∗) = V (c₁X + c¯ ₂Y ) = c¯ ₁²V ( ¯X) + c²₂V ( ¯Y ) = c²₁ n²₁

n1

X

i=1

V (X_i) + c²₂ n²₂

n2

X

j=1

V (Y_j)

= c²₁

n₁σ₁²+ c²₂ n₂σ²₂.

Ins¨attning av antagandena n₁ = n₂ och σ₁ = 2 · σ₂ samt villkoret c₁+ c₂ = 1 ger vidare V (µ^∗) = c²₁

n₁(2σ2)²+ c²₂

n₁σ₂² = σ₂²

n₁(4c²₁+ c²₂) = σ²₂

n₁(4c²₁+ (1 − c1)²) = σ₂²

n₁(5c²₁− 2c1+ 1).

För att bestämma minimum av variansen, s˚a deriverar vi detta uttryck med avseende p˚a c₁ och sätter derivatan till noll.

0 = dV (µ^∗) dc₁ = σ₂²

n₁(10c1− 2) ⇒ 10c1− 2 = 0 ⇒ c1 = 1 5.

Teckenstudium av andraderivatan visar att detta v¨arde p˚a c₁ motsvarar ett minimum. Det opti- mala v¨ardet p˚a c₂ blir vidare c₂ = 1 − c₁ = 1 − ¹₅ = ⁴₅.

Svar: Den linjärkombination av mätningarna som ger den mest effektiva väntevärdesriktiga skattningen är µ^∗_obs = (¯x + 4¯y)/5.