Po¨ ang totalt f¨ or del 1: 25 (9 uppgifter) Tentamensdatum 2011-10-25 Po¨ ang totalt f¨ or del 2: 30 (3 uppgifter) Skrivtid 09.00 – 14.00 L¨ arare: Adam Jonsson, Lennart Karlberg och Ove
Edlund
Jourhavande l¨ arare: Adam Jonsson
Till˚ atna hj¨ alpmedel: • R¨ aknedosa,
• Kursboken V¨ annman: Matematisk statistik. I kursboken f˚ ar anteckningar och post-it lappar finnas, men inte l¨ osta exempel.
• Kompendium i regressionsanalys
• Formelblad
• Tabeller
Tentamen best˚ ar av tv˚ a delar. P˚ a den f¨ orsta delen, som ¨ ar obligatorisk f¨ or att kunna bli godk¨ and, ska enbart svar l¨ amnas in, men l¨ osningar f˚ ar bifogas. Observera dock att dessa kommer ej att bed¨ omas utan enbart anv¨ andas vid gr¨ ansfall f¨ or att avg¨ ora om n˚ agon uppgift kan ”r¨ attas upp” p˚ a grund av slarvfel. P˚ a del 1 ges inga delpo¨ ang p˚ a uppgifterna.
Svaren f¨ or del 1 ska fyllas i p˚ a det blad som bifogas tentamen. Detta blad m˚ aste l¨ amnas in. L¨ agg detta blad f¨ orst bland l¨ osningarna. Om inte det ifyllda svarsbladet har l¨ amnats in s˚ a bed¨ oms tentamen som underk¨ and. F¨ or godk¨ ant kr¨ avs minst 17 po¨ ang p˚ a del 1. Med 2 extrapo¨ ang fr˚ an laborationerna och KGB s˚ a r¨ acker det allts˚ a med 15 po¨ ang av de 25 m¨ ojliga f¨ or godk¨ ant.
P˚ a den andra delen, som g¨ aller tentamen f¨ or ¨ overbetyg, ska fullst¨ andiga l¨ osningar l¨ amnas in. T¨ ank p˚ a att redovisa dina l¨ osningar p˚ a ett klart och tydligt s¨ att och motivera resonemangen. Vid bed¨ omningen av l¨ osningarna l¨ aggs stor vikt vid hur l¨ osningarna ¨ ar motiverade och redovisade. F¨ or betyg 4 kr¨ avs godk¨ ant p˚ a den f¨ orsta obligatoriska delen samt minst 13 po¨ ang fr˚ an den andra delen f¨ or ¨ overbetyg. F¨ or betyg 5 kr¨ avs godk¨ ant p˚ a den f¨ orsta obligatoriska delen samt minst 23 po¨ ang fr˚ an den andra delen f¨ or ¨ overbetyg.
OBS! Det g˚ ar inte att kompensera underk¨ ant p˚ a den f¨ orsta korta delen av tentamen med po¨ ang p˚ a den andra delen.
Ange p˚ a tentamensomslaget om du har l¨ amnat in l¨ osningar p˚ a del 2 genom att kryssa f¨ or de sista tre uppgifterna.
Om du plussar f¨ or ¨ overbetyg s˚ a skriv detta p˚ a tentamensomslaget.
1. En kvinnlig student i Lule˚ a v¨ aljs ut slumpm¨ assigt. Sannolikheten att hon ¨ ager en mobiltelefon ¨ ar 84%, sannolikheten att hon ¨ ager en cykel
¨
ar 42% och sannolikheten att hon ¨ ager b˚ ade en mobil och en cykel ¨ ar 38%. Hur stor ¨ ar sannolikheten att hon varken ¨ ager en mobiltelefon eller en cykel? Ange ditt svar i procent utan decimaler. (1p) 2. F¨ or m˚ anga sjukdomar ¨ ar diagnosen os¨ aker. Dels kan en person med
sjukdomen bli friskf¨ orklarad, dels kan en frisk person f˚ a diagnosen sjuk.
Antag att en godtycklig person har en viss sjukdom med sannolikhet 0.1. Antag vidare att diagnosmetoden ger r¨ att resultat om en person
¨
ar frisk med sannolikhet 0.85, och r¨ att resultat om personen ¨ ar sjuk med sannolikhet 0.94. Hur stor ¨ ar sannolikheten f¨ or att diagnosen blir korrekt? Ange ditt svar i procent med minst en decimal. (2p) 3. Victoria har 30 b¨ ocker i sin bokhylla varav 6 handlar om mekanik
(hennes favorit¨ amne). Om Victoria v¨ aljer ut 4 b¨ ocker p˚ a m˚ af˚ a fr˚ an sin bokhylla, vad ¨ ar d˚ a sannolikheten att minst en handlar om mekanik? (2p) 4. Georg kan inte motst˚ a frestelsen att spela Roulette. Det g˚ ar till s˚ a att
man satsar p˚ a ett tal mellan 1 och 38. Sedan v¨ aljs ett tal med likformig f¨ ordelning p˚ a 1, 2, . . . , 38 (se formelbladet) och man vinner (36 g˚ anger insatsen) om man satsat p˚ a detta tal.
(a) Georg spelar Roulette 5 g˚ anger. Ber¨ akna sannolikheten att han vinner minst tv˚ a av de fem spelomg˚ angarna. (2p) (b) Om Georg spelar 114 g˚ anger, vad ¨ ar d˚ a sannolikheten att han
vinner minst 5 g˚ anger? Den s¨ okta sannolikheten kan ber¨ aknas exakt, men en mycket bra (och godtagbar) approximation kan f˚ as genom att anv¨ anda Poissonf¨ ordelningen p˚ a l¨ ampligt s¨ att. (2p) 5. Anna och Stefan ¨ ar ute och fiskar. F¨ or en ordentlig middag beh¨ ovs
tv˚ a fiskar. De har bara ett metsp¨ o med sig och best¨ ammer sig d¨ arf¨ or f¨ or att f¨ orst l˚ ata Stefan fiska tills han har f˚ att en fisk och sedan l˚ ata Anna fiska. Den tid (enhet: minuter) som Stefan beh¨ over f¨ or att f˚ a en fisk ¨ ar Exponentialf¨ ordelad med λ = 1/15. Den tid Anna beh¨ over ¨ ar Exponentialf¨ ordelad med λ = 1/10 och oberoende av Stefans.
(a) Ber¨ akna sannolikheten att det tar mellan 15 och 20 minuter f¨ or
Stefan att f˚ a upp sin fisk. (1p)
(b) Ber¨ akna standardavvikelsen f¨ or den sammanlagda tid som Anna
och Stefan fiskar. (2p)
6. P˚ a macken Qmix f˚ ar man i genomsnitt 7 liter bensin f¨ or 100 kr. Den
faktiska m¨ angden (enhet: liter) varierar slumpm¨ assigt och kan anses
(b) Hamza tankar f¨ or 400 kr. Vad ¨ ar sannolikheten att han f˚ ar ˚ atminstone
28.1 liter? (2p)
7. En l¨ akare vill j¨ amf¨ ora tv˚ a mediciner, A och B, mot h¨ ogt blodtryck med hj¨ alp en nyligen genomf¨ ord studie omfattande 20 personer, som var och en provat de tv˚ a olika medicinerna vid slumpm¨ assigt valda tillf¨ allen.
En normalf¨ ordelningsplot ¨ over de 20 differenserna z
i= x
i− y
i, d¨ ar x
i¨
ar blodtrycket f¨ or person nummer i efter behandling med medicinen A, gav f¨ oljande resultat.
Figur 1: Normalf¨ ordelningsplot F¨ or att testa
H
0: “ingen genomsnittlig skillnad mellan medicinerna” mot
H
1: “medicin A har i genomsnitt en st¨ orre d¨ ampande effekt ¨ an medicin B”
p˚ a 5 % signifikansniv˚ a v¨ aljer hon mellan tv˚ a test. F¨ or det f¨ orsta testet f¨ orkastas H
0om x ≥ 15, d¨ ar x ¨ ar antalet negativa differenser. F¨ or det andra testet f¨ orkastas H
0om
t = z − µ ¯
0s
z/ √
20 < −1.729,
d¨ ar µ
0har ett speciellt v¨ arde och d¨ ar s
z¨ ar stickprovsstandardavvikel- sen f¨ or z
1, . . . , z
20.
(a) Vilket ¨ ar det speciella v¨ ardet p˚ a µ
0? (1p)
(b) Vilket av f¨ oljande p˚ ast˚ aenden st¨ ammer (ange ett alternativ). L¨ akaren
b¨ or v¨ alja testet som baseras p˚ a . . .
(1). . . x eftersom vi har att g¨ ora med en kontinuerlig f¨ ordelning.
(2). . . x eftersom differensv¨ ardena inte ligger p˚ a samma r¨ ata linje.
(3). . . x pga normalf¨ ordelningsplottens utseende.
(4). . . t pga normalf¨ ordelningsplottens utseende.
(5). . . t eftersom differensv¨ ardena inte ligger p˚ a samma r¨ ata linje.
(6). . . t eftersom m¨ atv¨ ardena troligen har en t-f¨ ordelning.
(2p) 8. En stormarknad som s¨ aljer bakad pastej har via kundunders¨ okningar
f˚ att veta att kunderna helst vill k¨ opa f¨ orpackningar med storleken 500 gram. Butiken sk¨ ar sj¨ alv till pastejen f¨ or sina f¨ orpackningar med hj¨ alp av en ¨ aldre v˚ ag och en kniv, vilket ger slumpm¨ assiga avvikelser. F¨ or att unders¨ oka om instrumenten beh¨ over kalibreras tas ett stickprov av f¨ orpackningar ut och v¨ ags p˚ a en v˚ ag som kan antas visa exakt vikt.
Antag att standardavvikelsen σ=9 hos vikten p˚ a en f¨ orpackning bakad pastej ¨ ar k¨ and i f¨ orv¨ ag. Antag ocks˚ a att m¨ atv¨ ardena ¨ ar observationer fr˚ an en normalf¨ ordelad stokastisk variabel.
Vilket ¨ ar det minsta antal observationer som kr¨ avs f¨ or att best¨ amma ett 99 % konfidensintervall vars bredd som ¨ ar h¨ ogst 5 gram? Svara med det minsta antal observationer som beh¨ ovs. (2p) 9. Ungef¨ ar h¨ alften av distrikten i New Hampshire p˚ abjuder anv¨ andandet
av syresatt bensin, f¨ or att minska de farliga utsl¨ appen fr˚ an bilar. Detta har dock lett till en ¨ okning av f¨ ororeningar i grundvattnet av MTBE (metyl-tert-butyleter). En studie har gjorts f¨ or hur dessa f¨ ororeningar beror av olika faktorer. En f¨ orsta analys med multipel regressionsa- nalys g¨ ors p˚ a datamaterialet. Efter att ett antal f¨ orklarande variabler eliminerats ˚ aterst˚ ar pH-v¨ arde och andel av n¨ arliggande mark som ¨ ar industrifastighet (IndPct). Resultatet av regressionsanalysen, med vis- sa detaljer borttagna, redovisas i tabell 1.
(a) Best¨ am f¨ orklaringsgraden R
2. (1p)
(b) Best¨ am residualspridningen s. (1p)
(c) Om vi vill p˚ avisa att koefficienten f¨ or pH ¨ ar skilld fr˚ an noll p˚ a 10% signifikansniv˚ a, vilket tal ska |t-kvot| j¨ amf¨ oras med? Och kan vi p˚ avisa att koefficienten ¨ ar skilld fr˚ an noll (JA/NEJ)? (1p) (d) Best¨ am ett 90 % konfidensintervall f¨ or hur MTBE f¨ or¨ andras om
pH h˚ alls konstantant och IndPct ¨ okas med en enhet. Svara med
den undre gr¨ ansen. (2p)
Tabell 1: Regression Analysis: MTBE versus pH; IndPct
The regression equation is MTBE = 5,9 - 0,87 pH + 0,628 IndPct
Predictor Coef SE Coef T P
Constant 5,90 11,54 0,51 ?
pH -0,874 1,587 -0,55 ?
IndPct 0,6276 0,1803 3,48 ?
S = ? R-Sq = ? R-Sq(adj) = 30,7%
Analysis of Variance
Source DF SS MS F P
Regression ? 370,71
Residual Error ? ?
Total 23 1010,52
Slut p˚ a del 1. Gl¨ om inte att bifoga svarsbladet med tentan!
.
Tabell f¨ or svar till del 1
Riv ut och l¨ agg svarsbladet f¨ orst i tentamen
Namn: . . . . Personnummer: . . . .
Fr˚ aga Svar Po¨ ang
1 Sannolikhet (procent, tv˚ a decimaler) 12.00 1
2 Sannolikhet (procent, tv˚ a decimaler) 85.9 2
3 Sannolikhet (procent, tv˚ a decimaler) 61.22 2
4 a Sannolikhet (procent, tv˚ a decimaler) 0.66 2
b Sannolikhet (procent, tv˚ a decimaler) 18.47 (18.25 exakt) 2
5 a Sannolikhet (procent, tv˚ a decimaler) 10.43 1
b Standardavvikelse (tre decimaler) 18.028 2
6 a Sannolikhet (procent, tv˚ a decimaler) 27.81 1
b Sannolikhet (procent, tv˚ a decimaler) 20.23 2
7 a V¨ arde p˚ a µ
0(en decimal) 0.0 1
b Ange 1,2,3,4,5 eller 6 4 2
8 Stickprovsstorleken 86 2
9 a f¨ orklaringsgrad (procent, tre decimaler) 36.685 1
b residualspridning (fyra decimaler) 5.5197 1
c |t-kvot| j¨ amf¨ ors med (tre decimaler) 1.721
JA eller NEJ NEJ 1
d undre gr¨ ans (fyra decimaler) 0.3173 2
Totalt antal po¨ ang 25
Vid bed¨ omningen av l¨ osningarna av uppgifterna i del 2 l¨ aggs stor vikt vid hur l¨ osningarna ¨ ar motiverade och redovisade. T¨ ank p˚ a att noga redovisa inf¨ orda beteckningar och eventuella antaganden.
10. Sara tar tunnelbanan till skolan varje dag. T˚ agen kommer 3 g˚ anger per timme, men Sara har varken tidtabell eller klocka. Hon betraktar d¨ arf¨ or sin v¨ antetid (enhet: minuter) som slumpm¨ assig. Ber¨ akna san- nolikheten att Saras totala v¨ antetid under sammanlagt 100 dagar (en termin) blir minst 1100 minuter under rimliga antaganden. Rimliga och v¨ almotiverade approximationer godtas! (10) L¨ osningsskiss H¨ ar har vi antagit att t˚ agen st˚ ar p˚ a perrongen un- der mycket kort tid. R(0, 20) f¨ ordelningen ger en rimlig modell f¨ or v¨ antetiden en dag. Antag att v¨ antetiderna ξ
1, . . . , ξ
100¨ ar oberoende.
S¨ okt ¨ ar P (ξ ≥ 1100), d¨ ar ξ = P
100j=1
ξ
j. Vi har approximativt ξ ∈ N (100µ, 10σ) enligt CGS. Formelbladet ger µ = 10 och σ = 20/ √
12.
Allts˚ a
ξ ∈ N (1000, 57.73), approximativt. Det ger P (ξ ≥ 1100) ' 0.04.
11. Tv˚ a personer, A och B, skall m¨ ata en fysikalisk konstant θ. De g¨ or en m¨ atning var med olika metoder, som b˚ ada ¨ ar v¨ antev¨ ardesriktiga och har samma precision. De stokastiska variablerna ξ
1och ξ
2som betecknar m¨ atv¨ ardet fr˚ an A respektive B kan antas oberoende. Att metoderna har samma precision inneb¨ ar att V (ξ
1) = V (ξ
2). Som upp- skattning av θ t¨ anker man anv¨ anda en linj¨ ar kombination av ξ
1och ξ
2, n¨ amligen
η = cξ
1+ (1 − c)ξ
2, d¨ ar c ¨ ar en konstant.
(a) Visa att η ¨ ar en v¨ antev¨ ardesriktig skattning av θ f¨ or varje v¨ arde p˚ a c.
(b) Visa att bland alla v¨ antev¨ ardesriktiga linj¨ arkombinationer av ξ
1och ξ
2¨ ar medelv¨ ardet (ξ
1+ ξ
2)/2 den skattning som har b¨ ast precision, dvs minst varians.
(10) L¨ osningsskiss
(a) Att metoderna ¨ ar v¨ antev¨ ardesriktga (VVR) m˚ aste tolkas som att E[ξ
1] = E[ξ
2] = θ. Sats 5A tv˚ a g˚ anger ger
E[η] = E[cξ
1+ (1 − c)ξ
2] = cE[ξ
1] + (1 − c)E[ξ
2] = cθ + (1 − c)θ = θ.
Allts˚ a ¨ ar η VVR.
(b) Alla VVR linj¨ arkombinationer ¨ ar p˚ a formen η = cξ
1+ (1 − c)ξ
2,
d¨ ar c ¨ ar en konstant. Sats 5A tv˚ a g˚ anger ger
Tabell 2: Det analyserade stickprovet
pH IndPct MTBE
7.15 1.35 0.2
7.15 0 0.2
6.77 0 0.2
7.37 0 0.2
6.26 1.37 0.2
6.72 0 0.2
8.24 0 0.39
8.22 0 0.2
8.09 11.8 0.2
7.66 3.2 0.2
6.94 3.09 0.2
7.57 0 2.06
8.1 0.21 0.26
8.04 0 0.2
7.81 0 0.2
7.7 0 0.72
7.59 17.46 2.7 7.7 12.91 0.2 7.45 21.36 32.8
7.62 0 0.37
5.43 0 0.34
5.85 0 0.33
6.56 0.84 0.83 7.75 14.92 0.2
12. Vi forts¨ atter att jobba med datamaterialet fr˚ an regressionsuppgiften i del 1. Tabell 2 visar datamaterialet, figur 2 visar residualplottarna, och figur 3 visar leverage v¨ ardena.
(a) Redovisa fullst¨ andiga modellantaganden, och tolka plottarna i figur 2 och 3. Vilka f¨ or¨ andringar f¨ oresl˚ ar du utifr˚ an detta och
utifr˚ an dina resultat i del 1? (6 p)
(b) En ny analys genomf¨ ors d¨ ar endast IndPct anv¨ ands som f¨ orklarande variabel. Resultatet av analysen redovisas i tabell 3. Finns det n˚ agot som indikerar att detta ¨ ar en f¨ orb¨ attring? Motivera!
Best¨ am ett 95% konfidensintervall f¨ or E(Y ) d˚ a X
0= 3.0. Som ledning ¨ ar det givet att X = 3.69, TSS
X= 987.44. (4 p) L¨ osningsskiss
(a) Modellantagande Y
i= β
0+β
1X
1,i+β
2X
2,i+ε
i, i = 1, 2, 3, 4, . . . , 24.
ε ∈ N (0, σ), ¨ ar oberoende.
Y – MTBE, X
1– pH, X
2–IndPct 5.43 ≤ X
1≤ 8.24, 0 ≤ X
2≤ 21.36
Normalf¨ ordelningsplotten f¨ oljer inte en linje. Man kan d¨ armed ifr˚ agas¨ atta
om normalf¨ ordelningsantagandet g¨ aller f¨ or analysen. Residualplottar-
na visar tydligt att observation 19 ¨ ar en uteliggare, eftersom den stan-
dardiserade residualen ¨ ar st¨ orre ¨ an 3, och att residualplottarna ”lutar”.
Figur 2: Residualplottar
21 att betrakta som inflytelserika, och skall hanteras som uteliggare (se ovan).
(b) Justerade f¨ orklarinsgraden ¨ ar h¨ ogre, residualspridningen l¨ agre och alla f¨ orklarande variabler har en signifikant effekt, vilket allt pekar p˚ a en f¨ orb¨ attring i tabell 3. Konfidensintervall:
Y ˆ
0= −0.415 + 0.6050 · 3.0 = 1.4000 s
Yˆ0
= s
eq
1
n
+
(XTSS0−X)2X
= 5.43157 q
1
24
+
(3.0−3.69)987.44 2= 1.1151.
Konfidensintervallet ges d˚ a av ˆ Y
0± t
0.025(22) · s
Yˆ0