Tentamen f¨ or kursen Linj¨ ara statistiska modeller
14 januari 2010 9–14
Examinator: Anders Bj¨orkstr¨om, tel. 16 45 54, bjorks@math.su.se
˚Aterl¨amning: Sal 22, hus 5, fredag 22/1 kl 12.15. Efter ˚aterl¨amningen finns skrivningarna hos Christina Nordgren, rum 303, hus 6.
Till˚atna hj¨alpmedel: Minir¨aknare. Utdelad formel- och tabellsamling.
L¨osningar finns p˚a www.math.su.se/matstat/tentor efter skrivtidens slut.
Krav f¨or godk¨ant: F¨or varje betygssteg kr¨avs b˚ade ett visst minsta antal po¨ang p˚a teoridelen (uppgifterna 1 och 2) och p˚a problemdelen (uppgifterna 3 - 5) enligt nedanst˚aende tabell. Resonemang skall vara klara och tydliga att f¨olja.
A B C D E
Teoridel 18 15 10 10 10 Problemdel 25 25 20 15 10
————————————————
Teoridel: Uppgift 1
I ett visst experiment vet man att en variabel Y beror p˚a tv˚a f¨orklarande variabler x och z p˚a ett s¨att som kan beskrivas av en multipel regressions- modell utan intercept. Data beskrivs allts˚a av
Yi= β1xi + β2zi + i , i = 1, . . . , N
d¨ar β1 och β2 ¨ar tv˚a ok¨anda koefficienter och alla i ¨ar oberoende och nor- malf¨ordelade med lika stor varians σ2.
a) H¨arled minsta-kvadrat-skattningarna ˆβ1 och ˆβ2 uttryckt i xi, Yi och
zi. (5 p)
b) Vad ¨ar v¨antev¨ardena E[ ˆβ1] och E[ ˆβ2]? Ber¨akna dem antingen genom att r¨akna fram dem eller genom att h¨anvisa till en allm¨an sats. (2 p)
c) Om talen xi och zi uppfyller ett visst villkor s˚a blir ˆβ1 och ˆβ2 oberoende.
Hur lyder detta villkor? (3 p)
Ledning: Inversen till en 2x2-matris kan ber¨aknas s˚ah¨ar:
a b c d
!−1
= 1
ad − bc
d −b
−c a
!
Teoridel: Uppgift 2
Betrakta en situation d¨ar villkoren f¨or ensidig variansanalys, modelltyp II,
¨
ar uppfyllda. Med andra ord, vi antar att data Yij beskrivs av formeln Yij = µ + δi+ ij, d¨ar δi ¨ar normalf¨ordelade variabler med varians σδ2, och
ij ¨ar normalf¨ordelade med varians σ2. Alla δi och ij ¨ar oberoende och har v¨antev¨arde noll. Vi ska nu intressera oss f¨or skattning av µ n¨ar vi har k stickprov av storlek n.
a) Om σδ2 och σ2 ¨ar k¨anda s˚a kan man h¨arleda ett konfidensintervall f¨or µ baserat p˚a normalf¨ordelningen. Visa att detta konfidensintervall kan skrivas
Y¯..± zp/2 s
σδ2 k + σ2
nk
d¨ar zp/2¨ar en l¨ampligt vald kvantil i den standardiserade normalf¨ordelningen.
(3 p) b) Om σδ2 och σ2 ¨ar ok¨anda kan man h¨arleda ett konfidensintervall f¨or µ baserat p˚a t-f¨ordelningen. G¨or det! (3 p) c) Antag att vi vill best¨amma ett 95 % konfidensintervall f¨or medelvikten µ av potatisar som ¨ar f¨orpackade i s¨ackar. Det finns variation mellan s¨ackar, som beskrivs av σδ2= 4. Det finns ocks˚a variation inom s¨ackar som beskrivs av σ2 = 10. Vi betraktar σδ2 och σ2 som k¨anda. Vi best¨ammer oss f¨or att v¨alja ut k s¨ackar och v¨aga n potatisar fr˚an varje s¨ack. Det kostar tio kronor att knyta upp en s¨ack och 25 ¨ore att v¨aga en potatis. F¨ors¨oket f˚ar h¨ogst kosta 125 kronor. Best¨am k och n s˚a att vi f˚ar kortaste m¨ojliga konfidensintervall
f¨or µ. (4 p)
Problemdel: Uppgift 3
Figure 1: Elf¨orbrukning som funktion av temperatur och pris
Ovanst˚aende figur visar elf¨orbrukningen under ett dygn f¨or 24 hush˚all i en amerikansk stad. M¨atningarna ¨ar gjorda dels under en period n¨ar elpriset var 8 cent per kilowattimme (markerat med asterisker i figuren), dels under en period n¨ar elen kostade 10 cent per kWh (cirklar i figuren). Samtidigt med elf¨orbrukningen noterades dygnets medeltemperatur. De stora dragen av figuren ¨ar l¨atta att f¨orst˚a. Behovet av el f¨or uppv¨armning minskar n¨ar temperaturen ¨okar, men n¨ar det blir varmare ¨an ungef¨ar 65 grader Fahren- heit (ungef¨ar 18 grader Celsius) s¨atter behovet av el f¨or luftkonditionering in. Dessutom ser man en tendens att anv¨anda mindre el n¨ar den ¨ar dyrare.
Ett elbolag vill anv¨anda dessa data f¨or att konstruera en modell som skall prediktera elf¨orbrukningen (y) n¨ar man vet temperatur (x1) och pris (x2).
Eftersom variationen med temperaturen inte ¨ar monoton inkluderar man andragradstermer i x1, men man ser inget behov av detta f¨or x2. Modellen blir allts˚a
Y = α + β1x1+ β2x2+ β11x12+ β12x1x2+ β112x12x2+ (1) d¨ar ¨ar en slumpterm. Med denna modell f˚ar man bland annat de utskrifter som figur 2 visar.
Figure 2: Utskrifter med modell 1
a) En person vid f¨oretaget h¨avdar att priset inte har n˚agon betydelse, allts˚a att det bara ¨ar en slump att cirklarna i figuren ligger l¨agre ¨an asteriskerna.
D¨arf¨or g¨or man ocks˚a en kalkyl med samma modell som ovan, men stryker alla termer som inneh˚aller x2. Modellen ¨ar allts˚a
Y = α + β1x1+ β11x12+ (2) Man f˚ar utskrifter enligt figur 3. Modell (2) kan betraktas som en linj¨ar hypotes inom grundmodellen (1). St¨all upp en variansanalystabell f¨or test av hypotesen (2) och visa att hypotesen f¨orkastas p˚a niv˚an 5 %. (5 p)
Figure 3: Utskrifter med modell 2
b) Sedan man enats om att priset har betydelse uppst˚ar fr˚agan huruvida prisets betydelse ¨ar lika stor vid kallt v¨ader som vid varmt v¨ader. Efter en del diskussion kommer man fram till att man vill unders¨oka modellen
Y = α + β1x1+ β2x2+ β11x12+ (3) Utskrifter med denna modell (modell 3) framg˚ar av figur 4.
Figure 4: Utskrifter med modell 3
c) Med hj¨alp av denna tabell kan man, om man utg˚ar fr˚an att modell (1)
¨
ar rimlig, testa hypotesen att effekten av en prish¨ojning fr˚an 8 till 10 cent per kWh ¨ar lika stor f¨or alla v¨arden p˚a temperaturen. Beskriv hur man g¨or,
och genomf¨or testet. (5 p)
Problemdel: Uppgift 4
I en fabrik f¨orkromas lock i elektrolytiska bad. Man har funnit att krom- skiktets tjocklek varierar ganska mycket fr˚an lock till lock och ville d¨arf¨or i f¨orsta hand se om den variationen kunde f¨orklaras av skillnader mellan de tio olika bad som man hade till sitt f¨orfogande. Man tog d¨arf¨or tio lock fr˚an vart och ett av de tio baden, m¨atte kromskiktstjockleken p˚a varje lock och utf¨orde en ensidig variansanalys p˚a m¨atv¨ardena med bad som indelnings- grund. Kvadratsumma mellan bad blev 0.023 och inom bad 1.016.
a) S¨att upp en variansanalystabell och testa om det f¨oreligger n˚agon skillnad mellan de olika baden. (Du beh¨over inte skriva ut variansanalystabellens
v¨antev¨ardeskolumn.) (2 p)
b) Senare ins˚ag man att kromskiktets tjocklek sannolikt ocks˚a p˚averkas av vilken h¨ojd locken befann sig p˚a n¨ar de var i baden. Eftersom dessa h¨ojder inte noterats i det f¨orsta f¨ors¨oket gjorde man ett nytt f¨ors¨ok. Man tog fortfarande tio lock fr˚an varje bad, men f¨ordelade dem med tv˚a stycken p˚a vardera av fem fixa h¨ojdniv˚aer. En nyanst¨alld medarbetare matar in det nya f¨ors¨okets data i ett statistiskt programpaket och f˚ar ut f¨oljande kvadratsummor:
Kvadratsumma
Mellan bad 0.027
Mellan h¨ojder 0.827
Samspel 0.072
Inom celler 0.103
Totalt 1.029
Bygg ut variansanalystabellen med kolumnerna Frihetsgrader och Medel-
kvadratsumma. (3 p)
c) N¨ar medarbetarens mer erfarna kollegor f˚ar se resultatet s¨ager de att de
¨
ar alldeles s¨akra p˚a att det inte existerar n˚agra samspelseffekter mellan bad och h¨ojd. Modifiera variansanalystabellen mot bakgrund av detta, och avg¨or vilken eller vilka av faktorerna bad och h¨ojd som har s¨akerst¨alld inverkan
p˚a kromskiktets tjocklek. (5 p)
Problemdel: Uppgift 5
Vid framst¨allning av ett f¨arg¨amne varierade man f¨oljande fem processbetingelser:
| A Temperatur L˚ag (-) H¨og (+) Steg 1 |
| B Materialkvalitet L˚ag (-) H¨og (+)
| C Reduktiontryck Atmosf¨ariskt (-) F¨orh¨ojt (+) Steg 2 | D Torkningstryck L˚agt (-) H¨ogt (+)
| E Vakuuml¨ackage L˚ag (-) H¨og (+)
Av tekniska sk¨al visste man att A och B kunde samspela och likas˚a C, D och E. D¨aremot ¨ar inga samspel m¨ojliga mellan Steg 1 och Steg 2, dvs samspel mellan A eller B ˚a ena sidan och C, D eller E ˚a den andra. Kvalit´en m¨attes med en fotoelektrisk spektrometer d¨ar l˚aga v¨arden h¨orde samman med god kvalitet. Ett 25−1-f¨ors¨ok genomf¨ordes och utbytet blev, f¨or de olika faktorniv˚aerna:
A B C D E Utbyte
− − − − − 201.5
+ − − − + 178.0
− + − − + 183.5
+ + − − − 176.0
− − + − + 188.5
+ − + − − 178.5
− + + − − 174.5
+ + + − + 196.5
− − − + + 255.5
+ − − + − 240.5
− + − + − 208.5
+ + − + + 244.0
− − + + − 274.0
+ − + + + 257.5
− + + + + 256.0
+ + + + − 274.5
Om man r¨aknar effektskattningar som om f¨ors¨oket hade varit ett fullst¨andigt 24-f¨ors¨ok i faktorerna A, B, C och D, s˚a f˚ar man f¨oljande effektskattningar:
Effekt Skattning
A 0.22
B −3.78
C 7.03
D 33.34
AB 8.34
AC 1.53
AD 2.59
BC 4.16
BD −1.78
CD 7.16
ABC 0.03
ABD 2.34
ACD −3.84
BCD 1.16
ABCD −1.97
a) Var och en av skattningarna i tabellen ovan kan ses som en skattning av en summa av tv˚a av effekterna i ett fullst¨andigt 25-f¨ors¨ok (eller av skillnaden mellan tv˚a s˚adana effekter). Ange vilka dessa sexton parvisa summor (eller
skillnader) ¨ar. (2 p)
b) Med utg˚angspunkt fr˚an att ingen av variablerna i Steg 1 samspelar med n˚agon variabel i Steg 2, best¨am vilka av de sexton paren av effektskattningar som kan anv¨andas f¨or att skatta f¨ors¨oksfelens standardavvikelse. Anv¨and dem f¨or att skatta dels de enskilda f¨ors¨oksfelens standardavvikelse, dels ef- fektskattningarnas standardavvikelse. Ange tydligt vilken skattning som ¨ar
vilken. (3 p)
c) En effekt ¨ar betydligt st¨orre ¨an alla andra. Den ¨ar uppenbar redan vid ett ¨ogonkast p˚a data. Kontrollera att den ¨ar statistiskt s¨akerst¨alld. (3 p) d) CDE-effekten h¨orde inte till de redan i f¨orv¨ag uteslutna samspelseffek- terna. Den effekten ¨ar kopplad till en annan effekt, vilken? Vilken av de tv˚a kopplade effekterna ¨ar troligast som f¨orklaring till det observerade v¨ardet
p˚a effektskattningen? Motivera! (2 p)