• No results found

Tentamen för kursen. Linjära statistiska modeller. 14 januari

N/A
N/A
Protected

Academic year: 2022

Share "Tentamen för kursen. Linjära statistiska modeller. 14 januari"

Copied!
7
0
0

Loading.... (view fulltext now)

Full text

(1)

Tentamen f¨ or kursen Linj¨ ara statistiska modeller

14 januari 2010 9–14

Examinator: Anders Bj¨orkstr¨om, tel. 16 45 54, bjorks@math.su.se

˚Aterl¨amning: Sal 22, hus 5, fredag 22/1 kl 12.15. Efter ˚aterl¨amningen finns skrivningarna hos Christina Nordgren, rum 303, hus 6.

Till˚atna hj¨alpmedel: Minir¨aknare. Utdelad formel- och tabellsamling.

L¨osningar finns p˚a www.math.su.se/matstat/tentor efter skrivtidens slut.

Krav f¨or godk¨ant: F¨or varje betygssteg kr¨avs b˚ade ett visst minsta antal po¨ang p˚a teoridelen (uppgifterna 1 och 2) och p˚a problemdelen (uppgifterna 3 - 5) enligt nedanst˚aende tabell. Resonemang skall vara klara och tydliga att f¨olja.

A B C D E

Teoridel 18 15 10 10 10 Problemdel 25 25 20 15 10

————————————————

Teoridel: Uppgift 1

I ett visst experiment vet man att en variabel Y beror p˚a tv˚a f¨orklarande variabler x och z p˚a ett s¨att som kan beskrivas av en multipel regressions- modell utan intercept. Data beskrivs allts˚a av

Yi= β1xi + β2zi + i , i = 1, . . . , N

d¨ar β1 och β2 ¨ar tv˚a ok¨anda koefficienter och alla i ¨ar oberoende och nor- malf¨ordelade med lika stor varians σ2.

a) H¨arled minsta-kvadrat-skattningarna ˆβ1 och ˆβ2 uttryckt i xi, Yi och

zi. (5 p)

b) Vad ¨ar v¨antev¨ardena E[ ˆβ1] och E[ ˆβ2]? Ber¨akna dem antingen genom att r¨akna fram dem eller genom att h¨anvisa till en allm¨an sats. (2 p)

(2)

c) Om talen xi och zi uppfyller ett visst villkor s˚a blir ˆβ1 och ˆβ2 oberoende.

Hur lyder detta villkor? (3 p)

Ledning: Inversen till en 2x2-matris kan ber¨aknas s˚ah¨ar:

a b c d

!−1

= 1

ad − bc

d −b

−c a

!

Teoridel: Uppgift 2

Betrakta en situation d¨ar villkoren f¨or ensidig variansanalys, modelltyp II,

¨

ar uppfyllda. Med andra ord, vi antar att data Yij beskrivs av formeln Yij = µ + δi+ ij, d¨ar δi ¨ar normalf¨ordelade variabler med varians σδ2, och

ij ¨ar normalf¨ordelade med varians σ2. Alla δi och ij ¨ar oberoende och har v¨antev¨arde noll. Vi ska nu intressera oss f¨or skattning av µ n¨ar vi har k stickprov av storlek n.

a) Om σδ2 och σ2 ¨ar k¨anda s˚a kan man h¨arleda ett konfidensintervall f¨or µ baserat p˚a normalf¨ordelningen. Visa att detta konfidensintervall kan skrivas

..± zp/2 s

σδ2 k + σ2

nk

d¨ar zp/2¨ar en l¨ampligt vald kvantil i den standardiserade normalf¨ordelningen.

(3 p) b) Om σδ2 och σ2 ¨ar ok¨anda kan man h¨arleda ett konfidensintervall f¨or µ baserat p˚a t-f¨ordelningen. G¨or det! (3 p) c) Antag att vi vill best¨amma ett 95 % konfidensintervall f¨or medelvikten µ av potatisar som ¨ar f¨orpackade i s¨ackar. Det finns variation mellan s¨ackar, som beskrivs av σδ2= 4. Det finns ocks˚a variation inom s¨ackar som beskrivs av σ2 = 10. Vi betraktar σδ2 och σ2 som k¨anda. Vi best¨ammer oss f¨or att v¨alja ut k s¨ackar och v¨aga n potatisar fr˚an varje s¨ack. Det kostar tio kronor att knyta upp en s¨ack och 25 ¨ore att v¨aga en potatis. F¨ors¨oket f˚ar h¨ogst kosta 125 kronor. Best¨am k och n s˚a att vi f˚ar kortaste m¨ojliga konfidensintervall

f¨or µ. (4 p)

(3)

Problemdel: Uppgift 3

Figure 1: Elf¨orbrukning som funktion av temperatur och pris

Ovanst˚aende figur visar elf¨orbrukningen under ett dygn f¨or 24 hush˚all i en amerikansk stad. M¨atningarna ¨ar gjorda dels under en period n¨ar elpriset var 8 cent per kilowattimme (markerat med asterisker i figuren), dels under en period n¨ar elen kostade 10 cent per kWh (cirklar i figuren). Samtidigt med elf¨orbrukningen noterades dygnets medeltemperatur. De stora dragen av figuren ¨ar l¨atta att f¨orst˚a. Behovet av el f¨or uppv¨armning minskar n¨ar temperaturen ¨okar, men n¨ar det blir varmare ¨an ungef¨ar 65 grader Fahren- heit (ungef¨ar 18 grader Celsius) s¨atter behovet av el f¨or luftkonditionering in. Dessutom ser man en tendens att anv¨anda mindre el n¨ar den ¨ar dyrare.

Ett elbolag vill anv¨anda dessa data f¨or att konstruera en modell som skall prediktera elf¨orbrukningen (y) n¨ar man vet temperatur (x1) och pris (x2).

Eftersom variationen med temperaturen inte ¨ar monoton inkluderar man andragradstermer i x1, men man ser inget behov av detta f¨or x2. Modellen blir allts˚a

Y = α + β1x1+ β2x2+ β11x12+ β12x1x2+ β112x12x2+  (1) d¨ar  ¨ar en slumpterm. Med denna modell f˚ar man bland annat de utskrifter som figur 2 visar.

(4)

Figure 2: Utskrifter med modell 1

a) En person vid f¨oretaget h¨avdar att priset inte har n˚agon betydelse, allts˚a att det bara ¨ar en slump att cirklarna i figuren ligger l¨agre ¨an asteriskerna.

D¨arf¨or g¨or man ocks˚a en kalkyl med samma modell som ovan, men stryker alla termer som inneh˚aller x2. Modellen ¨ar allts˚a

Y = α + β1x1+ β11x12+  (2) Man f˚ar utskrifter enligt figur 3. Modell (2) kan betraktas som en linj¨ar hypotes inom grundmodellen (1). St¨all upp en variansanalystabell f¨or test av hypotesen (2) och visa att hypotesen f¨orkastas p˚a niv˚an 5 %. (5 p)

Figure 3: Utskrifter med modell 2

b) Sedan man enats om att priset har betydelse uppst˚ar fr˚agan huruvida prisets betydelse ¨ar lika stor vid kallt v¨ader som vid varmt v¨ader. Efter en del diskussion kommer man fram till att man vill unders¨oka modellen

Y = α + β1x1+ β2x2+ β11x12+  (3) Utskrifter med denna modell (modell 3) framg˚ar av figur 4.

Figure 4: Utskrifter med modell 3

(5)

c) Med hj¨alp av denna tabell kan man, om man utg˚ar fr˚an att modell (1)

¨

ar rimlig, testa hypotesen att effekten av en prish¨ojning fr˚an 8 till 10 cent per kWh ¨ar lika stor f¨or alla v¨arden p˚a temperaturen. Beskriv hur man g¨or,

och genomf¨or testet. (5 p)

Problemdel: Uppgift 4

I en fabrik f¨orkromas lock i elektrolytiska bad. Man har funnit att krom- skiktets tjocklek varierar ganska mycket fr˚an lock till lock och ville d¨arf¨or i f¨orsta hand se om den variationen kunde f¨orklaras av skillnader mellan de tio olika bad som man hade till sitt f¨orfogande. Man tog d¨arf¨or tio lock fr˚an vart och ett av de tio baden, m¨atte kromskiktstjockleken p˚a varje lock och utf¨orde en ensidig variansanalys p˚a m¨atv¨ardena med bad som indelnings- grund. Kvadratsumma mellan bad blev 0.023 och inom bad 1.016.

a) S¨att upp en variansanalystabell och testa om det f¨oreligger n˚agon skillnad mellan de olika baden. (Du beh¨over inte skriva ut variansanalystabellens

v¨antev¨ardeskolumn.) (2 p)

b) Senare ins˚ag man att kromskiktets tjocklek sannolikt ocks˚a p˚averkas av vilken h¨ojd locken befann sig p˚a n¨ar de var i baden. Eftersom dessa h¨ojder inte noterats i det f¨orsta f¨ors¨oket gjorde man ett nytt f¨ors¨ok. Man tog fortfarande tio lock fr˚an varje bad, men f¨ordelade dem med tv˚a stycken p˚a vardera av fem fixa h¨ojdniv˚aer. En nyanst¨alld medarbetare matar in det nya f¨ors¨okets data i ett statistiskt programpaket och f˚ar ut f¨oljande kvadratsummor:

Kvadratsumma

Mellan bad 0.027

Mellan h¨ojder 0.827

Samspel 0.072

Inom celler 0.103

Totalt 1.029

Bygg ut variansanalystabellen med kolumnerna Frihetsgrader och Medel-

kvadratsumma. (3 p)

c) N¨ar medarbetarens mer erfarna kollegor f˚ar se resultatet s¨ager de att de

¨

ar alldeles s¨akra p˚a att det inte existerar n˚agra samspelseffekter mellan bad och h¨ojd. Modifiera variansanalystabellen mot bakgrund av detta, och avg¨or vilken eller vilka av faktorerna bad och h¨ojd som har s¨akerst¨alld inverkan

p˚a kromskiktets tjocklek. (5 p)

(6)

Problemdel: Uppgift 5

Vid framst¨allning av ett f¨arg¨amne varierade man f¨oljande fem processbetingelser:

| A Temperatur L˚ag (-) H¨og (+) Steg 1 |

| B Materialkvalitet L˚ag (-) H¨og (+)

| C Reduktiontryck Atmosf¨ariskt (-) F¨orh¨ojt (+) Steg 2 | D Torkningstryck L˚agt (-) H¨ogt (+)

| E Vakuuml¨ackage L˚ag (-) H¨og (+)

Av tekniska sk¨al visste man att A och B kunde samspela och likas˚a C, D och E. D¨aremot ¨ar inga samspel m¨ojliga mellan Steg 1 och Steg 2, dvs samspel mellan A eller B ˚a ena sidan och C, D eller E ˚a den andra. Kvalit´en m¨attes med en fotoelektrisk spektrometer d¨ar l˚aga v¨arden h¨orde samman med god kvalitet. Ett 25−1-f¨ors¨ok genomf¨ordes och utbytet blev, f¨or de olika faktorniv˚aerna:

A B C D E Utbyte

− − − − − 201.5

+ − − − + 178.0

− + − − + 183.5

+ + − − − 176.0

− − + − + 188.5

+ − + − − 178.5

− + + − − 174.5

+ + + − + 196.5

− − − + + 255.5

+ − − + − 240.5

− + − + − 208.5

+ + − + + 244.0

− − + + − 274.0

+ − + + + 257.5

− + + + + 256.0

+ + + + − 274.5

Om man r¨aknar effektskattningar som om f¨ors¨oket hade varit ett fullst¨andigt 24-f¨ors¨ok i faktorerna A, B, C och D, s˚a f˚ar man f¨oljande effektskattningar:

(7)

Effekt Skattning

A 0.22

B −3.78

C 7.03

D 33.34

AB 8.34

AC 1.53

AD 2.59

BC 4.16

BD −1.78

CD 7.16

ABC 0.03

ABD 2.34

ACD −3.84

BCD 1.16

ABCD −1.97

a) Var och en av skattningarna i tabellen ovan kan ses som en skattning av en summa av tv˚a av effekterna i ett fullst¨andigt 25-f¨ors¨ok (eller av skillnaden mellan tv˚a s˚adana effekter). Ange vilka dessa sexton parvisa summor (eller

skillnader) ¨ar. (2 p)

b) Med utg˚angspunkt fr˚an att ingen av variablerna i Steg 1 samspelar med n˚agon variabel i Steg 2, best¨am vilka av de sexton paren av effektskattningar som kan anv¨andas f¨or att skatta f¨ors¨oksfelens standardavvikelse. Anv¨and dem f¨or att skatta dels de enskilda f¨ors¨oksfelens standardavvikelse, dels ef- fektskattningarnas standardavvikelse. Ange tydligt vilken skattning som ¨ar

vilken. (3 p)

c) En effekt ¨ar betydligt st¨orre ¨an alla andra. Den ¨ar uppenbar redan vid ett ¨ogonkast p˚a data. Kontrollera att den ¨ar statistiskt s¨akerst¨alld. (3 p) d) CDE-effekten h¨orde inte till de redan i f¨orv¨ag uteslutna samspelseffek- terna. Den effekten ¨ar kopplad till en annan effekt, vilken? Vilken av de tv˚a kopplade effekterna ¨ar troligast som f¨orklaring till det observerade v¨ardet

p˚a effektskattningen? Motivera! (2 p)

References

Related documents

I en produktionsprocess blir enheterna, oberoende av varandra, felak- tiga med sannolikhet 0.01 och 300 enheter tillverkas. I en urna finns vita och

1) F¨or en av de missade m¨ordarna var stj¨arnhimlen inte helt korrekt - man hade n¨amligen ett krav p˚ a att stj¨arnhimlen skulle vara korrekt inom ±15 minuter sett fr˚

Man kan faktiskt g¨ora ett konfidensintervall f¨or medianen med konfidensgrad minst lika med 1 − α helt utan n˚ agra som helst antaganden om den bakom- liggande f¨ordelningen

Till exempel fick jag inte med n˚ agot Ljus- och Optikland i f¨ orsta f¨ ors¨ oket, och pilen mot Kosmologi, som ligger utanf¨ or den h¨ ar kartan, borde peka mer upp˚ at,

(b) Anv¨and matchningsmodellen som st¨od n¨ar du f¨orklarar var- f¨or h¨og arbetsl¨oshetsers¨attning (t.ex. genom gener¨osa f¨or- s¨akringar) kan leda till h¨ogre

L¨ osningen till uppgift 2(b)(ii) fr˚ an provduggan Vi m˚ aste visa tv˚ a

Matematiska institutionen Stockholms

I figur 9 visas ett förslag på hur flera enheter kan placeras i förhållande till varandra och kundroboten (orange cirkel, ej skalenlig) för att ge de efterfrågade tre