I den här datorövningen ser vi hur R kan utnyttjas för att kontrollera modellantaganden och beräkna konfidensintervall.

(1)

UPPSALA UNIVERSITET Matematiska institutionen M˚ans Thulin

Statistik f¨or ingenj¨orer 1MS008 VT 2011

DATOR ¨ OVNING 2: SKATTNINGAR OCH KONFIDENSINTERVALL

1 Inledning

I den här datorövningen ser vi hur R kan utnyttjas för att kontrollera modellantaganden och beräkna konfidensintervall.

2 Att kontrollera modellantaganden

För att kunna genomföra djupare statistisk analys av data s˚a m˚aste vi göra modellantaganden. Vi ska här titta p˚a metoder för att grafiskt undersöka antagandet att data kommer fr˚an en normalfördelad slumpvariabel.

Vi s˚ag p˚a föreläsningen att histogram och sannolikhetspapper kan används för att undersöka normalfördelningsantagandet. För data fr˚an en normalfördelning bör histogrammet likna normalfördelningens klockformade täthetsfunktion och p˚a sannolikhets- pappret s˚a bör punkterna ligga längs linjen – framförallt vid linjens mitt.

Vi börjar med att titta p˚a histogram och sannolikhetspapper för simulerade data fr˚an normalfördelningen:

par(mfrow=c(1,2)) # Gör att man f˚ar tv˚a figurer i samma grafikfönster y<-rnorm(50,0,1) # Generar 50 N(0,1)-fördelade observationer

hist(y,freq=FALSE) # Ritar histogram

curve(dnorm(x,mean(y),sd(y)),col=2,add=TRUE) # L¨agger till t¨athetsfunktion qqnorm(y);qqline(y) # Ritar sannolikhetspapper

Ovning. Prova att k¨¨ ora koden ovan n˚agra g˚anger f¨or att se hur figurerna varierar.

Jämför sedan med motsvarande figurer för simulerade data fr˚an exponentialfördelningen:

par(mfrow=c(1,2)) # Gör att man f˚ar tv˚a figurer i samma grafikfönster y<-rexp(50,1) # Generar 50 Exp(1)-fördelade observationer

hist(y,freq=FALSE) # Ritar histogram

curve(dnorm(x,mean(y),sd(y)),col=2,add=TRUE) # L¨agger till t¨athetsfunktion qqnorm(y);qqline(y) # Ritar sannolikhetspapper

Alternativt kan l˚adagram användas för att undersöka fördelningsantagandet. För nor- malfördelningen s˚a bör l˚adagrammet vara symmetriskt, medan det för exponentialfördelningen bör ha längre morrh˚ar upp˚at än ned˚at:

(2)

# L˚adagram f¨or simulerade N(1,1) och Exp(1)-data:

boxplot(rnorm(50,1,1),rexp(50,1),names=c("N(1,1)","Exp(1)")) 2.1 Centrala gr¨ansv¨ardessatsen

Centrala gränsvärdessatsen säger att summan av n stycken slumpvariabler är approximativt normalfördelad om n är tillräckligt stort. Vi ska nu använda v˚ara verktyg för att se om data är normalfördelade för att undersöka om satsen stämmer genom att titta p˚a summor av exponentialfördelade slumpvariabler. Nedanst˚aende kod ritar histogram för 1000 observationer av olika summor av exponentialfördelade simulerade slumpvariabler.

Kör koden och öppna sedan grafikfönstret i fullskärm.

expsum<-function(n,B) {

summa<-0 for(i in 1:n) {

summa<-summa+rexp(B) }

return((summa-n)/sqrt(n)) }

par(mfrow=c(3,4)) for(i in seq(1,60,5)) {

y<-expsum(i,1000)

hist(y,freq=FALSE,main=paste("Summan av",i,"Exp(1)-variabler")) curve(dnorm(x,0,1),col=2,add=TRUE)

}

P˚aminner histogrammet mer om normalfördelningens täthetsfunktion för summor av fler slumpvariabler?

Vi kan även rita sannolikhetspapper för summor av exponentialfördelade slumpvariabler:

par(mfrow=c(3,4)) for(i in seq(1,60,5)) {

y<-expsum(i,100)

qqnorm(y,main=paste("Summan av",i,"Exp(1)-variabler")) qqline(y)

}

Ligger punkterna mer l¨angs linjen ju fler slumpvariabler man summerar?

3 Konfidensintervall

3.1 Ett stickprov (passningstider)

Vi ska här anknyta till exempel 7.1 i läroboken där 8 observerade passningstider för mobiltelefoner analyserades. Mata in data för hand och lagra i en vektor kallad x:

(3)

x <- c(210,214,195,190,218,202,207,197)

Samma förutsättningar om normalfördelning etc. görs som i boken.

Ovning. Anv¨¨ and verktygen fr˚an avsnittet ovan för att undersöka om det verkar rimligt att data kommer fr˚an en normalfördelning (men kom ih˚ag att det antagandet alltid är sv˚art att undersöka för sm˚a stickprovsstorlekar).

Vi ska nu med hjälp av n˚agra f˚a kommandon i R skapa ett 95% konfidensintervall för den genomsnittliga vikten. Vi har ingen kunskap om fördelningens standardavvikelse och räknar därför med okänd standardavvikelse. Fr˚an teorin (s. 67-68 i boken) vet vi att intervallet d˚a ges av

h

¯

x ± t_α/2(n − 1) s

√n i Det finns tv˚a s¨att att angripa detta p˚a numeriskt:

1. Skriv in intervallet ovan manuellt

2. Använd en färdig rutin (vid namn t.test) För den första metoden, skriv

mv <- mean(x) stad <- sd(x) n <- 8

tkvantil <- qt(0.975,n-1)

mv - tkvantil*stad/sqrt(n) # Nedre intervallgräns mv + tkvantil*stad/sqrt(n) # Övre intervallgräns (Jämför med svaret i exempel 7.2!)

Som du säkert insett ger funktionen qt med lämpliga inargument kvantiler till t- fördelningen. Observera att 1 − α/2 = 0.975 d˚a α = 0.05; R använder allts˚a 1 − α/2 istället för α/2 som inparameter i kvantilfunktionen.

P˚a liknande sätt kan kvantiler för andra vanliga fördelningar erh˚allas. För nor- malfördelningens kvantiler används funktionen qnorm.

Ovning. Skriv t.ex. in f¨¨ oljande och jämför de värden du f˚ar med den vanliga tabellen p˚a sidan 82:

qnorm(0.975) qnorm(0.95)

För den andra metoden anropas helt enkelt rutinen t.test och man f˚ar d˚a ut, bok- stavligen i ett enda slag, förutom själva konfidensintervallet en mängd ytterligare in- formation. Kommando:

t.test(x)

Ar man en van anv¨¨ andare av R och kan sin statistik används med fördel metod 2. Är man nybörjare och ”vill veta vad man gör” kan metod 1 vara säkrare. Du noterade väl att de gav samma svar?

Konfidensgraden 0.95 är förinställd vid anropet av t.test, men kan ändras. Se hjälptexten ?t.test för detaljer, speciellt parametern conf.level.

(4)

3.2 Tv˚a stickprov

Rutinen t.test kan användas även för att beräkna konfidensintervall för skillnader i väntevärden mellan tv˚a stickprov. Här finns, som vi sett i teorin, tv˚a angreppssätt: tv˚a oberoende stickprov respektive stickprov i par.

3.2.1 Tv˚a oberoende stickprov

Tryckh˚allfastheten för tv˚a olika betongblandningar, av typen M20 respektive M25 ska jämföras. Vi läser in data i R:

M20<-c(35.50, 27.80, 35.80, 30.10, 27.60, 32.45, 30.20, 26.85, 31.10, 19.20, 25.86, 31.20, 25.60, 31.15, 35.80, 27.50, 28.73, 23.20, 18.95, 24.50, 22.45, 29.80, 35.65, 30.80, 24.01, 25.25, 27.55, 30.15, 24.50, 22.60)

M25<-c(31.20, 35.86, 31.00, 39.01, 35.60, 38.00, 29.68, 27.26, 30.88, 35.50, 28.88, 38.50, 27.60, 26.00, 37.10, 30.80, 34.45, 38.00, 33.51, 35.80, 31.20, 36.52, 29.82, 37.80, 35.01, 36.60, 32.25, 31.50, 28.65, 27.55)

Ovning. R¨¨ akna ut medelvärde för respektive datamaterial och rita l˚adagram med boxplot för att undersöka om det verkar finnas n˚agon skillnad mellan väntevärdet (µ_{M 20} respektive µ_{M 25}) för tryckh˚allfastheten för de tv˚a blandningarna.

Ett 99 % konfidensintervall f¨or differensen µ_{M 25}− µ_{M 20} ges av t.test(M25,M20,conf.level=0.99)

3.2.2 Stickprov i par

Som illustration använder vi R för exempel 7.6 (dragstyrka hos metallstänger). Här

¨

ar det fr˚aga om modellen stickprov i par, vilket m˚aste anges f¨or R med inparametern paired=TRUE:

xfore <- c(370,360,380,395,375); xefter <- c(400,396,412,420,410);

t.test(xefter,xfore,paired=TRUE) Jämför med beräkningarna i boken.

3.3 *Konfidensintervall f¨or p i Bin(n, p)

I avsnitt 7.3 i boken beskrivs hur man genom normalapproximation kan konstruera konfidensintervall f¨or parametern p i Bin(n, p)-f¨ordelningen. Konfidensintervallet

h ˆ p − λ_α/2

r1

np(1 − ˆˆ p), p + λˆ _α/2 r1

np(1 − ˆˆ p) i

har approximativt konfidensgrad 1 − α.

Konfidensgraden säger oss hur stor andelen försök som resulterar i konfidensintervall som inneh˚aller det sanna värdet p˚a p är om vi genomför ett stort antal försök. Om approximationen är bra s˚a borde andelen ligga nära 1 − α.

(5)

Vi ska här studera den faktiska konfidensgraden för konfidensintervall för p genom simulering. Koden nedan gör att funktionen binKonf(x,n) ger konfidensintervallet för en binomialfördelad observation x och antalet försök n.

binKonf<-function(x,n) {

p.hatt<-x/n

konf.int<-c(p.hatt-1.96*sqrt(1/n*p.hatt*(1-p.hatt)), p.hatt+1.96*sqrt(1/n*p.hatt*(1-p.hatt))) return(konf.int)

}

Ovning. F¨¨ or att testa funktionen jämför vi med exempel 7.4 p˚a s. 69 i boken. Där är x = 12 och n = 200. Prova att skriva binKonf(12,200) och kontrollera att det ger samma konfidensintervall som i boken.

Du kan sedan provköra funktionen för simulerade data genom att köra koden nedan n˚agra g˚anger. Prova gärna att ändra värdet p˚a n och p och se hur m˚anga g˚anger som värdet p˚a p ligger i konfidensintervallet.

n<-10; p<-0.5

x<-rbinom(1,n,p) # Ger en Bin(n,p)-f¨ordelad observation.

binKonf(x,n)

Slutligen kan du köra nedanst˚aende kod n˚agra g˚anger för att kolla hur stor andel av de 10000 simulerade konfidensintervallen som inneh˚aller det korrekta värdet p˚a p:

n<-10; p<-0.5

antal<-0 # Variabel f¨or simuleringen for(i in 1:10000)

{

x<-rbinom(1,n,p) # Ger en Bin(n,p)-f¨ordelad observation.

konf<-binKonf(x,n)

# Kolla om p ligger i konfidensintervallet:

if(konf[1]<=p && konf[2]>=p){antal<-antal+1}

}

# Skriv resultatet p˚a sk¨armen:

cat(paste("Andel konfidensintervall som inneh˚aller p:",antal/10000,"\n")) För vilka värden p˚a n och p ligger andelen nära 0.95?

Ovning. Anv¨¨ and koden för att undersöka tumregeln ”approximationen är bra om n · p · (1 − p) ≥ 5”!

4 *Skattningar ¨ ar slumpvariabler

Att en skattning är en slumpvariabel innebär att vi kan studera den precis som andra slumpvariabler och beräkna exempelvis dess väntevärde och standardavvikelse. P˚a s˚a vis kan vi teoretiskt jämföra olika skattningar för att avgöra vilken som är bäst. För det mesta vill vi att skattningen ska vara väntevärdesriktig (s˚a att den ”i genomsnitt” ger

(6)

det rätta värdet) och att dess standardavvikelse skall vara s˚a liten som möjligt (s˚a att skattningen förhoppningsvis inte avviker s˚a mycket fr˚an det sanna parametervärdet).

För m˚anga skattningar kan man relativt ”enkelt” räkna ut väntevärde och standardavvikelse. Exempelvis gäller det att om X1, . . . , Xn är oberoende N (µ, σ²)-fördelade slumpvariabler s˚a är stickprovsmedelvärdet ¯X ∼ N (µ, σ²/n) - denna används som bekant för att skatta väntevärdet µ.

Stickprovsmedelvärdet är inte den enda tänkbara skattningen av µ. En normalfördelad slumpvariabel med väntevärde µ har även median µ, s˚a en tänkbar estimator är stickprovsmedianen ˆX. Fördelningen för ˜X är, liksom väntevärde och standardavvikelse, betydligt sv˚arare att räkna ut än motsvarande egenskaper för stickprovsmedelvärdet.

H¨ar kommer R till v˚ar unds¨attning!

Antag att vi har 10 observationer fr˚an N (µ, 1)-fördelningen. Vi vill veta om den bästa skattningen är stickprovsmedelvärdet ¯X eller stickprovsmedianen ˜X. Vi vet fr˚an teo- retiska uträkningar att E( ¯X) = µ och att V ( ¯X) = 1/10. Genom att simulera ett antal observationer av ˜X kan vi skatta E( ¯X) och V ( ¯X).

Vi vet inte hur väntevärdet och variansen för ˜X beror p˚a µ, men vi kan prova att stoppa in olika värden p˚a µ för att se om skattningen är väntevärdesriktig och om variansen ändras d˚a µ ändras. Vi provar att sätta µ lika med 0, 1 och 5 och att simulera 1000 stickprov för varje väntevärde. Vi räknar ut medianen i varje stickprov och gör därmed 1000 simuleringar vardera av ˜X för de olika värdena p˚a µ. Vi använder sedan dessa för att skatta E( ˜X) och V ( ˜X) i de olika fallen.

med0<-med1<-med5<-NA # Variabler f¨or simuleringen for(i in 1:1000)

{

med0[i]<-median(rnorm(10,0,1)) med1[i]<-median(rnorm(10,1,1)) med5[i]<-median(rnorm(10,5,1)) }

# Skriv resultatet p˚a sk¨armen:

cat(paste(" my=0:\nE(medianen) =",mean(med0),"\nV(medianen) =",var(med0),"\n",

"my=1:\nE(medianen) =",mean(med1),"\nV(medianen) =",var(med1),"\n",

"my=5:\n--- E(medianen) =",mean(med5),"\nV(medianen) =",var(med5),"\n")) Ligger väntevärdet nära µ? Beror variansen för medianen p˚a värdet p˚a µ? Är variansen

mindre ¨an V ( ¯X) = 1/10? Vilken av skattningarna tycker du att man ska anv¨anda?