• No results found

Grundläggande matematisk statistik

N/A
N/A
Protected

Academic year: 2022

Share "Grundläggande matematisk statistik"

Copied!
24
0
0

Loading.... (view fulltext now)

Full text

(1)

Grundläggande matematisk statistik

Hypotestest II

Uwe Menzel, 2017

uwe.menzel@slu.se; uwe.menzel@matstat.de www.matstat.de

T-test för ett stickprov

(”One-sample t-test”)

Syfte

o testar en hypotes för väntevärdet 𝜇 i en normalfördelad population

o standardavvikelsen σ är okänd

o nollhypotes: 𝐻0: 𝜇 = 𝜇0

o ett stickprov → ҧ𝑥𝑜𝑏𝑠(punktskattning för 𝜇) (”one-sample test”)

𝜎 okänd stickprov

skattning för 𝜎2

skattning för 𝜇 ҧ𝑥 =1

𝑛∙ ෍

𝑖=1 𝑛

𝑥𝑖

(2)

Testvariabelmetoden

Detta värde används som teststatistika (”statistics”) i T-testet.

Om nollhypotesen 𝜇 = 𝜇0 gäller är 𝑋𝑖~ 𝑁𝜇0, 𝜎 och därför

Student’s t - fördelning 𝑓 = 𝑛 − 1 (frihetsgrader) 𝑇 =𝑋 −ത 𝜇0

𝑆ൗ 𝑛

~ 𝑡(𝑓)

En observation av slumpvariabeln T betecknas med ett litet t:

t = ҧ𝑥𝑜𝑏𝑠−𝜇0

𝑠ൗ 𝑛

observation, som framgår av stickprovet ( ҧ𝑥𝑜𝑏𝑠, 𝑠, 𝑛) och nollhypotesen (𝜇0) Om 𝜎 är okänd (och ersätts med skattningen S) får vi istället:

𝑋 −ത 𝜇0 𝜎ൗ

𝑛

~ 𝑁(0,1) 𝑋~ 𝑁ത 𝜇0, 𝜎

𝑛

www.matstat.de ; uwe.menzel@matstat.de

Testvariabelmetoden

I föreläsningen F11 hade vi beräknat det kritiska värdet 𝜔𝛼för den alternativa hypotesen 𝐻𝑎: 𝜇 > 𝜇0genom att lösa ekvationen

𝑃 ത𝑋 > 𝜔𝛼| 𝐻0𝑠𝑎𝑛𝑛 = 𝛼 (där 𝛼 är den förvalda sannolikheten för ett fel typ I).

Vi fick lösningen 𝜔𝛼= 𝜇0+ 𝑡𝛼 𝑛 − 1 ∙ 𝑠𝑛 (se också appendixet) Nollhypotesen förkastas om ҧ𝑥𝑜𝑏𝑠> 𝜔𝛼, dvs. om

ҧ𝑥𝑜𝑏𝑠> 𝜇0+ 𝑡𝛼 𝑛 − 1 ∙ 𝑠

𝑛 ensidigt test; 𝐻𝑎: 𝜇 > 𝜇0

ҧ𝑥𝑜𝑏𝑠−𝜇0

𝑠ൗ 𝑛

> 𝑡𝛼 𝑛 − 1 𝐻0förkastas alltså om

𝐻0förkastas alltså om

𝑡 > 𝑡𝛼 𝑛 − 1 ensidigt test; 𝐻𝑎: 𝜇 > 𝜇0 t = ҧ𝑥𝑜𝑏𝑠−𝜇0

𝑠ൗ 𝑛

teststatistika för T-test för ett stickprov.

𝐻0: 𝜇 = 𝜇0

www.matstat.de ; uwe.menzel@matstat.de

(3)

Testvariabelmetoden

Kritiskt område, signifikansnivå 𝛼 :

Om observationen 𝑡 hamnar i det kritiska området (röd), så förkastas nollhypotesen.

𝜶 𝑡(𝑛 − 1) 𝑓𝑋 𝑥

𝑡𝛼(𝑛 − 1)

𝐻0förkastas inte om t ligger här

𝐻0förkastas om t ligger här OBS: På bilden är storleken av den

kritiska regionen överdriven.

𝐻0förkastas om 𝑡 > 𝑡𝛼 𝑛 − 1 ensidigt test; 𝐻𝑎: 𝜇 > 𝜇0

www.matstat.de ; uwe.menzel@matstat.de

Analoga slutsatser kan man även dra för de andra alternativa hypoteser →

Kritiska områden

𝐻𝑎 test Ω𝛼

𝜇 > 𝜇0 ensidigt 𝑡 > 𝑡𝛼(𝑓)

𝐻𝑎 test Ω𝛼

𝜇 < 𝜇0 ensidigt 𝑡 < −𝑡𝛼(𝑓)

𝐻𝑎 test Ω𝛼

𝜇 ≠ 𝜇0 tvåsidigt 𝑡 > 𝑡𝛼2(𝑓) 𝜶

𝜶

𝜶ൗ

𝟐 𝜶ൗ

𝟐 𝐻0: 𝜇 = 𝜇0(nollhypotes) 𝜎 okänd

Om 𝑡 ∈ Ω𝛼(kritiskt område för signifikansnivå 𝛼) → förkasta 𝐻0

statistika

(4)

T-test: testvariabelmetoden

𝐻0: 𝜇 = 𝜇0(nollhypotes) 𝜎 okänd

statistika:

1. Nollhypotes H0: 𝜇 = 𝜇0

2. Alternativ hypotes 𝐻𝑎: 𝜇 ≠ 𝜇0eller 𝜇 > 𝜇0 eller 𝜇 < 𝜇0

3. Slå fast signifikansnivån, t. ex. α= 0.05

4. Beräkna statistikans värde:

5. Förkasta H0om t ligger i det kritiska området Ω𝛼:

𝑡𝛼(𝑓) = kvantil för t-fördelning med f frihetsgrader (tabell)

www.matstat.de ; uwe.menzel@matstat.de

T-test, exempel: vita blodceller

Antalet vita blodceller per ml blod hos friska vuxna är normalfördelad med 𝜇0= 7500 (mätt hos miljontals människor, kan därför anses som sanna populationsparameter)

Stickprov: 7130, 6845, 7055, 7235, 7200, 7450, 7750, 7950, 7340, 7150 Har astronauter samma genomsnittliga koncentration av vita blodceller?

1. Nollhypotes H0: 𝜇 = 𝜇0= 7500

2. Alternativ hypotes 𝐻𝑎: 𝜇 ≠ 𝜇0 (vi har ingen aning till vilket håll 𝜇 kan avvika)

3. Signifikansnivå α = 0.05

4. Beräkna statistikans värde:

5. Förkasta H0om t ligger i det kritiska området Ω𝛼: ҧ𝑥𝑜𝑏𝑠= 7310.5 ; 𝑠 = 330.0964 (se ”astronauter.R”)

Statistikan t ligger intei det kritiska området. Vi förkastar intenollhypotesen.

Vi kan inte påstå att astronauter har en koncentration av vita blodceller som avviker från ”jordpopulationen”.

www.matstat.de ; uwe.menzel@matstat.de

(5)

Direktmetoden (beräkning av p-värdet)

𝒑ൗ

𝟐 𝒑ൗ

𝟐

𝐻𝑎: 𝜇 > 𝜇0

ഥ𝑥𝑜𝑏𝑠 𝒑

𝒑 ഥ𝑥𝑜𝑏𝑠

𝐻𝑎: 𝜇 < 𝜇0

𝐻𝑎: 𝜇 ≠ 𝜇0

ഥ𝑥𝑜𝑏𝑠

ഥ𝑥𝑜𝑏𝑠> 𝜇0→ 𝑡 > 0

Om ഥ𝑥𝑜𝑏𝑠< 𝜇0förändras beräkningen lite, med samma resultat (om 𝑡 används) 𝐻0: 𝜇 = 𝜇0(nollhypotes)

𝜎 okänd

𝐹𝑇 𝑡 = fördelningsfunktion för Student’s t, 𝑛 − 1 frihetsgrader

T-test med R

ഥ𝑥𝑜𝑏𝑠 𝒑

𝐻𝑎: 𝜇 > 𝜇0

t.test(x, alternative = "greater", mu = 30, conf.level = 0.95)

𝒑 ഥ𝑥𝑜𝑏𝑠

𝐻𝑎: 𝜇 < 𝜇0

t.test(x, alternative = ”less", mu = 30, conf.level = 0.95)

𝒑ൗ

𝟐 𝒑ൗ

𝟐 ഥ𝑥𝑜𝑏𝑠

𝐻𝑎: 𝜇 ≠ 𝜇0

t.test(x, alternative = ”two.sided", mu = 30, conf.level = 0.95)

# t = 3.7028, df = 9, p-value = 0.004899 Hoförkastas

www.matstat.de ; uwe.menzel@matstat.de

?t.test # help

x=c(32.2, 32, 30.4, 31, 31.2, 31.2, 30.3, 29.6, 30.5, 30.8)

(6)

T-test för två stickprov

(”Two-sample t-test”)

Syfte:

o testar om två oberoende, normalfördelade populationer uppvisar ett visst hypotetisk skillnad Δ𝜇 mellan deras väntevärden (mest testas om Δ𝜇0= 0)

o Nollhypotes: 𝐻0: 𝜇𝑥− 𝜇𝑦= Δ𝜇0 ( Δ𝜇0mest 0, alltså 𝐻0: 𝜇𝑥= 𝜇𝑦)

o två stickprov→ ҧ𝑥𝑜𝑏𝑠; ത𝑦𝑜𝑏𝑠; 𝑠𝑥; 𝑠𝑦(punktskattningar)

𝜎𝑥okänd stickprov 1

𝜎𝑦okänd stickprov 2

skattningar för 𝜎𝑥,𝑦2

www.matstat.de ; uwe.menzel@matstat.de

Testvariabelmetoden

Kritiska områden, signifikansnivå 𝛼 :

A) Vi antar att standardavvikelserna är okända men lika 𝜎𝑥= 𝜎𝑦= 𝜎 (situationen vi redan hade för intervallskattning, se föreläsning).

teststatistika här antogs 𝐻0: Δ𝜇0= 0 (𝜇𝑥= 𝜇𝑦)

”pooled standard deviation”

𝜶ൗ

𝟐 𝜶ൗ

𝟐 𝑡(𝑓) 𝑓 = 𝑛𝑥+ 𝑛𝑦− 2

frihetsgrader

”under 𝐻0:”

(ensidiga test analogt, se formelsamling på matstat.de)

www.matstat.de ; uwe.menzel@matstat.de

(7)

Testvariabelmetoden

Kritiska områden, signifikansnivå 𝛼 : 𝜶ൗ

𝟐 𝜶ൗ

𝟐 𝑡(𝑓) B) Vi antar att standardavvikelserna är okända och olika 𝜎𝑥≠ 𝜎𝑦

(Welch test, Smith-Satterthwaite test)

frihetsgrader, avrundas (ner) om inte heltal

”under 𝐻0:” här antogs 𝐻0: Δ𝜇 = 0

teststatistika här antogs 𝐻0: Δ𝜇 = 0 (𝜇𝑥= 𝜇𝑦)

www.matstat.de ; uwe.menzel@matstat.de

T-test för parade stickprov

person A B C D E F G H

före 78.1 66.9 74.3 72.5 90.9 78.3 68.4 72.5

efter 79.2 67.0 77.1 73.3 92.0 78.1 68.4 72.9

beräknas

okänd

fördelning för medelvärdet av 𝑍𝑖

”under H0”:

Nollhypotes 𝐻0: Δ𝜇 = ∆𝜇0 ( oftast ∆𝜇0= 0 ; dvs. hypotes: ingen skillnad)

www.matstat.de ; uwe.menzel@matstat.de

(8)

T-test, parade stickprov, testvariabelmetoden

(definition 𝑡𝛼-kvantil)

Kritiska områden, signifikansnivå 𝛼 : 𝜶ൗ

𝟐 𝜶ൗ

𝟐 𝑡(𝑓)

www.matstat.de ; uwe.menzel@matstat.de (ensidiga test analogt, se formelsamling på matstat.de)

teststatistika antar Δ𝜇0= 0 𝐻0: Δ𝜇 = 0

T-test för parade stickprov, sammanfattning

𝐻0: Δ𝜇 = 0 (nollhypotes) båda 𝜎 okänd

statistika:

1. Nollhypotes 𝐻0: Δ𝜇 = 0 (eller ∆𝜇 = ∆𝜇0)

2. Alternativ hypotes 𝐻𝑎: ∆𝜇 ≠ 0 eller ∆𝜇 > 0 eller ∆𝜇 < 0

3. Bestäm signifikansnivån, t. ex. α= 0.05

4. Beräkna statistikans värde:

5. Förkasta H0om t ligger i det kritiska området Ω𝛼:

www.matstat.de ; uwe.menzel@matstat.de (ensidiga test analogt, se formelsamling på matstat.de)

(9)

T-test med R

ett stickprov, 𝐻0: 𝜇 = 𝜇0; 𝐻𝑎: 𝜇 ≠ 𝜇0

t.test(x, alternative = "two.sided", mu = 7500, conf.level = 0.95) två stickprov, samma varianser, 𝐻0: 𝜇𝑥= 𝜇𝑦; 𝐻𝑎: 𝜇𝑥≠ 𝜇𝑦

t.test(x, y, alternative = "two.sided", mu = 0, var.equal = TRUE, conf.level = 0.95) två stickprov, olika varianser, 𝐻0: 𝜇𝑥= 𝜇𝑦; 𝐻𝑎: 𝜇𝑥≠ 𝜇𝑦

t.test(x, y, alternative = "two.sided", mu = 0, var.equal = FALSE, conf.level = 0.95) två parade stickprov, 𝐻0: ∆𝜇 = 0; 𝐻𝑎: ∆𝜇 ≠ 0

t.test(x1, y1, alternative = "two.sided", paired = TRUE , mu = 0, conf.level = 0.95)

Att testa om X, Y är normalfördelade:

Några exemplen:

se t.ex. http://www.statmethods.net/stats/ttest.html

hist(y, col="red") # histogram, borde ungefär se ut som en normalfördelning qqnorm(y); qqline(y, col = 2) # punkterna borde ungefär vara på en rätt linje tests: ad.test (library(nortest) ; ks.test ; shapiro.test

www.matstat.de ; uwe.menzel@matstat.de

Syfte

o t-test: testar om 2 normalfördelade populationer har samma väntevärde

o ANOVA: testar om fler än 2 normalfördelade populationer har samma väntevärde

o För att testa detta används varianserna (!) (ANalysisOf VAriance)

o standardavvikelserna okända, men de måste vara (ungefär) lika!

o nollhypotes: 𝐻0: 𝜇1= 𝜇2= … = 𝜇𝑘(k stickprov)

o alternativ hypotes: minst ett likhetstecken gäller inte

o testet säger ingenting om vilken/vilka väntevärden avviker → därför behövs ett så kallad post-hoc test

fler än 2 populationer

ANOVA

www.matstat.de ; uwe.menzel@matstat.de

(10)

fler än 2 populationer

ANOVA

Testet utförs genom att analysera varianserna (ANalysis Of VAriance)) Mätvärden för tre grupper:

intuitivt: grupperna är olika om spridningen mellangrupper är betydligt större än spridningarna inomgrupperna

spridning inom en grupp spridning

mellangrupper

grupp1

grupp2

grupp3

spridning inom en grupp

www.matstat.de ; uwe.menzel@matstat.de

ANOVA

intuitivt: grupperna är olika om spridningarna mellangrupper är betydligt större än spridningerna inomgrupperna

grupp1

grupp2

grupp3

troligtvis ingen signifikant skillnad mellan medelvärden (𝐻0kan inte förkastas), små skillnader kan enbart bero på slumpen.

grupp1

grupp2

grupp3

populationer har troligtvis inte samma medelvärde (𝐻0 förkastas), skillnaderna kan vara signifikanta.

(11)

”Sum of Squares” används för att mäta spridningen:

”Sum of Squares” används för att beskriva spridningen (proportionellt till stickprovsvariansen). Det finns flera sorter som används för att genomföra ANOVA →

𝑆𝑥𝑥= ෍

𝑖=1 𝑛

𝑥𝑖− ҧ𝑥 2

x1

x3 x5

x10 x8

ҧ𝑥

www.matstat.de ; uwe.menzel@matstat.de

ANOVA

Total Sum of Squares

ANOVA

𝑇𝑜𝑡𝑎𝑙 𝑆𝑆 = ෍

𝑖=1 𝑘

𝑗=1 𝑛𝑖

𝑌𝑖𝑗− ത𝑌 2

(12)

Sum of Squares for Treatments

𝑆𝑆𝑇 = ෍

𝑖=1 𝑘

𝑛𝑖∙ ത𝑌𝑖− ത𝑌 2

ANOVA

Sum of Squares for Error

ANOVA

𝑆𝑆𝐸 = ෍

𝑖=1 𝑘

𝑗=1 𝑛𝑖

𝑌𝑖𝑗− ത𝑌𝑖 2

(13)

ANOVA: att dela upp variationen

Total SS = Total Sum of Squares

SST = Sum of Squares for Treatments SSE = Sum of Squares for Error

𝑘 – antalet grupper (populationer) 𝑛𝑖– antalet värden i grupp i

www.matstat.de ; uwe.menzel@matstat.de

𝑖=1 𝑘

𝑗=1 𝑛𝑖

𝑌𝑖𝑗− ത𝑌 2= ෍

𝑖=1 𝑘

𝑛𝑖∙ ത𝑌𝑖− ത𝑌 2+ ෍

𝑖=1 𝑘

𝑗=1 𝑛𝑖

𝑌𝑖𝑗− ത𝑌𝑖 2

𝑇𝑜𝑡𝑎𝑙 𝑆𝑆 = 𝑆𝑆𝑇 + 𝑆𝑆𝐸

F-fördelningmed

• 𝑘 − 1 frihetsgrader i täljaren (”numerator degrees of freedom”)

• 𝑛 − 𝑘 frihetsgrader i nämnaren (”denominator …”)

Testvariabeln F blir desto större ju mer någon grupps medelvärde avviker från de andra (SST blir större). Vi förkastar alltså nollhypotesen om en observation av F blir större än respektive kvantil (jämför härledningen för T-testet):

ANOVA: testvariabelmetoden

testvariabel

”under H0”: 𝐹 = 𝑆𝑆𝑇ൗ

𝑘 − 1 𝑆𝑆𝐸ൗ

𝑛 − 𝑘

~ 𝐹 𝑘 − 1, 𝑛 − 𝑘 𝑆𝑆𝑇 = ෍

𝑖=1 𝑘

𝑛𝑖∙ ത𝑌𝑖− ത𝑌 2 summerar k grupper

𝑆𝑆𝐸 = ෍

𝑖=1 𝑘

𝑗=1 𝑛𝑖

𝑌𝑖𝑗− ത𝑌𝑖 2 summerar över grupperna och mätvärden i varje grupp

www.matstat.de ; uwe.menzel@matstat.de

SST ~ 𝜒2(𝑘 − 1) SSE ~ 𝜒2(𝑛 − 𝑘)

(14)

ANOVA: testvariabelmetoden

Kritiskt område, signifikansnivå 𝛼:

Om observationen 𝐹 hamnar i det kritiska området (röd), så förkastas nollhypotesen.

𝛼 = 0.05

𝐹𝛼 𝑘 − 1, 𝑛 − 𝑘 :

kvantilerna för F-fördelning, med 𝑘 − 1 resp. 𝑛 − 𝑘 frihetsgrader

𝑋 ~ 𝐹 𝑘 − 1, 𝑛 − 𝑘 𝑓𝑋 𝑥

Förutsättningarna:

o 𝑋𝑖~ 𝑁 (räcket om ungefär N) o 𝜎𝑖= 𝜎 (måste ungefär gälla) o oberoende stickprov

MS0065_lecture_plots.R

www.matstat.de ; uwe.menzel@matstat.de

𝐹 ~ 𝐹 𝑘 − 1, 𝑛 − 𝑘 𝑃 𝐹 > 𝜔𝛼| 𝐻0𝑠𝑎𝑛𝑛 = 𝛼 𝑃 𝐹 > 𝐹𝛼 𝑘 − 1, 𝑛 − 𝑘 = 𝛼

𝜔𝛼= 𝐹𝛼 𝑘 − 1, 𝑛 − 𝑘

One-way ANOVA: testvariabelmetoden

1. Hypotes H0: μ1= μ2 = ... = k 2. Signifikansnivå:  = 0.05 3. Stickprov

4. Testvariabel 5. Förkasta 𝐻0om

𝑆𝑆𝑇 = ෍

𝑖=1 𝑘

𝑛𝑖∙ ത𝑌𝑖− ത𝑌2

𝑆𝑆𝐸 = ෍

𝑖=1 𝑘

𝑗=1 𝑛𝑖

𝑌𝑖𝑗− ത𝑌𝑖 2

𝐹 = 𝑆𝑆𝑇ൗ

𝑘 − 1 𝑆𝑆𝐸ൗ

𝑛 − 𝑘

~ 𝐹 𝑘 − 1, 𝑛 − 𝑘

www.matstat.de ; uwe.menzel@matstat.de

Fler alternativa hypoteser finns inte; antigen är alla väntevärden lika eller inte.

(15)

ANOVA

( )

( ) ( )

2

1

1 1

2

1 1 2

2 2 1 2 1

1 i

k

i i k

i n

j

i ij k

i k

k k i

i i i i

S n Y

Y SSE

n n

n

Y n Y

n Y Y n Y

Y n SST

i S Y n

i − = − 

=

+ + +

 + +

 +

= 

=



=

= =

=

Dessa uttryck behövs när man inte har själva mätvärdena, utan bara stickprovsstorlekarna, medelvärdena och standardavvikelserna (eller varianserna).

givna

www.matstat.de ; uwe.menzel@matstat.de

SST och SSE kan också beräknas med hjälp av medelvärdena och standardavvikelserna:

One-way ANOVA: Antaganden

• Oberoendeobservationer i de olika grupperna.

• Normalfördeladepopulationer. ANOVA fungerar oftast bra utan att detta är väl uppfyllt.

• Homogena varianser. Samma spridning i de olika grupperna. Vid samma antal observationer i varje grupp är ANOVA ganska okänsligt för brott mot detta.

– Levene test, Bartlett’s test kan användas för att kolla om varianserna är lika

• Vill vi veta detta måste vi köra ettposthoc test

• (bara om H0i ANOVA förkastades)

• t. ex. Tukey’s test

• Tukey’s test gör parvisa jämförelser, men på ett speciellt sätt: korrektur för

”multiple comparisons”

• kumulativ signifikansnivå (för alla test)  

Vilket medelvärde avviker?

www.matstat.de ; uwe.menzel@matstat.de

(16)

ANOVA: räkneexempel med 4 grupper

A B C D

65 75 59 94

87 69 78 89

73 83 67 80

79 81 62 88

81 72 83

69 79 76

90

( ) ( )

( )

1,

  (

3,19

)  

3.13

77 . 0 3 . 63

5 . 237

0 . 63 5

. 1 237

6 . 1196 6

. 712

35 . 23 77 1179

75 . 87 83

. 70 43

. 78 67

. 75

4 6 7 6

05 . 0

1 1

2 1

2 4 3 2 1

4 4 3 3 2 2 1 1

4 3

2 1

4 3 2 1

=

=

=

=

=

=

− =

=

=

− =

=

=

=

=

=

=

= + =

+ +

 +

 +

 +

= 

=

=

=

=

=

=

=

=



= = =

F F

F k n k F F MSE F MST

k n

SSE df MSE SSE k

SST df MST SST

Y Y SSE

Y Y n SST

n n n n

Y n Y n Y n Y Y n

Y Y

Y Y

n n n n

krit

k

i n

j i ij k

i i i

i

www.matstat.de ; uwe.menzel@matstat.de

ANOVA: räkneexempel med 4 grupper, alternativ

A B C D

65 75 59 94

87 69 78 89

73 83 67 80

79 81 62 88

81 72 83

69 79 76

90

( )

( ) ( )

( ) ( )

( )

( )

1,

 

(3,19)

 

3.13

77 . 0 3 . 63 6 . 237 19 63

66 . 1196 66 . 1196

74 . 100 85 . 458 72 . 303 35 . 333

58 , 33 3 77 , 91 5 62 . 50 6 67 . 66 5

) (

1 6 . 3 237

8 . 712 1

8 . 712

64 . 432 1 . 255 165 . 8 93 . 16

35 . 77 75 . 87 4 35 . 77 83 . 70 6

35 . 77 43 . 78 7 35 . 77 67 . 75 6

35 . 23 77 1179

05 . 0 2

1

2 2

2 2

1 2

4 3 2 1

4 4 3 3 2 2 1 1

=

=

=

=

=

=

=

=

=

+ + +

=

+

+

+

=

=

=

=

=

=

+ + +

=

+

+

+

=

=

= + =

+ +

+

+

+

=

=

=

F F

F k n k F F MSE F MST

k n MSE SSE

formel alternativ S

n SSE

k MST SST

Y Y n SST

n n n n

Y n Y n Y n Y Y n

krit

i k

i i k

i i i

A B C D

n 6 7 6 4

x 75,67 78,43 70,83 87,75

s2 66,67 50,62 91,77 33,58

(17)

ANOVA: räkneexempel med 4 grupper, forts.

0,8 0,7 0,6 0,5 0,4 0,3 0,2 0,1

0,0 3,13

0,05 0

F; df1=3; df2=19

 

77 . 3

13 . 3

=

=

F

krit

F

Testvariabeln F överskrider det kritiska värdet (3 numerator och 19 denominator frihetsgrader). Nollhypotesen förkastas därför. Minst ett medelvärde avviker från de andra(signifikansnivån 𝛼 = 0.05)

www.matstat.de ; uwe.menzel@matstat.de

ANOVA med R

se ”anova_MS0065.R”

se också http://www.statmethods.net/stats/anova.html data(InsectSprays)

levels(InsectSprays$spray) summary(InsectSprays$count)

boxplot(count ~ spray, data = InsectSprays, col="green")

# 1. funktion “oneway.test”

oneway.test(count ~ spray, data = InsectSprays)

# samma varians I alla grupper?

bartlett.test(count ~ spray, data = InsectSprays) # inte lika – problem!

# icke-parametriskt test:

kruskal.test(count ~ spray, data = InsectSprays)

# 2. annan funktion för ANOVA: aov

aov.out = aov(count ~ spray, data = InsectSprays) summary(aov.out)

TukeyHSD(aov.out) # post-hoc test

plot(TukeyHSD(aov.out)) # parvis differens – signifikant skillnad om KI:et inte går över noll

www.matstat.de ; uwe.menzel@matstat.de

(18)

Appendix

Hypotestest II

Uwe Menzel, 2018

uwe.menzel@slu.se ; uwe.menzel@matstat.de www.matstat.de

Definition för Student’s t-fördelning

Förutsättningarna:

Om Z och W har ovanstående fördelningar, så har följande kvot en t- fördelning:

o 𝑍 ~𝑁 0,1 standard normal

𝑊~𝜒2(𝜈) chi-kvadrat, 𝜈 frihetsgrader o Z och W oberoende

"Student“: pseudonym som används av William Gosset

t-fördelning, 𝜈 frihetsgrader

täthetsfunktion

www.matstat.de ; uwe.menzel@matstat.de

(19)

Student’s t-fördelning:

härledning: statistikan är t-fördelade

o 𝑍 ~𝑁 0,1 standard normal

𝑊~𝜒2(𝜈) chi-kvadrat, 𝜈 frihetsgrader o Z och W oberoende

www.matstat.de ; uwe.menzel@matstat.de

Kvantiler för t- fördelningen

5 4 3 2 1 0 -1 -2 -3

2 6 N(0,1)

T df

f stor → liten skillnad till N(0,1) Större spridning (tails) för T pga. större osäkerhet – vi vet ju inte σ och måste skatta det (med s).

(20)

Symmetri och fördelningsfunktion

Om täthetsfunktionen är symmetrisk kring noll (t. ex. N, T ) gäller för fördelningsfunktionen att:

𝐹 −𝑡 = 1 − 𝐹(𝑡)

0 𝑓𝑇 𝑥

𝑡 -𝑡

𝐹 −𝑡 1 − 𝐹(𝑡)

T-test, testvariabelmetoden

Härledning av det kritiska värdet för 𝑯𝒂: 𝝁 > 𝝁𝟎

Om nollhypotesen 𝐻0: 𝜇 = 𝜇0 gäller är 𝑋𝑖~ 𝑁(𝜇0, 𝜎).

𝑋 −ത 𝜇0 𝑆ൗ

𝑛

~ 𝑡(𝑛 − 1) om 𝜎 skattas med s

𝜇0

𝜔𝛼 Ω𝛼

𝛂

𝑓𝑇 𝑥 𝑇 ~ 𝑡(𝑛 − 1)

𝑃 𝑋 −ത 𝜇0 𝑆ൗ

𝑛

≤𝜔𝛼−𝜇0 𝑠ൗ

𝑛

= 1 − 𝛼

𝑃 𝑋 −ത 𝜇0 𝑆ൗ

𝑛

≤ 𝑡𝛼 𝑛 − 1 = 1 − 𝛼

detta gäller allmänt för att termen till vänster i parantesen är t-fördelad med 𝑛 − 1 frihets- grader (kvantildefinition)

Det kritiska värdet 𝜔𝛼tas fram genom att lösa:

𝑃 ത𝑋 > 𝜔𝛼| 𝐻0𝑠𝑎𝑛𝑛 = 𝛼 (𝛼 förvald)

𝑃 ത𝑋 ≤ 𝜔𝛼 = 1 − 𝛼 omforma i parantesen när ҧ𝑥 > 𝜔𝛼förkastas 𝐻0; 𝛼 = P(fel typ I)

www.matstat.de ; uwe.menzel@matstat.de

quantile_plots.R

(21)

T-test, testvariabelmetoden

Härledning av det kritiska värdet för 𝑯𝒂: 𝝁 > 𝝁𝟎

ҧ𝑥 >𝜇0+ 𝑡𝛼 𝑛 − 1 ∙ 𝑠 𝑛 ҧ𝑥 −𝜇0

𝑠ൗ 𝑛

> 𝑡𝛼 𝑛 − 1 𝐻0förkastas alltså om

𝑃 𝑋 −ത 𝜇0 𝑆ൗ

𝑛

≤𝜔𝛼−𝜇0 𝑠ൗ

𝑛

= 1 − 𝛼

𝑃 𝑋 −ത 𝜇0 𝑆ൗ

𝑛

≤ 𝑡𝛼 𝑛 − 1 = 1 − 𝛼

𝜔𝛼−𝜇0

𝑠ൗ 𝑛

= 𝑡𝛼 𝑛 − 1

𝜔𝛼=𝜇0+ 𝑡𝛼 𝑛 − 1 ∙ 𝑠 𝑛 jämförelse av båda ekvationer ger:

𝐻0förkastas om ҧ𝑥 > 𝜔𝛼, alltså om

𝐻0förkastas alltså om 𝑡 > 𝑡𝛼 𝑛 − 1 för 𝐻𝑎: 𝜇 > 𝜇0

t = ҧ𝑥 −𝜇0

𝑠ൗ 𝑛

teststatistika för T-test, ett stickprov.

𝐻0: 𝜇 = 𝜇0

www.matstat.de ; uwe.menzel@matstat.de

T-test, testvariabelmetoden

Härledning av det kritiska värdet för 𝑯𝒂: 𝝁 < 𝝁𝟎

Om nollhypotesen 𝐻0: 𝜇 = 𝜇0 gäller är 𝑋𝑖~ 𝑁(𝜇0, 𝜎).

𝑋 −ത 𝜇0 𝑆ൗ

𝑛

~ 𝑡(𝑛 − 1) om 𝜎 skattas med s

𝑃 𝑋 −ത 𝜇0

𝑆ൗ 𝑛

≤𝜔𝛼−𝜇0

𝑠ൗ 𝑛

= 𝛼

𝑃 𝑋 −ത 𝜇0

𝑆ൗ 𝑛

≤ − 𝑡𝛼 𝑛 − 1 = 𝛼

detta gäller allmänt för att termen till vänster i parantesen är t-fördelad med 𝑛 − 1 frihets- grader (kvantildefinition)

Det kritiska värdet 𝜔𝛼tas fram genom att lösa:

𝑃 ത𝑋 < 𝜔𝛼| 𝐻0𝑠𝑎𝑛𝑛 = 𝛼 (𝛼 förvald)

𝑃 ത𝑋 ≤ 𝜔𝛼 = 𝛼 omforma i parantesen när ҧ𝑥 < 𝜔𝛼förkastas 𝐻0; 𝛼 = P(fel typ I)

www.matstat.de ; uwe.menzel@matstat.de

𝜇0 𝜔𝛼

Ω𝛼

𝛂

𝑓𝑇 𝑥 𝑇 ~ 𝑡(𝑛 − 1)

(22)

T-test, testvariabelmetoden

Härledning av det kritiska värdet för 𝑯𝒂: 𝝁 < 𝝁𝟎

ҧ𝑥 <𝜇0− 𝑡𝛼 𝑛 − 1 ∙ 𝑠 𝑛 ҧ𝑥 −𝜇0

𝑠ൗ 𝑛

< − 𝑡𝛼 𝑛 − 1 𝐻0förkastas alltså om

𝑃 𝑋 −ത 𝜇0 𝑆ൗ

𝑛

≤𝜔𝛼−𝜇0 𝑠ൗ

𝑛

= 𝛼

𝑃 𝑋 −ത 𝜇0 𝑆ൗ

𝑛

≤ − 𝑡𝛼 𝑛 − 1 = 𝛼

𝜔𝛼−𝜇0

𝑠ൗ 𝑛

= − 𝑡𝛼 𝑛 − 1

𝜔𝛼=𝜇0− 𝑡𝛼 𝑛 − 1 ∙ 𝑠 𝑛 jämförelse av båda ekvationer ger:

𝐻0förkastas om ҧ𝑥 < 𝜔𝛼, alltså om

𝐻0förkastas alltså om 𝑡 < − 𝑡𝛼 𝑛 − 1 för 𝐻𝑎: 𝜇 < 𝜇0

t = ҧ𝑥 −𝜇0 𝑠ൗ

𝑛

teststatistika för T-test, ett stickprov.

𝐻0: 𝜇 = 𝜇0

www.matstat.de ; uwe.menzel@matstat.de

T-test, testvariabelmetoden

Härledning av det kritiska värdet för 𝑯𝒂: 𝝁 ≠ 𝝁𝟎 Om nollhypotesen 𝐻0: 𝜇 = 𝜇0 gäller är 𝑋𝑖~ 𝑁(𝜇0, 𝜎).

𝑋 −ത 𝜇0

𝑆ൗ 𝑛

~ 𝑡(𝑛 − 1) om 𝜎 skattas med s

𝑃 𝜔1−𝜇0

𝑠ൗ 𝑛

< 𝑋 −ത 𝜇0

𝑆ൗ 𝑛

≤ 𝜔2−𝜇0

𝑠ൗ 𝑛

= 1 − 𝛼

𝑃 − 𝑡𝛼

2 𝑛 − 1 <𝑋 −ത 𝜇0

𝑆ൗ 𝑛

≤ 𝑡𝛼

2 𝑛 − 1 = 1 − 𝛼

detta gäller allmänt för att termen till vänster i parantesen är t-fördelad med 𝑛 − 1 frihets- grader (kvantildefinition) De kritiska värden 𝜔1,2tas fram genom att lösa:

𝑃 ത𝑋 < 𝜔1∪ ത𝑋 > 𝜔2| 𝐻0𝑠𝑎𝑛𝑛 = 𝛼 1 − 𝑃 𝜔1< ത𝑋 ≤ 𝜔2 = 𝛼

www.matstat.de ; uwe.menzel@matstat.de

𝜇0 𝜶ൗ

𝟐

𝑓𝑇 𝑥 𝑇 ~ 𝑡(𝑛 − 1)

𝜶ൗ 𝟐

𝜔2

𝜔1

𝑃 𝜔1< ത𝑋 ≤ 𝜔2 = 1 − 𝛼

(23)

T-test, testvariabelmetoden

Härledning av det kritiska värdet för 𝑯𝒂: 𝝁 ≠ 𝝁𝟎

𝑃 𝜔1−𝜇0

𝑠ൗ 𝑛

< 𝑋 −ത 𝜇0

𝑆ൗ 𝑛

≤ 𝜔2−𝜇0

𝑠ൗ 𝑛

= 1 − 𝛼

𝑃 −𝑡𝛼2 𝑛 − 1 <𝑋 −ത 𝜇0 𝑆ൗ

𝑛

≤ 𝑡𝛼2 𝑛 − 1 = 1 − 𝛼

båda ekvationer jämförs (se nere)

termer till vänster: 𝜔1−𝜇0 𝑠ൗ

𝑛

= − 𝑡𝛼

2 𝑛 − 1 𝜔1=𝜇0− 𝑡𝛼

2 𝑛 − 1 ∙ 𝑠 𝑛

termer till höger: 𝜔2−𝜇0

𝑠ൗ 𝑛

= 𝑡𝛼

2 𝑛 − 1 𝜔2=𝜇0+ 𝑡𝛼

2 𝑛 − 1 ∙ 𝑠 𝑛

www.matstat.de ; uwe.menzel@matstat.de

T-test, testvariabelmetoden

Härledning av det kritiska värdet för 𝑯𝒂: 𝝁 ≠ 𝝁𝟎

𝐻0förkastas alltså om 𝑡 > 𝑡𝛼Τ2 𝑛 − 1 för 𝐻𝑎: 𝜇 ≠ 𝜇0

t = ҧ𝑥 −𝜇0 𝑠ൗ

𝑛

teststatistika för T-test, ett stickprov.

𝐻0: 𝜇 = 𝜇0

www.matstat.de ; uwe.menzel@matstat.de

𝜔1=𝜇0− 𝑡𝛼2 𝑛 − 1 ∙ 𝑠

𝑛 𝜔2=𝜇0+𝑡𝛼2 𝑛 − 1 ∙ 𝑠 𝑛 𝐻0förkastas om ҧ𝑥 < 𝜔1eller om ҧ𝑥 > 𝜔2, alltså om

ҧ𝑥 <𝜇0− 𝑡𝛼

2 𝑛 − 1 ∙ 𝑠

𝑛 eller om ҧ𝑥 >𝜇0+𝑡𝛼

2 𝑛 − 1 ∙ 𝑠 𝑛 ҧ𝑥 −𝜇0

𝑠ൗ 𝑛

< − 𝑡𝛼2 𝑛 − 1 eller om ҧ𝑥 −𝜇0

𝑠ൗ 𝑛

> 𝑡𝛼 2 𝑛 − 1 𝑡 < − 𝑡𝛼2 𝑛 − 1 eller om 𝑡 > 𝑡𝛼2 𝑛 − 1

(24)

T-test, testvariabelmetoden

Kritiska områden, T-test, ett stickprov, sammanfattning

www.matstat.de ; uwe.menzel@matstat.de

𝜶

𝐻𝑎 test kritiskt område

𝜇 > 𝜇0 ensidigt Ω𝛼= 𝑡 > 𝑡𝛼 𝑛 − 1

𝐻𝑎 test kritiskt område

𝜇 < 𝜇0 ensidigt Ω𝛼= 𝑡 < −𝑡𝛼 𝑛 − 1 𝜶

𝐻𝑎 test kritiskt område

𝜇 ≠ 𝜇0 tvåsidigt Ω𝛼= 𝑡 > 𝑡𝛼2 𝑛 − 1 t = ҧ𝑥 −𝜇0

𝑠ൗ 𝑛

teststatistika 𝐻0: 𝜇 = 𝜇0

𝜶ൗ

𝟐 𝜶ൗ

𝟐

( ) ( )

( k n k )

F k n

k n k

k

k n SSE

k SST

k SSE n

SST k MSE

F MST  − −

− −

= −

= −

= 1 ,

) (

1 ) 1 ( 1 1

2 2

2 2

( ) (

n

)

S

(

n

)

S

(

n

)

S

(

n k

)

S

SSE n k k

i k

i

i−  = −  + −  + + −   −

=

=

2 2

2 2

2 2 2 2

2 1 2 1

1 2 2

1 1

1 1

1 

antalet 𝑍2-fördelade

( ) (

1

)

1 2

1

2 2

2 =

−  −

=

k Y

Y SST k n

i i

i

F-test, fördelning för testvariabeln

Under H0gäller:

𝑑𝑓 = 𝑛1− 1 𝑑𝑓 = 𝑛2− 1 𝑑𝑓 = 𝑛𝑘− 1

www.matstat.de ; uwe.menzel@matstat.de

References

Related documents

Någon rekryterare nämnde även att utländska kandidater kan vara ett hjälpmedel för att nå ut till nya segment bland kunder där det skulle vara positivt att ha medarbetare med

Medborgarprojektet planerades och genomfördes i samverkan med Skövde Ung- domsforum och inleddes med en Kick off för ungdomar, politiker och tjänstemän i Sessionssalen.. Dagen

Där satt hon nu och såg dem komma in, dessa arbetande kvinnor, af hvilka de flesta, icke såsom hon själf helt tillfälligt, intog® sina måltider där, utan hvilka år ut och år

Pedagogiken-hur personalen ” lär” barnen Delaktigheten både för mitt barn och mig. Bemötandet är med

En a¨ndlig markovkedja a¨r ergodisk om och endast om dess tillstandsma¨ngd E innehaller en enda sluten irreducibel deltillstandsma¨ngd och denna a¨r aperiodisk.. Speciellt a¨r

Lärarnas syfte med denna arbetsform är att eleverna skall lära sig att arbeta med andra samt att de skall få ökad kunskap inom matematik, eleverna däremot anser att de bara lär

Ⅳ len betraffande Lithob五dae(StCnkrypare) borde det ha funnits en kort beskrivning pa dc olika larvstadicrna― atnlinstone hur manga ben dc olika stadierna har― fOr den som

Programmet syftar till att påverka barns utveckling på ett positivt sätt, stärka relationerna mellan barn och vuxna samt hjälpa föräldrar att handskas bättre med