• No results found

F¨ orel¨ asning 10

10.1 Hypotespr¨ovning

L˚at oss b¨orja i den allm¨anna situationen, dvs.:

Vi har en upps¨attning data x1, x2, . . . , xn som ses som utfall av s.v.

X1, X2, . . . , Xn.

Dessa variabler antages vara oberoende och likaf¨ordelade och deras gemensam-ma f¨ordelning beror av en ok¨and parameter θ.

En hypotes om verkligheten ¨ar i detta sammanhang en m¨angd av θ-v¨arden. Formaliserat betyder detta att vi vill testa en nollhypotes

H0 : θ ∈ H0 mot ett alternativ (eller en mothypotes)

H1 : θ ∈ H1.

Eftersom detta blir lite abstrakt, s˚a exemplifierar vi steg f¨or steg med fallet d˚a

X1, X2, . . . , Xn ¨ar oberoende och N(µ, σ)-f¨ordelade d¨ar µ och σ ¨ar ok¨anda. Exempel

H0 : µ = µ0

mot

H1 : µ 6= µ0.

Att testa H0 ¨ar detsamma som att avg¨ora om v˚ara data ¨ar ”f¨orenliga” med

H0. Om H0 ej ¨ar sann vill vi f¨orkasta H0 till f¨orm˚an f¨or H1. Vi bildar d¨arf¨or en teststorhet T = T (x1, . . . , xn) och ett kritiskt omr˚ade C. (F¨or ¨ogonblicket

bekymrar vi oss inte f¨or hur T och C l¨ampligen bildas.) Test: F¨orkasta H0 om T ∈ C.

I praktiken best¨ams T av situationen och C av signifikansniv˚an (eller felrisken) α:

signifikansniv˚an = α ≥ P (H0 f¨orkastas om H0 sann)

= P (T (X1, . . . , Xn) ∈ C om H0 sann).

Med riskniv˚an garderar vi oss s˚aledes mot felet att f¨orkasta H0a H0 ¨ar sann. Vi b¨or v¨alja H0 s˚a att detta ¨ar det allvarligase felet. Det andra m¨ojliga felet ¨ar att ej f¨orkasta H0a H0 ¨ar falsk. Vi bildar styrkefunktionen

h(θ) = P (H0 f¨orkasta) om θ ¨ar det sanna v¨ardet.

F¨or θ ∈ H0 g¨aller s˚aledes att h(θ) ≤ α. Ett test ¨ar ”bra” om h(θ) ¨ar stor d˚a

θ ∈ H1.

Vi h˚aller oss tills vidare till exemplet. H¨ar verkar det rimligt att utg˚a fr˚an

T (X1, . . . , Xn) = X − µ0

s/n ,

som under H0 ¨ar t(n − 1)-f¨ordelad, och att f¨orkasta H0 om |T (x1, . . . , xn)| ¨ar f¨or stor.

Vi f˚ar d˚a

α = P (|T (X1, . . . , Xn)| > c om H0 sann), vilket ger c = tα/2(n − 1).

Vi kan nu binda ihop hypotespr¨ovning med konfidensintervall, genom att kon-statera att testet ¨ar exakt detsamma som f¨oljande:

Bilda ett konfidensintervall Iµ och f¨orkasta H0 om

Iµ63 µ0.

Detta verkar ju h¨ogst rimligt. Iµ ger ju de ”troliga” v¨ardena p˚a µ, och om the hypotetiska v¨ardet inte h¨or dit, s˚a b¨or ju H0 f¨orkastas.

Om vi f¨orkastar H0s¨ager vi att ”µ ¨ar signifikant skilt fr˚an µ0. Ordet signifikant ¨ar egentligen inte s˚a bra, eftersom det ofta tolkas som att skillnaden ¨ar ”viktig”, men det betyder i sj¨alva verket endast ett ”skillnaden f¨ormodligen inte ¨ar slumpm¨assig”.

En god regel, om vi ¨ar intresserade av µs eventuella avvikelse fr˚an µ0, ¨ar att f¨orst g¨ora en hypotespr¨ovning. Om µ ¨ar signifikant skilt fr˚an µ0, kan vi ta detta som ”alibi” f¨or att diskutera storleken p˚a avvikelsen. Detta g¨ors l¨ampligen genom att vi betraktar Iµ. P˚a detta s¨att minskar vi risken f¨or att g¨ora en ”stor sak” av rent slumpm¨assig skillnad.

10.2. χ2-test 53

Ensidiga test

Vi betraktar nu f¨oljande situation:

H0 : µ = µ0

mot

H1 : µ > µ0 (resp. µ < µ0).

L˚at oss anta att stort v¨arde p˚a µ ¨ar en ¨onskad egenskap. Det kan vara naturligt att vi g¨or en ˚atg¨ard, t.ex. k¨oper n˚agon ny utrustning, som b¨or ¨oka v¨ardet p˚a

µ. Det ¨ar naturligt att vi endast vill k¨opa denna nya utrustning om vi ¨ar

n˚agolunda s¨akra p˚a att den verkligen ger ett h¨ogre v¨arde p˚a µ ¨an µ0

Det ¨ar d˚a naturligt att testa

H0 : µ = µ0 mot

H1 : µ > µ0.

Testet blir d˚a att vi f¨orkastar H0 om T (x1, . . . , xn) ¨ar f¨or stor, eller mera precist om

T > tα(n − 1) eller om ¯x > µ0+ tα(n − 1)s/n.

Tolkningen ¨ar att vi kr¨aver, f¨or att f¨orkasta H0, att ¯x ¨ar tillr¨ackligt mycket

st¨orre ¨an µ0 f¨or att det inte ska vara troligt att skillnaden ¨ar slumpm¨assig. Det ¨ar egentligen inte en statistisk fr˚aga hur man skall v¨alja H1. Ofta kan det vara enklare att titta p˚a testet, f¨or att ¨overtyga sig att man ”garderar” sig ˚at ”r¨att h˚all”. Viktigt ¨ar dock att man best¨ammer sig innan man har studerat data, f¨or annars blir signifikansniv˚an fel.

Grundregeln ¨ar dock att det vi vill p˚ast˚a skall s¨attas som H1, eftersom vi bara kan dra tv˚a slutsatser av ett test:

”H0 f¨orkastas ej”, vilket inte betyder att vi visat att den ¨ar sann; ”H0 f¨orkastas”.

Givetvis skulle vi mycket v¨al kunna vilja p˚ast˚a att µ = µ0, och d˚a skulle vi ju vilja testa H0 : µ 6= µ0 mot H1 : µ = µ0. Detta g˚ar inte, eftersom inga observationer i v¨arlden skulle kunna f˚a oss att f¨orkasta detta H0.

Den som g¨or ett test, ”vill” d¨arf¨or ofta att H0 ska f¨orkastas. Det ¨ar nog detta som g¨or att begreppet signifikant misstolkas.

10.2 χ

2

-test

Vi b¨orjar med den enklaste situationen:

Ett f¨ors¨ok kan utfalla p˚a r olika s¨att: A1, A2, . . . , Ar. L˚at x1, x2, . . . , xr vara antalet g˚anger som alternativen A1, A2, . . . , Ar f¨orkommer i n f¨ors¨ok.

at p1, p2, . . . , pr vara givna sannolikheter, dvs Pri=1pi = 1. Vi vill testa

H0 : P (Ai) = pi f¨or i = 1, . . . , r mot

H1 : ej alla P (Ai) = pi.

F¨or att g¨ora detta bildar vi

Qobs = r X i=1 (xi− npi)2 npi .

Man kan visa att Q ¨ar approximativt χ2(r − 1)-f¨ordelad under H0. (Vi till˚ater oss h¨ar att slarva lite med s.v. och dess utfall.)

F¨or att g¨ora resultatet troligt, betraktar vi r = 2. D˚a g¨aller, med X = X1 och

p = p1 att Q = (X1 − np1) 2 np1 + (X2− np2)2 np2 = (X − np)2 np + (n − X − n(1 − p))2 n(1 − p) = (X − np) 2 np + (X − np))2 n(1 − p) = (X − np)2 np(1 − p) .

Eftersom X ¨ar Bin(n, p) s˚a g¨aller att X−np

np(1−p) ¨ar appr. N(0, 1). S˚aledes f¨oljer att (X−np)np(1−p)2 ¨ar appr. χ2(1).

Vi g¨or nu f¨oljande test: F¨orkasta H0 om Qobs > χ2

α(r − 1).

Ofta vill vi l˚ata sannolikheterna p1, p2, . . . , pr bero av en ok¨and parameter

θ = (θ1, . . . , θs), och testa hypotesen

H0 : P (Ai) = pi(θ), f¨or i = 1, . . . , r, och f¨or n˚agot v¨arde p˚a θ.

Skattar vi θ med ML-metoden, och bildar

Qobs = r X i=1 (xi− npi obs))2 npi obs) ,a ¨ar Q approximativt χ2(r − s − 1)-f¨ordelad under H0. Detta resultat kallas ibland f¨or stora χ2-satsen.

10.2. χ2-test 55

Grundregeln ¨ar att antalet frihetsgrader f˚as av

antalet fria kvadratsummor − antalet skattade parametrar.

En vanlig till¨ampning ¨ar att vi vill testa om ett stickprov kommer fr˚an en viss f¨ordelning, eller en viss klass av f¨ordelningar. Man klassindelar d˚a observatio-nerna, t.ex. enl f¨oljande:

A1 = [g1, g2), A2 = [g2, g3), . . . , Ar = [gr, gr+1), d¨ar man kan ha g1 = −∞ och/eller gr+1 = ∞.

F¨ordelen med χ2-testet ¨ar att man kan skatta ok¨anda parametrar, nackdelen ¨ar att klassindelningen ger viss subjektivitet.

En vanlig tumregel ¨ar att kr¨ava att alla npi eller npi

obs) ¨ar st¨orre ¨an 5. Homogenitetstest

Vi ˚aterg˚ar nu till exemplet i b¨orjan, med ett f¨ors¨ok som kan utfalla p˚a r olika s¨att: A1, A2, . . . , Ar. Antag nu att vi har s f¨ors¨oksserier om n1, . . . , ns

f¨ors¨ok vardera. L˚at xij vara antalet g˚anger som alternativet Aj f¨orkommer i

ite f¨ors¨oksserien.

Serie Antal observationer av Antal f¨ors¨ok

A1 A2 . . . Ar

1 x11 x12 . . . x1r n1

2 x21 x22 . . . x2r n2

... ... ...

s xs1 xs2 . . . xsr ns

Vi anser att serierna ¨ar homogena om hypotesen

H0 : P (Ai) = pi, f¨or i = 1, . . . , r i alla serierna.

F¨or att testa H0 bildar vi

Qobs = s X i=1 r X j=1 (xij − nip j)2 nip j , d¨ar pj = (pj)obs = Ps i=1xij Ps i=1ni .

Frihetsgraderna f˚as p˚a f¨oljande s¨att:

antalet fria kvadratsummor − antalet skattade parametrar = s · (r − 1) − (r − 1) = (r − 1)(s − 1).

Oberoendetest

Vi tar nu ett stickprov om n enheter, d¨ar varje enhet klassifiseras efter tv˚a egenskaper, A och B. Vi kan skriva detta i en kontingenstabell, lik den tabell vi hade i hogenitetstestet. Egenskap A1 A2 . . . Ar Total B1 x11 x12 . . . x1r x B2 x21 x22 . . . x2r x ... ... ... Bs xs1 xs2 . . . xsr x Total x·1 x·2 . . . x·r n

Vi vill nu testa hypotesen

H0 : P (Aj ∩ Bi) = P (Aj)P (Bi), f¨or alla i och j. F¨or att testa H0 bildar vi

Q = s X i=1 r X j=1 (xij − np p ·j)2 np p ·j , d¨ar p = (p

)obs = x

n och p

·j = (p

·j)obs = x·j

n .

Man kan ¨aven h¨ar visa att Q ¨ar approximativt χ2((r−1)(s−1))-f¨ordelad under

H0.

Frihetsgraderna f˚as p˚a f¨oljande s¨att:

antalet fria kvadratsummor − antalet skattade parametrar = (sr − 1) − [(r − 1) + (s − 1)] = sr − r − s + 1 = (r − 1)(s − 1). OBSERVERA! ¨Aven om homogenitetstestet och kontingenstabellen numeriskt och statistiskt ¨ar lika, s˚a ¨ar det olika test.

Related documents