• No results found

Analys av stickprovsdata i förhållande till populationsdata

Dessa analyser svarar på frågan om ett valt stickprov kan tänkas tillhöra en viss population. De icke-parametriska analyser, som här tas upp är av ty- pen ”goodness-of-fit”, dvs. svarar på frågan om en observerad fördelning endast slumpmässigt avviker från en teoretisk eller en under H0 förväntad fördelning. Endast de mest vanligt förekommande testen ur Ruta 4.1 pre- senteras här.

4.1.1 Chi-kvadrat-testet för ett stickprov

Chi-kvadrat-testet (2) för ett stickprov kan användas vid analys av data på nominalskalenivå, då populationen består av två eller flera klasser. Exem- pel på sådana klassifikationsvariabler är kön, civilstånd, socialgruppstillhö- righet, boendeform och linjetillhörighet i gymnasieskolan. 2-testet är av typen “goodness-of-fit“ och används för att jämföra en viss observerad fördelning med en under nollhypotensen förväntad. Utgångspunkten är ett antal observationer i två eller flera kategorier. Från totalantalet observat- ioner beräknas de förväntade frekvenserna under H0 (dvs. om nollhypote- sen gäller) för varje kategori. Med hjälp av 2-testet prövas om de obser- verade frekvenserna endast slumpmässigt avviker från de förväntade eller om nollhypotesen måste förkastas. Nollhypotesen testas med:

(Oi - Ei)2

2=  ________ ; där E bör vara  5 (formel 4.1) Ei

Oi = antal observationer i den i:te kategorin

Ei = förväntat antal observationer i den i:te kategorin under H0  = summan av de ”k” kategorierna

De kritiska värdena för olika frihetsgrader finns tabellerade (Tabell D). För olika frihetsgrader har 2 olika samplingfördelningar. Antalet frihetsgrader visar hur många observationer, som kan variera efter att man bestämt anta- let observationer i vissa kategorier. Om vi exempelvis har sammanlagt 30 observationer i två kategorier och observerat 18 i den ena, måste den andra med nödvändighet innehålla 12 observationer. I detta fallet blir således antalet frihetsgrader fg=1. En kategori är således fri att variera. När vi vet antalet i denna kategori, så vet vi antalet i den andra, eftersom summan ska bli 30.

Om vi istället haft fem kategorier med sammanlagt 30 observationer blir fg = k-1, dvs. 4. Man kan variera frekvenserna i fyra av de fem kategorier- na. Frekvensen i den sista kategorin är bestämd i och med att vi känner frekvenserna i de övriga. För 2-testet finns kravet att de förväntade vär- dena (Ei) bör vara  5. Om så inte är fallet slår man helst samman katego- rier så att kravet uppfylls.

I likhet med de tidigare avsnitten i denna bok exemplifieras varje presente- rad statistisk bearbetningsmetod med ett exempel. I det här fallet tänker vi

oss en marknadsundersökning i vilken 100 kunder i en butik fick välja mellan fyra olika mjölkförpackningar. Den frågeställning som ska prövas är om man på basis av en sådan undersökning av en grupp slumpmässigt utvalda kunder kan våga uttala sig mera generellt om preferensolikheter vad gäller mjölkförpackningar. Följande resultat erhölls:

Tabell 4.1. Resultat av marknadsundersökning Förpackning Antal val

A 18

B 30

C 40

D 12

H0: De fyra olika alternativen är lika populära, dvs. i populationen skulle man ha erhållit lika antal frekvenser (f1 = f2 = f3 = f4) H1: De fyra olika alternativen är olika populära (åtminstone några

frekvenser är olika) Signifikansnivå: = 0,01

Det kritiska värdet för 2 med 3 frihetsgrader är på denna signifikansnivå 11,34 (Tabell D). Om avvikelserna mellan de observerade frekvenserna och de under H0 givna når upp till 11,34 eller mer måste nollhypotesen förkastas.

____________________________________________________________ Observerade frekvenser: Förväntade frekvenser:

paket A B C D paket A B C D ____________________________________________________________ 18 30 40 12 25 25 25 25 ____________________________________________________________ (O - E)2 (18-25)2 (30-25)2 (40-25)2 (12-25)2 2 =__________ = ___________ + ___________ + ___________ + ___________ = 18,72*** E 25 25 25 25

Eftersom vi observerat en större avvikelse mellan de fyra valbara alternati- ven att paketera mjölk än vad slumpen rimligen kan ha åstadkommit för- kastas H0 (p<0,01). H0 hade också förkastats om vi valt =0,001 (p<0,001). Vi drar slutsatsen att de fyra alternativen är olika populära bland konsumenterna.

4.1.2 Run-testet

Det finns flera metoder att bedöma slumpmässigheten i ett stickprov på grundval av den ordningsföljd som observationerna har registrerats. Om observationer samlas in i slumpmässig ordning borde materialet inte inne- hålla ett speciellt mönster. Om man t.ex. samlat in enkätdata från skolele- ver borde pojkars och flickors svar komma i slumpmässig ordning. Om flickornas svar kommer först och därefter alla pojkarnas, har enkäterna tydligen först sorterats. Om varannan enkät är från en pojke och varannan från en flicka, kommer de ej heller i slumpmässig ordning utan verkar också vara sorterade. Eftersom det i SPSS finns en metod, som grundar sig på s.k. “runs“, Wald-Wolfowitz Runs för två oberoende stickprov, present- eras här en metod för att pröva slumpmässigheten i ett material med avse- ende på en dikotom eller dikotomiserad egenskap. Denna metod, det s.k. run-testet, att studera en slumpmässig ordningsföljd belyses bäst med hjälp av ett exempel.

Vid en lunchrast på en skola observerades de 25 första eleverna i matkön. Man observerade den dikotoma variabeln kön. I matkön stod dessa 25 elever i följande ordning (P=pojke, F=flicka):

I denna kö finns åtta stycken s.k. “runs“, dvs. åtta grupper av samma kön. I två av “grupperna“ finns visserligen endast en elev. I den första finns tre pojkar, i den andra endast en flicka, i den tredje tre pojkar osv. Det totala antalet “runs“ är ett bra mått på slumpmässigheten i ett material. Verkar flickor och pojkar i detta exempel komma i slumpmässig ordning eller finns det någon systematik i materialet? Om det finns få “runs“, så kan man anta att ordningsföljden inte är slumpmässig. Likaså gäller om det finns väldigt många “runs“. Om varannan i kön är pojke och varannan flicka så är ordningsföljden systematisk.

H0: Ordningsföljden vad gäller kön är slumpmässig H1: Ordningsföljden vad gäller kön är ej slumpmässig Signifikansnivå: =0,05

I matkön fanns 12 pojkar (n1=12) och 13 flickor (n2=13). Det kritiska värdet enligt Tabell H blir 8 respektive 19. Observera att Tabell H innehål- ler två kritiska värden, både för få och för många “runs“ tyder på att ord- ningsföljden inte är slumpmässig. Vi kan här observera att kön innehåller 8 “runs“. Om kön innehåller  8 eller  19 “runs“ finns troligen någon sys- tematik i ordningsföljden. Vi måste därför förkasta nollhypotesen och drar slutsatsen att ordningsföljden vad gäller kön inte är slumpmässig.

Om n1 och n2 är tillräckligt stora (>20) blir antalet “runs“ (R) approxima- tivt normalfördelat enligt nedanstående formel:

2 n1n2 R - ______ + 1 - 0,5 n1+n2 z = (formel 4.2) 2 n1n2 (2 n1n2 - n1 - n2) (n1+n2)2 ( n1+n2 - 1)

Även numeriska observationer kan behandlas på liknande sätt om man dikotomiserar den studerade variabeln. Man kan ange observationer över respektive under medianen. Observationer exakt på medianen utesluts. Vid en tentamen i statistik med fri skrivningstid registrerades i vilken ord- ning de 40 tentanderna lämnade in sina skrivningar. Den förste lämnade in sin skrivning efter 2,5 timmar och den siste först efter 6 timmar. Efter att skrivningen blivit rättad kunde man på ett enkelt sätt studera om skriv- ningsresultat var relaterat till inlämningstid. För att nu kunna använda

“run“-testet anges resultatet för varje tentand som över (Ö) eller under (U) medianen. Följande resultat erhölls:

ÖÖ U ÖÖÖÖ UU ÖÖÖÖ UUU ÖÖÖ UU ÖÖ UUUU ÖÖÖ UUUU ÖÖ UUUU

H0: Utnyttjad skrivningstid är ej relaterad till tentamensresultat H1: Utnyttjad skrivningstid är relaterad till tentamensresultat Signifikansnivå: =0,05

Kritiskt värde: z= +/- 1,96

Vi har här funnit 14 “runs“ och kan pröva nollhypotesen med z-testet. En- ligt formel 4.2 erhålls:

2 n1n2 2 . 20 . 20 R - ______ + 1 - 0,5 14 - + 1 - 0,5 n1+n2 20 + 20 z = = -2,08* 2 n1n2 (2 n1n2 - n1 - n2) 2 . 20.20 (2 . 20.20 -20 -20) (n1+n2)2 ( n1+n2 - 1) (20 + 20)2 (20 + 20 - 1)

Vi kan således förkasta nollhypotesen och dra slutsatsen att inlämningen inte har skett i slumpmässig ordning i förhållande till skrivresultat (p<0,05).

4.2 Analys av differensen mellan två