DATORÖVNING 6: CENTRALA GRÄNSVÄRDES-

(1)

1

D ATORÖVNING 6: C ENTRALA GRÄNSVÄRDES -

SATSEN OCH FELMARGINALER

I denna datorövning ska du använda Minitab för att empiriskt studera hur den centrala gränsvärdessatsen fungerar, samt empiriskt utvärdera felmarginaler för ett urvalsmedeltal med hjälp av samplingfördelningar (fördelningen för stickprovsmedelvärden).

S TART

Logga in genom att skriva in ditt user name och ditt password och välja log on to: HELIX. Klicka på OK.

Starta Minitab:

1. Öppna Start-menyn.

2. Välj All Programs och sök upp alternativet Minitab Solutions.

3. I undermenyn för Minitab Solutions, välj alternativet Minitab 15 Statistical Software English.

Se till att du kan skriva Minitab-kommandon direkt i Session-fönstret:

1. Klicka i Session-fönstret så att det blir aktivt (titelraden tänds blå).

2. Öppna menyn Editor och välj alternativet Enable commands.

C ENTRALA GRÄNSVÄRDESSATSEN

Enligt Centrala gränsvärdessatsen (CGS) skall en summa av slumpvariabler bli ungefär normalfördelad om antalet variabler i summan är tillräckligt stort. Vidare gäller att dessa variabler skall vara av samma sort, man brukar säga likafördelade, och inte bero av varandra.

Det enklaste exemplet på detta är att man gjort ett urval om n observationer. Var och en av dessa är som regel oberoende tagna. Detta gäller om populationen är oändligt stor eller åtminstone mycket stor. Varje enskild observation är ju när den skall göras ett ”oskrivet kort” och detta brukar modelleras med att det värde man får är observation av en slumpvariabel, som gäller enbart just för denna observation.

Antag t ex att vi skall göra ett urval av n personer bosatta i Sverige och undersöka hur många syskon de har. För varje utvald person är antalet syskon en slumpvariabel och det innebär att vi har totalt n slumpvariabler i vårt urval. Innan vi har frågat respektive person om antalet syskon vet vi ju inte hur många de är och det gör denna storhet till en slumpvariabel.

Om vi nu vill göra en bedömning av det totala antalet angivna syskon i vårt urval kan vi skriva detta som ^𝑛_𝑖=1𝑋_𝑖 där X1, X2,…,Xn är antalet syskon hos var och en av de n personerna.

Denna summa är nu enligt CGS ungefär normalfördelad med väntevärde n och standardavvikelse



 n där  och  är medeltal och standardavvikelse för antalet syskon i

(2)

2

hela populationen, dvs bland antalet bosatta i Sverige, om n är tillräckligt stor. (Vi bryr oss i detta fall inte om det faktum att två eller flera personer i populationen kan vara syskon och därmed ha lika många syskon, vilket egentligen komplicerar det hela men kan bedömas vara ett mindre problem eftersom populationen är så stor.) Vidare gäller att urvalsmedeltalet av antalet syskon, dvs







 ⁿ

i

Xi

X n

1

blir ungefär normalfördelad med väntevärde  och standardavvikelse 𝜎/ 𝑛.

Man kan (och ska) naturligtvis lita på dessa resultat, eftersom det handlar om ganska lång tids forskning och matematiskt ovedersägliga resultat, men det är ändå nyttigt att empiriskt studera hur bra denna approximation är och vad ett ”stort n” kan vara.

Börja med att mata in värdena 0, 1, 2, 3, 4, 5, 6, 7, 8, 9 och 10 i kolumn C1. Antag att detta är det antal syskon som kan förekomma i en viss population, dvs ingen i populationen har fler än 10 syskon, och det finns de som inte har några syskon alls. Antag vidare att följande proportioner gäller:

Antal syskon Frekvens i populationen

0 16%

1 35%

2 29%

3 10%

4 6%

5 2%

6 0,5%

7 0,5%

8 0,4%

9 0,4%

10 0,2%

Med hjälp av denna frekvenstabell, räkna för hand ut medeltalet, , och standardavvikelsen, , i populationen av antalet syskon. Notera dessa värden.

Lägg nu proportionerna som decimaltal i kolumnen C2, dvs. mata in värdena 0,16, 0,35 etc. i C2.

(3)

3

Antag nu att vi skall göra ett urval om 10 personer från populationen och bestämma hur många syskon var och en av dessa har. Via slumpvariabelbegreppet kan detta utföras genom att slumpmässigt generera 10 observationer från den slumpvariabel som antar värdena i C1 med sannolikheter motsvarande värdena i C2.

Praktiskt kan vi göra detta med kommandot random enligt följande:

MTB > random 10 c3;

SUBC> discrete c1 c2.

Kommandot innebär att vi slumpar 10 observationer från kolumnen C1 och lägger dessa i C3 och att slumpningen görs så att varje värde dras med en sannolikhet som motsvarar värdet i C2. Ni bör därför få observationer i C3 som till större delen är något av värdena 0, 1, 2, 3 och 4, eftersom dessa värden har betydligt högre sannolikheter än de övriga (motsvarar högre frekvenser i populationen).

Beräkna sedan medelvärdet av värdena i C3 och lagra detta i första raden av C4:

MTB > let c4(1)=mean(c3)

Stämmer detta medelvärde någorlunda överens med medeltalet i populationen? Borde det göra det?

För att se hur väl CGS stämmer måste vi på något sätt uppskatta samplingfördelningen hos detta urvalsmedeltal och då krävs att vi upprepar urvalsförfarandet ett stort antal gånger. Kunde vi till exempel skapa 10000 urval av detta slag borde motsvarande urvalsmedeltal ge en hyfsad bild över hur ett urvalsmedeltal kan variera.

Nu är det ganska arbetskrävande att upprepa ovanstående 10000 gånger varför det åter är dags för ett makro.

Öppna Notepad (StartAll programsAccessoriesNotepad) och skriv in följande rader:

gmacro syskon_cgs do k20=1:10000 let c5(1)=k20 random 10 c3;

discrete c1 c2.

let c4(k20)=mean(c3) enddo

endmacro

Studera raderna i detta makro och försök förstå dem. Vad gör till exempel raden let c5(1)=k20 ? Var framgår det att det är 10000 urval som skall göras? Var beräknas medeltalet?

I vilken kolumn sparar vi de 10000 medeltalen?

(4)

4

Spara makrot (välj Save as type: All files ) med namnet syskon_cgs.mac på din hemarea (Z:\). Se till att Minitabs arbetsmapp är din hemarea genom att ge kommandot cd z: (detta behöver du bara göra en gång under en och samma Minitab-session).

Kör nu makrot med kommandot %syskon_cgs. Det tar en liten stund för Minitab att göra alla 10000 urval.

När makrot är klart ska du ha 10000 medeltal i C4. Gör ett histogram över dessa. Ser histogrammet ut att motsvara en normalfördelning? Beräkna vidare medelvärdet och standardavvikelsen av värdena i C4 med hjälp av kommandona mean och stdev. Verkar medelvärdet överensstämma någorlunda med populationsmedeltalet? Verkar standardavvikelsen överensstämma någorlunda med  10? Teorin säger ju att dessa överensstämmelser skall finnas. Obs! Detta gäller oavsett om populationen är normalfördelad eller ej.

För att jämföra mer med normalfördelning bör vi beräkna några percentiler i ytterkanterna, t ex 5:e, 10:e, 90:e och 95:e percentilen. Sortera därför värdena i C4 i storleksordning genom kommandot

MTB > sort c4 c6

Den 5:e percentilen bör du hitta som medelvärdet av det 500:e och det 501:a värdet bland de storleksordnade, den 10:e percentilen som medelvärdet av det 1000:e och det 1001:a värdet etc.

De kan genom Minitab enkelt beräknas som MTB > let k105=(c6(500)+c6(501))/2 MTB > let k110=(c6(1000)+c6(1001))/2 osv.

och sedan skrivas ut (med kommandot print k105 k110 osv).

Dessa fyra percentiler ska nu jämföras med motsvarande percentiler i den normalfördelning som skall gälla enligt CGS:



 



 ,



10



Nf

Lagra  och  i konstanterna K1 och K2 med hjälp av kommandot let.

För att beräkna percentilerna i den teoretiska normalfördelningen används kommandot invcdf. Exempelvis beräknas den 5:e percentilen som

MTB > invc 0,05;

SUBC> normal k1 k2.

Om du dessutom vill lagra denna percentil i t ex konstanten K3 modifierar du kommandot till MTB > invc 0,05 k3;

SUBC> normal k1 k2.

(5)

5

Du måste då skriva ut K3 för att se värdet.

Jämför denna percentil med den du beräknat för värdena i C6 (dvs för värdena i C4). Verkar de överensstämma?

Fortsätt sedan och beräkna den 10:e, den 90:e och den 95:e percentilen i den teoretiska normalfördelningen, och jämför dessa med motsvarande percentiler som du beräknade utifrån kolumn C6. Tycker du att CGS stämmer bra för ett urval om n=10 observationer?

De kommandon du utnyttjat ovan för att

 beräkna medelvärde och standardavvikelse his observationerna i C4

 sortera och beräkna percentiler i C6

 beräkna standardavvikelse i den teoretiska normalfördelningen för urvalsmedeltalet

 beräkna percentiler i den teoretiska normalfördelningen för urvalsmedeltalet

kan förstås läggas in i själva makrot. Medelvärdet i den teoretiska normalfördelningen är alltid detsamma och behöver inte beräknas i makrot. Lägg in dessa i makrot (efter det att loopen är körd).

U PPGIFT 1

Redigera makrot så att du i tur och ordning får urvalsstorlekarna a) 30 observationer

b) 50 observationer c) 100 observationer d) 200 observationer

Kör makrot för varje fall och jämför fördelningsform, medelvärde, standardavvikelse och de fyra percentilerna med motsvarande (värden) i den teoretiska normalfördelningen.

Försök säga något om från och med vilken urvalsstorlek CGS verkar fungera.

F ELMARGINALER

Begreppet felmarginal dyker upp i samband med beräkning av s.k. konfidensintervall. Om man vill bortse från de värden som kan hämtas från normalfördelningstabeller (eller framledes andra tabeller) brukar en enkel regel vara följande:

Ett populationsmedeltal, , finns med 95% säkerhet inom 2_x från ett medeltal x beräknat i ett urval från populationen, där



_x 



n. Vi antar här att populationen är mycket stor (eller oändlig) och struntar därför i eventuella ändlighetskorrektioner. Värdet 2_x brukar kallas den 95%-iga approximativa felmarginalen.

(6)

6

Det kan ju vara intressant att se om denna regel stämmer någorlunda.

Ni har er population definierad genom kolumnerna C1 och C2 och ni har lagrat populationsmedeltalet i K1 och populationsstandardavvikelsen i K2. Ett sätt att kontrollera regeln är att använda de samplingfördelningar du tagit fram och via sannolikhetskalkyl beräkna

”säkerheten” att populationsmedeltalet finns inom  felmarginalen. Här ska vi istället använda ett makro för att bestämma detta empiriskt.

Det makro du använt ovan kan modifieras. Ta bort alla rader där du sorterat och beräknat percentiler. Redigera sedan makrot så att det har följande utseende:

gmacro

syskon_felmarg let k10=30

let k26=2*(k2/sqrt(k20)) do k20=1:10000

let c5(1)=k20 random k10 c3;

discrete c1 c2.

let k25=mean(c3)

if k1<k25+k26 and k1>k25-k26 let c7(k20)=1

else

let c7(k20)=0 endif

enddo endmacro

Försök förstå hur detta makro är uppbyggt.

 Vilken urvalsstorlek har vi här?

 Varför har vi infört raden let k10=30?

 Vad är det vi beräknar i raden let k26=2*(k2/sqrt(k20))?

 Vad kollar vi i raden if k1<k25+k26 and k1>k25-k26, och vad görs om detta villkor är uppfyllt respektive ej uppfyllt?

Spara makrot med namnet syskon_felmarg.mac på din hemarea. Kör makrot med kommandot

%syskon_felmarg och notera vad som händer i kolumn C7.

När makrot är kört skall C7 bestå av 10000 tal som är en blandning av ettor och nollor. Det skall finnas lika många ettor som det blev urval där urvalsmedeltalet  felmarginalen (95%) omfattade populationsmedeltalet.

(7)

7

Beräkna nu proportionen ettor i C7. Detta kan göras med kommandot mean c7 eftersom en proportion är ett specialfall av ett medeltal. Är proportionen nära värdet 0.95 (som det ju bör vara om regeln ovan är någorlunda korrekt)?

Det beräknade värdet brukar kallas felmarginalens täckningsgrad.

U PPGIFT 2

a) Beräkna täckningsgraderna för urval om 50 resp. 100 observationer från din population.

b) För ett urval om 100 observationer, pröva att byta värdet 2 i den beräknade felmarginalen mot 1,96. Kommer täckningsgraden närmare 0,95 då? Var kommer värdet 1,96 från?

c) För såväl ett urval om 50 observationer som ett om 100, pröva att byta den teoretiska standardavvikelsen (dvs. den du har i K2) mot urvalsstandardavvikelsen (som i varje urval kan beräknas med funktionen stdev(c3)). Observera att denna beräkning (och beräkningen av motsvarigheten till K26 i makrot ovan) måste göras inuti loopen, eftersom urvalet ändras hela tiden. Blir det någon skillnad i täckningsgrad jämfört med när du använde den teoretiska standardavvikelsen?

d) Vad kan du allmänt säga om den approximativa regeln att urvalsmedeltalet  felmarginalen (95%) med 95% säkerhet skall omfatta populationsmedeltalet?

Avsluta alla program, logga ut från Windows och logga ut från systemet.