Statistikens grunder 1 och 2, GN, 15 hp, deltid, kvällskurs

(1)

1

Statistikens grunder 1 och 2, GN, 15 hp, deltid, kvällskurs

TE/RC

Datorövning 2

Syfte:

1. Lära sig presentera data i tabeller 2. Lära sig beskriva data numeriskt 3. Lära sig presentera data i grafer

4. Lära sig beräkna sannolikheter för binomial- och normalfördelade variabler 5. Lära sig presentera binomial- och normalfördelningen grafiskt

När vi vill presentera datat i en tabell för varje variabel, Vi använder exemplet från datorövn 1 (filen smoke))

Studenter som röker Studenter som inte röker

Båda föräldrarna röker 400 1380

En av föräldrarna röker 416 1823

Ingen av föräldrarna röker 188 1168,

använder vi koden:

proc freq data=work.smoke;

weight frequency;

tables student parents;

run;

Efter kommandot ”weight” skall vi ange vilken variabel vi har frekvenserna i . I exemplet, datorövn 1, hade vi döpt variabeln till frequency så vi använder det namnet. Under ”weight” kommer kommandot

”tables”, här anges vilka variabler tabellen skall innehålla. I koden ovan, variablerna ”student” och

”parents”. Utskriften blir:

The SAS System 16:57 Thursday, February 16, 2012 13 Cumulative Cumulative student Frequency Percent Frequency Percent ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ not_smok 4371 81.32 4371 81.32 smoke 1004 18.68 5375 100.00

Cumulative Cumulative parents Frequency Percent Frequency Percent ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ both 1780 33.12 1780 33.12 none 1356 25.23 3136 58.34 one 2239 41.66 5375 100.00

(2)

2 Vill man göra en korstabell använder man koden:

proc freq data=work.smoke;

weight frequency;

tables student*parents;

run;

Skillnaden är att när man skapar en korstabell sätter man en asterix mellan de variabler man vill skapa korstabellen för. Utskriften blir:

The FREQ Procedure Table of student by parents student parents

Frequency‚

Percent ‚ Row Pct ‚

Col Pct ‚both ‚none ‚one ‚ Total ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ

not_smok ‚ 1380 ‚ 1168 ‚ 1823 ‚ 4371 ‚ 25.67 ‚ 21.73 ‚ 33.92 ‚ 81.32 ‚ 31.57 ‚ 26.72 ‚ 41.71 ‚

‚ 77.53 ‚ 86.14 ‚ 81.42 ‚ ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ

smoke ‚ 400 ‚ 188 ‚ 416 ‚ 1004 ‚ 7.44 ‚ 3.50 ‚ 7.74 ‚ 18.68 ‚ 39.84 ‚ 18.73 ‚ 41.43 ‚

‚ 22.47 ‚ 13.86 ‚ 18.58 ‚ ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ

Total 1780 1356 2239 5375 33.12 25.23 41.66 100.00

Förklaring till utskriften ovan: Det är 1380 studenter som inte röker och har föräldrar som båda röker. Dessa 1380 studenter utgör 25.67% (1380 av 5375)av alla studenter. 31.57% (1380 av 4371)) av de studenter som inte röker har två föräldrar som röker. 77.53% (1380 av 1780) av alla studenter som har två föräldrar röker inte själva.

Det finns olika procedurer som beskriver data numeriskt i SAS. Vi börjar med ”proc means”, vi använder datat från filen work.number, datorövn 1. I data-setet hade vi tre variabler: X, X² och logX.

För att beskriva dessa variabler numeriskt använder vi koden:

proc means data=work.number;

run;

vilken ger utskriften:

The MEANS Procedure

Variable N Mean Std Dev Minimum Maximum ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ x 10 5.5000000 3.0276504 1.0000000 10.0000000 xsquare 10 38.5000000 34.1735765 1.0000000 100.0000000 lnx 10 1.5104413 0.7330239 0 2.3025851

(3)

3 Vill man ha en numerisk beskrivning av en variabel exempelvis x så lägger man till en rad där man talar om vilken variabel det är man vill analysera. Koden blir:

proc means data=work.number;

var x;

run;

och utskriften blir:

The MEANS Procedure

Analysis Variable : x

N Mean Std Dev Minimum Maximum ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ 10 5.5000000 3.0276504 1.0000000 10.0000000

De mått som ”proc means” ger är alltså

 Variabelnamn (när man har flera variabler)

 Antal observationer

 Medelvärdet

 Standardavvikelsen

 Minimum

 Maximum

Det går att välja vilka mått som skall beräknas men vi nöjer oss med detta vi visat ovan.

Nu skall vi presentera data i grafer. Vi skall göra cirkel- och stapeldiagram. Vi använder data-setet (filen) ”work.smoke”, från datorövn.1.

Vi skapar graferna med koden:

ods rtf;

proc gchart data=work.smoke;

pie student / freq = frequency;

vbar student / freq = frequency;

run;

ods rtf close;

Proceduren so m gör denna typ av grafer är ” proc gchart”. Kommandot ”pie” anges när man vill göra ett cirkeldiagram. Vill vi göra ett vertikalt stapeldiagram använder vi kommandot ”vbar”. Eftersom vi har angett antalet i variabeln ”frequency” måste vi lägga till kommandot ”freq”.

(4)

4 Koden generarar graferna:

FREQUENCY of student

not_smok 4371

smoke 1004

FREQUENCY

0 1000 2000 3000 4000 5000

student

not_smok smoke

(5)

5 Om vi använder ett data-set som inte är skrivet med variabeln ”frequency” utan har datat uppräknat observation för observation så utesluter man koden ”/ freq = frequency”.

Koden blir:

proc gchart data=work.rokdata;

pie gender / discrete;

vbar gender / discrete;

run;

quit;

proc print data=work.rokdata;

run;

I koden är ett kommando tillagt, ”discrete”. Den kvantitativa variabeln ”gender” är kodad ”0” och ”1”

så specificerar vi att variabeln ska behandlas som en diskret variabel, inte som en kontinuerlig.

Skriv in ”quit” efter ”run” i koden för att få processen att sluta arbeta. För att stoppa en process som inte har slutat jobba, tex. ”PROC GCHART running” , tryck på knappen/ikonen ”Break” näst längst till höger i verktygsfältet, markera ”halt DATAstep/PROC:GCHART” tryck ”OK” , markera ”Y to halt DATAstep/proc” tryck ”OK”.

För att presentera sannolikhetsfunktionen för en viss fördelning grafiskt måste vi först skapa ett data-set som innehåller värden på variabeln som fördelningen antar. Sedan beräknar vi

sannolikheten för dessa värden. Vi gör detta för binomialfördelningen, Bin (20;0.1) Koden blir:

data work.binomial;

do x=0 to 20 by 1;

probability=pdf('binomial', x, 0.1, 20);

output work.binomial;

end;

run;

proc print data=work.binomial;

run;

Utskriften för data-setet blir: Obs x probability 1 0 0.12158 2 1 0.27017 3 2 0.28518 4 3 0.19012 5 4 0.08978 6 5 0.03192 7 6 0.00887 8 7 0.00197 9 8 0.00036 10 9 0.00005 11 10 0.00001 12 11 0.00000 13 12 0.00000 14 13 0.00000 15 14 0.00000 16 15 0.00000 17 16 0.00000 18 17 0.00000 19 18 0.00000 20 19 0.00000 21 20 0.00000

(6)

6 F ör att plotta sannolikhetsfördelningen använder vi koden:

proc gplot data=work.binomial;

plot probability*x;

symbol i=needle;

run;

Efter kommandot ”plot” skriver vi in variablerna vi vill plotta. Den variabel som skall vara på y-axeln (lodräta) skriver man först. Kommandot ”symbol” används för att ändra utseendet på plotten. Skriver man inget så kommer observationerna att representeras av ”+” – tecken. Här har vi valt ”i=needle”

vilket ger ett stolpdiagram.

Plotten bli

probability

0.00 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09 0.10 0.11 0.12 0.13 0.14 0.15 0.16 0.17 0.18 0.19 0.20 0.21 0.22 0.23 0.24 0.25 0.26 0.27 0.28 0.29

x

0 10 20

(7)

7 När vill vi rita den kumulativa sannolikhetsfördelningen använder vi koden:

data work.binomial2;

do x=0 to 20 by 1;

probabilitycdf=cdf('binomial', x, 0.1, 20);

output work.binomial2;

end;

run;

proc gplot data=work.binomial2;

plot probabilitycdf*x / haxis = 0 to 20 by 1;

symbol i=stepJ;

run;

Här har vi använt två valbara kommandon. Det första är ”haxis = 0 to 20 by 1”, vilket gör att vi ser alla värden på x-axeln. Det andra är ”symbol=stepJ” för att skapa ett trappstegs diagram. Vi lägger till ”J”

för att binda ihop trappstegen.

Trappstegsdiagrammet ser ut så här:

När vi skall rita täthetsfunktionen hos en normalfördelning så börjar vi med att skapa en variabel med värden och sannolikheter. Vi skapar fördelningen för variabeln X ~ Normal (μ = 3, σ = 5) data work.normal;

do x = -12 to 18 by 0.05;

density = pdf ('normal', x, 3, 5);

output work.normal;

end;

run;

/*proc print data=work.normal;

run;*/

probabilitycdf

0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0

x

0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20

(8)

8 Eftersom sannolikhetsytan är nästan 100 % ¹⁾innanför ± 3 σ från μ så ritar vi fördelningen för följande värden -12 ≤X≤ 18.

1) ± 1 σ ≈ 68%

± 2 σ ≈ 95%

± 3 σ ≈ 99,7%

Plotten ges av koden:

proc gplot data=work.normal;

plot density*x;

symbol i=join;

run;

Plotten blir:

Sammanfattning av de olika valmöjligheterna vi har när vi specificerar ”symbol” kommandot

 ”i = needle” ritar stolpar

 ”i = stepJ” ritar ett trappstegsdiagram

 ”i = join” binder ihop punkterna

 Skriver vi inget får vi plus-tecken

density

0.00 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08

x

-20 -10 0 10 20

(9)

9

Uppgifter

1. Använd data från Datorövning 1

Clas Ohlson H&M Teknikmagasinet MQ

Kvinnor 11 57 6 26

Män 46 4 32 18

och skapa en korstabell för variablerna kön och butik. Hur många procent av alla kvinnor handlar på Clas Ohlson?

2. Använd rokdata.xls från Datorövning 1 för att rita ett stapeldiagram och ett cirkeldiagram för variabeln ”smoke”.

3. Tentaresultaten hos 10 klasskamrater har registrerats. Följande resultat erhölls:

45 57 59 97 83 72 74 29 49 56

Läs in datat och beräkna medelvärdet och standardavvikelsen för tentaresultatet

4. Rita täthetsfunktionen för en normalfördelning X ~ Normal (μ = 7, σ = 3)

5 Använd data från basuppgift 1. Gör en separat tabell för variabeln kön och en separat tabell för iiiiiiiiiiiivariabeln butik.

6. Beskriv datat i upg. 5 numeriskt.