• No results found

Kohort vs. fall-kontroll

N/A
N/A
Protected

Academic year: 2021

Share "Kohort vs. fall-kontroll"

Copied!
36
0
0

Loading.... (view fulltext now)

Full text

(1)

Kvantitativ metod

M AGNUS SANDBVERG, LEG SSK, DR M ED VET , DOCENT

Innan vi börjar

• Gå till: https://pollev.com/magnussandbe412

• Svara på 5 korta frågor

(2)
(3)
(4)

Upplägg

• Syfte i relation till studiedesign och evidens

• Datanivåer

• Urval, population och normalfördelning

• Skattningar och osäkerheter

• Hypoteser och signifikanser

• Olika signifikanstester

• Power

• Korrelation och regression

• (Att tänka på när man gör en enkätstudie)

(5)

Design

Kohort vs. fall-kontroll

(6)

Frågeställning/syfte Design

Experimentella studier Longitudinella studier

Tvärsnittsstudier Kvalitativa studier

Designer

• Syfte med olika designer (grov sammanställning):

Frågeställning/syfte Design

(Behandlings)effekter Experimentella studier Förändring (över tid),

prediktorer, prognos, orsakssamband

Longitudinella studier

Samvariation, associationer Tvärsnittsstudier Upplevelser, erfarenheter Kvalitativa studier

Varför statistik?

• Om man vill veta medellängden i Sverige? Eller gruppen?

Population Urval

Datainsamling

Analys Beskrivning

Deskriptiv statistik Analytisk statistik

Statistisk inferens

(7)

Skillnader urval-population

• Urvalet/Stickprovet

– De individer man mäter på – Kan man ta reda på allting om – Behöver man inte ”gissa” något om

• Studiepopulationen…

– Är de individer man inte kan mäta – Vet man ingenting om

– Vill man kunna dra slutsatser om

Urval/bortfall

• Hur gör jag mitt urval?

• Hur stort blir det interna eller externa bortfallet?

• Hur samlar jag in min data?

• Kopplat till validitet!

Population Urval

Datainsamling

Deskriptiv statistik Analytisk statistik

?

? ?

Analys Beskrivning

(8)

Precision av data av kvantitativ typ

• Svarsalternativen ger olika ”datanivåer”

– Nominalskala

Kan endast anta vissa fasta värden, t. ex. kön, blodgrupp. Meningslöst att t.ex. beräkna medelvärde.

– Ordinalskala

Viss rangordning, men inte nödvändigtvis lika långt mellan skalstegen och därför ej beräkningsbar, t. ex. bra/bättre/bäst, cancerstadier, betyg

– Intervallskala

Beräkningsbarhet, avståndet mellan variabelvärdena är lika stor, men det finns en godtycklig nollpunkt t. ex. Celsiusskalan där det är meningslöst att prata om något som är dubbel så varmt som -1ºC.

– Kvotskala

Beräkningsbar samt en absolut nollpunkt, t. ex. antal barn i en familj, Kelvinskalan.

Kvalitativa variabler Kvantitativa variabler

Deskriptiv statistik

• Avser att beskriva och sammanfatta hur urvalet (stickprovet) ser ut

• Eller egentligen - handlar om att beskriva populationen med hjälp av skattade värden i stickprovet

• Spridning och centralmått (tyngdpunkt) är två centrala begrepp

– Medelvärde – Median – Typvärde

– Standardavvikelse

(9)

Vilket centralmått ska man använda?

• Beror på hur urvalet ser ut och vad som bäst beskriver det

– Grundregel är att om det är kontinuerlig data (kvot eller intervall) och symmetrisk fördelning ska medelvärde väljas

– Vid kontinuerlig data (kvot eller intervall) och osymmetrisk fördelning ska median väljas

– Vid ordinaldata ska median användas (om det är meningsfullt) – Både medelvärde och median är meningslösa vid nominal data

Spridning

• Hur är data fördelat kring medelvärdet?

– Standardavvikelse används vid symmetrisk data, baseras på medelvärde

– Standardavvikelse tillsammans med medelvärde

– Kvartil används vid osymmetrisk fördelning, baseras inte på medelvärde

– Kvartil/percentil används tillsammans med median

(10)

Standardavvikelse

Observation (n) Värde (x) ( − ) ( − )2

1 78 11 121

2 65 -2 4

3 85 18 324

4 63 -4 16

5 63 -4 16

6 58 -9 81

7 47 -20 400

8 52 -15 225

9 67 0 0

10 92 25 625

Summa 0 1812

• Medelavvikelse från medelvärdet (i det här fallet 67,0)

• Anges vanligen som SD, sd, σ eller s

• Summan av avvikelser = 0, därför kvadrering

= − ̅

− 1

= 11 + (−2) +18 +(−4) +(−4) +(−9) (−20) +(−15) +0 +25 9

= 1812 9 = 14,2

Kvartil och percentil

Observation (n) Värde (x) Rangstal

7 47 1

8 52 2

6 58 3

4 63 4,5

5 63 4,5

2 65 6

9 67 7

1 78 8

3 85 9

10 92 10

• Anger hur stor del av urvalet som ligger under ett visst värde.

– 10 % ligger under 10:e percentilen – 20 % under den 20:e osv

• Kvartiler är 25:e, 50:e och 75:e percentilen och delar upp urvalet i 4 lika stora delar

Q1 =( + 1)

4 , Q2 median =2 + 1

4 , Q3 =3( + 1) 4

• I det här fallet är Q1-Q3 observation 2,75, 5,5 och 8,25, och värdet räknas ut som

Q1=52+0,75(58-52)=56,5 Q2=63+0,5(65-63)=64 Q3=78+0,25(85-78)=79,75

(11)

Hur vet vi om det är symmetriskt?

• Grafiskt (dvs. titta på data)

• Median och medelvärde är lika

• Symmetriska percentiler (t.ex. kvartiler) ska vara lika stora. I vårt fall:

• Finns tester i SPSS som anger om data är osymmetriskt

Användning av deskriptiv statistik

Datanivå Centralmått Spridningsmått

Medel Median Typvärde SD IQR Min-max/

variation Totalt antal Kvalitativa variabler

Nominal X X

Ordinal X x X x (x)

Kvantitativa variabler Snedfördelad Intervall/kvot

X x X x (x)

Intervall X x x X x x (x)

Kvot X x x X x x (x)

X = Används normalt i första hand

x = Kan ev. användas. Beror på omständigheterna

(x) = Kan användas, men är generellt sett tveksam i funktion som spridningsmått

(12)

Normalfördelning

x x x x

x x

x x x

x x x

x x x

x x x

x x x x

x x x x

x x x x x x

x x x x x x x

40 50 60 70 80 90 100 kg

Varför statistik?

Population Urval

Datainsamling

Analys Beskrivning

Deskriptiv statistik Analytisk statistik

Skattningar Hypotesprövningar

(13)

Statistisk inferens

• Att dra slutsatser om en population utifrån stickprovet

• För knippat med vissa osäkerheter (fel)

• Urvalsfelen kan man beräkna med hjälp av sannolikhetsteorin (under vissa förutsättningar)

Statistisk inferens - sannolikheter

• Om klassens medellängd var känt

• Var skulle medellängden bli för slumpvist utvald n=10?

• För ett annat urval av n=10?

• Om vi hade en population på 100 000 och drog oändligt många urval med n=100

(14)

Skattningar

• Skattning (som medelvärde och SD) är just en skattning

• Varje skattning innehåller en osäkerhet

• Osäkerheten, det så kallade standardfelet (standard error, SE, eller standard error of the mean, SEM) kan mätas

=

Där s=standardavvikelsen och n=antalet observationer

• Ju större n desto mindre SE

SE och konfidensintervall

• SE används för att räkna fram Konfidensintervall - CI (Confidence Interval)

• Med en viss säkerhet täcker CI det ”sanna värdet i populationen”

• Populationens värde okänt – stickprovsvärdet = bästa uppskattningen

• Beror på hur säker man vill vara och storleken på SE

• Vanligast är 95 % CI. Fås genom:

medelvärdet ± konstant • SE

• Konstanten är 1,96 och kommer från normalfördelningen

(15)

Varför 1,96?

-1,96 σ +1,96 σ

95,0 %

±2,00 σ =95,4 %

Exemplet

• Sedan tidigare, medelvärde 67 SD 14,2

• SE = = , = 4,49

• 95 CI = 67 ±1,96 x 4,49 = 67 ± 8,80

= 58,2 och 75,8

• Dvs. det är 95 % säkerhet att det riktiga medelvärdet i populationen ligger mellan 58,2 och 75,8

Observation (n) Värde (x)

1 78

2 65

3 85

4 63

5 63

6 58

7 47

8 52

9 67

10 92

(16)

Exempel på 95% CI

m n SD 95% CI

67 10 14,2 58,2 - 75,8

67 40 14,2 62,6 - 71,4

67 70 14,2 63,7 - 70,3

67 70 4,2 66,0 - 68,0

67 70 24,2 61,3 - 72,7

Hypotesprövning

• Vi kan inte säga något om studiepopulationen, bara stickprovet

• Däremot kan vi uttala oss om stickprovet om skillnader vi ser där är sannolika även i populationen

• Detta undersöks genom sk. hypotesprövningar

• Är ett teoretiskt antagande

• Frågan som ställs är:

Med vilken sannolikhet kan man utesluta att den

observerade skillnaden (i stickprovet) beror på slumpen?

(17)

Exempel

• Medellängdsskillnaden mellan t.ex. män och kvinnor i klassen

– Vi ser en skillnad i urvalet från klassen mellan män och kvinnor, t.ex. 182 vs. 171 cm.

– Hur stor är sannolikheten att den skillnad som vi kan se i urvalet inte bara beror på slumpen utan också gäller för populationen.

– Är skillnaden i urvalet är så pass stor att det är mycket sannolikt att denna skillnad även finns i populationen?

Varför statistik?

Population Urval

Datainsamling

Män: 182 Kvinnor: 171 Skillnad: Ja, men bara i urvalet Män: ?

Kvinnor: ? Skillnad: ?

(18)

Hypotesprövning

• Sätter upp en nollhypotes (H0) som prövas i hypotesprövning

• H0innebär att det inte föreligger någon skillnad i

populationen, dvs, att män och kvinnor i klassen är lika långa

• Man vill kunna förkasta denna hypotes, men H0gäller om den inte motsägs med tillräckligt stor sannolikhet

• Mothypotesen (H1) är motsatsen, dvs. att det finns en reell skillnad.

• H0= Ingen skillnad Längd kvinnor = längd män H1= Det finns en skillnad Längd kvinnor ≠ längd män

• Nollhypotesen testas med en testfunktion (analysmetoden)

Varför statistik?

Om H0 gäller

Population Urval

Datainsamling

Män: 182 Kvinnor: 171

Skillnad: Ja, men bara i urvalet, dvs. vi har fått detta som ett resultat av slumpen!

Dvs. Män = Kvinnor Skillnad: Nej

(19)

Statistisk signifikans

• Sannolikheten att den observerade skillnaden, effekten etc. hade kunnat erhållas om nollhypotesen (H0) var sann dvs.

Sannolikheten att skillnaden berodde på slumpen

• Anges med ett p-värde (p=probability dvs. sannolikhet)

• Kan anta värden mellan 0 och 1

• Ju lägre p-värde

– Mindre risk att felaktigt förkasta H0och anta att det finns en skillnad

– Större sannolikhet att mothypotesen H1är sann

Illustrerat mha NF – Om H

0

är sann

Medelvärde män = Medelvärde kvinnor (i populationen)

Medelvärde kvinnor

Medelvärde kvinnor Medelvärde kvinnor

(20)

Signifikansnivå (alpha-nivå)

• Bestäms i förväg

• Anger ”hur stor risk” man är villig att ta att förkasta H0då H0faktiskt är sann

• Vanligast p<0.05, dvs. det får max vara 5 % risk (0,05 = 5 %) att säga att det finns en skillnad när det i själva verket inte gör det. Kallas också alpha (α) (dvs. att det är < 5 % chans/risk att skillnaden beror på slumpen) .

• Tolkningen är att det är så liten sannolikhet att få det erhållna resultatet om det faktiskt förelåg en reell skillnad.

Det är då troligare att H0är falsk.

Tolkning

Medelvärde män

±1,96 σ: Om medelvärdet i urvalet för

(21)

Population Urval

Datainsamling

Män:

Kvinnor:

Skillnad: ?

Män: 95% CI 179-185 Kvinnor: 95% CI 168-174 Skillnad: ?

Män: 182 Kvinnor: 171 n=10/10

Skillnad: Ja, men bara i urvalet

Varför statistik?

Analys

Analytisk statistik

SD 4,4 SD 4,8

Analytisk statistik - Tester

• Kvotskala

• Intervallskala

• Ordinalskala

• Nominalskala

• Parametriska test utgår från medelvärden och normalfördelning och förutsätter att:

– Variabel på kvot/intervallnivå – Normalfördelning (vid små n) – Lika spridning (varians)

• Icke-parametriska metoder utgår från rangordning och proportioner Parametrisk statistik (under vissa förutsättningar)

Icke-parametrisk statistik

(22)

Olika tester

1 stickprov En-grupps test

2 stickprov Oberoende observationer

1 stickprov Beroende observationer

3 eller fler stickprov Oberoende observationer

3 eller fler stickprov Beroende observationer

OBS! Viktig att inte blanda beroende och oberoende observationer eftersom man använder olika test.

Översikt över tester

Datanivå Nominalskala Ordinalskala Intervall eller kvotskala

Ej normalfördelad Normalfördelad Antal jämförda grupper

1 stickprov c2-test (chi2) t-test t-test

2 stickprov med oberoende variabler

c2-test (chi2) W ilcoxons rangsumme-test (Mann-Whitney U-test)

W ilcoxons rangsumme-test (Mann-Whitney U-test)

t-test

2 stickprov med beroende variabler

McNemar’s test W ilcoxons tecken-rangtest

W ilcoxons tecken-rangtest

t-test

3 stickprov (eller fler) med oberoende variabler

c2-test (chi2) Kruskal-Wallis test (1-sidig ANOVA)

Kruskal-Wallis test (1-sidig ANOVA)

1-sidig ANOVA

3 stickprov (eller fler) med beroende variabler

Friedmans test Friedmans test 2-sidig ANOVA

(23)

Principen för signifikanstester

ä = ä − ö ä ä

det ä

Eller om man har två grupper

= ä − ö ä ä

ä

Men vad händer med denna uppställning om H0är sann?

Ett exempel

• Jämföra två grupper, med oberoende observationer

• Skiljer sig kognitiv förmåga, MMSE, mellan två avdelningar

Förutsättningar:

Kont var, normalfördelad

Avd A Avd B

̅= 7.167 ̅= 8.50 SD = 0.753 SD = 1.049 H0= Det finns ingen skillnad H1= Det finns en skillnad

Avd A Avd B

7 7

6 8

7 9

8 10

7 9

8 8

(24)

Forts

• T-test för två stickprov med oberoende variabler

= ̅ − ̅

+

= 7.167 − 8.50 (0.753)

6 +(1.049) 6

=−1.333

0.527 = −2.53

• Till tabell ger att p<0.05 för detta värde… eller SPSS

1,000 ,341 -2,530 10 ,030 -1,33

-2,530 9,071 ,032 -1,33

Equal variances assumed Equal variances not assumed BETYG

F Sig.

Levene's Test for Equality of Variances

t df

Sig.

(2-tailed) Mean Difference t-test for Equality of Means Independent Samples Test

MMSE

Ett annat exempel

• Antal patienter (n=30) som varje läkare (A, B och C) på en avdelning är ansvariga för. Skiljer sig antal patienter mellan läkarna?

• Förutsättning, beroende variabel på nominal nivå

• H0är att det inte finns någon skillnad, dvs att varje läkare har hand om 10 patienter var.

Läkare Antal pat (n)

A 5

B 17

C 8

Tot 30

(25)

• O = Observerade frekvenser; E = Förväntade frekvenser

c = ( − )

c = 7.8

Detta är större än 5.99 som enligt tabell krävs för p=0.05

Gr O E

A 5 10

B 17 10

C 8 10

Tot

Chi

2

Gr O

A 5

B 17

C 8

Tot

Gr O E O-E (O-E)2 (O-E)2/E

A 5 10 -5 25 2.5

B 17 10 7 49 4.9

C 8 10 -2 4 0.4

Tot 7.8

Gr O E O-E

A 5 10 -5

B 17 10 7

C 8 10 -2

Tot 0

Gr O E O-E (O-E)2

A 5 10 -5 25

B 17 10 7 49

C 8 10 -2 4

Tot 0

I SPSS

teckingskategori

5 10,0 -5,0

17 10,0 7,0

8 10,0 -2,0

30 kat A

kat B kat C Total

Observed N Expected N Residual

Test Statistics

7,800 2 ,020 Chi-Squarea

df Asymp. Sig.

teckingsk ategori

0 cells (,0%) have expected frequencies less than 5. The minimum expected cell frequency is 10,0.

a.

(26)

Varför statistik?

Population Urval

Datainsamling

Män: 182 SD 4,4 Kvinnor: 171 SD 4,8 n=10/10

Statistiskt signifikant skillnad: Ja!

Skillnaden är inte ett resultat av slumpen.

Män: 95% CI 179-185 Kvinnor: 95% CI 168-174 Skillnad: Ja!

Analys

Analytisk statistik

Ex. tolkning av resultat – diskussion

(27)

Men…

• P-värdet säger ingenting om skillnadens storlek eller kliniska betydelse!

• Vad som blir en signifikant skillnad beror på:

– Vilket p-värde man sätter som gräns – Gruppstorlek

– Spridningen inom grupperna (SD) – Går att räkna ut (Power)

• Förhållandet mellan gruppstorlek (n) och skillnad i medelvärde för att skillnaden ska bli statistisk signifikant, dvs. p<0.05

• Beror med andra ord dels på vilket p-värde, dels på vilken power man vill ha, dels på standardavvikelsen och dels på antalet individer

ä = ä − ö ä ä

det ä

=

Ex på power

n Skillnad

4 14,70

9 9,80

25 5,88

64 3,68

100 2,94

400 1,47

900 0,98

(28)

Exempel på Powerberäkning

Exempel på låg power

(29)

Exempel – Hur ska detta tolkas?

Franic DM, Jiang JZ. (2006) Pharmacotherapy, 26(6):768-78.

Typ I- och typ II-fel

H0sann

Det finns ingen skillnad

H1sann

Det finns en skillnad H0väljs

Vi finner ingen statistisk skillnad

ok Typ II-fel

β-fel

H1väljs

Vi finner en statistisk skillnad

Typ I-fel α-fel

ok

(30)

Typ I- och Typ II-fel

• Typ I-fel, α-fel (alpha) innebär att man hittar signifikanta skillnader i urvalet trots att de inte finns i populationen

• Anledningen till typ I-fel är att signifikanstester bara är ett sannolikhetsberäkning. Det finns således en osäkerhet

• Att välja p-värdesgräns är ett sätt att minska risken för typ I-fel. Vanligast är p=0,05 eller p=0,001

• P=0,05 innebär ändå att gör man 100 signifikanstest kommer sannolikt 5 st av dem (dvs. 5%) att vara felaktiga.

• Gör man jämförelser mellan många grupper kan ett lägre p-värde behövas för att undvika massignifikans

Forts.

• Typ II-fel, β-fel (beta) är det motsatta, när man inte hittar skillnader i urvalet trots att de finns i populationen

• Detta beror ofta på att man har för få observationer, dvs.

får låg power

• Att göra en powerberäkning och se till att man har tillräckligt med deltagare är ett sätt att minska risken för typ II-fel

(31)

Korrelationer och regression

• Finns också olika sätt att hitta samband mellan olika variabler.

• Vanligtvis försöker man anpassa sambandet till en rät linje, t.ex. finns det ett samband mellan längd och vikt?

• Pearson’s Produktmomentkorrelation, rxy, för variabler på minst intervallskalenivå

• Spearmans korrelation, rsför ordinalskalevariabler

• Styrkan på sambandet anges med en standardiserad korrelationskoefficient.

Exempel

• Går att associera flera variabler till en beroende variabel

• Går att hitta

prediktorer om man gör longitudinell studier

• Varierar mellan -1 och 1, där -1/1 är stark korrelation.

*

*

*

*

*

*

* *

* *

*

*

*

*

*

*

*

* *

*

x y

(32)

Exempel på korrelationer

Problem med korrelationer

• Korrelationskoefficienten anger inte lutningen, endast graden av linjäritet i samvariationen

• Mäter inte icke-linjära samband

• En korrelation mellan X och Y kan innebär olika saker:

korrelation ≠ orsakssamband!

X Y

Z

(33)

Regressioner

• Hur en beroende variabel samvarierar med oberoende variabler

• Finns olika typer av regressioner (inte bara linjärt)

• Kan använda fler oberoende variabler

• Tolkningen att hur mycket ändras den beroende variabeln när den oberoende ökar ett steg, förutsatt att de andra variablerna i modellen hålls konstanta.

• Kräver att de oberoende variablerna inte har för hög korrelation

• R2-värdet anger hur mycket av variationen i den beroende variabeln som de oberoende bidrar med

Exempel

Livskvalitet

Fysisk

funktions- nedsättning Antal

sjukdomar

Antal nära vänner

Muskel- styrka

(34)

Begränsningar gruppjämförelser

• Om jag vill undersöka vad som påverkar antal

sjukhusvistelser, kan jag ju undersöka om de med ett besök skiljer sig från de utan besök, t.ex. så här:

• Vad är det egentligen som påverkar? Kön påverkar troligen även åldern…

Inget besök 1<besök P-värde

Ålder, m 68 72 <0,05

Kön (kv), % 62 64 <0,05

Antal diagnoser, md 7 9 <0,05

Öppenvårds-besök, md 1 6 <0,05

Oro, md 38 47 <0,05

Exempel

(35)

Grundläggande litteratur

• Essentials of Nursing Research: Appraising Evidence for Nursing Practice – Polit, D. F.,

& Beck, C.T.

Går igenom allt! Bra, inte bara som

”uppslagsbok”. Pedagogisk genomgång av basal statistik och statistiska begrepp.

• Handbok i uppsatsskrivande och forskningsmetodik för studenter inom hälso- och vårdvetenskap – Kristensson, J.

Tar på ett enkelt sätt upp det mesta som man behöver när man skriver uppsats, oavsett vilken metod man använder.

Litteratur statistik

• Statistik för hälsovetenskaperna. Lund:

Studentlitteratur. Ejlertsson, G.

Tar upp basal statistik och grundläggande begrepp och analysmetoder.

• Epidemiologi för hälsovetare: En introduktion. Lund: Studentlitteratur.

Andersson, I.

Mer inriktad på epidemiologi och mest icke-experimentella studiedesigner. Tar även upp en hel del statistik

(36)

Mer avancerad statistiklitteratur

• Practical Statistics for medical reserach – Douglas G Altman

”Bibel” som går igenom alla grunder för statistik och dessutom alla typer av test.

Förvånansvärt lätt att förstå om man bara ger sig tid att läsa

• Biostatistics: The bare essentials – Geoffery R Norman & David L Streiner Mycket bra komplement till Altman.

Mycket bra exempel och exempel från SPSS. Också mycket om vad som kan ställa till saker och vad det beror på.

Magnus.Sandberg@med.lu.se

References

Related documents

Kvoterna är låga för sortimenten från åkern och för biprodukter från skogsindustrin, medan de är högre för sortimenten från skogen och högst för returträ..

Hildur ville inte vara enträgen af fruktan för att det skulle se ut som närgångenhet, och då hon såg att Maja började återkomma till medvetande, fann hon själf sin

Året därpå hade priset höjts med 10 %.. Vad kostade

anser sig kunna neka skyddsitgarder, där inbrott redan förekommit. Man borde vis- Jerligen av dessa arbetsgivare kunna vän- ta så mycken ansvarskänsla och omsorg

kvinnors tillträde till nämnda stats tjänster har emellertid genom dennr atredning sammanknutits med frågar om lönereglering för ifrågavarande lä rartjänster.

Den ena faktorn, faktor 2 rörande relations-friktioner i parrela- tionen, kunde endast besvaras av deltagare som var, eller nyss hade varit, i en parrelation (dvs. ”Min partner

fört, sällan störs av några rubbningar. Beträffande pigorna i köket ha de dess- utom jungfru Ulrikas strängt vakande öga över sig. Hon lever själv, som om hon

underlag för att ta patent på Reuteri och där har vi grunden till vad som idag är BioGaia.. Det fortsatta utvecklingsar- betet skedde borta i USA hos Walter Dobrogosz och