Kohort vs. fall-kontroll

(1)

Kvantitativ metod

M AGNUS SANDBVERG, LEG SSK, DR M ED VET , DOCENT

Innan vi börjar

• Gå till: https://pollev.com/magnussandbe412

• Svara på 5 korta frågor

(2)

(3)

(4)

Upplägg

• Syfte i relation till studiedesign och evidens

• Datanivåer

• Urval, population och normalfördelning

• Skattningar och osäkerheter

• Hypoteser och signifikanser

• Olika signifikanstester

• Power

• Korrelation och regression

• (Att tänka på när man gör en enkätstudie)

(5)

Design

Kohort vs. fall-kontroll

(6)

Frågeställning/syfte Design

Experimentella studier Longitudinella studier

Tvärsnittsstudier Kvalitativa studier

Designer

• Syfte med olika designer (grov sammanställning):

Frågeställning/syfte Design

(Behandlings)effekter Experimentella studier Förändring (över tid),

prediktorer, prognos, orsakssamband

Longitudinella studier

Samvariation, associationer Tvärsnittsstudier Upplevelser, erfarenheter Kvalitativa studier

Varför statistik?

• Om man vill veta medellängden i Sverige? Eller gruppen?

Population Urval

Datainsamling

Analys Beskrivning

Deskriptiv statistik Analytisk statistik

Statistisk inferens

(7)

Skillnader urval-population

• Urvalet/Stickprovet

– De individer man mäter på – Kan man ta reda på allting om – Behöver man inte ”gissa” något om

• Studiepopulationen…

– Är de individer man inte kan mäta – Vet man ingenting om

– Vill man kunna dra slutsatser om

Urval/bortfall

• Hur gör jag mitt urval?

• Hur stort blir det interna eller externa bortfallet?

• Hur samlar jag in min data?

• Kopplat till validitet!

Datainsamling

?

? ?

Analys Beskrivning

(8)

Precision av data av kvantitativ typ

• Svarsalternativen ger olika ”datanivåer”

– Nominalskala

Kan endast anta vissa fasta värden, t. ex. kön, blodgrupp. Meningslöst att t.ex. beräkna medelvärde.

– Ordinalskala

Viss rangordning, men inte nödvändigtvis lika långt mellan skalstegen och därför ej beräkningsbar, t. ex. bra/bättre/bäst, cancerstadier, betyg

– Intervallskala

Beräkningsbarhet, avståndet mellan variabelvärdena är lika stor, men det finns en godtycklig nollpunkt t. ex. Celsiusskalan där det är meningslöst att prata om något som är dubbel så varmt som -1ºC.

– Kvotskala

Beräkningsbar samt en absolut nollpunkt, t. ex. antal barn i en familj, Kelvinskalan.

Kvalitativa variabler Kvantitativa variabler

Deskriptiv statistik

• Avser att beskriva och sammanfatta hur urvalet (stickprovet) ser ut

• Eller egentligen - handlar om att beskriva populationen med hjälp av skattade värden i stickprovet

• Spridning och centralmått (tyngdpunkt) är två centrala begrepp

– Medelvärde – Median – Typvärde

– Standardavvikelse

(9)

Vilket centralmått ska man använda?

• Beror på hur urvalet ser ut och vad som bäst beskriver det

– Grundregel är att om det är kontinuerlig data (kvot eller intervall) och symmetrisk fördelning ska medelvärde väljas

– Vid kontinuerlig data (kvot eller intervall) och osymmetrisk fördelning ska median väljas

– Vid ordinaldata ska median användas (om det är meningsfullt) – Både medelvärde och median är meningslösa vid nominal data

Spridning

• Hur är data fördelat kring medelvärdet?

– Standardavvikelse används vid symmetrisk data, baseras på medelvärde

– Standardavvikelse tillsammans med medelvärde

– Kvartil används vid osymmetrisk fördelning, baseras inte på medelvärde

– Kvartil/percentil används tillsammans med median

(10)

Standardavvikelse

Observation (n) Värde (x) ( − ) ( − )²

1 78 11 121

2 65 -2 4

3 85 18 324

4 63 -4 16

5 63 -4 16

6 58 -9 81

7 47 -20 400

8 52 -15 225

9 67 0 0

10 92 25 625

Summa 0 1812

• Medelavvikelse från medelvärdet (i det här fallet 67,0)

• Anges vanligen som SD, sd, σ eller s

• Summan av avvikelser = 0, därför kvadrering

= ∑ − ̅

− 1

= 11 + (−2) +18 +(−4) +(−4) +(−9) (−20) +(−15) +0 +25 9

= 1812 9 = 14,2

Kvartil och percentil

Observation (n) Värde (x) Rangstal

7 47 1

8 52 2

6 58 3

4 63 4,5

5 63 4,5

2 65 6

9 67 7

1 78 8

3 85 9

10 92 10

• Anger hur stor del av urvalet som ligger under ett visst värde.

– 10 % ligger under 10:e percentilen – 20 % under den 20:e osv

• Kvartiler är 25:e, 50:e och 75:e percentilen och delar upp urvalet i 4 lika stora delar

Q1 =( + 1)

4 , Q2 median =2 + 1

4 , Q3 =3( + 1) 4

• I det här fallet är Q1-Q3 observation 2,75, 5,5 och 8,25, och värdet räknas ut som

Q1=52+0,75(58-52)=56,5 Q2=63+0,5(65-63)=64 Q3=78+0,25(85-78)=79,75

(11)

Hur vet vi om det är symmetriskt?

• Grafiskt (dvs. titta på data)

• Median och medelvärde är lika

• Symmetriska percentiler (t.ex. kvartiler) ska vara lika stora. I vårt fall:

• Finns tester i SPSS som anger om data är osymmetriskt

Användning av deskriptiv statistik

Datanivå Centralmått Spridningsmått

Medel Median Typvärde SD IQR Min-max/

variation Totalt antal Kvalitativa variabler

Nominal X X

Ordinal X x X x (x)

Kvantitativa variabler Snedfördelad Intervall/kvot

X x X x (x)

Intervall X x x X x x (x)

Kvot X x x X x x (x)

X = Används normalt i första hand

x = Kan ev. användas. Beror på omständigheterna

(x) = Kan användas, men är generellt sett tveksam i funktion som spridningsmått

(12)

Normalfördelning

x x x x

x x

x x x

x x x x

x x x x x x

x x x x x x x

40 50 60 70 80 90 100 kg

Varför statistik?

Datainsamling

Analys Beskrivning

Skattningar Hypotesprövningar

(13)

Statistisk inferens

• Att dra slutsatser om en population utifrån stickprovet

• För knippat med vissa osäkerheter (fel)

• Urvalsfelen kan man beräkna med hjälp av sannolikhetsteorin (under vissa förutsättningar)

Statistisk inferens - sannolikheter

• Om klassens medellängd var känt

• Var skulle medellängden bli för slumpvist utvald n=10?

• För ett annat urval av n=10?

• Om vi hade en population på 100 000 och drog oändligt många urval med n=100

(14)

Skattningar

• Skattning (som medelvärde och SD) är just en skattning

• Varje skattning innehåller en osäkerhet

• Osäkerheten, det så kallade standardfelet (standard error, SE, eller standard error of the mean, SEM) kan mätas

=

Där s=standardavvikelsen och n=antalet observationer

• Ju större n desto mindre SE

SE och konfidensintervall

• SE används för att räkna fram Konfidensintervall - CI (Confidence Interval)

• Med en viss säkerhet täcker CI det ”sanna värdet i populationen”

• Populationens värde okänt – stickprovsvärdet = bästa uppskattningen

• Beror på hur säker man vill vara och storleken på SE

• Vanligast är 95 % CI. Fås genom:

medelvärdet ± konstant • SE

• Konstanten är 1,96 och kommer från normalfördelningen

(15)

Varför 1,96?

-1,96 σ +1,96 σ

95,0 %

±2,00 σ =95,4 %

Exemplet

• Sedan tidigare, medelvärde 67 SD 14,2

• SE = = ^, = 4,49

• 95 CI = 67 ±1,96 x 4,49 = 67 ± 8,80

= 58,2 och 75,8

• Dvs. det är 95 % säkerhet att det riktiga medelvärdet i populationen ligger mellan 58,2 och 75,8

Observation (n) Värde (x)

1 78

2 65

3 85

4 63

5 63

6 58

7 47

8 52

9 67

10 92

(16)

Exempel på 95% CI

m n SD 95% CI

67 10 14,2 58,2 - 75,8

67 40 14,2 62,6 - 71,4

67 70 14,2 63,7 - 70,3

67 70 4,2 66,0 - 68,0

67 70 24,2 61,3 - 72,7

Hypotesprövning

• Vi kan inte säga något om studiepopulationen, bara stickprovet

• Däremot kan vi uttala oss om stickprovet om skillnader vi ser där är sannolika även i populationen

• Detta undersöks genom sk. hypotesprövningar

• Är ett teoretiskt antagande

• Frågan som ställs är:

Med vilken sannolikhet kan man utesluta att den

observerade skillnaden (i stickprovet) beror på slumpen?

(17)

Exempel

• Medellängdsskillnaden mellan t.ex. män och kvinnor i klassen

– Vi ser en skillnad i urvalet från klassen mellan män och kvinnor, t.ex. 182 vs. 171 cm.

– Hur stor är sannolikheten att den skillnad som vi kan se i urvalet inte bara beror på slumpen utan också gäller för populationen.

– Är skillnaden i urvalet är så pass stor att det är mycket sannolikt att denna skillnad även finns i populationen?

Varför statistik?

Datainsamling

Män: 182 Kvinnor: 171 Skillnad: Ja, men bara i urvalet Män: ?

Kvinnor: ? Skillnad: ?

(18)

Hypotesprövning

• Sätter upp en nollhypotes (H₀) som prövas i hypotesprövning

• H₀innebär att det inte föreligger någon skillnad i

populationen, dvs, att män och kvinnor i klassen är lika långa

• Man vill kunna förkasta denna hypotes, men H₀gäller om den inte motsägs med tillräckligt stor sannolikhet

• Mothypotesen (H₁) är motsatsen, dvs. att det finns en reell skillnad.

• H₀= Ingen skillnad Längd kvinnor = längd män H₁= Det finns en skillnad Längd kvinnor ≠ längd män

• Nollhypotesen testas med en testfunktion (analysmetoden)

Varför statistik?

Om H0 gäller

Datainsamling

Män: 182 Kvinnor: 171

Skillnad: Ja, men bara i urvalet, dvs. vi har fått detta som ett resultat av slumpen!

Dvs. Män = Kvinnor Skillnad: Nej

(19)

Statistisk signifikans

• Sannolikheten att den observerade skillnaden, effekten etc. hade kunnat erhållas om nollhypotesen (H₀) var sann dvs.

Sannolikheten att skillnaden berodde på slumpen

• Anges med ett p-värde (p=probability dvs. sannolikhet)

• Kan anta värden mellan 0 och 1

• Ju lägre p-värde

– Mindre risk att felaktigt förkasta H₀och anta att det finns en skillnad

– Större sannolikhet att mothypotesen H₁är sann

Illustrerat mha NF – Om H

₀

är sann

Medelvärde män = Medelvärde kvinnor (i populationen)

Medelvärde kvinnor

Medelvärde kvinnor Medelvärde kvinnor

(20)

Signifikansnivå (alpha-nivå)

• Bestäms i förväg

• Anger ”hur stor risk” man är villig att ta att förkasta H₀då H₀faktiskt är sann

• Vanligast p<0.05, dvs. det får max vara 5 % risk (0,05 = 5 %) att säga att det finns en skillnad när det i själva verket inte gör det. Kallas också alpha (α) (dvs. att det är < 5 % chans/risk att skillnaden beror på slumpen) .

• Tolkningen är att det är så liten sannolikhet att få det erhållna resultatet om det faktiskt förelåg en reell skillnad.

Det är då troligare att H₀är falsk.

Tolkning

Medelvärde män

±1,96 σ: Om medelvärdet i urvalet för

(21)

Datainsamling

Män:

Kvinnor:

Skillnad: ?

Män: 95% CI 179-185 Kvinnor: 95% CI 168-174 Skillnad: ?

Män: 182 Kvinnor: 171 n=10/10

Skillnad: Ja, men bara i urvalet

Varför statistik?

Analys

Analytisk statistik

SD 4,4 SD 4,8

Analytisk statistik - Tester

• Kvotskala

• Intervallskala

• Ordinalskala

• Nominalskala

• Parametriska test utgår från medelvärden och normalfördelning och förutsätter att:

– Variabel på kvot/intervallnivå – Normalfördelning (vid små n) – Lika spridning (varians)

• Icke-parametriska metoder utgår från rangordning och proportioner Parametrisk statistik (under vissa förutsättningar)

Icke-parametrisk statistik

(22)

Olika tester

1 stickprov En-grupps test

2 stickprov Oberoende observationer

1 stickprov Beroende observationer

3 eller fler stickprov Oberoende observationer

3 eller fler stickprov Beroende observationer

OBS! Viktig att inte blanda beroende och oberoende observationer eftersom man använder olika test.

Översikt över tester

Datanivå Nominalskala Ordinalskala Intervall eller kvotskala

Ej normalfördelad Normalfördelad Antal jämförda grupper

1 stickprov c²-test (chi²) t-test t-test

2 stickprov med oberoende variabler

c²-test (chi²) W ilcoxons rangsumme-test (Mann-Whitney U-test)

W ilcoxons rangsumme-test (Mann-Whitney U-test)

t-test

2 stickprov med beroende variabler

McNemar’s test W ilcoxons tecken-rangtest

W ilcoxons tecken-rangtest

t-test

3 stickprov (eller fler) med oberoende variabler

c²-test (chi²) Kruskal-Wallis test (1-sidig ANOVA)

Kruskal-Wallis test (1-sidig ANOVA)

1-sidig ANOVA

3 stickprov (eller fler) med beroende variabler

Friedmans test Friedmans test 2-sidig ANOVA

(23)

Principen för signifikanstester

ä = ä − ö ä ä

det ä

Eller om man har två grupper

= ä − ö ä ä

ä

Men vad händer med denna uppställning om H₀är sann?

Ett exempel

• Jämföra två grupper, med oberoende observationer

• Skiljer sig kognitiv förmåga, MMSE, mellan två avdelningar

Förutsättningar:

Kont var, normalfördelad

Avd A Avd B

̅= 7.167 ̅= 8.50 SD = 0.753 SD = 1.049 H₀= Det finns ingen skillnad H₁= Det finns en skillnad

Avd A Avd B

7 7

6 8

7 9

8 10

7 9

8 8

(24)

Forts

• T-test för två stickprov med oberoende variabler

= ̅ − ̅

+

= 7.167 − 8.50 (0.753)

6 +(1.049) 6

=−1.333

0.527 = −2.53

• Till tabell ger att p<0.05 för detta värde… eller SPSS

1,000 ,341 -2,530 10 ,030 -1,33

-2,530 9,071 ,032 -1,33

Equal variances assumed Equal variances not assumed BETYG

F Sig.

Levene's Test for Equality of Variances

t df

Sig.

(2-tailed) Mean Difference t-test for Equality of Means Independent Samples Test

MMSE

Ett annat exempel

• Antal patienter (n=30) som varje läkare (A, B och C) på en avdelning är ansvariga för. Skiljer sig antal patienter mellan läkarna?

• Förutsättning, beroende variabel på nominal nivå

• H₀är att det inte finns någon skillnad, dvs att varje läkare har hand om 10 patienter var.

Läkare Antal pat (n)

A 5

B 17

C 8

Tot 30

(25)

• O = Observerade frekvenser; E = Förväntade frekvenser

c = ( − )

→

c = 7.8

Detta är större än 5.99 som enligt tabell krävs för p=0.05

Gr O E

A 5 10

B 17 10

C 8 10

Tot

Chi

²

Gr O

A 5

B 17

C 8

Tot

Gr O E O-E (O-E)² (O-E)²/E

A 5 10 -5 25 2.5

B 17 10 7 49 4.9

C 8 10 -2 4 0.4

Tot 7.8

Gr O E O-E

A 5 10 -5

B 17 10 7

C 8 10 -2

Tot 0

Gr O E O-E (O-E)²

A 5 10 -5 25

B 17 10 7 49

C 8 10 -2 4

Tot 0

I SPSS

teckingskategori

5 10,0 -5,0

17 10,0 7,0

8 10,0 -2,0

30 kat A

kat B kat C Total

Observed N Expected N Residual

Test Statistics

7,800 2 ,020 Chi-Square^a

df Asymp. Sig.

teckingsk ategori

0 cells (,0%) have expected frequencies less than 5. The minimum expected cell frequency is 10,0.

a.

(26)

Varför statistik?

Datainsamling

Män: 182 SD 4,4 Kvinnor: 171 SD 4,8 n=10/10

Statistiskt signifikant skillnad: Ja!

Skillnaden är inte ett resultat av slumpen.

Män: 95% CI 179-185 Kvinnor: 95% CI 168-174 Skillnad: Ja!

Analys

Analytisk statistik

Ex. tolkning av resultat – diskussion

(27)

Men…

• P-värdet säger ingenting om skillnadens storlek eller kliniska betydelse!

• Vad som blir en signifikant skillnad beror på:

– Vilket p-värde man sätter som gräns – Gruppstorlek

– Spridningen inom grupperna (SD) – Går att räkna ut (Power)

• Förhållandet mellan gruppstorlek (n) och skillnad i medelvärde för att skillnaden ska bli statistisk signifikant, dvs. p<0.05

• Beror med andra ord dels på vilket p-värde, dels på vilken power man vill ha, dels på standardavvikelsen och dels på antalet individer

ä = ä − ö ä ä

det ä

=

Ex på power

n Skillnad

4 14,70

9 9,80

25 5,88

64 3,68

100 2,94

400 1,47

900 0,98

(28)

Exempel på Powerberäkning

Exempel på låg power

(29)

Exempel – Hur ska detta tolkas?

Franic DM, Jiang JZ. (2006) Pharmacotherapy, 26(6):768-78.

Typ I- och typ II-fel

H₀sann

Det finns ingen skillnad

H₁sann

Det finns en skillnad H₀väljs

Vi finner ingen statistisk skillnad

ok Typ II-fel

β-fel

H1väljs

Vi finner en statistisk skillnad

Typ I-fel α-fel

ok

(30)

Typ I- och Typ II-fel

• Typ I-fel, α-fel (alpha) innebär att man hittar signifikanta skillnader i urvalet trots att de inte finns i populationen

• Anledningen till typ I-fel är att signifikanstester bara är ett sannolikhetsberäkning. Det finns således en osäkerhet

• Att välja p-värdesgräns är ett sätt att minska risken för typ I-fel. Vanligast är p=0,05 eller p=0,001

• P=0,05 innebär ändå att gör man 100 signifikanstest kommer sannolikt 5 st av dem (dvs. 5%) att vara felaktiga.

• Gör man jämförelser mellan många grupper kan ett lägre p-värde behövas för att undvika massignifikans

Forts.

• Typ II-fel, β-fel (beta) är det motsatta, när man inte hittar skillnader i urvalet trots att de finns i populationen

• Detta beror ofta på att man har för få observationer, dvs.

får låg power

• Att göra en powerberäkning och se till att man har tillräckligt med deltagare är ett sätt att minska risken för typ II-fel

(31)

Korrelationer och regression

• Finns också olika sätt att hitta samband mellan olika variabler.

• Vanligtvis försöker man anpassa sambandet till en rät linje, t.ex. finns det ett samband mellan längd och vikt?

• Pearson’s Produktmomentkorrelation, r_xy, för variabler på minst intervallskalenivå

• Spearmans korrelation, r_sför ordinalskalevariabler

• Styrkan på sambandet anges med en standardiserad korrelationskoefficient.

Exempel

• Går att associera flera variabler till en beroende variabel

• Går att hitta

prediktorer om man gör longitudinell studier

• Varierar mellan -1 och 1, där -1/1 är stark korrelation.

*

* *

*

* *

*

x y

(32)

Exempel på korrelationer

Problem med korrelationer

• Korrelationskoefficienten anger inte lutningen, endast graden av linjäritet i samvariationen

• Mäter inte icke-linjära samband

• En korrelation mellan X och Y kan innebär olika saker:

•

korrelation ≠ orsakssamband!

X Y

Z

(33)

Regressioner

• Hur en beroende variabel samvarierar med oberoende variabler

• Finns olika typer av regressioner (inte bara linjärt)

• Kan använda fler oberoende variabler

• Tolkningen att hur mycket ändras den beroende variabeln när den oberoende ökar ett steg, förutsatt att de andra variablerna i modellen hålls konstanta.

• Kräver att de oberoende variablerna inte har för hög korrelation

• R²-värdet anger hur mycket av variationen i den beroende variabeln som de oberoende bidrar med

Exempel

Livskvalitet

^Fysisk

funktions- nedsättning Antal

sjukdomar

Antal nära vänner

Muskel- styrka

(34)

Begränsningar gruppjämförelser

• Om jag vill undersöka vad som påverkar antal

sjukhusvistelser, kan jag ju undersöka om de med ett besök skiljer sig från de utan besök, t.ex. så här:

• Vad är det egentligen som påverkar? Kön påverkar troligen även åldern…

Inget besök 1<besök P-värde

Ålder, m 68 72 <0,05

Kön (kv), % 62 64 <0,05

Antal diagnoser, md 7 9 <0,05

Öppenvårds-besök, md 1 6 <0,05

Oro, md 38 47 <0,05

Exempel

(35)

Grundläggande litteratur

• Essentials of Nursing Research: Appraising Evidence for Nursing Practice – Polit, D. F.,

& Beck, C.T.

Går igenom allt! Bra, inte bara som

”uppslagsbok”. Pedagogisk genomgång av basal statistik och statistiska begrepp.

• Handbok i uppsatsskrivande och forskningsmetodik för studenter inom hälso- och vårdvetenskap – Kristensson, J.

Tar på ett enkelt sätt upp det mesta som man behöver när man skriver uppsats, oavsett vilken metod man använder.

Litteratur statistik

• Statistik för hälsovetenskaperna. Lund:

Studentlitteratur. Ejlertsson, G.

Tar upp basal statistik och grundläggande begrepp och analysmetoder.

• Epidemiologi för hälsovetare: En introduktion. Lund: Studentlitteratur.

Andersson, I.

Mer inriktad på epidemiologi och mest icke-experimentella studiedesigner. Tar även upp en hel del statistik

(36)

Mer avancerad statistiklitteratur

• Practical Statistics for medical reserach – Douglas G Altman

”Bibel” som går igenom alla grunder för statistik och dessutom alla typer av test.

Förvånansvärt lätt att förstå om man bara ger sig tid att läsa

• Biostatistics: The bare essentials – Geoffery R Norman & David L Streiner Mycket bra komplement till Altman.

Mycket bra exempel och exempel från SPSS. Också mycket om vad som kan ställa till saker och vad det beror på.

Magnus.Sandberg@med.lu.se