Statistiska analysmetoder, en introduktion. Fördjupad forskningsmetodik Våren 2021

(1)

Statistiska analysmetoder, en introduktion

Fördjupad forskningsmetodik Våren 2021

(2)

Vad är statistisk dataanalys?

• Analys och tolkning av kvantitativa data -> förutsätter numeriskt datamaterial

• Används dels för att beskriva data, t.ex. hur dess olika variabler fördelar sig, eller för att testa samband mellan variabler (t.ex. arbetstrivsel och medbestämmande)

• Statistiska sambandsanalyser utförs oftast med hjälp av

hypotestestning där vi endera skattar estimat för populationer eller testar graden av systematiska samband med statistisk

inferens (söker statistisk signifikans)

• Underlättas av tillgång till SPSS (eller andra statistikprogram)

(3)

Olika typer av statistisk analys

• Det finns många former av statistisk analys, beroende vilken typ av undersökning, urvalstyp och data vi har att göra med

• Grovt förenklat kan vi kanske skilja mellan två huvudtyper:

• Deskriptiva statistiska analyser: syftar till att beskriva variabler, t.ex. genom att beräkna central- eller spridningsmått, genom att framställa data i tabeller

eller diagram/figurer

• Analyser av samband: syftar till att mäta samband mellan olika variabler, att skatta estimat för populationer, eller att testa hypoteser om skillnader i

fördelningar

(4)

Deskriptiv statistisk analys

• Utgör vanligen ett första steg i analysen och syftar främst till att beskriva hur variablerna är fördelade, t.ex. med hjälp av frekvenstabeller, central- och spridningsmått eller figurer

(såsom histogram, stapeldiagram eller spridningsdiagram) – låt oss här återvända till vår studie om arbetstrivsel och de

faktorer som påverkar denna trivsel)

• I detta fall svarade 136 av de samplade 150 personerna (ca 91

%), vilket gör bortfallet litet men ändå värt att analysera, kan t.ex. visa ifall någon viss grupp varit mer ovillig att svara

(5)

Olika former av deskriptiva analyser

• Frekvenstabeller och deskriptiva mått (kan användas för att kolla

fördelningen, hur många som svarat vad, räkna ut medelvärden m.m.)

• Centralmått (visar var ”mitten” i en fördelning finns, t.ex. medelvärde)

• Spridningsmått (visar hur datat ”sprider” sig runt mitten, t.ex.

standardavvikelse)

• Olika former av figurer och diagram

• Stapeldiagram

• Histogram

• Tidsseriefigurer

• Spridningsdiagram

(6)

Något kort om SPSS

• I SPSS kan ni koda in datat (ange variabelvärdena för alla analysenheter) manuellt, kopiera in det från en Excel-fil eller så laddar ni ner färdiga SPSS- datamaterial (t.ex från ESS eller FSD)

• I SPSS opererar ni med tre menyer: Data View (visar datat), Variable View (visar variablerna) samt Output-filer (filer dit resultaten av era körningar kommer +

syntaxen). Syntaxen är de kommandon ni gett programmet, dessa kan sparas och användas på nytt (vi använder dock inte syntax i denna kurs)

• Finns många bra instruktionsvideor på Youtube. En bra bok ni kan skaffa är ”SPSS Survival Manual” av Julie Palliant. En bra hjälp är ocks¨å ”SPSS-akuten”

(7)

Exempel på stapeldiagram (”Arbetstrivsel”)

0 10 20 30 40 50 60 70

Trivs mycket dåligt 2 3 4 Trivs mycket bra

Count

Arbetstrivsel

Gör så här på SPSS för att skapa ett stapeldiagram för variabeln

”Arbetstrivsel”:

Välj Graphs ->

Legacy dialogs ->

Bar ->

Simple (klicka ”Summaries for groups of cases”) -> Define ->

Välj variabeln ”Arbetstrivsel” som

Category Axis och klicka ”N of cases” ->

Klicka OK

(8)

Exempel på grupperat stapeldiagram

Gör så här på SPSS för att skapa ett grupperat stapeldiagram för variabeln ”Arbetstrivsel”:

Välj Graphs ->

Legacy dialogs ->

Bar ->

Clustered (klicka ”Summaries for groups of cases”) ->

Define ->

Välj variabeln ”Arbetstrivsel” som Category Axis ->

Välj variabeln ”Typ av befattning” som Define clusters by Kilcka på N of cases ->

Klicka OK

(9)

Exempel på histogram

Gör så här på SPSS för att skapa ett

histogram för variabeln ”Arbetstrivsel”:

Välj Graphs ->

Legacy dialogs ->

Histogram ->

Välj variabeln ”Arbetstrivsel” som Variable ->

Klicka på ”Display normal curve” ->

Klicka OK

(10)

Exempel på en frekvenstabell

Gör så här på SPSS för att skapa en

frekvensetabell för variabeln ”Arbetstrivsel”:

Välj Analyze ->

Descriptive Statistics ->

Frequencies ->

Välj variabeln ”Arbetstrivsel” och för över den till den högra rutan ->

Klicka på Statistics ->

Välj Mean, Medium och Mode ->

Välj också StDev ->

Välj Continue ->

Välj OK

(11)

Exempel på uppställning av resultat från deskriptiv analys (där man räknat medelvärden, procent etc.)

Tabell 1. Fördelningen av respondenter enligt befattning och övriga variabler (n = 136) Socialarbetare

(n=78)

Socialhandledare (n=58)

Variabler:

Kön (kvinna, man) i procent 82.2% 17.8% 80.7 % 19.3%

Ålder (medeltal, standardavvikelse) 42 5,73 39 6,11

Arbetstrivsel (medeltal, stand.avv.) 2.7 6.232 3,112 5.884

Medbestämmande (medeltal, stand.avv.) n

3.6 n

7.204 n

3.7 n

5.345 n

(12)

Några viktiga SPSS-kommandon för fortsättningen

• Tre användbara SPSS-kommandon som ofta används i analyser är:

• Analyser av subpopulationer, dvs att ni endast analyserar en del av era undersökningsenheter, t.ex endast männen i ert data

• Omkodning av variabler, dvs att ni kodar om de värden som en variabel har

• Skapande av ”dummy”-variabler, dvs att gör det möjligt att analysera kategoriska variabler såsom de vore kategoriska variabler

(13)

Analyser av subpopulationer

• När ni vill analysera endast en del av ert N, dvs en subpopulation, t.ex. välja enbart män, kan ni använda er av ””Data + Select cases”-kommandot i SPSS

• Välj ”Data”, sedan ”Select cases”, välj sedan ”If condition is satisfied” i

fönstret som öppnas och tryck på ”If”-rutan (se nästa blad). Nu öppnas ett nytt fönster där ni ska ange vilken variabel som ni använder för er

selektion, t.ex. ”Kön” (fall vi vill analysera endast män som ju var kodade som 1-or). Detta gör ni genom att föra över ”kon” till högra rutan, och

sedan skriva ”kon = 1”. När ni gjort det klickar ni ”Continue” och sist ”OK”

• Ifall ni gjort detta rätt, ser ni att de värden ni valt bort (dvs kvinnorna i detta fall) blir överstrukna i vänster sida av ”Data view”

(14)

”Select cases”-kommandot i SPSS

(15)

Omkodning av variabler

• Ibland måste man koda om värdena i de variabler man har. Det kan esv

handla om att invertera värden, slå ihop dem till större/mindre klasser eller att dikotomisera utfallsvariabler (används i logistisk regressionsanalys)

• Omkodning av variabler sker med ”Transform” + Recode”-kommandot i SPSS.

• Man kan endera modifiera variabelvärdena i ursprungsvariabeln (”Recode into Same variables”) eller skapa en helt ny variabel (Recode into Different Variables”). Jag brukar föredra det senare alternativet, eftersom man då behåller originalvariabeln med originalkodningen (ifall man skulle behöva använda den på nytt). Den nya omkodade variabeln dyker upp i slutet av er

”Variable View”

(16)

Exempel: dikotomisering av ”arbetstrivel”

• Välj ”Transform” och sedan ”Recode into Different Variables”. För över

arbetstrivselvariabeln (trivsel) till rutan i mitten och skriv in ”Arbetstrivsel_dik”

som nytt ”Name” och ”trivsel_dik” som new ”Label” i rutan för ”Output variable”

längst till höger och klicka sedan på ”Change” (se bild 1 på nästa blad). Nu ser du att den nya, dikotomiserade, variabeln dyker upp efter pilen i mittrutan

• Men vi måste ännu definiera hur de gamla värdena ska dikotomiseras, dvs vilka nya värden som ska ersätta de gamla. För att kunna göra detta måste vi klicka på

”Old and new values” och definiera de nya värdena. Låt oss koda om värdena så att höga värden (dvs 3, 4 och 5) blir det nya värdet ”Trivs” och låga värden (dvs 1, 2 och 3) blir ”Trivs inte”. Detta görs genom att ersätta ”Old values” med ”New

values” och aktivera genom att klicka ”Add” så att ersättningarna syns i rutan nedtill (se bild 2 på nästa blad). När du är nöjd klickar du ”Continue” och sedan

”OK”, så ser du att din nya variabel dyker upp längst ner i Variable View”

(17)

Bild 1

Bild 2

(18)

Skapande av ”dummy”-variabler

• Ibland vill man med koda om kategoriska variabler så att de går att behandla som kontinuerliga, t.ex att analysera betydelsen av kön i en regressionsanalys

• Även här kodar man om variabeln med hjälp av ”Transform/Recode into different variables”-kommandot

• Men: här dikotomiseras varje variabelvärde skilt, utom ett (som sedan blir referens, dvs det man jämför dummyvariabeln med)

(19)

Exempel: att göra en ”dummy”-könsvariabel

• Anta att vi vill analysera sambandet mellan kön och arbetstrivsel med hjälp av en regressionsanalys. Detta går inte rakt av, för kön är ju en kategorisk variabel. Därför måste vi göra om den till en ”dummy-

variabel” som kan analyseras numeriskt

• Vi skapar alltså en ny variabel (”Man_dummy”) med

”Transform/Recode into Different Variables” (se bild 1 på följande

blad). Alla som är män i datat (ursprungskodning =1) blir ”ettor” i den nya kodningen, medan alla som är kvinnor (ursprungskodning=2) blir

”nollor” i den nya kodningen. Vi behöver inte göra om detta för

kvinnor, för kvinnor blir referensen, dvs det som männen jämförs med

(20)

Bild 1

Bild 2

(21)

Statistiska sambandsanalyser

• Syftar till att mäta samband mellan enskilda variabler (bivariat analys) eller mellan flera oberoende variabler och en beroende variabler

(multivariat analys)

• Oftast bygger sådana analyser på antaganden (forskningshypoteser) som vi testar statistiskt med hjälp av statistisk inferens

• Detta innebär att vi med statistikens hjälp prövar ifall vår hypotes får stöd eller inte, och om vi således kan godta den på en given

säkerhetsnivå (t.ex. på en 0,05-felrisknivå)

• Vi avgör graden av statistisk signifikans (dvs. om ett samband är

verkligt eller slumpmässigt) – detta ges i SPSS i form av Sig-värden (p)

(22)

Hypotestestning och signifikansnivå

• Två olika hypoteser används:

• Forskningshypotes (H₁): det påstående vi vill testa (t.ex. det finns ett samband mellan arbetstrivsel och graden av medbestämmande som inte är slumpmässigt)

• Nollhypotes (H₀): det som gäller ifall forskningshypotesen är falsk (inget systematiskt samband finns)

• Signifikansnivån (p, Sig.) anger risken för att sambandet är skenbart, slumpmässigt genererat (bör helst vara mindre än 0.05 -> vi kan med 95 % säkerhet anta att sambandet gäller, dvs. att det inte är skenbart eller slumpmässig (95 %-nivån är oftast den lägsta godtagbara nivån för hypotesgodkännande)

(23)

Några vanliga test i statistisk sambandsanalys

• Korrelationstester (r_xy, r_s och C_xy) – visar samband mellan variabler (en vanlig korstabell eller ett spridningsdiagram gör i princip också detta)

• Regressionstester (regressionskoefficient) – testar samband men även vilken riktning sambandet går (hur mycket av y förklaras av x?)

• χ²-testet (chi-kvadrattestet) av skillnader mellan fördelningar

• Testning av medelvärdet i ett stickprov (t-test)

• Testning av skillnaden mellan två fördelningars medelvärden (t-test)

(24)

Exempel på ett spridningsdiagram

Gör så här på SPSS för att skapa ett

spridningsdiagram för variablerna ”Arbetstrivsel”

och ”Medbestämmande”:

Välj Graphs ->

Legacy dialogs - >

Scatter/Dot ->

Välj “Simple scatter” - >

Define - >

Välj “Arbetstrivsel” som Y Axis och

“Medbestämmade” som X Axis –>

Klicka OK

Obs, vill du sätta in trendlinje dubbelklickar du

figuren i Statistics Viewer och sen högerklickar du och väljer “Add data labels” och “Add trend line”

(25)

Korstabeller (kontingenstabeller)

• Korstabeller används både för att beskriva variablers fördelningar eller proportioner men kan också användas för att mäta statistiska

samband (med hjälp av Chi²-testet och kontingenskoefficienten)

• I vårt fall är vi intresserade av huruvida det finns ett samband mellan

“Arbetstrivsel” och “Typ av befattning”, dvs om arbetstrivseln ser olika ut mellan socialarbetare och socialhandledare

• För att testa detta konstruerar vi en korstabell med “Arbetstrivsel”

som radvariabel och “typ av position” som kolumnvariabel

(26)

Korstabeller (kontingenstabeller)

Gör så här på SPSS:

Välj Analyze ->

Descriptive statistics ->

Cross tables ->

Välj ”Arbetstrivsel” som radvariabel och

”typ av position” som kolumnvariabel ->

Klicka ”Cells” och välj “Column percent - >

klicka på Continue ->

Klicka ”Statistics” och välj ”chi square”

och ”contingency coefficient”- >

Klicka Continue ->

Klicka OK

(27)

Tolkningen av resultaten i en korstabell

Med blotta ögat kan vi se att socialhandledare verkar trivas något bättre än socialarbetare, men är detta samband så starkt att vi kan se det som statistiskt säkerställt (signifikant)?

Vi behöver därför kolla kontingenskoefficienten och signifikansnivån (baserat på chi2- testet) för att vara säkra. Denna koefficient (som kan ta ett värde mellan 0 och 1) visar .212, vilket tyder på ett svagt samband, men det är inte tillräckligt starkt för att vara signifikant på en 95 %-nivå (p =.170). Detta p-värde borde i så fall ha varit mindre än 0.05!

(28)

Exempel: korrelations- och regressionstest

• Forskningshypotes: personer med hög grad av upplevd medbestämmanderätt tenderar uppleva en högre grad av arbetstrivsel (på ett sätt som inte har med slumpen att göra)

• Vi genomför med hjälp av SPSS ett korrelationstest samt ett regressionstest där vi testar hur våra huvudsakliga variabler (arbetstrivsel och medbestämmande) samt andra eventuella mellanliggande variabler förhåller sig till varandra

(29)

Något om skillnaden mellan korrelations- och regressionstest

• Båda mäter sambandet mellan variabler och kan användas för testning av forskningshypoteser

• Skillnaden är främst att korrelationstest (t.ex. Pearsons

koefficient) endast mäter graden av samvariation mellan olika variabler (utan att vi vet något om sambandets riktning),

medan vanlig regressionsanalys (OLS=ordinary least squares, minsta kvadratmetoden) beräknar en funktion för sambandet (y = a + bx) och (vilket dock inte är bevis på kausalitet)

(30)

Pearson’s korrelationstest av sambandet mellan

”Arbetstrivsel” och ”Medbestämmande ^”

Gör så här i SPSS:

Välj Analyze ->

Correlate ->

Bivariate ->

Välj ”Arbetstrivsel” och

”Medbestämmande” och för över dem till högra rutan ->

Klicka OK

(31)

Tolkning av det bivariata korrelationstestet

Correlations

1 ,709**

,000

136 136

,709** 1

,000

136 136

Pearson Correlation Sig. (2-tailed)

N

Pearson Correlation Sig. (2-tailed)

N Arbetstrivsel

Grad av upplevd medbestämmande

Arbetstrivsel

Grad av upplevd medbestä

mmande

Correlation is significant at the 0.01 level (2-tailed).

**.

Signifikanstest (p-värde);

anger risken för att vi ska godta hypotesen när den i själva fallet är felaktig – detta värde ska vara under 0,05 för att vi ska kunna godta hypotesen (vilket här är fallet, dvs. p < 0.05)

Pearsons

korrelationskoefficient är .709 (kan variera mellan 0 och +/-1) och är signifikant (vilket ** visar)

(32)

Tolkning av det bivariata korrelationstestet, forts.

• Det finns ett ganska starkt och positivt samband (0.709) mellan arbetstrivsel och medbestämmande

• Detta bivariata samband är statistiskt signifikant (Sig. = 0.000, dvs.

p < 0.05) =>Vi kan alltså så här långt anta vår forskningshypotes

• Men finns det även andra faktorer som kan tänkas spela roll här och hur påverkar dessa i så fall detta samband? Hur är det

exempelvis med ens lön, eller uppskattningen man får av sin förman eller av sina kolleger?

• Här kommer multivariat regressionsanalys in i bilden

(33)

Multivariat regressionsanalys

• Mäter i vilken grad vår oberoende variabel (medbestämmande) förklarar variationen i vår beroende variabel (arbetstrivsel)

• Men vi vill också kolla i vilken grad medbestämmande förklarar arbetstrivsel när vi samtidigt kontrollerar för inverkan av andra variabler

• Vi genomför därför en multivariat regressionsanalys (dvs. en

beroende och fyra oberoende variabler) och där iden är att testa vilken (relativ) förklaringsgrad variabeln medbestämmande har när vi samtidigt kontrollerar för påverkan från andra variabler

(34)

Multivariat regressionstest av Arbetstrivsel

Gör så här i SPSS:

Välj Analyze -> Regression -> Linear (detta är det vanliga OLS-regressionsalternativet) ->

Välj ”Arbetstrivsel” som dependent variable och

”Medbestämmande”, ”Nöjd med lön”,

”Uppskattning från arbetsgrupp” och

”Uppskattning från förman” som oberoende variabler ->

Klicka OK

Obs! Ifall du sätter in fler än en oberoende variabel får du en multivariat

regressionsanalys. Ifall du bara har en enda oberoende variabel så är det fråga om en bivariat regressionsanalys

(35)

Model Summary

,787^a ,619 ,608 ,598

Model 1

R R Square

Adjusted R Square

Std. Error of the Estimate

Predictors: (Constant), Uppsk.av arbetsgruppen, Grad av upplevd medbestämmande, Nöjd med egen lön, Uppsk.av närmaste förman

a.

Coefficients^a

,466 ,217 2,154 ,033

,372 ,070 ,397 5,328 ,000

,153 ,061 ,164 2,483 ,014

,358 ,065 ,388 5,466 ,000

-,029 ,059 -,030 -,491 ,624

(Constant) Grad av upplevd medbestämmande Nöjd med egen lön Uppsk.av närmaste förman

Uppsk.av arbetsgruppen Model

1

B Std. Error Unstandardized

Coefficients

Beta Standardized

Coefficients

t Sig.

Dependent Variable: Arbetstrivsel a.

Förklaringsgrad, dvs hur stor del av variationen i arbetstrivsel förklaras av modellen nedan

Intercept (konstant) Regressionskoefficienter

Signifikansnivåer

Resultaten från det multivariata regressionstestet

Standardfel

Beroende variabeln

De fyra oberoende variablerna

(36)

Tolkningar av regressionstestet

• Till att börja med kan vi se på Model Summary som visar att regressionsmodellen förklarar en relativt stor andel (ca. 60 %) av den totala variationen i arbetstrivsel (r²=.608) och att

medelfelet är 0.598 - > dvs. ca 60 % av variationen i uppmätt arbetstrivsel hänger samman med de fyra oberoende

variablerna i modellen

• För att kunna säga något mer exakt om vad medelfelet i detta fall säger om modellens statistiska kvalitet, behöver vi dock göra diverse tilläggsanalyser. Men på i det stora hela verkar testet dock fungera

(37)

Tolkningar av regressionstestet, forts.

• De standardiserade Betakoefficienterna (Coefficients) visar att det finns ett starkt, positivt, samband mellan arbetstrivsel och

medbestämmande (Beta=0.397) även fastän vi kontrollerar för inverkan av andra oberoende variabler, och att detta samband är signifikant på 0.05-nivån, dvs. att vi kan anta forskningshypotesen med 95% säkerhet

• Även lönen (Beta=0.164) och uppskattning av förman (Beta=0.388) har positiv betydelse för arbetstrivseln, medan uppskattning av

arbetsgruppen inte spelar lika viktig roll för arbetstrivsel och är negativt korrelerad (Beta= -0.030, Sig. = 0.624)

(38)

Exkursion: vilken roll har då kön för arbetstrivseln?

• Vi skapade ju tidigare en dummy-variabel för kön, en ”Man_dummy”- variabel (för att vi skull kunna analysera betydelsen som kön har för arbetstrivseln

• Ett enkelt bivariat korrelationstest mellan ”man-dummy”-variabeln och ”arbetstrivsel” visar på ett nästan obefintligt samband

(Pearson=0.003). När vi däremot sätter in vår dummyvariabel i vår multivariata regressionsmodell ser vi att könets betydelse ökar något (jämfört med kvinnor trivs män något bättre, Beta=0.050, när man samtidigt kontrollerar för andra oberoende variabler) men att

sambandet inte är signifikant (sig. =.366) (se nästa blad)

(39)

Regressionsresultaten när man även kontrollerar

för kön (med en dummy)

(40)

Sammanfattning

• Statistiska analysmetoder förutsätter kvantitativa data, helst på intervall- eller kvotnivå

• Statistisk analys hjälper oss att beskriva data, att beräkna

samband och att testa forskningshypoteser. För att statistiskt testa kausalsamband måste vi dock ha tidsseriedata eller

någon form av experimentsdesign

• Finns många bra guider för hur man använder SPSS, t.ex. SPSS- akuten eller Julie Pallants bok (SPSS Survival manual).

• Till sist: övning ger färdighet, ju mer ni övar med SPSS, desto bättre blir ni

Statistiska analysmetoder, en introduktion. Fördjupad forskningsmetodik Våren 2021