STOCKHOLMS UNIVERSITET
Sociologiska institutionen
Skrivning i METOD (Analys) för fortsättningskursen i Sociologi, AoA, PAO, US och Samhällsplanerarlinjen, 12 april 2008, 9.00-13.00.
Skrivtid: 4 timmar
Hjälpmedel: Miniräknare
Instruktioner: Skriv tydligt och läsligt, lämna dina svar på separat papper, numrera svaren på samma sätt som frågorna, skriv namn och personnummer på samtliga papper du lämnar in och motivera alla svar på essäfrågorna samt redovisa eventuella beräkningar. Svara koncist och håll dig till frågan.
Kontrollera att skrivningen, inklusive denna sida, består av sammanlagt 5 sidor (inklusive denna) med 6 frågor. Antal maxpoäng per fråga anges inom parentes i högerkanten intill varje fråga.
Markera i tabellen nedan med kryss vilka uppgifter som besvarats (i raden markerad med X).
Lycka till!
/Ryszard och Martin
Lösta uppgifter
Uppgift 1 2 3 4 5 6 summa
X
poäng
antal möjliga poäng
8 12 3 3 2 4 32
Betygskala
A B C D E
Fler än 30 27 24 20 16 poäng
För att få högre betyg än E måste antalet poäng på fråga 2 var större än 8.
Namn:______________________________________________________________
Personnr:_____________________________________________________________
OBS! Detta blad skall lämnas in med dina skrivningssvar!
Fråga 1. Läs följande påståenden. Ange med ett kryss i lämplig ruta om påståendet är sant eller falskt. För varje rätt svar ges 1 pluspoäng och för varje fel svar ges 1 minuspoäng. Blankt svar ger noll poäng. Minsta antal poäng du kan få för dessa åtta frågor är noll, högsta är åtta. Läs noga igenom formuleringen av varje påstående innan du svarar.
(8 p)
a) I ett signifikanstest innebär fel av typ I att man accepterar en felaktig nollhypotes (H0).
Sant Falskt
b) Med hjälp av dummyvariabler går det att använda oberoende variabler på nominal nivå (t.ex. nationalitet) i en linjär regressionsanalys.
Sant Falskt
c) Riktningskoefficienten (b-värdet) i en enkel linjär regressionsanalys anger hur mycket den beroende variabeln i genomsnitt förändras i enheter då den oberoende variabeln förändras med ett steg.
Sant Falskt
d) Interceptet i en regressionsanalys anger alltid det predicerade värdet på den beroende variabeln när de oberoende variablerna är lika med sitt medelvärde.
Sant Falskt
e) För att skatta en regressionsmodell krävs att de oberoende och den beroende variabeln är okorrelerade.
Sant Falskt
f) Att studera sambandet mellan x och y konstanthållet för z betyder alltid att man studerar sambandet mellan x och y när z har värdet 0.
Sant Falskt
g) Residualtermen ei kan definieras som skillnaden mellan en individs predicerade och observerade värde på y.
Sant Falskt
h) Ett bra sätt att minska standardfelet i en regressionsanalys är att använda sig av en större population.
Sant Falskt
Fråga 2. I nedanstående modell är egna utbildningsår beroende variabel. Materialet omfattar ett obundet slumpmässigt urval (OSU) av individer mantalsskrivna i Sverige i åldrarna 30 – 50 år under år 2000. De oberoende variablerna är kodade på följande sätt.
Kvinna = 1 om kvinna, 0 om man Ålder = ålder i antal år
Skilda föräldrar = 1 om individen vuxit upp med skilda föräldrar, 0 annars
Storstad = 1 om individen är uppvuxen i storstad, 0 om individen är uppvuxen i mindre stad eller på landsbygden
Faderns utbildningsår = faderns utbildning (under uppväxten) mätt i antal år
Fadern högre tjänsteman = 1 om fadern var högre tjänsteman (under uppväxten), 0 om fadern var arbetare
b t Sig. (p)
Kvinna -0.172 -1.35 0.178
Ålder 0.012 1.14 0.255
Skilda föräldrar -0.735 -8.65 0.000
Storstad 0.274 5.66 0.000
Faderns utbildningsår 0.435 12.61 0.000
Fadern högre tjänsteman 1.528 9.81 0.000
Intercept/Konstant 8.024 12.43 0.000
R2 0.151
N 1 998
a) R2-värdet för ovanstående modell är 0.15. Vad betyder det? (1p)
b) Tolka vart och ett av värdena i kolumn b (de skattade b-koefficienterna). (4p)
c) Förklara vad värdet i kolumn Sig. (p) innebär för variabeln som mäter om individen bor i
storstad (2p)
d) Hur tolkar du interceptet? (1p)
e) Ange den fullständiga ekvationen för (och räkna ut) predicerade utbildningsår för en person med följande egenskaper: en 30-årig kvinna som vuxit upp med skilda föräldrar i en storstad, där fadern hade 9 utbildningsår och var arbetare. (2p)
f) När variabeln som mäter om fadern var högre tjänsteman tas bort ur modellen blir koefficienten för faderns utbildningsår 0.523. Förklara varför den skattade koefficienten
förändras jämfört med modellen i tabellen ovan. (2p)
Fråga 3. En forskare studerar trivsel på jobbet bland ett slumpmässigt urval om 3 000 av alla förvärvsarbetande i Sverige i november 2007. Hon mäter trivsel på jobbet på en skala från 0 till 100, där högre poäng betyder bättre trivsel. När hon använder veckoarbetstid (individens
genomsnittliga antal arbetade timmar per vecka, inklusive övertid) som oberoende variabel får hon följande resultat:
b t Sig. (p)
Veckoarbetstid 1,1 2,86 0,007
Intercept 10,2
Forskaren konstaterar att detta samband kvarstår oförändrat när hon kontrollerar (konstanthåller) för utbildningsnivå, arbetslivserfarenhet, klass och kön. Hon drar följande slutsats av resultatet: ”Om man tillbringar mer tid på jobbet så leder det till att man trivs bättre med jobbet. Det är förmodligen så att ju mer man är på jobbet, desto mer fäster man sig vid och identifierar sig med sitt jobb.”
Utifrån resultatet av sin analys drar forskaren alltså slutsatsen att mer tid på jobbet leder till att man trivs bättre på jobbet. Är sambandet kausalt? För poäng krävs att du motiverar ditt svar. (3p)
Fråga 4. I en regressionsanalys studerar en forskare sambandet mellan föräldrars inkomst (mätt som hushållets taxerade inkomst i tusentals kronor) och elevers sjukfrånvaro (mätt i antal dagar per läsår) som gick i årskurs 1 (på lågstadiet) på Alviksskolan i Bromma år 2007. Forskaren erhåller följande resultat:
b t Sig. (p)
Föräldrars inkomst -0,1 -12,0 0,000 Intercept 14,2
På en debattsida kommenterar forskaren ovanstående resultat: ”Vi vet sedan tidigare att barn till låginkomsttagare är missgynnade på många sätt. Nu visar min forskning att föräldrarnas inkomst signifikant påverkar barnens sjukfrånvaro. Det är av största vikt att man uppmärksammar detta problem.” Är denna slutsats rimlig? För poäng krävs att du motiverar ditt svar. (3p)
Fråga 5. Det finns flera olika sätt på vilka en skattad regressionsmodell kan vara inadekvat.
Antag att den sanna populationsmodellen ser ut som nedan:
X i
X
Yi =α+β1 1+β2 2+ε
där X1 och X2 korrelerar med +0.35, men att vi skattar följande modell:
ei
x b a
yi = + 1 1+
Vad har vi gjort för fel? (2p)
Fråga 6.
a) Vad innebär ett kurvlinjärt samband mellan två variabler? (1p)
b) Ge exempel på två variabler där det är rimligt att anta ett kurvlinjärt samband dem emellan, och illustrera med en figur hur ett sådant samband skulle se ut. (2p)
c) Hur kan man enkelt test om det föreligger ett kurvlinjärt samband mellan två variabler. (1p)
STOCKHOLMS UNIVERSITET
Sociologiska institutionen
Skrivning i METOD (Analys) för Sociologi II, AoA II, PAO II, US II samt fortsättningskurs i Sociologi, AoA, PAO, US, 17 maj 2008, 9.00-14.00.
Skrivtid: 5 timmar
Hjälpmedel: Miniräknare
Instruktioner: Skriv tydligt och läsligt, lämna dina svar på separat papper, numrera svaren på samma sätt som frågorna, skriv namn och personnummer på samtliga papper du lämnar in och motivera alla svar på essäfrågorna samt redovisa eventuella beräkningar. Svara koncist och håll dig till frågan.
Kontrollera att skrivningen, inklusive denna sida, består av sammanlagt 5 sidor (inklusive denna) med 6 frågor. Antal maxpoäng per fråga anges inom parentes i högerkanten intill varje fråga.
Markera i tabellen nedan med kryss vilka uppgifter som besvarats (i raden markerad med X).
Lycka till!
/Ryszard och Martin
Lösta uppgifter
Uppgift 1 2 3 4 5 6 summa
X
poäng
antal möjliga poäng
8 12 3 3 2 2 30
Betygskala
A B C D E
Fler än 27 24 21 18 15 poäng
För att få högre betyg än E måste antalet poäng på fråga 2 var större eller lika med 8.
Namn:______________________________________________________________
Personnr:_____________________________________________________________
OBS! Detta blad skall lämnas in med dina skrivningssvar!
Fråga 1. Läs följande påståenden. Ange med ett kryss i lämplig ruta om påståendet är sant eller falskt. För varje rätt svar ges 1 pluspoäng och för varje fel svar ges 1 minuspoäng. Blankt svar ger noll poäng. Minsta antal poäng du kan få för dessa åtta frågor är noll, högsta är åtta. Läs noga igenom formuleringen av varje påstående innan du svarar.
(8 p)
a) I ett signifikanstest innebär fel av typ I att man förkastar en sann nollhypotes (H0).
Sant Falskt
b) Om y är den beroende variabeln och x den oberoende variabeln i en linjär regressionsanalys, så betyder ett statistiskt signifikant samband mellan x och y att x orsakar y.
Sant Falskt
c) Riktningskoefficienten (b-värdet) i en enkel linjär regressionsanalys anger hur mycket den beroende variabeln i genomsnitt förändras i enheter då den oberoende variabeln förändras med ett steg.
Sant Falskt
d) Interceptet i en regressionsanalys anger alltid det predicerade värdet på den beroende variabeln när de oberoende variablerna är lika med sitt medelvärde.
Sant Falskt
e) Väntevärdesriktighet innebär att skattningens förväntade värde, dvs. det aritmetiska medelvärdet för stickprovsfördelningen, är lika med det sanna populationsvärdet.
Sant Falskt
f) Att studera sambandet mellan x och y konstanthållet för z betyder alltid att man studerar sambandet mellan x och y när z har värdet 0.
Sant Falskt
g) För att pröva ett kurvlinjärt samband mellan den beroende variabeln (y) och en oberoende variabel (x1) kan man inkludera kvadrattermen av x1 i modellen enligt ekvationen:
y = a + b1x1 + b2 x12
Sant Falskt
h) Ett bra sätt att minska standardfelet i en regressionsanalys är att använda sig av ett större urval.
Sant Falskt
Fråga 2. I nedanstående modell är Betyg från årskurs 9 den beroende variabeln i en multipel linjär regressionsanalys. Betygsskalan sträcker sig från 0 till 320 poäng. Materialet omfattar ett obundet slumpmässigt urval (OSU) om 10 000 av de elever som lämnade årskurs 9 i den kommunala skolan 1998 eller 1999. De oberoende variablerna är kodade på följande sätt:
Flicka = 1 om flicka, 0 om pojke
Första generation = 1 om eleven tillhör kategorin första generationen invandrare, 0 annars Andra generation = 1 om eleven tillhör kategorin andra generationen invandrare, 0 annars Faderns utbildning = Faderns utbildning i antal år (minimum 6 år, maximum 25 år)
Fader arbetslös = 1 om fadern varit arbetslös under senaste året, 0 annars Fader socialbidrag = 1 om fadern fått socialbidrag under senaste året, 0 annars Antal syskon = Antal syskon (minimum 0, maximum 9)
b t Sig. (p)
Flicka 20.2 90.6 0.000
”Svensk” = referensgrupp
Första generation -3.1 -10.1 0.000
Andra generation -0.3 -0.5 0.629
Faderns utbildning 5.8 145.7 0.000
Fader arbetslös -6.1 -24.0 0.000
Fader socialbidrag -32.9 -69.5 0.000
Antal syskon -2.5 -39.5 0.000
Intercept/Konstant 149.6 317.1 0.000
R2 0.21
N 10 000
a) R2-värdet för ovanstående modell är 0,21. Vad betyder det? (1p)
b) Tolka vart och ett av de skattade b-koefficienterna i kolumn b. (4p)
c) Förklara uttömmande vad värdet i kolumn Sig. (p) innebär för variabeln som mäter om individen är andra generationens invandrare. (2p)
d) Hur tolkar du interceptet? (1p)
e) Ange den fullständiga ekvationen för predicerat betyg för en person med följande egenskaper: En ”svensk” flicka med två syskon och med en far som har 16 års utbildning, och som inte (fadern) varit arbetslös under det senaste året men som fått socialbidrag under
det senaste året. (2p)
f) När variablerna som tillsammans mäter invandrarbakgrund (första generation, andra generation) tas bort ur modellen blir koefficienten för dummyvariabeln fader socialbidrag - 36. Förklara varför den skattade koefficienten förändras jämfört med modellen i tabellen
Fråga 3. En nyutexaminerad sociolog ville studera sambandet mellan utbildning (mätt i antal år) och sjukfrånvaro (mätt i antal dagar föregående år) på hennes nya arbetsplats. Tabellen nedan visar utbildning och sjukfrånvaro för en av de mindre avdelningarna på företaget.
Person Utbildningsår Sjukfrånvaro 1 12 0 2 12 0 3 12 0 4 12 1 5 12 2 6 12 2 7 12 3 8 12 4 9 12 4
10 12 5
a) Pricka in observationerna i ett koordinatsystem (märk tydligt ut x-axeln och y-axeln), och
anpassa en linje (enligt principerna för ”minstakvadratmetoden”) till sambandet. (1p) b) Varför är det inte möjligt att skatta interceptet? (1p)
c) Skatta R2. (1p)
Fråga 4. I en regressionsanalys studerar en forskare sambandet mellan föräldrars inkomst (mätt som hushållets taxerade månadsinkomst i tusentals kronor) och elevers sjukfrånvaro (mätt i antal dagar per läsår) i ett slumpmässigt urval (OSU) omfattande 10 000 elever av samtliga elever som gick i årskurs 4 år 2007. Forskaren erhåller följande resultat:
b t Sig. (p)
Föräldrars inkomst -0,01 -12,0 0,000 Intercept 14,2
På en debattsida kommenterar forskaren ovanstående resultat: ”Vi vet sedan tidigare att barn till låginkomsttagare är missgynnade på många sätt. Nu visar min forskning att föräldrarnas inkomst signifikant påverkar barnens sjukfrånvaro. Det är av största vikt att man uppmärksammar detta problem.” Är denna slutsats rimlig? För poäng krävs att du motiverar ditt svar. (3p)
Fråga 5. Det finns flera olika sätt på vilka en skattad regressionsmodell kan vara inadekvat.
Antag att den sanna populationsmodellen ser ut som nedan:
X i
X
Yi =α+β1 1+β2 2+ε
där X1 och X2 korrelerar med +0.35, men att vi skattar följande modell:
ei
x b a
yi = + 1 1+
Vad har vi gjort för fel? För poäng krävs att du motiverar ditt svar. (2p)
Fråga 6. En forskare studerar skillnader i hälsa mellan barn med invandrade föräldrar och barn med svenskfödda föräldrar. I analysens första steg estimerar hon en enkel (bivariat) regressionsanalys med en skala som mäter hälsa som beroende variabel, och en dummyvariabel som mäter om
föräldrarna är svenskfödda eller ej som oberoende variabel. Resultatet visar att barn till svenskfödda föräldrar tenderar att ha bättre hälsa än barn till invandrade föräldrar.
I analysens andra steg tänker hon konstanthålla för barnets kön. Vad kommer då sannolikt att hända med lutningskoefficienten för variabeln som mäter om föräldrarna är svenskfödda? Kommer den (jämfört med den bivariata regressionen) att vara starkare (dvs. ligga längre från noll), svagare (dvs.
ligga närmare noll), eller kommer den att vara relativt oförändrad? För poäng krävs att du
motiverar ditt svar. (2p)
STOCKHOLMS UNIVERSITET
Sociologiska institutionen
Skrivning i METOD (Analys) för Sociologi II, AoA II, PAO II, US II samt fortsättningskurs i Sociologi, AoA, PAO, US, 18:e augusti 2008, 17.00-22.00.
Skrivtid: 5 timmar
Hjälpmedel: Miniräknare
Instruktioner: Skriv tydligt och läsligt, lämna dina svar på separat papper, numrera svaren på samma sätt som frågorna, skriv namn och personnummer på samtliga papper du lämnar in och motivera alla svar på essäfrågorna samt redovisa eventuella beräkningar. Svara koncist och håll dig till frågan.
Kontrollera att skrivningen, inklusive denna sida, består av sammanlagt 5 sidor (inklusive denna) med 6 frågor. Antal maxpoäng per fråga anges inom parentes i högerkanten intill varje fråga.
Markera i tabellen nedan med kryss vilka uppgifter som besvarats (i raden markerad med X).
Lycka till!
/Ryszard och Martin
Lösta uppgifter
Uppgift 1 2 3 4 5 6 summa
X
poäng
antal möjliga poäng
8 12 2 3 3 3 31
Betygskala
A B C D E
Fler än 27 24 21 18 15 poäng
För att få högre betyg än E måste antalet poäng på fråga 2 var större eller lika med 8.
Namn:______________________________________________________________
Personnr:_____________________________________________________________
OBS! Detta blad skall lämnas in med dina skrivningssvar!
Fråga 1. Läs följande påståenden. Ange med ett kryss i lämplig ruta om påståendet är sant eller falskt. För varje rätt svar ges 1 pluspoäng och för varje fel svar ges 1 minuspoäng. Blankt svar ger noll poäng. Minsta antal poäng du kan få för dessa åtta frågor är noll, högsta är åtta. Läs noga igenom formuleringen av varje påstående innan du svarar.
(8 p)
a) I ett signifikanstest innebär fel av typ I att man förkastar en sann nollhypotes (H0).
Sant Falskt
b) Om y är den beroende variabeln och x den oberoende variabeln i en linjär regressionsanalys, så betyder ett statistiskt signifikant samband mellan x och y att x orsakar y.
Sant Falskt
c) Riktningskoefficienten (b-värdet) i en enkel linjär regressionsanalys anger hur mycket den beroende variabeln i genomsnitt förändras i enheter då den oberoende variabeln förändras med en enhet.
Sant Falskt
d) Interceptet i en regressionsanalys anger alltid det predicerade värdet på den beroende variabeln när de oberoende variablerna är lika med sitt medelvärde.
Sant Falskt
e) Väntevärdesriktighet innebär att skattningens förväntade värde (vilket definieras som det aritmetiska medelvärdet för stickprovsfördelningen) är lika med det sanna
populationsvärdet.
Sant Falskt
f) Att studera sambandet mellan x och y konstanthållet för z betyder alltid att man studerar sambandet mellan x och y när z har värdet 0.
Sant Falskt
g) Residualtermen ei kan definieras som skillnaden mellan en individs predicerade och observerade värde på y.
Sant Falskt
h) Ett bra sätt att minska standardfelet i en regressionsanalys är att använda sig av en större population.
Sant Falskt
Fråga 2. I nedanstående modell är egna utbildningsår beroende variabel. Materialet omfattar ett obundet slumpmässigt urval (OSU) av individer mantalsskrivna i Sverige i åldrarna 30 – 50 år under år 2000. De oberoende variablerna är kodade på följande sätt.
Kvinna = 1 om kvinna, 0 om man Ålder = ålder i antal år
Skilda föräldrar = 1 om individen vuxit upp med skilda föräldrar, 0 annars
Storstad = 1 om individen är uppvuxen i storstad, 0 om individen är uppvuxen i mindre stad eller på landsbygden
Faderns utbildningsår = faderns utbildning (under uppväxten) mätt i antal år
Fadern högre tjänsteman = 1 om fadern var högre tjänsteman (under uppväxten), 0 om fadern var arbetare
b t Sig. (p)
Kvinna -0.172 -1.35 0.178
Ålder 0.012 1.14 0.255
Skilda föräldrar -0.735 -8.65 0.000
Storstad 0.274 5.66 0.000
Faderns utbildningsår 0.435 12.61 0.000
Fadern högre tjänsteman 1.528 9.81 0.000
Intercept/Konstant 8.024 12.43 0.000
R2 0.151
N 1 998
a) R2-värdet för ovanstående modell är 0.15. Vad betyder det? (1p)
b) Tolka vart och ett av värdena i kolumn b (de skattade b-koefficienterna). (4p)
c) Förklara vad värdet i kolumn Sig. (p) innebär för variabeln som mäter om individen bor i
storstad (2p)
d) Hur tolkar du interceptet? (1p)
e) Ange den fullständiga ekvationen för predicerade utbildningsår för en person med följande egenskaper: en 30-årig kvinna som vuxit upp med skilda föräldrar i en storstad, fadern hade 9 utbildningsår och var arbetare. Räkna också ut det predicerade värdet. (2p)
f) När variabeln som mäter om fadern var högre tjänsteman tas bort ur modellen blir koefficienten för faderns utbildningsår 0.523. Förklara varför den skattade koefficienten
förändras jämfört med modellen i tabellen ovan. (2p)
Fråga 3. Följande ekvation anger effekten av arbetslivserfarenhet (x), mätt i antal år, på lön (y), mätt i 1000-tals kronor. Predicerat yi = 2 + 4*xi. Rita in en regressionslinje i ett koordinatsystem som visar hur ekvationens predicerade y-värden ser ut med x-värden som går från 0 till 10. (2p)
Fråga 4. I en regressionsanalys studerar en forskare sambandet mellan föräldrars inkomst (mätt som hushållets taxerade månadsinkomst i tusentals kronor) och elevers sjukfrånvaro (mätt i antal dagar per läsår) i ett slumpmässigt urval (OSU) omfattande 10 000 elever av samtliga elever som gick i årskurs 4 år 2007. Forskaren erhåller följande resultat:
b t Sig. (p)
Föräldrars inkomst -0,01 -12,0 0,000 Intercept 14,2
På en debattsida kommenterar forskaren ovanstående resultat: ”Vi vet sedan tidigare att barn till låginkomsttagare är missgynnade på många sätt. Nu visar min forskning att föräldrarnas inkomst signifikant påverkar barnens sjukfrånvaro. Det är av största vikt att man uppmärksammar detta problem.” Är denna slutsats rimlig? För poäng krävs att du motiverar ditt svar. (3p)
Fråga 5. En forskare har analyserat sambandet mellan föräldrars uttag av föräldrapenning, yrke, utbildning, egen inkomst samt partnerns inkomst med hjälp av en regressionsanalys utförda på ett OSU om 1000 individer av alla samboende/gifta män berättigade till uttag av föräldrapenning år 2007. En annan forskare har genomfört semistrukturerade intervjuer med 10 föräldrar för att undersöka hur paren resonerar om vem av föräldrarna som tar ut hur mycket av föräldrapenningen, Diskutera för- och nackdelar med respektive metod. (3p)
Fråga 6. Ange tre villkor som är centrala vid avgörandet om en variabel ar relaterad till (påverkar) en annan variabel i kausal mening. Ge ett exempel på två variabler som kan tankas vara relaterade till varandra på ett satt som gör att de uppfyller två av dessa villkor men inte det tredje. (3p)