Extra övningssamling i undersökningsmetodik. till kursen Regressionsanalys och undersökningsmetodik, 15 hp

Full text

(1)

Extra övningssamling i undersökningsmetodik HT10 till kursen Regressionsanalys och undersökningsmetodik, 15 hp

Författad av Karin Dahmström

1. Utgå från en population bestående av 5 personer med följande åldrar:

24 28 31 34 23

a) Beräkna medelvärdet och variansen för åldern i denna population.

b) Gör ett obundet slumpmässigt urval utan återläggning av n = 2 studenter från denna population. Hur många urval finns det?

(i) Beräkna medelvärdet för åldern i varje urval och visa att väntevärdet för stickprovsmedelvärdet överensstämmer med medelvärdet i populationen.

(ii) Beräkna stickprovsvariansen för varje urval samt väntevärdet för denna varians.

Vilket samband gäller mellan väntevärdet och populationsvariansen?

(iii) Bestäm inklusionssannolikheten för varje person samt sannolikheten för varje enskilt urval.

2. Utgå från en population bestående av 8 personer för vilken vi vill göra en undersökning av en variabel som vi tror är korrelerad med åldern. Vi föreslår därför att vi delar in populationen i två strata efter ålder på följande sätt:

Låg ålder. 22 24 26 27 Hög ålder: 31 34 35 41

Antag nu att vi gör ett obundet slumpmässigt urval utan återläggning av n = 3 personer från varje stratum, dvs vi väljer totalt 6 personer. Hur många urval är möjliga? Skriv upp dessa och tänk ut hur de skiljer sig från de urval som skulle kunna bli följden om vi drog ett obundet slumpmässigt urval utan återläggning av n = 6 personer från den totala populationen.

3. Antag att vi vill undersöka hur vanligt det är att djurägare försäkrar sina katter. Vi får möjlighet att på ett stort djursjukhus göra ett systematiskt urval av 50 journaler förda det senaste året där det framgår om katten är försäkrad eller ej. Antag att 15 katter var försäkrade i detta urval och att det totalt fanns 1800 journaler.

a) Bestäm ett 95 % konfidensintervall för andelen katter i denna population som var försäkrade.

Behandla urvalet som om det var gjort genom ett obundet slumpmässigt urval och förklara varför detta antagande kan vara godtagbart.

b) Om vi vill få ett 95%-igt konfidensintervall med en osäkerhet på högst 5 %-enheter, hur stort stickprov måste då dras?

c) Vilka slutsatser om andelen försäkrade katter i hela landet kan dras från denna undersökning?

Diskutera olika felkällor!

(2)

4. Antag att man i en viss kommun har dragit ett obundet slumpmässigt urval om 400 personer från befolkningen 18 år eller äldre för att undersöka inställningen till sopsortering. Totalt var 310 av de svarande positiva. Strax efter vill man göra en ny undersökning i en närliggande kommun för att även där undersöka inställningen till sopsortering; i denna kommun är 60000 personer 18 år eller äldre.

Undersökningen skall ske genom att ur kommunens befolkningsregister dra ett OSU utan återläggning av personer i denna ålder. Om vi vill att längden på ett 95%-igt konfidensintervall för andelen positiva i kommunen skall vara högst 5 procentenheter, bestäm hur många personer vi då minst måste

undersöka.

5. För att undersöka inställningen till att få kortare arbetstid och ingen löneökning det kommande året, gjordes ett obundet slumpmässigt urval utan återläggning av 500 personer bland samtliga anställda på en stor arbetsplats. På denna arbetsplats är fördelningen mellan olika arbetstagare följande:

Ledningen 10%

Tjänstemän 20%

Arbetare 70%

I enkäten ställdes även frågan om vilken kategori av arbetstagare man tillhörde av ovanstående tre.

Följande resultat erhölls:

Kategori Antal svar Antal positiva

Ledningen 53 15

Tjänstemän 108 65

Arbetare 339 272

a) Bestäm på två olika sätt en punktskattning för andelen positiva till arbetstidsförkortning i hela populationen. Ange gjorda antaganden i Dina beräkningar. Vilken skattning föredrar Du? Motivera!

b) Antag att man vill göra om undersökningen vid ett senare tillfälle och då göra ett stratifierat urval med OSU utan återläggning inom strata. De olika strata skall då vara de tre kategorierna av

arbetstagare. Låt därvid de erhållna resultaten från den tidigare undersökningen utgöra underlag för ett urval om totalt 250 personer. Hur skall urvalet fördelas (allokeras) optimalt mellan strata?

c) Motivera en lämplig datainsamlingsmetod för undersökningen och ange för- och nackdelar med denna.

6. Man önskade ett visst år studera personalkostnaderna för livsmedelsbutikerna i ett område. Bland dessa 90 butiker utvaldes 10 st med obundet slumpmässigt urval utan återläggning, och för dessa erhölls inte bara uppgift om personalkostnaden utan också om omsättningen, allt i miljoner kronor:

Personalkostnad: 3.6 11.4 10.0 8.6 3.2 5.0 3.0 4.0 2.6 2.8 Omsättning: 33.0 125.8 110.8 85.0 22.6 49.2 27.6 37.0 19.0 20.6 Totalt omsatte de 90 butikerna 4500 miljoner kronor.

a) Skatta den totala personalkostnaden samt standardavvikelsen för denna skattning för samtliga butiker i området då man inte använder någon hjälpinformation.

b) Skatta den totala personalkostnaden med hjälp av en kvotskattning. Vilka för- och nackdelar finns det med en sådan skattning?

(3)

7. För att studera det totala antalet köp av småhus i landet ett visst år (2005), har man uppgifter från samtliga 21 län från året dessförinnan, men bara från åtta län det aktuella året. Totala antalet köp var år 2004 56 248. Antag att de åtta länen kan ses som ett obundet slumpmässigt urval bland samtliga län.

Följande resultat erhölls:

Län Antal köp 2004 Antal köp 2005

Jönköping 2 301 2428

Kronoberg 1 299 1448

Skåne 8 486 8809

Halland 1 970 2165

Örebro 1 812 1918

Gävleborg 1 858 1955

Västernorrland 1 770 1803

Jämtland 728 735

Källa: Statistisk årsbok 2007, tabell 411.

(Endast lagfarna köp av fastigheter som ansetts vara marknadsmässiga är medtagna.) a) Skatta det totala antalet köp 2005 i landet med hjälp av en kvotskattning.

b) Beskriv olika sätt hur s k hjälpinformation kan användas för att öka precisionen i skattningar av olika parametrar.

8. Antag att man vill bestämma mängden (prenumererade) dagstidningar som läses av hushållen i en kommun. Det finns en indelning av kommunen i 14 distrikt och totalt finns det 5432 hushåll. Man drar nu ett obundet slumpmässigt urval utan återläggning av n = 4 distrikt och för dessa noterar man hur många hushåll som finns på morgontidningsdistributörens listor. Man erhåller följande:

Distrikt Antal Antal hushåll hushåll med utdelad tidning

1 450 390

2 280 260

3 390 330

4 430 390

a) Skatta det totala antalet hushåll i kommunen som har utdelad tidning samt, om möjligt, en skattad varians.

b) Målsättningen i undersökningen var att undersöka det faktiska tidningsläsandet. Diskutera kritiskt om detta blir uppfyllt med denna uppläggning samt ge förslag på alternativa insamlingsmetoder.

9. För att skatta genomsnittlig arbetad tid (procent av heltid) under det senaste året i olika grupper på en stor arbetsplats, gjordes en stratifiering efter ålder och kön. Från varje stratum gjordes ett obundet slumpmässigt urval utan återläggning och med proportionell allokering; totalt valdes 500 personer ut.

Följande resultat erhölls:

Stratum Totalt antal Medeltid Standardavvikelse anställda (procent)___________________

18 – 39, män 1500 94 4.08

18 – 39, kvinnor 1000 90 6.3

40 - 64, män 2000 85 5

40 – 64, kvinnor 500 70 6.9

(4)

a) Bestäm ett 95%-igt konfidensintervall för den genomsnittliga arbetstiden för kvinnor i åldern 18-39 år. Tolka intervallet i ord.

b) Bestäm ett 95%-igt konfidensintervall för den genomsnittliga arbetstiden för samtliga i populationen. Tolka intervallet i ord.

c) Diskutera risken för olika felkällor utöver urvalsfelet samt föreslå en lämplig insamlingsmetod för datamaterialet.

d) Finns det någon alternativ urvalsmetod till stratifierat urval i denna situation? Diskutera!

10. För att skatta hur stor andel som har tillgång till internet i hemmet i olika grupper på en stor arbetsplats, gjordes en stratifiering efter ålder och kön. Från varje stratum gjordes ett obundet

slumpmässigt urval utan återläggning och med proportionell allokering; totalt valdes 500 personer ut.

Följande resultat erhölls:

Stratum Totalt antal Andel som har internet anställda (procent)___________

18 – 39, män 1500 94

18 – 39, kvinnor 1000 90

40 - 64, män 2000 85

40 – 64, kvinnor 500 70

a) Bestäm ett 95%-igt konfidensintervall för andelen kvinnor i hela populationen i åldern 18-39 år som har tillgång till internet i hemmet . Tolka intervallet i ord.

b) Bestäm ett 95%-igt konfidensintervall för andelen anställda i hela populationen som har tillgång till internet i hemmet. Tolka intervallet i ord.

11. I en kommundel av Stockholm finns majoriteten av småhus söder om järnvägen och majoriteten av flerbostadshus norr därom. För att undersöka inställningen till införandet av trängselavgift ville man göra en mindre undersökning innan starten för att sedan göra en mera omfattande undersökning. I den lilla undersökningen valdes genom OSU utan återläggning i respektive område 100 personer i åldern 20-64 år. Totalt bor ca 8000 i ”småhusområdet” och 12000 i ”flerbostadsområdet”. Resultatet blev att 40% var positiva till trängselavgift i ”småhusområdet” och 70% i ”flerbostadsområdet”.

(Antag att inget bortfall förekom.)

a) Bestäm ett 95%-igt konfidensintervall för andelen positiva till trängselavgift i hela området.

b) Bestäm utifrån resultatet av den lilla undersökningen hur totalt 1000 personer skall fördelas mellan strata enligt principen för optimal allokering.

c) I en fråga om positiv/negativ inställning till en aktivitet, ser man ibland formuleringen ”Är Du positiv….” eller ”Är Du negativ …”. Diskutera vad man kan vänta sig för skillnad i svar med de olika formuleringarna. Föreslå också hur en fråga inklusive svarsalternativ kan utformas för att på bästa sätt

”fånga” inställningen till en viss aktivitet?

(5)

12. I en kommundel av Stockholm finns majoriteten av småhus söder om järnvägen och majoriteten av flerbostadshus norr därom. För att undersöka inställningen till införandet av trängselavgift ville man göra en mindre undersökning innan starten för att sedan göra en mera omfattande undersökning. I den lilla undersökningen valdes genom OSU utan återläggning totalt i kommundelen n=200 personer i åldern 20-64 år. Totalt bor ca 8000 i ”småhusområdet” och 12000 i ”flerbostadsområdet”. Följande resultat erhölls från urvalet. (Antag att inget bortfall förekom.)

Område Antal i urvalet från Antal ____________respektive område positiva

Småhus 90 30

Flerb.hus 110 80

a) Bestäm en punktskattning och ett 95%-igt konfidensintervall för andelen positiva till trängselskatt bland de som bor i ”småhusområdet”.

b) Bestäm en punktskattning och ett 95%-igt konfidensintervall för det totala antalet negativa till trängselskatt bland de som bor i ”flerbostadsområdet”.

13. Antag att vi vill undersöka hur länge patienterna har varit inneliggande på avdelningarna på ett stort sjukhus vid en viss tidpunkt. Totalt finns det 20 avdelningar på sjukhuset och vi väljer genom ett obundet slumpmässigt urval ut n = 5 avdelningar och undersöker då via journalerna samtliga

inneliggande patienter på de utvalda avdelningarna.

Avd Antal patienter Antal patienter > 7 dagar

1 24 5

2 26 10

3 22 7

4 24 0

5 25 8

a) Bestäm en skattning av andelen patienter som varit inneliggande mer än 7 dagar.

b) Bestäm en skattning av totala antalet patienter på sjukhuset som varit inneliggande mer än 7 dagar.

c) Diskutera olika felkällor i denna undersökning.

14. Antag att vi vill undersöka bl a familjestrukturen i ett nytt bostadsområde med i princip likvärdiga småhus, totalt 40 st. Ett obundet slumpmässigt urval utan återläggning av n = 6 småhus gjordes och från en besöksintervju med varje familj frågade man om antalet boende i huset och den totala familjeinkomsten per månad.

Hus Antal boende > 18 år Antal barn < 7 år Familjeinkomst

A 3 2 45000

B 2 1 30000

C 1 0 28000

D 2 3 48000

E 2 2 35000

F 3 1 32000

a) Bestäm en punktskattning av den genomsnittliga inkomsten för en person över 18 år i

bostadsområdet. Antag då att familjeinkomsten endast avser inkomster för personer i denna ålder.

(6)

b) Bestäm en punktskattning och ett 95%-igt konfidensintervall för

(i) det genomsnittliga antalet barn under 7 år per hus i bostadsområdet.

(ii) det totala antalet barn under 7 år i hela bostadsområdet

c) Föreslå hur ett slumpmässigt urval av hus i denna uppgift praktiskt kan genomföras samt diskutera olika felkällor i denna undersökning.

15. Antag att medlemmarna i en mindre ideell förening finns förtecknade i bokstavsordning i ett register; de har också ett löpnummer i registret från 1 till 40. För att undersöka hur medlemmarna ställer sig till en sammanslagning av föreningen med motsvarande lokalavdelning i en närbelägen stadsdel, gjordes ett systematiskt urval av n = 8 personer.

a) Hur många urval kan göras? Skriv upp vilka nummer i registret varje urval består av. Hur stor är inklusionssannolikheten för varje person i registret?

b) Om urvalet skulle göras med genom obundet slumpmässigt urval utan återläggning, hur många urval kan då göras? Hur stor är inklusionssannolikheten för varje person i registret? Jämför med resultaten i a).

16. På en vårdinrättning var de anställda fördelade i många små arbetsgrupper med ansvar för ett mindre antal patienter och med likvärdiga arbetsuppgifter. För att se hur de anställda har valt att ta ut semester under de tre månaderna juni-augusti, gjordes ett obundet slumpmässigt urval av n = 5 arbetsgrupper; totalt fanns det 15 arbetsgrupper. Samtliga i de utvalda grupperna blev tillfrågade hur många veckor de tagit ut under perioden; semestern redovisas här i hela veckor. Följande resultat erhölls:

Grupp Antal Antal Antal semesterveckor personer semesterveckor i medeltal i gruppen_

1 4 3 5 0 4 3

2 5 4 4 3 5 4 4

3 4 2 3 3 0 2

4 6 4 5 3 4 3 5 4

5 5 3 4 3 4 1 3

Bestäm en punktskattning av det genomsnittliga antalet uttagna semesterveckor per anställd på vårdinrättningen. Vilka egenskaper har denna skattning?

17. Antag vi har en population bestående av 850 personer i en villaägarförening. För att undersöka hur medlemmarna vill att grannsamverkan skall organiseras på bästa sätt, tänker man göra en postenkät till ett urval av medlemmarna. Medlemmarna i föreningen är sorterade i ett register på två olika sätt, i bokstavsordning respektive efter gator i området. Antag i uppgift a) och b) att vi gör ett obundet slumpmässigt urval av n=150 medlemmar från registret. Två av frågorna gäller om de själva blivit utsatta för inbrott eller försök till inbrott i huset samt om de har larm installerat i huset.

a) Antag att av de svarande har 25 st blivit utsatta för inbrott eller försök till inbrott. Bestäm ett 95%- igt konfidensintervall för andelen medlemmar som blivit utsatta för villainbrott.

b) Antag att av de 25 medlemmar som blivit utsatta för inbrott eller försök till inbrott hade 15 st installerat larm. Bestäm en punktskattning för det totala antalet medlemmar som utsatts för inbrott och som har installerat larm. Bestäm också en skattning av standardavvikelsen för denna punktskattning.

c) Diskutera olika sätt hur man kan göra ett urval ur medlemsregistret.

(7)

18. Antag att vi vill undersöka bilinnehavet i två nybyggda bostadsområden, område A och område B.

Till område A finns ingen naturlig, närbelägen kollektivtrafik, medan i område B finns sedan tidigare utbyggd kollektivtrafik. Antag att område A består av 40 småhus och område B 30 st. Nu gjordes ett obundet slumpmässigt urval av n = 10 hus i vardera området och genom en telefonintervju frågade man om antalet bilar i hushållet. Följande resultat erhölls:

Antal bilar

Område A 2 1 2 0 1 1 1 2 2 1 Område B 1 0 2 1 0 2 1 1 1 0

a) Bestäm ett 95%-igt konfidensintervall för det genomsnittliga antalet bilar per hushåll dels i område A, dels i område B. Använd formler som gäller för stora stickprov.

b) Bestäm ett 95%-igt konfidensintervall för skillnaden mellan det genomsnittliga antalet bilar per hushåll i de båda områdena. Använd formler som gäller för stora stickprov.

c) Bestäm ett 95%-igt konfidensintervall för det genomsnittliga antalet bilar per hushåll i de två bostadsområdena hopslagna. Använd formler som gäller för stora stickprov.

Uppgift 19 och 20 är hämtade från Sharon L.Lohr: Sampling: Design and Analysis.

Duxbury Press 1999.

19. Vid ett universitet fanns det 807 fakultetsmedlemmar och forskare vid College of Liberal Arts and Science 1993. Vi är nu intresserade av antalet publikationer som dessa har skrivit och som har

refereebehandlats. För att undersöka detta gjordes ett obundet slumpmässigt urval utan återläggning av av n = 50 fakultetsmedlemmar. Följande frekvenstabell erhölls:

Antal publikationer 0 1 2 3 4 5 6 7 8 9 10 ___________________________________________________________

Antal fakultetsmedlemmar 28 4 3 4 4 2 1 0 2 1 1 a) Rita frekvensfördelningen av antalet publikationer i ett lämpligt diagram.

b) Skatta medelantalet publikationer per fakultetsmedlem och bestäm standardfelet (”standard error”) för denna skattning.

c) Skatta andelen fakultetsmedlemmar som inte har någon refereebehandlad publikation och bilda ett 95% konfidensintervall för denna andel i hela populationen.

20. När man granskade urvalet i uppgift 19 som hade gjorts som ett obundet slumpmässigt urval, visade det sig att det t ex inte hade kommit med några medlemmar från språkinstitutionerna, medan i stället kemi och psykologi var rikt representerade. För att alla fakulteter skulle bli representerade, gjordes ett nytt urval om n = 50 medlemmar och med fakulteterna som strata. Bestämningen av urvalsstorlekarna gjordes genom proportionell allokering. Storleken på de olika strata och urvalet var följande:

Stratum Antal fakultets- Antal medlemmar medlemmar i urvalet________

Biologi 102 7

Fysik 310 19

Samhällsvetenskap 217 13

Humaniora 178 11__________

Totalt 807 50

(8)

Följande frekvenstabeller erhölls från respektive fakultet:

Antal publi- Antal fakultetsmedlemmar

kationer Biologi Fysik Samh.vet. Humaniora

0 1 10 9 8

1 2 2 0 2

2 0 0 1 0

3 1 1 0 1

4 0 2 2 0

5 2 1 0 0

6 0 1 1 0

7 1 0 0 0

8 0 2 0 0

a) Skatta medelantalet publikationer per fakultetsmedlem och bestäm standardfelet (”standard error”) för denna skattning. Jämför resultatet med det i uppgift 19 b). Ökade precisionen i detta exempel?

Kommentera!

b) Skatta andelen fakultetsmedlemmar som inte har någon refereebehandlad publikation och bilda ett 95% konfidensintervall för denna andel i hela populationen. Jämför resultatet med det i uppgift 19 c).

Ökade precisionen i detta exempel? Kommentera!

(9)

Facit till de numeriska uppgifterna

1a) 28 år, variansen = 17.2

b) 10 olika urval. Inklusionssannolikheten = 0.4, slh för urval = 0.1 2) 16 respektive 28 olika urval

3a) 0.30 +/- 0.13

b) Minst 317 journaler (här använt P = 0.5) 4) Minst 1054 personer

5a) 70.4% respektive 71.0 % b) 27, 58 respektive 165 personer

6a) 487.8 milj kr respektive 88.52 milj kr b) 459.7 milj kr

7a) 59132 köp

8a) Alternativ 1: 4975 hushåll och variansen 133875 Alternativ 2: 4801 hushåll

9a) 90 +/-1.17 % b) 87.2 +/-0.44 %

10a) 0.90 +/-0.056 b) 0.872 +/-0.027

11a) 0.58 +/- 0.066

b) 416 respektive 584 personer

12a) 0.33 respektive 0.33 +/- 0.09739 b) 3273 respektive 3273 +/- 998.705

13a) 0.248 b) 120 patienter

14a) 16769.2 tkr

b) (i) 1.5 respektive 1.5 +/-0.77 (ii) 60 respektive 60 +/-30.9

15a) 5 olika urval; inkl.slh = 0.2 b) 76904685 olika urval; inkl.slh = 0.2 16) 3.29 veckor

17a) 0.167 +/- 0.054

b) 85 respektive 18.96 personer

18a) 0.9 +/- 0.37 b) 0.4 +/- 0.52 c) 1.13 +/- 0.26

(10)

19b) 1.78 respektive 0.3674 publikationer c) 0.56 respektive 0.56 +/- 0.1346

20a) 1.64 respektive 0.3174 publikationer b) 0.57 respektive 0.1290 publikationer

Figur

Updating...

Referenser

Updating...

Relaterade ämnen :