• No results found

STOCKHOLMS UNIVERSITET HT 2006 Statistiska institutionen Jan Hagberg, Bo Rydén, Christian Tallberg, Jan Wretman

N/A
N/A
Protected

Academic year: 2022

Share "STOCKHOLMS UNIVERSITET HT 2006 Statistiska institutionen Jan Hagberg, Bo Rydén, Christian Tallberg, Jan Wretman"

Copied!
8
0
0

Loading.... (view fulltext now)

Full text

(1)

STOCKHOLMS UNIVERSITET HT 2006 Statistiska institutionen

Jan Hagberg, Bo Rydén,

Christian Tallberg, Jan Wretman

OBLIGATORISK INLÄMNINGSUPPGIFT

STATISTISK TEORI, GK 10 och GK 20:2, heltid, HT 2006

Den obligatoriska inlämningsuppgiften, som består av tre deluppgifter, skall utföras som ett grupparbete med 2-3 personer per arbetsgrupp. Inlämning av lösningar skall ske i två omgångar:

• Del 1 och del 2 tillsammans skall lämnas in senast vid datorövning 2 (D2). (OBS Vid D2 lämnas datafiler till deluppgift 3 ut.)

• Del 3 skall lämnas in senast vid datorövning 4 (D4).

Lösningarna kan lämnas in antingen på Statistiska institutionen på plan 7 i B-huset (i svarta brevlådan framför hissarna), eller direkt till övningslärare.

Inlämnat lösningshäfte skall ha ett försättsblad, som delas ut av övningslärarna, och som innehåller uppgift om kurs, grupp, lärare, deluppgiftens nummer och namn på personerna i arbetsgruppen.

För godkänt resultat på uppgiften som helhet krävs att alla deluppgifter är nöjaktigt behandlade.

Den som inte godkänns på hela inlämningsuppgiften under kursens gång kan inte tillgodoräkna sig eventuellt avklarade deluppgifter kommande terminer.

(2)

Obligatorisk uppgift, del 1

Uppgiften består av tre sannolikhetsproblem, som skall lösas med hjälp av miniräknare och tabellsamling.

1. Vid tillverkning av en produkt är felfrekvensen 0,02, dvs sannolikheten att produkten skall bli felaktig på ett eller annat sätt är 0,02. Vad är sannolikheten att högst 2 exemplar blir felaktiga vid tillverkning av 250 stycken om vi antar att de olika exemplaren blir felaktiga oberoende av varandra? Gör en lämplig

a) Poissonapproximation.

b) Normalapproximation.

c) Gör en exakt beräkning av den sökta sannolikheten.

d) Vilken approximation blev bäst?

2. Farbror Sid har fem mynt. Ett av dem är falskt och har gubbe på båda sidor. De övriga mynten är välgjorda, dvs för dessa mynt gäller att P(gubbe) = P(krona) = 0,5. Sid väljer slumpmässigt ett av mynten och singlar det fem gånger.

a) Vad är sannolikheten att Sid väljer det falska myntet?

b) Vad är sannolikheten att Sid får gubbe fem gånger?

c) Sid fick gubbe fem gånger. Vad är sannolikheten att kasten har utförts med det falska myntet?

3. En maskin förpackar kaffe. På förpackningarna står det att nettovikten är l000 gram. Anta att nettovikten varierar som en normalfördelad slumpvariabel med väntevärdet 1000 gram och standardavvikelsen 5 gram.

a) Vad är sannolikheten att en slumpmässigt utvald förpackning har en nettovikt som är mindre än 990,2 gram?

b) Antag att man slumpmässigt väljer ut 200 förpackningar. Vad är sannolikheten att högst 80 av de utvalda förpackningarna har nettovikt mindre än 997,8 gram?

(3)

Obligatorisk uppgift, del 2

Uppgiften går ut på att genom simulering illustrera innebörden av begreppen samplingfördelning och konfidensintervall. Med hjälp av MINITAB skall sammanlagt 100 stickprov om vardera 25 oberoende observationer dras från en normalfördelning med väntevärdet µ = 100 och

standardavvikelsen σ = 5. För varje stickprov beräknas dels ett stickprovsmedelvärde, dels ett konfidensintervall för µ. De erhållna resultaten skall sedan kommenteras. Uppgiften redovisas i form av en kort rapport skriven i ordbehandlingsprogrammet Word. Gör följande:

1. Rita täthetsfunktionen f(x) för en normalfördelad slumpvariabel som har väntevärdet µ = 100 och standardavvikelsen σ = 5.

OBS Nästan hela normalfördelningen finns inom gränserna µ ± 3σ. Om du vill ha med en bit av normalfördelningens ”svansar” kan du låta diagrammet visa f(x)-värden för x i intervallet fr o m µ - 4σ t o m µ + 4σ.

MINITAB-tips:

Skapa en uppsättning x-värden i kolumn c1: Calc > Make Patterned Data > Simple Set of Numbers . . . Välj avståndet 0,5 mellan värdena (In steps of 0,5). Beräkna sedan f(x) för varje x i c1, och lägg in värdena i c2: Calc > Probability Distributions ….

Sätt rubriker på kolumnerna: c1 = x och c2 = f(x).

Rita diagram: Graph > Scatterplot . . . För över diagrammet till rapporten.

2. Generera 100 stickprov av storlek n = 25 från N(100; 5).

Nu behöver du inte längre värdena som finns i kolumnerna c1 och c2. Töm dessa kolumner.

Vi vill att varje stickprov skall utgöras av en rad i datamatrisen. De 100 stickproven skall alltså bli 100 rader, och i varje rad skall kolumnerna c1-c25 innehålla de 25 observerade värdena i resp.

stickprov. Kan åstadkommas på följande sätt:

Calc > Random data > Normal Generate: 100 rows

Store in: c1-c25 Mean: 100

Standard deviation: 5 OK

(4)

3. Beräkna medelvärde och standardavvikelse för varje stickprov.

Lägg medelvärdena i c26 och standardavvikelserna i c27. Kan göras på följande sätt:

Calc > Row statistics > Mean Input variables: c1-c25 Store result in: c26 OK

Calc > Row statistics > Standard deviation Input variables: c1-c25

Store result in: c27 OK

4. Gör ett histogram som visar de 100 stickprovsmedelvärdenas fördelning.

Görs på vanligt sätt i MINITAB.

5. Beräkna för varje stickprov ett 95% konfidensintervall för µ.

Vid beräkning av konfidensintervall antas att σ2 är okänt. Konfidensintervallets gränser beräknas alltså såsom

n t s x±

där lämpligt t-värde hämtas från tabell över t-fördelningen. Lägg för varje stickprov in konfidensintervallets undre och övre gräns i c28 resp. c29. Kan göras på följande sätt:

Calc > Calculator

Store result in variable: c28

Expression: c26-t*c27/5 (OBS Sätt in det numeriska värdet för ”t”) OK

Calc > Calculator

Store result in variable: c29

Expression: c26+t*c27/5 (OBS Sätt in det numeriska värdet för ”t”) OK

(5)

6. Ta reda på hur många av de 100 konfidensintervallen som innehåller det sanna värdet på µ .

Vi kan låta MINITAB göra detta. Skapa först (i c30) en indikatorvariabel som för varje stickprov anger om konfidensintervallet innehåller µ eller ej. (Värdet 1 skall alltså betyda att

konfidensintervallet innehåller µ , och värdet 0 skall betyda att konfidensintervallet inte innehåller µ .) Kan göras på följande sätt:

Calc > Calculator

Store result in variable: c30

Expression: c28<=100 And 100<=c29 OK

Ta sedan reda på hur stor andel av de 100 konfidensintervallen som innehåller µ (dvs. hur många av de 100 indikatorvärdena som är ettor):

Stat > Tables > Tally individual variables Variables: c30

Display: Counts, Percents OK

7. Skriv färdig rapporten.

Rapporten skall vara på högst tre sidor. Den skall innehålla:

a) Ett diagram över den normalfördelning som stickproven dragits från.

b) Ett histogram som visar de erhållna stickprovsmedelvärdenas fördelning.

c) Kommentar till detta histogram. Vad skulle man ha väntat sig? Blev resultatet som väntat?

d) De erhållna konfidensintervallens täckningsgrad. Kommentar till detta. Vad skulle man ha väntat sig? Blev resultatet som väntat?

Diagrammen i rapporten skall ha begripliga rubriker och sorter på axlarna.

Bifoga till rapporten en fullständig utskrift från datorkörningen.

(6)

Obligatorisk uppgift, del 3

Uppgiften (som har okänt ursprung) är en övning i regressionsanalys med hjälp av programpaketet MINITAB.

Förutsättningarna tänks vara följande. En marknadsledande tillverkare av tvättmedel vill veta hur försäljningen av dess största produkt påverkas av marknadsföringsinsatser och eget pris i

förhållande till konkurrenternas priser. Företaget har 650 återförsäljare, alla med ungefär samma försäljningsvolym. Till huvudkontoret rapporteras från återförsäljarna (som har en egen pris- och marknadsföringspolitik) värden på följande fem variabler för en viss vecka:

• Antal sålda förpackningar.

• Genomsnittligt pris (kr) per förpackning för den egna produkten.

• Genomsnittligt pris (kr) per förpackning för konkurrerande produkter.

• Utgifter för marknadsföring (kr) av den egna produkten i butikerna. (Denna typ av

marknadsföring antas främst ha kortsiktiga effekter på konsumtionsmönstret för den aktuella produkten.)

• Uppgift om extraerbjudande eller ej (1 = extraerbjudande och 0 = ej extraerbjudande).

Analysen skall göras med hjälp av data för dessa fem variabler från ett slumpmässigt urval av 30 återförsäljare.

Din tilldelade datafil ligger i katalogen m:\gk\teori. Filen heter regrX.mtw där X ersätts med ett tal 1-30. Läraren bestämmer vilket tal just din arbetsgrupp skall tilldelas. Innan du sätter igång med själva analysarbetet, gör följande:

• Kontrollera att du har 30 observationer i var och en av kolumnerna c1-c5.

• Bilda en ny variabel c6 som visar differensen mellan den egna produktens genomsnittliga pris och det genomsnittliga priset för konkurrenternas produkter.

MINITAB-tips: Calc > Calculator ...

• Sätt rubriker på kolumnerna.

• Spara materialet i en MINITAB-fil på din diskett.

Nu kommer uppgifterna. Tabeller och diagram skall redovisas i den skriftliga rapporten (se uppgift 12 nedan):

1. Beräkna korrelationsmatrisen för samtliga variabler i datamatrisen.

MINITAB-tips: Stat > Basic Statistics ...

Variables: cl-c6

(7)

2. Gör spridningsdiagram.

Plotta variablerna c2, c3, c4, c5 och c6 i tur och ordning mot c1.

MINITAB-tips: Graph > Scatterplot ....

3. Välj en “bästa” regressionsmodell.

Med ledning av resultaten i 1 och 2 ovan, välj den ”bästa” regressionsmodellen med c1 som beroende variabel och en enda oberoende (förklarande) variabel. Motivera valet av oberoende variabel. Varför anser du att just denna modell är den ”bästa”?

4. Anpassa den ”bästa” regressionsmodellen.

Anpassa den enkla regressionsmodell, som du i uppgift 3 tyckte var bäst. Tolka värdena på a och b i termer av de aktuella variablerna.

MINITAB-tips: Stat > Regression > Regression ….

5. Beräkna ett 95%-igt konfidensintervall för β.

Beräkna (med utnyttjande av utskriften från uppgift 4) ett 95% konfidensintervall för

regressionskoefficienten β. Tolka resultatet i ord. Vilka förutsättningar måste vara uppfyllda för att konfidensintervallet skall ha den angivna konfidensgraden?

6. Plotta residualerna i din modell mot den oberoende variabeln.

Finns det fog för att ifrågasätta den valda modellen? Motivera!

MINITAB-tips: Stat > Regression > Regression ….

Välj därefter Graphs ….

7. Välj den ”bästa” multipla regressionsmodellen.

Vilken kombination av oberoende variabler väljer du? Motivera!

MINITAB-tips : Stat > Regression > Best Subsets ....

Eftersom c2, c3 och c6 är starkt korrelerade måste man först välja bort någon av dem, t ex c3.

Response: c1

Free Predictors: c2 c4-c6

(8)

8. Anpassa den ”bästa” multipla regressionsmodellen .

Anpassa den multipla regressionsmodell som du i uppgift 7 tyckte var bäst. Tolka också värdena på a, b1, b2, … i termer av de aktuella variablerna.

9. Beräkna 95% konfidensintervall för var och en av regressionskoefficienterna β1, β2, … . Utnyttja utskriften från uppgift 8. Tolka intervallen i ord. Vilka förutsättningar måste vara uppfyllda för att konfidensintervallen skall ha den angivna konfidensgraden?

10. Är regressionen som helhet signifikant?

Undersök om den i uppgift 7 valda modellen är signifikant förklarande, dvs. undersök om

regressionen som helhet är signifikant. Ställ upp hypoteser och gör sedan en hypotesprövning på signifikansnivån 1%. Vilken blir din slutsats? Anta att förutsättningarna enligt uppgift 9 är uppfyllda.

11. Prognos.

Hur många förpackningar kommer en enskild återförsäljare att sälja en vecka då det genomsnittliga priset för den egna produkten är 25,60 kr, det genomsnittliga priset för

konkurrerande produkter är 28.50 kr, utgifterna for marknadsföring av den egna produkten ar 6250 kr och extraerbjudande inte förekommer (extraerbjudande = 0)? Gör prognoser för försäljningen enligt de valda modellerna i uppg. 3 och 7, dels punktprognoser, dels prediktionsintervall, som har tillförlitligheten 95%. Jämför och tolka resultaten. Anta att förutsättningarna enligt uppgift 9 är uppfyllda.

MINITAB-tips: Stat > Regression > Regression ...

Välj Options: Prediction intervals for new observations

Fyll här i de numeriska värdena på de valda oberoende variablerna.

12. Gör en skriftlig rapport.

Uppgifterna 1-11 skall besvaras. Text plus tabeller och diagram. Glöm inte tabellerna i uppgifterna 1, 4, 7, 8 och 11 samt diagrammen i uppgifterna 2 och 6.

References

Related documents

I förhållande till årsarbeten har OK (Institutionen för organisk kemi) den största poängen (4,7), följd av AST (Institutionen för astronomi) med poängen 3,3. Publikationspoäng

Tabell 1 redovisar resultatet av en tillämpning av den norska modellen för analys av publiceringsverksamhet på institutionerna (institutionsnamn motsvarande

I förhållande till årsarbeten har OK (Institutionen för organisk kemi) den största poängen (2,8), följd av AST (Institutionen för astronomi) med poängen 2,6. Publikationspoäng

Tabellens andra kolumn innehåller dels fakultetens publikationspoäng, dels poängen för varje institution.. Poängen är ett viktat uttryck för

Tabellens andra kolumn innehåller dels fakultetens/juridiska institutionens publikationspoäng, dels poängen för varje institution.. Poängen är ett viktat uttryck för

Tabellens andra kolumn innehåller dels fakultetens/juridiska institutionens publikationspoäng, dels poängen för varje institution.. Poängen är ett viktat uttryck för

Tabellens andra kolumn innehåller dels fakultetens/juridiska institutionens publikationspoäng, dels poängen för varje institution.. Poängen är ett viktat uttryck för

Tabellens andra kolumn innehåller dels fakultetens/juridiska institutionens publikationspoäng, dels poängen för varje institution.. Poängen är ett viktat uttryck för