• No results found

Sannolikhetslära statistisk inferens F10 ESTIMATION (NCT )

N/A
N/A
Protected

Academic year: 2022

Share "Sannolikhetslära statistisk inferens F10 ESTIMATION (NCT )"

Copied!
5
0
0

Loading.... (view fulltext now)

Full text

(1)

1

Stat. teori gk, vt 2006, JW

F10 ESTIMATION (NCT 8.1-8.3)

Ordlista till NCT

Inference Slutledning, inferens

Parameter Parameter

Estimator Estimator, skattning

Estimate Estimat, skattning

Unbiased Väntevärdesriktig

Bias Bias, systematiskt

fel, skevhet

Efficiency Effektivitet

Confidence interval Konfidensintervall Confidence level Konfidensnivå (Student’s) t distribution t-fördelning

2

Sannolikhetslära – statistisk inferens Hittills har vi sysslat med sannolikhetslära.

Problem av typen: Hur stor är slh att det och det skall inträffa?

Ex.: Vi skall dra ett slumpmässigt stickprov på 100 personer från en population på 1 000, av vilka vi vet att 30 procent är bilägare. Hur stor är slh att stickprovet skall innehålla 50 eller fler bilägare?

Nu övergår vi till området statistisk inferens (= slutledning). Problemet är här det omvända: Vi har data från ett stickprov. Vilka slutsatser kan vi dra om den population stickprovet kommer från?

Ex.: Population med 1 000 personer, varav en okänd andel är bilägare. Vi drar ett slumpmässigt stickprov på 100 personer och finner att 40 är bilägare. Vad skall vi tro om andelen bilägare i populationen?

Allmänt om skattning av en populations- parameter

På grundval av stickprovsdata vill vi uppskatta värdet på en okänd parameter i den population som stickprovet kommer ifrån. Exempel på populationsparametrar är:

• Medelvärde, µ

• Proportionstal (sannolikhet), π

• Varians, σ2

Vi tänker oss att vi vill skatta en viss populations- parameter θ (som kan vara t.ex. ett populations- medelvärde, eller en populationsproportion, eller vad som helst).

Säg att X1, X2, …, Xn är ett stickprov av n obero- ende observationer från populationen. På grundval av dessa observerade stickprovsvärden beräknar vi en skattning, θˆ, av den okända populationsparame- tern θ.

Eftersom slumpen bestämmer vilka våra observa- tioner kommer att bli, så kan vi säga att skattning- en θˆ är en stokastisk variabel. Den har en sanno- likhetsfördelning, en s.k. samplingfördelning, som beskriver hur värdet på θˆ kan variera från stick- prov till stickprov.

Vår förhoppning är naturligtvis att vi skall få ett värde på θˆ, som ligger så nära det sanna (okända) värdet på θ som möjligt.

Hur bra är det att använda θˆ som skattning av θ ? Vi kan aldrig komma ifrån att skattningen har en viss osäkerhet. En skattnings egenskaper brukar beskrivas i termer av dess väntevärde och varians, alltså E(θˆ) och Var(θˆ).

Önskvärda egenskaper hos en skattning är:

• Att den är väntevärdesriktig, dvs. att E(θˆ) = θ.

• Att den har liten varians, dvs. att Var(θˆ) är liten.

(2)

5

Varför dessa önskemål? Vi tänker oss hypotetiskt en lång serie upprepade stickprov från samma population. Då kan vi tolka egenskaperna väntevärdesriktighet och liten varians på följande sätt:

• En väntevärdesriktig skattning kommer i det långa loppet att i genomsnitt träffa rätt. (OBS inte varje gång, men i genomsnitt.) En väntevär- desriktig skattning har inget systematiskt fel.

• Variansen är ett mått på skattningens osäkerhet.

Ju mindre varians en väntevärdesriktig skattning har, desto oftare kommer den att träffa i närheten av det sanna parametervärdet.

En skattning som inte är väntevärdesriktig har en bias:

Bias(θˆ) = E(θˆ) – θ

(Om θˆ är väntevärdesriktig, så är Bias(θˆ) = 0.)

Om θˆ1 och θˆ2 är två väntevärdesriktiga skattning- ar av parametern θ, och om Var(θˆ1) < Var(θˆ2), så säger vi att θˆ1 är mer effektiv än θˆ2.

6

Skattning av ett populationsmedelvärde Säg att X1, X2, …, Xn är ett slumpmässigt stick- prov av n oberoende observationer från en population med medelvärde µ och varians σ2. Ett populationsmedelvärde, µ, brukar vid slump- mässigt stickprov skattas med stickprovsmedel- värdet, X . Vi vet redan att:

E( X ) = µ, dvs. väntevärdesriktig skattning

Var( X ) = n σ2

Skattning av en populationsproportion En populationsproportion, π, brukar vid slumpmäs- sigt stickprov skattas med motsvarande stickprovs- proportion, p.

E(p) = π, dvs. väntevärdesriktig skattning

Var(p) = n

) 1

( π

π −

Skattning av en populationsvarians En populationsvarians, σ2, brukar vid slumpmäs- sigt stickprov skattas med stickprovsvariansen, s2. Vi vet redan att

E(s2) = σ2, dvs. väntevärdesriktig skattning (Men s är inte någon väntevärdesriktig skattning av σ.)

[Anmärkning om terminologin: Av bekvämlighet använder vi termen ”skattning” för både estimator och estimat. Egentligen är:

Estimator = skattningen betraktad som stokas- tisk variabel, alltså innan vi obser- verat några data

Estimat = det värde som skattningen antar efter att data erhållits.]

Konfidensintervall för ett populations- medelvärde

Konfidensintervall: Punktskattning ± felmarginal Med ett konfidensintervall för populationsmedel- värdet µ med konfidensnivå 95% menas ett intervall sådant att:

• ändpunkterna beräknas från stickprovsdata,

• intervallet kommer med slh 0,95 att innehålla det sanna värdet på µ.

Sannolikhetsuttalandet görs innan vi dragit stick- provet.

Antag att vi har ett stickprov av storlek n från en normalfördelad population med känd varians σ2. Ändpunkterna för ett 95% konfidensintervall för µ beräknas då såsom:

x σn

96 ,

±1

(3)

9

Motivering:

Innan stickprovet dras vet vi att den stokastiska variabeln X är N(µ; σ2/n). Därför är

P(-1,96 ≤ 3 2 1

Z

n X

σ/−µ ≤ 1,96) = 0,95

Olikheten kan skrivas om (visa!), så att vi får

P(

43 42 1 43

42 1

ändpunkt övre ändpunkt

nedre

96 , 1 96

,

1 X n

X σnµ + σ

) = 0,95

Ändpunkterna är slumpmässiga. Kan variera från stickprov till stickprov. Men med slh 0,95 kommer de att ligga på varsin sida av µ, vilket innebär att intervallet mellan dessa två ändpunkter med slh 0,95 kommer att fånga upp det sanna, okända värdet på µ.

10

Tolkning av konfidensintervallet:

• Innan vi dragit stickprovet: Med slh 0,95 kommer vi att få ett intervall som innehåller det sanna värdet på µ.

• Efter att vi dragit ett stickprov och beräknat ett intervall: Vi vet inte om det faktiskt erhållna intervallet innehåller µ eller inte. Men vi vet att detta intervall har beräknats enligt en metod som i det långa loppet skulle producera intervall som i 95% av fallen innehåller µ. Vi känner därför en ganska stor tillförsikt (”confidence”) att det just erhållna intervallet innehåller µ.

I resonemanget nyss hade vi valt konfidensnivån 95%. Andra vanliga val av konfidensnivå är 90%

och 99%. Med godtycklig konfidensnivå skulle konfidensintervallets ändpunkter bli:

z n x± σ

där z står för en konstant som bestäms av vilken konfidensnivå som önskas. Värdet på z kan erhållas från Tabell 8 i kursboken (sista raden).

Några exempel:

Önskad

konfidensnivå z-värde

90% 1,645 (1,64)

95% 1,960 (1,96)

99% 2,576 (2,58)

Högre konfidensnivå → större ”tillförsikt”, men till priset av längre intervall (givet n).

Större stickprov → kortare intervall (given konfi-

Ex.: Stickprov (n = 25) från normalfördelad popu- lation med känd standardavvikelse σ = 15. Stick- provets medelvärde är x = 102.

Ett 95% k.i. för µ får ändpunkterna:

x σn

96 ,

±1 dvs.

25 96 15 , 1 102± 102 ± 5,88

Ett 95% k.i. för µ blir alltså (96,12; 107,88).

(4)

13

När populationen är normalfördelad, N(µ; σ2), med känd varians beräknas alltså ändpunkterna till ett konfidensintervall för µ såsom

z n x± σ

Men om populationens varians är okänd? Eller om populationen inte är normalfördelad? Hur gör vi då?

När stickprovet är stort beräknas k.i. enligt for- meln ovan, oavsett om populationen är normalför- delad eller ej (CGS). Och om populationsvarian- sen är okänd sätter vi in stickprovets standardav- vikelse s i stället för σ, alltså:

z n x± σ

eller

n z s x±

beroende på om σ är känd eller ej.

Tumregel för stort stickprov: n ≥ 30.

14

När stickprovet är litet (dvs. n < 30) blir det besvärligare. För att vi skall kunna beräkna ett k.i.

måste populationen vara normalfördelad. Om det är en population med känd varians, beräknar vi konfidensintervallet såsom

z n x± σ

Om det är en population med okänd varians, beräknar vi konfidensintervallet såsom

n t s x±

där konstanten t hämtas från Tabell 8 över t- fördelningen. Värdet på t bestäms av konfi- densnivån och antalet frihetsgrader = n-1.

K.i. beräknade med t-fördelningen blir något längre än om σ2 hade varit känd. Återspeglar ökad osäkerhet p.g.a. att populationsvariansen är okänd.

Om n < 30 och populationen inte är normalförde- lad, kan vi inte beräkna k.i. för µ.

Lite om t-fördelningen:

t-fördelningen är en sannolikhetsfördelning, som liknar den standardiserade normalfördelningen, men som har lite tjockare svansar. Utseendet bestäms av antalet frihetsgrader. När antalet frihetsgrader ökar, så blir t-fördelningen mer och mer lik N(0; 1). För n ≥ 30 brukar man använda N(0; 1) i stället för t-fördelningen.

Att t-fördelningen kommer in i detta sammanhang beror på att:

Vid slumpmässigt stickprov från en normalfördel- ning gäller att den stokastiska variabeln

n s X

/ µ

har en t-fördelning med n-1 frihetsgrader.

Ett exempel på hur en t-fördelning kan se ut (samt, som jämförelse, en standardiserad normal-

fördelning):

t, z

f(t) och f(z)

4 3 2 1 0 -1 -2 -3 -4 -5 0,4 0,3 0,2 0,1 0,0

t-förd.

N(0;1) Variable

Täthetsfunktion för t-förd. med 3 fg och för N(0; 1)

(5)

17

Beräkning av konfidensintervall för µ, samman- fattning:

• Är stickprovet stort eller ej?

• Är populationen normalfördelad eller ej?

• Är populationsvariansen känd eller ej?

n ≥ 30 (oavsett om populationen är normalfördelad eller ej)

σ2 känd:

z n x± σ

σ2 okänd:

n z s x±

n < 30.

Populationen

normalfördelad. σ2 känd:

z n x± σ

σ2 okänd:

n t s x±

n < 30.

Populationen inte normalfördelad.

Konfidensintervall kan inte beräknas.

18

Ex.: Slumpmässigt stickprov med 120 familjer från en population av familjer. Antal barn i varje utvald familj observerades, och man erhöll

28 ,

=1

x ; s = 1,10

Beräkna ett 99% k.i. för µ = medelantalet barn per familj i populationen. Vi vet att stickprovet dragits genom OSU, och att populationen innehål- ler c:a 5000 familjer.

Ett 99% k.i. för µ får ändpunkterna:

n x±2,58 s dvs.

120 10 , 58 1 , 2 28 ,

1 ± ⋅

1,28 ± 0,26 (1,02; 1,54)

Ex.: I ett laboratorium görs mätningar på en varia- bel som anses vara normalfördelad. Vid ett tillfälle görs 12 mätningar, varvid man erhåller

60 ,

=9

x och s = 1,89

Beräkna ett 95% k.i. för den studerade variabelns väntevärde µ.

Ett 95% k.i. för µ får gränserna:

n t s

x± (n-1 = 11 f.g. ger t = 2,201)

12 89 , 201 1 , 2 60 ,

9 ± ⋅

9,60 ± 1,20 (8,40; 10,80)

References

Related documents

In this pa- per, we suggest an alternative method called the multiple model least-squares (MMLS), which is based on a single matrix factorization and directly gives all lower order

Methods and procedures: We developed the Cross-modal Phonological Awareness Test (C- PhAT) that can be used to assess PA in both Swedish Sign Language (C-PhAT-SSL) and

Personer som har en tydlig koppling till Sverige och svenskhet kan ha svårt att känna tillhörighet eftersom de inte behandlas som svens- kar, beroende på att de avviker fysiskt

Svaret på den frågan är ja. Som vi tidigare såg så fanns det skillnader på hur idégenereringen såg ut mellan Ericsson och reklambyråerna. Brainstorming var inte så populärt

[r]

Vi betraktar ett stort parti champinjoner, som är packade i påsar som väger ca.. Vid en kemisk industri vill man bestämma medelavkastningen

Syftet med denna studie är att bidra med ökad kunskap om lärande och undervisning i informell statistisk inferens. I studien användes en kvalitativ

Formative assessment, assessment for learning, mathematics, professional development, teacher practice, teacher growth, student achievement, motivation, expectancy-value