• No results found

Exempel på stickprovsundersökning

N/A
N/A
Protected

Academic year: 2021

Share "Exempel på stickprovsundersökning"

Copied!
27
0
0

Loading.... (view fulltext now)

Full text

(1)

Vilka slutsatser kan dras om populationen med resultatet i stickprovet som grund?

Statistisk analys

(2)

Exempel på stickprovsundersökning

Parti med felaktiga enheter

Man har ett parti med N enheter.

Felkvoten p i partiet är okänd.

För att få information om p tar man ut ett

stickprov om n st enheter och x st visar sej vara felaktiga.

Vad kan man säga om p?

Modell:

Låt ξ = antal felaktiga i urvalet

(3)

• Punktskattningsproblem:

Hur skattar man p på bästa sätt?

Att använda felkvoten i stickprovet, x/n, är en möjlighet.

• Intervallskattningsproblem:

Ange ett intervall som med given säkerhet innehåller det okända värdet på p, tex. ett intervall på formen



,





Denna typ av intervall kallas konfidensintervall.

Exempel på stickprovsundersökning

(4)

Exempel på stickprovsundersökning

• Hypotesprövningsproblem

Man vill kanske pröva hypotesen   



.

Är stickprovets resultat förenligt med denna hypotes eller finns det anledning att förkasta den

och tro att   



?

(Signifikanstest)

(5)

Punktskattningar - även dessa beror av slumpen



Ett slumpmässigt stickprov x

1

, ..., x

n

från någon fördelning F utgörs av oberoende stokastiska variabler ξ

1

, ..., ξ

n

(stickprovets slumpvariabler) var och en med fördelningen F.

Ex: ξ ∈ N(μ;σ) eller ξ ∈ Bin(n;p)

μ och p okända parametrar i resp. fördelning.



En (punkt)skattning av en okänd parameter i fördelning gjord med hjälp av det observerade stickprovet kallas för observerad (punkt)skattning.

Ex:

(6)

En punktskattnings fördelning



Anta att vi vill skatta väntevärdet µ för en normalfördelad stokastisk variabel ξ genom beräkning av medelvärde av stickprov av storleken 5

ξ är normalfördelad N(µ,σ)

– Stickprovens slumpvariabler ξ1, ξ2, ξ3, ξ4 och ξ5

– Skattningen av µ betecknas µ∗ =

– Ett utfall (observerat stickprov) är x1, x2, x3, x4 och x5 – En observerad punktskattning är µ*obs = ̅



Punktskattningens fördelning: µ

* =

+̅ - . /;

0

1

(7)

Krav på en punktskattning



Väntevärdesriktig medför att skattningens, Θ *, väntevärde är lika med Θ , dvs

E[ Θ Θ Θ Θ *] = Θ Θ Θ Θ .

Med Θ * hamnar man i genomsnitt ”rätt”.



Effektiv, om Θ

1

* och Θ

2

* är två väntevärdesriktiga skattningar av Θ . Om V[ Θ

1

*] < V[ Θ

2

*] är Θ

1

* en

effektivare - sannolikt bättre - skattning av Θ än Θ

2

*.

(8)

Allmänna väntevärdesriktiga punktskattningar

– Låt ξ

1

, ξ

2

, ..., ξ

n

vara ett stickprov från samma fördelning

då ξ

i

är oberoende, E[ ξ

i

] = µ och D[ ξ

i

] = σ

– Låt x

1

, x

2

, ..., x

n

vara en observation av stickprovet

µ * = ξ

σ

2

ξ ξ

2

1

1

* = 1 ( )

− −

=

n

i i

n

σ * = σ

2

*

µ*

obs

= x

σ

2 2 2

1

1

*

obs

1 (

i

)

i n

s n x x

= =

− −

=

σ *

obs

= = s s

2

(9)

Intervallskattning



En intervallskattning av en parameter är ett intervall med slumpvariabler som gränser



Konfidensgraden, 1- a, för en intervallskattning är sannolikheten att parametern tillhör intervallet



En observerad intervallskattning kallas för konfidensintervall

– Metoder som inte kräver känd fördelning kallas för icke- parametriska

– Metoder som kräver känd fördelning kallas för parametriska

(10)

Teckenintervall - en icke-parametrisk metod Konfidensintervall för medianen m

 Låt

ξ

1,

ξ

2, ...,

ξ

n vara ett stickprov av storleken n,

 Storleksordna stickprovet så att:

ξ

(1)

ξ

(2)...

ξ

(n)

 Ett konfidensintervall för m är

[

ξ

(1),

ξ

(n)], (minsta och största värde) Konfidensgrad: 1- a

=

1-2

×

0.5n

 Konfidensgraden minskas om man

i stället tar [

ξ

(2),

ξ

(n-1)], och så vidare ...

Konfidensgrad: 1- a =1 2 0.51 

1 0.51 osv…

ξ(1) ξ(n) m

(11)

Konfidensintervall för µ där σσσσ är känt - normalfördelning



ξ är en stokastisk variabel

– Låt

ξ

1,

ξ

2, ...,

ξ

n vara ett stickprov av

ξ

, där

ξ

i är oberoende – Låt x1, x2, ..., xn vara en observation av stickprovet

Ett konfidensintervall för

µ

med konfidensgraden 1-

α

fås då av

där

λ

α/2 fås ur

 

  − +

n λ σ

x n ,

λ σ

x

α/ 2 α/ 2

α/2 1

)

Φ(λ

α/2

= −

(12)

Konfidensintervall för µ där σ är okänt -normalfördelning



ξ är en stokastisk variabel

– Låt

ξ

1,

ξ

2, ...,

ξ

n vara ett stickprov av

ξ

, där

ξ

i är oberoende – Låt x1, x2, ..., xn vara en observation av stickprovet

Ett konfidensintervall med konfidensgraden 1-

α

fås då av



 +

n t s

x n , t s

x n n

α/

α/

) 1 ( )

1 (

2 2

t-fördelningen är en släkting till normalfördelningen och finns tabellerad för olika

αααα αααα

) n t(n

σ*/

µ

ξ

− ∈ − 1

α )

F(t

n- x

F t

t

) (n α/

n α/

=

1

der.

frihetsgra 1

med )

( ens

fördelning -

ur fås

Där

1 2

) 1 (

2

(13)
(14)

Stickprov i par - normalfördelning

 Vi har parvisa observationer (

ξ

i,

η

i), i = 1, ...,n



ξ

i är normalfördelad N(

µ

i,

σ

ξ)



η

i är normalfördelad N(

µ

i+

,

σ

η)

 Paren (

ξ

i,

η

i), i = 1, ...,n är oberoende Studera

ζ

i

= η

i -

ξ

i, vilket är normalfördelad vilket också kan skrivas N(

∆,σ

)

Studera de n observationerna av

ζ

i

[

∆, V[η ξ ]

]

N i

i

(15)

Två stickprov - normalfördelning



ξ

1,

ξ

2, ...,

ξ

n

1 är stickprov med fördelningen N(

µ

1,

σ

)



η

1,

η

2, ...,

η

n

2 är stickprov med fördelningen N(

µ

2,

σ

)

 Stickproven är oberoende

Studera

ξ

-

η,

vilket är normalfördelad

Standardavvikelsen ovan är standardavvikelsen för

ξ

-

η N µ µ σ n σ n

1 2

2

1

2

2

− +

  

 

,

Observera att antalet frihetsgrader är n1+n2-2, om t-fördelningen används

(16)

Konfidensintervall för varians - N(µ,σ)



ξ är en stokastisk variabel

– Låt ξ1, ξ2, ..., ξn vara ett stickprov av ξ, där ξi är oberoende och normalfördelade N(µ,σ)

– Låt x1, x2, ..., xn vara en observation av stickprovet – Man kan visa att

Ett konfidensintervall, som är uppåt begränsat och med undre gräns 0, med konfidensgraden 1-α fås då av

där

χ

2(1-α),(n-1) fås ur χ2-

=

n (xi x)2 (n 1)s2

1

2 2

1

1

2

σ ( ξ

i

ξ ) χ ( )

i n

− ∈ n −

=

( n σ 1

2

) s

2

χ

2

( n 1 )

(17)

Tvåsidigt konfidensintervall för varians - N( µ,σ )

 En tvåsidig intervallskattning av variansen,

σσσσ

², där det är lika stor sannolikhet att missa över som under intervallet, med

konfidensgraden 1-α fås av

och för standardavvikelsen,

σ

 

 

 − −

2

) 1 ( ), 2 / 1 (

2 2

) 1 ( ), 2 / (

2

( 1 ) ) ,

1 (

n n

s n

s n

α

α

χ

χ

 

 

 − −

2

) 1 ( ), 2 / 1 (

2 2

) 1 ( ), 2 / (

2

( 1 )

) , 1 (

n n

s n

s n

α

α

χ

χ

(18)

Om man inte har normalfördelning?



Teckenintervall är en icke-parametrisk metod för intervallskattning av medianvärde



Om vi har stora stickprov från en fördelning med väntevärde E[ ξ

i

] = µ och V[ ξ

i

] = σ

2

, så är

enligt centrala gränsvärdessatsen. Detsamma gäller

) (

) 1 , 0

( okänd skattas med s N σσσσ

µµµµ

ξξξξ −−−− ≈≈≈≈

) (

) 1 , 0

/ N ( känd

n σσσσ

σσσσ

µµµµ

ξξξξ −−−− ≈≈≈≈

(19)

”Väljarbarometer” - konfidensintervall för p

I en mängd med N element är en andel p av speciellt slag.

Bland de N elementen väljs n element.

ξ är antal speciella element bland de n utvalda

– Då gäller: ξξξξ ∈ Hyp(N, n, p)

– Om N stort och n/N<0.1 gäller ξ º Bin(n, p)

– Om n stort (n>30) gäller: ξ º N , (1 )

– Om p

*

skattas med ξ/n, ger detta följande konfidensintervall:

p

*obs

6

7



p

*obs

(1-p

*obs

)

; p

obs

 6

7/

p

obs

(1−p

obs

)

(20)

Hypotesprövning

 Enkel hypotesprövning

– Vi sätter upp en nollhypotes H0

– Vi sätter också upp en mothypotes H1

– Vi ska pröva nollhypotesen H0 mot mothypotesen H1 med hjälp av en test på en testvariabel

 Testet har en felrisk, som kallas signifikansnivå, α,

α = P(förkasta H0H0 sann)

 Testet har också en styrka

– Testets styrka = P(förkasta H0H1 sann)

H0: µ = 100 H1: µ = 110

Observera att om vi

(21)

Sammansatta mothypoteser - normalfördelning



En hypotes som innehåller många parametervärden kallas sammansatt, till exempel: µ > 100 (jämför föregående)

– Ovan är ett ensidigt test

– Ett tvåsidigt test är till exempel µ ≠ 100



Signifikansnivån fungerar på samma sätt som vid enkla hypoteser



Testets styrka blir en funktion av den parameter som

testet avser (inom H

1

)

(22)

Test av µ, σ känt - normalfördelning

 ξ är en stokastisk variabel

– Låt ξ1, ξ2, ..., ξn vara ett stickprov av ξ, där ξi är oberoende och normalfördelade N(µ,σ)

– Låt x1, x2, ..., xn vara en observation av stickprovet

 Ensidig hypotesprövning på signifikansnivån α

– H0: µ = µ0; H1: µ > µ0 (alternativt H1: µ < µ0)

– Förkasta H0 om (alternativt )

 Tvåsidig hypotesprövning på signifikansnivån α

– H0: µ = µ0; H1: m ≠ µ0 – Förkasta H0 om

x > µ + λ σn

α

0 x

< µ λ σn

α 0

x n eller x

< µ λ σ >µ + λ σn

α α

0 /2 0 /2

(23)

Test av µ, σ okänt - normalfördelning

 ξ är en stokastisk variabel

– Låt ξ1, ξ2, ..., ξn vara ett stickprov av ξ, där ξi är oberoende och normalfördelade N(µ,σ)

– Låt x1, x2, ..., xn vara en observation av stickprovet

 Ensidig hypotesprövning med signifikans α

– H0: µ = µ0; H1: µ > µ0 (alternativt H1: µ < µ0)

– Förkasta H0 om (alternativt )

 Tvåsidig hypotesprövning med signifikans α

– H0: µ = µ0; H1: m ≠ µ0 – Förkasta H0 om

x t s

n n

< µ0 α,( 1) x t s

n n

> µ0 + α,( 1)

x t s

n eller x t s

n

n n

< µ0 α 2 >µ + α

1 0 2 1

/ ,( ) / ,( )

) = 1-α

(24)

Konfidensintervall ./. hypotesprövning

normalfördelning

x t s

n eller x t s

n n n

< µ0 α 2 >µ + α

1 0 2 1

/ ,( ) / ,( )

x > µ + λ σn

α

x 0

< µ λ σn

α 0

x n eller x

< µ λ σ > + n

µ λ σ

α α

0 /2 0 /2

x t s

n x t s

n n n

+





α/ , (2 1) , α/ , (2 1)

x n x

+ n



λ σ λ σ 

α/2 , α/2

Konfidensintervall Hypotesprövning

För µ, σ känt

För µ, σ okänt

För µ, σ känt

För µ, σ okänt

Ensidig hypotesprövning Ensidig hypotesprövning

(25)

Direktmetoden

 H0: nollhypotesen (om ett visst värde)

 Utgå från en observation

 Räkna ut sannolikheten, α0, att få ett lika extremt eller extremare värde på testvariabeln under förutsättning att H0 är sann

 Jämför med signifikansnivån α

– Om α0 < α så förkastas H0

– Om α0 > α så förkastas inte H0

(26)

Teckentest

 Fördelningsoberoende

 Observationer i par , (xi, yi), i =1, ..., n där variation mellan paren söks

– H0 : lika resultat

– H1 : x är extremare än y

 Jämför varje par

– Räkna de gånger, ξ, då xi är extremare än yi vid parvis jämförelse

 Direktmetoden: beräkna sannolikheten för utfallet eller extremare

– Bin(n, 0.5) i detta fall

 Jämför med signifikansnivån α

(27)

to be continued ...

… another time ?

References

Related documents

IAS 1 punkt 113 kräver att företag i sammanställningen över betydande redovisningsprinciper eller i andra noter upplyser om de bedömningar företagsledningen gjort när den tillämpat

Punkten övergår från att vara idé till fysiskt objekt.. Allt beror

Denition. , x n ) på en statisti- ka som tagits fram för att skatta värdet på en okänd parameter θ kal- las (punkt)skattning eller estimat.. Det är därför viktigt den funktion

Tidigare studier har kommit fram till att MDRD är den formel som bör användas för denna patientgrupp (42, 49) medan en annan studie drog slutsatsen att CKD-EPI bör användas (48)..

studiepopulation med flera bakteremipatienter för att kunna dra några slutsatser kring huruvida sPLA 2 -IIA skulle kunna vara en användbar biomarkör för att skilja patienter

Det bör vara möjligt att för större fordonsparker tämligen noggrant följa upp förbrukningen av sådana fordonskomponenter vars förslitning eller skador kan anses vara

Tabell 2 – Visar skillnaden i N och E, radiell avvikelse, den med måttband mätta längden ifrån den dolda punkten till hjälppunkt A och B samt vilken kvalité det var på

Därför väljer vi en ( vilken som helst) punkt på en linje och beräknar avståndet från 1 denna punkt till den andra linje. Vi väljer en punkt på varje linje.. a) Bestäm de