Exempel på stickprovsundersökning

(1)

Vilka slutsatser kan dras om populationen med resultatet i stickprovet som grund?

Statistisk analys

(2)

Exempel på stickprovsundersökning

Parti med felaktiga enheter

Man har ett parti med N enheter.

Felkvoten p i partiet är okänd.

För att få information om p tar man ut ett

stickprov om n st enheter och x st visar sej vara felaktiga.

Vad kan man säga om p?

Modell:

Låt ξ = antal felaktiga i urvalet

(3)

• Punktskattningsproblem:

Hur skattar man p på bästa sätt?

Att använda felkvoten i stickprovet, x/n, är en möjlighet.

• Intervallskattningsproblem:

Ange ett intervall som med given säkerhet innehåller det okända värdet på p, tex. ett intervall på formen

,

Denna typ av intervall kallas konfidensintervall.

Exempel på stickprovsundersökning

(4)

Exempel på stickprovsundersökning

• Hypotesprövningsproblem

•

Man vill kanske pröva hypotesen

.

Är stickprovets resultat förenligt med denna hypotes eller finns det anledning att förkasta den

och tro att

?

(Signifikanstest)

(5)

Punktskattningar - även dessa beror av slumpen

Ett slumpmässigt stickprov x

₁

, ..., x

_n

från någon fördelning F utgörs av oberoende stokastiska variabler ξ

₁

, ..., ξ

_n

(stickprovets slumpvariabler) var och en med fördelningen F.

Ex: ξ ∈ N(μ;σ) eller ξ ∈ Bin(n;p)

μ ^och p okända parametrar i resp. fördelning.

En (punkt)skattning av en okänd parameter i fördelning gjord med hjälp av det observerade stickprovet kallas för observerad (punkt)skattning.

Ex:

(6)

En punktskattnings fördelning

Anta att vi vill skatta väntevärdet µ för en normalfördelad stokastisk variabel ξ genom beräkning av medelvärde av stickprov av storleken 5

– ξ är normalfördelad N(µ,σ)

– Stickprovens slumpvariabler ξ₁, ξ₂, ξ₃, ξ₄ och ξ₅

– Skattningen av µ betecknas µ∗ = +̅

– Ett utfall (observerat stickprov) är x₁, x₂, x₃, x₄ och x₅ – En observerad punktskattning är µ*_obs= ̅

Punktskattningens fördelning: µ

* =

+̅ - . /;

⁰

1

(7)

Krav på en punktskattning

Väntevärdesriktig medför att skattningens, Θ *, väntevärde är lika med Θ , dvs

E[ Θ Θ Θ Θ **^{*] =}** Θ Θ Θ Θ ^.

Med Θ * hamnar man i genomsnitt ”rätt”.

Effektiv, om Θ

₁

* och Θ

₂

* är två väntevärdesriktiga skattningar av Θ . Om V[ Θ

₁

*] < V[ Θ

₂

*] är Θ

₁

* en

effektivare - sannolikt bättre - skattning av Θ än Θ

₂

*.

(8)

Allmänna väntevärdesriktiga punktskattningar

– Låt ξ

₁

, ξ

₂

, ..., ξ

_n

vara ett stickprov från samma fördelning

då ξ

_i

är oberoende, E[ ξ

_i

] = µ och D[ ξ

_i

] = σ

– Låt x

₁

, x

₂

, ..., x

_n

vara en observation av stickprovet

µ * = ξ

σ

²

ξ ξ

²

1

1 * = 1 ( )

− −

∑

=

n

_i ⁱ

n

σ * = σ

²

*

µ*

_obs

= x

σ

² ² ²

1

1 *

_obs

1 (

_i

)

i n

s n x x

= =

− −

∑

=

σ *

_obs

= = s s

²

(9)

Intervallskattning

En intervallskattning av en parameter är ett intervall med slumpvariabler som gränser

Konfidensgraden, 1- a, för en intervallskattning är sannolikheten att parametern tillhör intervallet

En observerad intervallskattning kallas för konfidensintervall

– Metoder som inte kräver känd fördelning kallas för icke- parametriska

– Metoder som kräver känd fördelning kallas för parametriska

(10)

Teckenintervall - en icke-parametrisk metod Konfidensintervall för medianen m

Låt

ξ

₁,

ξ

₂, ...,

ξ

_n vara ett stickprov av storleken n,

Storleksordna stickprovet så att:

ξ

₍₁₎^≤

ξ

₍₂₎^≤... ^≤

ξ

_(n)

Ett konfidensintervall för m är

[

ξ

₍₁₎,

ξ

_(n)], (minsta och största värde) Konfidensgrad: 1- a

=

_1-2

×

0.5ⁿ

Konfidensgraden minskas om man

i stället tar [

ξ

₍₂₎,

ξ

_(n-1)], och så vidare ...

Konfidensgrad: 1- a =1 2 0.5¹

1 0.5¹ osv…

ξ₍₁₎ ξ_(n) m

(11)

Konfidensintervall för µ där σσσσ är känt - normalfördelning

ξ är en stokastisk variabel

– Låt

ξ

₁,

ξ

₂, ...,

ξ

_n vara ett stickprov av

ξ

, där

ξ

_i är oberoende – Låt x₁, x₂, ..., x_n vara en observation av stickprovet

Ett konfidensintervall för

µ

med konfidensgraden 1-

α

fås då av

där

λ

_α_/2 fås ur

 

  − +

n λ σ

x n ,

λ σ

x

_α/ ₂ _α/ ₂

α/2 1

)

Φ(λ

_α/2

= −

(12)

Konfidensintervall för µ där σ är okänt -normalfördelning

ξ är en stokastisk variabel

– Låt

ξ

₁,

ξ

₂, ...,

ξ

_n vara ett stickprov av

ξ

, där

ξ

_i är oberoende – Låt x₁, x₂, ..., x_n vara en observation av stickprovet

Ett konfidensintervall med konfidensgraden 1-

α

fås då av



 − ⁻ + ⁻

n t s

x n , t s

x ⁿ ⁿ

α/

) 1 ( )

1 (

2 2

t-fördelningen är en släkting till normalfördelningen och finns tabellerad för olika

αααα αααα

) n t(n

σ*/

µ

ξ

− ∈ − 1

α )

F(t

n- x

F t

t

) (n α/

n α/

−

=

−

1 der.

frihetsgra 1

med )

( ens

fördelning -

ur fås

Där

1 2

) 1 (

2

(13)

(14)

Stickprov i par - normalfördelning

Vi har parvisa observationer (

ξ

_i,

η

_i), i = 1, ...,n

ξ

_i är normalfördelad N(

µ

_i,

σ

_ξ)

η

_i är normalfördelad N(

µ

_i+

∆

,

σ

_η)

Paren (

ξ

_i,

η

_i), i = 1, ...,n är oberoende Studera

ζ

_i

= η

_i -

ξ

_i, vilket är normalfördelad vilket också kan skrivas N(

∆,σ

)

Studera de n observationerna av

ζ

_i

[

^∆, ^V[η ^ξ ^]

]

N _i

−

_i

(15)

Två stickprov - normalfördelning

ξ

₁,

ξ

₂, ...,

ξ

_n

1 är stickprov med fördelningen N(

µ

₁,

σ

)

η

₁,

η

₂, ...,

η

_n

2 är stickprov med fördelningen N(

µ

₂,

σ

)

Stickproven är oberoende

Studera

ξ

-

η,

vilket är normalfördelad

Standardavvikelsen ovan är standardavvikelsen för

ξ

-

η N µ µ σ n σ n

1 2

2

1

2

− +



  

 

,

Observera att antalet frihetsgrader är n₁+n₂-2, om t-fördelningen används

(16)

Konfidensintervall för varians - N(µ,σ)

ξ är en stokastisk variabel

– Låt ξ₁, ξ₂, ..., ξ_n vara ett stickprov av ξ, där ξ_i är oberoende och normalfördelade N(µ,σ)

– Låt x₁, x₂, ..., x_n vara en observation av stickprovet – Man kan visa att

Ett konfidensintervall, som är uppåt begränsat och med undre gräns 0, med konfidensgraden 1-α fås då av

där

χ

²_(1-_α)_,(n-1)fås ur χ²-



 −

 =







∑

ⁿ ⁽^xⁱ − ^x⁾² ₍_n ₁₎_s²

1

₂ ²

1

2

σ ( ξ

_i

ξ ) χ ( )

i n

− ∈ n −

∑

=

⁽ ⁿ _σ ⁻ ¹

²

⁾ ^s

²

^∈ ^χ

²

⁽ ⁿ ⁻ ¹ ⁾

(17)

Tvåsidigt konfidensintervall för varians - N( µ,σ )

En tvåsidig intervallskattning av variansen,

σσσσ

², där det är lika stor sannolikhet att missa över som under intervallet, med

konfidensgraden 1-α fås av

och för standardavvikelsen,

σ

 





 



 − −

−

− 2

) 1 ( ), 2 / 1 (

2 2

) 1 ( ), 2 / (

2

( 1 ) ) ,

1 (

n n

s n

α

χ

 





 



 − −

−

− 2

) 1 ( ), 2 / 1 (

2 2

) 1 ( ), 2 / (

2

( 1 )

) , 1 (

n n

s n

α

χ

(18)

Om man inte har normalfördelning?

Teckenintervall är en icke-parametrisk metod för intervallskattning av medianvärde

Om vi har stora stickprov från en fördelning med väntevärde E[ ξ

_i

] = µ och V[ ξ

_i

] = σ

²

, så är

enligt centrala gränsvärdessatsen. Detsamma gäller

) (

) 1 , 0

( okänd skattas med s N σσσσ

µµµµ

ξξξξ −−−− ≈≈≈≈

) (

) 1 , 0

/ N ( känd

n σσσσ

σσσσ

µµµµ

ξξξξ −−−− ≈≈≈≈

(19)

”Väljarbarometer” - konfidensintervall för p

I en mängd med N element är en andel p av speciellt slag.

Bland de N elementen väljs n element.

ξ är antal speciella element bland de n utvalda

– Då gäller: ξξξξ ∈ Hyp(N, n, p)

– Om N stort och n/N<0.1 gäller ξ º Bin(n, p)

– Om n stort (n>30) gäller: ξ º N , (1 )

– Om p

^*

skattas med ξ/n, ger detta följande konfidensintervall:

p

^*_obs

6

⁷

p

^*_obs

(1-p

^*_obs

)

; p

^∗_obs

6

_7/

p

^∗_obs

(1−p

^∗_obs

)

(20)

Hypotesprövning

Enkel hypotesprövning

– Vi sätter upp en nollhypotes H₀

– Vi sätter också upp en mothypotes H₁

– Vi ska pröva nollhypotesen H₀ mot mothypotesen H₁ med hjälp av en test på en testvariabel

Testet har en felrisk, som kallas signifikansnivå, α,

– α = P(förkasta H₀H₀ sann)

Testet har också en styrka

– Testets styrka = P(förkasta H₀H₁ sann)

H₀: µ = 100 H₁: µ = 110

Observera att om vi

(21)

Sammansatta mothypoteser - normalfördelning

En hypotes som innehåller många parametervärden kallas sammansatt, till exempel: µ > 100 (jämför föregående)

– Ovan är ett ensidigt test

– Ett tvåsidigt test är till exempel µ ≠ 100

Signifikansnivån fungerar på samma sätt som vid enkla hypoteser

Testets styrka blir en funktion av den parameter som

testet avser (inom H

₁

)

(22)

Test av µ, σ känt - normalfördelning

ξ är en stokastisk variabel

– Låt x₁, x₂, ..., x_n vara en observation av stickprovet

Ensidig hypotesprövning på signifikansnivån α

– H₀: µ = µ₀; H₁: µ > µ₀ (alternativt H₁: µ < µ₀)

– Förkasta H₀ om (alternativt )

Tvåsidig hypotesprövning på signifikansnivån α

– H₀: µ = µ₀; H₁: m ≠ µ₀ – Förkasta H₀ om

x > µ + λ σn

α

0 x

< µ − λ σn

α 0

x n eller x

< µ − λ σ >µ + λ σn

α α

0 /2 0 /2

(23)

Test av µ, σ okänt - normalfördelning

ξ är en stokastisk variabel

– Låt x₁, x₂, ..., x_n vara en observation av stickprovet

Ensidig hypotesprövning med signifikans α

– H₀: µ = µ₀; H₁: µ > µ₀ (alternativt H₁: µ < µ₀)

– Förkasta H₀ om (alternativt )

Tvåsidig hypotesprövning med signifikans α

– H₀: µ = µ₀; H₁: m ≠ µ₀ – Förkasta H₀ om

x t s

n n

< µ₀ − _α_,( ₋₁₎ x t s

n n

> µ₀ + _α_,( ₋₁₎

x t s

n eller x t s

n

n n

< µ₀ − _α ₂ ₋ >µ + _α ₋

1 0 2 1

/ ,( ) / ,( )

) = 1-α

(24)

Konfidensintervall ./. hypotesprövning

normalfördelning

x t s

n eller x t s

n n n

< µ₀ − _α ₂ ₋ >µ + _α ₋

1 0 2 1

/ ,( ) / ,( )

x > µ + λ σn

α

x 0

< µ − λ σn

α 0

x n eller x

< µ − λ σ > + n

µ λ σ

α α

0 /2 0 /2

x t s

n x t s

n n n

− +







− − 

α/ , (₂ ₁) , α/ , (₂ ₁)

x n x

− + n







λ σ λ σ 

α/₂ , α/₂

Konfidensintervall Hypotesprövning

För µ, σ känt

För µ, σ okänt

För µ, σ känt

För µ, σ okänt

Ensidig hypotesprövning Ensidig hypotesprövning

(25)

Direktmetoden

H₀: nollhypotesen (om ett visst värde)

Utgå från en observation

Räkna ut sannolikheten, α₀, att få ett lika extremt eller extremare värde på testvariabeln under förutsättning att H₀ är sann

Jämför med signifikansnivån α

– Om α₀ < α så förkastas H₀

– Om α₀ > α så förkastas inte H₀

(26)

Teckentest

Fördelningsoberoende

Observationer i par , (x_i, y_i), i =1, ..., n där variation mellan paren söks

– H₀ : lika resultat

– H₁ : x är extremare än y

Jämför varje par

– Räkna de gånger, ξ, då x_i är extremare än y_i vid parvis jämförelse

Direktmetoden: beräkna sannolikheten för utfallet eller extremare

– Bin(n, 0.5) i detta fall

Jämför med signifikansnivån α

(27)

Exempel på stickprovsundersökning

Statistisk analys

Exempel på stickprovsundersökning

Parti med felaktiga enheter

Man har ett parti med N enheter.

Felkvoten p i partiet är okänd.

För att få information om p tar man ut ett

stickprov om n st enheter och x st visar sej vara felaktiga.

Vad kan man säga om p?

Modell:

Låt ξ = antal felaktiga i urvalet

• Punktskattningsproblem:

Hur skattar man p på bästa sätt?

Att använda felkvoten i stickprovet, x/n, är en möjlighet.

• Intervallskattningsproblem:

Ange ett intervall som med given säkerhet innehåller det okända värdet på p, tex. ett intervall på formen

,



Denna typ av intervall kallas konfidensintervall.

Exempel på stickprovsundersökning

Exempel på stickprovsundersökning

• Hypotesprövningsproblem

Man vill kanske pröva hypotesen   

.

Är stickprovets resultat förenligt med denna hypotes eller finns det anledning att förkasta den

och tro att   

?

(Signifikanstest)

Punktskattningar - även dessa beror av slumpen

Ett slumpmässigt stickprov x

, ..., x

från någon fördelning F utgörs av oberoende stokastiska variabler ξ

, ..., ξ

(stickprovets slumpvariabler) var och en med fördelningen F.

Ex: ξ ∈ N(μ;σ) eller ξ ∈ Bin(n;p)

μ och p okända parametrar i resp. fördelning.

En (punkt)skattning av en okänd parameter i fördelning gjord med hjälp av det observerade stickprovet kallas för observerad (punkt)skattning.

Ex:

En punktskattnings fördelning

Anta att vi vill skatta väntevärdet µ för en normalfördelad stokastisk variabel ξ genom beräkning av medelvärde av stickprov av storleken 5

Punktskattningens fördelning: µ

+̅ - . /;

Krav på en punktskattning

Väntevärdesriktig medför att skattningens, Θ *, väntevärde är lika med Θ , dvs

E[ Θ Θ Θ Θ *] = Θ Θ Θ Θ .

Med Θ * hamnar man i genomsnitt ”rätt”.

Effektiv, om Θ

* och Θ

* är två väntevärdesriktiga skattningar av Θ . Om V[ Θ

*] < V[ Θ

*] är Θ

* en

effektivare - sannolikt bättre - skattning av Θ än Θ

*.

Allmänna väntevärdesriktiga punktskattningar

– Låt ξ

, ξ

, ..., ξ

vara ett stickprov från samma fördelning

då ξ

är oberoende, E[ ξ

] = µ och D[ ξ

] = σ

– Låt x

, x

, ..., x

vara en observation av stickprovet

µ * = ξ

σ

ξ ξ

1

* = 1 ( )

− −

∑

n

σ * = σ

*

µ*

= x

σ

Man vill kanske pröva hypotesen

och tro att

μ ^och p okända parametrar i resp. fördelning.

E[ Θ Θ Θ Θ **^{*] =}** Θ Θ Θ Θ ^.