Vilka slutsatser kan dras om populationen med resultatet i stickprovet som grund?
Statistisk analys
Exempel på stickprovsundersökning
Parti med felaktiga enheter
Man har ett parti med N enheter.
Felkvoten p i partiet är okänd.
För att få information om p tar man ut ett
stickprov om n st enheter och x st visar sej vara felaktiga.
Vad kan man säga om p?
Modell:
Låt ξ = antal felaktiga i urvalet
• Punktskattningsproblem:
Hur skattar man p på bästa sätt?
Att använda felkvoten i stickprovet, x/n, är en möjlighet.
• Intervallskattningsproblem:
Ange ett intervall som med given säkerhet innehåller det okända värdet på p, tex. ett intervall på formen
,
Denna typ av intervall kallas konfidensintervall.
Exempel på stickprovsundersökning
Exempel på stickprovsundersökning
• Hypotesprövningsproblem
•
Man vill kanske pröva hypotesen
.
Är stickprovets resultat förenligt med denna hypotes eller finns det anledning att förkasta den
och tro att
?
(Signifikanstest)
Punktskattningar - även dessa beror av slumpen
Ett slumpmässigt stickprov x
1, ..., x
nfrån någon fördelning F utgörs av oberoende stokastiska variabler ξ
1, ..., ξ
n(stickprovets slumpvariabler) var och en med fördelningen F.
Ex: ξ ∈ N(μ;σ) eller ξ ∈ Bin(n;p)
μ och p okända parametrar i resp. fördelning.
En (punkt)skattning av en okänd parameter i fördelning gjord med hjälp av det observerade stickprovet kallas för observerad (punkt)skattning.
Ex:
En punktskattnings fördelning
Anta att vi vill skatta väntevärdet µ för en normalfördelad stokastisk variabel ξ genom beräkning av medelvärde av stickprov av storleken 5
– ξ är normalfördelad N(µ,σ)
– Stickprovens slumpvariabler ξ1, ξ2, ξ3, ξ4 och ξ5
– Skattningen av µ betecknas µ∗ = +̅
– Ett utfall (observerat stickprov) är x1, x2, x3, x4 och x5 – En observerad punktskattning är µ*obs = ̅
Punktskattningens fördelning: µ
* =+̅ - . /;
01
Krav på en punktskattning
Väntevärdesriktig medför att skattningens, Θ *, väntevärde är lika med Θ , dvs
E[ Θ Θ Θ Θ *] = Θ Θ Θ Θ .
Med Θ * hamnar man i genomsnitt ”rätt”.
Effektiv, om Θ
1* och Θ
2* är två väntevärdesriktiga skattningar av Θ . Om V[ Θ
1*] < V[ Θ
2*] är Θ
1* en
effektivare - sannolikt bättre - skattning av Θ än Θ
2*.
Allmänna väntevärdesriktiga punktskattningar
– Låt ξ
1, ξ
2, ..., ξ
nvara ett stickprov från samma fördelning
då ξ
iär oberoende, E[ ξ
i] = µ och D[ ξ
i] = σ
– Låt x
1, x
2, ..., x
nvara en observation av stickprovet
µ * = ξ
σ
2ξ ξ
21
1
* = 1 ( )
− −
∑
=n
i in
σ * = σ
2*
µ*
obs= x
σ
2 2 21
1
*
obs1 (
i)
i n
s n x x
= =
− −
∑
=σ *
obs= = s s
2Intervallskattning
En intervallskattning av en parameter är ett intervall med slumpvariabler som gränser
Konfidensgraden, 1- a, för en intervallskattning är sannolikheten att parametern tillhör intervallet
En observerad intervallskattning kallas för konfidensintervall
– Metoder som inte kräver känd fördelning kallas för icke- parametriska
– Metoder som kräver känd fördelning kallas för parametriska
Teckenintervall - en icke-parametrisk metod Konfidensintervall för medianen m
Låt
ξ
1,ξ
2, ...,ξ
n vara ett stickprov av storleken n,Storleksordna stickprovet så att:
ξ
(1) ≤ξ
(2)≤... ≤ξ
(n)Ett konfidensintervall för m är
[
ξ
(1),ξ
(n)], (minsta och största värde) Konfidensgrad: 1- a=
1-2×
0.5nKonfidensgraden minskas om man
i stället tar [
ξ
(2),ξ
(n-1)], och så vidare ...Konfidensgrad: 1- a =1 2 0.51
1 0.51 osv…
ξ(1) ξ(n) m
Konfidensintervall för µ där σσσσ är känt - normalfördelning
ξ är en stokastisk variabel
– Låt
ξ
1,ξ
2, ...,ξ
n vara ett stickprov avξ
, därξ
i är oberoende – Låt x1, x2, ..., xn vara en observation av stickprovetEtt konfidensintervall för
µ
med konfidensgraden 1-α
fås då avdär
λ
α/2 fås ur
− +
n λ σ
x n ,
λ σ
x
α/ 2 α/ 2α/2 1
)
Φ(λ
α/2= −
Konfidensintervall för µ där σ är okänt -normalfördelning
ξ är en stokastisk variabel
– Låt
ξ
1,ξ
2, ...,ξ
n vara ett stickprov avξ
, därξ
i är oberoende – Låt x1, x2, ..., xn vara en observation av stickprovetEtt konfidensintervall med konfidensgraden 1-
α
fås då av
− − + −
n t s
x n , t s
x n n
α/
α/
) 1 ( )
1 (
2 2
t-fördelningen är en släkting till normalfördelningen och finns tabellerad för olika
αααα αααα
) n t(n
σ*/
µ
ξ
− ∈ − 1
α )
F(t
n- x
F t
t
) (n α/
n α/
−
−
=
−
1
der.
frihetsgra 1
med )
( ens
fördelning -
ur fås
Där
1 2
) 1 (
2
Stickprov i par - normalfördelning
Vi har parvisa observationer (
ξ
i,η
i), i = 1, ...,n
ξ
i är normalfördelad N(µ
i,σ
ξ)
η
i är normalfördelad N(µ
i+∆
,σ
η)Paren (
ξ
i,η
i), i = 1, ...,n är oberoende Studeraζ
i= η
i -ξ
i, vilket är normalfördelad vilket också kan skrivas N(∆,σ
)Studera de n observationerna av
ζ
i[
∆, V[η ξ ]]
N i
−
iTvå stickprov - normalfördelning
ξ
1,ξ
2, ...,ξ
n1 är stickprov med fördelningen N(
µ
1,σ
)
η
1,η
2, ...,η
n2 är stickprov med fördelningen N(
µ
2,σ
)Stickproven är oberoende
Studera
ξ
-η,
vilket är normalfördeladStandardavvikelsen ovan är standardavvikelsen för
ξ
-η N µ µ σ n σ n
1 2
2
1
2
2
− +
,
Observera att antalet frihetsgrader är n1+n2-2, om t-fördelningen användsKonfidensintervall för varians - N(µ,σ)
ξ är en stokastisk variabel
– Låt ξ1, ξ2, ..., ξn vara ett stickprov av ξ, där ξi är oberoende och normalfördelade N(µ,σ)
– Låt x1, x2, ..., xn vara en observation av stickprovet – Man kan visa att
Ett konfidensintervall, som är uppåt begränsat och med undre gräns 0, med konfidensgraden 1-α fås då av
där
χ
2(1-α),(n-1) fås ur χ2-
−
=
∑
n (xi − x)2 (n 1)s21
2 21
1
2
σ ( ξ
iξ ) χ ( )
i n
− ∈ n −
∑
=( n σ − 1
2) s
2∈ χ
2( n − 1 )
Tvåsidigt konfidensintervall för varians - N( µ,σ )
En tvåsidig intervallskattning av variansen,
σσσσ
², där det är lika stor sannolikhet att missa över som under intervallet, medkonfidensgraden 1-α fås av
och för standardavvikelsen,
σ
− −
−
−
− 2
) 1 ( ), 2 / 1 (
2 2
) 1 ( ), 2 / (
2
( 1 ) ) ,
1 (
n n
s n
s n
α
α
χ
χ
− −
−
−
− 2
) 1 ( ), 2 / 1 (
2 2
) 1 ( ), 2 / (
2
( 1 )
) , 1 (
n n
s n
s n
α
α
χ
χ
Om man inte har normalfördelning?
Teckenintervall är en icke-parametrisk metod för intervallskattning av medianvärde
Om vi har stora stickprov från en fördelning med väntevärde E[ ξ
i] = µ och V[ ξ
i] = σ
2, så är
enligt centrala gränsvärdessatsen. Detsamma gäller
) (
) 1 , 0
( okänd skattas med s N σσσσ
µµµµ
ξξξξ −−−− ≈≈≈≈
) (
) 1 , 0
/ N ( känd
n σσσσ
σσσσ
µµµµ
ξξξξ −−−− ≈≈≈≈
”Väljarbarometer” - konfidensintervall för p
I en mängd med N element är en andel p av speciellt slag.
Bland de N elementen väljs n element.
ξ är antal speciella element bland de n utvalda
– Då gäller: ξξξξ ∈ Hyp(N, n, p)
– Om N stort och n/N<0.1 gäller ξ º Bin(n, p)
– Om n stort (n>30) gäller: ξ º N , (1 )
– Om p
*skattas med ξ/n, ger detta följande konfidensintervall:
p
*obs6
7
p
*obs(1-p
*obs)
; p
∗obs6
7/p
∗obs(1−p
∗obs)
Hypotesprövning
Enkel hypotesprövning
– Vi sätter upp en nollhypotes H0
– Vi sätter också upp en mothypotes H1
– Vi ska pröva nollhypotesen H0 mot mothypotesen H1 med hjälp av en test på en testvariabel
Testet har en felrisk, som kallas signifikansnivå, α,
– α = P(förkasta H0H0 sann)
Testet har också en styrka
– Testets styrka = P(förkasta H0H1 sann)
H0: µ = 100 H1: µ = 110
Observera att om vi
Sammansatta mothypoteser - normalfördelning
En hypotes som innehåller många parametervärden kallas sammansatt, till exempel: µ > 100 (jämför föregående)
– Ovan är ett ensidigt test
– Ett tvåsidigt test är till exempel µ ≠ 100
Signifikansnivån fungerar på samma sätt som vid enkla hypoteser
Testets styrka blir en funktion av den parameter som
testet avser (inom H
1)
Test av µ, σ känt - normalfördelning
ξ är en stokastisk variabel
– Låt ξ1, ξ2, ..., ξn vara ett stickprov av ξ, där ξi är oberoende och normalfördelade N(µ,σ)
– Låt x1, x2, ..., xn vara en observation av stickprovet
Ensidig hypotesprövning på signifikansnivån α
– H0: µ = µ0; H1: µ > µ0 (alternativt H1: µ < µ0)
– Förkasta H0 om (alternativt )
Tvåsidig hypotesprövning på signifikansnivån α
– H0: µ = µ0; H1: m ≠ µ0 – Förkasta H0 om
x > µ + λ σn
α
0 x
< µ − λ σn
α 0
x n eller x
< µ − λ σ >µ + λ σn
α α
0 /2 0 /2
Test av µ, σ okänt - normalfördelning
ξ är en stokastisk variabel
– Låt ξ1, ξ2, ..., ξn vara ett stickprov av ξ, där ξi är oberoende och normalfördelade N(µ,σ)
– Låt x1, x2, ..., xn vara en observation av stickprovet
Ensidig hypotesprövning med signifikans α
– H0: µ = µ0; H1: µ > µ0 (alternativt H1: µ < µ0)
– Förkasta H0 om (alternativt )
Tvåsidig hypotesprövning med signifikans α
– H0: µ = µ0; H1: m ≠ µ0 – Förkasta H0 om
x t s
n n
< µ0 − α,( −1) x t s
n n
> µ0 + α,( −1)
x t s
n eller x t s
n
n n
< µ0 − α 2 − >µ + α −
1 0 2 1
/ ,( ) / ,( )
) = 1-α
Konfidensintervall ./. hypotesprövning
normalfördelning
x t s
n eller x t s
n n n
< µ0 − α 2 − >µ + α −
1 0 2 1
/ ,( ) / ,( )
x > µ + λ σn
α
x 0
< µ − λ σn
α 0
x n eller x
< µ − λ σ > + n
µ λ σ
α α
0 /2 0 /2
x t s
n x t s
n n n
− +
− −
α/ , (2 1) , α/ , (2 1)
x n x
− + n
λ σ λ σ
α/2 , α/2
Konfidensintervall Hypotesprövning
För µ, σ känt
För µ, σ okänt
För µ, σ känt
För µ, σ okänt
Ensidig hypotesprövning Ensidig hypotesprövning
Direktmetoden
H0: nollhypotesen (om ett visst värde)
Utgå från en observation
Räkna ut sannolikheten, α0, att få ett lika extremt eller extremare värde på testvariabeln under förutsättning att H0 är sann
Jämför med signifikansnivån α
– Om α0 < α så förkastas H0
– Om α0 > α så förkastas inte H0
Teckentest
Fördelningsoberoende
Observationer i par , (xi, yi), i =1, ..., n där variation mellan paren söks
– H0 : lika resultat
– H1 : x är extremare än y
Jämför varje par
– Räkna de gånger, ξ, då xi är extremare än yi vid parvis jämförelse
Direktmetoden: beräkna sannolikheten för utfallet eller extremare
– Bin(n, 0.5) i detta fall
Jämför med signifikansnivån α