• No results found

F¨orel¨asningsanteckningar i Matematisk Statistik

N/A
N/A
Protected

Academic year: 2021

Share "F¨orel¨asningsanteckningar i Matematisk Statistik"

Copied!
67
0
0

Loading.... (view fulltext now)

Full text

(1)

F¨orel¨asningsanteckningar i Matematisk Statistik

Jan Grandell

(2)
(3)

F¨ orord

Dessa anteckningar gjordes f¨or mitt privata bruk av f¨orel¨asningsmanuskript och har aldrig varit t¨ankta att anv¨andas som kursmaterial. Jag kan d¨arf¨or inte ta n˚agot ansvar f¨or eventuella fel och eventuella konsekvenser av dessa p˚a tentan.

Jan Grandell

i

(4)
(5)

N˚ agra beteckningar i Matematisk Statistik

Grundl¨aggande sannolikhetsteori ω utfall av ett slumpf¨ors¨ok

Ω utfallsrummet

∅ tomma m¨angden, om¨ojliga h¨andelsen A, Ak, B, . . . h¨andelser

∩ snitt; A ∩ B = A och B intr¨affar

∪ union; A ∪ B = A och/eller B intr¨affar, minst en av A eller B intr¨affar A komplementet till A, A intr¨affar ej

P (A) sannolikheten f¨or A

P (B | A) sannolikheten f¨or B betingat av att A intr¨affat Stokastiska variabler

X, Xk, Y, . . . stokastiska variabler

x, xk, y, . . . utfall av stokastiska variabler FX(x) = P (X ≤ x) f¨ordelningsfunktion

fX(x) t¨athetsfunktion (f¨or en kontinuerlig s.v.)

pX(x) = P (X = k) sannolikhetsfunktion (f¨or en diskret s.v.) µ = µX = E(X) v¨antev¨arde, f¨orv¨antat v¨arde

σ2 = σ2X = V (X) varians

σ = σX = D(X) standardavvikelse C(X, Y ) kovariansen mellan X och Y

ρ = ρ(X, Y ) korrelationskoefficienten mellan X och Y Statistik

x1, x2, . . . , xn utfall av X1, X2, . . . , Xn

θ parameter

θobs = θ(x1, . . . , xn) punktskattning θ = θ(X1, . . . , Xn) stickprovsvariabel x stickprovsmedelv¨arde¯

s2 stickprovsvarians Iθ konfidensintervall f¨or θ

λα, tα(f ), χ2α(f ) α-kvantiler f¨or normal-, t- resp. χ2-f¨ordelningarna H0 nollhypotes

H1 alternativ hypotes, mothypotes iii

(6)
(7)

Inneh˚ all

F¨orord i

N˚agra beteckningar i Matematisk Statistik iii

F¨orel¨asning 1 1

1.1 Inledning . . . 1 1.2 Grundl¨aggande sannolikhetsteori . . . 2

F¨orel¨asning 2 7

2.1 Betingad sannolikhet . . . 7 2.2 Oberoende h¨andelser . . . 9 2.3 Stokastiska variabler . . . 11

F¨orel¨asning 3 13

3.1 Stokastiska variabler . . . 13 3.2 Flerdimensionella stokastiska variabler . . . 16

F¨orel¨asning 4 19

4.1 Funktioner av stokastiska variabler . . . 19 4.2 V¨antev¨arden . . . 20

F¨orel¨asning 5 25

5.1 Kovarians och korrelationskoefficient . . . 25 5.2 Mer om v¨antev¨arden . . . 26

F¨orel¨asning 6 29

6.1 Normalf¨ordelningen . . . 29 6.2 Centrala gr¨ansv¨ardessatsen . . . 32

F¨orel¨asning 7 33

7.1 Binomialf¨ordelningen och dess sl¨aktingar . . . 33 7.2 Approximationer . . . 35

F¨orel¨asning 8 39

8.1 Punktskattning . . . 39

F¨orel¨asning 9 43

9.1 Intervallskattning . . . 43 v

(8)

F¨orel¨asning 10 51 10.1 Hypotespr¨ovning . . . 51 10.2 χ2-test . . . 53

F¨orel¨asning 11 57

11.1 Regressionsanalys . . . 57

(9)

F¨ orel¨ asning 1

1.1 Inledning

Vi ska f¨orst ge n˚agra exempel p˚a situationer d¨ar matematisk statistik kommer in p˚a ett naturligt och viktigt s¨att

Sannolikhetsteori:

Sannolikhetsteori handlar om att g¨ora modeller f¨or verkligheten.

Exempel (S)

Man vill dimensionera trafikljussystemet p˚a en genomfartsled med angr¨ansan- de tv¨argator i en stad. Hur l˚anga gr¨on-r¨od faser ska man ha f¨or att minimera risken f¨or allt f¨or besv¨arande k¨obildning i rusningstrafik? Biltrafik ¨ar underkas- tad slumpm¨assiga fluktuationer. Vi m˚aste formulera n˚agon slags slumpmodell.

Hur skall den se ut?

Exempel (D)

Man vill dimensionera ett datasystem p˚a ett f¨oretag. Hur ska man g¨ora detta, under en given kostnadsram, f¨or att minimera risken f¨or allt f¨or besv¨arande k¨obildning i rusningstrafik? Datatrafik ¨ar underkastad slumpm¨assiga fluktua- tioner. Vi m˚aste formulera n˚agon slags slumpmodell. Hur skall den se ut?

Statistik:

M˚anga t¨anker nog p˚a tabeller n¨ar de h¨or ordet ”statistik”. Vi menar dock med statistik l¨aran om hur man fr˚an observationer eller analyser under os¨akerhet drar slutsatser och beskriver dessa slutsatser p˚a ett korrekt s¨att.

Exempel L˚at oss s¨aga att vi vill m¨ata halten av ett ¨amne i en kemisk f¨orening.

Hur skall vi g¨ora detta? Det ¨ar en kemisk fr˚aga som inte jag t¨anker g˚a in p˚a.

Hur vi ska analysera resultaten ¨ar d¨aremot en statistisk fr˚aga!

Vi kan t.ex. ha 2000 enheter som vi ¨ar intresserade av. Detta ¨ar v˚ar population, och det ¨ar bara dom enheterna som intresserar oss. Det ¨ar alldeles f¨or mycket arbete att analysera alla enheterna! Det naturliga ¨ar att g¨ora ett urval av dessa, eller – som man brukar s¨aga – ta ett stickprov. Med ett stickprov menar vi i regel en upps¨attning analysdata. Hur ska vi v¨alja stickprovet, och hur kan man

1

(10)

fr˚an resultatet av analysen av stickprovet dra slutsatser om populationen?

En lite annan situation ¨ar om vi vill unders¨oka en produktionsmetod. Vi har d˚a ingen naturlig population, eller om man s˚a vill, s˚a kan vi tala om en o¨andlig population. V˚art ”stickprov” ers¨atts d˚a av att vi v¨aljer n˚agra enheter, och analyserar dessa. Man kan t¨anka sig att vi l˚ater framst¨alla ett visst antal, och ur dessa g¨or ett urval. Skillnaden med fallet ovan ¨ar att vi nu inte vill uttala oss om det tillverkade antalet – populationen – utan om ”alla” enheter. Ett naturligare syns¨att att se p˚a saken ¨ar att vi uppfattar de enskilda analyserna som resultatet av ett slumpf¨ors¨ok.

1.2 Grundl¨ aggande sannolikhetsteori

H¨andelser

Vi betraktar nu ett slumpf¨ors¨ok.

Definition 1.1 Varje m¨ojligt resultat ω av ett slumpf¨ors¨ok kallas ett utfall, eller en elementarh¨andelse.

Definition 1.2 M¨angden av alla utfall, eller resultat, kallar vi utfallsrummet och betecknar det med Ω.

Definition 1.3 En h¨andelse A ¨ar en m¨angd av utfall, dvs en delm¨angd av Ω, A ⊂ Ω.

L˚at oss nu anta att vi ¨ar intresserade av tv˚a h¨andelser A och B definierade p˚a samma f¨ors¨ok. H¨ar ¨ar n˚agra exempel p˚a vad som kan intr¨affa, och hur vi matematiskt kan uttrycka detta:

”A intr¨affar”, A

”A och B intr¨affar” eller ”A snitt B intr¨affar”, A ∩ B

”A eller B intr¨affar” eller ”A union B intr¨affar”, A ∪ B

Obs! A ∪ B betyder att minst en av A eller B intr¨affar, s˚a A ∩ B kan mycket v¨al intr¨affa. I matematik betyder ”eller” och/eller!

”A intr¨affar inte”, A.

Om A och B utesluter varandra, dvs. om¨ojligt kan intr¨affa samtidigt, s˚a s¨ager vi att A och B ¨ar disjunkta eller of¨orenliga, dvs. A ∩ B = ∅ d¨ar ∅ ¨ar ”tomma m¨angden” eller ”den om¨ojliga h¨andelsen”.

(11)

1.2. Grundl¨aggande sannolikhetsteori 3

Har vi m˚anga h¨andelser kan vi, precis som med summa- och produkt-tecken, anv¨anda ett f¨orkortat skrivs¨att:

[n 1

Ai = A1∪ A2∪ . . . ∪ An och

\n 1

Ai = A1∩ A2∩ . . . ∩ An

L˚at oss s¨aga att vi kastar en t¨arning, och ¨ar intresserade av h¨andelsen {vi f˚ar en sexa}.

Alla h˚aller nog med om att, om det ¨ar en just t¨arning, att den sannolikheten

¨ar 16. Symboliskt kan vi skriva

A = {vi f˚ar en sexa} och P (A) = 1 6.

Ar det ¨overhuvudtaget meningsfullt att tala om sannolikheter, och om s˚¨ a ¨ar fallet, hur skall man tolka dessa?

Vi skall tolka detta som att om man kastar t¨arningen m˚anga g˚anger, s˚a blir den relativa frekvensen 6or ungef¨ar 16. Allm¨ant sett, om vi har ett f¨ors¨ok och en h¨andelse A och g¨or f¨ors¨oket n g˚anger, s˚a g¨aller

fn(A) = antalet g˚anger A intr¨affar

n → P (A) d˚a n v¨axer.

Vad ¨ar nu en sannolikhet?

Kolmogorovs axiomsystem (1933):

Ett sannolikhetsm˚att P ¨ar en funktion av h¨andelser, s˚adan att:

(a) 0 ≤ P (A) ≤ 1;

(b) P (Ω) = 1;

(c) om A1, A2, . . . ¨ar disjunkta h¨andelser, s˚a g¨aller

P µ[

1

Ai

= X

1

P (Ai).

(a) och (b) kan ses som en kalibrering s˚a att P st¨ammer med intuitionen (det blir l¨attare d˚a) och (c) (som ¨ar det ”viktiga” axiomet) betyder att P ¨ar ett m˚att.

Sats 1.1 P (A) = 1 − P (A).

(12)

Bevis. Vi ska ge ett mycket formellt bevis, f¨or att illustrera axiomsystemet:

Eftersom A och A disjunkta och A ∪ A = Ω, s˚a f˚as

P (A) + P (A) = P (Ω) = 1 P (A) = 1 − P (A).

2

Sats 1.2 P (A ∪ B) = P (A) + P (B) − P (A ∩ B).

Bevis. Satsen f¨oljer med hj¨alp av Venn-diagram, och observationen att

P (A) + P (B) ”m¨ater” A ∩ B tv˚a g˚anger. 2

Den klassiska sannolikhetsdefinitionen

Antag att Ω best˚ar av m (m¨ojliga) elementarh¨andelser ω1, . . . , ωm, var och en med samma sannolikhet att intr¨affa, dvs

P (ωk) = 1

m k = 1, . . . , m.

Betrakta en h¨andelse A, A ⊂ Ω. Antag att A inneh˚aller g (gynnsamma) ele- mentarh¨andelser. D˚a g¨aller

P (A) = g m.

Problemt med den klassiska sannolikhetsdefinitionen, i mera komplicerade si- tuationer, ¨ar att hitta en uppdelning av Ω i lika sannolika elementarh¨andelser och att ber¨akna m och g. I m˚anga – de flesta – situationer ¨ar det inte alls m¨ojligt att g¨ora detta.

F¨or att ber¨akna m och g beh¨over vi n˚agra kombinatoriska grundbegrepp:

n st. f¨orem˚al kan permuteras eller ordnas p˚a n! = n · (n − 1) . . . 2 · 1 olika s¨att.

Det finns µ

n k

= n!

k!(n − k)!

olika s¨att att plocka ut k st. av dessa om vi ej tar h¨ansyn till i vilken ordning de plockas ut.

Det finns nk olika s¨att att plocka ut k st. av dessa om varje f¨orem˚al som har plockats ut stoppas tillbaka och om vi tar h¨ansyn till i vilken ordning de plockas ut.

(13)

1.2. Grundl¨aggande sannolikhetsteori 5

Tv˚a urnmodeller

Dragning utan ˚aterl¨aggning

I en urna finns kulor av tv˚a slag: v vita och s svarta. Drag n kulor ur urnan slumpm¨assigt och s˚a att en kula som dragits inte stoppas tillbaka. dvs dragning utan ˚aterl¨aggning.

S¨att A = ”Man f˚ar k vita kulor i urvalet”.

V¨alj Ω: Alla upps¨attningar om n kulor utan h¨ansyn till ordning.

D˚a f˚as:

m =

µv + s n

och g = µv

k

¶µ s n − k

och s˚aledes

P (A) =

¡v

k

¢¡ s

n−k

¢

¡v+s

n

¢ .

Dragning med ˚aterl¨aggning

Samma modell som i fallet med dragning utan ˚aterl¨aggning, men kulorna stop- pas tillbaka igen efter det att man observerat dess f¨arg, och urnan skakas om f¨or n¨asta dragning.

V¨alj Ω: Alla upps¨attningar om n kulor med h¨ansyn till ordning:

m = (v + s)n.

Antag att vi valt ut k vita och n − k svarta kulor. Dessa kan placeras p˚a ¡n

k

¢ platser:

v v v · · · v

Antal s¨att att v¨alja ut k vita = vk. Antal s¨att att v¨alja ut n − k svarta = sn−k. Detta ger g =¡n

k

¢vksn−k och s˚aledes f˚ar vi

P (A) =

¡n

k

¢vksn−k (v + s)n =

µn k

¶ µ v v + s

kµ s v + s

n−k .

(14)
(15)

F¨ orel¨ asning 2

2.1 Betingad sannolikhet

Vi p˚aminner om relativa frekvensers stabilitet:

Om vi har ett f¨ors¨ok och en h¨andelse A och g¨or f¨ors¨oket n g˚anger, s˚a g¨aller fn(A) = antalet g˚anger A intr¨affar

antalet f¨ors¨ok → P (A) d˚a n v¨axer.

at A och B vara tv˚a h¨andelser, dvs A, B ⊂ Ω. Vad ¨ar P (B | A), dvs sanno- likheten f¨or B d˚a vi vet att A har intr¨affat?

Det borde g¨alla att

P (B | A)

antalet g˚anger A ∩ B intr¨affar antalet g˚anger A intr¨affar

= antalet g˚anger A ∩ B intr¨affar

antalet f¨ors¨ok · antalet f¨ors¨ok antalet g˚anger A intr¨affar

P (A ∩ B) P (A) . Detta leder oss till f¨oljande definition.

Definition 2.1 L˚at A och B vara tv˚a h¨andelser. Antag att P (A) > 0. Sanno- likheten f¨or B betingat av A betecknas med P (B | A) och definieras som

P (B | A) = P (A ∩ B) P (A) . Exempel (Kast med r¨od och vit t¨arning) A = summan av ¨ogonen ¨ar h¨ogst 4.

Bk = vita t¨arningen visar k ¨ogon.

P (Bk | A) = 0 om k ≥ 4.

7

(16)

M¨ojliga utfall, m, ¨ar 36: (v, r), v, r = 1, . . . 6, dvs (1, 1), (1, 2), . . . (6, 6).

Gynnsamma utfall f¨or A, ¨ar 6: (1,1), (1,2), (1,3), (2,1), (2,2), (3,1).

Gynnsamma utfall f¨or A ∩ Bk, ¨ar 4 − k: (v, r), v = k, r = 1, . . . 4 − k, dvs (k, 1), (k, 2), . . . (k, 4 − k) om k < 4.

Klassiska sannolikhetsdefinitionen ger P (A) = 6

36 och P (A ∩ Bk) = 4 − k 36 . Detta ger, f¨or k < 4,

P (Bk| A) = 4 − k

6 =





3

6 = 12 k = 1

2

6 = 13 k = 2

1

6 k = 3.

Ofta ¨ar det l¨attare att ange v¨arden till betingade sannolikheter ¨an till obeting- ade, och vi utnyttar definitionen ”bakl¨anges”.

Exempel

En ohederlig person har tv˚a t¨arningar, en ¨akta och en falsk som alltid ger 6

¨ogon. Han v¨aljer slumpm¨assigt den ena. Vad ¨ar sannolikheten f¨or 5 resp. 6 ¨ogon.

L˚at oss betrakta fallet med sex ¨ogon. Intiuitivt b¨or g¨alla att sannolikheten ¨ar 1

2 ·1 6 +1

2 · 1 = 1 12 + 6

12 = 7 12. Mera systematiskt g¨aller f¨oljande sats

Sats 2.1 (Lagen om total sannolikhet)

Om H1, . . . , Hn ¨ar disjunkta h¨andelser, har positiv sannolikhet och uppfyller hela Ω, s˚a g¨aller f¨or varje h¨andelse A ⊂ Ω att

P (A) = Xn

i=1

P (Hi)P (A | Hi).

Bevis. Vi har

P (A) = P (A ∩ Ω) = P (A ∩ (H1∪ . . . ∪ Hn)) = P ((A ∩ H1) ∪ . . . ∪ (A ∩ Hn))

= Xn

i=1

P (A ∩ Hi) = Xn

i=1

P (Hi)P (A | Hi).

2 Vi ska nu ge en viktig sats om ”v¨andning” av h¨andelserna i betingade sanno- likheter.

(17)

2.2. Oberoende h¨andelser 9

Sats 2.2 (Bayes’ sats) Under samma villkor som i lagen om total sannolik- het g¨aller

P (Hi | A) = P (Hi)P (A | Hi) Pn

j=1P (Hj)P (A | Hj). Bevis.

P (Hi | A) = P (Hi∩ A)

P (A) = P (Hi∩ A)

P (Hi) · P (Hi)

P (A) = P (A | Hi) ·P (Hi) P (A) . Lagen om total sannolikhet till¨ampad p˚a P (A) ger resultatet. 2 L˚at oss g˚a tillbaka till exemplet om falskspelaren. S¨att

A = 6 ¨ogon.

H1 = ¨akta t¨arningen.

H2 = falska t¨arningen.

D˚a g¨aller

P (A) = P (H1)P (A | H1) + P (H2)P (A | H2) = 1 2 · 1

6+ 1

2· 1 = 7 12, som i exemplet. Bayes’ sats ger vidare

P (H1 | A) = P (H1∩ A)

P (A) = P (A | H1) · P (H1) P (A) = 1

6 1 2

12 7 = 1

7 och

P (H2 | A) = P (H2∩ A)

P (A) = P (A | H2) ·P (H2)

P (A) = 1 · 1 2

12 7 = 6

7 vilket kanske inte ¨ar lika l¨att att inse rent intiuitivt.

2.2 Oberoende h¨ andelser

Intiuitivt ¨ar tv˚a h¨andelser A och B oberoende om intr¨affandet av A inte geragon information om huruvida B intr¨affar eller ej. I formler betyder detta

P (B | A) = P (B).

Allm¨ant g¨aller ju

P (B | A) = P (A ∩ B)

P (A) , om P (A) > 0.

Multiplikation med P (A) leder oss till f¨oljande definition:

Definition 2.2 Tv˚a h¨andelser A och B ¨ar oberoende om P (A ∩ B) = P (A)P (B).

(18)

Definitionen ovan kr¨aver inget villkor om positiva sannolikheter.

Det ¨ar inte sj¨alvklart hur oberoende skall definieras f¨or flera h¨andelser.

Definition 2.3 Tre h¨andelser A, B och C ¨ar oberoende om P (A ∩ B) = P (A)P (B)

P (A ∩ C) = P (A)P (C) P (B ∩ C) = P (B)P (C) P (A ∩ B ∩ C) = P (A)P (B)P (C).

Endast P (A ∩ B ∩ C) = P (A)P (B)P (C) r¨acker inte, vilket inses om vi s¨atter A = B och C = ∅.

Inte heller r¨acker parvis oberoende, vilket ses av f¨oljande exempel:

Kast med r¨od och vit t¨arning:

A = vita t¨arningen visar j¨amnt antal ¨ogon.

B = r¨oda t¨arningen visar j¨amnt antal ¨ogon.

C = j¨amn ¨ogonsumma.

A och B ¨ar oberoende av ”f¨ors¨okssk¨al”. Vidare g¨aller P (A ∩ C) = P (A ∩ B) = P (A)P (B) = 1

4 och P (A)P (C) = 1 4.aledes ¨ar A och C oberoende. Pss. f¨oljer att B och C ¨ar oberoende.

Eftersom A∩B ⇒ C vore det inte rimligt att anse att A, B och C ¨ar oberoende.

Allm¨ant: Oavsett vilka h¨andelser vi plockar ut s˚a skall sannolikheten f¨or snittet vara produkten av sannolikheterna.

Man kan visa att om A1, . . . , An¨ar oberoende, s˚a ¨ar ¨aven A1, . . . , Anoberoende.

Detta kan verka helt sj¨alvklart, med ¨ar inte helt l¨att att visa. Vi n¨ojer oss med fallet n = 2.

Vi har

P (A∩ B) = P ((A ∪ B)) = 1 − P (A ∪ B)

= 1 − P (A) − P (B) + P (A)P (B) = 1 − P (A) − P (B)(1 − P (A))

= (1 − P (A))(1 − P (B)) = P (A)P (B).

Sats 2.3 L˚at h¨andelserna A1, . . . , An vara oberoende. S¨att B = Sn

1 Ai, dvs.

minst en av h¨andelserna A1, . . . , An intr¨affar. D˚a g¨aller

P (B) = 1 − (1 − P (A1))(1 − P (A2)) . . . (1 − P (An)).

(19)

2.3. Stokastiska variabler 11

Bevis.

P (B) = 1 − P (B) = 1 − P Ã n

\

1

Ai

!

= 1 − Yn

1

P (Ai) = 1 − Yn

1

(1 − P (Ai)).

2

2.3 Stokastiska variabler

I n¨astan alla situationer som vi betraktar, kommer resultaten av slumpf¨ors¨oken att vara tal, kontinerliga m¨atv¨arden eller antal. Det ¨ar praktiskt att anpassa beteckningarna till detta.

Definition 2.4 En stokastisk variabel s.v. (eller en slumpvariabel) X ¨ar en funktion fr˚an Ω till reella linjen.

Lite l¨ost kommer vi att uppfatta X som en beteckning f¨or resultatet av ett slumpf¨ors¨ok.

F¨or ett t¨arningskast kan X anta ett av v¨ardena 1, 2, 3, 4, 5 eller 6.

at X vara en stokastisk variabel. Det mest allm¨anna s¨attet att beskriva X, dvs. hur X varierar, ¨ar att ange dess f¨ordelningsfunktion.

Definition 2.5 F¨ordelningsfunktionen FX(x) till en s.v. X definieras av FX(x) = P (X ≤ x).

En f¨ordelningsfunktion FX(x) har f¨oljande egenskaper:

1) FX(x) ¨ar icke-avtagande;

2) FX(x) → 1 d˚a x → ∞;

3) FX(x) → 0 d˚a x → −∞;

4) FX(x) ¨ar h¨ogerkontinuerlig.

(20)
(21)

F¨ orel¨ asning 3

3.1 Stokastiska variabler

Det ¨ar l¨ampligt att skilja p˚a fallen d˚a v˚ar stokastiska variabel representerar kontinuerliga m¨atv¨arden eller antal.

Diskret stokastisk variabel Vi ska nu betrakta fallet med antal.

Definition 3.1 En s.v. X s¨ages vara diskret om den kan anta ett ¨andligt eller uppr¨akneligt o¨andligt antal olika v¨arden.

Det viktiga ¨ar att de m¨ojliga v¨ardena ligger i en ¨andlig eller h¨ogst uppr¨aknelig m¨angd. Oftast tar en diskret s.v. icke-negativa heltalsv¨arden ”r¨aknar ett an- tal”. Vi kommer att f¨oruts¨atta detta, om vi inte explicit s¨ager n˚agot annat.

Definition 3.2 F¨or en diskret s.v. definieras sannolikhetsfunktionen pX(k) av

pX(k) = P (X = k).

Om X beskriver ett t¨arningskast g¨aller s˚aledes pX(k) =

(1

6 f¨or k = 1, 2, 3, 4, 5, 6 0 f¨or ¨ovriga v¨arden p˚a k.

G¨or vi nu slumpf¨ors¨oket att p˚a m˚af˚a dra en av 6 lappar med talen 1, 2, 3, 4, 5 eller 6, s˚a f˚ar vi samma s.v. som i t¨arningskasten.

Relationen mellan sannolikhetsfunktionen och f¨ordelningsfunktionen f¨or en dis- kret stokastisk variabel f˚as av sambanden

FX(x) = X

j≤[x]

pX(j), d¨ar [x] betyder heltalsdelen av x,

och

pX(k) = FX(k) − FX(k − 1) ¡

= FX(k + 12) − FX(k − 12. 13

(22)

Det f¨oljer av detta att

pX(k) ≥ 0 och X

0

pX(k) = 1.

Binomialf¨ordelningen

L˚at oss betrakta fallet ”dragning med ˚aterl¨aggning”, och l˚at X vara antalet vita kulor i urvalet om n kulor. S¨att p = v+sv , dvs. p ¨ar sannolikheten f¨or en vit kula. D˚a f˚as

pX(k) = µn

k

pk(1 − p)n−k, f¨or k = 0, 1, . . . , n.

Nu ¨ar det inte alls n¨odv¨andigt att p ¨ar ett rationellt tal, utan vi kan allm¨annt betrakta ett f¨ors¨ok d¨ar en h¨andelse A med p = P (A) kan intr¨affa, och l˚ata X vara antaltet g˚anger som A intr¨affar i n oberoende upprepningar av detta f¨ors¨ok.

Definition 3.3 En diskret s.v. X s¨ages vara binomialf¨ordelad med paramet- rarna n och p, Bin(n, p)-f¨ordelad, om

pX(k) = µn

k

pk(1 − p)n−k, f¨or k = 0, 1, . . . , n.

Poissonf¨ordelningen

Ofta n¨ar det ¨ar rimligt att anta att en s.v. X ¨ar Bin(n, p)-f¨ordelad, s˚a ¨ar det

¨aven rimligt att anta att p ¨ar liten och att n ¨ar stor. L˚at oss anta att p = µ/n, d¨ar n ¨ar ”stor” men µ ¨ar ”lagom”. D˚a g¨aller

pX(k) = µn

k

pk(1 − p)n−k = n(n − 1) . . . (n − k + 1) k!

³µ n

´k³ 1 − µ

n

´n−k

= µk k!

³ 1 −µ

n

´n

| {z }

≈ e−µ

n(n − 1) . . . (n − k + 1) nk

| {z }

≈ 1

³ 1 − µ

n

´−k

| {z }

≈ 1

µk k! e−µ.

Definition 3.4 En diskret s.v. X s¨ages vara Poissonf¨ordelad med parameter µ, Po(µ)-f¨ordelad, om

pX(k) = µk

k! e−µ, f¨or k = 0, 1, 2 . . . . Kontinuerlig stokastisk variabel

H¨ar kan vi tyv¨arr inte ge definitionen i termer av den stokastiska variabeln sj¨alv. Det r¨acker inte att s¨aga att X kan ta ett ¨overuppr¨aneligt antal v¨arden.

Vi f˚ar d¨arf¨or ge definitionen i termer av f¨ordelningsfunktionen, som ju ¨ar den allm¨annaste beskrivningen av en s.v.

(23)

3.1. Stokastiska variabler 15

Definition 3.5 En s.v. X s¨ages vara kontinuerlig om dess f¨ordelningsfunktion har framst¨allningen

FX(x) = Z x

−∞

fX(t) dt

f¨or n˚agon funktion fX(x). Funktionen fX(x) kallas t¨athetsfunktionen f¨or X.

Omv¨ant g¨aller att fX(x) = FX0 (x).

T¨athetsfunktionen och sannolikhetsfunktionen kommer ofta att upptr¨ada ”pa- rallellt”.

T¨athetsfunktionen kan inte direkt tolkas som en sannolikhet, men vi har, f¨or sm˚a v¨arden p˚a h,

P (x < X ≤ x + h) = FX(x + h) − FX(x) = Z x+h

x

fX(t) dt ≈ h fX(x).

Ett par begrepp:

Definition 3.6 L¨osningen till ekvationen 1 − FX(x) = α kallas α-kvantilen till X och betecknas med xα.

Rita figur!

x0.5 kallas f¨or medianen och ¨ar s˚aledes det v¨arde som ¨overskrides med samma sannolikhet som det underskrides.

Likformig f¨ordelning U(a, b)

fX(x) = ( 1

b−a f¨or a ≤ x ≤ b,

0 annars.

FX(x) =





0 f¨or x ≤ a,

x−a

b−a f¨or a ≤ x ≤ b, 1 f¨or x ≥ b.

Rita figur!

(24)

Exponentialf¨ordelningen Exp(λ) fX(x) =

(λ e−λx f¨or x ≥ 0, 0 f¨or x < 0.

FX(x) = (

1 − e−λx f¨or x ≥ 0, 0 f¨or x < 0.

Denna f¨ordelning ¨ar viktig i v¨antetidsproblem. F¨or att inse detta s˚a tar vi ett enkelt exempel:

Antag att n personer g˚ar f¨orbi en aff¨ar per tidsenhet. L˚at var och en av dessa g˚a in i aff¨aren oberoende av varandra och med sannolikheten p. L˚at X vara tiden tills f¨orsta kunden kommer. X > x betyder att ingen kund kommit efter x tidsenheter.

P (X > x) = (1 − p)nx ty nx personer har g˚att f¨orbi.

L˚at oss anta precis som d˚a vi ”h¨arledde” Poissonf¨ordelningen, att p = µ/n, d¨ar n ¨ar ”stor” men µ ¨ar ”lagom”. D˚a g¨aller

P (X > x) = (1 − p)nx = (1 − µ

n)nx ≈ e−µx.

Detta ger att FX(x) = 1 − P (X > x) ≈ 1 − e−µx, dvs X ¨ar approximativt Exp(µ). Observera att v¨antev¨ardet (¨annu ej definierat, men det kommer) ¨ar 1/µ!

Normalf¨ordelningen.

fX(x) = 1 σ√

2πe−(x−µ)2/2σ2 d¨ar µ godtycklig konstant och σ > 0.

Denna f¨ordelning ¨ar mycket viktig, och vi skall ˚aterkomma till den. Man kan inte analytiskt ge f¨ordelningsfunktionen, vilket kan tyckas lite taskigt.

3.2 Flerdimensionella stokastiska variabler

Ofta m¨ater vi i samma slumpf¨ors¨ok flera storheter, och d˚a beskrivs resultatet av en n-dimensionell stokastisk variabel (X1, X2, . . . , Xn).

Exempel

Slumpf¨ors¨oket ¨ar att vi v¨aljer en person slumpm¨assigt h¨ar i rummet, och s¨atter X = personens vikt;

Y = personens l¨angd.

Vi n¨ojer oss med att ge detaljer i det tv˚a-dimensionella fallet. L˚at (X,Y) vara en tv˚a-dimensionell s.v.

(25)

3.2. Flerdimensionella stokastiska variabler 17

FX,Y(x, y) = P (X ≤ x, Y ≤ y) kallas (den simultana) f¨ordelningsfunktionen f¨or (X, Y ).

FX(x) = P (X ≤ x) = P (X ≤ x, Y ≤ ∞) = FX,Y(x, ∞) kallas den marginella f¨ordelningsfunktionen f¨or X.

FY(y) = FX,Y(∞, y) kallas den marginella f¨ordelningsfunktionen f¨or Y . Definition 3.7 X och Y ¨ar oberoende stokastiska variabler om

FX,Y(x, y) = FX(x)FY(y)

Vi kommer ih˚ag att f¨or h¨andelser s˚a var det inte helt l¨att att generlisera till godtyckligt antal. F¨or s.v. ¨ar det dock skenbart enklare.

Definition 3.8 (X1, X2, . . . , Xn) ¨ar oberoende stokastiska variabler om FX1,...,Xn(x1, . . . , xn) = P (X1 ≤ x1, . . . , Xn ≤ xn)

= FX1(x1) · · · FXn(xn).

Kommentera!

Omv¨ant g¨aller att om X1, X2, . . . , Xn ¨ar oberoende s.v. s˚a f˚as den simultana f¨ordelningen enl. definitionen ovan.

(26)
(27)

F¨ orel¨ asning 4

4.1 Funktioner av stokastiska variabler

St¨orsta och minsta v¨ardets f¨ordelning

at X1, X2, . . . , Xn vara oberoende s.v. med resp. f¨ordelningsfunktioner FX1(x1), . . . , FXn(xn).

S¨att

Y = max(X1, X2, . . . , Xn) Z = min(X1, X2, . . . , Xn).

Vi har

FY(y) = P (Y ≤ y) = P (alla Xi ≤ y) = FX1(y) · · · FXn(y) och

FZ(z) = P (min(X1, X2, . . . , Xn) ≤ z)

= 1 − P (min(X1, X2, . . . , Xn) > z) = 1 − P (alla Xi > z)

= 1 − P (X1 > z) · · · P (Xn > z) = 1 − (1 − FX1(z)) · · · (1 − FXn(z)).

Summans f¨ordelning

at X och Y vara tv˚a oberoende kontinuerliga stokastiska variabler med t¨atheter fX(x) och fY(y).

S¨att Z = X + Y . D˚a g¨aller

FZ(z) = P (X + Y ≤ z) = P ((X, Y ) ∈ {(x, y); x + y ≤ z})

= Z

x+y≤z

fX(x)fY(y) dx dy (fixera x och integrera ¨over y)

= Z

−∞

fX(x)

µZ z−x

−∞

fY(y) dy

dx

19

(28)

=

−∞

fX(x)FY(z − x) dx.

Z ¨ar ocks˚a en kontinuerlig stokastisk variabel. Derivation map. z ger fZ(z) = FZ0(z) =

Z

−∞

fX(x)fY(z − x) dx.

Denna operation kallas faltning.

4.2 V¨ antev¨ arden

Vi ska nu inf¨ora begreppet v¨antev¨arde f¨or en s.v. Detta ¨ar den teoretiska motsvarigveten till begreppet medelv¨arde f¨or en talf¨oljd.

Antag att vi har en l˚ang talf¨oljd x1, . . . , xn, d¨ar talen ¨ar ganska sm˚a heltal.

Medelv¨ardet definierades av

¯ x = 1

n Xn k=1

xk.

Det kan vara bekv¨amt att g¨ora omskrivningen

¯ x =

X i=0

i · fi,

d¨ar

fi = antalet {k; xk = i}

n .

N¨ar vi diskuterade tolkningen av begreppet sannolikhet, s˚a sa vi att antalet g˚anger A intr¨affar

n → P (A) d˚a n v¨axer.

F¨or diskreta s.v. g¨aller d˚a att fk → pX(k) d˚a k → ∞. Vi leds av detta till f¨oljande definition:

Definition 4.1 V¨antev¨ardet µ f¨or en s.v. X ¨ar

µ = E(X) =

(P

k=0kpX(k) i diskreta fallet, R

−∞xfX(x) dx i kontinuerliga fallet.

Vi skall alltid anta att X k=0

|k|pX(k) < ∞ och

Z

−∞

|x|fX(x) dx < ∞.

(29)

4.2. V¨antev¨arden 21

V¨antev¨ardet ger samma information och samma brist p˚a information f¨or den s.v. som melelv¨ardet ger f¨or en talf¨oljd.

L˚at oss t¨anka p˚a t¨arningskast igen. Hur mycket skulle ni vara villiga att betala f¨or f¨oljande spel: Jag kastar en t¨arning, och ni f˚ar lika m˚anga kronor som det blir ¨ogon?

Vi har

pX(k) = (1

6 f¨or k = 1, 2, 3, 4, 5, 6 0 f¨or ¨ovriga v¨arden p˚a k, vilket ger

E(X) = X k=0

kpX(k) = X6

k=1

k1

6 = 3.5.

Poissonf¨ordelningen

pX(k) = µk

k! e−µ, f¨or k = 1, 2 . . . . E(X) =

X k=0

k ·µk

k! e−µ= X

k=1

k · µk

k! e−µ= X k=1

µk

(k − 1)!e−µ

= µ X k=1

µk−1

(k − 1)!e−µ= µ X

i=0

µi

i! e−µ= µ.

Exponentialf¨ordelningen

fX(x) =

(λ e−λx f¨or x ≥ 0, 0 f¨or x < 0.

E(X) = Z

−∞

xfX(x) dx = Z

0

xλ e−λxdx =

y = λx x = y/λ dx = dy/λ

= 1 λ

Z

0

ye−ydy = 1 λ

£−ye−y¤

0 + 1 λ

Z

0

e−ydy = 0 − 1 λ

£e−y¤

0 = 1 λ. Antag att vi k¨anner f¨ord. f¨or X, och vill ber¨akna E(Y ) d¨ar Y = g(X).

F¨oljande, skenbart oskyldiga, sats ¨ar ordentligt sv˚ar att bevisa i det kontinu- erliga fallet

Sats 4.1 V¨antev¨ardet f¨or g(X) ¨ar

E(g(X)) =

(P

k=0g(k)pX(k) i diskreta fallet, R

−∞g(x)fX(x) dx i kontinuerliga fallet.

(30)

Bevis. Blom m.fl. visar satsen i det diskreta fallet, s˚a vi betraktar det konti- nuerliga fallet. Vi begr¨ansar oss dock till fallet d˚a g ¨ar strikt v¨axande. Denna begr¨ansning f¨orenklar beviset h¨ogst avsev¨art.

at g−1(x) vara inversen till g. D˚a g¨aller

FY(y) = P (Y ≤ y) = P (g(X) ≤ y) = P (X ≤ g−1(y)) = FX(g−1(y)) vilket ger

fY(y) = dFX(g−1(y))

dy = dFX0 (g−1(y))dg−1(y)

dy = fX(g−1(y))dg−1(y) dy . Av detta f˚as

E(Y ) = Z

−∞

yfX(g−1(y))dg−1(y) dy dy

=

x = g−1(y) dx = dg−1dy(y)dy

y = g(x)

 = Z

−∞

g(x)fX(x) dx.

2 Fr˚an denna sats f¨oljer bl.a. f¨oljande:

E(h(X) + g(X)) = E(h(X)) + E(g(X)) med det viktiga specialfallet

E(aX + b) = aE(X) + b.

Spridningsm˚att

V¨antev¨ardet s¨ager ingen om hur X varierar.

Diskutera

|X − µ| och (X − µ)2 och dess egenskaper!

Vi leds nu till f¨oljande definition.

Definition 4.2 Variansen σ2 f¨or en s.v. X ¨ar σ2 = V (X) = E[(X − µ)2].

F¨oljande r¨akneregel ¨ar mycket anv¨andbar:

Sats 4.2 V (X) = E(X2) − [E(X)]2 = E(X2) − µ2.

(31)

4.2. V¨antev¨arden 23

Bevis.

V (X) = E[(X − µ)2] = E[X2+ µ2− 2µX]

= E[X2] + µ2− 2µE[X] = E(X2) − µ2.

2 I exemplet med t¨arningsspel har vi µ = 3.5 = 216. Vidare har vi

E(X2) = X k=−∞

k2pX(k) = X6 k=1

k21 6 = 91

6 = 15.16 Enligt r¨akneregeln f˚as

V (X) = 91 6

µ21 6

2

= 546 − 441

36 = 2.92.

Sats 4.3 V (aX + b) = a2V (X).

Bevis.

V (aX + b) = E[(aX + b − E(aX + b))2] = E[(aX + b − aµ − b)2]

= E[(aX − aµ)2] = a2E[(X − µ)2] = a2V (X).

2

Definition 4.3 Standardavvikelsen σ f¨or en s.v. X ¨ar σ = D(X) =p

V (X).

Sats 4.4 D(aX + b) = |a|D(X).

Allm¨ant g¨aller:

D – r¨att sort.

V – l¨attare att r¨akna med.

Exponentialf¨ordelningen.

E(X2) = Z

0

x2λe−λxdx = 1 λ2

Z

0

y2e−ydy = part. int. = 2 λ2

V (X) = 2

λ2 1 λ2 = 1

λ2 ⇔ D(X) = 1 λ.

(32)

Poissonf¨ordelningen

E(X(X − 1)) = X

k=0

k(k − 1) · µk

k! e−µ= X k=2

k(k − 1) ·µk k! e−µ

= X k=2

µk

(k − 2)!e−µ= µ2 X k=2

µk−2

(k − 2)!e−µ= µ2 X

i=0

µi

i! e−µ= µ2.

Detta ger µ2 = E(X(X − 1)) = E(X2) − µ, eller E(X2) = µ2+ µ, vilket ger V (X) = E(X2) − µ2 = µ2+ µ − µ2 = µ.

(33)

F¨ orel¨ asning 5

5.1 Kovarians och korrelationskoefficient

at (X, Y ) vara en tv˚adimensionell s.v. d¨ar vi ¨ar intresserade av sambandet mellan Xs och Y s variation. Det kan vara natuligt att betrakta variablerna

X − µX och Y − µY.

Vi skiljer p˚a fallen d˚a X och Y ”samvarierar” resp. ”motverkar varandra”, dvs.

d˚a

ett stort/litet v¨arde p˚a X g¨or ett stort/litet v¨arde p˚a Y troligt resp.

ett stort/litet v¨arde p˚a X g¨or ett litet/stort v¨arde p˚a Y troligt.

Betraktar vi nu variabeln

(X − µX)(Y − µY),

a inneb¨ar detta att den i f¨orsta fallet, eftersom + · + = + och − · − = +, att den har en tendens att vara positiv. P˚a motsvarande s¨att, eftersom − · + = − och + · − = −, har den i andra fallet en tendens att vara negativ. Det som vi, lite slarvigt, har kallat tendens, kan vi ers¨atta med v¨antev¨arde. Vi leds d˚a till f¨oljande definition.

Definition 5.1 Kovariansen mellan X och Y ¨ar C(X, Y ) = E[(X − µX)(Y − µY)], d¨ar µX = E(X) och µY = E(Y ).

Kovariansen kan s¨agas ha fel sort. Det verkar rimligt att ett m˚att p˚a ett s˚a abstrakt begrepp som samvariation skall vara ”sortfritt”. Det vanligaste m˚attet

¨ar korrelationskoefficienten.

Definition 5.2 Korrelationskoefficienten mellan X och Y ¨ar ρ = ρ(X, Y ) = C(X, Y )

D(X)D(Y ). 25

(34)

Man kan visa att |ρ| ≤ 1, d¨ar |ρ| = ±1 betyder att det finns ett perfekt linj¨art samband, dvs. Y = aX + b.

Sats 5.1 Om X och Y ¨ar oberoende s˚a ¨ar de okorrelerade, dvs. ρ(X, Y ) = 0.

Omv¨andningen g¨aller ej, dvs. okorrelerade variabler kan vara beroende.

Exempel

at (X, Y ) vara en tv˚adimensionell diskret variabel med f¨oljande sannolikhets- funktion:

pX,Y(i, j) = (1

4 om (i, j) = (0, 1), (0, −1), (1, 0), eller (−1, 0).

0 annars.

Rita!

Uppenbarligen ¨ar dessa variabler beroende. Av symmetrin f¨oljer att µX = µY = 0. Variabeln XY tar alltid v¨ardet 0. S˚aledes f˚as

C(X, Y ) = E(XY ) = 0.

Om (X, Y ) ¨ar tv˚adimensionellt normalf¨ordelad, s˚a inneb¨ar dock ρ = 0 att X och Y ¨ar oberoende.

Varning Korrelationskoefficienten ¨ar sv˚artolkad!

5.2 Mer om v¨ antev¨ arden

Sats 5.2 L˚at (X, Y ) vara en tv˚adimensionell s.v. D˚a g¨aller (1) E(aX + bY ) = aE(X) + bE(Y );

(2) V (aX + bY ) = a2V (X) + b2V (Y ) + 2abC(X, Y ).

Bevis. (1) f¨oljer av av r¨aknereglerna f¨or integraler resp. summor.

(2) f˚as av f¨oljande

V (aX + bY ) = E[(aX + bY − aµX − bµY)2] = E[(aX − aµX + bY − bµY)2]

= E[a2(X − µX)2+ b2(Y − µY)2+ 2ab(X − µX)(Y − µY)]

= a2V (X) + b2V (Y ) + 2abC(X, Y ).

2

(35)

5.2. Mer om v¨antev¨arden 27

oljdsats 5.1 L˚at X och Y vara tv˚a oberoende (okorrelerade r¨acker) s.v. D˚a g¨aller

E(X + Y ) = E(X) + E(Y ) V (X + Y ) = V (X) + V (Y ) E(X − Y ) = E(X) − E(Y ) V (X − Y ) = V (X) + V (Y ).

Detta g˚ar att utvidga till godtyckligt m˚anga variabler:

Sats 5.3 L˚at X1, . . . , Xn vara oberoende (okorrelerade r¨acker) s.v. och s¨att Y = c1X1+ . . . + cnXn.

D˚a g¨aller

E(Y ) = c1E(X1) + . . . + cnE(Xn) och

V (Y ) = c21V (X1) + . . . + c2nV (Xn) Arimetiskt medelv¨arde

Sats 5.4 L˚at X1, X2, . . . , Xn vara oberoende och likaf¨ordelade s.v. med v¨ante- v¨arde µ och standardavvikelse σ. D˚a g¨aller att

E(X) = µ, V (X) = σ2

n och D(X) = σ

√n .

Uttrycket ”X1, X2, . . . , Xn ¨ar likaf¨ordelade” betyder att de stokastiska variab- lernas f¨ordelningar, dvs. att de stokastiska variablernas statistiska egenskaper,

¨ar identiska. Utfallen av variablerna varierar dock.

Sats 5.5 (Tjebysjovs olikhet) F¨or varje ε > 0 g¨aller

P (|X − µ| > ε) ≤ V (X) ε2 . (Ers¨atter vi ε med kσ f˚as formuleringen i Blom m.fl.)

Bevis. Detta ¨ar den enda riktigt djupa satsen i kursen som vi kan bevisa.

Njut av elegansen i beviset! Bokens bevis via Markovs olikhet ¨ar egentligen

¨annu elegantare!

Vi n¨ojer oss med det kontinuerliga fallet.

Vi har

V (X) = Z

−∞

(x − µ)2fX(x) dx ≥ Z

|x−µ|>ε

(x − µ)2fX(x) dx

(36)

≥ ε2

|x−µ|>ε

fX(x) dx = ε2P (|X − µ| > ε).

2

Sats 5.6 Stora talen lag F¨or varje ε > 0 g¨aller

P (|X − µ| > ε) → 0 d˚a n → ∞.

Bevis. Enl. Tjebysjovs olikhet g¨aller

P (|X − µ| > ε) ≤ V (X) ε2 = σ2

2 → ∞

a n → ∞. 2

Diskutera relationen till relativa frekvensers stabilitet.

(37)

F¨ orel¨ asning 6

6.1 Normalf¨ ordelningen

Diskutera m¨atfel. Ofta beror m¨atfelen p˚a att att oberoende fel av samma storleksordning adderar sig. Erfarenheten visar att m¨atfel f¨ordelar sig enl. figur.

Rita!

Vi ska ˚aterkomma till detta i slutet av f¨orel¨asningen.

Standardiserad normalf¨ordelning

Definition 6.1 En s.v. Z s¨ages vara standardiserad normalf¨ordelad om den

¨ar N(0, 1)-f¨ordelad, dvs. om den har t¨athetsfunktionen ϕ(z) = 1

√2πe−z2/2. Dess f¨ordelningsfunktion betecknas med Φ(z), dvs.

Φ(z) = Z z

−∞

1

2πe−x2/2dx.

Ett problem ¨ar att f¨ordelningsfunktionen inte kan ges p˚a en analytisk form.

Det ¨ar dock l¨att att numeriskt ber¨akna f¨ordelningsfunktionen och i praktiken anv¨ander man tabeller ¨over Φ(x).

Vi observerar att ϕ(−z) = ϕ(z). Φ(z) ¨ar tabulerad endast f¨or x ≥ 0. Vi har dock

Φ(−z) = Z −z

−∞

ϕ(x) dx = [y = −x] = − Z z

ϕ(−y) dy

= Z

z

ϕ(y) dy = 1 − Φ(z).

Om Z ¨ar N(0, 1)-f¨ordelad, s˚a kan man visa att

E(Z) = 0 (ty ϕ(−z) = ϕ(z)) V (Z) = 1.

29

(38)

N¨ar vi kommer till statistikdelen beh¨over vi ofta l¨osa ekvationer av f¨oljande slag:

Best¨am z s˚a att vi f¨or givet α har P (Z ≤ z) = 1 − α;

P (Z > z) = 1 − α;

P (−z < Z ≤ z) = 1 − α.

F¨or att l¨osa s˚adana ekvationer inf¨or vi α-kvantilen λα definierad av P (Z > λα) = α eller

α = 1 − Φ(λα).

Det ¨ar d˚a bra att observera att

1 − α = 1 − Φ(λ1−α)

α = Φ(λ1−α)

α = 1 − Φ(−λ1−α), vilket ger

λ1−α = −λα. Allm¨an normalf¨ordelning

Definition 6.2 En s.v. X s¨ages vara N(µ, σ)-f¨ordelad, d¨ar µ reell och σ > 0, om

Z = X − µ

σ ¨ar N(0, 1)-f¨ordelad.

Sats 6.1 L˚at X vara N(µ, σ)-f¨ordelad. D˚a g¨aller fX(x) = 1

σϕ

µx − µ σ

= 1

σ√

2πe−(x−µ)2/2σ2 och

FX(x) = Φ

µx − µ σ

.

Bevis. Vi har

FX(x) = P (X ≤ x) = P

µX − µ

σ x − µ σ

= P µ

Z ≤ x − µ σ

= Φ

µx − µ σ

. Derivation ger fX(x) = 1σϕ¡x−µ

σ

¢. 2

(39)

6.1. Normalf¨ordelningen 31

Sats 6.2 Om X ¨ar N(µ, σ)-f¨ordelad s˚a g¨aller

E(X) = µ och V (X) = σ2. Bevis. Vi ska nu se hur listig v˚ar definition ¨ar!

X = σZ + µ

E(X) = σE(Z) + µ = 0 + µ = µ V (X) = σ2V (Z) + 0 = σ2.

2 Sats 6.3 L˚at X vara N(µ, σ)-f¨ordelad och s¨att Y = aX + b. D˚a g¨aller det att

Y ¨ar N(aµ + b, |a|σ)-f¨ordelad.

Bevis. Fr˚an definitionen f¨oljer att X = µ + σZ d¨ar Z ¨ar N(0, 1)-f¨ordelad.

Detta ger

Y = aX + b = a(µ + σZ) + b = aµ + b + aσZ Y − (aµ + b)

= Z.

Om a > 0 f¨oljer satsen. Om a < 0 utnyttjar vi att Z och −Z har samma

f¨ordelning. 2

Sats 6.4 Om X ¨ar N(µX, σX)-f¨ordelad, Y ¨ar N(µY, σY)-f¨ordelad och X och Y ¨ar oberoende s˚a g¨aller att

X + Y ¨ar N µ

µX + µY, q

σX2 + σ2Y

-f¨ordelad och

X − Y ¨ar N µ

µX − µY, q

σ2X + σY2

-f¨ordelad.

Denna sats tycks inte kunna bevisas p˚a annat s¨att ¨an genom faltning.

Sats 6.5 L˚at X1, . . . , Xnvara oberoende och N(µ1, σ1), . . . , N (µn, σn). D˚a g¨aller att

Xn k=1

ckXk ¨ar N

 Xn k=1

ckµk, vu utXn

k=1

c2kσk2

 -f¨ordelad.

Allm¨an regel: Linj¨arkombinationer av oberoende normalf¨ordelade stokastiska variabler ¨ar normalf¨ordelade med r¨att v¨antev¨arde och r¨att standardavvikelse.

oljdsats 6.1 L˚at X1, X2, . . . , Xn vara oberoende och N(µ, σ)-f¨ordelade s.v.

D˚a g¨aller att

X ¨ar N µ

µ, σ

√n

-f¨ordelad.

(40)

6.2 Centrala gr¨ ansv¨ ardessatsen

Vi har sett n˚agra exempel p˚a att normalf¨ordelningen har trevliga statistiska egenskaper. Detta skulle vi inte ha s˚a stor gl¨adje av, om normalf¨ordelningen inte dessutom var vanligt f¨orekommande. Centrala gr¨ansv¨ardessatsen CGS, som ¨ar den huvudsakliga motiveringen f¨or normalf¨ordelningen, kan utan vidare s¨agas vara ett av sannolikhetsteorins och statistikens allra viktigaste resultat.

Sats 6.6 (CGS) L˚at X1, X2, . . . vara oberoende och lika f¨ordelade s.v. med v¨antev¨arde µ och standardavvikelse σ. D˚a g¨aller att

P µPn

i=1Xi− nµ σ√

n ≤ x

→ Φ(x) d˚a n → ∞.

Ofta uttrycker man slutsatsen i CGS som att Pn

i=1Xi− nµ σ√

n ¨ar approximativt N(0, 1)-f¨ordelad eller att

Xn i=1

Xi ¨ar approximativt N¡

nµ, σ√ n¢

-f¨ordelad.

En, f¨or statistiken mycket vanlig anv¨andning av CGS ¨ar f¨oljande:

oljdsats 6.2 L˚at X1, X2, . . . vara oberoende och lika f¨ordelade s.v. med v¨antev¨arde µ och standardavvikelse σ. D˚a g¨aller att

P (a < X ≤ b) ≈ Φ

µb − µ σ/√

n

− Φ

µa − µ σ/√

n

om n ¨ar tillr¨ackligt stort.

Det ¨ar tyv¨arr inte m¨ojligt att ge n˚agra generella och enkla tumregler om hur stort n m˚aste vara f¨or att normalapproximationen ska vara anv¨andbar. Detta beror p˚a hur ”normalliknande” de enskilda variablerna Xk ¨ar. Om Xkna ¨ar normalf¨ordelade s˚a ”g¨aller” ju CGS f¨or alla n. En tumregel ¨ar att om Xkna

¨ar n˚agorlunda symmetriskt f¨ordelade s˚a r¨acker ganska sm˚a n, s¨ag n˚agot tiotal.

Om Xkna ¨ar p˚atagligt skevt f¨ordelade s˚a beh¨over n var n˚agot eller i v¨arsta fall n˚agra hundratal.

Det ¨ar sv˚art att formulera strikt, men det r¨acker i CGS att Xkna ¨ar n˚agorlunda oberoende och n˚agorlunda lika f¨ordelade. Med ”n˚agorlunda lika f¨ordelade”

menas framf¨orallt att det inte finns vissa Xk som ¨ar mycket dominerande.

Detta inneb¨ar att m¨atfel i v¨algjorda f¨ors¨ok kan anses vara approximativt nor- malf¨ordelade. I mindre v¨algjorda f¨ors¨ok kan det d¨aremot mycket v¨al finnas n˚agon dominerande felk¨alla som inte alls beh¨over vara approximativt nor- malf¨ordelad.

References

Related documents

Antalet kunder som bes¨ oker de tv˚ a aff¨ arerna en timme kan beskrivas med Poissonf¨ ordelningar.. Det genomsnittliga antalet kunder som bes¨ oker de tv˚ a aff¨ arerna ¨ ar

Vid bed¨ omningen av l¨ osningarna av uppgifterna i del 2 l¨ aggs stor vikt vid hur l¨ osningarna ¨ ar motiverade och redovisade. T¨ ank p˚ a att noga redovisa inf¨ orda

[r]

D¨arf¨or ¨ar 2X exponentialf¨ordelad, med v¨antev¨arde 2a, vilket ¨ar samma f¨ordelning som f¨or Y.. Uppgiften ¨ar egentligen felformulerad; det ¨ar signifikansnniv˚an 1%

[r]

Den ovanst˚ aende bevistekniken ¨ar ett modernt p˚ afund och knepet att skapa en l¨amplig tv˚ a- dimensionell f¨ordelning

Po¨ angen p˚ a godk¨ anda duggor summeras och avg¨ or slutbetyget.. L¨ osningarna skall vara v¨ almotiverade och

Du m˚ aste inte r¨ akna ut eventuella potenser i de tv˚ a