Statistik
Det finns tre sorters lögner: lögn, förbannad lögn och statistik
Verkligheten är en kombination av systematik och slump.
Råkade Du väga Dig vid ”olycklig” tidpunkt (slumpen), eller har Din vikt förändrats (systematik)?
Statistik betyder ungefär ”sifferkunskap om staten”
Statistik är en gren inom tillämpad matematik som sysslar med insamling, utvärdering, analys och presentation av
data eller information.
Tillämpad matematik III/Statistik - Sida 2 Mats Gunnarsson
Fyra syften med statistik
Deskriptiv
– informera, kartlägga
Hypotesprövande
– Verifiera eller förkasta ett antagande (hypotes)
Utredande
– kausala samband, orsakssammanhang
Prognosticerande
– vad händer i framtiden?, vad händer om vi gör så här?
”alltför många försöker spå om framtiden, utan att ens kunna historien”
Några vanliga begrepp
Total undersökning – hela populationen studeras
Stickprovsundersökning – del av populationen studeras
Stickprov - en del av populationen
Element (individ) - de som information söks om
– Mängden av dessa element kallas ofta population.
– Populationen kan vara ändlig eller oändlig.
Validitet - mäter vi det vi avser att mäta?
Reliabilitet - är de mätningar vi gör tillförlitliga?
Tillämpad matematik III/Statistik - Sida 4 Mats Gunnarsson
Fler vanliga begrepp
Kvalitativ - icke-numerisk variabel; färg, ogift, god mat, attityd, servicegrad, kundnöjdhet (kan ges
siffervärden)
Kvantitativ - numerisk variabel
– Kontinuerlig - alla (oändligt antal) värden inom ett intervall
– Diskret - vissa (ändligt antal) värden inom ett
intervall
Något om mätskalor
Variabel
Kvalitativ
(Icke-numerisk)
Kvantitativ
(Numerisk)
Nominalskala
(enbart klassificering)
Ordinalskala
(ordning)
Intervallskala
(ording + differens
)
Kvotskala
(ordning + differens + kvot)
Ex. Betyg Ex. Vikt
Ex. Temp (˚K)
Πx. ↱ωϱϰψ⇀†ω
Tillämpad matematik III/Statistik - Sida 6 Mats Gunnarsson
En firma tillverkar en typ av mätapparat till vilken det
behövs kretskort. Det blir dyrt om man får in för många defekta kretskort i produktionen varför
underleverantören av kretskorten lovar högst 0,5%
defekta kretskort.
Kretskorten ligger i förpackningar med 10 000 i varje.
Man undersöker 200 på måfå utvalda kort ur varje förpackning. I en sändning på 80 förpackningar fick man följande resultat.
(Detta är ett exempel på diskret variation)
Ett exempel på stickprovsundersökning
(icke-experimentell undersökning)
Antal defekta kretskort bland 200 utvalda i 80 förpackningar.
Grunddata
1 2 1 0 3 3 4 2 4 7 4 1 1 0 0 1 1 0 0 4 1 2 2 2 2 2 2 5 2 2 3 5 1 2 2 4 0 1 4 1 5 1 3 3 1 1 3 2 1 4 2 1 3 2 1 1 4 3 1 3 5 2 2 4 1 3 3 0 0 1 2 4 3 2 0 3 1 1 1 1
Ett exempel på stickprovsundersökning
(icke-experimentell undersökning)
Tillämpad matematik III/Statistik - Sida 8 Mats Gunnarsson
Ett exempel på stickprovsundersökning (icke-experimentell undersökning)
Frekvenstabell för antalet defekta kretskort
Ett exempel på stickprovsundersökning (icke-experimentell undersökning)
Stolpdiagram
Tillämpad matematik III/Statistik - Sida 10 Mats Gunnarsson
Ett exempel på stickprovsundersökning (icke-experimentell undersökning)
%
Stolpdiagram,
Relativa frekvenser
Trappstegskurva för antalet defekta kretskort Kumulativ relativ frekvens
Ett exempel på stickprovsundersökning (icke-experimentell undersökning)
%
Tillämpad matematik III/Statistik - Sida 12 Mats Gunnarsson
Trappstegskurva för antalet defekta kretskort Kumulativ relativ frekvens
Ett exempel på stickprovsundersökning
(icke-experimentell undersökning)
Ett exempel på stickprovsundersökning (icke-experimentell undersökning)
Totalt valdes 200*80 = 16000 kretskort ut för undersökning.
Stickprovstorlek är på 16000, n = 16000.
Stickprovet valdes ut bland totalt 80*10000 = 800000 kort.
Populationsstorleken är på 800000, N = 800000
Felkvoten i stickprovet var 168/16000 = 0.0105 = 1.05 % dvs något större än den utlovade.
Hur säkra uttalanden kan man göra om felkvoten?
Är det statistiskt säkert att felkvoten överstiger 0.5%?
För att svara på dessa frågor behövs sannolikhetsteori!
Tillämpad matematik III/Statistik - Sida 14 Mats Gunnarsson
I en järnmalmsgruva gjordes ett fullskaleförsök för att bl.a. studera hur lång tid det tar att fylla en 2 m 3 vagn
med malm. Man noterade tiden från det att lastmaskinen började köra in i berghögen tills att lastaren kopplade
loss vagnen.
Följande resultat erhölls.
(Detta är ett exempel på kontinuerlig variation)
Ett exempel till på stickprovsundersökning
(Experimentell undersökning)
Ett exempel till på stickprovsundersökning (Experimentell undersökning)
Tidsåtgång vid lastning i sek.
Grunddata
85,80,85,77,101,109,111,109,148,183,153,78,84,80,94,104,96,100
117,112,103,122,155,153,128,172,69,84,99,110,112,181,176,79,94
111,111,118,133,140,80,84,100,101,122,129,73,75,111,96,126,147
90,103,100,96,116,128,86,80,97,118,124,150,96,105,83,99,140,79
78,87,107,134,140,79,87,104,153,134,82,91,104,128,76,108,141
134,117,110,149,119,121,116,114,130,90,97,127,113,96,106,107,
108,128,110,109,85,95,116,118,110,91,126,97,121,107,104,129,
06,112,91,119,118,105
Tillämpad matematik III/Statistik - Sida 16 Mats Gunnarsson
Ett exempel på stickprovsundersökning (icke-experimentell undersökning)
Frekvenstabell för tidsåtgång vid lastning, Klassindelat material
Tidsåtgång Frekvens Rel.frekvens Kum.frekvens
-75 2 1.60 1.60
75 -85 17 13.6 15.2
85 -95 13 10.4 25.6
95 -105 22 17.6 43.2
105 -115 25 20.0 63.2
115 -125 16 12.8 76.0
125 -135 14 11.2 87.2
135 -145 4 3.20 90.4
145 -155 7 5.60 96.0
155 -165 1 0.800 96.8
165 -175 1 0.800 97.6
175 - 3 2.40 100.
Histogram tidsåtgång vid lastning
Ett exempel på stickprovsundersökning
(icke-experimentell undersökning)
Tillämpad matematik III/Statistik - Sida 18 Mats Gunnarsson
Histogram tidsåtgång vid lastning, kumulativ relativ frekvens
Ett exempel på stickprovsundersökning
(icke-experimentell undersökning)
1) Vad är den genomsnittliga tidsåtgången?
Den genomsnittliga tidsåtgången är 110.2 .
2) Hur mycket varierar det?
Standardavvikelsen i stickprovet är 23.7 .
3) Hur stor andel av vagnarna överstiger 2 min?
Andelen av vagnarna som överstiger 2 min är 28%.
Hur säkra är dessa uttalanden?
För att svara på dessa frågor behövs sannolikhetsteori!
Ett exempel på stickprovsundersökning
(icke-experimentell undersökning)
Tillämpad matematik III/Statistik - Sida 20 Mats Gunnarsson
Beskrivande statistik
Spridningsmått
Standardavvikelse, s (Varians, s 2 )
Kvartilavstånd, Q = Q 3 - Q 1
Variationsbredd, R
Lägesmått
Medelvärde,
Median, m,
(2:a kvartil Q 2 )
Typvärde, T
Lägesmått
Medelvärde:
∑
”Summan av alla värden delat med antalet värden”
Mathematica: Mean[Data]
Median:
En storleksordnad datamängd kan delas in i 4 kvartiler,
25% av materialet är , % är och 75% är eller 25% är
Matematica: Median[Data], Quartiles[Data]
Typvärde, T
Det värde som förekommer flest gånger.
Tillämpad matematik III/Statistik - Sida 22 Mats Gunnarsson
Spridningsmått
Standardavvikelse:
∑
”Genomsnittliga kvadratiska skillnaden mot medelvärdet”
Varians:
Mathmatica: Standarddeviation[Data], Variance[Data]
Kvartilavstånd:
50% av materialet !"##$% mellan och Mathmatica:
Quantile[Data,0.75] - Quantile[Data,0.25]
Variationsbred: & '( '
Mathematica: Max[Data]-Min[Data]
Resultat, kretskort
Medelvärdet, .
Varje förpackning innehåller 2.1 defekta kretskort.
Varians och standardavvikelse
. ) *+, . -.
Medianen, m = 2
50% av förpackningarna innehåller 2 eller fler defekta kretskort.
Typvärdet, T = 1
En ”typisk” förpackning innehåller ett defekt
kretskort.
Tillämpad matematik III/Statistik - Sida 24 Mats Gunnarsson
Medelvärdet, .
I genomsnitt tog det 110. 2 s. att lasta vagnen.
Varians och standardavvikelse
/. *+, . 0
Medianen, m = 108 s.
50% av ggr. tog det 108 s. att lasta vagnen
1:a kvartil, )- ., 25% av ggr tog det högst 94 s. att lasta vagnen.
3:e kvartil, . ., 75% av ggr tog det högst 122.5 s. att lasta vagnen
Resultat, lastning
Liten statistisk ordlista
Individ
Undersökningsobjekt i en statistisk undersökning.
Population
En definierad grupp individer med någon gemensam egenskap.
Variabel
En egenskap man studerar hos en individ.
Kvantitativ variabel
En variabel som mäts med numeriska mätvärden.
Kvalitativ variabel
En icke-numerisk variabel. Innebär klassificering.
Tillämpad matematik III/Statistik - Sida 26 Mats Gunnarsson
Diskret variabel
Kvantitativ variabel som endast kan anta vissa värden, ofta heltalsvärden.
Kontinuerlig variabel
Kvantitativ variabel som i princip kan anta alla värden i ett intervall.
Nominalskala
Lägsta datanivån, klassificering av den studerade variabeln
Ordinalskala
Föreligger då mätvärden kan rangordnas
Intervallskala
Förutom rangordning av data är skillnader mellan mätvärden meningsfulla
Kvotskala
Har intervallskalans egenskaper och en absolut nollpunkt.
Liten statistisk ordlista fortsätter
Sannolikhetsteori
Sannolikhetsteorin kan ses som teorin om slumpmässiga försök
Def:
Med ett slumpmässigt försök menas ett försök vars resultat inte säkert kan förutsägas.
Klassiska exempel:
Slå en tärning, drag 5 kort ur en kortlek, ta en lott Men det kan också vara:
Antalet defekta kretskort i en förpackning,
Tidsåtgång vid lastning
Tillämpad matematik III/Statistik - Sida 28 Mats Gunnarsson
Utfallsrum, händelse och komplement
Utfallsrummet, Ω
Händelsen A
Komplementhändelse A
CHändelsen A
Grundmängd Delmängd Komplementet till A
Definitioner:
• Resultatet av ett slumpmässigt försök kallas utfall
.• Mängden av alla möjliga utfall av ett slumpmässigt försök kallas utfallsrum ( Ω Ω Ω Ω )
• En samling utfall kallas händelse (A, B, C,….)
Unions-, snitt- och disjunkta händelser
Händelsen A
Händelsen B
Händelsen A
Händelsen B
Händelsen A
Händelsen B Unionshändelse Snitthändelse Disjunkta händelser
Då man undersöker händelser kan man med fördel använda mängdlärans symboler.
Unionshändelse, A∪ ∪ ∪ ∪B Minst en av händelserna A och B inträffar A eller B inträffar
Snitthändelse, A∩ ∩ ∩B ∩ både A och B inträffar
Disjunkta händelser A och B kan ej inträffa samtidigt, A∩ ∩ ∩B = ∅ ∩ ∅ ∅ ∅
(∅ ∅ ∅ = tomma mängden) ∅
Tillämpad matematik III/Statistik - Sida 30 Mats Gunnarsson
Definition av sannolikhet
Klassiska definitionen, sid 41 i Vännman
Det finns m möjliga utfall med lika sannolikhet.
Om händelse A innefattar g av utfallen blir sannolikheten för händelsen A
1 2 3
Definition av sannolikhet
Matematisk definition, s.48 i Vännman
En funktion P, som till varje händelse A i
utfallsrummet Ω Ω Ω Ω, ordnar ett reellt tal P(A), är ett
sannolikhetsmått, [P(A) kallas sannolikheten för A], om P har följande egenskaper
(Kolmogorovs axiomsystem):
1. 0 b P(A) b 1, för alla A 2. P( Ω Ω Ω Ω ) = 1
3. P(A ∪ ∪ ∪ ∪ B) = P(A) + P(B), om A och B är disjunkta
Tillämpad matematik III/Statistik - Sida 32 Mats Gunnarsson
Sannolikhet som relativ frekvens
1.0
0.5
0.1
Räkneregler för sannolikheter
Sats 2 B (Komplementsatsen)
P(A C ) = 1 - P(A)
Sats 2 C (Additionssatsen 2 händelser)
P(A ∪Β) ∪Β) ∪Β) ∪Β) = P(A) + P(B) - P(A ∩ ∩ ∩ ∩ B)
(Kan utvidgas till flera händelser) ex 3 händelser
P(A ∪Β∪ ∪Β∪ ∪Β∪ ∪Β∪ C) =
= P(A) + P(B) + P(C) - P(A ∩ ∩ ∩ ∩ B) - P(A ∩ ∩ ∩ ∩ C) - P(B ∩ ∩ ∩ ∩ C) + P(A ∩ ∩ ∩ ∩ B ∩ ∩ ∩ ∩ C)
Tillämpad matematik III/Statistik - Sida 34 Mats Gunnarsson
Kombinatorik - Multiplikationsprincipen
Om N stycken operationer (moment) utföras.
Den första operationen kan utföras på n 1 sätt, den andra på n 2 sätt och den N:te på n N sätt.
Då kan de N operationerna kan utföras på n 1 × n 2 ×...× n N
olika sätt.
Operation 1 n
1olika sätt
Operation 2 n
2olika sätt
Operation k n
kolika sätt
...
× × ×
Kombinatorik - Urval utan återlägg
Välj n element bland N st
Med hänsyn till ordningen:
Antalet möjliga Permutationer är
4 4 4 … 4 4!
4 ! Med Mathematica: 4!/(4− )!
Utan hänsyn till ordningen:
Antalet möjliga Kombinationer är 4 4 4 … 4
! 4!
! 4 ! 4
Med Mathematica: Binomial[N,n]
Tillämpad matematik III/Statistik - Sida 36 Mats Gunnarsson
Välj n element bland N st
Med hänsyn till ordningen:
Antalet möjliga Permutationer är
Utan hänsyn till ordningen:
Antalet möjliga Kombinationer är 4 7
Kombinatorik - Urval med återlägg
Betingad sannolikhet
Med den betingade sannolikheten, 8 9|; , menas sannolikheten för händelsen A givet att händelsen B Inträffat och definieras som
1 2|< 12 ∩ <
1<
Det ger följande nyttiga omskrivning:
1 2 ∩ < 1 < 1 2|< 121 <|2
Tillämpad matematik III/Statistik - Sida 38 Mats Gunnarsson
Betingad sannolikhet
Satsen om total sannolikhet och Bayes sats (står inte i boken)
sats) (Bayes
t) sannolikhe (total
att händelse
för varje gäller
då
och dvs
hela fyller
s tillsamman
och oförenliga
parvis är
a händelsern Om
1
1 2 1
∑
∑ =
=
=
=
=
=
∩
n
j j
i i
i
n
i
i i
n
i
i j
i
n
) )P(A|H P(H
) )P(A|H
|A) P(H P(H
) )P(A|H P(H
P(A)
A Ω H
Φ H
H
Ω
,..., H H
, H
U
Tillämpad matematik III/Statistik - Sida 40 Mats Gunnarsson