Multikolinjäritet:
Betrakta åter datamaterialet med kostnader för produktion av korrugerat papper.
Trots att COST verkade ha ett tydligt positivt samband med var och en av
variablerna PAPER, MACHINE, OVERHEAD och LABOR blev endast de två första signifikanta.
?????
?????
Kan det vara så att förklaringsvariablerna ”överlappar” varandra när det gäller att
förklara kostnaden?
Vi plottar förklaringsvariablerna mot varandra:
Graph Matrix Plot…
Tydligt samband mellan alla par av förklaringsvariabler.
Vi kan också beräkna parvisa korrelationskoefficienter mellan förklaringsvariabler:
MTB > corr c2-c5
Correlations: PAPER; MACHINE; OVERHEAD; LABOR
PAPER MACHINE OVERHEAD MACHINE 0.989
0.000
OVERHEAD 0.978 0.994 0.000 0.000
LABOR 0.933 0.945 0.938 0.000 0.000 0.000
Cell Contents: Pearson correlation P-Value
och vi ser att samtliga korrelationer ligger mycket nära 1.
Om korrelationen är hög (över 0.9) mellan två förklaringsvariabler blir modellen svår att analysera:
• konstiga värden på parameterskattningar ( t ex negativa lutningsparametrar där sambandet skall vara positivt)
• låga t-kvoter, dvs. svårt att påvisa signifikans för enskilda förklaringsvariabler.
• konstiga modeller (”självklara” förklaringsvariabler blir inte av betydelse i modellen)
Orsaken är att det är svårt i en anpassad modell att separera vad i
varje förklaringsvariabel som främst förklarar variationen i y.
Problemet har kommit att kallas multikolinjäritet
Dock kan det räcka med namnet kolinjäritet, eller ännu hellre samlinjäritet.
Vad det handlar om är att en förklaringsvariabel är nära linjärt beroende av en eller flera (därav multi) av de andra
förklaringsvariablerna
Hur upptäcker man och hur åtgärdar man detta?
Metod 1:
• Beräkna korrelationskoefficienterna mellan samtliga par av variabler, dvs. även med y.
• Om två eller flera av förklaringsvariablerna har höga korrelationer med varandra, uteslut alla av dessa utom den som har högst
korrelation med y.
I exemplet beräknar vi
MTB > corr c1-c5
Correlations: COST, PAPER, MACHINE, OVERHEAD, LABOR
COST PAPER MACHINE OVERHEAD PAPER 0.996
0.000
MACHINE 0.997 0.989
Alla korrelationer är högre än 0.9. MACHINE har
högst korrelation med
MACHINE 0.997 0.989 0.000 0.000
OVERHEAD 0.989 0.978 0.994 0.000 0.000 0.000
LABOR 0.938 0.933 0.945 0.938 0.000 0.000 0.000 0.000
Cell Contents: Pearson correlation P-Value
högst korrelation med
COST och bör då vara den variabel som väljs.
(Dock är PAPER en
mycket nära kandidat här.)
Metod 2:
Om det föreligger starka samband mellan en förklaringsvariabel och en eller flera av de övriga förklaringsvariablerna kan man tänka sig en
modell där den första förklaras av de andra.
T ex om x
1har starka samband med variablerna x
2, x
3, x
4blir en modell:
x
1= β
0+ β
1⋅ x
2+ β
2⋅ x
3+ β
3⋅ x
4+ ε
Om denna modell anpassas erhålls en förklaringsgrad R
12, som anger hur stor del av den totala variationen i x
1som förklaras av de övriga x-
variablerna.
Är R
12stor borde man kunna utesluta x
1ur modellen för y
Den s k Variance Inflation Factor , VIF, för variabeln x
1definieras som
Och vi ser att för ett stort värde hos R
12blir också VIF
1stor.
VIF kan som lägst bli 1 vilket inträffar då R
2=0.
2 1
1
1
1 VIF R
= −
VIF kan som lägst bli 1 vilket inträffar då R
12=0.
Om R
12=1 blir VIF oändligt stor, men detta inträffar i princip inte.
Vi anpassar modellen
x
1= β
0+ β
1⋅ x
2+ β
2⋅ x
3+ β
3⋅ x
4+ ε
med Minitab:
MTB > regress c2 3 c3-c5
Regression Analysis: PAPER versus MACHINE, OVERHEAD, LABOR
The regression equation is
PAPER = 112 + 2.92 MACHINE - 1.66 OVERHEAD - 0.0186 LABOR
Predictor Coef SE Coef T P Constant 112.03 29.60 3.79 0.001 MACHINE 2.9162 0.5333 5.47 0.000 OVERHEAD -1.6589 0.8440 -1.97 0.062 OVERHEAD -1.6589 0.8440 -1.97 0.062 LABOR -0.01863 0.06990 -0.27 0.792
S = 19.24 R-Sq = 98.2% R-Sq(adj) = 98.0%
Analysis of Variance
Source DF SS MS F P Regression 3 463679 154560 417.47 0.000 Residual Error 23 8515 370
Total 26 472194
56 . 982 55
. 0 1
1
1
=
= −
VIF
VIF finns förstås definierad för varje ingående x-variabel som
där R
j2= förklaringsgraden i en anpassad modell där x
jförklaras av övriga x-variabler.
1
21
j
j
R
VIF = −
Om det största av dessa VIF-värden är större än 10 eller om
medelvärdet av samtliga VIF-värden är betydligt större än 1 anser man att det föreligger problem med (multi)kolinjäritet.
VIF-värden kan fås automatiskt i Minitab-utskriften:
MTB > regress c1 4 c2-c5;
SUBC> vif.
Regression Analysis: COST versus PAPER, MACHINE, OVERHEAD, LABOR
The regression equation is
COST = 51.7 + 0.948 PAPER + 2.47 MACHINE + 0.048 OVERHEAD - 0.0506 LABOR
Predictor Coef SE Coef T P VIF Constant 51.72 21.70 2.38 0.026
PAPER 0.9479 0.1200 7.90 0.000 55.5 PAPER 0.9479 0.1200 7.90 0.000 55.5 MACHINE 2.4710 0.4656 5.31 0.000 228.9 OVERHEAD 0.0483 0.5250 0.09 0.927 104.1 LABOR -0.05058 0.04030 -1.26 0.223 9.3
S = 11.08 R-Sq = 99.9% R-Sq(adj) = 99.9%
Vi ser att det råder stora problem med (multi)kolinjäritet här!
I Datorövning 2 fick vi litet konstiga resultat när vi försökte undersöka totalvärdets beroende av tomtyta med uppdelning på fastigheter med och utan garage:
Regression Analysis: Total$ versus Acreage, Garage, Acr*Gar
The regression equation is
Total$ = 135344 + 1572 Acreage - 8766 Garage + 40871 Acr*Gar
79 cases used 2 cases contain missing values
Predictor Coef SE Coef T P VIF Constant 135344 35705 3.79 0.000
Acreage 1572 18208 0.09 0.931 11.1 Garage -8766 37622 -0.23 0.816 2.8 Acr*Gar 40871 19091 2.14 0.036 12.8
Den enda term som blir signifikant är samspelstermen, vilket känns konstigt, men vi ser höga VIF-värden för Acreage och Acr*Gar.
Förmodligen är det så att Garage finns i betydligt högre utsträckning på större
tomter och då blir Acreage och Acr*Gar väl mycket korrelerade.
Är (multi)kolinjäritet alltid ett bekymmer?
• När den anpassade modellen skall användas för att förklara variation och samband skall kolinjäritet undvikas. Tolkningarna blir annars lätt missvisande.
• När den anpassade modellen skall användas för prognoser i nya
• När den anpassade modellen skall användas för prognoser i nya
punkter är bekymret mindre eftersom anpassningen görs så att
ingående x-variabler kopplar till värdet hos y så bra som möjligt.
Val mellan olika modeller – Modellbygge:
Vi illustrerar med följande datamaterial:
Ett företag undersöker 25 säljdistrikt med avseende på försäljning.
Man vill försöka förklara försäljningen (SALES) i volymenheter, dvs y med följande variabler:
• x
1(TIME) = den tid (i månader) som säljaren (i distriktet) har varit anställd.
• x
22(POTENT) = total industriförsäljningens volym i distriktet
• x
3(ADV) = annonskostnader (i dollar)
• x
4(SHARE) = företagets genomsnittliga marknadsandel i distriktet (de senaste 4 åren)
• x
5(SHARECHG) = förändringen i marknadsandel i distriktet jämfört med perioden innan de senaste fyra åren.
• x
6(ACCTS) = antal kontrakt som säljaren arbetat med
• x
7(WORKLOAD) = faktor för arbetsbelastningen hos säljaren
• x
8(RATING) = bedömningsmått på säljaren satt av av försäljningsansvarig
SALES TIME POTENT ADV SHARE SHARE- ACCTS WORK- RATING
CHG LOAD
3669.88 43.10 74065.1 4582.9 2.51 0.34 74.86 15.05 4.9 3473.95 108.13 58117.3 5539.8 5.51 0.15 107.32 19.97 5.1 2295.10 13.82 21118.5 2950.4 10.91 -0.72 96.75 17.34 2.9 4675.56 186.18 68521.3 2243.1 8.27 0.17 195.12 13.40 3.4 6125.96 161.79 57805.1 7747.1 9.15 0.50 180.44 17.64 4.6 2134.94 8.94 37806.9 402.4 5.51 0.15 104.88 16.22 4.5 5031.66 365.04 50935.3 3140.6 8.54 0.55 256.10 18.80 4.6 5031.66 365.04 50935.3 3140.6 8.54 0.55 256.10 18.80 4.6 3367.45 220.32 35602.1 2086.2 7.07 -0.49 126.83 19.86 2.3
… … … … … … … … …
2799.97 21.14 22809.5 3552.0 9.14 -0.74 88.62 24.96 3.9
Hur väljer man vilken av ett antal anpassade modeller som är ”bäst”?
1) Studera varje modell för sig: Är alla förklaringsvariabler av betydelse? Är residualerna bra?
2) Förklaringsgrader:
Eftersom R
2ökar för varje ny variabel som läggs till blir inte detta mått rättvist när man jämför olika modeller.
Justerad förklaringsgrad:
Justerad förklaringsgrad:
Måttet tar hänsyn till antal variabler, som ingår i modellen.
Notera att R
2kan skrivas som 1– (SSE/SST ), så analogi finns med detta mått.
SST SSE k
n n n
SST
k n
R SSE ⋅
−
−
− −
− =
−
− −
= 1
1 1 )
1 /(
) 1 1 /(
2
Exempel:
I materialet anpassar vi modellerna:
y= β
0+ β
1⋅ x
1+ β
2⋅ x
2+ β
3⋅ x
3+ β
4⋅ x
4+ β
5⋅ x
5+ β
6⋅ x
6+ ε (1)
y= β
0+ β
1⋅ x
1+ β
2⋅ x
2+ β
3⋅ x
3+ β
4⋅ x
4+ β
5⋅ x
5+ β
6⋅ x
6+ β
7⋅ x
7+ β
8⋅ x
8+ ε (2)
MTB > regress c1 6 c2-c7
Regression Analysis: SALES versus TIME, POTENT, ...
The regression equation is
SALES = - 1165 + 2.27 TIME + 0.0383 POTENT + 0.141 ADV + 222 SHARE + 285 SHARECHG + 4.38 ACCTS
Predictor Coef SE Coef T P Constant -1165.5 420.4 -2.77 0.013 TIME 2.269 1.699 1.34 0.198
y= β
0+ β
1⋅ x
1+ β
2⋅ x
2+ β
3⋅ x
3+ β
4⋅ x
4+ β
5⋅ x
5+ β
6⋅ x
6+ ε
TIME 2.269 1.699 1.34 0.198 POTENT 0.038278 0.007547 5.07 0.000 ADV 0.14067 0.03839 3.66 0.002 SHARE 221.60 50.58 4.38 0.000 SHARECHG 285.1 160.6 1.78 0.093 ACCTS 4.378 3.999 1.09 0.288
S = 428.0 R-Sq = 92.0% R-Sq(adj) = 89.4%
894 .
0
920 .
0
2 2
=
= R
R
MTB > regress c1 8 c2-c9
Regression Analysis: SALES versus TIME, POTENT, ...
The regression equation is
SALES = - 1508 + 2.01 TIME + 0.0372 POTENT + 0.151 ADV + 199 SHARE + 291 SHARECHG + 5.55 ACCTS + 19.8 WORKLOAD + 8 RATING
Predictor Coef SE Coef T P Constant -1507.8 778.6 -1.94 0.071 TIME 2.010 1.931 1.04 0.313
y=
β
0 +β
1 ⋅ x1 +β
2 ⋅x2 +β
3 ⋅ x3 +β
4 ⋅x4 +β
5 ⋅x5 +β
6 ⋅x6 +β
7 ⋅x7 +β
8 ⋅x8 +ε
TIME 2.010 1.931 1.04 0.313 POTENT 0.037205 0.008202 4.54 0.000 ADV 0.15099 0.04711 3.21 0.006 SHARE 199.02 67.03 2.97 0.009 SHARECHG 290.9 186.8 1.56 0.139 ACCTS 5.551 4.776 1.16 0.262 WORKLOAD 19.79 33.68 0.59 0.565 RATING 8.2 128.5 0.06 0.950
S = 449.0 R-Sq = 92.2% R-Sq(adj) = 88.3%
883 .
0
922 .
0
2 2
=
= R
R
Enligt den justerade förklaringsgraden är alltså den första modellen bättre.
3) Variansskattning
Modell
y=
β
0 +β
1 ⋅ x1 +β
2 ⋅x2 +β
3 ⋅ x3 +β
4 ⋅x4 +β
5 ⋅x5 +β
6 ⋅x6 +ε 0.920 0.894
y=
β
0 +β
1 ⋅ x1 +β
2 ⋅x2 +β
3 ⋅ x3 +β
4 ⋅x4 +β
5 ⋅x5 +β
6 ⋅x6 +β
7 ⋅x7 +β
8 ⋅x8 +ε 0.922 0.883 R
2R
23) Variansskattning
Den modell som har lägst värde på MSE lyckas ju med att ha så litet slumpvariation som möjligt kvar.
Dock gäller: MSE minskar om och endast om justerad förklaringsgrad ökar.
Ł
Jämförelse av MSE (alt. s ) blir ekvivalent med jämförelse av R
24) Måttet C
pC
p(eller bara kort C) är en något kryptiskt formulerad storhet som relaterar slumpvariansen i en anpassad modell till
slumpvariansen hos den maximala modellen samt till antalet ingående parametrar.
)) 1 (
2
2
− ( − ⋅ +
= n k
s C SSE
p p
där s
p2är variansskattningen (dvs. MSE) hos den maximala modellen (den med samtliga tillgängliga x-variabler)
C
pskall helst bli så liten som möjligt, och samtidigt ≤ k+1 I annat fall har den anpassade modellen en för stor bias, dvs.
ligger snett i förhållande till verkligheten.
För att beräkna C
pkrävs tydligen att såväl den aktuella som den maximala modellen anpassas.
Ł Typisk uppgift för en datorkörning.
Minitab: Kommandot breg kan användas för att ta fram de två bästa modellerna i varje modellstorlek, baserat på de största R
2- värdena.
Alltså, man jämför alla modeller med en x-variabel och tar ut de två bästa, alla modeller med två x-variabler och tar ut de två bästa etc.
I de maximala modellstorleken finns förstås bara en modell och i denna kan visas att C
palltid är p+1
Kommandot ger förutom R
2-värdena även justerade
förklaringsgrader, s och dessutom just C
pMTB > breg c1 c2-c9
Best Subsets Regression: SALES versus TIME, POTENT, ...
Response is SALES
S W H O P A R R O S R A K A T T H E C L T I E A A C C O I M N D R H T A N Vars R-Sq R-Sq(adj) C-p S E T V E G S D G 1 56.8 55.0 67.6 881.09 X 1 38.8 36.1 104.6 1049.3 X 2 77.5 75.5 27.2 650.39 X X 2 74.6 72.3 33.1 691.11 X X 3 84.9 82.7 14.0 545.52 X X X 3 82.8 80.3 18.4 582.64 X X X 4 90.0 88.1 5.4 453.84 X X X X 4 89.6 87.5 6.4 463.95 X X X X 5 91.5 89.3 4.4 430.23 X X X X X 5 91.2 88.9 5.0 436.75 X X X X X 6 92.0 89.4 5.4 428.00 X X X X X X 6 91.6 88.9 6.1 438.20 X X X X X X 7 92.2 89.0 7.0 435.67 X X X X X X X 7 92.0 88.8 7.3 440.30 X X X X X X X 8 92.2 88.3 9.0 449.03 X X X X X X X X
C
p≤≤≤≤ k+1
I utskriften ser vi att i de 7 sista modellerna är C
p≤ k+1 (Lägg till en etta i
kolumnen ”Vars” ). Enligt ”reglerna” skall vi välja modell så att C
pblir så liten som möjligt.
S W H O P A R R O S R A K A T T H E C L T I E A A C C O I M N D R H T A N
Vars R-Sq R-Sq(adj) C-p S E T V E G S D G k+1 4 90.0 88.1 5.4 453.84 X X X X 5 4 89.6 87.5 6.4 463.95 X X X X 5 5 91.5 89.3 4.4 430.23 X X X X X 6 5 91.5 89.3 4.4 430.23 X X X X X 6 5 91.2 88.9 5.0 436.75 X X X X X 6 6 92.0 89.4 5.4 428.00 X X X X X X 7 6 91.6 88.9 6.1 438.20 X X X X X X 7 7 92.2 89.0 7.0 435.67 X X X X X X X 8 7 92.0 88.8 7.3 440.30 X X X X X X X 8 8 92.2 88.3 9.0 449.03 X X X X X X X X 9
Ł Modellen med TIME, POTENT, ADV, SHARE och SHARECHG skall väljas eftersom denna har lägst värde på C
pmed villkoret C
p≤ k+1 bibehållet.
Observera dock: Denna modell har inte det högsta värdet på vare sig
förklaringsgrad eller justerad förklaringsgrad (alt. det lägsta värdet på s ).
5) Mer algoritmiska modellvalsprocedurer:
Framåtvalsprincipen (Forward selection):
1. Välj först den x-variabel som har högst absolut korrelation med y. (Blir också den variabel som i en enkel linjär regressionsmodell ger högst R
2eller lägst SSE.
2. Testa med t- eller F-test om denna variabel blir signifikant
3. Om den blir det, fixera denna variabel i modellen, kalla den x
(1). Om inte, stanna utan modell .
stanna utan modell .
4. Anpassa alla modeller med x
(1)och ytterligare en x-variabel, välj tillfälligt den modell som har högst R
2(eller lägst SSE)
5. Testa med t-test eller partiellt F-test om den andra x-variabeln blir signifikant.
6. Om den blir det, fixera även denna, kalla den x
(2). Om inte, stanna vid modellen med x
(1).
7. Fortsätt på motsvarande sätt tills inga nya signifikanta variabler kan
läggas till.
I ”vårt” datamaterial:
MTB > corr c1-c9
Correlations: SALES, TIME, POTENT, ADV, SHARE, SHARECHG, ACCTS, WORKLOAD, RATING SALES TIME POTENT ADV SHARE SHARECHG ACCTS WORKLOAD TIME 0.623
0.001
POTENT 0.598 0.454 0.002 0.023
ADV 0.596 0.249 0.174 0.002 0.230 0.405
SHARE 0.484 0.106 -0.211 0.264 0.014 0.613 0.312 0.201
SHARECHG 0.489 0.251 0.268 0.377 0.085 0.013 0.225 0.195 0.064 0.685
ACCTS 0.754 0.758 0.479 0.200 0.403 0.327 0.000 0.000 0.016 0.338 0.046 0.110
WORKLOAD -0.117 -0.179 -0.259 -0.272 0.349 -0.288 -0.199 0.577 0.391 0.212 0.188 0.087 0.163 0.341
RATING 0.402 0.101 0.359 0.411 -0.024 0.549 0.229 -0.277 0.046 0.631 0.078 0.041 0.911 0.004 0.272 0.180
MTB > regress c1 1 c7
Regression Analysis: SALES versus ACCTS The regression equation is
SALES = 709 + 21.7 ACCTS
Predictor Coef SE Coef T P Constant 709.3 515.2 1.38 0.182 ACCTS 21.722 3.946 5.50 0.000 S = 881.1 R-Sq = 56.8% R-Sq(adj) = 55.0%
signifikant
ACCTS fixeras alltså i modellen Nästa steg?
Använd breg med vilken man också kan tvinga in en variabel
och begränsa modellstorleken enligt:
MTB > breg c1 c2-c9;
SUBC> include c7;
SUBC> best 1;
SUBC> nvars 1 1.
Best Subsets Regression: SALES versus TIME, POTENT, ...
Response is SALES
The following variables are included in all models: ACCTS
S W H O P A R R
Tvingar in ACCTS
Visar bara en modell per storleksklass
Visar bara modeller med en variabel fler än de inkluderade (dvs här med max 2 variabler)
P A R R O S R K A T T H E L T I E A A C O I M N D R H A N Vars R-Sq R-Sq(adj) C-p S E T V E G D G 1 77.5 75.5 27.2 650.39 X
Den bästa modellen med ACCTS och ytterligare en variabel är alltså
den med ACCTS och ADV.
MTB > regr c1 2 c7 c4
Regression Analysis: SALES versus ACCTS, ADV
The regression equation is
SALES = 50 + 19.0 ACCTS + 0.227 ADV
Predictor Coef SE Coef T P Constant 50.3 407.6 0.12 0.903 ACCTS 19.048 2.973 6.41 0.000 ADV 0.22653 0.05039 4.50 0.000 S = 650.4 R-Sq = 77.5% R-Sq(adj) = 75.5%
ADV blir signifikant och fixeras.
MTB > breg c1 c2-c9;
SUBC> include c4 c7;
SUBC> best 1;
SUBC> nvars 1 1.
Best Subsets Regression: SALES versus TIME, POTENT, ...
Response is SALES
The following variables are included in all models: ADV ACCTS S W H O H O P A R R O S R K A T T H E L T I E A C O I M N R H A N Vars R-Sq R-Sq(adj) C-p S E T E G D G 1 82.8 80.3 18.4 582.64 X
Den bästa modellen med ACCTS, ADV och ytterligare en variabel är
alltså den med ACCTS, ADV och POTENT.
MTB > regress c1 3 c7 c4 c3
Regression Analysis: SALES versus ACCTS, ADV, POTENT
The regression equation is
SALES = - 327 + 15.6 ACCTS + 0.216 ADV + 0.0219 POTENT Predictor Coef SE Coef T P Constant -327.2 394.4 -0.83 0.416 ACCTS 15.554 2.999 5.19 0.000 ADV 0.21607 0.04533 4.77 0.000 POTENT 0.021922 0.008656 2.53 0.019 POTENT 0.021922 0.008656 2.53 0.019 S = 582.6 R-Sq = 82.8% R-Sq(adj) = 80.3%
POTENT blir signifikant och fixeras.
MTB > breg c1 c2-c9;
SUBC> include c3 c4 c7;
SUBC> best 1;
SUBC> nvars 1 1.
Best Subsets Regression: SALES versus TIME, POTENT, ...
Response is SALES
The following variables are included in all models: POTENT ADV ACCTS S W
H O H O A R R S R K A T H E L T I A C O I M R H A N Vars R-Sq R-Sq(adj) C-p S E E G D G 1 90.0 88.1 5.4 453.84 X
Den bästa modellen med ACCTS, ADV, POTENT och ytterligare en
variabel är alltså den med ACCTS, ADV, POTENT och SHARE.
MTB > regress c1 4 c7 c4 c3 c5
Regression Analysis: SALES versus ACCTS, ADV, POTENT, SHARE
The regression equation is
SALES = - 1442 + 9.21 ACCTS + 0.175 ADV + 0.0382 POTENT + 190 SHARE Predictor Coef SE Coef T P
Constant -1441.9 423.6 -3.40 0.003 ACCTS 9.214 2.865 3.22 0.004 ADV 0.17499 0.03691 4.74 0.000 POTENT 0.038217 0.007977 4.79 0.000 POTENT 0.038217 0.007977 4.79 0.000 SHARE 190.14 49.74 3.82 0.001 S = 453.8 R-Sq = 90.0% R-Sq(adj) = 88.1%
SHARE blir signifikant och fixeras.
MTB > breg c1 c2-c9;
SUBC> include c3 c4 c5 c7;
SUBC> best 1;
SUBC> nvars 1 1.
Best Subsets Regression: SALES versus TIME, POTENT, ...
Response is SALES
The following variables are included in all models: POTENT ADV SHARE ACCTS S W
H O A R R A R R R K A T E L T I C O I M H A N Vars R-Sq R-Sq(adj) C-p S E G D G 1 91.2 88.9 5.0 436.75 X
Den bästa modellen med ACCTS, ADV, POTENT, SHARE och
ytterligare en variabel är alltså den med ACCTS, ADV, POTENT
SHARE och SHARECHG.
MTB > regress c1 5 c7 c4 c3 c5 c6
Regression Analysis: SALES versus ACCTS, ADV, POTENT, SHARE, SHARECHG
The regression equation is
SALES = - 1286 + 8.23 ACCTS + 0.154 ADV + 0.0376 POTENT + 197 SHARE + 262 SHARECHG
Predictor Coef SE Coef T P Constant -1285.9 419.0 -3.07 0.006 ACCTS 8.234 2.824 2.92 0.009 ADV 0.15444 0.03774 4.09 0.001 ADV 0.15444 0.03774 4.09 0.001 POTENT 0.037631 0.007685 4.90 0.000 SHARE 196.95 48.06 4.10 0.001 SHARECHG 262.5 162.9 1.61 0.124 S = 436.7 R-Sq = 91.2% R-Sq(adj) = 88.9%
SHARECHG blir inte signifikant och tas därför inte med.
Ł Slutlig modell blir den med ACCTS, ADV, POTENT och SHARE
Bra?
Bakåtelimineringsprincipen (Backward elimination ):
1. Anpassa modellen med samtliga tillgängliga förklaringsvariabler.
2. Om alla förklaringsvariabler är signifikanta blir detta den slutliga modellen.
3. Om en eller flera variabler ej är signifikanta (ses i deras t-kvoter) tas den variabel bort som har lägst absolut t-kvot.
4. Anpassa en ny modell med de variabler som är kvar. Om alla 4. Anpassa en ny modell med de variabler som är kvar. Om alla förklaringsvariabler i denna är signifikanta Ł Slutlig modell 5. Om en eller flera variabler ej är signifikanta, ta bort den med
lägst absolut t-kvot.
6. Upprepa förfarandet till dess att samtliga ingående
förklaringsvariabler är signifikanta.
MTB > regress c1 8 c2-c9
Regression Analysis: SALES versus TIME, POTENT, ...
The regression equation is
SALES = - 1508 + 2.01 TIME + 0.0372 POTENT + 0.151 ADV + 199 SHARE + 291 SHARECHG + 5.55 ACCTS + 19.8 WORKLOAD + 8 RATING Predictor Coef SE Coef T P
Constant -1507.8 778.6 -1.94 0.071 TIME 2.010 1.931 1.04 0.313 POTENT 0.037205 0.008202 4.54 0.000 POTENT 0.037205 0.008202 4.54 0.000 ADV 0.15099 0.04711 3.21 0.006 SHARE 199.02 67.03 2.97 0.009 SHARECHG 290.9 186.8 1.56 0.139 ACCTS 5.551 4.776 1.16 0.262 WORKLOAD 19.79 33.68 0.59 0.565 RATING 8.2 128.5 0.06 0.950 S = 449.0 R-Sq = 92.2% R-Sq(adj) = 88.3%
TIME, SHARECHG, ACCTS, WORKLOAD och RATING är icke-
signifikanta. Av dessa har RATING lägst absolut t-kvot
MTB > regress c1 7 c2-c8
Regression Analysis: SALES versus TIME, POTENT, ...
The regression equation is
SALES = - 1486 + 1.97 TIME + 0.0373 POTENT + 0.152 ADV + 198 SHARE + 296 SHARECHG + 5.61 ACCTS + 19.9 WORKLOAD
Predictor Coef SE Coef T P Constant -1485.9 677.7 -2.19 0.043 TIME 1.974 1.796 1.10 0.287 POTENT 0.037290 0.007851 4.75 0.000 ADV 0.15196 0.04325 3.51 0.003 SHARE 198.31 64.12 3.09 0.007 SHARECHG 295.9 164.4 1.80 0.090 ACCTS 5.610 4.545 1.23 0.234 WORKLOAD 19.90 32.64 0.61 0.550 S = 435.7 R-Sq = 92.2% R-Sq(adj) = 89.0%
TIME, SHARECHG, ACCTS och WORKLOAD är icke-
signifikanta. WORKLOAD har lägst absolut t-kvot.
MTB > regress c1 6 c2-c7
Regression Analysis: SALES versus TIME, POTENT, ...
The regression equation is
SALES = - 1165 + 2.27 TIME + 0.0383 POTENT + 0.141 ADV + 222 SHARE + 285 SHARECHG + 4.38 ACCTS
Predictor Coef SE Coef T P Constant -1165.5 420.4 -2.77 0.013 TIME 2.269 1.699 1.34 0.198 POTENT 0.038278 0.007547 5.07 0.000 ADV 0.14067 0.03839 3.66 0.002 ADV 0.14067 0.03839 3.66 0.002 SHARE 221.60 50.58 4.38 0.000 SHARECHG 285.1 160.6 1.78 0.093 ACCTS 4.378 3.999 1.09 0.288 S = 428.0 R-Sq = 92.0% R-Sq(adj) = 89.4%
TIME, SHARECHG och ACCTS är icke-signifikanta. ACCTS har
lägst absolut t-kvot.
MTB > regress c1 5 c2-c6
Regression Analysis: SALES versus TIME, POTENT, ADV, SHARE, SHARECHG
The regression equation is
SALES = - 1114 + 3.61 TIME + 0.0421 POTENT + 0.129 ADV + 257 SHARE + 325 SHARECHG
Predictor Coef SE Coef T P Constant -1113.8 419.9 -2.65 0.016 TIME 3.612 1.182 3.06 0.006 POTENT 0.042088 0.006731 6.25 0.000 POTENT 0.042088 0.006731 6.25 0.000 ADV 0.12886 0.03704 3.48 0.003 SHARE 256.96 39.14 6.57 0.000 SHARECHG 324.5 157.3 2.06 0.053 S = 430.2 R-Sq = 91.5% R-Sq(adj) = 89.3%
Endast SHARECHG är icke-signifikant. På gränsen, men för
illustrationen tar vi ändå bort den.
MTB > regress c1 4 c2-c5
Regression Analysis: SALES versus TIME, POTENT, ADV, SHARE
The regression equation is
SALES = - 1312 + 3.82 TIME + 0.0444 POTENT + 0.152 ADV + 259 SHARE Predictor Coef SE Coef T P
Constant -1312.3 440.7 -2.98 0.007 TIME 3.816 1.270 3.01 0.007 TIME 3.816 1.270 3.01 0.007 POTENT 0.044396 0.007158 6.20 0.000 ADV 0.15248 0.03798 4.01 0.001 SHARE 259.47 42.18 6.15 0.000 S = 463.9 R-Sq = 89.6% R-Sq(adj) = 87.5%
Alla förklaringsvariabler är signifikanta Ł Slutlig modell enligt bakåtelimineringsprincipen.
Bra?
Stegvis regression:
Genom att kombinera framåtval och bakåteliminering får vi det som ofta bara kallas ”stegvis regression”:
• Välj först den variabel som har högst korrelation med y
• Behåll variabeln om den är signifikant
• Lägg till en ny variabel om den blir signifikant, ta bort den gamla om den inte blir signifikant.
om den inte blir signifikant.
• Fortsätt att lägga till och ta bort variabler till dess att inga nya
signifikanta kan hittas och inga gamla kan tas bort.
Minitab har kommandot stepwise:
MTB > stepwise c1 c2-c9
Stepwise Regression: SALES versus TIME, POTENT, ...
F-to-Enter: 4 F-to-Remove: 4
Response is SALES on 8 predictors, with N = 25 Step 1 2 3 4
Constant 709.32 50.29 -327.24 -1441.94 ACCTS 21.7 19.0 15.6 9.2 T-Value 5.50 6.41 5.19 3.22 P-Value 0.000 0.000 0.000 0.004
Slutlig modell är alltså den med ACCTS, ADV,
Sätter kritiska gränser för signifikanstest
ADV 0.227 0.216 0.175 T-Value 4.50 4.77 4.74 P-Value 0.000 0.000 0.000 POTENT 0.0219 0.0382 T-Value 2.53 4.79 P-Value 0.019 0.000 SHARE 190 T-Value 3.82 P-Value 0.001 S 881 650 583 454 R-Sq 56.85 77.51 82.77 90.04 R-Sq(adj) 54.97 75.47 80.31 88.05 C-p 67.6 27.2 18.4 5.4
More? (Yes, No, Subcommand, or Help) SUBC> No
den med ACCTS, ADV, POTENT och SHARE, dvs samma som
framåtvalsprincipen gav.
Kommandot stepwise har underkommandona forward och backward som just ger framåtval resp. bakåteliminering.
Det är dock klokt att försöka förstå dessa principer genom att ”välja litet för hand”
Ingen av de tre algoritmerna är optimal i något avseende och olika modeller kan fås.
modeller kan fås.
Det är inte heller så att någon med nödvändighet ger den bästa modellen.
Algoritmerna skall kombineras med förnuft och residualanalys.
Index
• Uttrycker värdet av en storhet relativt värdet av en annan storhet.
• Serier av värden i tid (eller rum) uttrycks i
• Serier av värden i tid (eller rum) uttrycks i en viss enhet
• Index anger alla värden i serien relativt ett
av dem blir enhetsoberoende
Exempel
Priset på Hasses superstrumpa 1996-2000 i kronor 1996 35.00
1997 36.00 1998 37.50 1999 39.00 2000 40.00
Priserna anges i kronor. Om Sverige under tiden haft en fast växelkurs i Euro, t ex 1 euro=8.70 kronor hade prisserien i euro blivit
1996 4.02
1997 4.14
1998 4.31
1999 4.48
2000 4.60
Gör nu istället så att varje pris delas med priset för 1996
År Kronpris Europris
1996 35/35=1 4.02/4.02=1
1997 36/35=1.03 4.14/4.02=1.03 1998 37.50/35=1.07 4.31/4.02=1.07 1999 39/35=1.11 4.48/4.02=1.11 2000 40/35=1.14 4.60/4.02=1.14
•Notera att vi får samma värdeserie oavsett vilken valuta vi använder.
•Observera dock att fast växelkurs är ett nödvändigt villkor för detta
•De erhållna värdena kallas relativtal.
Omräkning till index
Multiplicera de erhållna relativtalen med 100.
Ł Indexserie 1996 100 1997 103
1998 107 “Lättare för en del
1999 111 att förstå”
2000 114
•Indexvärdet för 1996 är exakt 100 av naturliga orsaker. 1996 kallas därför basår.
•Varje indexvärde innehåller den procentuella förändringen av priset jämfört med basåret. T ex index för 1998=107 Ł Priset har ökat med 7% mellan 1996 och 1998.
•För att uttrycka den procentuella förändringen från år t1 till år t2 beräknas [(Index år t
2-Index år t
1)/Index år t
1] × 100
•t ex från 1998 till 2000: [(114-107)/107] × 100=6.5 Ł 6.5% ökning
Byte av basår
Basåret kan bytas genom att dividera varje värde i indexserien med värdet för det nya basåret, samt multiplicera med 100
Index år t, basår t
1=
(Index år t, basår t
0/Index år t
1, basår t
0) × 100 = I
t(t
1) = [I
t(t
0) / I
t1(t
0) ] × 100
Ex. Byte till basår 1998
År Basår 1996 Basår 1998
1996 100 (100/107) × 100=93.5
1997 103 (103/107) × 100=96.3
1998 107 100
1999 111 (111/107) × 100=103
200 114 (114/107) × 100=107
Notera att indextal < 100 förekommer
Allmän formel:
En enkel prisindexserie skapas genom
100 )
( 100
) basår Pris
/ år Pris
( 0 × =
0×
= t t p / p
I t t t
Kvantiteter och försäljningsvärden
Låt q
t=försäljningskvantiteten och v
t=försäljningsvärdet av en vara år t
Ł v
t=p
t× q
tEx. Priser, kvantiteter och försäljningsvärden för Hasses superstrumpa:
År Pris Kvantitet Försäljn.värde År Pris Kvantitet Försäljn.värde
1996 35.00 150 5250
1997 36.00 145 5220
1998 37.50 165 6187.50
1999 39.00 160 6240
2000 40.00 155 6200
Deflatering
Försäljningsvärdena är uttryckta i s k löpande priser
Ibland vill man uttrycka dem i priser för ett visst år (i s k fasta priser) Detta åstadkoms genom s k deflatering
• En värdeserie i löpande priser divideras värde för värde med en prisindexserie.
• Värden i fast pris erhålls genom att multiplicera samtliga deflaterade värden med
• Värden i fast pris erhålls genom att multiplicera samtliga deflaterade värden med
prisindex för det år, vars priser skall användas
Hasses superstrumpa, forts
År Värden i Index Värden i 1997 års löpande priser priser
1996 5250 100 (5250/100) × 103=5407.50
1997 5220 103 5220
1998 6187.50 107 (6187.50/107) × 103=5956
1999 6240 111 (6240/111) × 103=5790
1999 6240 111 (6240/111) × 103=5790
2000 6200 114 (6200/114) × 103=5602
Implicitprisindex
Man kan också räkna “baklänges”
Givet en värdeserie i löpande pris och motsvarande serie uttryckt i priser för år t Ett s k implicitprisindex erhålls genom att dividera löpande pris-serien värde för värde med fastpris-serien och sedan multiplicera med 100. Basåret blir t
Hasses superstrumpa, forts
År Värden i Värden i Implicitprisindex
År Värden i Värden i Implicitprisindex
löpande 1998 års (Basår=1998)
priser priser
1996 5250 5617.50 (5250/5617.50) × 100 = 93.5
1997 5220 5423 (5220/5423) × 100 = 96.3
1998 6187.50 6187.50 100
1999 6240 6015 (6240/6015) × 100=104
2000 6200 5819 (6200/5819) × 100=107
Avvikelser från tidigare framräknad indexserie beror på avrundningsfel
• Deflaterad värdeserie och fast pris-serie uttrycker kvantitet
• Förutom prisindex kan kvantitetsindex och/eller värdeindex konstrueras
• Överhuvudtaget kan alla serier av värden omräknas till index,
dvs indexbegreppet är inte knutet till ekonomi
Sammansatta prisindex
Om ett företag (eller en bransch) säljer mer än en vara skall som regel prisindex baseras på flera (ev. samtliga) varor.
Generell konstruktion:
⋅
=
i t i t it
I w
I
, ,där
I
t,i=prisindex år t för vara i w
t,i=vikt år t för vara i
och summationen görs över alla ingående varor
⋅
=
i t i t it