Formelsamling. Enkel linjär regressionsananalys: Modell: y i = β 0 + β 1 x i + ε i. Anpassad regressionslinje: ŷ = b 0 + b 1 x. (x i x) (y i ȳ) ( x)2

(1)

LINK ¨OPINGS UNIVERSITET Matematiska institutionen Statistik, ANd

Formelsamling

Enkel linj¨ar regressionsananalys:

Modell:

yi=β0+β1· xi+εi

d¨arε∼ N(0,σ).

Anpassad regressionslinje:

ˆ

y = b0+ b₁· x d¨ar

b1=∑(x_i− ¯x) · (y_i− ¯y)

∑(x_i− ¯x)² =∑x_i· y_i− n · ¯x · ¯y

∑x_i²− n · ( ¯x)² =

=∑xi· yi−⁽^∑^xⁱ^)·(_n^∑^yⁱ⁾

∑x²_i −⁽^∑_n^xⁱ⁾² =n ·∑xi· y_i− (∑xi) · (∑yi) n ·∑x²_i − (∑xi)² b0= ¯y − b1· ¯x

Kvadratsummor:

Total: SST =∑(y_i− ¯y)²=∑y²_i − n · ( ¯y)²=∑y²_i −⁽^∑_n^yⁱ⁾²

Residual: SSE =∑(yi− ˆyi)²=∑(yi− ¯y)²− b1·∑(xi− ¯x) · (yi− ¯y) =∑y²_i − b0·∑yi− b1·∑xi· yi

Regression: SSR =∑( ˆyi− ¯y)²= SST − SSE F¨orenklingsformler:

Se ovan f¨or∑(yi− ¯y)²och samma kan anv¨andas p˚a∑(xi− ¯x)²

∑(xi− ¯x) · (yi− ¯y) =∑xi· yi− n · ¯x · ¯y =∑xi· yi−⁽^∑^xⁱ^)·(_n^∑^yⁱ⁾

Obs!! ∑(x_i− ¯x) · (y_i− ¯y) 6= n ·∑x_i· y_i− (∑x_i) · (∑y_i) Denna variant används bara i uttryck för b₁och r d˚a motsvarande variant används i nämnaren!

Variansskattning cσ²= s²= MSE = SSEn − 2 s =√

MSE =q SSE n − 2 F¨orklaringsgrad:

r²= SSRSST

Korrelationskoefficient:

r =

√

r²= ∑(x_i− ¯x) · (y_i− ¯y)

p∑(xi− ¯x)²·∑(yi− ¯y)² = ∑x_i· y_i− n · ¯x · ¯y q

(∑x²_i − n · ( ¯x)²) · (∑y²_i − n · ( ¯y)²)

=

Konfidensintervall, prognosintervall och hypotespr¨ovning Stickprovsf¨ordelningar:

b₁∼ N

β1, σ p∑(xi− ¯x)²

b0∼ N β0,σ·

q1

n+_∑_(x^{( ¯}^x)²

i− ¯x)²

b0+ b₁· x₀∼ N

β0+β1· x₀,σ·q

1

n+_∑^(x_(x⁰^{− ¯x)}²

i− ¯x)²

(2)

Konfidensintervall f¨orβ1: b1± t_[α/2]⁽ⁿ⁻²⁾· s

p∑(x_i− ¯x)² Konfidensintervall f¨orβ0: b₀± t_[α/2]⁽ⁿ⁻²⁾· s ·

r

1

n+_∑_(x^{( ¯}^x)²

i− ¯x)²

Konfidensintervall f¨or µ_y₀_|x₀ =β0+β1· x0: b₀+ b₁· x₀± t_[α/2]⁽ⁿ⁻²⁾· s ·

r

1

n+_∑^(x_(x⁰^{− ¯x)}²

i− ¯x)²

Prognosintervall f¨or y0=β0+β1· x0+ε0: b₀+ b₁· x₀± t_[α/2]⁽ⁿ⁻²⁾· s ·

r

1 +¹_n+_∑^(x_(x⁰^{− ¯x)}²

i− ¯x)²

Formellt t-test av H0:β0= 0:

Testfunktion: t = b0

s_b₀ = b0

s · r

1

n+_∑_(x^{( ¯}^x)²

i− ¯x)²

J¨amf¨or med ±t_[α/2]⁽ⁿ⁻²⁾

Formellt t-test av H₀:β1= 0:

Testfunktion: t = b₁

s_b₁ = b₁

√ s

∑(xi− ¯x)²

Formellt t-test av H₀:β1= B (där B är n˚agot annat än 0):

Testfunktion: t =b₁− B

sb1 = b₁− B

√ s

∑(xi− ¯x)²

Vid enkelsidiga mothypotseser j¨amf¨ors t med t_[⁽ⁿ⁻²⁾_α_] (eller med -t_[⁽ⁿ⁻²⁾_α_] beroende p˚a mothypotesens riktning).

Formellt F-test av H₀:β1= 0:

Testfunktion: F = MSRMSE = SSR/1 SSE/(n − 2) J¨amf¨or med F_[α]^(1,n−2)

Multipel linj¨ar regressionsananalys:

Modell:

yi=β0+β1· xi1+β2· xi2+ . . . +βkxik+εi

d¨arεi∼ N(0,σ).

Anpassad modell:

ˆ

y = b0+ b₁· x1+ b₂· x2+ . . . b_k· xk

(3)

Kvadratsummor:

SST=SSE+SSR

Total: SST =∑(y_i− ¯y)²=∑y²_i − n · ( ¯y)²=∑y²_i −⁽^∑_n^yⁱ⁾² Residual: SSE =∑(yi− ˆyi)²

Regression: SSR =∑( ˆyi− ¯y)²= SST − SSE

SSE har n − k − 1 frihetsgrader, SSR har k frihetsgrader.

Variansskattning:

cσ²= s²= MSE = SSE n − k − 1 F¨orklaringsgrad:

R²= SSRSST

Justerad f¨orklaringsgrad:

R²_adj= R²= 1 −SSE/(n − k − 1) SST/(n − 1)

Konfidensintervall och hypotespr¨ovning Stickprovsf¨ordelningar:

b_j∼ N(βj,σbj)

Formellt F-test av H₀:β1=β2= . . . =βk= 0:

Testfunktion: F = MSRMSE= SSR/k SSE/(n − k − 1) J¨amf¨or med F_[α]^{(k,n−k−1)}

Konfidensintervall f¨orβj: b_j± t_[α/2]^(n−k−1)· s_b_j

d¨ar sbj h¨amtas fr˚an datorutskrift.

Formellt t-test av H₀:βj= 0:

Testfuktion: t = b_j s_b_j J¨amf¨or med t_[α/2]^(n−k−1)

Konfidensintervall f¨or µ_y₀_|x₀₁_{,... ,x}_0k: ˆ

y0± t_[α/2]^(n−k−1)· s√

Distance value d¨ar s =√

MSE och “Distance value” (eller s ·√

Distance value) best¨ams fr˚an datorutskrift.

Prognosintervall f¨or y₀: ˆ

y₀± t_[α/2]^(n−k−1)· s√

1 + Distance value d¨ar s =√

MSE och “Distance value” (eller s ·√

1 + Distance value) best¨ams fr˚an datorutskrift.

(4)

Partiellt F-test av H0:βg+1= . . . =βk= 0:

Testfunktion: F = (SSER− SSEC)/(k − g)

SSE_C/(n − k − 1) =(SSRC− SSRR)/(k − g) SSE_C/(n − k − 1)

d¨ar SSE_R=Residualkvadratsumman i den mindre (reducerade) modellen och SSEC=Residualkvadratsumman in den st¨orre (kompletta) modellen.

J¨amf¨or med F(k−g,n−k−1)

[α] .

Variance Inflation Factor (VIF):

VIF = 1 1 − R²_j

där R²_j =Förklaringsgraden i modell där x_j är y-variabel och övriga x-variabler är förklaringsvariabler.

Sekventiella kvadratsummor:

SSR = SSR(x₁) + SSR(x₂|x₁) + . . . + SSR(x_k|x₁, . . . , x_k−1)

där SSR(x_j|x₁, . . . , x_j−1) är tillskottet till SSR d˚a variabel x_jläggs till en modell med variablerna x₁, x₂, . . . , x_j−1. Ett partiellt F-test av H0:βg+1= . . . =βk= 0 kan d˚a göras med testfunktionen

F =(SSR(x_g+1|x₁, . . . , x_g) + SSR(x_g+2|x₁, . . . , x_g+1) + . . . + SSR(x_k|x₁, . . . , x_k−1)) /(k − g)

MSE , J¨amf¨or med

F(k−g,n−k−1) [α]

f¨orutsatt att variablerna matas in i ordningen x₁, x₂, . . . , x_ki modellen.

Exponentiella samband och elasticitetsmodeller:

Exponentiell modell: y =β0· (β1)^x·δ d¨ar logδ∼ N(0,σ)

log y = logβ0+ (logβ1) · x + logδ Anpassad modell: ˆy = b0· (b1)^x d¨ar

log b1=∑(x_i− ¯x) · (log yi− log y)

∑(x_i− ¯x)² = ∑x_i· log y_i− n · ¯x · log y

∑x²_i − n · ( ¯x)² =

=∑x_i· log y_i−⁽^∑^xⁱ^)·(_n^∑^{log y}ⁱ⁾

∑x²_i −⁽^∑_n^xⁱ⁾² =n ·∑xi· log yi− (∑xi) · (∑log yi) n ·∑x²_i − (∑xi)²

h

log y = 1n∑log y_i i

och log b0= log y − (log b₁) · ¯x

Kvadratsummor, variansskattning och test:

SST =∑(log y_i− log y)²=∑(log y_i)²− n · (log y)²

SSE = SST − (log b₁) ·∑(x_i− ¯x) · (log y_i− log y) = SST − (log b₁) · (∑x_i· log y_i− n · ¯x · log y) =

∑(log yi)²− (log b0) ·∑log yi− (log b1) ·∑xi· log yi

cσ²= SSEn − 2

Test av H0:β1= 1 dvs inget samband mellan y och x ⇐⇒ logβ1= 0:

Testfunktion t = log b1

qSSE/(n−2)

∑(xi− ¯x)²

, j¨amf¨or med t_[α/2]⁽ⁿ⁻²⁾

(5)

Elasticitetsmodeller:

Q = A · (P)Ê^P·δ, Q =α· (I)ÊÎ·δ Q = A · (P)Ê^P· (I)ÊÎ·δ

log Q = log A + EP· log P + logδ log Q = log A + EI· log I + logδ

log Q = log A + EP· log P + EI· log I + logδ d¨ar logδ∼ N(0,σ)

Exempel p˚a anpassad modell: bQ = a · (P)^E^c^P, d¨ar cEP=∑(log P_i− log P) · (log Q_i− log Q)

∑(log Pi− log P)² =

=∑(log P_i) · (log Q_i) − n · log P · log Q

∑(log Pi)²− n · (log P)² och

log a = log Q − cEP· log P log P = ¹_n∑log Pi och log Q = ¹_n∑log Qi

Kvadratsummor, variansskattning och test:

SST =∑(log Qi− log Q)²=∑(log Qi)²− n · (log Q)²

SSE = SST − cEP·∑(log Pi− log P) · (log Qi− log Q) = SST −EcP·

∑(log Pi) · (log Qi) − n · log P · log Q =

=∑(log Qi)²− (log a) ·∑log Qi−cEP·∑(log Pi) · (log Qi) cσ²= SSEn − 2

Test av H₀: E_P= B där B är ett ifr˚agasatt värde p˚a E_P: Testfunktion t = cEP− B

q _SSE/(n−2)

∑(log Pi−log P)²

, j¨amf¨or med t_[α/2]⁽ⁿ⁻²⁾och vid enkelsidig mothypotes med t_[α]⁽ⁿ⁻²⁾eller −t_[α]⁽ⁿ⁻²⁾.

Index

Sammansatta fastbasindex:

It = i1,t· w1+ i2,t· w2+ . . . + in,t· wn

där n är antalet ing˚aende varor/tjänster, i1,t, . . . , i_n,t är enkla prisindex för ing˚aende varor, alla med bas˚ar t₀ och w1, . . . , wnväljs enligt ett viktsystem:

Laspeyre: w_i= pi,t0· q_i,t₀

∑jp_j,t₀· q_j,t₀ Paasche: w_i= pi,t0· q_i,t

∑jp_j,t₀· q_j,t Kedjeprisindex:

It = L0,1· L1,2· . . . · Lt−1,t· 100 d¨ar

L_t−1,t=

∑

n i=1

pi,t

p_i,t−1· w_i,t−1,t

är ˚arslänken fr˚an ˚ar t − 1 till t för n ing˚aende varor/tjänster. w_i,t−1,t väljs enligt ett viktsystem:

Laspeyre: w^L_i,t−1,t= Försäljningsvärdet för vara i ˚ar t − 1 Totala försäljningsvärdet ˚ar t − 1

Paasche: w^P_i,t−1,t= Försäljningsvärdet för vara i ˚ar t i priser för ˚ar t − 1 Totala försäljningsvärdet ˚ar t i priser för ˚ar t − 1

Med representantvaror byts “Försäljningsvärdet för vara i” mot “Försäljningsvärdet för varugrupp i” i vik- terna.

(6)

Implicitprisindex:

It =Försäljningsvärdet av varan/tjänsten/gruppen ˚ar t i löpande priser Försäljningsvärdet av varan/tj¨nasten/gruppen ˚ar t i bas˚arets priser· 100 Relativprisindex:

I_t^R= I_t^v I_t⁰· 100

där I_t^v=Prisindex för aktuell vara/tjänst/grupp och I_t⁰=Prisindex för den större jämförelsegruppen, t ex KPI.

Tidsserieanalys Tidsserieregression:

Modell:

yt = TRt+ SNt+εt

d¨ar

TR_t =β0+β1· t eller TR_t=β0+β1· t +β2· t² och

SN_t =∑^L−1_i=1βsi· x_si,t med

L =Antal säsonger och xsi,t= 1 om t tillhör säsong i och = 0 annars.

Durbin-Watson’s test:

Test av H0: Residualerna ¨ar okorrelerade.

Testfunktion d = ∑ⁿ_t=2(e_t− e_t−1)²

∑ⁿ_t=1e²_t d¨ar e_t = y_t− ˆy_t.

J¨amf¨orelser:

Om d < d_L,α/2eller (4 − d) < d_L,α/2 ⇒ F¨orkasta H0

Om d > d_U,α/2och (4 − d) > d_U,α/2 ⇒ F¨orkasta ej H₀

Om d_L,α_/2≤ d ≤ d_U,α_/2och d_L,α_/2≤ (4 − d) ≤ d_U,α_/2⇒ Inget uttalande kan ges Komponentuppdelning:

Modeller:

Multiplikativ modell: yt = TRt· SNt· CLt· IRt

Additiv modell: yt= TR_t+ SN_t+ CL_t+ IR_t Enkel exponentiell utj¨amning:

Modell: y_t =β0+εt

Uppdateringsschema f¨or skattning avβ0: `T=α· yT+ (1 −α) · `T −1 0 <α< 1 Prognos: ˆy_{T +τ}(T ) = `T

Prognosintervall: `t± z · s ·√ 1 +α²

där z =1.96 för 95% intervall, 2.576 för 99% intervall och s =

q 1

T − 1·∑^Tt=1(yt− ¯y)²