Jednoduch´y line´arn´ı regresn´ı model

(1)

Jednoduch´ y line´ arn´ı regresn´ı model

Tom´ aˇs Kadleˇ cek

10. kvˇ etna 2017

(2)

Kapitola 1

Jednoduch´ y line´ arn´ı regresn´ı model

Tato kapitola se bude zabývá jednoduchým lineárn´ım regresn´ım modelem. Tedy, kdy závislá (vysvˇetlovaná) promˇenná Y je lineárn´ım vztahem pouze jedné nezávislé (vysvˇetluj´ıc´ı) promˇenné X. Pomoc´ı regresn´ıho modelu hledáme lineárn´ı vztah mezi promˇennou Y a X.

Prvn´ı dva pojmy, kterými se zabývá jsou deterministická a stochastická populaˇcn´ı regresn´ı funkce dále jen PRF. Deterministická PRF spojuje oˇcekávané hodnoty vysvˇetlované promˇenné Yi pro daná Xi a je dána vztahem:

E(Yi|Xi) = β1+ β2Xi, i = 1, 2, . . . , n, (1.1) kde parametry β₁je absolutn´ı ˇclen a β₂ definuje sklon regresn´ı kˇrivky.

Tyto modely nejsou pˇr´ıliˇs ˇcasté, protoˇze existuj´ı dalˇs´ı vlivy na vysvˇetlovanou promˇennou Y_i resp. náhodné sloˇzky, které do regresn´ıho modelu vnáˇs´ı urˇcitou chybu. Zanesen´ım této chyby do modelu zadefinujeme stochastickou PRF. Je definovaná jako:

E(Yi|Xi) = β1+ β2Xi+ ui, i = 1, 2, . . . , n, (1.2) kde ui je náhodná sloˇzka, tj. chyba, zanesená zanedbán´ım nˇekterých vliv˚u a

(3)

Deterministick´a forma Stochastick´a forma Populaˇcn´ı re-

gresn´ı funkce E(Yi|Xi) = Yi= β1+ β2Xi E(Yi|Xi) = Yi= β1+ β2Xi+ ui

V´ybˇerov´a re-

gresn´ı funkce Ybi= cβ1+ cβ2Xi Ybi= cβ1+ cβ2Xi+ubi

Tabulka 1.1: Forma zápisu populaˇcn´ı a výbˇerové regresn´ı funkce Symboly

”b“ nad promˇennými a parametry vyjadˇruj´ı odhad pro výbˇerový soubor. To znamená, ˇze bY_i je odhad pro Y_i, cβ₁ a cβ₂ jsou odhady regresn´ıch parametr˚u, aub_ipˇredstavuje reziduáln´ı sloˇzku, coˇz je odhad stochastické náhodné sloˇzky u_i[?]. Existuje nˇekolik metod pro odhad parametr˚u regresn´ıho modelu:

• metoda nejmenˇs´ıch ˇctverc˚u (MN ˇC)

• metodu maxim´aln´ı vˇerohodnosti (ML)

• metoda moment˚u

• zobecnˇen´a metoda moment˚u

Tato práce se zamˇeˇruje na prvn´ı z uvedených metod, o druhé metodˇe se zmiˇnuje v souvislosti s logistickou regresn´ı analýzou.

1.1 Metoda nejmenˇ s´ıch ˇ ctverc˚ u

Tato metoda byla zavedena, nˇemeckým matematike, Carlem Friedrichem Gaus- sem. Jedná se metodu zjiˇstˇen´ı parametr˚u cβ₁a cβ₂ výbˇerové regresn´ı funkce:

Yi= cβ1+ cβ2Xi+ubi= bYi+ubi, i = 1, 2, . . . , n, (1.3) kde vývoj promˇenné Yi je determinován zmˇenami Xi a tvar kˇrivky je urˇcen regresn´ımi parametry β1 aβ2. Metoda proloˇz´ı pˇr´ımku jednotlivými hodnotami znak˚u, jak zobrazuje obrázek 1.1.

(4)

Obr´azek 1.1: Princip metody nejmenˇs´ıch ˇctverc˚u

Dále vyjádˇr´ıme z rovnice 1.3 reziduáln´ı sloˇzkuubi.

ub_i= Y_i− bY_i= Y_i− cβ₁+ cβ₂X_i= f (cβ₁, cβ₂) (1.4) Z rovnice 1.4 je zˇrejm´e, ˇze rezidu´aln´ı sloˇzka je funkc´ı regresn´ıch parametr˚u.

Obrázek 1.1 ukazuje, ˇze reziduáln´ı sloˇzkaub_im˚uˇze být kladná i záporná. Z tˇechto d˚uvod˚u je tˇreba pouˇz´ıt souˇcet ˇctverc˚u reziduáln´ıch odchylek. A tedy základem metody nejmenˇs´ıch ˇctverc˚u je minimalizace toho souˇctu[?]:

n

X

i=1

ubi2

= f (cβ1, cβ2). (1.5)

Pro nalezen´ı minima funkce se pouˇzije metoda z matematické analýzy – hledán´ı extrému funkce. Funkce 1.5 se parciálnˇe zderivuje podle parametr˚u β1 a β2 a jednotlivé derivace poloˇz´ıme rovny nule:

δ(P ubi2

) δcβ1

= 2X

(−1)(Yi− cβ1− cβ2Xi) = 0,

(5)

Jej´ım vyˇreˇsen´ım obdrˇz´ıme odhady obou regresn´ıch parametr˚u:

cβ₂= nP XiY_i−P XiP Yi

nP X_i²− (P Xi)² =P(Xi− X)(Y_i− Y ) P (Xi− X)² , cβ1= P X_i²P Yi−P XiP XiYi

nP X_i²− (P Xi)² = Y − cβ2X, (1.8) kde X a Y jsou v´ybˇerov´e pr˚umˇery pro X a Y .

1.2 Vlastnosti odhadov´ e funkce nejmenˇ s´ıch ˇ ctverc˚ u

Pomoc´ı metody nejmenˇs´ıch ˇctverc˚u byl proveden bodový odhad parametr˚u cβ1 a cβ2 daného výbˇerového souboru. Za pˇredpokladu dalˇs´ıch nezávislých výbˇerových soubor˚u se z´ıskaj´ı výbˇerové rozdˇelen´ı hodnot odhad˚u parametr˚u, a poté na jej´ım základˇe docház´ı k odhadu parametr˚u β₁ a β₂základn´ıho souboru[?].

Odhadov´a funkce m´a tyto vlastnosti:

• Nestrannost

• Vydatnost (eficience)

• Konzistence

Nestrannost je vlastnost odhadové funkce cβk, která ˇr´ıká, ˇze stˇredn´ı hodnota bodového regresn´ıho parametru je rovna populaˇcn´ımu regresn´ımu parametru:

E(cβ_k) = β_k. (1.9)

Tuto vlastnost zobrazuje obrázku 1.2, kde odhadová funkce cβ^∗_k (zelená) je vychýlená v˚uˇci odhadu cβk.

Dalˇs´ı z vlastnost´ı je vydatnost (eficience). Naˇse odhadová funkce cβ_k je eficientn´ı v˚uˇci jiné téhoˇz dβ_k^∗∗ (modrá), jestliˇze nemá vˇetˇs´ı rozptyl. Vlastnost zobrazuje obrázek 1.2. Z nˇeho vyplývá, ˇze odhadová funkce cβk je z dané tˇr´ıdy odhadových funkc´ı s nejmenˇs´ım rozptylem. Obˇe tyto vlastnosti zkoumáme zejména na menˇs´ıch výbˇerových souborech.

(6)

Obrázek 1.2: Nevychýlené a eficientn´ı rozdˇelen´ı parametr˚u cβk

Pro rozsáhlé soubory testujeme vlastnosti konzistence. Odhadová funkce cβk

je konzistentn´ı s odhadovou funkc´ı βk pro n limitnˇe rostouc´ı do nekoneˇcna, kde n je rovno rozsahu v´ybˇerov´eho souboru, jestliˇze je:

• asymptoticky nestrann´a

n→∞lim E(cβ_k) = β_k (1.10)

• s rostouc´ı hodnotou n parametr cβ_k konverguje ke skuteˇcn´e hodnotˇe odhadnut´eho parametru β_k

n→∞lim βck= βk (1.11) Obrázek 1.3 zobrazuje tˇri odhadové funkce βk, β^∗_k, β_k^∗∗, kde s rostouc´ım rozsahem výbˇerového souboru n roste konzistence.

(7)

1.2.1 Pˇ redpoklady pro pouˇ zit´ı metody nejmenˇ s´ıch ˇ ctverc˚ u

Vlastnosti odhadové funkce zmiˇnované v kapitole 1.2 jsou splnˇeny za nˇekolika pˇredpoklad˚u. Tato kapitola zkoumá tyto pˇredpoklady a v tomto pˇr´ıpadˇe se zamˇeˇruje pouze na jednoduchý lineárn´ı regresn´ı. Tyto pˇredpoklady jsou dále zobecnˇeny pro v´ıcerozmˇerný lineárn´ı regresn´ı model.

• P1: Line´arn´ı regresn´ı model Yi= β1+ β2Xi+ ui je line´arn´ı v parametrech.

• P2: Hodnoty X_i jsou fixn´ı.

• P3: Stˇredn´ı hodnota náhodné sloˇzky je nulová E(ui|Xi) = 0

• P4: Pro kaˇzdou i-tou skupinu bude platit, ˇze variabilita náhodné sloˇzky bude rovna σ². Tento pˇredpoklad se také nazývá homoskedasticita =⇒

nemˇen´ı se rozptyl náhodné sloˇzky v jednotlivých skupinách. Opakem je heteroskedasticita =⇒ rozptyl se mˇen´ı, napˇr. zvyˇsuje se s rostouc´ımi hodnotami X_i.

var(ui|Xi) = D(ui|Xi) = E(ui− E(ui|Xi))²= E(u²_i|Xi) = σ² (1.12)

• P5: Náhodná sloˇzka z r˚uzných skupin nen´ı sériovˇe závislá (korelovaná). V pˇr´ıpadˇe opaku mluv´ıme o sériové korelaci (autokorelaci) náhodné sloˇzky, která pak je pozitivn´ı nebo negativn´ı.

cov(u_i; u_j|X_i; X_j) = E{[u_i− E(u_i)]|X_i}{[u_j− E(u_j)]|X_j} =

= E{ui|Xi}{uj|Xj} = 0 pro i 6= j (1.13)

• P6: Dalˇs´ım pˇredpokladem je nulová kovariance mezi náhodnou sloˇzkou u_i a X_i. Tento pˇredpoklad zároveˇn vyjadˇruje, ˇze PRF m˚uˇzeme rozdˇelit na dvˇe aditivn´ı ˇcásti tzn. na ˇcást deterministické regrese a stochastickou ˇcást s náhodnou sloˇzkou.

cov(ui; Xi) = E[ui− E(ui)(Xi− E(Xi))] =E[ui(Xi− E(Xi))] =

= E(uiXi) − E(Xi)E(ui) = E(ui, Xi) = 0 (1.14)

• P7: Poˇcet pozorován´ı |X| = n mus´ı být vˇetˇs´ı, jak poˇcet parametr˚u regresn´ıho modelu. U jednoduchého regresn´ıho modelu plat´ı n > 2.

• P8: Náhodná sloˇzka má normáln´ı rozdˇelen´ı ui∼ N (0; σ²).

1.2.2 Koeficient determinace

Koeficient determinace je jedna z veliˇcin pro hodnocen´ı regresn´ı analýzy. Pro jeho vymezen´ı je tˇreba definovat nˇekteré základn´ı pojmy. Úplný souˇcet ˇctverc˚u (TSS) je souˇcet kvadrát˚u rozd´ıl˚u pozorované hodnoty vysvˇetlované promˇenné a

pr˚umˇern´e hodnoty:

T SS =

n

X

i=1

(Y_i− Y )². (1.15)

Upln´´ y souˇcet ˇctverc˚u je moˇzn´e rozloˇzit na dvˇe sloˇzky:

(8)

• Rezidu´aln´ı souˇcet ˇctverc˚u (RSS)

RSS =

n

X

i=1

(Yi− bYi)². (1.16)

• Vysvˇetlen´y (regresn´ı) souˇcet ˇctverc˚u (ESS)

ESS =

n

X

i=1

( bYi− Y )². (1.17)

Pouˇzit´ım Pythagorovy vˇety plat´ı (viz obr´azek 1.4):

T SS =

n

X

i=1

(Yi− Y )²=

n

X

i=1

(Yi− bYi)²+

n

X

i=1

( bYi− Y )²= RSS + ESS (1.18)

Obr´azek 1.4: Rozklad souˇctu ˇctverc˚u TSS

Koeficient determinace R²je poté definován, jako pod´ıl vysvˇetlovaného souˇctu ˇctverc˚u a celkové souˇctu ˇctverc˚u:

(9)

• Pokud R² = 0, tak ani jedno pozorován´ı neleˇz´ı na regresn´ı pˇr´ımce a nepodaˇrilo se nám vysvˇetlit ˇzádnou ˇcást vysvˇetlované promˇenné. Regresn´ı model nemá smysl.

Z koeficientu determinace lze odvodit koeficient korelace R:

R = ±√

R². (1.20)

Vzhledem k tomu, ˇze s koeficientem determinace je spojeno nˇekolik problém˚u, které spoˇc´ıvaj´ı v tom, ˇze adekvátnˇe nereaguje na zmˇeny v poˇctu pozorován´ı a nezohledˇnuje rozˇs´ıˇren´ı poˇctu vysvˇetluj´ıc´ıch promˇenných, tak se z tˇechto d˚uvodu pouˇz´ıvá korigovaný koeficient determinace.

1.3 Testov´ an´ı hypot´ ez o odhadnut´ ych regresn´ıch parametrech

Po vytvoˇren´ı jednoduchého regresn´ıho modelu metodou nejmenˇs´ıch ˇctverc˚u zaˇc´ıná fáze statistické verifikace a dalˇs´ıho testován´ı hypotéz o odhadnutých parametrech i celého modelu. Základn´ı principy testován´ı hypotéz lze shrnout do tˇr´ı základn´ıch fáz´ı:

• formulace nulov´e a alternativn´ı hypot´ezy(H0, HA),

• v´ypoˇcet testovac´ı statistiky,

• aplikace nebo pouˇzit´ı rozhodovac´ıho pravidla o pˇrijet´ı, nebo zam´ıtnut´ı nulové hypotézy pro stanovenou hladinu významnosti.

Toto testován´ı m˚uˇze prob´ıhá prostˇrednictv´ım oboustranného resp. jednostranného testu. Vzhledem k rozsahu práce se touto problematikou dále nezabývám.