Logistick´ y regresn´ı model
Tom´ aˇs Kadleˇ cek
10. kvˇ etna 2017
Kapitola 1
Logistick´ y regresn´ı model
D´ale se budeme vˇenovat logistick´emu regresn´ımu modelu. Z´akladn´ım rozd´ılem mezi line´arn´ım a logistick´ym regresn´ım modelem spoˇc´ıv´a typech promˇenn´ych.
Logistick´y, na rozd´ıl od line´arn´ıho pracuje s kategori´aln´ı z´avislou promˇennou.
Napˇr´ıklad pˇr´ıtomnost/nepˇr´ıtomnost choroby, existence atd.. Odhaduje m´ıru pravdˇepodobnosti, ˇze dan´e nez´avisl´e promˇenn´e x1, . . . , xn budou zaˇrazen´e do urˇcit´e kategorie. Z hlediska data miningu patˇr´ı ligistick´a regrese ke klasifikaˇcn´ım metod´am.
Podle z´avisl´e promˇenn´e se rozliˇsuje logistick´a regrese na:
• bin´arn´ı (dichotomick´a) - neb´yv´a pouze dvou hodnot, napˇr. ano/ne, 1/0,
• ordin´aln´ı - z´avisl´a promˇenn´a nab´yv´a v´ıce hodnot, mezi kter´ymi existuje pˇrirozen´e uspoˇr´adan´ı,
• (multi) nomin´aln´ı - z´avisl´a promˇenn´a nab´yv´a v´ıce neˇz dvou hodnot, mezi kter´ymi existuje pouze odliˇsnost, to znamen´a, ˇze je nelze ˇradit, napˇr. rasy, n´aboˇzenstv´ı atd..
V logistick´em regresn´ım modelu je tˇreba urˇcit, z jakou pravdˇepodobnost´ı nastane jev Y, jestliˇze nab´yv´a hodnot 0 =⇒ jev nenastal a 1 =⇒ jev nastal. Line´arn´ı regresn´ı model nelze pouˇz´ıt z d˚uvodu, ˇze c´ılov´a promˇenn´a je kategori´aln´ıho typu. Z rovnice (1.1) je patrn´e, ˇze na lev´e stranˇe jsou pouze dvˇe hodnoty 0 a 1, zat´ımco prav´a strana rovnice nab´yv´a libovoln´ych hodnot.
Ybi= cβ1+ cβ2Xi (1.1) Z tˇechto d˚uvod˚u vyuˇzijme logistickou funkci:
f (x) = 1
1 + e−x. (1.2)
Obr´azek 1.1: Logistick´a funkce
Obr´azek funkce (viz obr. 1.1) zobrazuje, ˇze nab´yv´a hodnot pouze v intervalu (0, 1). Nyn´ı tedy definujeme logistickou regresn´ı funkci jako:
P ( bYi= 1|Xi= xi) = 1
1 + e−(cβ1+cβ2xi). (1.3) Pro odhady koeficient˚u cβ1 a cβ2 pouˇzijeme metodu maxim´aln´ı vˇerohodnosti.
1.1 Metoda maxim´ aln´ı vˇ erohodnosti
Tato metoda patˇr´ı ke skupinˇe z´akladn´ıch metod bodov´ych odhad˚u. Jedn´ım z prvn´ıch pojm˚u, kter´e je tˇreba definovat je tzv. vˇerohodnostn´ı funkce.
Necht’ X = (X1, . . . , Xn) je n´ahodn´y v´ybˇer a x = (xi, . . . , xn) je jeho realizace.
D´ale necht’ je populace (n´ahodn´y v´ybˇer) pops´ana pomoc´ı regul´arn´ı hustoty f (x, Θ), kde θ je nezn´am´y parametr. Potom funkci 1.4 nazveme vˇerohodnostn´ı funkc´ı[?].
L(x, θ) = L(x1, . . . , xn, θ) = f (x1, θ)f (x2, θ), . . . f (xn, θ) =
n
Y
i=1
f (xi, Θ). (1.4)
Metoda maxim´aln´ı vˇerohodnosti spoˇc´ıv´a v tom, ˇze za odhad nezn´am´eho parametru (nezn´am´ych parametr˚u) zvol´ı hodnota bθ, kter´a pˇri dan´ych hod- not´ach maximalizuje funkci vˇerohodnosti. Za pˇredpokladu, ˇze existuje bod bθ z parametrick´eho prostoru, takov´y, ˇze pro vˇsechny hodnoty parametru bθ z parame- trick´eho prostoru plat´ı: L(X, θ) ≤ L(X, bθ), potom nazveme tento bod maxim´alnˇe vˇerohodn´ym odhadem nezn´am´eho parametru bθ[?]. D´ale pro jednoduchost bu- deme ps´at pouze tvar L(θ). ˇCasto je v´yhodnˇejˇs´ı pouˇz´ıt m´ısto vˇerohodnostn´ı funkce jej´ı logaritmick´y tvar:
l(θ) = lnL(θ). (1.5)
Tuto rovnici zap´ıˇseme jako:
l(Θ) = ln(
n
Y
i=1
f (xi, Θ)) =
n
X
i=1
lnf (xi, Θ). (1.6)
Tuto ´upravu m˚uˇzeme pouˇz´ıt z d˚uvodu, ˇze logaritmick´a funkce je monot´onn´ı, tj. m´a-li funkce L(θ) maximum v bodˇe bθM Lm´a v tomt´eˇz bodˇe maximum i funkce lnL(θ)[?].
Pro nalezen´ı maxima bθM L pouˇzijeme metodu z matematick´e anal´yzy a to hled´an´ı extr´em˚u funkce l(θ). Provedeme parci´aln´ı derivaci podle parametru θ.
T´ım z´ısk´ame syst´em vˇerohodnostn´ıch rovnic:
δL(θ) δθj
= 0, j = 1, . . . , m, (1.7)
s ˇreˇsen´ım θ = bθ. Mus´ıme ovˇeˇrit, zda v bodˇe bθ nab´yv´a funkce L(θ) sv´eho maxima, mus´ı tedy platit:
H(bθ) = δ2L(θ) δθiδθj
m i,j=1
θ=bθ
< 0 (1.8)
tedy, ˇze Hessova matice H(bθ) je negativnˇe definitn´ı[?].
1.2 Odhad koeficient˚ u u logistick´ eho regresn´ıho modelu
Pro urˇcen´ı koeficient˚u budeme postupovat podle v´yˇse uveden´e metody maxim´aln´ı vˇerohodnosti. Mˇejme n´ahodn´y v´ybˇer Y1, . . . , Yn regul´arn´ı hustoty (alternativn´ı rozdˇelen´ı) A(ϑ), 0 < ϑ < 1, s realizacemi y1, . . . , yn.
P (Yi= yi) = ϑyi(1 − ϑ)1−yi (1.9) Pro stˇredn´ı hodnotu plat´ı E(Yi) = ϑ a pro rozptyl D(Yi) = ϑ(1 − ϑ). Kaˇzd´emu yi pˇr´ısluˇs´ı realizace xi1, . . . , xinveliˇcin Xi1. . . , Xin. Potom podle 1.3 modelujeme pravdˇepodobnost jako:
P (Yi= yi|Xi= xi) =
1
1 + e−(β1+β2xi)
yi
1 − 1
1 + e−(β1+β2xi)
1−yi
=
=(e−(β1+β2xi))yi−1 1 + e−(β1+β2xi)
(1.10) Vˇerohodnostn´ı funkce je pot´e ve tvaru:
L(β) =
n
Y
i=1
P (Yi= yi) =
n
Y
i=1
(e−(β1+β2xi))1−yi
1 + e−(β1+β2xi) . (1.11)
Pouˇzijeme logaritmickou vˇerohodnostn´ı funkci (1.6), pomoc´ı kter´e z n´asoben´ı dostaneme sˇc´ıt´an´ı:
l(β) = ln(L(β)) = ln
n Y
i=1
(e−(β1+β2xi))1−yi 1 + e−(β1+β2xi)
=
n
X
i=1
ln (e−(β1+β2xi))1−yi 1 + e−(β1+β2xi)
=
=
n
X
i=1
[(yi− 1)(β1+ β2xi) − ln(1 + e−(β1+β2xi))].
(1.12) Nyn´ı provedeme parci´aln´ı derivace:
δ(l(β)) δβ1 =
n
X
i=1
(yi− 1) + e−(β1+ β2xi) 1 + e−(β1+ β2xi) = 0, δ(l(β))
δβ2
=
n
X
i=1
(yi− 1)xi+ e−(β1+ β2xi)
1 + e−(β1+ β2xi)xi= 0. (1.13) Rovnice d´ale uprav´ıme:
n
X
i=1
yi−
n
X
i=1
1
1 + eβ1+β2xi = 0,
n
X
i=1
yixi−
n
X
i=1
1
1 + eβ1+β2xixi= 0. (1.14) Jedn´a se o soustavu neline´arn´ıch rovnic o dvou nezn´am´ych. ˇReˇsen´ım tˇechto rovnic jsou koeficienty β1 a β2. Toto ˇreˇsen´ı nelze nal´ezt v algebraick´em tvaru, proto se hled´a numericky napˇr´ıklad pomoc´ı Newtonovy-Raphsonovy metody.
V´ıce k numerick´ym metod´am viz publikace[?].