M5VM05 Statistické modelování 9. Zobecněné lineární modely Jan Koláček (kolacek@math.muni.cz) Ustav matematiky a statistiky, Přírodovědecká fakulta, Masarykova univerzita, Brno "f Jan Koláček (PřF MU) M5VM05 Statistické modelování 1/57 Motivace V reálném světě má mnoho procesů jiný, než lineární vztah závislosti. Např. v ekonomii se ukazuje, že mnoho vztahů má logaritmickou závislost, k vysvětlení procesů v přírodních vědách se užívají reciproké, mocninné i další vztahy. Vysvětlovaná veličina popisující pravděpodobnost přežití člověka, v případě určité nemoci a určitého způsobu léčby, může z definice pravděpodobnosti nabývat hodnot pouze z intervalu [0,1], což by v případě klasického lineárního modelu bylo možné zajistit jen za přijetí určitých omezení na parametry modelu. Také normalita chyb je často nesplněným předpokladem klasického lineárního regresního modelu. Připomeňme, že normalita se vyznačuje nezávislosti střední hodnoty a rozptylu. Typicky např. u ekonomických veličin s rostoucí střední hodnotou obvykle roste rozptyl náhodné veličiny, přičemž náhodné chyby mají v těchto případech často nesymetrická, kladně sešikmená rozdělení. Jan Koláček (PřF MU) M5VM05 Statistické modeloval 2/57 Základní pojmy a definice I Definice 1 Mějme parametrický prostor G C K"1. Řekneme, že systém m-parametrických hustot TZg = {f(y;9):0=(01.....6mf e 0} je regulární, jestliže platí (1) O C IR"1 je otevřená borelovská množina. (2) Množina M = {y G R" - f (y',6) > 0} nezávisí na parametru 6. (3) Pro každé y E M existuje konečná parciální derivace /ľ(y;0) = ä^ (í = i.....«)• Jan Koláček (PřF MU) M5VM05 Statistické modeloval 3/57 Základní pojmy a definice II Definice 1 (4) Pro všechny d = (6lr..., 0m)T E 0 platí kde F(y;0) je odpovídající distribuční funkce. (5) Pro všechny 6 = (8i,... ,8m)T E O je integrál ain/(y;0)ain/(y;0) M 30; de. dF(y;0) i,j=l,...,m konečný a matice J = J(0) = (/!y(0))^-_1 je pozitivně definitní. Matice J se nazývá Fisherova informační matice o parametru 6. Jan Koláček (PřF MU) M5VM05 Statistické modelováni Základní pojmy a definice Definice 2 Nechť / E ^řeg- Pak náhodný vektor U = U(0) = (U1(6),...,Um(0))T se složkami Ui = Ui(6) = ain/(Y;0) d6i se nazývá skórový vektor příslušný hustotě/. Jan Koláček (PřF MU) M5VM05 Statistické modelováni Základní pojmy a definice I Věta 3 (1) Je-li f E F™eg 3 pro i,j = 1,..., m existují pak EU (6) = 0 a DV (6) = J(0) Jan Koláček (PřF MU) M5VM05 Statistické modelováni Základní pojmy a definice II Věta 3 (2) Platí-li navíc pro i,j = 1,... ,m = o, pak kde J(0) = -E(U'(0)), U'(fl) = au,-(e) 30; y=i Jan KoláCek (PřF MU) M5VM05 Statistické modelováni Základní pojmy a definice Uvažujme náhodný výběr Y„ = (Yi,..., Yn)T z rozdělení/ e J7^. Označme M = {y £ E :f(y;d) > 0}. Pak sdružená hustota Značení: funkce: n. vektory: U* u* matic, fce: J /v„(y;0) = flf(yi, ô), y = (yi.....y«)' e f* = K = E(0;y) ufc(0) U*(0) J(0) J«(0) ln/(y*;0) in/yB(y;0) f31n/(Yt;fl) i,-39;—" íain/Y„(Y;8) V 331 ' 31n/(Yt;fl)\T 31n/Y„(Y;8)^T * ' O 6 m Jan KoláCek (PřF MU) ,V1 vl5VM05 Statistické modelovaní Základní pojmy a definice I Věta 4 Uvažujme náhodný výběr Y„ = (Yi,..., Yn)T z rozdělení s hustotou f E F™eg. (1) Pokud pro i, j = 1,... ,tn existují pak EU*n(0) =0 a DU*n(0) = n](6) . Jan Koláček (PřF MU) M5VM05 Statistické modelováni Základní pojmy a definice II Věta 4 (2) Platí-li navíc pro i,j = 1,... ,m o, (tj. f je regulární i v 2. derivacích), pak E(U£'(0)) = -nj(fl), /rete dU*{9)\ U*(0) 30; Jan KoláCek (PřF MU) M5VM05 Statistické modelováni Základní pojmy a definice I Věta 5 Mějme náhodný výběr\n = (Yi,... ,Yn)T z rozdělení s regulárni hustotou f £ ?7eg- Označme M = {y 6 R :/(y; 0) > 0}. Necht pro všechna y E M, 6 E 0 a i,j = 1,..., m existují druhé parciální derivace hustoty f [y; 6). (1) Pak platí A nm(oj(0)). Dále platí -u;(0)Tj(0)-1u;(0) A X2(m). Jan Koláček (PřF MU) M5VM05 Statistické modeloval 11 / 57 Základní pojmy a definice II Věta 5 (2) Platí-li navíc, že f je regulární i v 2.derivacích, tj. J (y; e) o, pak matice náhodných veličin äu*(f>)\ 1 (d2ln{d;Y) n S.J y=l -J(0)- Jan Koláček (PřF MU) M5VM05 Statistické modelováni Základní pojmy a definice Definice 6 (a) Věrohodnostní funkcí rozumíme funkci vektorového parametru 6 Wy)=f(r,o) (b) logaritmickou věrohodnostní funkcí nazýváme funkci Z(0;y) =lnL(0;y) (c) Řekneme, že odhad 0mle = 0MLE(Y) je maximálně věrohodný odhad (MLE) vektorového parametru 6, pokud platí L(6MLE;\) > L(6;\) pro všechna 6 G G. Jan KoláCek (PřF MU) M5VM05 Statistické modeloval 13 / 57 Základní pojmy a definice Věta 7 Mějme náhodný výběr\n = (Yi,...,Y„)T z rozdělení s regulární hustotou f e ?Ťeg- Označme M = {y E~R :f(y;6) > 0}. Nechi pro všechna y e M, 6 E © a i,j = 1,..., m existují druhé parciální derivace hustoty f [y; 0) a platí (1) ^(0mle"0) ~ NmfrW)-1) (2) W = (0mle - 0)TnJ(0)(0mle - 0) ~ X2{m) , tzv. Waldova statistika. Jan Koláček (PřF MU) M5VM05 Statistické modeloval 14 / 57 Základní pojmy a definice Definice 8 Řekneme, že pozorovaní pochází z rozdělení exponenciálního typu, pokud jeho pravděpodobnostní funkce (v případě diskrétních rozdělení) či hustota (v případě spojitých rozdělení) je tvaru f(y)=exp{a(y)b(8)+c(8)+d(y)}, kde 8 je (neznámý) tzv. přirozený parametr a a{y),b{8),c{8),d{y) jsou známé funkce. Pokud a a(y) = y, říkáme že pravděpodobnostní funkce, popř. hustota je v kanonické formě. • v konkrétním rozdělení figurují další neznámé parametry, nazveme je tzv. rušivými parametry. Jan Koláček (PřF MU) M5VM05 Statistické modeloval 15 / 57 Základní pojmy a definice V dalším budeme uvažovat pouze regulární a kanonické formy spolu s podmínkou b(6) = 8 a přitom zavedeme do označení jeden rušivý parametr
0, d (y) jsou známé funkce, a pokud ip(
0, ý > 0 je tzv. faktor měřítka (scale factor) o; > 0 je známá apriorní váha. Tato forma se také nazývá škálovou formou hustoty exponenciálního typu. Jan Koláček (PřF MU) M5VM05 Statistické modeloval 16 / 57 Základní pojmy a definice Věta 9 Mějme náhodnou veličinu Y z rozdělení s regulárni hustotou f exponenciálního typu: /(3/) = exp{^P+%,<ř)}. (1) Pak EY = i\Q) Necht navíc platí kdef"(Y;6) = &&?±, pak de2 DY = i'(6)ip(
0. f(y) = V2 : exp 1 fy-F 7(8) = exp < 2^ ii/2 i, ,^ >() d{y,
= 6 = JI 7"(0) = 1 ip(cp) Jan Koláček (PřF MU) M5VM05 Statistické modelováni Základní pojmy a definice Skutečně platí Tedy EY = 7'(6) = F DY = j"(6)ip(
= 1. Jan Koláček (PřF MU) M5VM05 Statistické modelováni Základní pojmy a definice Příklad 11 (Binomické rozdělení) Mějme Z~Bi(n,n), n 6 N,7r 6 (0,1). pak fz(z) = ©7Tz(l-7T)"-z = exp{zln(T^)+nln(l-7r)+ln©} pro z = 0,... ,n, přičemž EZ = ]i = nn a DZ = nn(í — n). Pravděpodobnostní funkce není ve škálové formě, proveďme reparametrizaci = ln 71 1 - 71 = ln nn n — nn = ln n — ]i n = 1+é a 1 — n = 1 1 + e9' Jan KoláCek (PřF MU) M5VM05 Statistické modelováni Základní pojmy a definice Tedy d(y,(f>) ^ 7(0) =nln(l + ee) m = í = 1 ĺú = 1
\,f>2. jsou neznámé parametry a x,- jsou známé kovariáty.
Jan Koláček (PřF MU)
M5VM05 Statistické modeloval
29 / 57
Příklad
Jan Koláček (PřF MU)
M5VM05 Statistické modeloval
30 / 57
Příklad
Jestliže Y,- ~ G(a,/3(- = jsou pro i= í,...,n nezávislé náhodné veličiny (EY(- = Hi = a/3,), g(}ii) = \tí}Ií = + fÍ2xi Je logaritmická linkovací funkce, ^1,^2 a a = ^ Jsou neznámé parametry (a je rušivý parametr) a x,- jsou známé kovariáty.
Jan Koláček (PřF MU)
M5VM05 Statistické modeloval
31 / 57
Příklad
-0.6 -0.4 -0.2 0 0.2 0.4 0.6 0.8
X
Obrázek : Ukázka GLM modelu s linkovací funkcí g(ji) = \nfi pro náhodnou veličinu Y s gamma rozdělením.
Jan Koláček (PřF MU) M5VM05 Statistické modelování 32 / 57
Příklad
Příklad 15
Poissonovská regrese.
Yi ~ Po(m)
jsou pro i = 1,... ,n nezávislé náhodné veličiny (EY{ =
g(Hi) = \nni = fii+frxi
je logaritmická linkovací funkce, f>\,f>2. jsou neznámé parametry a x,- jsou známé kovariáty.
Jan Koláček (PřF MU)
M5VM05 Statistické modeloval
33 / 57
Příklad
Příklad
Příklad 16 Binomická regrese:
Y i ~ Bi(rii, ni) jsou pro i = 1,... ,n nezávislé náhodné veličiny, kde
je logistická li n kovací funkce, fii, f$2 Jsou neznámé parametry a x,- jsou známé kovariáty.
Například ve farmaceutickém experimentu může být počet pacientů, kterým byla podána dávka x,- nového léku a Y i počet pacientů dávající pozitivní odpověď na danou dávku x,- nového léku.
y.
Jestliže pozorujeme, že roste spolu s x,-, hledáme model, ve kterém 7i(- je funkcí x,-, hodnot 0 < 7T(- < 1. Proto model TCj = fÍ2xi nem vhodný, avšak /3i + /32X,- = ln í j obvykle pracuje dobře.
Jan Koláček (PřF MU)
M5VM05 Statistické modeloval
35 / 57
Příklad
Jan Koláček (PřF MU)
M5VM05 Statistické modelování
36 / 57
Praktický příklad
Příklad 17
V souboru „motak.Rdata" jsou uložena data o lovu tetřeva dravcem jménem Moták pilich (Circus cyaneus) v závislosti na výskytu tetřeva. Označme Y,-procento zkonzumovaných tetřevů a x,- počet tetřevů v dané oblasti. Teorie zabývající se chováním těchto dravců navrhují k modelování použít vztahu
e(Yí) = m =
txxf ô + xf
kde Y i má Gamma rozdělení. Je tedy třeba odhadnout neznámé parametry cc a S. Užitím linkovací funkce inverse dostáváme
1 _ 1 3
Definování nových parametrů fio = l/tx.afii=S/tx. dostáváme lineární vztah
1 „ „ 1
.3 '
Jan Koláček (PřF MU) M5VM05 Statistické modelováni
Praktický příklad
Konzumace tetřeva motákem
40 60 80 100 120
počty tetřeva
Obrázek : Aplikace Gamma regrese s linkovací funkcí g(]i) — na data motak.
Jan Koláček (PřF MU)
M5VM05 Statistické modeloval
38 / 57
Odhady neznámych parametrů v GLM
Všimněme si, že rozdělení náhodných veličin Y,- jsou stejného typu a logaritmus sdružené věrohodnostní funkce má tvar
f (0;y) = tm-,Vi) = t ■
Odhad neznámých parametru metodou maximální věrohodnosti dostaneme řešením rovnic typu
Podle věty 5 konverguje matice druhých parciálních derivací skoro jistě k matici —J„, která je při regularitě systému hustot negativně definitní.
Jan Koláček (PřF MU)
M5VM05 Statistické modeloval
39 / 57
Řešení věrohodnostních rovnic I
Věta 18
Mějme náhodný výběr Y = (Y\,..., Y„ )T, který se řídí zobecněným lineárním modelem s linkovací funkcí
g(m) = *i P = Vi i=l,...,n.
Předpokládejme, že pro i = 1,... ,n existují příslušné derivace 7'(0;)'7"(^i) 3 platí
EYt = m = 7'(6i) DYj = 7"(6i)Uf)-
Pak
u; = u;^ = ix-^^d^ (6)
Jan KoláCek (PřF MU) M5VM05 Statistické modelováni
Řešení věrohodnostních rovnic II
Věta 18
což lze zapsat maticově
U* = U£(j8) = (Lij.....U*k)T = XTWQr (8)
Jn = J„(j6)= (/í)*.=i=XTWX, (9)
kde
r = (ri(j8).....r„(/3))T r,- = Y,- - # = Y,--g~L{x]p)
1 / 3y(-s
W = í/Íflg{H7i(j8),...,H7„(j8)} H7,- m. ydfJ.
1 /„t ,
2
Jan Koláček (PřF MU) M5VM05 Statistické modelováni
Řešení věrohodnostních rovnic
Řešíme tedy věrohodnostní rovnice
dl* _ _
w = - = r^- = yx^Yi-1li)^ = o /=i k
Ty nejsou lineární vzhledem k neznámým parametrům, musí se řešit numerickou iterací.
Jan KoláCek (PřF MU)
M5VM05 Statistické modelováni
Newton-Raphsonova metoda
Chceme-li najít řešení systému nelineárních rovnic U£(/3) = 0, lze použít následující iterativní postup:
O Nejprve provedeme linearizaci pomocí Taylorova rozvoje v okolí bodu kde /S0 je nějaký počáteční odhad: U*(/S) » U*(/S0) + U*'(/S0)(/S -/S0). Protože U£(/3) = 0, pak po jednoduchých úpravách dostaneme
/3«/30-[u*'(/30)]_1U*(/30).
O Odhady parametrů v s-tém kroku jsou získány ze vztahu
Iterační proces popsaný v předchozím bodě pokračuje tak dlouho, dokud
-ís+l) ~(s)
/T - £ Rí 0.
Jan KoláCek (PřF MU)
M5VM05 Statistické modelováni
Metoda skórování
Alternativní procedurou k Newton-Raphsonově metodě je tzv. metoda skórování, kdy se matice druhých parciálních derivací (/S) nahradí její střední hodnotou, tj. maticí — Jn(/S), kde Jn(/S), je informační matice. Druhý iterační krok pak upravíme takto:
)8 = )8 +
j.