M5VM05 Statistické modelování 9. Zobecněné lineární modely Jan Koláček (kolacek@math.muni.cz) Ustav matematiky a statistiky, Přírodovědecká fakulta, Masarykova univerzita, Brno "f Jan Koláček (PřF MU) M5VM05 Statistické modelování 1/57 Motivace V reálném světě má mnoho procesů jiný, než lineární vztah závislosti. Např. v ekonomii se ukazuje, že mnoho vztahů má logaritmickou závislost, k vysvětlení procesů v přírodních vědách se užívají reciproké, mocninné i další vztahy. Vysvětlovaná veličina popisující pravděpodobnost přežití člověka, v případě určité nemoci a určitého způsobu léčby, může z definice pravděpodobnosti nabývat hodnot pouze z intervalu [0,1], což by v případě klasického lineárního modelu bylo možné zajistit jen za přijetí určitých omezení na parametry modelu. Také normalita chyb je často nesplněným předpokladem klasického lineárního regresního modelu. Připomeňme, že normalita se vyznačuje nezávislosti střední hodnoty a rozptylu. Typicky např. u ekonomických veličin s rostoucí střední hodnotou obvykle roste rozptyl náhodné veličiny, přičemž náhodné chyby mají v těchto případech často nesymetrická, kladně sešikmená rozdělení. Jan Koláček (PřF MU) M5VM05 Statistické modeloval 2/57 Základní pojmy a definice I Definice 1 Mějme parametrický prostor G C K"1. Řekneme, že systém m-parametrických hustot TZg = {f(y;9):0=(01.....6mf e 0} je regulární, jestliže platí (1) O C IR"1 je otevřená borelovská množina. (2) Množina M = {y G R" - f (y',6) > 0} nezávisí na parametru 6. (3) Pro každé y E M existuje konečná parciální derivace /ľ(y;0) = ä^ (í = i.....«)• Jan Koláček (PřF MU) M5VM05 Statistické modeloval 3/57 Základní pojmy a definice II Definice 1 (4) Pro všechny d = (6lr..., 0m)T E 0 platí kde F(y;0) je odpovídající distribuční funkce. (5) Pro všechny 6 = (8i,... ,8m)T E O je integrál ain/(y;0)ain/(y;0) M 30; de. dF(y;0) i,j=l,...,m konečný a matice J = J(0) = (/!y(0))^-_1 je pozitivně definitní. Matice J se nazývá Fisherova informační matice o parametru 6. Jan Koláček (PřF MU) M5VM05 Statistické modelováni Základní pojmy a definice Definice 2 Nechť / E ^řeg- Pak náhodný vektor U = U(0) = (U1(6),...,Um(0))T se složkami Ui = Ui(6) = ain/(Y;0) d6i se nazývá skórový vektor příslušný hustotě/. Jan Koláček (PřF MU) M5VM05 Statistické modelováni Základní pojmy a definice I Věta 3 (1) Je-li f E F™eg 3 pro i,j = 1,..., m existují pak EU (6) = 0 a DV (6) = J(0) Jan Koláček (PřF MU) M5VM05 Statistické modelováni Základní pojmy a definice II Věta 3 (2) Platí-li navíc pro i,j = 1,... ,m = o, pak kde J(0) = -E(U'(0)), U'(fl) = au,-(e) 30; y=i Jan KoláCek (PřF MU) M5VM05 Statistické modelováni Základní pojmy a definice Uvažujme náhodný výběr Y„ = (Yi,..., Yn)T z rozdělení/ e J7^. Označme M = {y £ E :f(y;d) > 0}. Pak sdružená hustota Značení: funkce: n. vektory: U* u* matic, fce: J /v„(y;0) = flf(yi, ô), y = (yi.....y«)' e f* = K = E(0;y) ufc(0) U*(0) J(0) J«(0) ln/(y*;0) in/yB(y;0) f31n/(Yt;fl) i,-39;—" íain/Y„(Y;8) V 331 ' 31n/(Yt;fl)\T 31n/Y„(Y;8)^T * ' O 6 m Jan KoláCek (PřF MU) ,V1 vl5VM05 Statistické modelovaní Základní pojmy a definice I Věta 4 Uvažujme náhodný výběr Y„ = (Yi,..., Yn)T z rozdělení s hustotou f E F™eg. (1) Pokud pro i, j = 1,... ,tn existují pak EU*n(0) =0 a DU*n(0) = n](6) . Jan Koláček (PřF MU) M5VM05 Statistické modelováni Základní pojmy a definice II Věta 4 (2) Platí-li navíc pro i,j = 1,... ,m o, (tj. f je regulární i v 2. derivacích), pak E(U£'(0)) = -nj(fl), /rete dU*{9)\ U*(0) 30; Jan KoláCek (PřF MU) M5VM05 Statistické modelováni Základní pojmy a definice I Věta 5 Mějme náhodný výběr\n = (Yi,... ,Yn)T z rozdělení s regulárni hustotou f £ ?7eg- Označme M = {y 6 R :/(y; 0) > 0}. Necht pro všechna y E M, 6 E 0 a i,j = 1,..., m existují druhé parciální derivace hustoty f [y; 6). (1) Pak platí A nm(oj(0)). Dále platí -u;(0)Tj(0)-1u;(0) A X2(m). Jan Koláček (PřF MU) M5VM05 Statistické modeloval 11 / 57 Základní pojmy a definice II Věta 5 (2) Platí-li navíc, že f je regulární i v 2.derivacích, tj. J (y; e) o, pak matice náhodných veličin äu*(f>)\ 1 (d2ln{d;Y) n S.J y=l -J(0)- Jan Koláček (PřF MU) M5VM05 Statistické modelováni Základní pojmy a definice Definice 6 (a) Věrohodnostní funkcí rozumíme funkci vektorového parametru 6 Wy)=f(r,o) (b) logaritmickou věrohodnostní funkcí nazýváme funkci Z(0;y) =lnL(0;y) (c) Řekneme, že odhad 0mle = 0MLE(Y) je maximálně věrohodný odhad (MLE) vektorového parametru 6, pokud platí L(6MLE;\) > L(6;\) pro všechna 6 G G. Jan KoláCek (PřF MU) M5VM05 Statistické modeloval 13 / 57 Základní pojmy a definice Věta 7 Mějme náhodný výběr\n = (Yi,...,Y„)T z rozdělení s regulární hustotou f e ?Ťeg- Označme M = {y E~R :f(y;6) > 0}. Nechi pro všechna y e M, 6 E © a i,j = 1,..., m existují druhé parciální derivace hustoty f [y; 0) a platí (1) ^(0mle"0) ~ NmfrW)-1) (2) W = (0mle - 0)TnJ(0)(0mle - 0) ~ X2{m) , tzv. Waldova statistika. Jan Koláček (PřF MU) M5VM05 Statistické modeloval 14 / 57 Základní pojmy a definice Definice 8 Řekneme, že pozorovaní pochází z rozdělení exponenciálního typu, pokud jeho pravděpodobnostní funkce (v případě diskrétních rozdělení) či hustota (v případě spojitých rozdělení) je tvaru f(y)=exp{a(y)b(8)+c(8)+d(y)}, kde 8 je (neznámý) tzv. přirozený parametr a a{y),b{8),c{8),d{y) jsou známé funkce. Pokud a a(y) = y, říkáme že pravděpodobnostní funkce, popř. hustota je v kanonické formě. • v konkrétním rozdělení figurují další neznámé parametry, nazveme je tzv. rušivými parametry. Jan Koláček (PřF MU) M5VM05 Statistické modeloval 15 / 57 Základní pojmy a definice V dalším budeme uvažovat pouze regulární a kanonické formy spolu s podmínkou b(6) = 8 a přitom zavedeme do označení jeden rušivý parametr

0, d (y) jsou známé funkce, a pokud ip( 0, ý > 0 je tzv. faktor měřítka (scale factor) o; > 0 je známá apriorní váha. Tato forma se také nazývá škálovou formou hustoty exponenciálního typu. Jan Koláček (PřF MU) M5VM05 Statistické modeloval 16 / 57 Základní pojmy a definice Věta 9 Mějme náhodnou veličinu Y z rozdělení s regulárni hustotou f exponenciálního typu: /(3/) = exp{^P+%,<ř)}. (1) Pak EY = i\Q) Necht navíc platí kdef"(Y;6) = &&?±, pak de2 DY = i'(6)ip( 0. f(y) = V2 : exp 1 fy-F 7(8) = exp < 2^ ii/2 i, ,^ ( = 6 = JI 7"(0) = 1 ip(cp) Jan Koláček (PřF MU) M5VM05 Statistické modelováni Základní pojmy a definice Skutečně platí Tedy EY = 7'(6) = F DY = j"(6)ip( = 1. Jan Koláček (PřF MU) M5VM05 Statistické modelováni Základní pojmy a definice Příklad 11 (Binomické rozdělení) Mějme Z~Bi(n,n), n 6 N,7r 6 (0,1). pak fz(z) = ©7Tz(l-7T)"-z = exp{zln(T^)+nln(l-7r)+ln©} pro z = 0,... ,n, přičemž EZ = ]i = nn a DZ = nn(í — n). Pravděpodobnostní funkce není ve škálové formě, proveďme reparametrizaci = ln 71 1 - 71 = ln nn n — nn = ln n — ]i n = 1+é a 1 — n = 1 1 + e9' Jan KoláCek (PřF MU) M5VM05 Statistické modelováni Základní pojmy a definice Tedy d(y,(f>) ^ 7(0) =nln(l + ee) m = í = 1 ĺú = 1 \,f>2. jsou neznámé parametry a x,- jsou známé kovariáty. Jan Koláček (PřF MU) M5VM05 Statistické modeloval 29 / 57 Příklad Jan Koláček (PřF MU) M5VM05 Statistické modeloval 30 / 57 Příklad Jestliže Y,- ~ G(a,/3(- = jsou pro i= í,...,n nezávislé náhodné veličiny (EY(- = Hi = a/3,), g(}ii) = \tí}Ií = + fÍ2xi Je logaritmická linkovací funkce, ^1,^2 a a = ^ Jsou neznámé parametry (a je rušivý parametr) a x,- jsou známé kovariáty. Jan Koláček (PřF MU) M5VM05 Statistické modeloval 31 / 57 Příklad -0.6 -0.4 -0.2 0 0.2 0.4 0.6 0.8 X Obrázek : Ukázka GLM modelu s linkovací funkcí g(ji) = \nfi pro náhodnou veličinu Y s gamma rozdělením. Jan Koláček (PřF MU) M5VM05 Statistické modelování 32 / 57 Příklad Příklad 15 Poissonovská regrese. Yi ~ Po(m) jsou pro i = 1,... ,n nezávislé náhodné veličiny (EY{ = g(Hi) = \nni = fii+frxi je logaritmická linkovací funkce, f>\,f>2. jsou neznámé parametry a x,- jsou známé kovariáty. Jan Koláček (PřF MU) M5VM05 Statistické modeloval 33 / 57 Příklad Příklad Příklad 16 Binomická regrese: Y i ~ Bi(rii, ni) jsou pro i = 1,... ,n nezávislé náhodné veličiny, kde je logistická li n kovací funkce, fii, f$2 Jsou neznámé parametry a x,- jsou známé kovariáty. Například ve farmaceutickém experimentu může být počet pacientů, kterým byla podána dávka x,- nového léku a Y i počet pacientů dávající pozitivní odpověď na danou dávku x,- nového léku. y. Jestliže pozorujeme, že roste spolu s x,-, hledáme model, ve kterém 7i(- je funkcí x,-, hodnot 0 < 7T(- < 1. Proto model TCj = fÍ2xi nem vhodný, avšak /3i + /32X,- = ln í j obvykle pracuje dobře. Jan Koláček (PřF MU) M5VM05 Statistické modeloval 35 / 57 Příklad Jan Koláček (PřF MU) M5VM05 Statistické modelování 36 / 57 Praktický příklad Příklad 17 V souboru „motak.Rdata" jsou uložena data o lovu tetřeva dravcem jménem Moták pilich (Circus cyaneus) v závislosti na výskytu tetřeva. Označme Y,-procento zkonzumovaných tetřevů a x,- počet tetřevů v dané oblasti. Teorie zabývající se chováním těchto dravců navrhují k modelování použít vztahu e(Yí) = m = txxf ô + xf kde Y i má Gamma rozdělení. Je tedy třeba odhadnout neznámé parametry cc a S. Užitím linkovací funkce inverse dostáváme 1 _ 1 3 Definování nových parametrů fio = l/tx.afii=S/tx. dostáváme lineární vztah 1 „ „ 1 .3 ' Jan Koláček (PřF MU) M5VM05 Statistické modelováni Praktický příklad Konzumace tetřeva motákem 40 60 80 100 120 počty tetřeva Obrázek : Aplikace Gamma regrese s linkovací funkcí g(]i) — na data motak. Jan Koláček (PřF MU) M5VM05 Statistické modeloval 38 / 57 Odhady neznámych parametrů v GLM Všimněme si, že rozdělení náhodných veličin Y,- jsou stejného typu a logaritmus sdružené věrohodnostní funkce má tvar f (0;y) = tm-,Vi) = t ■ Odhad neznámých parametru metodou maximální věrohodnosti dostaneme řešením rovnic typu Podle věty 5 konverguje matice druhých parciálních derivací skoro jistě k matici —J„, která je při regularitě systému hustot negativně definitní. Jan Koláček (PřF MU) M5VM05 Statistické modeloval 39 / 57 Řešení věrohodnostních rovnic I Věta 18 Mějme náhodný výběr Y = (Y\,..., Y„ )T, který se řídí zobecněným lineárním modelem s linkovací funkcí g(m) = *i P = Vi i=l,...,n. Předpokládejme, že pro i = 1,... ,n existují příslušné derivace 7'(0;)'7"(^i) 3 platí EYt = m = 7'(6i) DYj = 7"(6i)Uf)- Pak u; = u;^ = ix-^^d^ (6) Jan KoláCek (PřF MU) M5VM05 Statistické modelováni Řešení věrohodnostních rovnic II Věta 18 což lze zapsat maticově U* = U£(j8) = (Lij.....U*k)T = XTWQr (8) Jn = J„(j6)= (/í)*.=i=XTWX, (9) kde r = (ri(j8).....r„(/3))T r,- = Y,- - # = Y,--g~L{x]p) 1 / 3y(-s W = í/Íflg{H7i(j8),...,H7„(j8)} H7,- m. ydfJ. 1 /„t , 2 Jan Koláček (PřF MU) M5VM05 Statistické modelováni Řešení věrohodnostních rovnic Řešíme tedy věrohodnostní rovnice dl* _ _ w = - = r^- = yx^Yi-1li)^ = o /=i k Ty nejsou lineární vzhledem k neznámým parametrům, musí se řešit numerickou iterací. Jan KoláCek (PřF MU) M5VM05 Statistické modelováni Newton-Raphsonova metoda Chceme-li najít řešení systému nelineárních rovnic U£(/3) = 0, lze použít následující iterativní postup: O Nejprve provedeme linearizaci pomocí Taylorova rozvoje v okolí bodu kde /S0 je nějaký počáteční odhad: U*(/S) » U*(/S0) + U*'(/S0)(/S -/S0). Protože U£(/3) = 0, pak po jednoduchých úpravách dostaneme /3«/30-[u*'(/30)]_1U*(/30). O Odhady parametrů v s-tém kroku jsou získány ze vztahu Iterační proces popsaný v předchozím bodě pokračuje tak dlouho, dokud -ís+l) ~(s) /T - £ Rí 0. Jan KoláCek (PřF MU) M5VM05 Statistické modelováni Metoda skórování Alternativní procedurou k Newton-Raphsonově metodě je tzv. metoda skórování, kdy se matice druhých parciálních derivací (/S) nahradí její střední hodnotou, tj. maticí — Jn(/S), kde Jn(/S), je informační matice. Druhý iterační krok pak upravíme takto: )8 = )8 + j.. Jan KoláCek (PřF MU) M5VM05 Statistické modeloval 45 / 57 Důsledek Hypotézu H0 : CTß = 0 zamítáme na hladině významnosti a, pokud platí W >*?-«(max,f> jsou odpovídající maximálně věrohodné odhady. Jan KoláCek (PřF MU) M5VM05 Statistické modelováni Ověřování vhodnosti submodelu Věta 24 Mějme základní model GLM s /}