M5VM05 Statistické modelování 9. Zobecněné lineární modely Jan Koláček (kolacek@math.muni.cz) Ustav matematiky a statistiky, Přírodovědecká fakulta, Masarykova univerzita, Brno Jan Koláček (PřF MU) M5VM05 Statistické modelování 1/57 Motivace V reálném světě má mnoho procesů jiný, než lineární vztah závislosti. Např. v ekonomii se ukazuje, že mnoho vztahů má logaritmickou závislost, k vysvětlení procesů v přírodních vědách se užívají reciproké, mocninné i další vztahy. Vysvětlovaná veličina popisující pravděpodobnost přežití člověka, v případě určité nemoci a určitého způsobu léčby, může z definice pravděpodobnosti nabývat hodnot pouze z intervalu [0,1], což by v případě klasického lineárního modelu bylo možné zajistit jen za přijetí určitých omezení na parametry modelu. Také normalita chyb je často nesplněným předpokladem klasického lineárního regresního modelu. Připomeňme, že normalita se vyznačuje nezávislosti střední hodnoty a rozptylu. Typicky např. u ekonomických veličin s rostoucí střední hodnotou obvykle roste rozptyl náhodné veličiny, přičemž náhodné chyby mají v těchto případech často nesymetrická, kladně sešikmená rozdělení. Jan Koláček (PřF MU) M5VM05 Statistické modelování 2/57 Základní pojmy a definice I Definice 1 Mějme parametrický prostor 0 C Rm. Řekneme, že systém m-parametrických hustot -^reg = t/(y; 0): 0 = • • •, emy e 0} je regulární, jestliže platí (1) 0 C Rm je otevřená borelovská množina. (2) Množina M = {y G Rn :/(y;0) > 0} nezávisí na parametru 0. (3) Pro každé y G M existuje konečná parciální derivace f!(r,e) = dI^1 (/ = i.....«). Jan Koláček (PřF MU) M5VM05 Statistické modelování 3/57 Základní pojmy a definice II Definice 1 (4) Pro všechny 8 = (9lr9m)T G 0 platí kde F(y; 0) je odpovídající distribuční funkce. (5) Pro všechny 0 = (6lf0m)T e 0 je integrál konečný a matice J = J(0) = (L-(0))m je pozitivně definitní. Matice J se nazývá Fisherova informační matice o parametru 9. Jan Koláček (PřF MU) M5VM05 Statistické modelování 4/ Základní pojmy a definice Definice 2 Nechť / G ^Teg- náhodný vektor U = U(0) = (Ul(0),...,Um(O))T se složkami u,. Ul(e). ajageffl se nazývá skórový vektor příslušný hustotě/. Jan Koláček (PřF MU) M5VM05 Statistické modelování Základní pojmy a definice I Věta 3 (1) Je-li f G F%g 3 pro i, j = 1,..., m existují fnu..fí)_d2f(y,e) JiiKy' ' de^ ' pak EU(0) =0 a DU(0) = J(0) . Jan Koláček (PřF MU) M5VM05 Statistické modelování 6/ Základní pojmy a definice II Věta 3 (2) P lstí-li navíc pro i,j = 1,... ,m f!,'(xe) E'7(vľš) >=°< pak Ke) = -E{vm kde 'dUi{0) m U'(0) = B9j i,j=l Jan Koláček (PřF MU) M5VM05 Statistické modelování 7/57 Základní pojmy a definice Uvažujme náhodný výběr Yn = (Yi,..., Yn)T z rozdělení/ £ .TTeg- Označme M = {y G R :/(y;0) > 0}. Pak sdružená hustota Značení: funkce: n. vektory: matic, fce: j n hn (y; e) = n/(y-0)' y = fa> • • - y«)7 e Rn- z=l l(0;yk) my) u* = -i/i U]t(0) U*(0) J(fl) Jan Koláček (PřF MU) ln/(yfc; 0) Wy„ (y; 0) 30i 31n/Y„(Y;0) 31n/(Yfc;6) f ... f de m in 301 31n/Y„(Y;0) f ... f de m (/MayayiF(y;fl)).. Jn — Jn(0) — (W)5=i = /M---/May)31ny^v(y;fl) m m M5VM05 Statistické modelování i,j=l 8/57 Základní pojmy a definice I Věta 4 Uvažujme náhodný výběr Y„ = (Y\,...,Y„)T z rozdělenís hustotou/ G J7, (1) Pokud pro i, j = l,...,m existují f//(v.fí)_d2f(y,o) fi'{y'e) ~ ~děidě~' pak EU*(0) = 0 a DU*(9) = nj(0) . Jan Koláček (PřF MU) M5VM05 Statistické modelování 9/ Základní pojmy a definice II Věta 4 (2) P lstí-li navíc pro i,j = 1,... ,m (tj. f je regulární i v 2. derivacích), pak E(U*'(0)) = -nJ(0), kde 'duUd) m U* (0) = B9j i,j=l Jan Koláček (PřF MU) M5VM05 Statistické modelování 10 / 57 Základní pojmy a definice I Věta 5 Mějme náhodný výběr Y„ = {y\,..., yn)t z rozdělení s regulární hustotou f G J^reg- OznačmeM={j/GR :f(y;0) > 0}. Necht pro všechna y G M, 0 E 0 a i,j = 1,..., m existují druhé parciální derivace hustoty f {y; 0). (1) Pak platí A Nm(O,J(0)). Dále platí A Jan Koláček (PřF MU) M5VM05 Statistické modelování 11/57 Základní pojmy a definice II Věta 5 (2) Platí-li navíc, že f je regulární i v 2.derivacích, tj. pak matice náhodných veličin Jan Koláček (PřF MU) M5VM05 Statistické modelování 12 / 57 Základní pojmy a definice Definice 6 (a) Věrohodnostní funkcí rozumíme funkci vektorového parametru 6 L(d;y)=f(y;d) (b) logaritmickou věrohodnostní funkcí nazýváme funkci Z(0;y) =InL(0;y) (c) Řekneme, že odhad 0MLE = 6MLE(\) je maximálně věrohodný odhad (MLE) vektorového parametru Q, pokud platí L(0mle;Y) >L(0;Y) pro všechna 6 G 0. Jan Koláček (PřF MU) M5VM05 Statistické modelování 13/57 Základní pojmy a definice Věta 7 Mějme náhodný výběr Yn = (y\,..., Yn)T z rozdělení s regulární hustotou f £ Označme m = {y G R :/(y; 0) > 0}. A/ec/?ŕ pro všechna y G M, 0 G 0 a z, _/ = 1,.. .,m existují druhé parciální derivace hustoty f {y, Q) a platí (1) V^(0MLE-0) ~ ^„(OJÍfl)-1) (2) W = (?mle - 0)M(0)(0mle - S) ~ X2(m) , tzv. Waldova statistika. Jan Koláček (PřF MU) M5VM05 Statistické modelování 14/57 Základní pojmy a definice Definice 8 Řekneme, že pozorování pochází z rozdělení exponenciálního typu, pokud jeho pravděpodobnostní funkce (v případě diskrétních rozdělení) či hustota (v případě spojitých rozdělení) je tvaru f(y)=exp{a(y)b(6)+c(6)+d(y)}, kde 6 je (neznámý) tzv. přirozený parametr a a(y),b(9),c(9),d(y) jsou známé funkce. Pokud 9 a{\j) = y, říkáme že pravděpodobnostní funkce, popř. hustota je v kanonické formě. • v konkrétním rozdělení figurují další neznámé parametry, nazveme je tzv. rušivými parametry. Jan Koláček (PřF MU) M5VM05 Statistické modelování 15/57 Základní pojmy a definice V dalším budeme uvažovat pouze regulární a kanonické formy spolu s podmínkou b(6) = 9 a přitom zavedeme do označení jeden rušivý parametr (p kde 6 a (p jsou parametry 7(0), ip((f>) > 0, d(y) jsou známé funkce, a pokud ^(0) = % > 0, (/> > 0 je tzv. faktor měřítka (scale factor) co > 0 je známá apriorní váha. Tato forma se také nazývá škálovou formou hustoty exponenciálního typu Jan Koláček (PřF MU) M5VM05 Statistické modelování 16/57 Základní pojmy a definice Věta 9 Mějme náhodnou veličinu Y z rozdělení s regulární hustotou f exponenciálního typu: Pak Necht navíc platí f{y) = exp {^¥T+d{y' 0. /(y) = exp 1 /^y — 2 (7 exp < 7(6) r1--- - - ln I 2naL >P(f) 2aA 2 > d(y, 7W d(y,(p) J 7(0) = nln (l + = Ž = 1 = n = n ti = ]i 7"W = = n/r(l - tt) = p (l - f) OJ = 1 (/> = 1 Jan Koláček (PřF MU) M5VM05 Statistické modelování Základní pojmy a definice Skutečně platí EZ = y"(0) = ]i DZ = y"(6)tp((p) = nn{\ - n) Tedy přirozený parametr 9 = ln n rozptylová funkce V (jí) = }i (l — ^) scale factor ^ = 1 váhy co = 1. Jan Koláček (PřF MU) M5VM05 Statistické modelování Základní pojmy a definice Další rozdělení Poissonovo rozdělení přirozený parametr 0 = lnA rozptylová funkce V(F) = scale factor 4> = i váhy OJ = 1 Gamma rozdělení přirozený parametr 0 = -i Jí rozptylová funkce V(fi) = scale factor váhy co = 1 Exponenciální rozdělení přirozený parametr 0 = -± rozptylová funkce scale factor váhy co = 1. Jan Koláček (PřF MU) M5VM05 Statistické modelování Omezení LM Omezení lineárního modelu : O Je omezen pouze na třídu normálních rozdělení: Yj ~ N(}ii,cr2) i = 1,... ,n, kde Y = {Y\,..., Yn)r tvoří náhodný výběr. O Předpokládá striktní rovnost mezi střední hodnotou náhodné veličiny Yj a lineární kombinací prediktorů: EYj = fij = x-jS, kde Xj = {x\\,... /Xj]c)ř je vektor prediktorů a jS = (/5i,.. .,/5fc) je vektor neznámých parametrů. Zobecnění lineárního modelu : O Zobecnění na nenormální rozdělení, a to na tzv. třídu exponenciálních rozdělení O Zobecnění na nelineární funkce, které spojují neznámé střední hodnoty výchozího rozdělení náhodné veličiny Yj s prediktivními proměnnými. Jan Koláček (PřF MU) M5VM05 Statistické modelování 24/57 Definice GLM I Definice 10 (Zobecněný lineární model) Mějme náhodný výběr Y = (Y\,..., Yn)T a nechť rozdělení Yz- závisí na pevných vektorech Xj = {x{\,... ,Xi^)T G R^ prostřednictvím neznámého vektoru parametrů j6 = (j6i,...,PkY- Matice X = (x[,... ,x^)T má rozměr n x k a hodnost k < n. Říká me, že Y — (Y\,..., YW)T se řídi zobecněným lineárním modelem (Generalized Linear Model), jestliže dále platí: (1) rozdělení Y = {Y\,..., Yn)T je exponenciálního typu s regulární hustotou /(y,0) = n/(y«^«) = exp { £ i=l {i=l y A -7 (.Oj) + d{\ji, kde ]íí = jí(9í) = EYj. (5) Řekneme, že linkovací funkce je kanonická, pokud 9j = t]j = g(j^i)- Jan Koláček (PřF MU) M5VM05 Statistické modelování 26/57 Příklad Příklad 3 Regresní přímka v klasickém lineárním regresním modelu: jsou pro i = 1,... ,n nezávislé náhodné veličiny, g(jíi) = jíí = j8i + hxi je identická linkovací funkce, fi\,fi2 3 o1 Jsou neznámé parametry (přičemž cr2 je rušivým parametrem) a Xj jsou známé kovariáty Jan Koláček (PřF MU) M5VM05 Statistické modelování 27/57 Příklad Obrázek : Ukázka klasického regresního modelu s homogenním rozptylem. Jan Koláček (PřF MU) M5VM05 Statistické modelování 28 / Příklad Příklad 4 Regresní modely s logaritmickou linkovací funkcí pro exponenciálně a gamma rozdělené závisle proměnné: Yí~Ex(\í) = G(1,\í) jsou pro i = 1,... ,n nezávislé náhodné veličiny (EYj = jij = AJ, je logaritmická linkovací funkce, $1,^2 Jsou neznámé parametry a Xj jsou známé kovariáty Jan Koláček (PřF MU) M5VM05 Statistické modelování 29/57 Příklad X Obrázek : Ukázka GLM modelu s linkovad funkcí g(}í) =h\}í pro exponenciálně rozdělenou náhodnou veličinu Y. Jan Koláček (PřF MU) M5VM05 Statistické modelování Příklad Jestliže Y i ~ G(ol,$\ = ^) jsou pro i = \,...,n nezávislé náhodné veličiny (EYj = jíj = ccfij), g(jíi) = ln= j6i + ^2xi Je logaritmická linkovací funkce, ]6i,j62 a oc = jsou neznámé parametry (a: je rušivý parametr) a xz- jsou známé kovariáty. Jan Koláček (PřF MU) M5VM05 Statistické modelování Příklad Obrázek : Ukázka GLM modelu s linkovad funkcí g(}í) =h\}í pro náhodnou veličinu Y s gamma rozdělením. Jan Koláček (PřF MU) M5VM05 Statistické modelování Příklad Příklad 5 Poissonovská regrese: Yi ~ Po(jíí) jsou pro i = 1,... ,n nezávislé náhodné veličiny (EYj = jij), g(jíi) = In jii = fix+fcXi je logaritmická linkovací funkce, $1,^2 Jsou neznámé parametry a Xj jsou známé kovariáty Jan Koláček (PřF MU) M5VM05 Statistické modelování Příklad 0.9 1 1.1 1.2 1.3 1.4 1.5 1.6 1.7 1.8 x Obrázek : Ukázka poissonovské regrese s linkovací funkcí g(fi) — Infi. Jan Koláček (PřF MU) M5VM05 Statistické modelování 34/ Příklad Příklad 6 Binomická regrese: Y i ~ Bi(nif ni) jsou pro i = 1,... ,n nezávislé náhodné veličiny, kde Tli je logistická linkovací funkce, $1,^2 Jsou neznámé parametry a Xj jsou známé kovariáty Například ve farmaceutickém experimentu může být n\ počet pacientů, kterým byla podána dávka Xj nového léku a Y j počet pacientů dávající pozitivní odpověď na danou dávku x j nového léku. Jestliže pozorujeme, že roste spolu s Xj, hledáme model, ve kterém TZj je funkcí X\, hodnot 0 < Tij < 1. Proto model 7ij = fi\ + není vhodný, avšak fil + f$2xi = ln (t^7) obvykle pracuje dobře. Jan Koláček (PřF MU) M5VM05 Statistické modelování 35 / 57 Příklad Obrázek : Ukázka binomické regrese s linkovací funkcí g{jz) — ln Jan Koláček (PřF MU) M5VM05 Statistické modelování Praktický příklad Příklad 7 V souboru „motak.Rdata" jsou uložena data o lovu tetfeva dravcem jménem Moták pilich (Circus cyaneus) v závislosti na výskytu tetreva. Označme Yj procento zkonzumovaných tetřevů a Xj počet tetřevů v dané oblasti. Teorie zabývající se chováním těchto dravců navrhují k modelování použít vztahu OCX- E(Yi) = m= 1 ô+xY kde Y j má Gam ma rozdělení Je tedy třeba odhadnout neznámé parametry oc a 5. Užitím linkovací funkce inverse dostáváme 1 _ 1 S Definování nových parametrů fi$ = l/ocafii = ô/oc dostáváme lineární vztah 1 1 - = j6o + j6i3. Jan Koláček (PřF MU) M5VM05 Statistické modelování 37 / 57 Praktický příklad Konzumace tetreva motakem pocty tetreva Obrázek : Aplikace Gamma regrese s linkovací funkcí g(}í) — na data motak. Jan Koláček (PřF MU) M5VM05 Statistické modelování 38 Odhady neznámých parametrů v GLM Všimněme si, že rozdělení náhodných veličin Yj jsou stejného typu a logaritmus sdružené věrohodnostní funkce má tvar my) = tWuVi) = t (y'^~jfŕ)+%^)) • Odhad neznámých parametrů metodou maximální věrohodnosti dostaneme řešením rovnic typu dl* 9j6 iW) = o Podle věty 5 konverguje matice druhých parciálních derivací skoro jistě k matici —]nr která je při regularitě systému hustot negativně definitní. Jan Koláček (PřF MU) M5VM05 Statistické modelování Řešení věrohodnostních rovnic I Věta 11 Mějme náhodný výběr Y = {Y\,...,Yn)T, který se řídí zobecněným lineárním modelem s linkovací funkcí g(m) = xlP = Vi i = l,-..,n. Předpokládejme, že pro i = 1,..., n existují příslušné derivace Y(0j), 7"(0/) 3 platí EYi = Fi = i(di) DYi = i'{di)ipi^). Pak Jan Koláček (PřF MU) M5VM05 Statistické modelování 40 / 57 Řešení věrohodnostních rovnic II Věta 11 což lze zapsat maticově \J*n = V*M = (U$,..., Wk)T = XTWQr (8) J„=J„(j8) = (/í)* =XTWX, (9) kde r={rl{fS),...,rn (j8) )T rř = Yť - pť = Yť - g"1 (xTjS) W = diag{w\(fi),... ,wn(fi)} u>i Q = diag{qí(P),...,qn(P)} m 1 /Č^A2 dm' Jan Koláček (PřF MU) M5VM05 Statistické modelování Řešení věrohodnosti!ich rovnic Řešíme tedy věrohodnostní rovnice dl* _"dli _-xij(Yi-Hi)dHi_ Ui dPj tidPj ti DYj dVi 1 Ty nejsou lineární vzhledem k neznámým parametrům, musí se řešit numerickou iterací. Jan Koláček (PřF MU) M5VM05 Statistické modelování Newton-Raphsonova metoda Chceme-li najít řešení systému nelineárních rovnic U^(jS) = 0, lze použít následující iterativní postup: O Nejprve provedeme linearizaci pomocí Taylorova rozvoje v okolí bodu jS kde j60 je nějaký počáteční odhad: U*(j8) « U*(j60) + U*'(jS0)(jS - j80). Protože U*(j6) = 0, pak po jednoduchých úpravách dostaneme p * p0- [^'(/ypu*^). O Odhady parametrů v s-tém kroku jsou získány ze vztahu (s-l) (s-l) O Iterační proces popsaný v předchozím bodě pokračuje tak dlouho, dokud Č(8+1) - p{s)«o. Jan Koláček (PřF MU) M5VM05 Statistické modelování Metoda skórování Alternativní procedurou k Newton-Raphsonově metodě je tzv. metoda skórování, kdy se matice druhých parciálních derivací U* (j8) nahradí její střední hodnotou, tj. maticí —Jn(j8), kde Jn(j8), je informační matice. Druhý iterační krok pak upravíme takto: ~(s) -s(s-l) p = p + u*Gs(s_1)) Využijme vztahů U*(fl=XTW(0)Q(0)r(/i) a J„(0) = XTW(/5)X a dostáváme iterační rovnici XTW(JS(S 1))Xi6(s) =XTW(^(S 1))Z(Í6(S kde ZS""1') = xŕ(s-,,+Q(riV(ŕ(s",)) Jan Koláček (PřF MU) M5VM05 Statistické modelování 44 / 57 Testování hypotéz v GLM modelech Věta 12 Mějme náhodný výběr Yn = (Y\,..., Yn)T, který se řídí zobecněným lineárním modelem s maticí vysvětlujících proměnných Xnx]c. Předpokládejme, že pro i = 1,... ,n existují příslušné derivace ^ [Qi),^" {Qi) 3 platí EYi = m = y (e,-) DYi = y'toOtMtfO. Dále mějme matici C^Xí^ s hodnostíh(C) = q < k. Platí-li hypotéza: Hq : CTj6 = 0, pak Waldova statistika W = &lec(ctJ„(í8)-1c)_1Ct)6mle ~ X2{q), kde j6MLE je maximálně věrohodným odhadem vektorového parametru jS. Jan Koláček (PřF MU) M5VM05 Statistické modelování 45 / 57 Hypotézu H0 : CTj6 = 0 zamítáme na hladině významnosti oc, pokud platí w>*i-B0?)- Protože odhad j6MLE konverguje za předpokladu existence e(z* (j8)) skoro jistě k j6, aproximujeme při výpočtu Waldovy statistiky W Fisherovou informační matici ]n(P) matici Jn(^MLE). Prakticky Testovat hypotézu H0 : jfy = 0 pro j = 1,... ,k lze více způsoby: • Pomocí Waldovy statistiky W, a to při speciální volbě C = cfcxi = (0/ • • • /1/ • • • / 0) • Pomocí vztahu přičemž hypotézu zamítáme, pokud I ^MLE,i kde opět Fisherovou informační matici Jn(jS) aproximujeme maticí Jn(jSMLE) Jan Koláček (PřF MU) M5VM05 Statistické modelování 47/ Ověřování vhodnosti modelu Definice 13 Maximální GLM, který označíme glmmax, splňuje následující podmínky (1) Maximální model je zobecněný lineární model se stejným typem rozdělení jako zkoumaný glm model. (2) Maximální model a zkoumaný mají stejnou linkovací funkci. (3) Počet parametrů maximálního modelu je roven počtu vysvětlovaných veličin n, maximálně věrohodný odhad parametru $max je n-rozměrný vektor $max. Definice 14 Minimální GLM, který označíme glmmjn, splňuje následující podmínky (1) Minimální model je zobecněný lineární model se stejným typem rozdělení jako zkoumaný glm model. (2) Minimální model a zkoumaný mají stejnou linkovací funkci. (3) Počet parametrů minimálního modelu je roven 1, maximálně věrohodný odhad parametru j8min je skalár fimin. ^ i Jan Koláček (PřF MU) M5VM05 Statistické modelování 48 / 57 Submodel Definice 15 Mějme zobecněný lineární model s maticí plánu Xnx]c a vektorem neznámých parametrů jS. Submodel, který označíme GLMSW^, splňuje následující podmínky (1) Submodel je zobecněný lineární model se stejným typem rozdělení jako zkoumaný glm model. (2) Submodel a zkoumaný model mají stejnou linkovací funkci. (3) Vektor neznámých parametrů fisub £ R^a matice plánu Qnxq, pro kterou platí Qnxq = ^nxk^kxq- Aby glmsub byl submodelem modelu glm, musí každý sloupec matice Q patřit do obalu sloupců matice X. To bude splněno právě tehdy, bude-li Q typu Qnxq = ^nxk^kxq- Je třeba si uvědomit, že GLMSW^ je speciálním případem modelu glm. Platí-li tudíž pro náhodný výběr Y model glmsu}j, platí pro Y také model GLM. Jan Koláček (PřF MU) M5VM05 Statistické modelování 49 / 57 Deviace Deviace v zobecněných lineárních modelech je obdobou rozptylu u klasických lineárních regresních modelů. Deviace je tedy kritériem vhodnosti zobecněného lineárního modelu. Jak bude patrné z definice, metoda maximální věrohodnosti totiž odpovídá hledání minima deviace modelu. Definice 16 Mějme modely GLM a GLMmax. Nechť náhodný výběr Y se řídí modelem ■v GLMmax. Skálovou deviací modelu GLM (scaled deviance) rozumíme statistiku d = 2 T [Ká,;Y)-*•(?; Y) kde jS ,jS jsou odpovídající maximálně věrohodné odhady. Jan Koláček (PřF MU) M5VM05 Statistické modelování 50 / 57 Ověřování vhodnosti submodelu Věta 17 Mějme základní model GLM s jS G Kk a jeho submodel GLMsub s físuh G W, přičemž q < k < n. Dále necht náhodný výběr Y se řídí modelem GLM a platí (i) existují druhé parciální derivace hustoty f(y; jS) podle složek f>, (n) piati E I /(;y;/3) I = 0 (i,/ = l,...,fc) (iii) a existuje E z*(/J; Y). Platí-li hypotéza, že submodel GLMsub je vhodný, pak asymptoticky lze rozdělení statistiky ad = dst(^ — d aproximovat rozdělením x (k — q), tj. AD = Dsub-D~X2(k-q). Jan Koláček (PřF MU) M5VM05 Statistické modelování 51/57 Analýza reziduí Nejznámější typy reziduí používaných v GLM : (a) Standardizovaná rezidua (linear): též Pearsonova (b) Standardizovaná transformovaná rezidua (transformed linear) (c) Deviační rezidua (deviance residual) Ještě lepší vlastnosti mají tzv. korigovaná deviační rezidua (bias-adjusted deviance residual) pricemz n D = 2[/*(w;Y) - t(b; Y)] = £<*,-. 1=1 kde Jan Koláček (PřF MU) M5VM05 Statistické modelování 52/ Úlohy k procvičení Příklad 1 V souboru „ toxic.RData" jsou uvedeny hodnoty množství jedovaté látky která vzniká jako vedlejší produkt při určitém chemickém procesu. Datový soubor obsahuje tyto proměnné: VOL objem vzniklé jedovaté látky (litry) TEMP teplota při chemickém procesu (°C) CAT hmotnost katalyzátoru (kg) METHOD metoda použitá při výrobě (kategórialni proměnná - A,B) Hledejte vhodný model pro popis závislosti objemu jedovaté látky na podmínkách procesu. Testujte nejprve, zda použitá metoda má vliv na výsledný objem jedovaté látky. Pomocí stepwise procedury najděte nejvhodnější lineární model a nejvhodnější zobecněný lineární model. U obou modelů ověřte normalitu residuí. [Metoda má vliv, vhodný model: VOL = j60 + j6iMETH0DB + j62TEMP, residua jsou normální] Jan Koláček (PřF MU) M5VM05 Statistické modelování 53 / 57 Úlohy k procvičení I Příklad 2 V balíku „ car", proměnné „SLID" jsou uvedeny výsledky průzkumu z roku 1994 v kanadské provincii Ontario. Průzkum se zabýval vlivem některých faktorů na mzdu respondentů. Datový soubor obsahuje tyto proměnné: wages hodinová mzda (kanadské dolary) education počet let vzdělávání (roky) age věk (roky) sex pohlaví (1 - žena, 2 - muž) language jazyk (1 - angličtina, 2 - francouzština, 3 - ostatní) Jan Koláček (PřF MU) M5VM05 Statistické modelování 54 / 57 Úlohy k procvičení II Příklad 2 Hledejte vhodný model pro popis závislosti platu respondenta na ostatních faktorech. O Zkuste nejprve použít klasický lineární model, najděte nejvhodnější model a proveďte analýzu residuí Jsou splněny předpoklady modelu? O Stále uvažujte lineární model. Místo proměnné wages uvažujte log(wages). Opět nalezněte nejvhodnější model. Zkuste také přidat dvojné či trojné interakce proměnných. Zlepší se kvalita modelu? Q Pomocí stepwise procedury najděte nejvhodnější zobecněný lineární model. [(1) Vhodný model: wages = /3q + j6iage + /^education + /^sex, residua nejsou normální, (2) kvalita se zlepší přidáním dvojných interakcí, (3) vhodný model: wages = /3o + j6iage + /^education + /^sexMale + /^age:sexMale + /^education:sexMale + /^age: education.] Jan Koláček (PřF MU) M5VM05 Statistické modelování 55 / 57 Úlohy k procvičení I Příklad 3 V souboru „novorozenci .RData" jsou uvedeny porodní hmotnosti novorozenců a informace o jejich rodičích. Datový soubor obsahuje tyto proměnné: hmnov vyska hmmat prir pohlavi stav vzdmat vzdot porodní hmotnost novorozence (g) výška matky (cm) hmotnost matky (kg) váhový přírůstek matky během těhotenství (kg) pohlaví dítěte (0 - dívka, 1 - chlapec) stav matky při porodu (1 - svobodná, 2 - vdaná, 3 - rozvedená, 4 - vdova) vzdělání matky (1 - zákí, 2 - vyuč., 3 - středošk., 4 - vysokošk.) vzdělání otce (0 - neuved., 1 - zákí, 2 - vyuč., 3 - středošk., 4 - vysokošk.) Jan Koláček (PřF MU) M5VM05 Statistické modelování 56 / 57 Úlohy k procvičení II Příklad 3 Hledejte vhodný model pro popis závislosti hmotnosti novorozence na jeho rodičích. Testujte nejprve, zda pohlaví má vliv na porodní hmotnost. Pomocí stepwise procedury najděte nejvhodnější model. U modelu ověřte normalitu residuí. [Pohlaví má vliv, vhodný model: hmmat = j6q + /3iprir + ^pohlaví 1 + /^vzdotl + /34Vzdot2 + j65Vzdot3 + ^65 vzdot 4 + ^vyska + jSghimat: pohlaví 1, residua jsou normální] Jan Koláček (PřF MU) M5VM05 Statistické modelování 57/57