M5VM05 Statistické modelování 9. Zobecněné lineární modely
Jan Koláček (kolacek@math.muni.cz)
Ustav matematiky a statistiky, Přírodovědecká fakulta, Masarykova univerzita, Brno
Jan Koláček (PřF MU)
M5VM05 Statistické modelování
1/57
Motivace
V reálném světě má mnoho procesů jiný, než lineární vztah závislosti. Např. v ekonomii se ukazuje, že mnoho vztahů má logaritmickou závislost, k vysvětlení procesů v přírodních vědách se užívají reciproké, mocninné i další vztahy. Vysvětlovaná veličina popisující pravděpodobnost přežití člověka, v případě určité nemoci a určitého způsobu léčby, může z definice pravděpodobnosti nabývat hodnot pouze z intervalu [0,1], což by v případě klasického lineárního modelu bylo možné zajistit jen za přijetí určitých omezení na parametry modelu. Také normalita chyb je často nesplněným předpokladem klasického lineárního regresního modelu. Připomeňme, že normalita se vyznačuje nezávislosti střední hodnoty a rozptylu. Typicky např. u ekonomických veličin s rostoucí střední hodnotou obvykle roste rozptyl náhodné veličiny, přičemž náhodné chyby mají v těchto případech často nesymetrická, kladně sešikmená rozdělení.
Jan Koláček (PřF MU)
M5VM05 Statistické modelování
2/57
Základní pojmy a definice I
Definice 1
Mějme parametrický prostor 0 C Rm. Řekneme, že systém m-parametrických hustot
-^reg = t/(y; 0): 0 =    • • •, emy e 0}
je regulární, jestliže platí
(1) 0 C Rm je otevřená borelovská množina.
(2) Množina M = {y G Rn :/(y;0) > 0} nezávisí na parametru 0.
(3) Pro každé y G M existuje konečná parciální derivace
f!(r,e) = dI^1 (/ = i.....«).
Jan Koláček (PřF MU)
M5VM05 Statistické modelování
3/57
Základní pojmy a definice II
Definice 1
(4) Pro všechny 8 = (9lr9m)T G 0 platí
kde F(y; 0) je odpovídající distribuční funkce.
(5) Pro všechny 0 = (6lf0m)T e 0 je integrál
konečný a matice J = J(0) = (L-(0))m je pozitivně definitní. Matice J se nazývá Fisherova informační matice o parametru 9.
Jan Koláček (PřF MU)
M5VM05 Statistické modelování
4/
Základní pojmy a definice
Definice 2
Nechť / G ^Teg-       náhodný vektor
U = U(0) = (Ul(0),...,Um(O))T     se složkami
u,. Ul(e). ajageffl
se nazývá skórový vektor příslušný hustotě/.
Jan Koláček (PřF MU)
M5VM05 Statistické modelování
Základní pojmy a definice I
Věta 3
(1) Je-li f G F%g 3 pro i, j = 1,..., m existují
fnu..fí)_d2f(y,e) JiiKy' '    de^ '
pak
EU(0) =0        a        DU(0) = J(0) .
Jan Koláček (PřF MU)
M5VM05 Statistické modelování
6/
Základní pojmy a definice II
Věta 3
(2) P lstí-li navíc pro i,j = 1,... ,m
f!,'(xe)
E'7(vľš) >=°<
pak
Ke) = -E{vm
kde
'dUi{0)
m
U'(0) =
B9j
i,j=l
Jan Koláček (PřF MU)
M5VM05 Statistické modelování
7/57
Základní pojmy a definice
Uvažujme náhodný výběr Yn = (Yi,..., Yn)T z rozdělení/ £ .TTeg- Označme M = {y G R :/(y;0) > 0}. Pak sdružená hustota
Značení: funkce:
n. vektory:
matic, fce:
j
n
hn (y; e) = n/(y-0)'   y = fa> • • - y«)7 e Rn-
z=l
l(0;yk)
my)
u* =
-i/i
U]t(0) U*(0)
J(fl)
Jan Koláček (PřF MU)
ln/(yfc; 0)
Wy„ (y; 0)
30i
31n/Y„(Y;0)
31n/(Yfc;6)
f ... f
de
m
in
301
31n/Y„(Y;0)
f ... f
de
m
(/MayayiF(y;fl))..
Jn     —      Jn(0) —
(W)5=i =
/M---/May)31ny^v(y;fl)
m
m
M5VM05 Statistické modelování
i,j=l
8/57
Základní pojmy a definice I
Věta 4
Uvažujme náhodný výběr Y„ = (Y\,...,Y„)T z rozdělenís hustotou/ G J7, (1) Pokud pro i, j = l,...,m existují
f//(v.fí)_d2f(y,o) fi'{y'e) ~ ~děidě~'
pak
EU*(0) = 0        a        DU*(9) = nj(0) .
Jan Koláček (PřF MU)
M5VM05 Statistické modelování
9/
Základní pojmy a definice II
Věta 4
(2) P lstí-li navíc pro i,j = 1,... ,m
(tj. f je regulární i v 2. derivacích), pak
E(U*'(0)) = -nJ(0),
kde
'duUd)
m
U* (0) =
B9j
i,j=l
Jan Koláček (PřF MU)
M5VM05 Statistické modelování
10 / 57
Základní pojmy a definice I
Věta 5
Mějme náhodný výběr Y„ = {y\,..., yn)t z rozdělení s regulární hustotou
f G J^reg- OznačmeM={j/GR :f(y;0) > 0}. Necht pro všechna y G M, 0 E 0
a i,j = 1,..., m existují druhé parciální derivace hustoty f {y; 0).
(1) Pak platí
A
Nm(O,J(0)).
Dále platí
A
Jan Koláček (PřF MU)
M5VM05 Statistické modelování
11/57
Základní pojmy a definice II
Věta 5
(2) Platí-li navíc, že f je regulární i v 2.derivacích, tj. pak matice náhodných veličin
Jan Koláček (PřF MU)
M5VM05 Statistické modelování
12 / 57
Základní pojmy a definice
Definice 6
(a) Věrohodnostní funkcí rozumíme funkci vektorového parametru 6
L(d;y)=f(y;d)
(b) logaritmickou věrohodnostní funkcí nazýváme funkci
Z(0;y) =InL(0;y)
(c) Řekneme, že odhad 0MLE = 6MLE(\) je maximálně věrohodný odhad (MLE) vektorového parametru Q, pokud platí
L(0mle;Y) >L(0;Y)
pro všechna 6 G 0.
Jan Koláček (PřF MU)
M5VM05 Statistické modelování
13/57
Základní pojmy a definice
Věta 7
Mějme náhodný výběr Yn = (y\,..., Yn)T z rozdělení s regulární hustotou f £ Označme m = {y G R :/(y; 0) > 0}. A/ec/?ŕ pro všechna y G M, 0 G 0
a z, _/ = 1,.. .,m existují druhé parciální derivace hustoty f {y, Q) a platí
(1) V^(0MLE-0)       ~ ^„(OJÍfl)-1)
(2) W = (?mle - 0)M(0)(0mle - S)    ~    X2(m) , tzv. Waldova statistika.
Jan Koláček (PřF MU)
M5VM05 Statistické modelování
14/57
Základní pojmy a definice
Definice 8
Řekneme, že pozorování pochází z rozdělení exponenciálního typu, pokud jeho pravděpodobnostní funkce (v případě diskrétních rozdělení) či hustota (v případě spojitých rozdělení) je tvaru
f(y)=exp{a(y)b(6)+c(6)+d(y)},
kde
6 je (neznámý) tzv. přirozený parametr
a
a(y),b(9),c(9),d(y) jsou známé funkce. Pokud
9 a{\j) = y, říkáme že pravděpodobnostní funkce, popř. hustota je v kanonické formě.
• v konkrétním rozdělení figurují další neznámé parametry, nazveme je tzv. rušivými parametry.
Jan Koláček (PřF MU)
M5VM05 Statistické modelování
15/57
Základní pojmy a definice
V dalším budeme uvažovat pouze regulární a kanonické formy spolu s podmínkou b(6) = 9 a přitom zavedeme do označení jeden rušivý parametr (p
kde      6 a (p jsou parametry
7(0), ip((f>) > 0, d(y) jsou známé funkce,
a pokud
^(0) = % > 0, (/> > 0 je tzv. faktor měřítka (scale factor)
co > 0 je známá apriorní váha.
Tato forma se také nazývá škálovou formou hustoty exponenciálního typu
Jan Koláček (PřF MU)
M5VM05 Statistické modelování
16/57
Základní pojmy a definice
Věta 9
Mějme náhodnou veličinu Y z rozdělení s regulární hustotou f exponenciálního typu:
Pak
Necht navíc platí
f{y) = exp {^¥T+d{y'<p)\ (1)
ey = y(e)
e (ČOW) = o (2)
kdef"{y-e) = d^,pak
dy = y\e)ip((p)
Funkce j"{6) =       se nazývá rozptylovou funkcí (variance function).
Jan Koláček (PřF MU)
M5VM05 Statistické modelování
17 / 57
Základní pojmy a definice
Příklad 1 (Normální rozdělení)
Mějme
Pak
Y ~ N(}i,al),      y. G R, d1 > 0.
/(y) =
exp
1 /^y —
2
(7
exp <
7(6)
r1--- - - ln I 2naL
>P(f)
2aA 2
>
d(y,<p)
7(0) = y1 = \e2
Í(0) = 0
t"(0) = i
ý = cr2.
Jan Koláček (PřF MU)
M5VM05 Statistické modelování
18 / 57
Základní pojmy a definice
Skutečně platí
EV = V(0) = 1*
a
Tedy
přirozený parametr Q = y, scale factor ý = o2 rozptylová funkce      V(}í)    1    váhy co = 1.
Jan Koláček (PřF MU)
M5VM05 Statistické modelování
19 / 57
Základní pojmy a definice
Příklad 2 (Binomické rozdělení)
Mějme
Z ~Bi(n, n),      n 6 N, re 6 (0,1).
pa/c       /z (z) = Q7r2(l-7r)"-z = exp{zln(T^)+nln(l-7r)+lnQ} pro        z = 0,...,n,
přičemž  EZ = ]i — nn    a    DZ    nn(l — ti).
Pravděpodobnostní funkce není ve škálové formě, proveďme reparametrizaci
\1 — re J        \n — nnj        \n — }ij
e°      , 1
71 =--a 1 — 71 =--ň'
__1 + ee_1+e6_
Jan Koláček (PřF MU)
M5VM05 Statistické modelování
20 / 57
Základní pojmy a definice
Tedy
f z (z) = exp \z6   n ln (l + e°^j + ln (^j
>
7W
d(y,(p) J
7(0) = nln (l +
= Ž = 1
= n
= n ti = ]i
7"W = = n/r(l - tt) = p (l - f)
OJ = 1    (/> = 1
Jan Koláček (PřF MU)
M5VM05 Statistické modelování
Základní pojmy a definice
Skutečně platí
EZ = y"(0) = ]i
DZ = y"(6)tp((p) = nn{\ - n)
Tedy
přirozený parametr 9 = ln n
rozptylová funkce V (jí) = }i (l — ^)
scale factor ^ = 1
váhy co = 1.
Jan Koláček (PřF MU)
M5VM05 Statistické modelování
Základní pojmy a definice
Další rozdělení
Poissonovo rozdělení	přirozený parametr	0 = lnA	
	rozptylová funkce	V(F) =	
	scale factor	4> = i	
	váhy	OJ = 1	
Gamma rozdělení	přirozený parametr	0 = -i Jí	
	rozptylová funkce	V(fi) =	
	scale factor		
	váhy	co = 1	
Exponenciální rozdělení	přirozený parametr	0 = -±	
	rozptylová funkce		
	scale factor		
	váhy	co = 1.	
Jan Koláček (PřF MU)
M5VM05 Statistické modelování
Omezení LM
Omezení lineárního modelu :
O Je omezen pouze na třídu normálních rozdělení:
Yj ~ N(}ii,cr2)   i = 1,... ,n, kde Y = {Y\,..., Yn)r tvoří náhodný výběr.
O Předpokládá striktní rovnost mezi střední hodnotou náhodné veličiny Yj a lineární kombinací prediktorů: EYj = fij = x-jS, kde
Xj = {x\\,... /Xj]c)ř je vektor prediktorů a
jS = (/5i,.. .,/5fc)   je vektor neznámých parametrů.
Zobecnění lineárního modelu :
O Zobecnění na nenormální rozdělení, a to na tzv. třídu exponenciálních rozdělení
O Zobecnění na nelineární funkce, které spojují neznámé střední hodnoty výchozího rozdělení náhodné veličiny Yj s prediktivními proměnnými.
Jan Koláček (PřF MU)
M5VM05 Statistické modelování
24/57
Definice GLM I
Definice 10 (Zobecněný lineární model)
Mějme náhodný výběr Y = (Y\,..., Yn)T a nechť rozdělení Yz- závisí na pevných vektorech Xj = {x{\,... ,Xi^)T G R^ prostřednictvím neznámého vektoru parametrů j6 = (j6i,...,PkY- Matice X = (x[,... ,x^)T má rozměr n x k a hodnost k < n.
Říká me, že Y — (Y\,..., YW)T se řídi zobecněným lineárním modelem
(Generalized Linear Model), jestliže dále platí:
(1) rozdělení Y = {Y\,..., Yn)T je exponenciálního typu s regulární hustotou
/(y,0) = n/(y«^«) = exp { £
i=l {i=l
y A -7 (.Oj)
+ d{\ji, <p)
(3)
Jan Koláček (PřF MU)
M5VM05 Statistické modelování
25/57
Definice GLM II
Definice 10 (Zobecněný lineární model)
(2) parametr 9j závisí na Xj a jS prostřednictvím parametru
Vi = x/i8 , (4)
který nazveme lineární prediktor.
(3) Existuje známá ryze monotónní diferencovatelná funkce g, tzv. linkovací funkce (link function), a platí
Vi = gďi)      n = s~l{Vi) >   kde   ]íí = jí(9í) = EYj. (5) Řekneme, že linkovací funkce je kanonická, pokud 9j = t]j = g(j^i)-
Jan Koláček (PřF MU)
M5VM05 Statistické modelování
26/57
Příklad
Příklad 3
Regresní přímka v klasickém lineárním regresním modelu:
jsou pro i = 1,... ,n nezávislé náhodné veličiny,
g(jíi) = jíí = j8i + hxi
je identická linkovací funkce, fi\,fi2 3 o1 Jsou neznámé parametry (přičemž cr2 je rušivým parametrem) a Xj jsou známé kovariáty
Jan Koláček (PřF MU)
M5VM05 Statistické modelování
27/57
Příklad
Obrázek : Ukázka klasického regresního modelu s homogenním rozptylem.
Jan Koláček (PřF MU)
M5VM05 Statistické modelování
28 /
Příklad
Příklad 4
Regresní modely s logaritmickou linkovací funkcí pro exponenciálně a gamma rozdělené závisle proměnné:
Yí~Ex(\í) = G(1,\í) jsou pro i = 1,... ,n nezávislé náhodné veličiny (EYj = jij = AJ,
je logaritmická linkovací funkce, $1,^2 Jsou neznámé parametry a Xj jsou známé kovariáty
Jan Koláček (PřF MU)
M5VM05 Statistické modelování
29/57
Příklad
X
Obrázek : Ukázka GLM modelu s linkovad funkcí g(}í) =h\}í pro exponenciálně rozdělenou náhodnou veličinu Y.
Jan Koláček (PřF MU)
M5VM05 Statistické modelování
Příklad
Jestliže Y i ~ G(ol,$\ = ^) jsou pro i = \,...,n nezávislé náhodné veličiny (EYj = jíj = ccfij), g(jíi) = ln= j6i + ^2xi Je logaritmická linkovací funkce, ]6i,j62 a oc =    jsou neznámé parametry (a: je rušivý parametr) a xz- jsou známé kovariáty.
Jan Koláček (PřF MU)
M5VM05 Statistické modelování
Příklad
Obrázek : Ukázka GLM modelu s linkovad funkcí g(}í) =h\}í pro náhodnou veličinu Y s gamma rozdělením.
Jan Koláček (PřF MU)
M5VM05 Statistické modelování
Příklad
Příklad 5
Poissonovská regrese:
Yi ~ Po(jíí)
jsou pro i = 1,... ,n nezávislé náhodné veličiny (EYj = jij),
g(jíi) = In jii = fix+fcXi
je logaritmická linkovací funkce, $1,^2 Jsou neznámé parametry a Xj jsou známé kovariáty
Jan Koláček (PřF MU)
M5VM05 Statistické modelování
Příklad
0.9       1       1.1      1.2      1.3      1.4      1.5      1.6      1.7 1.8
x
Obrázek : Ukázka poissonovské regrese s linkovací funkcí g(fi) — Infi.
Jan Koláček (PřF MU)
M5VM05 Statistické modelování
34/
Příklad
Příklad 6
Binomická regrese:
Y i ~ Bi(nif ni) jsou pro i = 1,... ,n nezávislé náhodné veličiny, kde
Tli
je logistická linkovací funkce, $1,^2 Jsou neznámé parametry a Xj jsou známé kovariáty
Například ve farmaceutickém experimentu může být n\ počet pacientů, kterým byla podána dávka Xj nového léku a Y j počet pacientů dávající pozitivní odpověď na danou dávku x j nového léku.
Jestliže pozorujeme, že roste spolu s Xj, hledáme model, ve kterém TZj je funkcí X\, hodnot 0 < Tij < 1. Proto model 7ij = fi\ +       není vhodný, avšak
fil + f$2xi = ln (t^7) obvykle pracuje dobře.
Jan Koláček (PřF MU)
M5VM05 Statistické modelování
35 / 57
Příklad
Obrázek : Ukázka binomické regrese s linkovací funkcí g{jz) — ln
Jan Koláček (PřF MU)
M5VM05 Statistické modelování
Praktický příklad
Příklad 7
V souboru „motak.Rdata" jsou uložena data o lovu tetfeva dravcem jménem Moták pilich (Circus cyaneus) v závislosti na výskytu tetreva. Označme Yj procento zkonzumovaných tetřevů a Xj počet tetřevů v dané oblasti. Teorie zabývající se chováním těchto dravců navrhují k modelování použít vztahu
OCX-
E(Yi) = m= 1
ô+xY
kde Y j má Gam ma rozdělení Je tedy třeba odhadnout neznámé parametry oc a 5. Užitím linkovací funkce inverse dostáváme
1 _ 1 S
Definování nových parametrů fi$ = l/ocafii = ô/oc dostáváme lineární vztah
1 1
- = j6o + j6i3.
Jan Koláček (PřF MU) M5VM05 Statistické modelování 37 / 57
Praktický příklad
Konzumace tetreva motakem
pocty tetreva
Obrázek : Aplikace Gamma regrese s linkovací funkcí g(}í) —       na data motak.
Jan Koláček (PřF MU)
M5VM05 Statistické modelování
38
Odhady neznámých parametrů v GLM
Všimněme si, že rozdělení náhodných veličin Yj jsou stejného typu a logaritmus sdružené věrohodnostní funkce má tvar
my) = tWuVi) = t (y'^~jfŕ)+%^)) •
Odhad neznámých parametrů metodou maximální věrohodnosti dostaneme řešením rovnic typu
dl*
9j6
iW) = o
Podle věty 5 konverguje matice druhých parciálních derivací skoro jistě k matici —]nr která je při regularitě systému hustot negativně definitní.
Jan Koláček (PřF MU)
M5VM05 Statistické modelování
Řešení věrohodnostních rovnic I
Věta 11
Mějme náhodný výběr Y = {Y\,...,Yn)T, který se řídí zobecněným lineárním modelem s linkovací funkcí
g(m) = xlP = Vi      i = l,-..,n.
Předpokládejme, že pro i = 1,..., n existují příslušné derivace Y(0j), 7"(0/) 3 platí
EYi = Fi = i(di)      DYi = i'{di)ipi^).
Pak
Jan Koláček (PřF MU)
M5VM05 Statistické modelování
40 / 57
Řešení věrohodnostních rovnic II
Věta 11
což lze zapsat maticově
\J*n = V*M = (U$,..., Wk)T = XTWQr (8)
J„=J„(j8) = (/í)*    =XTWX, (9)
kde
r={rl{fS),...,rn (j8) )T rř = Yť - pť = Yť - g"1 (xTjS)
W = diag{w\(fi),... ,wn(fi)} u>i Q = diag{qí(P),...,qn(P)} m
1 /Č^A2
dm'
Jan Koláček (PřF MU)
M5VM05 Statistické modelování
Řešení věrohodnosti!ich rovnic
Řešíme tedy věrohodnostní rovnice
dl* _"dli _-xij(Yi-Hi)dHi_ Ui     dPj    tidPj    ti     DYj     dVi 1
Ty nejsou lineární vzhledem k neznámým parametrům, musí se řešit numerickou iterací.
Jan Koláček (PřF MU)
M5VM05 Statistické modelování
Newton-Raphsonova metoda
Chceme-li najít řešení systému nelineárních rovnic U^(jS) = 0, lze použít následující iterativní postup:
O Nejprve provedeme linearizaci pomocí Taylorova rozvoje v okolí bodu jS
kde j60 je nějaký počáteční odhad: U*(j8) « U*(j60) + U*'(jS0)(jS - j80). Protože U*(j6) = 0, pak po jednoduchých úpravách dostaneme
p * p0- [^'(/ypu*^).
O Odhady parametrů v s-tém kroku jsou získány ze vztahu
(s-l)
(s-l)
O Iterační proces popsaný v předchozím bodě pokračuje tak dlouho, dokud
Č(8+1) - p{s)«o.
Jan Koláček (PřF MU)
M5VM05 Statistické modelování
Metoda skórování
Alternativní procedurou k Newton-Raphsonově metodě je tzv. metoda skórování, kdy se matice druhých parciálních derivací U* (j8) nahradí její střední hodnotou, tj. maticí —Jn(j8), kde Jn(j8), je informační matice. Druhý iterační krok pak upravíme takto:
~(s) -s(s-l)
p = p +
u*Gs(s_1))
Využijme vztahů
U*(fl=XTW(0)Q(0)r(/i)   a   J„(0) = XTW(/5)X
a dostáváme iterační rovnici
XTW(JS(S 1))Xi6(s) =XTW(^(S 1))Z(Í6(S
kde
ZS""1') =
xŕ(s-,,+Q(riV(ŕ(s",))
Jan Koláček (PřF MU)
M5VM05 Statistické modelování
44 / 57
Testování hypotéz v GLM modelech
Věta 12
Mějme náhodný výběr Yn = (Y\,..., Yn)T, který se řídí zobecněným lineárním modelem s maticí vysvětlujících proměnných Xnx]c. Předpokládejme, že pro i = 1,... ,n existují příslušné derivace ^ [Qi),^" {Qi) 3 platí
EYi = m = y (e,-)    DYi = y'toOtMtfO.
Dále mějme matici C^Xí^ s hodnostíh(C) = q < k. Platí-li hypotéza: Hq : CTj6 = 0, pak Waldova statistika
W = &lec(ctJ„(í8)-1c)_1Ct)6mle    ~ X2{q),
kde j6MLE je maximálně věrohodným odhadem vektorového parametru jS.
Jan Koláček (PřF MU)
M5VM05 Statistické modelování
45 / 57
Hypotézu
H0 : CTj6 = 0 zamítáme na hladině významnosti oc, pokud platí
w>*i-B0?)-
Protože odhad j6MLE konverguje za předpokladu existence e(z* (j8)) skoro jistě k j6, aproximujeme při výpočtu Waldovy statistiky W Fisherovou informační matici ]n(P) matici Jn(^MLE).
Prakticky
Testovat hypotézu
H0 : jfy = 0
pro j = 1,... ,k lze více způsoby:
• Pomocí Waldovy statistiky W, a to při speciální volbě
C = cfcxi = (0/ • • • /1/ • • • / 0)
• Pomocí vztahu
přičemž hypotézu zamítáme, pokud
I ^MLE,i
kde opět Fisherovou informační matici Jn(jS) aproximujeme maticí Jn(jSMLE)
Jan Koláček (PřF MU)
M5VM05 Statistické modelování
47/
Ověřování vhodnosti modelu
Definice 13
Maximální GLM, který označíme glmmax, splňuje následující podmínky
(1) Maximální model je zobecněný lineární model se stejným typem rozdělení jako zkoumaný glm model.
(2) Maximální model a zkoumaný mají stejnou linkovací funkci.
(3) Počet parametrů maximálního modelu je roven počtu vysvětlovaných veličin n, maximálně věrohodný odhad parametru $max je n-rozměrný vektor $max.
Definice 14
Minimální GLM, který označíme glmmjn, splňuje následující podmínky
(1) Minimální model je zobecněný lineární model se stejným typem rozdělení jako zkoumaný glm model.
(2) Minimální model a zkoumaný mají stejnou linkovací funkci.
(3) Počet parametrů minimálního modelu je roven 1, maximálně věrohodný odhad parametru j8min je skalár fimin.
^ i
Jan Koláček (PřF MU)
M5VM05 Statistické modelování
48 / 57
Submodel
Definice 15
Mějme zobecněný lineární model s maticí plánu Xnx]c a vektorem neznámých parametrů jS. Submodel, který označíme GLMSW^, splňuje následující podmínky
(1) Submodel je zobecněný lineární model se stejným typem rozdělení jako zkoumaný glm model.
(2) Submodel a zkoumaný model mají stejnou linkovací funkci.
(3) Vektor neznámých parametrů fisub £ R^a matice plánu Qnxq, pro kterou platí
Qnxq = ^nxk^kxq-
Aby glmsub byl submodelem modelu glm, musí každý sloupec matice Q patřit do obalu sloupců matice X. To bude splněno právě tehdy, bude-li Q typu
Qnxq = ^nxk^kxq-
Je třeba si uvědomit, že GLMSW^ je speciálním případem modelu glm. Platí-li tudíž pro náhodný výběr Y model glmsu}j, platí pro Y také model GLM.
Jan Koláček (PřF MU)
M5VM05 Statistické modelování
49 / 57
Deviace
Deviace v zobecněných lineárních modelech je obdobou rozptylu u klasických lineárních regresních modelů. Deviace je tedy kritériem vhodnosti zobecněného lineárního modelu. Jak bude patrné z definice, metoda maximální věrohodnosti totiž odpovídá hledání minima deviace modelu.
Definice 16
Mějme modely GLM a GLMmax. Nechť náhodný výběr Y se řídí modelem
■v
GLMmax. Skálovou deviací modelu GLM (scaled deviance) rozumíme statistiku
d = 2
T [Ká,;Y)-*•(?; Y)
kde jS    ,jS jsou odpovídající maximálně věrohodné odhady.
Jan Koláček (PřF MU)
M5VM05 Statistické modelování
50 / 57
Ověřování vhodnosti submodelu
Věta 17
Mějme základní model GLM s jS G Kk a jeho submodel GLMsub s físuh G W, přičemž q < k < n. Dále necht náhodný výběr Y se řídí modelem GLM a platí
(i) existují druhé parciální derivace hustoty f(y; jS) podle složek f>, (n) piati E I  /(;y;/3)   I = 0    (i,/ = l,...,fc) (iii) a existuje   E z*(/J; Y).
Platí-li hypotéza, že submodel GLMsub je vhodný, pak asymptoticky lze rozdělení statistiky ad = dst(^ — d aproximovat rozdělením x (k — q), tj.
AD = Dsub-D~X2(k-q).
Jan Koláček (PřF MU)
M5VM05 Statistické modelování
51/57
Analýza reziduí
Nejznámější typy reziduí používaných v GLM :
(a) Standardizovaná rezidua (linear): též Pearsonova
(b) Standardizovaná transformovaná rezidua (transformed linear)
(c) Deviační rezidua (deviance residual)
Ještě lepší vlastnosti mají tzv. korigovaná deviační rezidua (bias-adjusted deviance residual)
pricemz
n
D = 2[/*(w;Y) - t(b; Y)] = £<*,-.
1=1
kde
Jan Koláček (PřF MU)
M5VM05 Statistické modelování
52/
Úlohy k procvičení
Příklad 1
V souboru „ toxic.RData" jsou uvedeny hodnoty množství jedovaté látky která vzniká jako vedlejší produkt při určitém chemickém procesu. Datový soubor obsahuje tyto proměnné:
VOL objem vzniklé jedovaté látky (litry)
TEMP teplota při chemickém procesu (°C)
CAT hmotnost katalyzátoru (kg)
METHOD metoda použitá při výrobě (kategórialni proměnná - A,B)
Hledejte vhodný model pro popis závislosti objemu jedovaté látky na podmínkách procesu. Testujte nejprve, zda použitá metoda má vliv na výsledný objem jedovaté látky. Pomocí stepwise procedury najděte nejvhodnější lineární model a nejvhodnější zobecněný lineární model. U obou modelů ověřte normalitu residuí.
[Metoda má vliv, vhodný model: VOL = j60 + j6iMETH0DB + j62TEMP, residua jsou normální]
Jan Koláček (PřF MU)
M5VM05 Statistické modelování
53 / 57
Úlohy k procvičení I
Příklad 2
V balíku „ car", proměnné „SLID" jsou uvedeny výsledky průzkumu z roku 1994 v kanadské provincii Ontario. Průzkum se zabýval vlivem některých faktorů na mzdu respondentů. Datový soubor obsahuje tyto proměnné:
wages hodinová mzda (kanadské dolary)
education počet let vzdělávání (roky)
age věk (roky)
sex pohlaví (1 - žena, 2 - muž)
language jazyk (1 - angličtina, 2 - francouzština, 3 - ostatní)
Jan Koláček (PřF MU)
M5VM05 Statistické modelování
54 / 57
Úlohy k procvičení II
Příklad 2
Hledejte vhodný model pro popis závislosti platu respondenta na ostatních faktorech.
O Zkuste nejprve použít klasický lineární model, najděte nejvhodnější model a proveďte analýzu residuí Jsou splněny předpoklady modelu?
O Stále uvažujte lineární model. Místo proměnné wages uvažujte log(wages). Opět nalezněte nejvhodnější model. Zkuste také přidat dvojné či trojné interakce proměnných. Zlepší se kvalita modelu?
Q Pomocí stepwise procedury najděte nejvhodnější zobecněný lineární model.
[(1) Vhodný model: wages = /3q + j6iage + /^education + /^sex, residua nejsou normální, (2) kvalita se zlepší přidáním dvojných interakcí, (3) vhodný model: wages = /3o + j6iage + /^education + /^sexMale + /^age:sexMale + /^education:sexMale + /^age: education.]
Jan Koláček (PřF MU)
M5VM05 Statistické modelování
55 / 57
Úlohy k procvičení I
Příklad 3
V souboru „novorozenci .RData" jsou uvedeny porodní hmotnosti novorozenců a informace o jejich rodičích. Datový soubor obsahuje tyto proměnné:
hmnov
vyska
hmmat
prir
pohlavi
stav
vzdmat vzdot
porodní hmotnost novorozence (g) výška matky (cm) hmotnost matky (kg)
váhový přírůstek matky během těhotenství (kg) pohlaví dítěte (0 - dívka, 1 - chlapec)
stav matky při porodu (1 - svobodná, 2 - vdaná, 3 - rozvedená, 4 - vdova)
vzdělání matky (1 - zákí, 2 - vyuč., 3 - středošk., 4 - vysokošk.) vzdělání otce (0 - neuved., 1 - zákí, 2 - vyuč., 3 - středošk., 4 - vysokošk.)
Jan Koláček (PřF MU)
M5VM05 Statistické modelování
56 / 57
Úlohy k procvičení II
Příklad 3
Hledejte vhodný model pro popis závislosti hmotnosti novorozence na jeho rodičích. Testujte nejprve, zda pohlaví má vliv na porodní hmotnost. Pomocí stepwise procedury najděte nejvhodnější model. U modelu ověřte normalitu residuí.
[Pohlaví má vliv, vhodný model:
hmmat = j6q + /3iprir + ^pohlaví 1 + /^vzdotl + /34Vzdot2 + j65Vzdot3 + ^65 vzdot 4 + ^vyska + jSghimat: pohlaví 1, residua jsou normální]
Jan Koláček (PřF MU)
M5VM05 Statistické modelování
57/57