Logistický model
Bi7491 Regresní modelování
Ondřej Májek, 2020
Bi7491 Regresní modelování – Logistický model
Institut biostatistiky a analýz
Lékařská fakulta, Masarykova univerzita
Vědět, jak se definuje lineární regresní model
Vysvětlit předpoklady regresních modelů
Umět použít v lineárním regresním modelu různé typy prediktorů
Vědět, co je multikolinearita, jak ji zjistit a jak se s ní vypořádat
Umět se vypořádat s chybějícími daty
Vědět, co je interakce, jak ji poznat, a jak ji zohlednit v konstruovaném modelu
Znát možnosti kauzálního působení různých faktorů, umět popsat rozdíl mezi
zkreslující proměnnou a mediátorem, popisovat jednoduché vztahy pomocí
modelových diagramů
Znát základní pravidla pro zařazování proměnných do modelu
Umět posoudit splnění modelových předpokladů pomocí grafických nástrojů
Co byste již měli vědět a umět?
Ondřej Májek, 2020
Bi7491 Regresní modelování – Logistický model
Institut biostatistiky a analýz
Lékařská fakulta, Masarykova univerzita
Co byste měli vědět a umět
po dnešní hodině ?
Znát užitečné veličiny pro měření vztahu/účinku: poměr rizik a poměr šancí
Znát princip metody maximální věrohodnosti
Vědět, co nového nám ve srovnání s klasickým lineárním modelem mohou
poskytnout zobecněné lineární modely
Umět nadefinovat logistický model a popsat jeho užití
Znát základní metody pro ověření předpokladů modelu
Logistický model
Poměr rizik a poměr šancí
Ondřej Májek, 2020
Bi7491 Regresní modelování – Logistický model
Institut biostatistiky a analýz
Lékařská fakulta, Masarykova univerzita
Motivace
Sledujeme souvislost věku matky a výskytu náhlého úmrtí kojence (SIDS).
Výsledky dány v tabulce:
Jak rozhodnete o závislosti uvedených veličin?
Můžete nějak kvantifikovat sílu vztahu mezi veličinami?
SIDS
Věk matky
Do 25 let 25 a více let Celkem
Ano 29 15 44
Ne 7301 11241 18542
Celkem 7330 11256 18586
Ondřej Májek, 2020
Bi7491 Regresní modelování – Logistický model
Institut biostatistiky a analýz
Lékařská fakulta, Masarykova univerzita
Motivace
Sledujeme souvislost věku matky a výskytu náhlého úmrtí kojence (SIDS).
Výsledky dány v tabulce:
Pomocí Pearsonova chí-kvadrát nebo Fisherova exaktního testu můžeme
rozhodovat o závislosti/nezávislosti dvou sledovaných veličin. Testy ale
neumožňují tento vztah kvantifikovat.
Má-li to smysl a chceme-li kvantifikovat (rozhodovat o těsnosti této
závislosti) můžeme použít tzv. relativní riziko a poměr šancí.
SIDS
Věk matky
Do 25 let 25 a více let Celkem
Ano 29 15 44
Ne 7301 11241 18542
Celkem 7330 11256 18586
Ondřej Májek, 2020
Bi7491 Regresní modelování – Logistický model
Institut biostatistiky a analýz
Lékařská fakulta, Masarykova univerzita
Relativní riziko = Relative risk
Výpočet relativního rizika (RR) umožňuje srovnat pravděpodobnosti výskytu
sledovaného jevu ve dvou různých skupinách.
1. skupina – experimentální nebo skupina s expozicí určitému faktoru
2. skupina – kontrolní nebo skupina bez expozice
db
b
ca
a
P
P
RR
+
+==
0
1
=RR
Pravděpodobnost výskytu jevu v 1. skupině (experimentální)
Pravděpodobnost výskytu jevu ve 2. skupině (kontrolní) 0
1
P
P
=
Sledovaný jev
Skupina
Experimentální Kontrolní Celkem
Ano a b a + b
Ne c d c + d
Celkem a + c b + d n
Ondřej Májek, 2020
Bi7491 Regresní modelování – Logistický model
Institut biostatistiky a analýz
Lékařská fakulta, Masarykova univerzita
Příklad – relativní riziko
Sledujeme souvislost věku matky a výskytu náhlého úmrtí kojence (SIDS).
Výsledky dány v tabulce:
SIDS
Věk matky
Do 25 let 25 a více let Celkem
Ano 29 15 44
Ne 7301 11241 18542
Celkem 7330 11256 18586
97,2
1124115
15
730129
29
0
1
=
+
+=
+
+==
db
b
ca
a
P
P
RR
Riziko výskytu SIDS u dětí
matek ve věku do 25 je téměř
třikrát vyšší než u dětí matek
rodících ve vyšším věku.
Ondřej Májek, 2020
Bi7491 Regresní modelování – Logistický model
Institut biostatistiky a analýz
Lékařská fakulta, Masarykova univerzita
Riziko vs. „šance“ (odds)
Riziko – odhad pravděpodobnosti vzniku onemocnění
Relativní riziko – poměr dvou pravděpodobností
Šance – poměr pravděpodobnosti výskytu jevu a výskytu opačného jevu
nabývá hodnot mezi 0 a nekonečnem
pokud kůň vyhraje s pravděpodobností 10%, jaká je jeho šance na výhru?
1
1
1 P
P
odds
−
=
Ondřej Májek, 2020
Bi7491 Regresní modelování – Logistický model
Institut biostatistiky a analýz
Lékařská fakulta, Masarykova univerzita
Poměr šancí = Odds ratio
Poměr šancí (OR) je další charakteristikou, která umožňuje srovnat výskyt
sledovaného jevu ve dvou různých skupinách.
1. skupina – experimentální nebo skupina s expozicí určitému faktoru
2. skupina – kontrolní nebo skupina bez expozice
=OR
Pravděpodobnost výskytu jevu v 1. skupině (experimentální)
Pravděpodobnost výskytu jevu ve 2. skupině (kontrolní)
0
0
1
1
0
1
1
1
P
P
P
P
O
O
−
−
==
1 – Pravděpodobnost výskytu jevu v 1. skupině (experimentální)
1 – Pravděpodobnost výskytu jevu ve 2. skupině (kontrolní)
d
b
c
a
P
P
P
P
OR =
−
−
=
0
0
1
1
1
1
Sledovaný jev
Skupina
Experimentální Kontrolní Celkem
Ano a b a + b
Ne c d c + d
Celkem a + c b + d n
Ondřej Májek, 2020
Bi7491 Regresní modelování – Logistický model
Institut biostatistiky a analýz
Lékařská fakulta, Masarykova univerzita
Příklad – odds ratio
Sledujeme souvislost věku matky a výskytu náhlého úmrtí kojence (SIDS).
Výsledky dány v tabulce:
SIDS
Věk matky
Do 25 let 25 a více let Celkem
Ano 29 15 44
Ne 7301 11241 18542
Celkem 7330 11256 18586
98,2
11241
15
7301
29
1
1
0
0
1
1
===
−
−
=
d
b
c
a
P
P
P
P
OR
„Šance“ na výskyt SIDS u dětí
matek ve věku do 25 je téměř
třikrát vyšší než u dětí matek
rodících ve vyšším věku.
Ondřej Májek, 2020
Bi7491 Regresní modelování – Logistický model
Institut biostatistiky a analýz
Lékařská fakulta, Masarykova univerzita
Grafické srovnání RR a OR
A B
RR = 2
10
3
10
6
== OR = 5.3
7
3
4
6
==
Výskyt sledovaného jevu
Bez výskytu sledovaného jevu
Proč to nevychází
vždy stejně?
Ondřej Májek, 2020
Bi7491 Regresní modelování – Logistický model
Institut biostatistiky a analýz
Lékařská fakulta, Masarykova univerzita
Komentáře k RR, OR
hodnota relativního rizika leží mezi 0 a 1/P0
pro běžné jevy nelze pozorovat vysoké hodnoty relativního rizika
pokud je riziko v kontrolní skupině 66%, maximální RR je 1,5
OR je obtížnější interpretovat
může být vhodné konvertovat na RR, musíme ale znát riziko v kontrolní skupině
nevychází stejně, ale oba jsou validní ukazatele účinku
)1(1 0 ORP
OR
RR
−−
=
RRP
PRR
OR
0
0
1
)1(
−
−
=
kdy spolu obě veličiny RR a OR splývají?
Ondřej Májek, 2020
Bi7491 Regresní modelování – Logistický model
Institut biostatistiky a analýz
Lékařská fakulta, Masarykova univerzita
Základní typy
epidemiologických studií
Kohortová studie
U některých subjektů je rizikový
faktor přítomen a u jiných ne →
sledujeme v čase, zda se vyskytne
událost.
Studie případů a kontrol
U některých subjektů se událost
vyskytla a u jiných ne → zpětně
hodnotíme, zda se liší s ohledem na
nějaký rizikový faktor.
Exponovaní jedinci
Jedinci bez expozice
Případy (s událostí)
Případy (s událostí)
Kontroly (bez události)
Kontroly (bez události)
Exponovaní jedinci
Jedinci bez expozice
Historie Začátekstudie Čas
Začátekstudie Čas
S událostí
Bez události
Průběh studie
Kohorta
subjektů
(náhodně
vybranáze
studované
populace)
S událostí
Bez události
Exponovaníjedinci
Jedinci bez expozice
Ondřej Májek, 2020
Bi7491 Regresní modelování – Logistický model
Institut biostatistiky a analýz
Lékařská fakulta, Masarykova univerzita
Použití RR a OR
Kohortová studie – u některých subjektů je rizikový faktor přítomen a u
jiných ne → sledujeme, zda se vyskytne událost.
Zjištěná pravděpodobnost výskytu události v kontrolní skupině je
reprezentativní, neboť prospektivně zařazujeme všechny pacienty
→ korektní použití RR.
Studie případů a kontrol – u některých subjektů se událost vyskytla a u
jiných ne → zpětně hodnotíme, zda se liší s ohledem na nějaký rizikový
faktor.
Zjištěná pravděpodobnost výskytu události v kontrolní skupině není
reprezentativní, neboť ji ovlivňujeme zpětným výběrem skupin subjektů.
→ nekorektní použití RR.
→ korektní použití OR.
Ondřej Májek, 2020
Bi7491 Regresní modelování – Logistický model
Institut biostatistiky a analýz
Lékařská fakulta, Masarykova univerzita
Poměr šancí – další příklad
Protektivní účinek hormonální antikoncepce
na riziko zhoubného nádoru vaječníku
Zdroj: Risk of Ovarian Cancer in Relation to Estrogen and Progestin Dose and Use Characteristics of Oral Contraceptives, Ness a kol.
2000
„Šance“ na zhoubný nádor
ovarií se snižuje o 40%
Ovarian cancer
OC user
Yes No Total
Yes 426 341 767
No 940 426 1366
Total 1366 767 2133
6,0
426
341
940
426
1
1
0
0
1
1
===
−
−
=
d
b
c
a
P
P
P
P
OR
Logistický model
Metoda maximální věrohodnosti
Ondřej Májek, 2020
Bi7491 Regresní modelování – Logistický model
Institut biostatistiky a analýz
Lékařská fakulta, Masarykova univerzita
Metoda maximální věrohodnosti
Autorem je R. A. Fisher (1922). Anglicky „maximum likelihood estimation“.
Máme n nezávislých stejně rozdělených pozorování (i.i.d.) z rozdělení s
hustotou .
Sdružená hustota odpovídající n pozorovaným hodnotám x1, x2,…, xn je:
Sdružená hustota vyjadřuje(za předpokladu, že známe θ), jak moc je
pravděpodobné, že pozorované hodnoty pochází z rozdělení s hustotou
Pointa metody maximální věrohodnosti: Dívat se na sdruženou hustotu jako na
funkci θ a vybrat θ takové, aby výraz byl co
největší (maximum).
=
=
n
i
in xfxxf
1
1 );()|,,( 
);( xf
);( xf
=
=
n
i
in xfxxf
1
1 );()|,,( 
Ondřej Májek, 2020
Bi7491 Regresní modelování – Logistický model
Institut biostatistiky a analýz
Lékařská fakulta, Masarykova univerzita
Věrohodnostní funkce
Zavádíme tzv. věrohodnostní funkci („likelihood function“):
Maximálně věrohodný odhad, značíme ho , je číslo, které maximalizuje
věrohodnostní funkci, tedy
Výpočetně se jedná o řešení rovnice (rovnic):
Musíme si ještě ověřit, že se jedná o maximum – např. pomocí druhých
derivací.
MLEˆ
)|,,(),,|( 11  nn xxfxxL  =
0/),,|( 1 = dxxdL n
),,|(maxargˆ 1 nMLE xxL 
 
=
Ondřej Májek, 2020
Bi7491 Regresní modelování – Logistický model
Institut biostatistiky a analýz
Lékařská fakulta, Masarykova univerzita
Logaritmus věrohodnostní funkce
Často je výhodnější (hlavně výpočetně jednodušší) maximalizovat logaritmus
věrohodnostní funkce:
 ==
===
n
i
i
n
i
inn xfxfxxLxxl
11
11 );(ln);(ln),,|(ln),,|(  
Ondřej Májek, 2020
Bi7491 Regresní modelování – Logistický model
Institut biostatistiky a analýz
Lékařská fakulta, Masarykova univerzita
Příklad
ML odhad parametru μ normálního rozdělení
Máme n i.i.d. pozorování z normálního rozdělení: x1, x2,…, xn.
Sdružená hustota má tvar:
Logaritmus věrohodnostní funkce má tvar:
Parciální derivace logaritmu věrohodnostní funkce mají tvar:
=
−−
=
n
i
x
n
i
exxf
1
2/)(
2
2
1
22
2
1
),|,,( 


=),,|,(ln 1
2
nxxL 
= /ln L
= 2
/ln L
Ondřej Májek, 2020
Bi7491 Regresní modelování – Logistický model
Institut biostatistiky a analýz
Lékařská fakulta, Masarykova univerzita
Příklad
ML odhad parametru μ normálního rozdělení
Máme n i.i.d. pozorování z normálního rozdělení: x1, x2,…, xn.
Sdružená hustota má tvar:
Logaritmus věrohodnostní funkce má tvar:
Parciální derivace logaritmu věrohodnostní funkce mají tvar:
=
−−
=
n
i
x
n
i
exxf
1
2/)(
2
2
1
22
2
1
),|,,( 


=
−−−−=
n
i
in x
nn
xxL
1
2
2
2
1
2
)(
2
1
ln
2
2ln
2
),,|,(ln 

 
0)(
1
/ln
1
2
=−= =
n
i
ixL 


0)(
2
1
2
/ln
1
2
42
2
=−+−= =
n
i
ix
n
L 


Ondřej Májek, 2020
Bi7491 Regresní modelování – Logistický model
Institut biostatistiky a analýz
Lékařská fakulta, Masarykova univerzita
Výsledkem jsou následující odhady:
=
−=
n
i
iMLE xx
n 1
22
)(
1
ˆ
xx
n
n
i
iMLE == =1
1
ˆ
Příklad
ML odhad parametru μ normálního rozdělení
Logistický model
Zobecněný lineární model
Ondřej Májek, 2020
Bi7491 Regresní modelování – Logistický model
Institut biostatistiky a analýz
Lékařská fakulta, Masarykova univerzita
Zobecněný lineární model
zobecnění mnoha existujících statistických modelů
John A. Nelder (1924-2010), Robert W.M. Wedderburn (1947-1975)
Ondřej Májek, 2020
Bi7491 Regresní modelování – Logistický model
Institut biostatistiky a analýz
Lékařská fakulta, Masarykova univerzita
Zobecněný lineární model
zobecnění mnoha existujících statistických modelů
John A. Nelder (1924-2010), Robert W.M. Wedderburn (1947-1975)
Klasický model
1. Náhodná část
2. Systematická část
3. Spojení mezi náhodnou a systematickou částí
iiEY =
ij
p
j
ji X=
+=
1
0 
2
=iDY
ii  =
Lineární prediktor
Linkovací funkce
nezávislé normální
Předpoklad rozložení
Ondřej Májek, 2020
Bi7491 Regresní modelování – Logistický model
Institut biostatistiky a analýz
Lékařská fakulta, Masarykova univerzita
Zobecněný lineární model
zobecnění mnoha existujících statistických modelů
John A. Nelder (1924-2010), Robert W.M. Wedderburn (1947-1975)
Klasický model
1. Náhodná část
2. Systematická část
3. Spojení mezi náhodnou a systematickou částí
iiEY =
ij
p
j
ji X=
+=
1
0 
2
=iDY
ii  =
Lineární prediktor
Linkovací funkce
nezávislé normální
Předpoklad rozložení
Třída exponenciálních rozdělení
Vhodné funkce
ODHAD PARAMETRŮ METODOU MAXIMÁLNÍ VĚROHODNOSTI
Ondřej Májek, 2020
Bi7491 Regresní modelování – Logistický model
Institut biostatistiky a analýz
Lékařská fakulta, Masarykova univerzita
Čemu se budeme věnovat?
Logistická regrese
binomické (alternativní) rozdělení výsledku, linkovací funkce logit(.)
Poissonova regrese
Poissonovo rozdělení výsledku, linkovací funkce ln(.)
pozdrobněji o zobecněných lineárních modelech
viz předmět M7222 Zobecněné lineární modely
Logistický model
Logistická regrese
Ondřej Májek, 2020
Bi7491 Regresní modelování – Logistický model
Institut biostatistiky a analýz
Lékařská fakulta, Masarykova univerzita
Binomické rozdělení
Diskrétní rozdělení, které popisuje počet výskytů sledované události (ve formě
nastala/nenastala) v sérii n nezávislých experimentů, kdy v každém
experimentu je stejná pravděpodobnost výskytu události a je p = π.
Pravděpodobnostní funkce:
Střední hodnota
Rozptyl
knk
k
n
kXP −
−





== )1()( 
nXE =)(
)1()(  −= nXD
Ondřej Májek, 2020
Bi7491 Regresní modelování – Logistický model
Institut biostatistiky a analýz
Lékařská fakulta, Masarykova univerzita
n
π
0 10 20 30 40 50
0.00.3
n = 4 pi = 0.2
0 10 20 30 40 50
0.00.3
n = 4 pi = 0.5
0 10 20 30 40 50
0.00.3
n = 4 pi = 0.8
0 10 20 30 40 50
0.00.3
n = 10 pi = 0.2
0 10 20 30 40 50
0.00.3
n = 10 pi = 0.5
0 10 20 30 40 50
0.00.3
n = 10 pi = 0.8
0 10 20 30 40 50
0.00.3
n = 20 pi = 0.2
0 10 20 30 40 50
0.00.3
n = 20 pi = 0.5
0 10 20 30 40 50
0.00.3
n = 20 pi = 0.8
0 10 20 30 40 50
0.00.3
n = 50 pi = 0.2
0 10 20 30 40 50
0.00.3
n = 50 pi = 0.5
0 10 20 30 40 50
0.00.3
n = 50 pi = 0.8
Ondřej Májek, 2020
Bi7491 Regresní modelování – Logistický model
Institut biostatistiky a analýz
Lékařská fakulta, Masarykova univerzita
Formulace logistického modelu
Uvažujeme binární výsledek, který chceme vztáhnout ke známým vysvětlujícím
proměnným – modelujeme pomocí alternativního (binomického) rozdělení
ni
AY ii
,...,1
)(~
=

Ondřej Májek, 2020
Bi7491 Regresní modelování – Logistický model
Institut biostatistiky a analýz
Lékařská fakulta, Masarykova univerzita
Formulace logistického modelu
ni
xxEY ippii
,...,1
...110
=
+++= 
ippii xxp  +++= ...)(logit 110
Normální lineární regresní model:
Logistický regresní model – modelujeme pravděpodobnost události pro i-tý subjekt:
linkovací funkce lineární prediktor (označujeme písmenem η – „éta“)
Ondřej Májek, 2020
Bi7491 Regresní modelování – Logistický model
Institut biostatistiky a analýz
Lékařská fakulta, Masarykova univerzita
Linkovací funkce
0.0 0.2 0.4 0.6 0.8 1.0
-4-2024
x
log(x/(1-x))
-4 -2 0 2 4
0.00.20.40.60.81.0
x
exp(x)/(1+exp(x))
p
p
p
−
=
1
ln)logit(
)exp(1
)exp(
)expit()(logit 1



+
==−
logit(p)
η
expit(η)
p
Ondřej Májek, 2020
Bi7491 Regresní modelování – Logistický model
Institut biostatistiky a analýz
Lékařská fakulta, Masarykova univerzita
Linkovací funkce
0.0 0.2 0.4 0.6 0.8 1.0
-4-2024
x
log(x/(1-x))
-4 -2 0 2 4
0.00.20.40.60.81.0
x
exp(x)/(1+exp(x))
p
p
p
−
=
1
ln)logit(
)exp(1
)exp(
)expit()(logit 1



+
==−
logit(p)
η
expit(η)
p
Ondřej Májek, 2020
Bi7491 Regresní modelování – Logistický model
Institut biostatistiky a analýz
Lékařská fakulta, Masarykova univerzita
Interpretace koeficientů
)exp(
1
1
ln
)(logit
0
1
1
0
1
1
01



=
−
=
−
=
p
p
p
p
p
)exp(
1
1
ln
)(logit
10
2
2
10
2
2
102



+=
−
+=
−
+=
p
p
p
p
p
)exp(
)exp(
)exp()exp(
)exp(
)exp(
1
1
)1,2( 1
0
10
0
10
1
1
2
2





==
+
=
−
−
=
p
p
p
p
OR
Subjekt 1: Subjekt 2:
Odds ratio (poměr šancí) na nějakou událost:
Exp(odhad parametru) PŘEDSTAVUJE ODDS RATIO SPOJENÉ S DANÝM PREDIKTOREM
Parametr
asociovaný
s nějakým
binárním
prediktorem
Ondřej Májek, 2020
Bi7491 Regresní modelování – Logistický model
Institut biostatistiky a analýz
Lékařská fakulta, Masarykova univerzita
Interpretace koeficientů – příklad 1
Rizikové faktory pro trombózu
spojenou s chemoterapií
Zdroj: Development and validation of a predictive model for chemotherapy-associated thrombosis, Khorana a kol. 2008
Ondřej Májek, 2020
Bi7491 Regresní modelování – Logistický model
Institut biostatistiky a analýz
Lékařská fakulta, Masarykova univerzita
Interpretace koeficientů – příklad 2
Rizikové faktory pro pooperační
plicní komplikace
Zdroj: Residual neuromuscular block is a risk factor for postoperative pulmonary complications, Berg a kol. 1997
Logistický model
Ověření správnosti modelu
Ondřej Májek, 2020
Bi7491 Regresní modelování – Logistický model
Institut biostatistiky a analýz
Lékařská fakulta, Masarykova univerzita
Správnost modelu
1. Pozorované a predikované hodnoty od sebe nejsou příliš vzdáleny
• celková shoda
2. Žádné z pozorování k celkové vzdálenosti extrémně nepřispívá
• individuální komponenty celkové statistiky, další metody
• analýza reziduí
),...,,(, 21 nyyy=yy
)ˆ,...,ˆ,ˆ(ˆ,ˆ 21 nyyy=yy
Pozorované hodnoty výsledku
Predikované hodnoty výsledku
Ondřej Májek, 2020
Bi7491 Regresní modelování – Logistický model
Institut biostatistiky a analýz
Lékařská fakulta, Masarykova univerzita
Celková shoda
(overall goodness of fit)
Nulová hypotéza:
Skutečná regresní funkce je rovna modelové funkci
Ondřej Májek, 2020
Bi7491 Regresní modelování – Logistický model
Institut biostatistiky a analýz
Lékařská fakulta, Masarykova univerzita
Predikce pravděpodobnosti události
)...(expit 110 ippii xxp  +++=
0 10 20 30 40
0.00.20.40.60.81.0
Tobacco
Prob(CHD)
Ondřej Májek, 2020
Bi7491 Regresní modelování – Logistický model
Institut biostatistiky a analýz
Lékařská fakulta, Masarykova univerzita
Je vhodné srovnávat se seskupenými pozorováními:
0 10 20 30 40
0.00.20.40.60.81.0
Tobacco
Prob(CHD)
To lze popsat formálně a statisticky testovat...
Predikce pravděpodobnosti události
Ondřej Májek, 2020
Bi7491 Regresní modelování – Logistický model
Institut biostatistiky a analýz
Lékařská fakulta, Masarykova univerzita
Ověření splnění předpokladů
analýza reziduí: Pearsonova rezidua
Pearsonova rezidua
)ˆ1(ˆ
ˆ
ii
ii
i
y
r


−
−
=
Ondřej Májek, 2020
Bi7491 Regresní modelování – Logistický model
Institut biostatistiky a analýz
Lékařská fakulta, Masarykova univerzita
Ověření splnění předpokladů
analýza reziduí: Devianční rezidua
Devianční rezidua
)ˆ1ln(2 jid −−=
pro yj = 1
pro yj = 0
)ˆln(2 jid =
Ondřej Májek, 2020
Bi7491 Regresní modelování – Logistický model
Institut biostatistiky a analýz
Lékařská fakulta, Masarykova univerzita
Ověření splnění předpokladů
Další běžné diagnostiky
Leverage (pákové body)
určení potenciální vlivnosti daného bodu (pozorování, které je daleko
od ostatních a může tak ovlivnit výsledek regrese)
závisí na váze pozorování a vzdálenosti pozorování prediktoru
od průměru
váha pozorování s predikovanou hodnotou pravděpodobnosti blízkou 0
nebo 1 je nízká
Cookova vzdálenost
shrnuje informaci z reziduí a z leverage
deleční diagnostika – určení vlivu daného pozorování na výsledek
ukazuje, nakolik přítomnost daného pozorování ovlivňuje odhady
koeficientů
Logistický model
Závěr
Ondřej Májek, 2020
Bi7491 Regresní modelování – Logistický model
Institut biostatistiky a analýz
Lékařská fakulta, Masarykova univerzita
Co byste měli vědět a umět
po dnešní hodině ?
Znát užitečné veličiny pro měření vztahu/účinku: poměr rizik a poměr šancí
Znát princip metody maximální věrohodnosti
Vědět, co nového nám ve srovnání s klasickým lineárním modelem mohou
poskytnout zobecněné lineární modely
Umět nadefinovat logistický model a popsat jeho užití
Znát základní metody pro ověření předpokladů modelu