Peter Spáč 5.12.2019 Logistická regrese —Technika, pomocí které se zjišťuje vliv nezávislých proměnných na závislou proměnnou — —Využívá se v jiných případech než lineární regrese — —Rozdíl je v závislé proměnné: —Lineární – kardinální (anebo dlouhá ordinální) —Logistická – binární (0/1), krátká kategorická (0/1/2/3) — —Nezávislé proměnné mohou být všech typů Logistická vs. lineární regrese —Lineární: —Zkoumá, jak se se změnou nezávislé proměnné o jednotku mění hodnota závislé proměnné —Např. jak se s počtem hodin strávených učením mění procentuální výsledek v testu — —Logistická: —Zkoumá, jak se se změnou nezávislé proměnné o jednotku mění šance, že nastane určitý výstup Logistická regrese —Dokáže dát odpovědi na mnohé otázky — —Zvyšuje se šance kandidáta na zvolení, pokud získá titul Mgr.? — —Ovlivňuje šance Realu Madrid na výhru v zápase to, kdo je jeho aktuálním trenérem? — —Mají studenti, kteří pravidelně navštěvují přednášky, vyšší šanci na úspěšné absolvování kurzu? — —Mají uchazeči o práci s praxí vyšší šanci na úspěch ve výběrovém řízení? — Výsledek obrázku pro job interview Logistická regrese – dva typy —Binární (binomial): —Závislá proměnná má dvě hodnoty (0/1) —Příklady – Kandidát byl/nebyl zvolený, volič se zúčastnil/nezúčastnil voleb — —Multinomiální (multinomial, polynomial): —Závislá proměnná má více než dvě hodnoty (0/1/2) —Příklady – Občan se nezúčastnil voleb / zúčastnil a volil vládní stranu / zúčastnil a volil opoziční stranu Základní body —Předpokladem lineární regrese je lineární vztah mezi nezávislými a závislou proměnnou — —Binární závislá proměnná toto neumožňuje, proto je tu lineární regrese nepoužitelná — —Logistická regrese absenci lineárního vztahu obchází použitím logaritmu — — — — — — — — — — — — — — — — — — — Logistická vs. lineární regrese Výstupy logistické regrese —Co její pomocí můžeme zjistit? —Vhodnost modelu na analyzovaná data —Efekt každé nezávislé proměnné — —Důležité statistiky: —Log-likelihood —R2 —Odds ratio —Pravděpodobnosti — — — — — — Log-likelihood —Srovnává skutečná (pozorovaná) a modelem předpokládaná data — —Ukazuje, jak model pasuje na analyzovaná data — —Jeho hodnota vyjadřuje, jaký podíl variability zůstává po aplikaci modelu nevysvětlený — —Vyšší hodnoty ukazují na slabší sílu modelu a naopak — — — — — — R2 —V lineární regresi R2 vyjadřuje, jaký podíl variability závislé proměnné je vysvětlen pomocí modelu — —V logistické regresi se R2 interpretuje podobně, ale nejde o ekvivalent — —Více variant, SPSS produkuje Cox & Snell a Nagelkerke — —Mnozí autoři výpovědní hodnotu R2 v logistické regresi zpochybňují — — — — Odds ratio —Ukazatel efektu prediktorů, jednoduchá interpretace — —Ukazuje, jak se se změnou nezávislé proměnné o jednotku mění šance na to, že nastane konkrétní výstup v závislé proměnné — —Hodnoty nad 1 znamenají nárůst šancí, hodnoty pod 1 pokles — —Ve výstupu SPSS zapisováno jako Exp(B) — — — — — Předpoklady —1. Nezávislost pozorování — —2. Absence multikolinearity — —3. Linearita —V lineární regresi je podmínkou lineární vztah mezi nezávislou a závislou proměnnou —V logistické toto neplatí – podmínkou je lineární vztah mezi kontinuální nezávislou proměnnou a logaritmem závislé proměnné — — — Možné problémy —Nedostatek informací od prediktorů: —Neexistují data pro všechny kombinace hodnot proměnných —„Prázdná místa“ v kombinaci hodnot — —Kompletní oddělení: —Zdánlivý paradox - nastává, když pomocí nezávislé proměnné anebo proměnných dokážeme dokonale predikovat závislou proměnnou —Řešení – více dat anebo méně proměnných — — — — — Příklad —Měření efektu léčebného zákroku na úspěšné vyléčení pacienta — —Závislá proměnná: —Binární (0/1) —Vyléčený/nevyléčený pacient — —Nezávislé proměnné: —Zákrok – realizovaný (1) vs. nerealizovaný (0) —Trvání nemoci ve dnech — — — — Práce v SPSS —Analyze à Regression à Binary Logistic —Závislá proměnná do Dependent —Nezávislé do Covariates — —Doporučené možnosti v Options a Save (Field, 281-282) — —Výběr metody: —Enter – všechny proměnné vstoupí do modelu okamžitě —Forward/Backward – postupné vkládání / ubírání —Závisí od cílů práce — — — — Práce v SPSS —Zvolené možnosti: — —Závislá - Cured — —Nezávislé – Intervention, Duration — —Metoda – Forward LR (nejdřív vytvoří model pouze s konstantou a následně bude přidávat prediktory v případě, že jsou přínosné) — — — — — —Jako první je popsaný model pouze s konstantou — —Uvedený je log-likelihood (154.08) – udává se v podobě -2 LL, což umožňuje posoudit signifikantnost — —Klasifikační tabulka —SPSS se při odhadu výstupu závislé proměnné přikloní k možnosti s vyšším počtem zastoupení (Cured) —Jde o nejlepší možný odhad, protože jiná data nemá —Správně tak zařadí 57,5 procent případů Výstupy —Následuje sumarizace modelu s konstantou — —Podstatnější je seznam zatím nevložených proměnných —Signifikantní hodnota na konci (Score 9.773, sig. ,008) ukazuje, že vložení jedné nebo více těchto proměnných sílu modelu vylepší —Pokud by daná hodnota byla nesignifikantní, přidání jednotlivých proměnných by model neposilnilo — —V dalším kroku tak SPSS přidá do modelu nejvhodnější proměnnou (Intervention) Výstupy —Vznikl nový model s přidáním Intervention — —Log-likelihood nového modelu = 144.16 —Hodnota je nižší než u předešlého modelu (154.08) —Rozdíl obou je 154.08 – 144.16 = 9.92 a tento rozdíl je signifikantní — —Nový model je tak proti předešlému signifikantně lepší v předpovědi závislé proměnné Výstupy —Údaj o Cox & Snell a Nagelreke R2 (mít na paměti výhradu o jejich výpovědní hodnotě) — —Klíčový výstup o efektech: —Regresní koeficient b – jak se při změně hodnoty nezávislé proměnné o jednotku změní logaritmus hodnoty závislé proměnné —Wald - ukazuje, zda koeficient b je signifikantně odlišný od nuly (v tomto případě je) Výstupy —Odds ratio: — —Jednoduchá interpretace efektu proměnné — —Exp(B) = 3.417 (> 1) — —Interpretace – pokud pacient podstoupí daný zákrok, jeho šance na vyléčení se zvýší 3,4 násobně proti těm pacientům, kteří zákrok nepodstoupí — Výstupy —Výstup následku odebrání Intervention z modelu —Ukazuje, že odebráním proměnné by se signifikantně změnila síla modelu à proměnná by se z modelu neměla odstranit — —Opět nabízí seznam nezařazených proměnných —(už bez Intervention, protože ta je v modelu) —Souhrnná hodnota Sig. ukazuje, že koeficient žádné z těchto proměnných není odlišný od nuly —Žádná další proměnná tak do modelu už nevstoupí — —Pokud by na začátku byla použita metoda Enter, všechny proměnné by do modelu vstoupily současně Výstupy Predicted probabilities —Modelová osoba 1: —Zákrok – 0 (ne) —Počet dní - 7 —b0 = -0,235 —b1 = 1,234 —b2 = -0,008 —X1 = 0 —X2 = 5 — —-0,235 + 1,234*0 + (-0,008*5) —-0,235 + 0 – 0,04 —-0,275 —B à Exp(B) — —Exp(-0,275) = 0,7596 — —P = Exp(B) / (1 + Exp(B) —P = 0,7596 / (1 + 0,7596) —P = 0,7596 / 1,7596 —P = 0,4316 — —Pravděpodobnost vyléčení osoby, která nepodstoupila zákrok a jejíž nemoc trvala 5 dní je 43 procent — —Co osoba, která podstoupila zákrok s dobou trvání nemoci 10 dní? —b0 = -0,235 —b1 = 1,234 —b2 = -0,008 —X1 = 1 —X2 = 10 — —-0,235 + 1,234*1 + (-0,008*10) —-0,235 + 1,234 – 0,08 —0,919 —B à Exp(B) — —Exp(0,919) = 2,5068 — —P = Exp(B) / (1 + Exp(B) —P = 2,5068 / (1 + 2,5068) —P = 2,5068 / 3,5068 —P = 0,7148 — —Pravděpodobnost vyléčení osoby, která podstoupila zákrok a jejíž nemoc trvala 10 dní je 71 procent — —Dva základní cíle — —1. Zjistit, pro která data není model vhodný —Identifikace odlehlých případů (outliers) —Rezidua — —2. Zjistit, které případy mají nadměrný vliv na model: —Cookova vzdálenost (Cook’s distance) —DFBeta —Leverage Následná kontrola —Analyze à Regression à Binary Logistic —Položka Save —SPSS požadované hodnoty uloží do automaticky vytvořených proměnných —COO_1, LEV_1, SRE_1, DFB0_1, DFB1_1, ... — —Cook’s distance a DFBeta < 1 — —Rezidua: —95 % případů v rámci pásma -2 až 2 —99 % případů v rámci pásma -2,5 až 2,5 —Studentized jsou vhodnější než standardized — —Leverage: —(k + 1) / N à počet nez. proměnných zvýšených o jedna se vydělí počtem případů —Přijatelné hodnoty jsou do 2 až 3 násobku takto spočítané hodnoty — Přijatelné hodnoty —Skutečný problém vytvářejí až případy, jenž mají vysoká rezidua (nad 2 až 3) a současně nadměrnou leverage — —Jejich negativní efekt je silnější v malých vzorcích (je zde méně případů, které jejich efekt vyváží) — —Pro odstranění případů z analýzy je potřebné mít dobrý důvod — — Následná kontrola Testování multikolinearity —Týká se pouze modelů s více než 1 nezávislou proměnnou — —Totožný postup jako u lineární regrese (SPSS nemá samostatné testování pro logistickou regresi) — —VIF – hodnoty nad 5 (10) indikují multikolinearitu —Tolerance (1 / VIF) – hodnoty pod 0,1 (0,2) jsou problém —Eigenvalues: —Proměnné by neměly mít vysokou variabilitu na stejných hladinách malých eigenvalues — — — Testování multikolinearity —Analyze à Regression – Linear —V Statistics zvolit Collinearity Diagnostics —Ostatní možnosti je možné vypnout (Estimates) – jde nám pouze o test multikolinearity — — Testování multikolinearity —Co v případě zjištění multikolinearity? — —Není možné zjistit unikátní efekty příslušných nezávislých proměnných — —Možnosti —Vyhodit jednu z příslušných proměnných —Separátní modely vždy pouze s jednou z daných proměnných — — — — — Multinomiální logistická regrese —Od binární se odlišuje pouze povahou závislé proměnné — —Závislá proměnná má více než dvě hodnoty (0/1/2/3) — —Postup je úplně totožný jako u binární log. regrese — —Výsledky se interpretují vždy k jedné z hodnot závislé proměnné, jež je stanovena jako referenční (jako nula u binární log. regrese) Práce v SPSS —Analyze à Regression à Multinomial Logistic —Závislá proměnná do Dependent (v Reference category vybrat referenční kategorii) —Nezávislé do Covariates — — — — — Výstupy —Výstupy se interpretují ve vztahu k referenční kategorii — —Pokud z 0/1/2 je nula referenční, tak: —1 vs. 0 —2 vs. 0 — — — — —