PSY252 Statistická analýza dat v psychologii II Seminář 5-6 Logistická regrese Logistic regression Předpovídáme pohlaví pachatele oVíme, že pachatel nosí náušnici/e a napsal dopis se skórem emočních adjektiv 8. oVíme, že... onáušnice nosí 24% mužů a 86% žen ona škále přítomnosti emočních adjektiv od 1 do 13 mají ženy průměr 9,1 a muži pouze 4,5. oJaká je pravděpodobnost, že pachatel je žena? o Mimochodem zpět k semestru 1: Jaká je pravděpodobnost, že pachatele je žena, víme-li, že nosí náušnice? … 78% U adjektiv je to 64% za předpokladu, že má škála normální rozložení a SD=3. Při předpokladu nezávislosti nošení náušnic a používání emočních adjektiv je hledaná pravděpodobnost 87% (O(ž)=6,5=O(ž je-li náušnice)*O(ž je-li e=8)) Logistická regrese oRozšíření lineární regrese na dichotomické závislé nnení to lineární regrese, protože nejde o lineární vztah oZávislou kódujeme 1 (jev nastal) a 0 (jev nenastal) oTechnicky je závislou proměnnou šance toho, že jev nastal (nastane) oPomocí prediktorů predikujeme, jaká je šance, že jev nastane. o Technický základ logistické regrese 1 ošance OY=1 = PY=1/PY≠1 = PY=1/(1-PY=1) oln OY=1 se jmenuje logit (PY=1) o o2 ekvivalentní rovnice logistické regrese o ln OY=1 = b0 + b1X1 + b2X2 + ... + bmXm o o o o o lnOY=žena= -3,80 +0,39emoce +2,15náušnice o oPro náušnice=1 a emoce=8 ... P=0,81 O=4,2 oKdyby neměl náušnici ... P=0,33 O=0,50 oZměna náušnice z 1 na 0 způsobila 8,5násobný pokles šancí .... eb Proč tak složitě? oZávislá jako pravděpodobnost má měřítko v rozsahu <0;1>. Kombinace prediktorů má ale rozsah (−∞;∞). oProto změníme měřítko závislé 1.Místo P použijeme O s měřítkem <0; ∞) 2.Pomocí logaritmu změníme měřítko na (−∞;∞). 3. oTaké lze říci, že jde o linearizaci o vztahu. o Technický základ logistické regrese 2 oJak spočítáme regresní váhy, které vyústí v nejlepší predikci pravděpodobnosti Y=1? onespočítáme, odhadneme (zapomeňme na nejmenší čtverce) oodhad metodou maximální věrohodnosti (maximum-likelihood estimation) nVýpočetně složitý algoritmus nDochází k takovým váhám, s nimiž je podmíněná pravděpodobnost získání dat, která jsme získali, nejvyšší možná : P (data|b0,b1,..,bm) = max nlikelihood = jiné slovo pro podmíněnou p-nost o Jak dobře regrese predikuje? oLikelihood je měřítkem zdařilosti regrese v logaritmované podobě: log-likelihood o o oLL sumíruje shodu mezi odhadem a daty nmaximem je 0, minimem je -∞ nčastěji se udává jako −2LL, tj. vynásobený −2 o n o o o Predikuje regrese lépe než nic? onic = základní model (baseline model) = predikujeme všem 0 nebo 1, podle toho, co z toho se vyskytuje častěji = PY=1 je pro všechny lidi stejná oPotom můžeme srovnat model s prediktory s tímto základním modelem. nrozdíl -2LL obou modelů má c2 rozložení s df=počet prediktorů n c2 = −2LLnáš model −2LLzákladní model n df = mnáš model − mzákladní model oPodobně můžeme srovnávat i modely s různým počtem prediktorů mezi sebou o Nedalo by se to trochu zjednodušit? o-2LL lze převést na ukazatele podobné R2 oRL2 Hosmera a Lemeshowa oRCS2 Coxe a Snella oRN2 Nagelkerkeho o oNabývají hodnot od 0 do 1. oUdávají jak moc díky prediktorům klesl -2LL Praktické problémy oRegresní koeficienty se nevypočítávají, ale iteračně odhadují. oIterace nemusí vždy proběhnout úspěšně nnemusí konvergovat nmohou se vyskytnout bláznivé hodnoty oProblematické výsledky naznačují nedostatky v datech npři absenci některé z kombinace hodnot prediktorů a závislé npři dokonalé predikci n