PSY252 Statistická analýza dat v psychologii II Přednáška 4 Logistická regrese Logistic regression Předpovídáme pohlaví pachatele oVíme, že pachatel nosí náušnici/e a napsal dopis se skórem emočních adjektiv 8. oVíme, že... onáušnice nosí 21% mužů a 83% žen ona škále přítomnosti emočních adjektiv od 1 do 13 mají ženy průměr 9,1 a muži pouze 4,5. o oJaká je pravděpodobnost, že pachatel je žena? o Nejprve využijme informaci o náušnici onáušnice nosí 23% mužů a 85% žen o oP(nosí|žena)=85% a P(nosí|muž)=23% oJenže my víme, že nosí a potřebujeme pravděpodobnost pohlaví – P(žena|nosí)=? oP(ž|n) =P(n|ž)P(ž)/P(n) = o =P(n|ž)P(ž)/(P(n|ž)P(ž)+P(n|m)P(m))= o =0,85*0,5/(0,85*0,5+0,23*0,5) = 0,79 o CROSSTAB POHLAVIxNAUSNICE oCROSSTABS o /TABLES=pohlavi BY nausnice o /CELLS=COUNT ROW o /COUNT ROUND CELL. Nejprve využijme informaci o náušnici 7 A co informace o emočních adjektivech? oZ těch, kdo mají e=8, je 7/8žen a 1/8 mužů O(žena|e=8)=7 ….ale dat je málo a nevyužíváme informaci o rozložení oPředpokládáme-li v populaci normální rozložení… nP(e≥8|žena)=normsdist(-0,3)=0,62 nP(ž|e≥8)=[P(e≥8|ž)*P(ž)]/[P(e≥8|ž)*P(ž)+P(e≥8|m)*P(m)]= n =[0,62*0,5]/[0,62*0,5+0,09*0,5]=0,87 … O(ž|e≥8)=6,9 npro e≥9 je O(ž|e≥9)=11,8 nOR(e≥9 ku e≥8 )=11,8/6,9=1,7 nPoměr šancí spojený s nárůstem e.a. o 1 je 1,7 n nUff, a to jsme nevzali v potaz možnou souvislost mezi nošením náušnic a emočními adjektivy…. n Logistická regrese oRozšíření lineární regrese na dichotomické závislé nnení to lineární regrese, protože nejde o lineární vztah oZávislou kódujeme 1 (jev nastal) a 0 (jev nenastal) oIdeově je závislou proměnnou pravděpodobnost toho, že jev nastal(nastane) oPomocí prediktorů predikujeme, jaká je pravděpodobnost, že jev nastane. o Technický základ logistické regrese 1 ošance OY=1 = PY=1/PY≠1 = PY=1/(1-PY=1) oln OY=1 se jmenuje logit (PY=1) o http://upload.wikimedia.org/wikipedia/commons/thumb/e/ea/Log.svg/512px-Log.svg.png Proč tak složitě? oZávislá jako pravděpodobnost má měřítko v rozsahu <0;1>. Kombinace prediktorů má ale rozsah (−∞;∞). oProto změníme měřítko závislé 1.Místo P použijeme O s měřítkem <0; ∞) 2.Pomocí logaritmu změníme měřítko na (−∞;∞). 3. oTaké lze říci, že jde o linearizaci o vztahu. o Technický základ logistické regrese 1 ošance OY=1 = PY=1/PY≠1 = PY=1/(1-PY=1) oln OY=1 se jmenuje logit (PY=1) oEkvivalentní rovnice modelu logistické regrese o ln OY=1 = b0 + b1X1 + b2X2 + ... + bmXm n OY=1 = e(b0 + b1X1 + b2X2 + ... + bmXm) o o o o lnOY=žena= -1,6 +2,9náušnice o oPro náušnice=1 ... P(žena|náušnice)=0,79 O=3,7 oKdyby neměl náušnici ... P=0,17 O=0,2 oZměna náušnice z 1 na 0 způsobila 18násobný pokles šancí .... exp(B)… eb o o o o lnOY=žena= -3,2 +0,5emoce o oPro emoce=8 ... P(žena|e=8)=0,66 O=1,9 oPro emoce=9 ... P=0,76 O=3,2 oZměna emocí z 8 na 9 způsobila 1,6násobný nárůst šancí .... stejně jako jakékoli změna o 1 o o o o lnOY=žena= -3,80 +0,39emoce +2,15náušnice o oPro náušnice=1 a emoce=8 ... P=0,81 O=4,2 oKdyby neměl náušnici ... P=0,33 O=0,50 oZměna náušnice z 1 na 0 (bez změny e.a.) způsobila 8,5násobný pokles šancí .... eb Technický základ logistické regrese 2 oJak spočítáme regresní váhy, které vyústí v nejlepší predikci pravděpodobnosti Y=1? onespočítáme, odhadneme (zapomeňme na nejmenší čtverce) oodhad metodou maximální věrohodnosti (maximum-likelihood estimation) nVýpočetně složitý algoritmus nDochází k takovým regr. koef., s nimiž je podmíněná pravděpodobnost získání dat, která jsme získali, nejvyšší možná : P (data|b0,b1,..,bm) = max nlikelihood = podmíněná p-nost P(D|H) pro různé H o Jak dobře regrese predikuje? oLikelihood je měřítkem zdařilosti regrese v logaritmované podobě: log-likelihood o o oLL sumíruje shodu mezi odhadem a daty nmaximem je 0, minimem je -∞ nčastěji se udává jako −2LL, tj. vynásobený −2 o−2LL se říká deviance (0 až ∞) omá chíkvadrát rozložení o oreportujeme Model chi-square, df, p o n o o o Statistické testy 1 Predikuje regrese lépe než nic? onic = základní model (baseline model) = predikujeme všem 0 nebo 1, podle toho, co z toho se vyskytuje častěji = PY=1 je pro všechny lidi stejná oPotom můžeme srovnat model s prediktory s tímto základním modelem – likelihood ratio test, LRT. nrozdíl -2LL obou modelů má c2 rozložení s df=počet prediktorů n c2 = −2LLnáš model −2LLzákladní model n df = mnáš model − mzákladní model ntj. je-li 1-CHISQ.DIST(c2 ; df)<0,05, predikuje model lépe než nic oPodobně můžeme srovnávat i modely s různým počtem prediktorů mezi sebou o analogie s predikováním průměru Nedalo by se to trochu zjednodušit? o-2LL lze převést na ukazatele podobné R2 n-2LL=0 … R2=1 a -2LL=∞ … R2=0 oRL2 Hosmera a Lemeshowa oRCS2 Coxe a Snella (max RCS2<1) oRN2 Nagelkerkeho (RCS2/max RCS2 ) o oNabývají hodnot od 0 do 1. oUdávají jak moc díky prediktorům klesl -2LL oNení to úplně totéž, co R2 v lineární regresi! A taky Tjur a McFadden Interpretace regresních koeficientů oU kategorických prediktorů (indikátorově kódovaných) udává expB poměr šancí pro indikovanou hodnotu vs. referenční hodnotu. oU spojitých prediktorů udává expB poměr šancí (nárůst) spojený s jednotkovým rozdílem na škále prediktoru. oStandardní velikost účinku vyjádřená OR je někdy zrádná (neznáme základ jako u procent) nProto počítáme rozdíl p-ností predikovaných pro dvě různé (typické) hodnoty určitého prediktoru. Statistické testy 2 Testy jednotlivých prediktorů oWaldův test: z=b/SE(b) nSPSS: Wald=z2, Wald~c2(df) npři velkých b nadhodnocuje SE ni tak je dobré uvádět 95% CI pro expB oRobustnější alternativou je c2 test zhoršení modelu po vyřazení daného prediktoru (tzv. likelihood-ratio test) Další indikátory kvality modelu oKlasifikační tabulka – úspěšnost predikce nsrovnání predikovaného a skutečného stavu n„reality-check“, i krásně signifikantní model může neuspokojivě predikovat oHosmer-Lemeshow Goodness of Fit Test ntaké srovnává predikovné a pozorované hodnoty závislé nGoF test >> nechceme, aby byl signifikantní oKlasifikační diagram (classification plot) oDiagnostika reziduí a vlivných případů (jako v LinReg) Praktické problémy oRegresní koeficienty se nevypočítávají, ale iteračně odhadují. oIterace nemusí vždy proběhnout úspěšně nnemusí konvergovat nmohou se vyskytnout bláznivé hodnoty oProblematické výsledky naznačují nedostatky v datech npři absenci některé z kombinace hodnot prediktorů a závislé npři dokonalé predikci oLR je náročná na velikost vzorku n Předpoklady logistického modelu oNení jich mnoho oLinearita – předpoklad lineárního vztahu mezi spojitými prediktory a logitem závislé. oNezávislost reziduí oImplicitně dostatek dat – měly by se vyskytovat všechny kombinace kategorických prediktorů oMultikolinearita je stejným problémem jako u LinReg Obecně budování modelu oVzhledem k nárokům na velikost vzorku větší tlak na jednoduchost modelu oExplorace: Vložit všechny prediktory a postupně ubírat – cílem je parsimonie (úspornost) oTestování hypotéz: vložit, co implikuje teorie, smysluplně po blocích o Reportování oField 19.7 Kam dál? oordinální regrese omultinomiální regrese o oGeneralizovaný lineární model Seminární úkol oConnie data oPredikujeme b05h (dobrovolničení) nvzděláním otce nhodnotami: hod_mat hod_eco hod_infl sko_zap hod_edu n? je efekt hod_eco moderován generací (1995-2010)? oPopsat výsledný model nKvalita modelu – testy, klasifikační úspěšnost, předpoklady, vlivné případy nVliv prediktorů – testy, interpretace, ilustrovat predikovanými pravděpodobnostmi