ANALÝZA KATEGORIZOVANÝCH DAT V SOCIOLOGII Tomáš Katrňák Fakulta sociálních studií Masarykova univerzita Brno AKD TK 2 Lekce 1: Úvod do analýzy kategorizovaných dat AKD TK 3 SOCIOLOGIE A STATISTIKA ˇ nadindividuální společenské struktury podmiňují lidské chování (Durkheim) ˇ společenské struktury lze pozorovat na základě statistik o lidském chování, pozorujeme novou skutečnost, z individuálního hlediska nerozpoznatelnou, ptačí perspektiva, vymezuje a zároveň přináší informaci o tzv. hromadném jevu - hromadný jev je kolektivita nového řádu, její objevení souvisí s konstitucí moderní společnosti a ustavením sociologie a statistiky jako věd o sociálním životě v moderní společnosti ˇ hromadný jev je definován dostatečným počtem zkoumaných jednotek, protože až na základě určitého počtu (mnohosti) lze získat představu o pravidelnosti, struktuře a zákonitostech v sociálním životě (opakem je individuální jev) - kde vznikají sociální fakta, když nepramení z psychiky člověka, ačkoliv jsou její nedílnou součástí? ptá se Durkheim - zdroje sociálních faktů leží v sociálních vazbách mezi lidmi, leží tedy v nadindividuálních sociálních strukturách, odpovídá Durkheim ˇ z tohoto důvodu sociologové pro pochopení sociálního života zkoumají nadindividuální sociální struktury, statistika a statistický aparát jim v tom pomáhají AKD TK 4 ZÁKON VELKÝCH ČÍSEL ˇ sociální jev je vždy hromadný jev, adjektivum sociální odkazuje k hromadnosti a sociálním vazbám (Simmel) ˇ všechny jevy (včetně sociálních) podléhají zákonu velkých čísel (jako první jej definoval francouzský matematik a statistik Poisson) - podle tohoto zákona se empirické údaje o jevu blíží skutečnosti s rostoucím počtem pozorovaných jednotek (když pozorujeme všechny jednotky, pozorujeme skutečnost), pravidelnost a pravá podstata jevu tedy vyvstává na povrch s rostoucím počtem pozorovaných případů AKD TK 5 PROMĚNNÉ A JEJICH DĚLENÍ ˇ podle slovního vyjádření hodnot proměnných: - kvantitativní proměnné (diskrétní & spojité) - kvalitativní proměnné ˇ podle vztahů mezi hodnotami jednotlivých proměnných: - nominální (název variant) - ordinální (název variant + uspořádání vertikální nebo horizontální) - kardinální (název variant + uspořádání + vzdálenost) ˇ intervalové (o kolik je jedna hodnota větší než druhá), <-; >, neexistuje racionální 0 (např. teplota ve °C, 0 neznamená nepřítomnost teploty) ˇ poměrové (kolikrát je jedna hodnota větší než druhá) <0; >, 0 má racionální základ (např. věk, počet dětí, váha, životnost výrobku atd.) ˇ hranice mezi jednotlivými proměnnými nejsou neprůchodné, záleží na úhlu pohledu, např. členství v politické straně (nominální, ordinální) nebo vzdělání (nominální, ordinální, kardinální) ˇ proměnné vyššího řádu měření lze převést do nižšího řádu měření (tzv. ordinalizace nebo nominalizace proměnných) AKD TK 6 PROMĚNNÉ A JEJICH DĚLENÍ ˇ pod hlavičku kategorizované proměnné řadíme nominální, ordinální a kardinální poměrové proměnné ˇ kategorizované proměnné dělíme podle počtu variant: - dichotomické (binární, alternativní) - polytomické (vícekategoriální) ˇ uspořádané kategorie (vertikálně, horizontálně) ˇ neuspořádané kategorie (nominální proměnné) AKD TK 7 TRANSFORMAČNÍ PŘISTUP VS. PŘÍSTUP LATENTNÍ PROMĚNNÉ ˇ dva přístupy v konceptualizaci kategorizovaných dat: - kategorizovaná data jsou inherentně diskrétní proměnné (nelineární pravděpodobnostní modely), statistika a biostatistika, transformační přístup ke kategorizovaným datům ˇ výběrové varianty znaků a populační parametry se shodují, data modelujeme v měřené podobě, p (pravděpodobnost) závisle proměnné transformujeme do podoby lineární funkce nezávisle proměnných, tato funkce se nazývá spojnice (link), modely transformované do lineárních modelů spojnicemi se nazývají zobecněné lineární modely (GLM) (p je pak vyjádřena jako nelineární pravděpodobnostní model) - kategorizovaná data jsou nepozorované latentní proměnné (hovoří se o modelech latentních proměnných), tento přístup najdeme v ekonometrii a psychometrii, jedná se o tzv. přístup ke kategorizovaným datům jako k latentním proměnným ˇ v populaci jsou kategorizovaná data kontinuální proměnné, pozorujeme je ovšem jako kategorizované (např. u proměnné dítě pozorujeme pouze dvě varianty, nicméně v populaci je to kontinuální proměnná, která když překročí určitou míru, tak pozorujeme její manifestaci), rozdíl mezi kontinuálními daty a kategorizovanými daty je v míře pozorovatelnosti, u kategorizovaných dat nevidíme jednotlivé hodnoty, ale pouze intervaly (proto se kategorizovaná data někdy nazývají jako omezené závisle proměnné), v populaci existují tendence, sklon a míra tolerance, přímo úměrné investicím a výnosům, pozorujeme pak jejich projevy skrze překročení míry tolerance AKD TK 8 TRANSFORMAČNÍ PŘISTUP VS. PŘÍSTUP LATENTNÍ PROMĚNNÉ ˇ debata o povaze kategorizovaných dat se táhne historií statistického uvažování (její počátek leží ve sporu K. Pearsona (latentní struktura) a G. U. Yulea (inherentní diskrétnost) v první polovině 20. stol., dodnes tato debata není uzavřená, z obou dvou přístupů vycházejí odlišné numerické algoritmy k identifikaci modelů se závisle kategorizovanou proměnnou, jejich výsledky jsou nicméně totožné ˇ o kterých z následujících proměnných lze uvažovat jako o latentních? - úspěch u zkoušky, souhlas s předmanželským sexuálním životem, pohlaví, participace na trhu práce, rodinný stav, přijetí na VŠ, sociální status, gravidita, četba časopisu Respekt, zaměstnanecká mobilita - u latentní proměnné y* předpokládáme, že je lineárně závislá na pozorované proměnné x, strukturním vztahem vyjádřeno: y* = xi+i nebo pro jednoduchou proměnnou vyjádřeno vztahem y* = +xi+i AKD TK 9 INDIVIDUÁLNÍ A AGREGOVANÁ DATA ˇ individuální data - ukazují varianty znaků pro jednotlivá pozorování - jednotlivé případy charakterizuje vždy jedna varianta zkoumané proměnné - data jsou prezentována obvykle ve formě matice, v níž vždy jeden řádek odpovídá jednomu pozorování (případu) a jeden sloupec vždy jedné proměnné (znaku), pole matice pak zachycují varianty proměnných u jednotlivých pozorování (případů) ˇ agregovaná data - ukazují počet opakujících se pozorování - jednotlivé kombinace variant proměnných jsou charakterizovány počtem případů - data jsou prezentována obvykle ve formě kontingenční tabulky, v řádcích a sloupcích tabulky jsou zkombinovány varianty proměnných, v polích tabulky jsou četnosti pozorování (počty případů) těchto variant AKD TK 10 Age through 54 Age through 55 and above tolbutamine placebo tolbutamine placebo Dead 8 5 22 16 Surviving 98 115 76 79 agecat exposed died pop 1. 0 1 1 8 2. 0 1 0 98 3. 0 0 1 5 4. 0 0 0 115 5. 1 1 1 22 6. 1 1 0 76 7. 1 0 1 16 8. 1 0 0 69 agecat exposed deaths pop 1. 0 1 8 106 2. 0 0 5 120 3. 1 1 22 98 4. 1 0 16 85 AGREGOVANÁ DATA A JEJICH ANALÝZA POMOCÍ STATY ˇ fully relational format of data - každé pole tabulky odpovídá jednomu pozorování, pole tabulky jsou v matici soustředěné pod jednu proměnnou ˇ folded (grouped) format of data - pozorování je o polovinu méně než polí v tabulce, nicméně pozorování jsou soustředěná pod dvě proměnné (tedy do šířky matice) ˇ příklad: (1) fully relational format (2) folded format ˇ podle typu dat volíme ve Statě syntax výpočtu, např. logit akceptuje (1), blogit akceptuje (2), glogit akceptuje (2), ale odhad není proveden jako ML, ale jako WLS, glm akceptuje jak (1), tak (2), obecně je ve Statě rozšířenější typ dat (1) AKD TK 11 Lekce 2: Analýza dvojrozměrných tabulek v sociologii AKD TK 12 pozorované četnosti: f11 f12 f1+ f21 f22 f2+ f+1 f+2 f++ očekávané četnosti: F11 F12 F1+ F21 F22 F2+ F+1 F+2 F++ n11 n12 n1+ n21 n22 n2+ n+1 n+2 N LOGIKA A NOTACE KONTINGENČNÍCH TABULEK ˇ kontingenční tabulky jsou prvním (a nejstarším) krokem k analýze kategorizovaných dat ˇ např. kontingenční tabulka víra v posmrtný život podle pohlaví (zdroj: Agresti 1996:17) -------------------------- | víra pohlaví | ano ne/neví ----------+--------------- žena | 435 147 muž | 375 134 -------------------------- ˇ ve dvojrozměrné tabulce proměnná x má i úrovní (variant) a proměnná y má j úrovní (variant), pole v tabulce reprezentují ij možné výsledky, neboli velikost tabulky, taková tabulka se nazývá kontingenční tabulka (2 proměnné = dvojrozměrná, 3 proměnné = trojrozměrná, atd.), např. tabulka o rozměrech 2 x 2 (i x j) má 4 pole (4 frekvence), tabulka o rozměrech 3 x 2 x 2 (i x j x k) má 12 polí (12 frekvencí) ˇ fij označuje pozorovanou (naměřenou) četnost v tabulce ˇ Fij označuje očekávanou (vypočítanou) četnost v tabulce za určitého předpokladu AKD TK 13 pohlaví víra frekvence 1 1 435 1 2 147 2 1 375 2 2 134 LOGIKA A NOTACE KONTINGENČNÍCH TABULEK ˇ každé fij v tabulce označuje počet (četnost) případů, které připadají na toto pole tabulky, neboli reprezentuje souběžný výskyt jednotlivých variant proměnných ˇ pomocí tabulkové notace (fij) a frekvenčních vah [fweight= ] můžeme kontingenční tabulky vkládat do statistických programů a analyzovat je ˇ např. pro tabulku víra podle pohlaví použijeme: ---------------------- | víra pohlaví | 1 2 ----------+----------- 1 | 435 147 2 | 375 134 ---------------------- ˇ stata syntax pro dvojrozměrnou tabulku . tabulate pohlavi vira [w= freq] (frequency weights assumed) | vira pohlavi | 1 2 | Total -----------+----------------------+---------- 1 | 435 147 | 582 2 | 375 134 | 509 -----------+----------------------+---------- Total | 810 281 | 1,091 AKD TK 14 PRAVDĚPODOBNOST V KONTINGENČNÍ TABULCE ˇ základní typy pravděpodobnosti pro 2x2 tabulku jsou - celková/sdružená pravděpodobnost (pravděpodobnost výskytu jednotky v i-té variantě proměnné X a zároveň j-té variantě proměnné Y), označení ij pro populaci a označení pij pro výběr (platí, že ij = 1, pij = 1, výpočet pij = nij / N) - marginální pravděpodobnost (pravděpodobnost, že jednotka nabude i-té varianty X (nebo Y) bez ohledu na Y (nebo X), v tabulce jsou tyto pravděpodobnosti v posledním řádku nebo sloupci, označení pi+ (i+) řádková proměnná, p+j (+j) sloupcová proměnná (platí p+1 = p11 + p12 , výpočet p+j = n+j / N) - podmíněná pravděpodobnost (relativní řádková, sloupcová pravděpodobnost), konstruujeme v případě, že rozlišujeme nezávisle (vysvětlující) a závisle (vysvětlovanou) proměnnou, např. Y podle X, jedná se o pravděpodobnost Y v každé variantě X, označení pi/j nebo pj/i (i/j, j/i) (platí, že pi/j = 1, výpočet např. p1/1 = n1/1 / n1/+) ˇ když je nezávisle proměnná v řádcích, počítáme podmíněnou pravděpodobnost v řádcích podle sloupců (interpretace!) ˇ když je nezávisle proměnná ve sloupcích, počítáme podmíněnou pravděpodobnost ve sloupcích podle řádků (interpretace!) AKD TK 15 NEZÁVISLOST PROMĚNNÝCH V KONTINGENČNÍ TABULCE ˇ dvě proměnné X a Y jsou statisticky nezávislé tehdy, když podmíněná pravděpodobnost X (Y) je stejná v každé variantě Y (X) ˇ relativní řádková (sloupcová) pravděpodobnost je tedy v každém poli tabulky stejná ˇ např. víra v posmrtný život je nezávislá na pohlaví -------------------------- | víra pohlaví | ano ne/neví ----------+--------------- žena | 0.7 0.3 muž | 0.7 0.3 -------------------------- ˇ výpočet očekávaných četností v dvojrozměrné kontingenční tabulce: .i j ij f f F f + + + + = - očekávané četnosti ukazují rozložení případů v tabulce za situace statistické nezávislosti mezi proměnnými X a Y -------------------------- | víra pohlaví | ano ne/neví ----------+--------------- žena | 0.5 0.5 muž | 0.5 0.5 -------------------------- AKD TK 16 NEZÁVISLOST PROMĚNNÝCH V KONTINGENČNÍ TABULCE ˇ pro test statistické nezávislosti mezi proměnnými v kontingenční tabulce se používá Pearsonův chí-kvadrát test (X2 ) se stupni volnosti (i - 1) (j - 1) ˇ dále se používá Poměr maximální věrohodnosti (L2 , někdy G2 ), či věrohodnostní poměr, se stejným počtem stupňů volnosti (i - 1) (j - 1) ˇ protože Fij - fij nazýváme reziduály, měří X2 a L2 sednutí modelu nezávislosti na data, tedy odchylku očekávaných četností od pozorovaných, odpovídají na otázku, jak moc se model liší od dat? Obě tyto statistiky mají stejnou x2 distribuci, každá z nich má ovšem své výhody a nevýhody (X2 se používá spíše při souborech s malým N) 2 2 1 1 ( )I J ij ij i j ij F f F = = - = 2 1 1 2 ln I J ij ij i j ij f L f F= = = AKD TK 17 NEZÁVISLOST PROMĚNNÝCH V KONTINGENČNÍ TABULCE ˇ příklad: pozorované četnosti a výsledky testu X2 -------------------------- | víra pohlaví | ano ne/neví ----------+--------------- žena | 435 147 | 432.1 149.9 | 0.019 0.056 muž | 375 134 | 377.9 131.1 | 0.022 0.064 -------------------------- ˇ adjustované reziduály (AR): ukazují rozdíly mezi fij a Fij, je to jedno číslo pro každé tabulkové pole, tyto čísla jsou mezi sebou komparovatelná (logika výpočtu: Pearsonův residuál (fij - Fij / Fij 2 ) dělený odhadnutou standardní chybou), cílem AR je lépe porozumět struktuře dat ˇ hodnota AR > 2 nebo 3 indikuje odmítnutí Ho o tom, že neexistují statistické rozdíly mezi fij a Fij (jsou v mezích náhody) Pearson chi2(1) = 0.1621 Pr = 0.687 Likelihood-ratio chi2(1) = 0.1620 Pr = 0.687 Odhadnutý model nezávislosti se statisticky významně neliší od dat (df=1), proto tento model můžeme přijmout a konstatovat, že proměnné pohlaví a víra spolu nesouvisejí (1 )(1 ) ij ij ij i j f F AR F p p+ + - = - - AKD TK 18 ASOCIACE V KONTINGENČNÍ TABULCE - RELATIVNÍ RIZIKO (RR) ˇ pro dichotomickou závisle proměnnou v kontingenční tabulce stačí znát pouze podíl p pro jednu variantu, pro druhou variantu je podíl (1-p), je to doplnění do čísla 1 ˇ obecně platí, že pro závisle proměnnou s J-kategoriemi je J-1 podílů neredundantních ˇ relativní riziko (RR) je poměr podmíněných podílů (poměr relativních řádkových nebo sloupcových četností) ˇ RR je vždy kladné číslo, 1 znamená nezávislost Y na X (p2|2= p1|1) ˇ příklad: -------------------------- | souhlas s |předmanž. sexem pohlaví | ano ne ----------+--------------- žena | 165 370 | 30.84 69.16 muž | 435 147 | 74.74 25.26 -------------------------- 2|1 2|2 2|1 1|1 1|2 1|1 (1 ) ; zbytek (1 ) p p p RR RR p p p - = = = - - RR muži = 74.74 / 30.84 = 2.42; RR pro muže oproti ženám pro variantu ano je 2.42 krát větší, neboli o 142% větší ((2.42-1).100) - RR ženy = 30.84 / 74.74 = 0.41; RR pro ženy oproti mužů pro variantu ne je 0.41 krát menší, neboli o 59% menší ((1-0.41).100) - číslo 1 v obou případech označuje nezávislost a čísla ukazují jednu a tu samou věc, ale naopak - převod na přirozený logaritmus to dokazuje, protože ln(2.43) = - ln(0.41) - ln (2.43) = 0.89; ln (0.41) = -0.89 - číslo 0 v tomto případě označuje nezávislost, obě čísla jsou od 0 ve stejné vzdálenosti, ovšem v opačné směru - např. (5 x 2.42) = 12.1 a (12.1 x 0.41) = 5 AKD TK 19 ODDS RATIO (OR) - POMĚR ŠANCÍ ˇ OR ukazuje asociaci v kontingenčních tabulkách, OR je základním stavebním kamenem loglineárních modelů, OR jsou rovněž důležité pro pochopení logiky logistické regrese - RR je poměr dvou podmíněných pravděpodobností - OR je poměr dvou šancí (odds) ˇ šance (O) je poměr je poměr pravděpodobnosti jedné varianty (události) ke druhé variantě (událost nenastala) ˇ příklad výpočtu šancí: -------------------------- | souhlas s |předmanž. sexem pohlaví | ano ne ----------+--------------- žena | p11 p12 muž | p21 p22 -------------------------- ˇ šance ukazuje pravděpodobnost, že se určitá událost stala, je to vždy kladné číslo - 1 znamená stejný výskyt, stejnou šanci pro obě konkurenční události - >1 vyšší šance pro událost (variantu) - <1 nižší šance pro událost (variantu) 12 12 (ne/ano) 11 12 21 21 (zeny/muzi) 11 21 (1 ) Odd (1 ) Odd + 1 p p O p p p p O p p p = = - = = => = - AKD TK 20 OR - POMĚR ŠANCÍ ˇ příklad výpočtu šancí: - O (muži/ano) = 2.64 (2.64 krát větší šance pro ano u mužů oproti ženám, nebo 264 souhlasů u mužů ku 100 souhlasům u žen, nebo o 164% více pro ano u mužů) - O (ženy/ano) = 0.38 (0.38 krát menší šance pro ano u žen oproti mužům, nebo 38 ano u žen na 100 ano u mužů nebo o 62% méně pro ano u žen) ˇ 2.64 odpovídá 0.38 (důkaz - převod na přirozený logaritmus, 0 pak označuje stav nezávislosti) ˇ tvrzení 2.64 krát více odpovídá tvrzení o 164% více (důkaz: zvolme libovolné přirozené číslo, např. 3, pak platí, že (a) 3 X 2.64 = 7.92 (dostáváme číslo, které je 2.64x větší než zvolené číslo 3) (b) 1% z 3 = 0.03 (c) 0.03 x 164 = 4,92 (d) 3 + 4,92 = 7,92 (dostáváme číslo, které je o 164% větší než zvolené číslo 3) (e) výsledek rovnice (1) = výsledku rovnice (4) AKD TK 21 OR - POMĚR ŠANCÍ ˇ OR se vypočítá jako poměr dvou šancí (rozlišujeme pozorované OR nebo na základě očekávaných četností vypočítané (modelový) OR) ˇ OR je kladné číslo, variuje v intervalu <0;>, interpretace závisí na zvolené referenční kategorii, OR > 1 nebo OR < 1 znamená asociaci mezi variantami proměnných, čím větší vzdálenost od 1 tím také větší asociace, OR = 1 znamená nezávislost ˇ 2 hodnoty OR u stejných kategorií reprezentují jednu a tu samou variantu asociace, ovšem v opačném směru (např. OR=4 a OR=0.25) - kontrastní hodnotu asociace dostaneme 1/OR (1/4=0.25 nebo 1/0.25=4), interpretace je stejná jako u šancí (O) nebo u RR - LOR (log-odds-ratio) je přirozený logaritmus poměru šancí, variuje <;>, např. OR = 4, pak LOR = 1,39 (nebo OR=0.25, pak LOR= -1.39) - převod tabulkových četností na ln a výpočet OR! ˇ interpretace OR!, je to vztah 2 šancí, ne poměrů nebo čísel 11 1 11 22 11 2221 122 21 12 21 12 22 . . . . p p p f fp p p p f f p = = = = 22 2 22 11 11 2221 121 21 12 21 12 11 . . . . F F F F = = = = AKD TK 22 OR - POMĚR ŠANCÍ ˇ OR se také někdy nazývá tabulkový poměr (cross-product ratio) ˇ pro 2x2 kontingenční tabulku existuje pouze 1 smysluplný poměr šancí, protože volba jiné referenční kategorie vede ke stejnému OR nebo jemu jinému číselnému vyjádření, které ovšem substantivně znamená stejnou věc ˇ obecně platí, že pro IxJ dimenze v tabulce stačí vypočítat (I-1)(J-1) poměru šancí, zbylé OR odvodíme z již vypočítaných OR ˇ obecně platí: ˇ v I x J tabulce je mnoho OR, protože každé OR zahrnuje kombinaci 2 řádkových variant jedné proměnné a 2 sloupcových variant druhé proměnné ˇ protože u OR jsou pojaty proměnné symetricky, není nezbytné při jejich výpočtu rozlišovat závisle a nezávisle proměnnou, u RR a jeho interpretaci to bylo nezbytné, protože hodnota RR závisela na tom, zdali jsem RR počítali v první nebo druhé variantě závisle proměnné ˇ vztah mezi OR a RR je: ( 1)( 1) ( 1) ( 1) ( 1..... -1; 1...., -1) . . ij i j ij i j i j i I j J F F F F + + + + = == 1 1 1 2 2 2 (1 ) 1 (1 ) 1 p p p OR RR p p p - - = = - - AKD TK 23 OR - POMĚR ŠANCÍ ˇ OR jsou invariantní - k celkovému počtu případů (když změníme velikost N o konstantu C, OR zůstává konstantní) - k řádkové marginální distribuci (když změníme první řádek o konstantu C a druhý řádek o konstantu D, OR zůstává konstantní) - k sloupcové marginální distribuci (když změníme první sloupec o konstantu C a druhý sloupec o konstantu D, OR zůstává konstantní) ˇ z tohoto důvodu se OR využívají především v těch případech, kdy je nutné odhlédnout od marginálních distribucí (např. při analýze mobilitních tabulek) 11 22 11 22 11 22 12 21 12 21 12 21 . . . . . . . . . . . . . . c f c f c f c f f f c f c f c f c f f f = = = 11 22 11 22 11 22 12 21 12 21 12 21 . . . . . . . . . . . . . . c f d f c f d f f f c f d f c f d f f f = = = 11 22 11 22 11 22 12 21 12 21 12 21 . . . . . . . . . . . . . . c f d f c f d f f f d f c f d f c f f f = = = AKD TK 24 Lekce 3: Analýza vícerozměrných tabulek v sociologii AKD TK 25 PARCIÁLNÍ A MARGINÁLNÍ KONTINGENČNÍ TABULKY ˇ vícerozměrné tabulky, problém asociace mezi proměnnými, otázka vztahu mezi dvěmi proměnnými při kontrole třetí proměnné ˇ parciální tabulky - modelování dvojrozměrných tabulek podle třetí proměnné, zobrazujeme vztah mezi X a Y v jednotlivých variantách Z, Z je drženo na stejné hladině, což znamená mapování vlivu X na Y při kontrole Z, je to podmíněná asociace mezi X a Y, protože je kontrolována pro Z ˇ otázka: zmizí vztah mezi X a Y při kontrole pro Z, nebo stále existuje? ˇ marginální tabulky - dvojrozměrné tabulky, nebereme zřetel na třetí nebo další proměnné, parciální tabulky jsou zkombinovány do dvojrozměrné marginální tabulky, každé pole v tabulce je pak sumou toho samého pole v jednotlivých parciálních tabulkách AKD TK 26 PARCIÁLNÍ A MARGINÁLNÍ KONTINGENČNÍ TABULKY ˇ Jaký je vztah mezi barvou pleti opakovaně obžalovaných z vraždy, uvalením trestu smrti na ně a barvou pleti jejich oběti? Neboli, jak poznamenává barva pleti u opakovaně obžalovaných rozhodnutí o jejich trestu smrti při kontrole barvy pleti oběti? (data pocházejí z amerického státu Florida, byla sebraná mezi lety 1976-1987, Agresti 1996, str. 56) Trest smrti Oběť Obžalovaný Ano Ne (%) Ano Běloši 53 414 11,3 Běloši Černoši 11 37 22,9 Běloši 0 16 0 Černoši Černoši 4 139 2,8 Běloši 53 430 11 Celkem Černoši 15 176 7,9 - co ukazuje marginální tabulka? - co ukazují parciální tabulky? - údaje z marginální tabulky vs. údaje z parciálních tabulek? - OR z marginálního vztahu vs. OR z parciálního vztahu ˇ marginální asociace ukazuje opak parciální (podmíněné) asociace - tato skutečnost se nazývá Simpsonův paradox AKD TK 27 PODMÍNĚNÉ A MARGINÁLNÍ POMĚRY ŠANCÍ (OR) ˇ OR pro vícerozměrné tabulky počítáme jako podmíněné OR v jednotlivých variantách třetí proměnné ˇ OR pro marginální tabulku 11| 22| | 21| 12| . . k k xy k k k f f f f = 11 22 21 12ln ln ln (ln ln )xy f f f f = + - + 11 11 22 11 2221 12 21 12 21 12 22 . . . . xy p p p f fp p p p f f p = = = | 11| 22| 21| 12|ln ln ln (ln ln )xy k k k k kf f f f = + - + AKD TK 28 PODMÍNĚNÉ A MARGINÁLNÍ POMĚRY ŠANCÍ ˇ Dvě marginální tabulky, které ukazují jednak dvě nemocnice, které aplikovaly naprosto stejnou léčbu pro drogově závislé, a jednak výsledky, kterých dosáhly. Drogová Výsledek léčba + ­ A 20 20 B 20 40 Výsledek Nemocnice + ­ Praha 30 20 Brno 10 40 Drogová léčba Nemocnice A B Praha 30 20 Brno 10 40 ˇ proč je drogová léčba A dvakrát úspěšnější než drogová léčba B? - Praha častěji aplikuje léčbu A než Brno a zároveň má také pozitivní výsledky, parciální asociace tuto skutečnost ukazuje; závěr, že A je úspěšnější než B se při kontrole nemocnice ukáže jako falešný (rozdíl mezi A a B mizí) AKD TK 29 HOMOGENNÍ ASOCIACE ˇ homogenní asociace je konstantní asociace mezi dvěma proměnnými v jednotlivých variantách třetí proměnné (stejná velikost podmíněné asociace) - ORxy(1) = ORxy(2) = ..... ORxy(k) ˇ když platí ORxy(1) = ORxy(2) = ..... ORxy(k) , pak platí ORxz(1) = ORxz(2) = ..... ORxz(k); a rovněž ORyz(1) = ORyz(2) = ..... ORyz(k) - homogenní asociace je vždy symetrická pro všechny varianty parciální asociace v jednotlivých variantách dalších proměnných Z, X nebo Y ˇ homogenní asociace znamená, že neexistuje trojrozměrná interakce, Z neovlivňuje vztah mezi X a Y - když homogenní asociace neexistuje, pak podmíněné OR variují podle třetí proměnné AKD TK 30 Lekce 4: Lineární regresní model, zobecněné lineární modely (GLM), principy statistického modelování AKD TK 31 JEDNODUCHÁ LINEÁRNÍ REGRESE ˇ jednoduchá lineární regrese může být pro výběrový soubor zapsána jako: ^ xi i i y a b d= + + ˇ pro populaci je pak zapsána jako: xi i i y e = + + - kde je posunutí (intercept), je směrnice pro jednotlivé varianty x a e je chyba (residuál, odchylka) pozorované proměnné od odhadnuté směrnice ˇ v regresní analýze je hodnota závisle proměnné specifikována jako součet lineárních efektů nezávisle proměné (prediktora) a chyb (residuálů, odchylek, diferencí) AKD TK 32 JEDNODUCHÁ LINEÁRNÍ REGRESE ˇ stata syntaxt pro regresní model regress price mpg headroom trunk weight length Source | SS df MS Number of obs = 74 -------------+------------------------------ F( 5, 68) = 8.38 Model | 242096575 5 48419315.1 Prob > F = 0.0000 Residual | 392968821 68 5778953.25 R-squared = 0.3812 -------------+------------------------------ Adj R-squared = 0.3357 Total | 635065396 73 8699525.97 Root MSE = 2403.9 ------------------------------------------------------------------------------ price | Coef. Std. Err. t P>|t| [95% Conf. Interval] -------------+---------------------------------------------------------------- mpg | -85.75773 83.60769 -1.03 0.309 -252.5943 81.07882 headroom | -710.1846 444.8546 -1.60 0.115 -1597.878 177.5089 trunk | 111.1498 109.9446 1.01 0.316 -108.2411 330.5408 weight | 4.420511 1.165629 3.79 0.000 2.094535 6.746488 length | -108.0777 42.56471 -2.54 0.013 -193.0142 -23.1411 _cons | 15552.1 6027.182 2.58 0.012 3525.049 27579.16 ------------------------------------------------------------------------------ AKD TK 33 ODHAD JEDNODUCHÉ LINEÁRNÍ REGRESE - OLS ˇ když známe vzorec pro regresi: ˇ tak na základě metody nejmenších čtverců směrnici a posunutí vypočítáme podle vzorců: ˇ směrnice prochází vždy průměry obou proměnných, a proto posunutí (a) vypočítáme dosazením průměrů do upravené regresní rovnice ^Y a bX= + 1 2 1 ( )( ) ( ) n i i i n i i X X Y Y b X X = = - - = - a Y bX= - AKD TK 34 PŘEDPOKLADY LINEÁRNĚ REGRESNÍHO MODELU ˇ odpovídající funkční podoba (linearita a normální rozložení) ˇ minimální výskyt odlehlých pozorování ˇ normální rozložení náhodných chyb (residuálů), problém podoby podmíněné distribuce (např. podmíněné zešikmení) ˇ homoskedasticita (konstantní variabilita) náhodných chyb (residuálů, složek), problém tvaru podmíněné distribuce (např. podmíněná špičatost) ˇ neexistence korelace mezi náhodnými chybami (residuály) a vysvětlujícími proměnnými ˇ neexistence multikolinearity AKD TK 35 STATISTICKÁ INFERENCE V LINEÁRNÍ REGRESI ˇ konfidenční interval CI()...... b t*SEb ˇ test hypotézy HO: = 0, výpočet t statistiky: ˇ tabulkové kritické hodnoty t rozdělení b b t SE = AKD TK 36 ODHAD JEDNODUCHÉ LINEÁRNÍ REGRESE - MLE ˇ cílem MLE (maximálně věrohodného odhadu) je najít takovou hodnotu koeficientu (parametru), který nejvěrohodněji generuje výběrová data ˇ výběrové hodnoty yi jsou výsledkem pravděpodobnostní (hustotní) funkce f(yi|), kde je neznámý parametr, který generuje hodnoty y v populaci ˇ věrohodnostní funkce je pak součin pravděpodobností (hustot) jednotlivých yi: ˇ hledáme takový koeficient (obvykle sadu koeficientů) které maximalizují L, MLE tedy porovnává všechny možné regresní koeficienty a odpovídá na otázku, s jakou věrohodností generují naměřená data, numericky je snazší počítat s přirozeným logaritmem L (hledáme maximum ln L, což odpovídá maximu L) ˇ k maximalizaci věrohodnostní funkce je nutné znát matematický vzorec pro náhodný proces generující data v populaci ˇ v případě lineární regrese musíme tedy přijmout předpoklad o rozložení y ve variantách x, (neboli předpokládat distribuci residuálů na základě určitého algoritmu) ˇ pro spojité znaky v regresi platí, že residuály jsou nezávislé, mají konstantní variabilitu 2 a normální rozložení s =0. 1 ( ; ) n i i L f y = = 1 ln ( ; ) n i i L f y = = AKD TK 37 ODHAD JEDNODUCHÉ LINEÁRNÍ REGRESE - ML ˇ u spojité závisle proměnné přepokládáme, že je generována na základě normálního rozložení (Gaussova distribuce) ˇ pravděpodobnost (hustota) je: ˇ střední hodnota je: ˇ dosazením a pro parametry a dostaneme: ˇ yi a xi jsou dány, zkoumáme pravděpodobnost pro varianty pamametrů a ˇ věrohodnostní funkce L a přirozený logaritmus věrohodnostní funkce ln L: 2 2 2 ( ) ( )1 exp 22 pro -i i p y y y = - - < < ( ) 2 2 1 1 1 ( | , ) exp ( ) 222 n i i i i p y y x = = - - + ( ) 2 22 1 1 1 ( , ) exp ( ) 22 n i i i L y x = = - - + ( ) 22 2 1 1 ln ( , ) ln(2 ) ( ) 2 2 n i i i n L y x = = - - - + ix = + AKD TK 38 MLE A ZOBECNĚNÉ LINEÁRNÍ MODELY (GLM) ˇ ln L je součet všech pravděpodobností (hustot), která mají jednotlivé hodnoty x při daných parametrech ˇ cílem MLE je najít takové parametry, které maximalizují tento součet (je co nejblíže 0), v ideálním případě se tento součet = 0, všechna x leží na přímce a při daných parametrech mají ln hodnoty pravděpodobnosti (hustoty) 0 (exp0 = 1) ˇ odhad koeficientů na základě MLE je totožný s odhade koeficientů na základě OLS, největší hodnoty ln L dostaneme, když je v části vzorce (yi ­ (+xi))2 rozdíl minimální (yi se co nejvíce blíží ), volíme tedy takové hodnoty parametrů a , aby to platilo, OLS minimalizuje ten samý vztah, nicméně v termínech residuálů y=+x AKD TK 39 MLE A ZOBECNĚNÉ LINEÁRNÍ MODELY (GLM) ˇ když f je počet událostí z N pokusů (tedy pro pravděpodobnost y=1) přijímáme předpoklad binomického rozdělení; po úpravě pro y=0 (událost nenastala) a y=1 (událost nastala) přijímáme Bernoulliho rozdělení ˇ když f je počet událostí v čase (y=1), v místě nebo v rámci sociální skupiny (neznáme ovšem N, či počet událostí, které nenastaly (y=0), přijímáme předpoklad Poissonova rozdělení ˇ všechna tato rozdělení patří do jedné rodiny distribucí (family), které matematicky vyjadřují náhodný proces, který generuje data (podle jejich typu) ˇ na základě těchto rozdělení a s pomocí spojnice (link) mezi závisle a nezávisle proměnnou lze tyto případy zobecnit ˇ hovoříme o zobecněných lineárních modelech (GLM) AKD TK 40 ZOBECNĚNÉ LINEÁRNÍ MODELY ˇ lineární prediktor vi pro každou jednotku je: xi iv = ˇ spojnice (link function) ˇ podmíněné distribuce (exponential family): 1 exp( ) ln 1 exp( ) 1 exp( ln( ( ( i i i i i i i i i i i i i i i i v v v v v v v v - = = = = + - = = = = = = Identity: Logit: Log: ) ) Probit: ) ) ( ) 2 22 ( ) ( ) 1 ( ) exp 22 ! (1 ) ! ! ! Gaussian: Binomial: Poisson: Gamma: y N y y y P y P y y N y N y e y - - = = = - - - - AKD TK 41 ZOBECNĚNÝ LINEÁRNÍ MODEL (GLM) ˇ jednoduchý regresní model je definován jako strukturní model: kde Xi je vektor hodnot pro i-té pozorování, ß je vektor parametrů a e je chyba. ˇ statistický model je ve většině případů obsahuje: - fixní část (fixed part, systematic component), která popisuje vztah mezi proměnnými, které nás zajímají (tento vztah je obvykle lineární, a proto umožňuje zodpovědět otázku, jak proměnná X ovlivňuje Y - náhodná část (random part, random component), jedná se o (reziduální) variaci vysvětlované proměnné, která je predikována na základě fixní části i i iY X e= + AKD TK 42 TYPY ZOBECNĚNÝCH LINEÁRNÍCH MODELŮ Fixní část Link Náhodná část Model spojitá identity normální regresní model kategorizovaná identity normální ANOVA mix identity normální ANCOVA mix logit binomická logistická regrese mix log poisson loglineární analýza mix zobecněný logit multinomická multinomická logistická regrese AKD TK 43 ZOBECNĚNÉ LINEÁRNÍ MODELY (POKR.) ˇ stata syntaxt pro GLM glm depvar varlist, family( ) link( ) kde Family Default Link(spojnice) Other link gaussian identity xb binomial logit exp(xb)/(1+exp(xb)) probit, c-log-log poisson log exp(xb) gamma log exp(xb) 1/xb AKD TK 44 CO JE DOBRÝ STATISTICKÝ MODEL? ˇ dobrý statistický model je: - je přesný (očekávané četnosti, variabilita, podmíněný průměr) se co nejméně liší od pozorovaných četností, variability, podmíněného průměru) - je úsporný (obsahuje co nejméně parametrů, vysvětlujících proměnných) ˇ koncept přesnosti (accuracy) = statistická kritéria X2 , L2 ˇ koncept úspornosti (parsimony) = stupně volnosti (d.f. degrees of freedom) ˇ saturovaný model (obsahuje všechny vysvětlující proměnné a vztahy mezi nimi) je přesný (očekávané = pozorované četnosti, X2 a L2 = 0, df = 0), ale není úsporný (je to parametrizace pozorovaných četnosti, nic nevysvětluje) ˇ model (podmíněné) nezávislosti (obsahuje obvykle minimum proměnných a vztahů mezi nimi), je úsporný, ale obvykle není přesný (rozdíl mezi očekávanými pozorovanými četnostmi je velký, X2 & L2 vysoké, df vysoké, málo parametrů na explanaci) AKD TK 45 PRINCIPY STATISTICKÉHO MODELOVÁNÍ ˇ v modelování výzkumník obvykle postupuje tak, že hledá model (v případě, že model (podmíněné) nezávislosti na data nepadne), který se nachází někde mezi saturovaným modelem a modelem nezávislosti ˇ modelování je hledání optimálního poměru mezi přesností a úsporností (logika Occamovy břitvy) ˇ cílem je najít co nejúspornější model, který má co nejméně vysvětlujících proměnných, který ovšem stále ještě uspokojivě vysvětluje strukturu dat ˇ důvod minimalizace vysvětlujících proměnných v modelu - numerická stabilita - snadná zobecnitelnost a aplikovatelnost ˇ dva možné postupy statistického modelování - začneme saturovaným modelem a postupně vylučujeme proměnné (snižuje se přesnost, ale roste úspornost) (backward elimination in stepwise regression) - začneme modelem (podmíněné) nezávislosti a postupně přidáváme proměnné (snižuje se úspornost, ale roste přesnost) (forward addition in stepwise regression), - v obou případech je kritériem pro proměnnou v modelu statistická významnost (obvykle 95%), problém hranice! ˇ dobrá teorie je základem pro oprávněnost nebo neoprávněnost proměnných v modelu AKD TK 46 VZTAH MEZI PŘESNOSTÍ A ÚSPORNOSTÍ V SCLG. VÝZKUMU ˇ každý zkoumaný (výběrový) soubor je definován obsahem a rozsahem - obsah: zkoumaný počet společných znaků u jednotek, konkrétnost, přesnost - rozsah: počet jednotek, úspornost ˇ větší obsah znamená větší počet znaků u jednotky, větší přesnost ve vymezení jednotky, nicméně to znamená vymezení menšího počtu jednotek (maximální počet znaků = 1 jednotka), ˇ větší rozsah, více zkoumaných jednotek, znamená menší počet znaků u jednotky (maximální rozsah = 1 znak) např. lidé přesnost úspornost např. znaky: - rodina - velikost rodiny - úplnost rodiny - stáří partnerů - stáří dětí - typ domácnosti - atd. Když roste přesnost zmenšuje se úspornost (rozsah) a naopak AKD TK 47 REGRESNÍ MODELY PRO KATEG. ZÁVISLE PROMĚNNOU ˇ v případě kategorizované závisle proměnné regresní model nelze použít ˇ podle typu závisle proměnné volíme: - binární logistickou regresi - závisle proměnná má dvě varianty - ordinální logistickou regresi - závisle proměnná více uspořádaných variant - nominální (multinomickou) logistickou regresi - závisle proměnná více variant Shrnutí jednotlivých typů analýzy: Závisle proměnná Nezávisle proměnná Typ analýzy spojitá spojitá regrese, korelační analýza spojitá kategorizovaná regrese, ANOVA dichotomická (binární) kategorizovaná logit/probit, loglinear dichotomická (binární) spojitá logit/probit neuspořádaná polytomická kategorizovaná loglinear, mlogit neuspořádaná polytomická spojitá mlogit uspořádaná polytomická kategorizovaná ologit/oprobit, loglinear uspořádaná polytomická spojitá ologit/oprobit tabulková data (poměry) kategorizovaná loglinear censored duration data spojitá, kategorizovaná loglinear, logit/log-log AKD TK 48 Lekce 5: Modely pro binární závisle proměnnou AKD TK 49 LINEÁRNÍ PRAVDĚPODOBNOSTNÍ MODEL - LPM ˇ závisle proměnná je kategorizovaná, má dvě varianty (obvykle 0 - jev nenastal, 1 - jev nastal), nezávisle proměnné mohou být jak kategorizované, tak spojité ˇ klasický regresní model se známými předpoklady je: ˇ LPM je modelován jako výskyt podmíněné pravděpodobnosti yi při daném xi ˇ rovnice modelu je: kde očekávaná četnost yi při daném xi je pravděpodobnost, že yi = 1 (jev nastal), když je dáno xi. ˇ problémy při identifikaci modelu - heteroskedasticita - normalita - nereálné predikce (>1; <0) - funkcionální forma xi i i y e = + + Pr( 1| )i i i i y x X = = = + AKD TK 50 FUNKČNÍ ZÁVISLOST VYSVĚTLOVANÉ PROMĚNÉ U LPM AKD TK 51 NELINEÁRNÍ PRAVDĚPODOBNOSTNÍ MODEL (NPM) - LOGIT ˇ transformační přístup ˇ dvě transformace ve vysvětlované binární proměnné u lineárního pravděpodobnostního modelu před odhadem parametrů - první transformace do šancí, podmínka splňuje, že predikované hodnoty budou v intervalu <0;>; - druhá transformace na přirozený logaritmus šancí, podmínka splňuje, že šance se nacházejí v intervalu <­;> ˇ přirozený logaritmus šancí je nazván v teorii GLM jako LOGIT a model je lineární, ovšem v transformované (logitové) podobě pro Pr(y=1), a nelineární pro pravděpodobnost Pr(y=1), hovoříme pak o nelineárním pravděpodobnostním modelu (NPM) Pr( 1| ) Pr( 0 | ) 1 y x y x = = = - ln 1 - AKD TK 52 NPM-LOGIT MODEL ˇ rovnice logistické regrese (model je lineární jako logit) ˇ pravděpodobnost Pr(y=1) je ovšem již na základě takto specifikovaného modelu nelineární ˇ distribuce chyb ˇ stata syntax odhadu binárního logitového modelu v GLM glm depvar varlist, family(binomial) link(logit) ˇ stata syntax odhadu binárního logitového modelu logit depvar varlist logistic depvar varlist nl 1 i i i X = + - ( ) ( ) exp 1 exp i i X i X + + = + AKD TK 53 NPM-PROBIT MODEL ˇ cdf (kumulativní distribuční funkce) splňuje požadavek rozmezí pravděpodobnosti <0;1>, transformací závisle proměnné do této podoby dostaneme probitovou regresi (model je lineární jako probit) ˇ pravděpodobnost Pr(y=1) je ovšem již na základě takto specifikovaného modelu nelineární ˇ distribuce chyb ˇ stata syntax odhadu binárního probitového modelu v GLM glm depvar varlist, family(binomial) link(probit) ˇ stata syntax odhadu binárního probitového modelu probit depvar varlist 2 1 exp ( ) 22 iX i i t dt X + - = - = + 1 2 11 exp 22 iX i i i t dt X -+ - - - = = + AKD TK 54 NPM - KOMPLEMENTÁRNÍ LOG-LOG MODEL ˇ komplemetárního log-log modelu je další variantou transformace závisle proměnné, které je pak lineárním vyjádřením parametrů: ˇ pravděpodobnost y=1 je pak vyjádřena jako nelineární funkce: ˇ distribuce chyb ˇ stata syntax odhadu binárního komplementárního log-log modelu cloglog depvar varlist ln( ln[1 ])i i X - - = + 1 exp[ exp( )]i i X = - - + AKD TK 55 DISTRIBUČNÍ FUNKCE LOGIT, PROBIT A LOG-LOG MODELU ˇ predikované hodnoty Pr(y=1|x) podle logitového, probitového a komplementárního log- log modelu, logit a probit podobné, kompl. log-log model dává substantivně odlišné výsledky AKD TK 56 MAXIMÁLNĚ VĚROHODNÝ ODHAD (MLE) ˇ binomická pravděpodobnostní funkce pro y úspěchů, při pravděpodobnosti na úspěch , v N pokusech je: ˇ známe matematický vzorec pro určení pravděpodobnosti (vzorec pro náhodný proces, který generuje data) a chceme znát pravděpodobnost určitého výsledku (např. 3 mužů, ve vzorku n=10, při =0.5) ˇ typický problém: ve statistice známe výsledek y a n, neznáme ovšem parametr , který musíme z informací ve výběru odhadnout ˇ binomická věrohodnostní funkce je: ˇ věrohodnostní funkce ukazuje, jak je pravděpodobné, že budeme pozorovat data, která pozorujeme při hodnotách určitých parametrů ˇ maximálně věrohodný odhad je potom taková hodnota parametru, která s nejvyšší pravděpodobností (nejvěrohodněji) generuje pozorovaná data ( ) Pr( | , ) (1 )y n yn f y n y - = = - ( ) ! ! ! n n y y n y = - E( ) Var( ) (1 )y n y n = = - ( ) Pr( | , ) (1 )i i ii y n y i i i i i i i n L f y n y - = = = - AKD TK 57 ODHAD LOGITOVÉHO MODELU (WLS, MLE) ˇ WLS (odhad pomocí Weighted least square), glogit (používá se velmi zřídka) ˇ MLE je nezbytné použít, protože efekt nezávisle proměnných na závisle proměnnou není lineární, residuály nemají normální distribuci a pro hodnoty nezávisle proměnné není jejich variance konstantní (glm, logit, logistic) ˇ cílem MLE je nalézt koeficienty nezávisle proměnných, které generují data, jež co nejvíce odpovídají pozorovaným datům, to lze provést pomocí maximalizace věrohodnostní funkce; kde L je hodnota věrohodnostní funkce; pi je predikovaná pravděpodobnost pro případ i podle vzorce pi = eLOGIT /(1+ eLOGIT ); yi je hodnota nezávisle proměnné pro případ i, je multiplikativní ekvivalent (funkce je výsledkem násobení hodnot pro každý případ) ˇ klíčové je identifikovat koeficienty nezávisle proměnných, které produkují LOGIT a zároveň tak p, čím maximalizují L [ ](1 1 ) ( ) 1 ( ) ii n yy i i i L x x - = = - [ ](1 1 ) (x ) 1 (x ) ii n yy i i i L F F - = = - binomický koeficient i i n y není nutné v rovnici použít, protože pouze konstantně násobí odhad parametrů AKD TK 58 ODHAD LOGITOVÉHO MODELU (MLE) ˇ numericky je ovšem snazší pracovat s přirozeným logaritmem věrohodnostní funkce (vyhneme se multiplikaci pravděpodobností a extrémně nízkým kladným číslům) ˇ když věrohodnostní funkce maximalizuje pravděpodobnost, tak její přirozený logaritmus maximalizuje přirozený logaritmus pravděpodobnosti ˇ zatímco L variuje <0;1>; ln L variuje <­;0>, čím blíže je L 1 nebo čím blíže je ln L 0, s tím větší věrohodností parametry modelu generují pozorovaná data, jedná se o maximalizaci věrohodnostní funkce nebo o maximalizaci přirozeného logaritmu věrohodnostní funkce [ ] [ ]{ } 1 ln ln ( ) (1 ) ln 1 ( ) n i i i i i L L y x y x = = = + - - { } 1 ln ln (x ) (1 ) ln[1 (x )] n i i i i i L L y F y F = = = + - - AKD TK 59 OBECNÝ POSTUP PŘI ODHADU POMOCÍ MLE 1) volba koeficientů u nezávisle proměnných, 1 iterace obsahuje obvykle pouze (např. ve Statě) nebo koeficienty odhadnuté na základě OLS, další varianty koeficientů se již vybírají na základě iterací 2) výpočet predikovaného LOGITU na základě zvolených koeficientů , a případu xi 3) transformace LOGITU do pravděpodobnosti pi podle vzorce pi = eLOGIT /(1+ eLOGIT ) 4) výpočet přirozeného logaritmu hodnoty věrohodnostní funkce pro případ xi 5) opakujeme krok 1 až 4 pro všechny případy xi , sečteme a dostaneme tak hodnotu přirozeného logaritmu věrohodnostní funkce (ln L) pro zvolené koeficienty 6) opakujeme kroky 1 až 5 pro všechny možné varianty kombinací koeficientů a srovnáváme jejich ln L 7) volíme tu variantu kombinace koeficientů, která má nejvyšší hodnotu ln L (nejblíže 0) ˇ konečná hodnota ln L ukazuje míru věrohodnosti, že dostaneme pozorovaná data, při daných koeficientech nezávisle proměnných (parametrech) AKD TK 60 MLE LOGIT MODELU V KONTINGENČNÍ TABULCE ˇ věrohodnostní funkce ˇ přirozený logaritmus věrohodnostní funkce (1 )i i iy n y i i i L - = - [ ] [ ]{ } 1 ln ln ( ) ( ) ln 1 ( ) n i i i i i iL y x n y x = = + - - { } 1 ln ln (x ) ( ) ln[1 (x )] n i i i i i iL y F n y F = = + - - AKD TK 61 STATISTICKÁ INFERENCE NPM ˇ podobné jako v regresní analýze (OLS) ˇ podíl koeficientů nezávisle proměnných a standardní chyby (SE) je základem testu významnosti (z distribuce) ˇ statistická významnost koeficientů označuje pravděpodobnost, že velikost výběrových koeficientů je náhodná, když populační parametry odpovídají 0, v sociálních vědách si obvykle necháváme rezervu 5% pro náhodu ˇ pro spolehlivost testu významnosti by N>100 z SE = AKD TK 62 KOMPLEXNĚJŠÍ TESTY VÝZNAMNOSTI ­ WALDŮV TEST ˇ oboustranný test významnosti jednotlivých koeficientů nebo jejich simultánního efektu ˇ Waldův test je umocněná t-statistika (t-ratio) a odpovídá chí-kvadrát distribuci rozdělení pravděpodobností ˇ test jednoduché nulové hypotézy (1 = 0), ˇ test komplexnější nulové hypotézy (1 = 2 = 0) nebo (1 = 2 = 3 = 4 = 0) ˇ Waldův test je postaven na omezování jednoho nebo více odhadnutých parametrů v jednom odhadnutém modelu (testujeme např. nulovou hypotézu, podle níž efekt 1 = 0 a 2 = 0, nebo nulovou hypotézu, podle níž 1 = 2), když p0.05, tak toto omezení není náhodné ˇ u Waldova testu není nutné odhadovat 2 modely, jako je tomu u lrtestu ˇ stata syntax .logit chd age age2 sex .test age2 .test age2 age .test age2=age 2 x W SE = AKD TK 63 KOMPLEXNĚJŠÍ TESTY VÝZNAMNOSTI ­ LRTEST ˇ test významnosti komplexnějších hypotéz o odhadnutých koeficientech (např. test významnosti simultánního efektu více regresorů) ˇ základem je porovnání dvou maximalizovaných hodnot věrohodnostních funkcí z různých modelů ˇ notace: M0 ln(L0)... základní model (baseline model), nejúspornější, obsahuje pouze konstantu (predikovanou průměrnou pravděpodobnost pro všechny případy), L0 je nejnižší MF ln(LF)... plný (navržený) model (full model), přesnější než M0, obsahuje pouze konstantu + další koeficienty, LF je vždy vyšší než L0 , protože se jedná o krok k přesnosti Ms ln(Ls)... saturovaný model, nejpřesnější model, úspornost nejnižší, obsahuje všechny možné koeficienty a varianty vztahů mezi nimi, Ls = 0 ˇ hodnota ln(L) ukazuje ln věrohodnosti, s níž naměříme data při daných koeficientech (čím blíže 0, tím větší věrohodnost), je to tedy odchylka od saturovaného modelu ˇ hodnota ln(L) závisí na N - čím vyšší N, tím nižší ln(L) - a počtu parametrů, posoudit její velikosti je proto nutné skrze standardizovaný algoritmus ˇ tím je test poměru maximální věrohodnosti (likelihood ratio test), krátce LRTEST (v loglineárním modelování L2 někdy také G2 ) AKD TK 64 KOMPLEXNĚJŠÍ TESTY VÝZNAMNOSTI ­ LRTEST LF je vždy větší než LO, má více koeficientů, je blíže saturovanému modelu ˇ násobíme 2 nebo ­2, dostaneme tak hodnotu chí-kvadrátu s d.f. [df= df(MF)­ df(MO)], které odpovídají počtu nezávisle proměnných, srovnání této hodnoty s tabulkovou hodnotou X2 rozdělení testuje nulovou hypotézu, že všechny koeficienty s výjimkou konstanty se rovnají 0 (změna v hodnotě L vyvolaná nezávisle proměnnými je náhodná a zlepšení se signifikantně neliší od 0), když p0.05 podpoříme nulovou hypotézu, dva modely se od sebe signifikantně neliší, úspornější model je vhodnější ˇ stejnou logiku aplikujeme na porovnání jakýchkoliv dvou modelů a testujeme významnost změn v (L) podle jednotlivých nezávisle proměnných, jimiž se modely od sebe odlišují 2ln 2 OF O F LL LR L L = = - 2(ln ln ) 2(ln ln )F O O FLR L L L L= - = - - AKD TK 65 rozhodnutí pro Waldův test nebo lrtest je otázkou konvence, neexistuje racionální argument pro jeden z nich, při velkých souborech dostaneme stejné výsledky, většina statistiků preferuje lrtest, i když při jeho použití musíme odhadovat 2 modely KOMPLEXNĚJŠÍ TESTY VÝZNAMNOSTI ­ LRTEST ˇ test jednoduché nulové hypotézy (1 = 0), ˇ test komplexnější nulové hypotézy (1 = 2 = 0) nebo (1 = 2 = 3 = 4 = 0) ˇ základem lrtestu je srovnání (L) (komplexního, plného modelu) s (L) omezeného modelu, který je v něm ,,vsazen" (nested model), testujeme významnosti vynechaných parametrů (d.f. = počet testovaných parametrů) ˇ např. model 1 je ,,vsazen" v modelu 3 (test nulové hypotézy 2 = 3 = 0), model 2 je vsazen v modelu 3 (test 2 = 0), model 2 je vsazen v modelu 3 (test 2 = 0) ˇ celkové N při lrtestu musí být pro všechny modely stejné, jinak je lrtest neplatný ˇ stata syntax .logit chd age age2 sex .est store A .logit chd age sex .lrtest A .est store B .logit chd sex .est store C .lrtest B .lrtest C A, stats 0 1 1i 0 1 1 3 3i 0 1 1 2 2 3 3i model 1: logit(p )= + x model 2: logit(p )= + x + + x model 3: logit(p )= + x + x + x AKD TK 66 TEST SEDNUTÍ MODELU NA DATA (KOMPARACE MODELŮ) ˇ míry sednutí modelu na data indikují adekvátnost modelu pro popis struktury dat ˇ měr je několik, nicméně obecně platí, že neexistuje racionální evidence pro to, že padnutí/nepadnutí modelu na data podle jedné míry je optimálnější než padnutí/napadnutí modelu na data podle jiné míry ˇ míry padnutí modelu na data musíme vždy používat v kontextu teorie a hypotéz, které testujeme, zvoleného typu analýzy, předchozího výzkumu na dané téma a závěrů, které přinesl, a především vysvětlujících proměnných, jež používáme jako prediktory ˇ příkaz fitstat počítá velké množství statistik testujících padnutí modelu na data ˇ stata syntax logit lfp k5 k618 age wc hc lwg inc fitstat logit lfp k5 k618 age wc hc lwg inc fitstat, saving(mod1) logit lfp k5 k618 age age2 wc hc lwg inc fitstat, using(mod1) AKD TK 67 SEDNUTÍ MODELU NA DATA (KOMPARACE MODELŮ) ˇ většina měr sednutí modelu na data vychází z maximální hodnoty věrohodnostní funkce pro daný model ˇ LRTEST je komparace LF a LO, jak se naměřený model liší od nulového; df = počet proměnných, které obsahuje LF na rozdíl od LO, parametry zde přidávány (adding of parameteres) ˇ D ­ odchylka je komparace LF a LS, jak se naměřený model liší od saturovaného modelu: df=počet případů mínus počet proměnných, parametry jsou zde ubírány (making of constraints in parameteres) ˇ platí vztah: O F SL L L O F F OLR LR D D- = - 2(ln ln ) 2lnF S FD L L L= - - = - AKD TK 68 MÍRY SEDNUTÍ MODELU NA DATA pramen: Long, Freese (2001) AKD TK 69 MÍRY SEDNUTÍ MODELU NA DATA - VARIANTY R 2 ˇ pseudo R2 , neboli McFaddenovo R2 ,či také někdy index věrohodnostního poměru ukazuje zlepšení v ln LF vzhledem k ln LO, nabývá hodnot <0;1>, nevysvětluje ovšem variaci v závisle proměnné, která je dána nezávisle proměnnými, protože ln L není o variaci definované jako suma 2 ˇ další varianty koeficientu determinace: R2 maximální věrohosnoti; Craggovo & Uhlerovo R2 , Efronovo R2 ˇ frekvenční (count) a adjustované frekvenční R2 ukazuje srovnání pozorovaných dat a na základě modelu predikovaných dat (příkaz lstat ve statě), ukazuje chybu s jakou je model predikován 2 ln pseudo 1 ln F O L R L = - AKD TK 70 FREKVENČNÍ A ADJUSTOVANÉ FREKVENČNÍ R 2 lstat Logistic model for lfp -------- True -------- Classified | D ~D | Total -----------+--------------------------+----------- + | 342 145 | 487 - | 86 180 | 266 -----------+--------------------------+----------- Total | 428 325 | 753 Classified + if predicted Pr(D) >= .5 True D defined as lfp != 0 -------------------------------------------------- Sensitivity Pr( +| D) 79.91% Specificity Pr( -|~D) 55.38% Positive predictive value Pr( D| +) 70.23% Negative predictive value Pr(~D| -) 67.67% -------------------------------------------------- False + rate for true ~D Pr( +|~D) 44.62% False - rate for true D Pr( -| D) 20.09% False + rate for classified + Pr(~D| +) 29.77% False - rate for classified - Pr( D| -) 32.33% -------------------------------------------------- Correctly classified 69.32% -------------------------------------------------- - kdc njj je počet správných predikcí na základě modelu pro výsledek j - kde nr+ je řádková četnost pro řádek r 2 jj j count n R N = 2 max( ) max( ) jj r r j Adj count r r n n R N n + + - = - AKD TK 71 MÍRY SEDNUTÍ MODELU NA DATA - INFORMAČNÍ KRITÉRIA ˇ účelem informačních kritérií není určit, který model je pravdivější, ale který model podává bohatší informaci o reálném světě, který model má větší vypovídací schopnost o realitě - AIC (Akaikeovské informační kritérium) (Akaike, 1987) - BIC (Bayesovské informační kritérium) (Schwartz, 1978; Raftery, 1986, 1995) ˇ čím negativnější velikost BIC (čím větší zápornější číslo), tím více informací model přináší o realitě, obecně platí, že je-li BIC>0, souvislost v datech není a platí saturovaný model ˇ tyto statistiky upřednostňují úspornost před přesností, platí: ( 2ln 2 ) /FAIC L P N= - + kde P = počet parametrů (regresorů) + 1 lnDBIC D df N= - 2 lnLRBIC LR df N = - 1 2 1 2BIC BIC BIC BIC - = - AKD TK 72