Apendix A Log-lineární modely Log-lineární modely jsou nástrojem pro analýzu kategorizovaných dat. Mezi tato data radíme každou proměnnou (znak), jejíž varianty mají podobu diskrétních kategorií. Od poloviny 70. let minulého století, kdy se poznání o log-Iineárních modelech začalo v sociálních vědách rozšiřovat, bylo napsáno několik učebnic o log-lineárních modelech (srov. například Bishop, Fien-berg, Holland 1975; Rnoke, Burke 1980; Hagenaars 1990; Agresti 1996, 2002; Powers, Xie 2000). Následující apendix vychází z těchto učebnic, v žádném ohledu je však nesupluje. Jedná se pouze o základní představení principů log-lineárního modelování. Jeho smyslem je doplnit analýzu dat popsanou v jednotlivých kapitolách, kde na podrobnější charakteristiku log-lineárních modelů nebyl prostor a bylo nutné předpokládat alespoň základní obeznáme-nost s touto technikou. V případě zájmu o detailnější studium log-lineárních modelů a všech jeho souvislostí s jinými pokročilými statistickými technikami je nutné využít některý z následujících textů: Bishop, Fienberg, Holland (1975); Everitt (1977); Goodman (1978); Haberman (1978, 1979); Andersen (1980); Fienberg (1980); Wickens (1989); Hagenaars (1990); Agresi (1984, 1996, 2002); Clogg, Shihadeh (1994); Christensen (1997); Long (1997); Ver-munt (1997); Powers, Xie (2000). Až do druhé poloviny 60. let 20. století byla kategorizovaná data a vztahy mezi nimi analyzovány na základě výpočtu hodnoty chí-kvadrátu, testem nezávislosti mezi proměnnými a nejrůznějšími variantami asociačních koeficientů. Když kontingenční tabulka obsahovala více než dvě proměnné, byla její analýza problematická. Na začátku 70. let 20. století Leo Goodman publikoval řadu článků o kategorizovaných datech, v nichž představil analýzu kontingenčních tabulek na základě log-lineárních modelů.'17 Přibližné ve stejné době byla vyvinuta binární logistická regrese jako způsob analýzy vztahů mezi dichotomickou závisle proměnnou a nezávisle proměnnými. Statistická analýza kategorizovaných dat se v této době dramaticky rozvíjela. V polovině 47 Většina těchto článků byla přetištěna v Goad manových dvou knihách: Analyzing Qualitative/Categorical Data (1978) a The Analysis of Crosss-Classined Data Having Ordered Categories (1984). 70. let minulého století byly publikovány práce Bishopové, Fienberga a Hol-landa (1975) a Habermana (1978, 1979), které tehdejší znalosti o log-Iineár-: ním modelování shrnovaly do přehledné a konzistentní podoby a na dlouhou dobu se staly standardními učebnicemi analýzy kategorizovaných dat. Dnes již máme k dispozici celou řadu modelů pro kategorizovaná data;'-Nominální proměnné analyzujeme pomocí hierarchických (případně nehie-5 rarchických) modelů, proměnné, u nichž předpokládáme ordinalitu variant, analyzujeme pomocí log-lineárních a log-multíplikativních asociativních modelů; proměnné, které jsou ve vztahu závislosti k ostatním proměnným, analyzujeme pomocí Iogitových modelů. Každá tato obecná kategorie modc-:; lů obsahuje celou řadu sub-modelů pro řešení specifických případů dat. V následujícím apendixu si nejdříve představíme kontingenění tabulky a uspořádání dat v nich pro log-lineární modely. Poté se budeme zabývat šancemi a poměry šancí v kontingentních tabulkách, představíme si logiku log-lineárního modelování, zaměříme se na výpočet parametrů saturované- : ho log-lineárního modelu, ukážeme si souvislost mezi parametry log-lineárního modelu, šancemi a poměry šancí a budeme tyto parametry interpretovat. Dále se budeme zabývat principy statistického modelování, statistickými..' kritérii pro výběr nej adekvátnějšího log-lineárního modelu a zaměříme se na základní principy asociativních modelů pro ordínální proměnné v kontingentních tabulkách. Také si ukážeme, s jakými typy dat při log-lineárním modelováni pracujeme. a/1 Kontingenění tabulky Základním a nejjednodušším statistickým nástrojem pro analýzu kategorizovaných dat jsou kontingentní tabulky. Pomocí tohoto nástroje analyzujeme vztahy mezi proměnnými s omezeným počtem kategorií (variant). V případě, že máme dvě kategorizované proměnné, hovoříme o dvojrozměrné kontingenění tabulce, v případě, že analyzujeme tři kategorizované proměnné, hovoříme o trojrozměrné kontingentní tabulce. Každá další proměnná přidává do kontingentní tabulky nový rozměr, přičemž počet takto analyzovaných proměnných je teoreticky neomezený. Ve skutečnosti je ale tento pofet omezen dostatečným počtem případů v polích vícerozměrné kontingentní tabulky. Jako statistický nástroj pro analýzu kategorizovaných dat jsou kontingentní tabulky v sociálních vědách velmi populární. A to ze dvou důvodů: jednak proto, že je poměrně snadné je zkonstruovat a vztahy v nich interpretovat, a jednak proto, že se jedná o nástroj, který není omezen striktními parametrickými (distribučními) předpoklady. I přes tyto výhody však kontingenění tabulky skrývají interpretační pasti. Jedná se o nástroj pro deskripci dat, nikoliv pro jejich analýzu a testování hypotéz. Z tohoto důvodu zjištění, která kontingentní tabulky poskytují, nemusejí být platná pro základní populaci, zvláště pokud analyzujeme vztahy mezi více proměnnými (vícerozměrné kontingentní tabulky), jestliže v takovém případě nebudeme vztahy mezi proměnnými modelovat - to znamená, že nebudeme analyzovat vícerozměrné kontingentní tabulky v celku, ale rozložíme je na řadu dvojrozměrných subtabuíek, mohou být naše závěry, vyčtené přímo z těchto dat, zavádějící. Naše intuice v takovém případě sehraje při interpretaci patrně větší roli než reálné měření.48 Z tohoto důvodu je nezbytné kategorizovaná data ve vícerozměrných kontingentních tabulkách analyzovat pomocí log-lineárních modelů. a/2 Formální zápis frekvencí v kontingentních tabulkách Podle Leo Goodmana (1981) můžeme rozlišit tři typy vztahů mezi dvěma kategorizovanými proměnnými, jež jsou dány vzájemnými kombinacemi vysvětlujících a vysvětlovaných proměnných. Za prvé se jedná o vztah mezi dvěma vysvětlujícími proměnnými (například mezi sociální třídou a vzděláním). Za druhé se jedná o kauzální vztah mezi vysvětlovanou (závisle) proměnnou a vysvětlující (nezávisle) proměnnou (například kouření a rakovina plic). A za třetí se jedná o vztah mezi dvěma vysvětlovanými proměnnými (například postoje k interrupci a postoje k předmanželskému sexu).49 Rozdíly mezi těmito typy vztahů jsou konceptuálni, nikoliv faktické. Všechny proměnné v jednotlivých vztazích jsou stejně zapsány a je pouze na výzkumníkovi, aby určil, která z nich je vysvětlující a která vysvětlovaná proměnná. V případě, že to lze určit, analyzujeme kategorizovaná data pomocí logistické regrese.50 V případě, že to určit nelze, analyzujeme kategorizovaná data pomocí log-lineárních modelů. Tabulka A.Í je čtyřrozměrná kontingenění tabulka, která ukazuje věkově homogamní a heterogamní sňatky (H) uzavřené podle sňatkového věku 48 Tento problém se označuje jako Simpsonův paradox: závěry, které učiníme na základě dvojrozměrné kontingenění tabuíky, jsou v rozporu se závěry, pokud analyzujeme trojrozměrnou kontingenční tabulku. V prvním případě může být výsledkem pozitivní vztah mezi dvěma proměnnými, nicméně při zavedení třetí proměnné se tento vztah změní na negativní. Tento paradox způsobuje nerovné rozložení četností v kategoriích analyzovaných proměnných (více k tomu Christensen 1997; Agresti 2002). 49 Více k tomu také Powers a Xie (2000). 50 Má-li závisle proměnná dvě varianty, použijeme binární logistickou regresi, má-li závisle proměnná více uspořádaných variant, použijeme ordinární logistickou regresi a má-li závisle proměnná více variant, které nelze uspořádat, zvolíme multinomíckou logistickou regresi (více k jednotlivým variantám logistické regrese viz Long 1997). TabuJJ«A.i Věkově homogamnía heterogamní sňatky podle sňatkového věku muze a typu věkového sňatku v letech 1994-2004 v ČR Typ / věkového Roky sňatku Sňatkový věk muže Věková. homogamie 0-2 roky Věková heterogamie 3-5 let Věková heterogamie 6+ let tradiční 18-29 18 554 20,23 % 11 728 J2.7P % 4 655 5,08% 34 937 38,10% 1994 30+ 1 109 U1 % 1 580 1,72% 4 469 4,87% 7 158 7,81 %: netradiční 18-29 4 294 4,68% 1 666 1,82% 846 0,92% 6 806, 7,42%: 30+ 361 0,39% 276 0,30% 115 0,13 % 752 O ft"7 & tradiční 18-29 11 408 12,44 % 6 347 6,92% 1 819 1,98% 19 574 21,35%: 2004 30+ 3 191 3,48% 4 574 4,99 % 6 079 6,63% 13 844 15,10% netradiční 18-29 4 066 4,43 % 2 106 2,30% 1 018 1,11 % 7 190. 7,84 % 30+ 771 0,84% 516 0,56% 147 0,76 % 1 434 1,56% Celkem 43 754 47,72 % 28 793 37,40 % 19 148 20,88 % 91 695. Ind <£:': Poznámka: Procenta jsou sdružené (celkovej relativní četnosti. muže (M) a typu věkového sňatku (T)51 v letech 1994 a 2004 (R) v České republice. V této tabulce jsou zkombinovány čtyři proměnné. V případě, že si položíme otázku, jak věková homogamie (a heterogamie) souvisí se sňat-kovým věkem muže a typem věkového sňatku a jak se tato souvislost mění v čase, je nezbytné tuto tabulku analyzovat pomocí log-lineárních modelů. Pozorované (výběrové) četnosti se v log-lineámím modelování označují jako/ a modelové (odhadnuté) četnosti jako F. Když variantu každé proměnné v kontingenční tabulce označíme dolním indexem - v našem případě jako i pro proměnnou H,j pro proměnnou M, k pro proměnnou T a / pro proměnnou R, kde í = 1,..., I; j = í,..., j; k = 1,..., K a í = í,..., L; - můžeme každou pozorovanou četnost indikovat jako fm a modelovou (očekávanou) četnost jako Fm. Dolní index označuje kategorie jednotlivých proměnných. Dohromady s horním indexem, který odkazuje k proměnným, napríklad četnost féLiP ^ P.r-mĚmĚ kate90rie tradiC"ní Znamená' ÍE mui >e starší (neb° stt^ starý) než Jeho žena a kategorie „etrad.cn, znamená, že muž je mladší než jeho žena. Více lc této proměnné JÍ kapitolu 2 18554 v tabulce A.1 zapíšeme jako f"nR> zatímco ve stejné tabulce četnost 147 zapíšeme jako f"™R. Pozorovanou pravděpodobnost p přináležet do í-té kategorie proměnné H, j-té kategorie proměnné M, k-té kategorie proměnné T a í-té kategorie proměnné R označíme jako p™1™?1 V tabulce A.1 se p™™ =18554/91695, tedy 20,23 % (číslo 91 695 označuje všechny uzavřené sňatky). Platí tedy: i/U (1) Pravděpodobnost je pro populaci označována jako n. V našem případě ný""* označuje pravděpodobnost, že v populaci náhodně vybraný sňatek přináleží do H = i, M =;, T= k a R = /. Modelové četnosti F^1™, které v tomto případě znamenají četnosti ve vzorku, který je přesnou kopií populace (nepředpokládáme existenci výběrové variace), pak vypočítáme podobně jako v rovnici 1: 1 ijl! (2) Symbol + ve formálním zápisu frekvencí označuje součet. V tabulce A. 1 například fl"r označuje řádkovou marginální četnost 34 937 sňatků uzavřených v roce 1994 jako věkově tradičních ve věku muže 18-29 let. Výpočet tohoto čísla zapíšeme jako f"™' = Y,f-Sn", kde I odpovídá symbolu + a znamená součet četností napříč variaňiami dané proměnné. Podobně lze zapsat jakoukoliv sloupcovou marginální četnost a její výpočet. Například 19 148 věkově heterogamních sňatků 6+ let označíme jako f"™ a jejich výpočet zapíšeme jako /™™ = j^t.fS""- Celkové N v tabulce A.1 pak můžeme označit jako /™f a jeho výpocVťzapsat jako /1T =2tÉŽÉ-C"T"- M ,'^1 í-1 M a/3 Šance, marginální a podmíněné šance a poměr šancí Z tabulky AI můžeme vytvořit několik marginálních tabulek, které vzniknou součtem frekvencí napříč jednou nebo více proměnnými. Tabulka A.2 je marginální tabulka, která vznikla součtem četností napříč roky a naDříc typy věkových sňatků (formálně tuto úpravu zapíšeme jako /"" =f^s =2JŠ^'u™. Navíc jsou v této tabulce kategorie věkové homogamie sloučeny ze tří na dvě kategorie: věková homogamie (věková vzdálenost mezi manželi 0-2 roky) a věková heterogamie (věková vzdálenost mezi manželi 3+ let). 52 Vyjádření tabulkových četností pomocí procent či pravděpodobnosti je jedním ze způsobů standardizace dat. Tabulka A.2 Věkově homogamní a heterogamní sňatl e' e" i* e" e"1 (19) a/9 Restrikce parametru pro identifikaci iog-lineárního modelu Rovnice 17, 18 a 19 pro saturovaný log-lineární model mají z hlediska identifikace parametru více řešení. Například pro trojrozmernou interakci bychom identifikovali tolik parametrů, kolik je polí v kontingenční tabulce. Nicméně samotné efekty kategorií proměnných nás ve statistické analýze dat nezajímají. Samy o sobě, bez referenčního rámce (například efektu jiné kategorie) fi1 Některé statistické programy transformují individuální data do podoby kontingenčních tabulek, aniž by to jejich uživateli explicitně sdělily. 62 Pracovat s přirozenými logaritmy čísel při maximálně věrohodnostním odhadu parametrů je numericky snazší než pracovat s celými čísly. Na podobu výsledku přitom tato úprava nemá vliv. nemají význam a nejsou interpretovatelné. Otázkou, která nás tedy zajímá, je, zda a jak se efekt jedné varianty proměnné liší od jiné varianty stejné proměnné. Nakolik například v tabulce A.5 sňatkový věk mužů 18-29 let ve srovnání s věkem 30 a více let ovlivňuje šance na věkově homogamní sňatek. Tato relační perspektiva řeší problém identifikace parametrů v log-lineárních (ale i všech ostatních regresních) modelech. Buď můžeme parametry vypočítat tak, že jsou vztaženy ke svému průměru, nebo můžeme parametry identifikovat k sobě navzájem. Obě řešení dávají věcně stejné výsledky. Představme si, že máme muže, který získá v matematickém testu 100 bodů, a ženu, jejíž skóre v tomtéž testu je 170 bodů. Průměrné skóre z těchto dvou případů je 135 bodů. Ve srovnání s tímto průměrem pohlaví v případě ženy zvyšuje skóre o 35 bodů, v případě muže snižuje skóre také o 35 bodů. Celkový rozdíl mezi oběma skóry je 70 bodů ve prospěch ženy nebo v neprospěch muže - záleží na tom, z jaké perspektivy data interpretujeme. Ke stejnému závěru bychom dospěli, kdybychom vztáhli obě kategorie k sobě navzájem -přesněji řečeno, pokud bychom se ptali, o kolik je skóre v jedné kategorii vyšší než skóre ve druhé (referenční) kategorii (70 bodů ve prospěch ženy ve srovnání s mužem nebo 70 bodů v neprospěch muže ve srovnání s ženou). První řešení se v log-lineárním modelování nazývá ejfect coding (někdy také ANOVA coáing), druhé řešení se nazývá dummy coding. Effect coding znamená, že efekty log-lineárních parametrů jsou identifikovány ve vztahu k průměrnému efektu - jedná se o odchylky od průměrného efektu. Dummy coding znamená, že efekty log-lineárních modelů jsou identifikovány k sobě navzájem. Jedná se o odchylky od jednoho, arbitrárne zvoleného parametru, jehož hodnota je nahrazena konstantou, obvykle číslem 0 (v log-lineárním režimu) nebo číslem 1 (v multiplikativním režimu), což znamená, že efekt neexistuje. Effect coding a dummy coding jsou dvě rozdílné parametrizace, které lze použít pro identifikaci parametrů stejného modelu. Ať použijeme první nebo druhé řešení, parametry jsou vzájemně prevoditeľné (Rudas 1998). S ohledem na zvolenou parametrizaci musíme však odhadnuté parametry adekvátně interpretovat (Alba 1987; Kaufman, Schervish 1986, 1987; Long 1984). V log-lineárních modelech je rozšířenější používat effect coding, v regresních a logistických modelech dummy coding.63 Effect coáing znamená, že součet log-lineárních parametrů A vymezených dolním indexem se rovná číslu 0 (charakteristika odchylek od aritmetického 63 Také rozdílné statistické programy pro odhad log-lineárních modelů mají implementovány rozdílné typy parametrizace efektů. Například GUM, Stata, S-Plus nebo SAS používají dummy coding. SPSS nebo LEM mají přednastavený effect coding, který lze ale velmi pohodlně změnit na dummy coding. průměru) a součin multiplikativních parametrů t se rovná číslu 1 (charakteristika odchylek od geometrického průměru). Rovnice 20 a 21 ukazují tuto restrikci pro parametry saturovaného log-lineárního modelu tabulky A.5. zv =i>r=2X-z*r=ic=...=!>, /-I um ■iii. ik=n* r = n<=ne=ne=•••=ne=ne=frr-1 w V případě použití parametrizace dummy coding je nezbytné si vždy zvolit jednu z kategorií analyzovaných proměnných, která bude kategorií referenční. Pokud si zvolíme u každé proměnné první kategorii, znamená to, že Iog-li-neární parametry se pro tuto kategorii rovnají číslu 0 - multiplikativní parametry číslu 1. Pro tabulku A. 5 saturovaného log-lineárního modelu toto omezení ukazují rovnice 22 a 23. a, —A. — a. — a., x" = x" = xt = t"'" -x"m l, l, -T; ~X]y -Xn = ... = *., ä™" =v™ =o = T,, C22) (23) Tato omezení umožňují parametry log-lineárních modelů identifikovat. Počet nonredundantních (nezbytných) parametrů pro saturovaný log-lineární model v trojrozměrné kontingenění tabulce je dán vzorcem (M)(/-l)(iC-l), kde /, J a. K označují dimenze (počty kategorií) analyzovaných proměnných. Dohromady s celkovým efektem počet nonredundantních parametrů saturovaného modelu odpovídá rozměrům kontingenění tabuíky. Pro saturovaný model dvojrozměrné tabulky o rozměrech 3*3 (dvě proměnné, každá obsahuje tri kategorie) je například nezbytné (při restrikci dummy coding) odhadnout devět parametrů: hlavní průměr (jeden parametr), (M) a (J-í) pro každou proměnnou (čtyři parametry) a (M)(/-l) parametrů pro interakce mezi variantami obou proměnných (čtyři parametry). Pro trojrozměrnou tabulku 3 * 3 x 3 by to bylo (opět při restrikci dummy coding) 27 nonredundantních parametrů saturovaného modelu. A/10 Interpretace parametrů saturovaného log-lineárního modelu Výpočet vybraných parametrů, identifikovaných jako cffect coding, saturovaného log-lineárního modelu pro data tabulky A.5 ukazují rovnice 24 až 27.S4 64 U saturovaného modelu není nutné modelové četností odhadovat. Modelové četnosti F odpovídají Zbylé parametry vypočítáme podle stejných vzorců, ovšem s jinými (jim odpovídajícími) hodnotami a restrikcemi. Vzorce pro výpočet parametrů, identifikovaných jako dummy coding, najde čtenář v příslušné literatuře (srov. Bishop, Fienberg, Holland 1975; Haberman 1978, 1979). Hnnm. II UK /./A / = | y-| l-l (24) nm* (25) mi _ v _ r|T; Xj (26) Tabulka A6 ukazuje hodnoty parametrů saturovaného modelu identifikované jako effect coding a dummy coding pro data tabulky A.5. Podle rovnice 24 celkový efekt (celkový parametr) n. a 8 ukazuje průměrnou hodnotu frekvencí v kontingenění tabulce (z tohoto důvodu se také někdy nazývá jako hlavní průměr). Geometrický průměr frekvencí v tabulce A.5 je 3 463 a aritmetický průměr přirozených logaritmů frekvencí je 8,150. Celkový efekt je poznamenán celkovým počtem případů N v tabulce. Pokud změníme velikost N, změní se také velikost tohoto parametru. Efekty jednotlivých proměnných (marginální či jednorozměrné efekty) odrážejí distribuční zešilanení napříč kategoriemi. Znamená to, že ukazují, v jakých kategoriích je více nebo méně případů. Pokud je například uzavřeno více sňatků ve věku 18-29 let než ve věku 30 a více let, můžeme říci, že první věková kategorie působí silněji na velikost četností v kontingenění tabulce. Numericky se jedná o geometrický průměr z frekvencí dané kategorie proměnné, který je poté vztažený k celkovému průměru (rovnice 25). V tabulce A.5 nás například zajímá efekt sňatkového věku muže 18-29 let (x?1). Z polí pozorovaným četnostem fa všechny parametry jsou počítány z těchto pozorovaných četností. U jiných než saturovaných modelů je nezbytné modelové četnosti již pomocí speciálních algoritmů odhadnout (viz násle-dujcí podkapitoly A/13 a A/14). M = í spočítáme geometrický průměr a poté zjistíme, nakolik - přesněji kolikrát - se liší od celkového průměru.65 Číslo 1,696 říká, že sňatky jsou v této kategorii l,696krát častější než v (celkovém) průměru frekvencí tabulky. Pro kategorii M = !2 je to 0,590,66 což znamená, že ve věkové kategorii mužů 30 a více let je 0,590krát méně sňatků než v průměru frekvencí celé tabulky. Log-lineární marginální parametry X mají stejnou interpretaci jako multiplikativní marginální parametry t, ale s tím rozdílem, že odchylka od celkového průměru není vyjádřena jako poměr, ale jako rozdíl. Parciální šance jsme definovali jako geometrický průměr z podmíněných šancí. V tabulce A.5 jsou parciální šance na sňatky mužů ve věku 18-29 let oproti věku 30 a více let 2,875.67 Když dáme do poměru parametry t," /xf z tabulky A.6, odpovíme na otázku, kolikrát je průměrná četnost sňatků u mužů ve sňatkovém věku 18-29 let větší či menší než u mužů ve sňat-kovém věku 30 a více let (x;"/x" =2.875). Jedná se o tytéž parciální šance. Sňatky mužů ve věku 18-29 let jsou v průměru 2,875krát častější než sňatky mužů ve 30 nebo více letech. Sňatky mužů ve 30 a více letech (xf /x,") jsou naopak v průměru 0,348krát méně časté ve srovnání se sňatky mužů v 18-29 letech.69 II hierarchických log-Iineárních modelů nejsou marginální efekty proměnných interpretačně příliš užitečné. Později uvidíme, že v marginálních distribucích hierarchické log-lineární modely odpovídají marginálním distribucím pozorovaných dat. Navíc rozšíření kontingenční tabulky o každou další dimenzi mění efekt proměnné na tabulkové četnosti. To znamená, že velikost marginálních parametrů není nezávislá na počtu dimenzí kontingenční tabulky. Z hlediska interpretace nás mnohem více než marginální efekty zajímají interakce (asociace) mezi proměnnými (dvojrozměrné nebo vícerozměrné efekty a jim odpovídající parametry). Začněme dvojrozměrnými interakcemi saturovaného modelu. Tyto parametry ukazují průměrný vztah mezi dvěma proměnnými kontrolovaný pro kategorie ostatních proměnných v kontingenční tabulce. Například v tabulce A.6 parametry -z.." indikují parciální interakce mezi proměnnými MH pro konstantní úroveň T. V případě restrikce effect coáing ryto parametry vypočítáme jako geometrické průměry z polí MH, které vztáhneme k součinu parametrů nižšího řádu (tj,i,",t;1í) (rovnice 26). Například parametr i;1,'" =1.229,S9 což znamená, že průměrné frekvence 65 Tedy: (11408 » 8166 « 4066 » 3143)0JS/ 3463 = 1,696. 66 Vypočítáno jako 1/1,696 = (3191 » 10653 « 771 * 663)0'-s / 3463. 67 Vypočítáno jako [(11408 / 3191) * (4066 / 771) » (8166 / 10653) » (3143 / 663)]M3S. 68 xf /t;" =«r a podobně pak x,"/if = (t,'")2, přičemž (t;"): = 1/(x,")2 a (t,")2 = I/(x,")2 69 Vypočítáno jako (11408 * 4066)"/(1,696 * 0,944 « 3463). Tabulka a.ů Parametry saturovaného modelu pro proměnné v kontingenční tabulce A.5 ■ :: Effect coding : Dummy coding Efekt Popis kategorií Kategorie Celkový 8,150 3463 9,342 11408 T tradiční 1 0,773 2,166 0 1 netradiční 2 -0,773 0,462 -1,032 0,356 M 18-29 let 1 0,528 1,696 0 1 30+ let 2 -0,528 0,590 -1,274 0,280 H věková homogamie 1 -0,058 0,944 0 1 věková heterogamie 2 0,058 1,060 -0,334 0,716 TM 11 -0,276 0,759 0 1 12 0,276 1,318 0 1 21 0,276 1,318 0 1 22 -0,276 0,759 -0,389 0,678 TH 11 -0,160 0,852 0 1 12 0,160 1,173 0 1 21 0,160 1,173 0 1 22 -0,160 0,852 0,077 1,080 MH 11 0,206 1,229 0 1 12 -0,206 0,814 0 1 21 -0,206 0,814 0 1 22 0,206 1,229 1,540 4,664 TM H 111 0,179 1,196 0 1 112 -0,179 0,836 0 1 121 -0,179 0,836 0 1 122 0,179 1,196 0 1 211 -0,179 0,836 0 1 212 0,179 1,196 0 1 221 0,179 1,196 0 1 222 -0,179 0,836 -1,433 0,239 mezi variantami Ml a Hl jsou l,229krát vyšší než frekvence, které generuje součin parametrů nižšího řádu. V případě vícerozměrné kontingenční tabulky je dvojrozměrná interakce parciální interakcí. U trojrozměrné (a vícerozměrné) tabulky se jedná o geometrický průměr ze dvou (nebo více) podmíněných dvojrozměrných interakcí - tedy o průměrnou podmíněnou inrerafcci. V tabulce A5 je například (parciální) interakce mezi sňatkovým věkem muže a věkovou homoga-mií (parametr x"") geometrickým průměrem z podmíněných interakcí mezi .itlUT ■íj 1 ) a netra- sňatkovým věkem muže a věkovou homogamií pro tradiční (xi dičníítf':7) sňatky.70 Jak podmíněné, tak parciální dvojrozměrné interakce souvisejí s poměry šancí. V tabulce A.5 pro pole fm vypočítáme podmíněný poměr šancí (pro věkově tradiční sňatek) na věkově homogamní sňatek podle sňatkového věku jako poměr dvou podmíněných interakcí (CT^/Tl[) I (x^/^V, Čemuž odpovídá (x|j,,"/|!r)4.71 Podobně vypočítáme pro tabulkové pole fm podmíněný poměr šancí (nyní pro věkově netradiční sňatek). Geometrický průměr z těchto podmíněných poměrů šancí odpovídá parametru (t"" )4 v tabulce A.6 neboli interakci mezi sňatkovým věkem muže a věkovou homogamií (MH) vyjádřenou jako poměr šancí ^""/t"11 ) / (t^fV-rífO pro konstantní úroveň proměnné manželství,72 Podobně jako u efektu jednotlivých proměnných na tabulkové četnosti, také u dvojrozměrných interakcí jsou velikosti parametrů odlišné podle přítomnosti nebo nepřítomnosti další proměnné v kontingenční tabulce. Poslední parametr, který v tabulce A.6 zbývá objasnit, je trojrozměrná interakce x"kHT. Existuje souvislost mezi věkovou homogamií, sňatkovým věkem mužů a typem věkového sňatku? Tuto otázku můžeme přeformulovat do tří následujících otázek: 1. Liší se souvislost mezi věkovou homogamií a sňatkovým věkem mužů pro věkově tradiční a netradiční sňatek? 2. Liší se souvislost mezi věkovou homogamiií a typem věkového sňatku pro brzký (18-29 let) a pozdější (30+ let) sňatkový věk? 3. Liší se souvislost mezi typem věkového sňatku a sňatkovým věkem pro věkově homogamní a věkově hete-rogamní sňatky? Na všechny tyto otázky odpovídá trojrozměrná interakce, neboť parametry této interakce jsou v hierarchických log-lineárních modelech symetrické. Podle rovnice 27 parametr x.f7 vypočítáme jako podíl příslušné frekvence a součinu efektů nižšího řádu. Jedná se o odchylku tabulkové četnosti od četnosti generované hlavním průměrem a jednorozměrnými (marginálními) a dvojrozměrnými parametry. Zatímco tedy například parametr x"" je průměrnou podmíněnou dvojrozměrnou interakcí MH, parametr x,^"7 říká, nakolik - kolikrát - se podmíněné dvojrozměrné interakce (t ""f a x^l7) od sebe odlišují. Jinými slovy řečeno, do jaké míry se podmíněné dvojrozměrné 70 t,™ =[(c (48) Model se nazývá log-multiplikativní, protože log-lineární rovnice obsahuje multiplikaci dvou parametru. Jeho předpokladem je, že všechny tabulkové poměry šancí se mění stejným směrem (podle variant třetí proměnné). Z tohoto důvodu je změna v asociaci modelována pouze pomocí jednoho parametru. Díky této charakteristice je tento model v sociálněstratifikačním výzkumu nazýván jako model uniformní diference neboli unidiff model (Erikson, Goldthorpe 1992). Pro identifikaci vývoje či změny asociace podle variant třetí proměnné se jedná o velmi vhodný model. Problém spočívá v tom, že na jeho základě nejsme schopni popsat změnu, k níž v poměrech šancí (tabulkové asociaci) podle variant třetí proměnné dochází. Řešení tohoto problému nabízí až model navržený o šest let později Leo Goodmanem a Mikem Houfem (1998, 2001). Oba badatelé vyšli z předpokladu, že model uniformní diference je příliš restriktivní. Z hlediska úspornosti je to nesporně výhoda, z hlediska popsání změny v tabulkové asociaci se však jedná o značnou nevýhodu. Navrhují proto model, který je dnes znám jako Goodman-Hout model nebo jako model regresního mezitabulkového efektu. V jeho rámci můžeme modelovat jak proměnu poměrů šancí (změnu vzorce tabulkové asociace), tak vývoj velikosti této asociace (trend v asociaci). Vyjdeme-li ze saturovaného modelu v rovnici 47, model regresního mezitabulkového efektu dostaneme tak, že součet parametrů ^',A' +^™R nahradíme součtem a součinem parametrů K"1" + %$L.. Parametr X"M ukazuje základní vzorec tabulkové asociace, yír ukazuje části asociace, které se mění podle třetí proměnné - v letech - a parametr fj>,. ukazuje velikost změny asociace pro jednotlivé roky Log-lineární rovnice takového modelu je pak následující: a»r =e +x,"+cř +c+*r+m c«o Pomocí tohoto modelu dokážeme identifikovat jak změny ve struktuře asociace (poměrech šancí), tak velikost změny asociace v jednotlivých variantách třetí proměnné. Jedná se zatím o poslední a velmi významný posun na poli Iog-lineárních modelů. Za jistou nevýhodu tohoto modelu lze považovat to, že zatím nebyl uspokojivě aplikován na data, která obsahují více než tři rozměry (na čtyřrozměrné a vícerozměrné tabulky). a/19 Podoba dat pro log-lineární analýzu Data pro statistickou analýzu mají bud individuální, nebo agregovanou podobu. V případě, že pracujeme s individuálními daty, analyzujeme matici, v níž je (v jednotlivých polích) zapsaná pozorovaná (měřená) varianta proměnné (bývá obvykle ve sloupcích matice) pro jednotlivé případy (obvykle bývají v řádcích matice). V log-lineární analýze s tímto typem dat nepracujeme. Pokud bychom měli individuální data a chtěli bychom je analyzovat pomocí log-lineárních modelů, bylo by nezbytné je převést na data agregovaná.68 88 Jiným řešením je použít logistickou regresi, kterou lze aplikovat jak na individuální, tak agregovaná data, přičemž hodnoty koeficientů logitových a log-lineárních modelů, které se neliší svou strukturou a jsou aplikovány na stejná data, jsou totožné. Tabulka A.9 Data z tabulky A.1 ve formě četnostních záznamů pro kombinace variant analyzovaných proměnných Typ vekového Sňatkový .Věková homogamie Roky sňatku věk muže a heterogamie Četnost 1 1 1 1 18 554 1 1 1 2 11 728 1 1 1 3 4 655 1 1 2 1 1 109 1 1 2 2 1 580 1 1 2 3 4 469 1 2 1 1 4 294 1 2 1 2 1 666 1 2 1 3 846 1 2 2 1 361 1 2 2 2 276 1 2 2 3 115 2 1 1 1 11 40B 2 1 1 2 6 347 2 1 1 3 1 819 2 1 2 1 3 191 2 1 2 2 4 574 2 1 2 3 6 079 2 2 1 1 4 066 2 2 1 2 2 106 2 2 1 3 1 018 2 2 2 1 771 2 2 2 2 516 2 2 2 3 147 stejným způsobem jako data individuální, pouze kombinacím jednotlivých proměnných přiřadíme (jim odpovídající) četnosti jako váhy. Vlog-lineámím modelování pracujeme bud' s tímto zápisem dat, nebo s daty v podobě kontingenční tabulky (věcně se jedná o jedno a totéž). Agregovaná data lze jednoduše převést na individuální tak, že do každého řádku matice (v němž předpokládáme případy) vepíšeme odpovídající počty kombinací jednotlivých variant proměnných. V našem případě víme, že kombinace variant 1111 se vyskytuje 18 554 (tabulka A.9). Je nezbytné tedy vepsat 18 554 řádků s hodnotou 1 u každé proměnné. Podobně pak zapíšeme počet řádků daných četnostmi pro všechny zbylé kombinace variant proměnných. Celkový počet řádků v matici pak odpovídá celkovému počtu případů v kontingenční tabulce. V případě tabulky A.9 by to bylo 91 695. Agregovaná data, prezentovaná obvykle ve formě kontingeněních tabulek, ukazují počet opakujících se pozorování pro jednotlivé kombinace variant proměnných. V tomto případě se nejedná o nic jiného než o přepis (jakkoliv mnohorozměrné) kontingenční tabulky podle variant jednotlivých proměnných do řádků a sloupců matice. V tabulce A.l máme agregovaná data, která ukazují počet věkově homx> gamních a heterogamních sňatků podle sňatkového věku muže a typu věkového sňatku v letech 1994 a 2004 v České republice. Tato data můžeme zapsat také v podobě četností pro jednotlivé kombinace tabulkových proměnných. Tabulka A.9 ukazuje tento zápis (názvy variant jednotlivých proměnných jsou nahrazeny čísly). Jedná se o vymezení všech možných případů z hlediska variant jednotlivých proměnných. Každá četnost ukazuje, kolikrát se daná kombinace variant v datech vyskytuje. Tato data analyzujeme naprosto