Apendix A Log-lineární modely Log-lineární modely jsou nástrojem pro analýzu kategorizovaných dat. Mezi tato data radíme každou proměnnou (znak), jejíž varianty mají podobu diskrétních kategorii. Od poloviny 70. let minulého století, kdy se poznaní o log-lineárních modelech začalo v sociálních vědách rozšiřovat, bylo napsáno několik učebnic o log-lineárních modelech (srov. například Bishop, Fien-berg, Holland 1975; Knoke, Burke 1980; Hagenaars 1990; Agresti 1996, 2002; Powers, Xie 2000}. Následující apendix vychází z těchto učebnic, v žádném ohledu je však nesupluje. Jedná se pouze o základní představení principů log-lineárního modelování. Jeho smyslem je doplnit analýzu dat popsanou v jednotlivých kapitolách, kde na podrobnější charakteristiku log-lineárních modelů nebyl prostor a bylo nutné předpokládat alespoň základní obeznáme-nost s touto technikou. V případě zájmu o detailnější studium log-lineárních modelů a všech jeho souvislostí s jinými pokročilými statistickými technikami je nutné využít některý z následujících textů: Bishop, Fienberg, Holland (1975); Everitt (1977); Goodman (1978); Haberman (1978, 1979); Andersen (1980); Fienberg (1980); Wickens (1989); Hagenaars (1990); Agresi (1984, 1996, 2002); Clogg, Shihadeh (1994); Christensen (1997); Long (1997); Ver-munt (1997); Powers, Xie (2000). Až do druhé poloviny 60. let 20. století byla kategorizovaná data a vztahy mezi nimi analyzovány na základě výpočtu hodnoty chí-kvadrátu, testem nezávislosti mezi proměnnými a nejrůznějšími variantami asociačních koeficientů. Když kontingenční tabulka obsahovala více než dvě proměnné, byla její analýza problematická. Na začátku 70. let 20. století Leo Goodman publikoval radu článků o kategorizovaných datech, v nichž představil analýzu kontingenčních tabulek na základě log-lineárních modelů.47 Přibližně ve stejné době byla vyvinuta binární logistická regrese jako způsob analýzy vztahů mezi dichotomickou závisle proměnnou a nezávisle proměnnými. Statistická analýza kategorizovaných dat se v této době dramaticky rozvíjela. V polovině 47 Většina těchto článků byla přetištěna v Good manových dvou knihách: Analyzing Qualitative/Categorical Data (1978) 3 The Analysis of Crosss-Ctassih~ed Data Having Ordered Categories (1984). 70. let minulého století byly publikovány práce Bishopové, Fienberga a Hol-landa (1975) a Habermana (1978, 1979), které tehdejší znalosti o log-lineár-ním modelovár|í shrnovaly do přehledné a konzistentní podoby a na dlouhou dobu se staly standardními učebnicemi analýz}' kategorizovaných dat. Dnes již máme k dispozici celou řadu modelů pro kategorizovaná data';-' Nominální proměnné analyzujeme pomocí hierarchických (případně nehie-í rarchických) modelů, proměnné, u nichž předpokládáme ordinalitu variant, : analyzujeme pomocí log-lineárních a log-multiplikativních asociativních: modelů; proměnné, které jsou ve vztahu závislosti k ostatním proměnným, analyzujeme pomocí Iogitových modelů. Každá tato obecná kategorie mode-;, lů obsahuje celou řadu sub-modelů pro řešení specifických případů dat V následujícím apendixu si nejdříve představíme kontingenční tabulky a uspořádání dat v nich pro log-lineární modely. Poté se budeme zabývat šancemi a poměry šancí v kontingenčních tabulkách, představíme si logiku ■: log-lineárního modelování, zaměříme se na výpočet parametrů saturované- -ho log-lineárního modelu, ukážeme si souvislost mezi parametry log-lineárního modelu, šancemi a poměry šancí a budeme tyto parametry interpretovat. Dále se budeme zabývat principy statistického modelování, statistickými. : kritérii pro výběr nejadekvátnějšího log-lineárního modelu a zaměříme se na základní principy asociativních modelů pro ordinální proměnné v kontingenčních tabulkách. Také si ukážeme, s jakými typy dat při log-lineárním modelování pracujeme. a/1 Kontingenční tabulky Základním a nejjednodušším statistickým nástrojem pro analýzu kategorizovaných dat jsou kontingenční tabulky. Pomocí tohoto nástroje analyzujeme vztahy mezi proměnnými s omezeným počtem kategorií (variant). V případě, že máme dvě kategorizované proměnné, hovoříme o dvojrozměrné kontingenční tabulce, v případě, že analyzujeme tři kategorizované proměnné, hovoříme o trojrozměrné kontingenční tabulce. Každá další proměnná přidává do kontingenční tabulky nový rozměr, přičemž počet takto analyzovaných proměnných je teoreticky neomezený. Ve skutečnosti je ale tento počet omezen dostatečným počtem případů v polích vícerozměrné kontingenční tabulky. Jako statistický nástroj pro analýzu kategorizovaných dat jsou kontingenční tabulky v sociálních vědách velmi populární. A to ze dvou důvodů: jednak proto, že je poměrně snadné je zkonstruovat a vztahy v nich interpretovat, a jednak proto, že se jedná o nástroj, který není omezen striktními parametrickými (distribučními) předpoklady. I přes tyto výhody však kontingenční tabulky skrývají interpretační pasti. Jedná se o nástroj pro deskripci dat, nikoliv pro jejich analýzu a testování hypotéz. Z tohoto důvodu zjištění, která kontingenční tabulky poskytují, nemusejí být platná pro záJcladní populaci, zvláště pokud analyzujeme vztahy mezi více proměnnými (vícerozměrné kontingenční tabulky). Jestliže v takovém případě nebudeme vztahy mezi proměnnými modelovat - to znamená, že nebudeme analyzovat vícerozměrné kontingenční tabulky v celku, ale rozložíme je na řadu dvojrozměrných subtabuíek, mohou být naše závěry, vyčtené přímo z těchto dat, zavádějící. Naše intuice v takovém případě sehraje při interpretaci patrně větší roli než reálné měření.48 Z tohoto důvodu je nezbytné kategorizovaná data ve vícerozměrných kontingenčních tabulkách analyzovat pomocí log-lineárních modelů. a/2 Formální zápis frekvencí v kontingenčních tabulkách Podle Leo Goodmana (1981) můžeme rozlišit tři typy vztahů mezi dvěma kategorizovanými proměnnými, jež jsou dány vzájemnými kombinacemi vysvětlujících a vysvětlovaných proměnných. Za prvé se jedná o vztah mezi dvěma vysvětlujícími proměnnými (například mezi sociální třídou a vzděláním). Za druhé se jedná o kauzální vztah mezi vysvětlovanou (závisle) proměnnou a vysvětlující (nezávisle) proměnnou (například kouření a rakovina plic). A za třetí se jedná o vztah mezi dvěma vysvětlovanými proměnnými (například postoje k interrupci a postoje k předmanželskému sexu).49 Rozdíly mezi těmito typy vztahů jsou konceptuálni, nikoliv faktické. Všechny proměnné v jednotlivých vztazích jsou stejně zapsány a je pouze na výzlojmníkovi, aby určil, která z nich je vysvětlující a která vysvětlovaná proměnná. V případě, že to lze určit, analyzujeme kategorizovaná data pomocí logistické regrese.50 V případě, že to určit nelze, analyzujeme kategorizovaná data pomocí log-lineárních modelů. Tabulka A.1 je čtyřrozměrná kontingenční tabulka, která ukazuje věkově homogamní a heterogamní sňatky (H) uzavřené podle sňatkového věku 48 Tento problém se označuje jako Simpsanův paradox: závěry, které učiníme na základě dvojrozměrná kontingenční tabuiky, jsou v rozporu se závěry, pokud analyzujeme trojrozměrnou kontingenční tabulku. V prvním případě může být výsledkem pozitivní vztah mezi dvěma proměnnými, nicméně při zavedení třetí proměnné se tento vztah změní na negativní. Tento paradox způsobuje nerovné rozložení četností v kategoriích analyzovaných proměnných (více k tomu Christensen 1997; Agresti 2002). 49 Více k tomu také Powers a Xie (2000). 50 Má-li závisle proměnná dvě varianty, použijeme binární logistickou regresi, tná-li závisle proměnná více uspořádaných variant, použijeme ordinární logistickou regresi a má-li závisle proměnná více variant, které nelze uspořádat, zvoiíme multinomickou logistickou regresi (více k jednotlivým variantám logistické regrese viz Long 1997). Tabulka A.1 Věkově homogamní a heterogarnní sňatky podle sňatkového věku muže a typu věkového sňatku v fetech 1994-2004 v ČR Typ ? věkového Roky sňatku Snatkový věk muže Věková., homogamie 0-2 roky Věková heterogamie 3-5 let Věková heterogamie 6+ let Celkem 34 937 38,10% tradiční 18-39 18 554 20,23 % 11 728 72,79 % 4 655 5,03^ 1994 -- 30+ 1 109 121 % 1 580 7,72% 4 469 4,87% 7158 7,S7 % netra rfičnf 18-29 4 294 4,68% 1 666 1.82% 846 0,92 % 6 806 7,42 %~ 30+ 361 0,39 % 276 0,30% 115 0,13% 752 0,82 % tradiční 18-29 11 408 72,44 % 6 347 6,92% 1 819 1,98% 19 574: 21,35% 2004 -- 30+ 3 191 3,48% 4 574 4,99 % 6 079 6,63% 13 844 75,70 % netradiční 18-29 4 066 4,43% 2 106 2,30% 1 018 7,77 % 7 190 7,84% 30+ 771 0,84% 516 0,56% 147 0,76 % 1 434 1,56% Celkem 43 754 47,72 % 28 793 37,40 % 19 148 20,8S % 91 695 mn k Poznámka: Procenta jsou sdružené (celkové) relativní četnosti. muže (AI) a typu věkového sňatku (T)51 v letech 1994 a 2004 (R) v České republice. V této tabulce jsou zkombinovány čtyři proměnné. V případě, že si položíme otázku, jak věková homogamie (a heterogamie) souvisí se sňat-kovým věkem muže a typem věkového sňatku a jak se tato souvislost mění v čase, je nezbytné tuto tabulku analyzovat pomocí log-lineárních modelů. Pozorované (výběrové) četnosti se v log-lineámím modelování označují jako/ a modelové (odhadnuté) četnosti jako F. Když variantu každé proměnné v kontingenční tabulce označíme dolním indexem - v našem případě jako i pro proměnnou H,j pro proměnnou Ad, k pro proměnnou T a / pro proměnnou R, kde í = í,..., I; j = 1,..., j; k = 1,..., K a í = 1,..., L; - můžeme každou pozorovanou četnost indikovat jako fm a modelovou (očekávanou) četnost jako F.jkľ Dolní index označuje kategorie jednotlivých proměnných. Dohromady s horním indexem, který odkazuje k proměnným, napríklad četnost 51 U této proměnné kategorie tradiční znamená, že muž je starší (nebo stejně starý] než ieho žena a b-tegor,e „etrarf.cn, znamená, že muž Je mladší než jeho žena. Více k této premenné ví kapitolu 2 18554 v tabulce A.1 zapíšeme jako 7^"™ zatímco ve stejné tabulce četnost 147 zapíšeme jako f"™R. Pozorovanou pravděpodobnost p přináležet do i-té kategorie proměnné H,j-té kategorie proměnné M, ic-té kategorie proměnné T a /-té kategorie proměnné R označíme jako p"^".51 V tabulce A.1 se p™™ =18554/91695, tedy 20,23 % (číslo 91 695 označuje všechny uzavřené sňatky). Platí tedy: sú CO mnu ijki Pravděpodobnost je pro populaci označována jako n. V našem případě n označuje pravděpodobnost, že v populaci náhodně vybraný sňatek přináleží do H = i, M = j, T= k a R = /. Modelové četnosti F$m, které v tomto případě znamenají četnosti ve vzorku, který je přesnou kopií populace (nepředpokládáme existenci výběrové variace), pak vypočítáme podobně jako v rovnici 1: FmiTS N mn rW mcí/iW dfi\ = cf\\df12 df2: cf12df2l ■ Ml Ifl2 Poměry šancí jsou invariantní ke změnám v marginálních distribucích, jelikož tyto změny se odrážejí v proporčním nárůstu nebo poklesu napříč řádky i sloupci. Díky této charakteristice je poměr šancí využíván v analýzách, které potřebují odhlédnout od změn v marginálních distribucích (například změny zaměstnanecké struktury rodičů a jejich potomků v sodálněstratifikačním . výzkumu). Pokud bychom měli dva náhodné výběry ze stejné populace provedené ve stejném časovém okamžiku, jeden o velikosti 1 000 respondentů a druhý o velikosti 10 000 respondentů, a měli bychom dvě stejné kontingenční tabulky z těchto dat, poměry šancí v obou tabulkách by se neměly lišit, pokud by neexistovala výběrová variace. A/s Nonredundantní počet poměrů šancí v kontingenční tabulce K popsání vztahů mezi proměnnými v kontingenční tabulce potřebujeme méně poměrů šancí, než je polí v kontingenční tabulce. U dvojrozměrné kontingenční tabulky je nonredundantní (nezbytný někdy také lokální) počet poměrů šancí dán vzorcem (M)(J-1), kde / označuje počet variant pro proměnnou I a J označuje počet variant pro proměnnou J (tabulka o rozměrech I * ]). Zbylé poměry šancí jsou odvoditelné z těchto nonredundantních poměrů šancí. Pro jakoukoliv dvojrozměrnou I * j tabulku vypočítáme poměry šancí podle následující rovnice: OR„ ftiJlit- / = l,...,/-1:y = l.....j~\ i >y (9) Jelikož každý poměr šancí ve dvojrozměrné kontingenční tabulce zahrnuje kombinace dvou kategorií jedné a dvou kategorií jiné proměnné, můžeme pro tabulku I *J spočítat mnoho poměrů šancí. Například máme-li tabulku o rozměrech 2 * 3, spočítáme dva nonredundantní poměry šancí (v případě, že budeme počítat i reciproční poměry šancí, tak čtyři a v případě, že budeme počítat všechny poměry šancí, tak dvanáct poměrů šancí). Ke smysluplnému popsání asociace mezi proměnnými v této tabulce potřebujeme ale pouze dva poměry šancí. Zbylé, nereciproční poměry šancí lze z těchto dvou poměrů šancí odvodit jejich vynásobením. Podle rovnice (9) vypočítáme nejdříve poměr šancí pro řádek 1 a 2 a sloupec 1 a 2. Poté vypočítáme poměr šancí pro řádek 1 a 2 a sloupec 2 a 3. Chceme-li spočítat poměr šancí pro řádek 1 a 2 a sloupec 1 a 3, můžeme to udělat buď podle rovnice (9), anebo stačí vynásobit poměr šancí řádku 1 a 2 a sloupce 1 a 2 a poměr šancí řádku 1 a 2 a sloupce 2 a 3. a/6 Poměr šancí ve vícerozměrné kontingenční tabulce Poměr šancí lze také počítat mezi třemi a více kategorizovanými proměnnými. Kdybychom do tabulky A.2 zavedli další proměnnou, jíž by byl rok, v němž byl sňatek uzavřen (dvě kategorie: 1994 a 2004), mohli bychom se ptát, jak se liší vztah mezi věkovou homogamií a sňatkovým věkem muže podle roků, v nichž byl sňatek uzavřen. Při tomto výpočtu nejdříve spočítáme podmíněné poměry šancí - pro každý rok zvláště - a potom spočítáme poměr mezi dvěma poměry šancí. Rovnice pro tento výpočet je následující. ORu Jxn-tml fmJi2i JwJndiidziz (10) V čitateli rovnice jsou všechny frekvence, u nichž součet dolních indexů dává liché číslo; ve jmenovateli jsou všechny frekvence, u nichž suma dolních indexů dává sudé číslo. Pro trojrozměrnou interakci se někdy také používá označení interakce druhého řádu (second-order inŕeraction) (Bishop, Fienberg, Holland 1975; Rudas 1998). Tento poměr šancí musíme interpretovat s ohledem na třetí proměnnou. Jedná se o vyjádření toho, do jaké míry (kolikrát) se podmíněný poměr šancí (dvojrozměrná interakce) liší v jednotlivých variantách (kategoriích) třetí proměnné. Čím vyšší nebo nižší je toto číslo než číslo 1, tím větší význam třetí proměnná hraje v trojrozměrné tabulce. V případě, že toto číslo odpovídá číslu 1, podmíněné poměry šancí jsou totožné. Hovoříme o homogennosti podmíněných poměrů šancí. Třetí proměnná v trojrozměrné kontingenční tabulce nehraje roli a při analýze na ni nemusíme brát zřetel (tj. lze analyzovat jen dvourozměrnou tabulku). Princip výpočtu poměru šancí v trojrozměrné tabulce lze použít i pro tabulky o více rozměrech. Čtyrrozměrnou interakci označíme jako interakci třetího řádu, pětirozměrnou interakci jako interakci čtvrtého řádu atd. (Rudas 1998). Rovnice pro výpočet jednotlivých poměrů šancí je totožná s rovnicí (10), obsahuje pouze všechny nezbytné frekvence dané počty tabulkových rozmeru. Máme-li lichý počet rozměrů, všechny frekvence, jejichž součet (dolních) indexů je lichý, umísťujeme do čitatele rovnice, a všechny frekvence, jejichž součet (dolních) indexů je sudý, dáváme do jmenovatele rovnice. Máme-li naopak sudý počet tabulkových rozměrů, všechny frekvence, které mají sudou sumu indexů, dáváme do čitatele rovnice, a všechny frekvence, jejichž suma je lichá, umisťujeme do jmenovatele rovnice. Výpočet poměru šancí pro čtyrrozměrnou tabulku (čtyři proměnné o dvou variantách) ukazuje rovnice 11. QRn= -^""-Am fm\.f\Tii / fiuifnii f Ju\ifi2i2 _ J\u\.fu-iif\inf\i2\f7\\ifin\fii\\fmi /1121.A11:/ ./mi./iii; / fimfmii fz2i\fi2\2 J2\\ufnwfímfi[\ifmzfzmf2112^2121 a/7 Parciální šance, aritmetický a geometrický průměr Parciální šance jsou definovány jako průměrné podmíněné šance. Parciální šance na věkově homogamní sňatek v tabulce A.2 odpovídá na otázku, jaká je šance na věkově homogamní sňatek oproti věkově heterogamnímu sňatku v průměru pro kategorie sňatkového věku muže. Podobně parciální šance na uzavření sňatku muže ve věku 18-29 let odpovídá na otázku, jaká je jeho šance oženit se v tomto věku oproti pozdějšímu věku (30+ let) v průměru pro věkově homogamní a heterogamní sňatky. Parciální šance počítáme jako geometrický průměr z podmíněných šancí. Geometrický průměr, stejně jako aritmetický průměr, je mírou centrální tendence (Hendl 2004). Abychom lépe pochopili princip výpočtu geometrického průměru, a tedy parciálních šancí, začneme definicí a logikou aritmetického průměru. Aritmetický průměr je definován jako součet všech hodnot dělený počtem pozorování (rovnice 12). Suma odchylek hodnot od aritmetického průměru se rovná vždy číslu 0 (rovnice 13). Jedná se o vlastnost aritmetického průměru. Charakterizujeme-li tedy v souboru každého člověka průměrnou hodnotou - například průměrným věkem při uzavření sňatku, podhodnocujeme jeho sňatkový věk naprosto stejně, jako jej nadhodnocujeme (v termínech rozdílů a součtů). V tomto smyslu leží aritmetický průměr ve středu distribuce hodnot, z nichž je spočítán, neboť součet odchylek všech hodnot od něj je nulový. X^XJ/N (12) 1=1 j^(X,-X) = 0 03) S geometrickým průměrem pracujeme v případech, kdy lze uvažovat o poměrech mezi čísly.59 K vysvětlení logiky geometrického průměru J. A. Hagenaars (1990) uvádí následující příklad: Cena koně je $100. Dva muži mají za úkol odhadnout jeho cenu. Kůň připadne tomu z nich, jehož odhad bude blíže skutečné ceně koně. První muž tipuje cenu $10, druhý muž tipuje $1000. Komu připadne kůň? Pokud bychom odhadnuté ceny odečítali od skutečné ceny (v logice aritmetického průměru), první muž by byl vítězem. Kůň ale nepřipadne žádnému z mužů, protože (v logice geometrického průměru) oba muži tipovali stejně. První muž podcenil cenu koně 1 Okřát, druhý muž přecenil jeho cenu rovněž 1 Okřát. Geometrický průměr vypočítáme jako součin všech hodnot odmocněný počtem pozorování (rovnice 14). V našem případě by cena koně ze dvou odhadů ($10 a $1000) byla $100. Součin podílů hodnot a hodnoty geometrického průměru se rovná vždy číslu 1 (rovnice 15). Jedná se o vlastnost geometrického průměru. Charakterizujeme-li tedy v souboru každého člověka geometrickým průměrem - opět například věkem při uzavření sňatku -podhodnocujeme jeho sňatkový věk v násobcích, stejně jako jeho sňatkový věk (opět v násobcích) nadhodnocujeme. V tomto smyslu leží geometrický průměr přesně ve středu distribuce hodnot, z nichž je počítán, neboť součin jednotlivých podílů hodnot a geometrického průměru je číslo 1. Aritmetický průměr je míra vhodná pro případy, kdy pracujeme se součty a rozdíly - s aditivními modely. Geometrický průměr používáme v těch případech, kdy pracujeme s násobky a podíly, tedy se šancemi a poměry šancí -s multiplikativními modely. Mezi aritmetickým a geometóckým průměrem existuje vztah. Pokud hodnoty, z nichž je geometrický průměr počítán, převedeme na přirozené logaritmy a spočítáme z nich aritmetický průměr, exponent tohoto aritmetického průměru se rovná původnímu geometrickému průměru. Například geometrický průměr z hodnot 2, 3 a 4 je 2,885. Aritmetický průměr z hodnot přirozených logaritmů čísel 2, 3 a 4 je 1,059. Platí, že exp(l,059) = 2,885 a ln(2,885) = 1,059. Přirozený logaritmus geometrického průměru se rovná 59 Většinou se jedné o proměnné, v jejichž distribucích má 0 přirozený počátek (vyjadřuje neexistenci jevu) 3 jejichž rozpětí nabývá hodnot 0 až <=. Četnost u taková proměnné ukazuje, kolikrát daný jev nastal. aritmetickému průměru vypočítanému z prirazených logaritmu hodnot geometrického průměru. A naopak: exponent aritmetického průměru se rovná geometrickém^ průměru, který je vypočítán z exponentů hodnot aritmetického průměrů. V tabulce A.2 platilo, že podmíněné šance na věkově homogamní sňatek oproti věkově heterogamnímu sňatku pro muže, kteří se oženili mezi 18-29. rokem, byly 1,270; pro muže, kteří se oženili později (30+ let) tyto šance byly 0,306. Parciální šance na věkově homogamní sňatekje počítána jako geometrický průměr z těchto dvou podmíněných šancí: V(U270)(0,306) =0,623. V průměru věkových kategorií jsou šance na věkově homogamní sňatek mužů menší než na věkově heterogamní sňatek. To koresponduje s marginálními, šancemi mužů na věkově homogamní sňatek oproti věkově heterogamnímu sňatku v téže tabulce. a/8 Saturovaný log-lineární model Rovnice saturovaného íog-lineárního modelu je podobná rovnici lineární regrese. Na levé straně rovnice je přirozený logaritmus frekvencí (přesněji řečeno měřené četnosti jsou konvertovány na svůj přirozený logaritmus), pravá strana rovnice je lineární kombinací vysvětlujících parametrů. Z tohoto důvodu hovoříme o (og-íineámícb či íogaritmicko-lmeámíef) modelech -o přirozených logaritmech četností předpokládáme, že jsou lineární funkcí sady parametrů.60 Saturovaný model znamená, že rovnice obsahuje všechny nezbytné parametry k objasnění velikostí (přesněji řečeno velikostí přirozených logaritmů) frekvencí. Žádné omezení pro proměnné v modelu nepředpokládáme, stejně jako nepředpokládáme žádné omezení pro vztahy mezi proměnnými. Všechny parametry a kombinace vztahů mezi nimi jsou v modelu přítomny. Data v tabulce A.5 ukazují věkově homogamní a heterogamní sňatky podle sňatkového věku muže a typu věkového sňatku v roce 2004 v České republice. Jedná se o trojrozměrnou kontingenční tabulku, kterou (v multiplikativní podobě) popisuje následující saturovaný model (parametry jsou označeny j ako t). piiM -m "T nT r mi m m nm . , 60 V anglosaských zemích se pro přirozený logaritmus používá zkratka log, zatímco u nás zkratka In (zkratka log označuje dekadický logaritmus), jelikož se jedná o log-lineární modely, bude v daíším textu pro přirozený logaritmus používána zkratka log. Tabulka a.s Věkově homogamní a heterogamní sňatky podle sňatkového věku muže a typu věkového sňatku v roce 2004 v ČR věkového : sňatku Snatkový věk muže ' Věková homogamle 0-2 roky Věková heterogamie ::; 3* letv^';::;: Celkem tradiční 18-29 11 408 8 166 19 574 30+ 3 191 10 653 13 844 netradiční 18-29 4 066 3 143 7 209 30+ 771 663 1 434 Modelové frekvence F v jednotlivých polích kontingenční tabulky jsou vyjádřeny jako součin jednotlivých parametrů a jejich kombinací. Z tohoto důvodu nazýváme model multiplikativní (součinový). Každou četnost ovlivňuje jednak parametr r\ (obdoba konstanty v regresní analýze), dále jednotlivé kategorie proměnné H (věková homogamie), M (sňatkový věk muže) a T (typ věkového sňatku) - parametry t,", t;", t[, dvojrozměrné interakce mezi těmito kategoriemi proměnných HM, HTaMT-parametry x.fVif^lT a trojrozměrná interakce HMT- parametr x"^r. Levá strana rovnice však není „klasická" závisle proměnná. Jedná se o počet případů v jednotlivých polích kontingenční tabulky - o výskyt událostí. Z tohoto důvodu se někdy log-lineárním modelům říká frekvenční modely. Frekvence nebolí četnosti jsou poměrným kardinálním znakem - číslo 0 má přirozený počátek a záporný počet událostí nemůže nastat (například -1 dítě nebo -5 sňatků je nesmyslný údaj). Neobvyklé je také jiné vyjádření událostí (četností) v kontingenční tabulce než v celých číslech (například 1,8 sebevražd nebo 2,3 sňatků je nelogický údaj). V tomto ohledu se rovnice pro log-lineární modely liší od rovnice lineární regrese, která taková omezení nemá (číslo 0 obvykle není přirozeným počátkem a rozpětí hodnot se může pohybovat od -m do +°°, hodnoty případů nemají pouze podobu celých kladných čísel). Další podstatný rozdíl ve srovnání s rovnicí lineární regrese spočívá v tom, že u log-lineárních modelů nás zajímá především to, co je umístěno na pravé straně rovnice, nicméně v regresní analýze se zajímáme o to, co je umístěno jak na pravé, tak na levé straně rovnice. Stručně řečeno: klasické rozdělení na závisle (vysvětlovanou) proměnnou a nezávisle (vysvětlující) proměnné (levá a pravá strana rovnice v lineární regresi) v případě log-lineárních modelů neplatí. Závisle proměnná neexistuje - suplují ji frekvence v jednotlivých polích kontingenční tabulky. S tím souvisí další vlastnost log-lineární analýzy. Tato analýza je dimenzována a lze ji použít pouze na agregovaná, tabulková data. V případě, že máme individuální data, musíme z nich buď vytvořit kontingenční tabulku (kolik rozměrů tabulka bude mít, záleží na tom, kolik proměnných do ní z dat vložíme),61 nebo použijeme některou z variant logistické regrese (binární, ordinální nebo multinomickou logistickou regresi), které však již předpokládají rozdělení na závisle a nezávisle proměnnou. V případě, že obě strany rovnice 16 převedeme na přirozené logaritmy, dostaneme následující rovnici: kde G"r - HF'D, e = in(T,), K" = M?!'l \H = Ni;)... = H4iff. Jedná se o aditivní (součtové) vyjádření saturovaného modelu pro tabulku A.5 (v této podobě je rovnice podobná rovnici lineární regrese). Přirozený logaritmus každé četnosti v tabulce je lineární kombinací přirozeného logaritmu celkového průměru a přirozených logaritmů efektů jednotlivých kategorií proměnných a vztahů mezi nimi. Úprava multiplikativní rovnice do podoby přirozených logaritmů se provádí z důvodů numerické identifikace modelu.62 Jedná se o logaritmickou transformaci, po níž je již model lineární (v parametrech). Exponenciováním této rovnice dostaneme původní multiplikativní rovnici. Exponenciální podoba rovnice 17 je následující: e* = <ře'-< e> eh e" e'ä e •' e"1 (19) a/9 Restrikce parametrů pro identifikaci log-lineárního modelu Rovnice 17,18 a 19 pro saturovaný log-lineární model mají z hlediska identifikace parametrů více řešení. Například pro trojrozměrnou interakci bychom identifikovali tolik parametrů, kolik je polí v kontingenční tabulce. Nicméně samotné efekty kategorií proměnných nás ve statistické analýze dat nezajímají. Samy o sobě, bez referenčního rámce (například efektu jiné kategorie) fi1 Některé statistické programy transformují individuální data do podoby kontingentních tabulek, aniž by to jejich uživateli explicitně sdělily. 62 Pracovat s přirozenými logaritmy čísel při maximálně věrohodnostním odhadu parametrů je numericky snazší než pracovat s celými čísly. Na podobu výsledku přitom tato úprava nemá vliv. nemají význam a nejsou interpretovatelné. Otázkou, která nás tedy zajímá, je, zda a jak se efekt jedné varianty proměnné liší od jiné varianty stejné proměnné. Nakolik například v tabulce A.5 sňatkový věk mužů 18-29 let ve srovnání s věkem 30 a více let ovlivňuje šance na věkově homogamní sňatek. Tato relační perspektiva řeší problém identifikace parametrů v log-lineárních (ale i všech ostatních regresních) modelech. Buď můžeme parametry vypočítat tak, že jsou vztaženy ke svému průměru, nebo můžeme parametry identifikovat k sobě navzájem. Obě řešení dávají věcně stejné výsledky. Představme si, že máme muže, který získá v matematickém testu 100 bodů, a ženu, jejíž skóre v tomtéž testu je 170 bodů. Průměrné skóre z těchto dvou případů je 135 bodů. Ve srovnání s tímto průměrem pohlaví v případě ženy zvyšuje skóre o 35 bodů, v případě muže snižuje skóre také o 35 bodů. Celkový rozdíl mezi oběma skóry je 70 bodů ve prospěch ženy nebo v neprospěch muže - záleží na tom, z jaké perspektivy data interpretujeme. Ke stejnému závěru bychom dospěli, kdybychom vztáhli obě kategorie k sobě navzájem -přesněji řečeno, pokud bychom se ptali, o kolik je skóre v jedné kategorii vyšší než skóre ve druhé (referenční) kategorii (70 bodů ve prospěch ženy ve srovnání s mužem nebo 70 bodů v neprospěch muže ve srovnání s ženou). První řešení se v log-lineárním modelování nazývá effect coding (někdy také ANOVA coding), druhé řešení se nazývá dummy coding. Effect coding znamená, že efekty log-lineárních parametrů jsou identifikovány ve vztahu k průměrnému efektu - jedná se o odchylky od průměrného efektu. Dummy coding znamená, že efekty log-lineárních modelů jsou identifikovány k sobě navzájem. Jedná se o odchylky od jednoho, arbitrárne zvoleného parametru, jehož hodnota je nahrazena konstantou, obvykle číslem 0 (v log-lineárním režimu) nebo číslem 1 (v multiplikativním režimu), což znamená, že efekt neexistuje. Effect coding a dummy coding jsou dvě rozdílné parametrizace, které lze použít pro identifikaci parametrů stejného modelu. Ať použijeme první nebo druhé řešení, parametry jsou vzájemně prevoditelné (Rudas 1998). S ohledem na zvolenou parametrizaci musíme však odhadnuté parametry adekvátně interpretovat (Alba 1987; Kaufman, Schervish 1986, 1987; Long 1984). V log-lineárních modelech je rozšířenější používat effect coding, v regresních a logistických modelech dummy coding.63 Effect coding znamená, že součet log-lineárních parametrů X vymezených dolním indexem se rovná číslu 0 (charakteristika odchylek od aritmetického 63 Taká rozdílné statistické programy pro odhad log-lineárních modelů mají implementovány rozdílné typy parametrizace efektů. Například GUM, Stata, S-Plus nebo SAS používají dummy coding. SPSS nebo LEM mají přednastavený effect coding, který lze ale velmi pohodlně změnit na dummy coding. průměru) a součin multiplikativních parametrů t se rovná číslu 1 (charakteristika odchylek od geometrického průměru). Rovnice 20 a 21 ukazují tuto restrikci pro parametry saturovaného log-lineárního modelu tabulky A5. i=i /=i t=i ,=i H M (20) ik=n* f - ik=nc=nc - - - ne - ŕbr=fr r=i m M V případě použití parametrizace dummy coding je nezbytné si vždy zvolit jednu z kategorií analyzovaných proměnných, která bude kategorií referenční. Pokud si zvolíme u každé proměnné první kategorii, znamená to, že Iog-li-neární parametry se pro tuto kategorii rovnají číslu 0 - multiplikativní parametry číslu 1. Pro tabulku A. 5 saturovaného log-lineárního modelu toto omezení ukazují rovnice 22 a 23. i " - )>i_i^i ha; _ -i mi _ _-, inrr _ mír n, miř n U\tT "v/i- — Tiii- — tí/ = 1 (22) (23) Tato omezení umožňují parametry log-lineárních modelů identifikovat. Počet nonredundantních (nezbytných) parametrů pro saturovaný log-lineární model v trojrozměrné kontingenční tabulce je dán vzorcem (M)(/-1)(K-1), kde l, JaK označují dimenze (počty kategorií) analyzovaných proměnných. Dohromady s celkovým efektem počet nonredundantních parametrů saturovaného modelu odpovídá rozměrům kontingenční tabulky. Pro saturovaný model dvojrozměrné tabulky o rozměrech 3 * 3 (dvě proměnné, každá obsahuje tři kategorie) je napříldad nezbytné (při restrikci dummy coding) odhadnout devět parametrů: hlavní průměr (jeden parametr), (M) a (T-l) pro každou proměnnou (čtyři parametry) a (M}íj-1) parametrů pro interakce mezi variantami obou proměnných (čtyři parametry). Pro trojrozměrnou tabulku 3 x 3 k 3 by to bylo (opět při restrikci dummy coding) 27 nonredundantních parametrů saturovaného modelu. a/10 Interpretace parametrů saturovaného log-lineárního modelu Výpočet vybraných parametrů, identifikovaných jako ejfect coding, saturovaného log-lineárního modelu pro data tabulky A.5 ukazují rovnice 24 až 27.64 64 U saturovaného modelu není nutně modelové četnosti odhadovat. Modelové četnosti F odpovídají Zbylé parametry vypočítáme podle stejných vzorců, ovšem s jinými (jim odpovídajícími) hodnotami a restrikcemi. Vzorce pro výpočet parametrů, identifikovaných jako dummy coding, najde čtenář v příslušné literatuře (srov. Bishop, Fienberg, Holland 1975; Haberman 1978, 1979). Hnnrk 1.1 7=1 í-l 1 UK G„, (24) =1 j-i k=í nn^ fí.U _ V fr=1_ 11t, Tj (25) (26) lfj* ~miiT.wtr mi m iff Tabulka A.6 ukazuje hodnoty parametrů saturovaného modelu identifikované jako ejfect coding a dummy coding pro data tabulky A.5. Podle rovnice 24 celkový efekt (celkový parametr) n. a 8 ukazuje průměrnou hodnotu frekvencí v kontingenční tabulce (z tohoto důvodu se také někdy nazývá jako hlavní průměr). Geometrický průměr frekvencí v tabulce A.5 je 3 463 a aritmetický průměr přirozených logaritmů frekvencí je 8,150. Celkový efekt je poznamenán celkovým počtem případů N v tabulce. Pokud změníme velikost M, změní se také velikost tohoto parametru. Efekty jednotlivých proměnných (marginální či jednorozměrné efekty) odrážejí distribuční zešiltmení napříč kategoriemi. Znamená to, že ukazují, v jakých kategoriích je více nebo méně případů. Pokud je například uzavřeno více sňatků ve věku 18-29 let než ve věku 30 a více let, můžeme říci, že první věková kategorie působí silněji na velikost četností v kontingenční tabulce. Numericky se jedná o geometrický průměr z frekvencí dané kategorie proměnné, který je poté vztažený k celkovému průměru (rovnice 25). V tabulce A.5 nás napříldad zajímá efekt sňatkového věku muže 18-29 let (t,a0. Z polí pozorovaným četnostem f a všechny parametry jsou počítány z těchto pozorovaných četností. U jiných než saturovaných modelů je nezbytné modelové četnosti již pomocí speciálních algoritmů odhadnout (viz následuje! podkapitoly A/13 a A/14). M = 1 spočítáme geometrický průměr a poté zjistíme, nakolik - přesněji kolikrát - se liší od celkového průměru.65 Číslo 1,696 říká, že sňatky jsou v této kategorii l,696krát častější než v (celkovém) průměru frekvencí tabulky. Pro kategorii M = J2 je to 0,590,66 což znamená, že ve věkové kategorii mužů 30 a více let je 0,590krát méně sňatků než v průměru frekvencí celé tabulky. Log-lineární marginální parametry X mají stejnou interpretaci jako multiplikativní marginální parametry x, ale s tím rozdílem, že odchylka od celkového průměru není vyjádřena jako poměr, ale jako rozdíl. Parciální šance jsme definovali jako geometrický průměr z podmíněných šancí. V tabulce A.5 jsou parciální šance na sňatky mužů ve věku 18-29 let oproti věku 30 a více let 2,875.67 Když dáme do poměru parametry x" /xf z tabulky A.6, odpovíme na otázku, kolikrát je průměrná četnost sňatků u mužů ve sňatkovém věku 18-29 let větší či menší než u mužů ve sňat-kovém věku 30 a více let (t;"/x," =2.875). Jedná se o tytéž parciální šance. Sňatky mužů ve věku 18-29 let jsou v průměru 2,875krát častější než sňatky mužů ve 30 nebo více letech. Sňatky mužů ve 30 a více letech (xf/x;") jsou naopak v průměru 0,348krát méně časté ve srovnání se sňatky mužů v 18-29 letech.69 U hierarchických log-lineárních modelů nejsou marginální efekty proměnných interpretačně příliš užitečné. Později uvidíme, že v marginálních distribucích hierarchické log-lineární modely odpovídají marginálním distribucím pozorovaných dat. Navíc rozšíření kontingenční tabulky o každou další dimenzi mění efekt proměnné na tabulkové četnosti. To znamená, že velikost marginálních parametrů není nezávislá na počtu dimenzí kontingenční tabulky, Z hlediska interpretace nás mnohem více než marginální efekty zajímají interakce (asociace) mezi proměnnými (dvojrozměrné nebo vícerozměrné efekty a jim odpovídající parametry). Začněme dvojrozměrnými interakcemi saturovaného modelu. Tyto parametry ukazují průměrný vztah mezi dvěma proměnnými kontrolovaný pro kategorie ostatních proměnných v kontingenční tabulce. Například v tabulce A.6 parametry x*'" indikují parciální interakce mezi proměnnými MH pro konstantní úroveň T. V případě restrikce ejfect coáing tyto parametry vypočítáme jako geometrické průměry z polí MH, které vztáhneme k součinu parametrů nižšího řádu (tj,x", t;") (rovnice 26). Například parametr x,f =l.229,ů9 což znamená, že průměrné frekvence 65 Tedy: (11408 » B166 « 4066 « 3143)0-25/ 3463 = 1,696. 66 Vypočítáno jako 1/1,696 = (3191 * 10653 * 771 - 663)0-15 / 3463. 67 Vypočítáno jako [(11408 / 3191) " (4066 / 771) * (8166 / 10653) » (3143 / 663)]°™. 68 x2u /r;" = «)- a podobně pak t," = (t,"):, přičemž (t)2 = 1 / = (4,663 « 1,112)°-5 = (1,229)* = (1,229 / 0,814) / (0,814 / 1,229) = 2,278. interakce odlišují od parciální (průměrné) interakce (parametr x^"'). Totéž platí i pro zbylé dvojrozměrné interakce (parametry x^ a if), přičemž trojrozměrná interakce (parametr x,.""7) má stejnou hodnotu.73 Pokud se všechny trojrozměrné parametry t^/ít= 1 (v multiplikativním režimu) nebo \"ín= 0 (log-lineárním režimu), trojrozměrná interakce neexistuje a všechny podmíněné dvojrozměrné interakce (vztahy) mezi proměnnými jsou stejné. V tabulce A.6 se x 1,196 a x;1,^ 0,836. To znamená, že podmíněná interakce mezi věkovou homogamií a brzkým sňatkovým věkem mužů (18-29 let) ve věkově tradičních sňatcích (t""^) je l,196krát vyšší než průměrná interakce {i""= 1,229). Podmíněný vztah mezi věkovou homogamií a sňatkovým věkem 18-29 let je 1,470 (x;','";7).74 Interakce mezi věkovou homogamií a brzkým sňatkovým věkem muže (18-29 let) ve věkově netradičních sňatcích CÍT je 0,836krát (l/x^f) menší než průměrná interakce (x™'= 1,229). Podmíněný vztah mezi věkovou homogamií a sňatkovým věkem 18-29 let je 1,027 (tíTD-75 Na základě těchto údajů můžeme konstatovat, že věková homogamie souvisí se sňatkovým věkem mužů. Pokud nebereme zřetel na typ věkového sňatku, muži, kteří se ožení dříve (18-29 let), mají l,229krát (o 22,9 %) vyšší šance uzavřít věkově homogamní sňatek a naopak 0,814krát (o 18,6 %) menší šanci uzavřít věkově heterogamní sňatek než průměrný muž (generovaný součinem efektů nižších řádů). Pokud bereme zřetel na typ věkového sňatku, vztah mezi sňatkovým věkem mužů a věkovou homogamiií má stejný (pozitivní) směr - pro věkově tradiční sňatky je však mnohem silnější než pro sňatky netradiční. Vztah mezi věkovou homogamií a typem věkového sňatku bez ohledu na sňatkový věk muže je 0,852 (ve věkově tradičních sňatcích je šance na věkově homogamní sňatek nižší, ve věkově netradičních naopak vyšší). Zahr-neme-li sňatkový věk mužů, je interakce mezi věkově homogamním sňatkem a věkově tradičním sňatkem pro sňatkový věk mužů 18-29 let 0,7127ů a pro sňatkový věk mužů 30 a více let 1,018.77 Šance, že věkově tradiční sňatek bude věkově homogamní, jsou při brzkém uzavření sňatku mužů nižší a při jejich pozdějším sňatkovém věku mírně vyšší než průměr. Podobně interpretujeme vztah mezi sňatkovým věkem muže a typem věkového sňatku podle věkové homogamie. Bez ohledu na to, zdaje sňatek vě- 73 Symetričnost trojrozměrné interakce můžeme vyjádřit: MIIT _ Míl\T i Slil _ SÍT\ll /SÍT _ HT\,\I j lif Ti/S- ~Xii iIX:j -Tii j IT!t _Tj* i IXjk . 74 Vypočteno jako 1,229 » 1,196. 75 Vypočteno jako 1,229 » 0,836, 76 Vypočteno jako 0,852 « 0,836. 77 Vypočteno jako 0,852 « 1,196. kove homogamní nebo heterogamní, šance mužů na věkově tradiční sňatek ve sňatkovém věku 18-29 let jsou nižší (0,759krát) než průměr, ve sňatkovém věku 30 a více jet jsou naopak vyšší než průměr (l,318krát). Pozdější sňatkový věk muže znamená vyšší šance na věkově tradiční podobu sňatku, naopak brzký sňatkový věk znamená vyšší šance na věkově netradiční podobu sňatku. Pro věkově homogamní sňatky je interakce mezi sňatkovým věkem mužů a rýpem věkového sňatku 0,907, pro věkově heterogamní sňatky je tato interakce 0,759.7B Šance na netradiční podobu sňatku v brzkém sňatkovém věku jsou vyšší pro věkově homogamní sňatky než pro věkově heterogamní sňatky. Shrneme-li to, můžeme říci, že jednotlivé parametry log-lineárního modelu ukazují, jak celková velikost vzorku, marginální distribuce proměnných, dvojrozměrné a vícerozměrné interakce mezi proměnnými „přispívají" k vysvětlení variace četností v kontingenční tabulce. Při omezení ejfcct coding je každý parciální efekt t počítán jako geometrický průměr z odpovídajících podmíněných efektů a každý další efekt vyššího řádu ukazuje odchylku podmíněných efektů od parciálního efektu. Hodnoty t se mohou pohybovat od 0 do °° hodnoty A od -°° do °°.7SI Efekt nepozorujeme, pokud x = 1 a X = 0. Nevýhodou hodnot t parametrů je, že nejsou s}Tnetricky rozložené okolo čís-, la 1. Negativní a pozitivní efekty nemůžeme přímo srovnávat.80 Oproti tomu hodnoty a parametrů jsou symetricky rozložené okolo čísla 0, což znamená, že pozitivní a negativní efektyjsou přímo srovnatelné. Nevýhodou a parametrů ovšem je, že musejí být interpretovány v termínech logaritmů frekvencí, za nimiž si je obtížné představit konkrétní četnosti případů. Oproti tomu t parametry interpretujeme velmi snadno - jako poměry mezi frekvencemi nebo pravděpodobnostmi. Dosadíme-li vypočítané (nezaokrouhlené) parametry (z tabulky A6) do jednotlivých log-lineárních rovnic, dostaneme modelové (v případě saturovaného modelu pozorované) četnosti z tabulky A.5. Například pro frekvence F1H nebo Ftl, a jejich přirozené logaritmy platí: 78 Vypočteno jako 0,759 - 1,196 a jako 0,759 * 0,836. 79 Kra/ní meze těchto intervalů jsou dosažitelné pouze teoreticky. Prakticky by to znamenalo, že by tabulková frekvence byla nulová. V takovém případě je však parametr log-lineárního modeiu neidentifikovatelný, protože jev nenastal. Vyskytne-li se takový případ, je nutné buď čísb 0 nahradit velmi nízkým číslem (pracu-jeme-li s výběry z populace, předpokládáme, že případ se vyskytuje, ale není obsažen v našem vzorku), nebo jej považovat za „strukturální" nulu (pracujeme-li s vyčerpávajícím šetřením, musíme konstatovat, že případ se nevyskytuje) a při odhadu parametrů vzít tuto skutečnost v úvahu (více k tomu viz Knoke, Burke 1980). 80 Pokud například chceme odpovědět, zda t = 1,2 je silnější interakce než t= 0,8, musíme negativní efekt nejdříve převést na pozitivní efekt (1/0,8 = 1,25) a pak oba efekty z hlediska velikosti srovnat. Fm = 11408 = 3463 * 2,166 * 1,696 * 0,944 x 0,759 * 0,852 * 1,229 x 1,196 ln(F1M) - 9,342 = 8,150 + 0,773 + 0,528 + (-0,058) + (-0,276) + (-0,160) + 0,206 + 0,179 Ftl, » 8166 = 3463 x 2,166 x 1,696 x 1,060 « 0,759 x 1,173 x 0,814 x 0,836 ln(F!P) = 9,008 = 8,150 + 0,773 + 0,528 + 0,058 + (-0,276) + 0,160 + (-0,206) + (-0,179) A/11 Nesaturovaný log-lineární model Saturovaný model není příliš interpretačně užitečný. Jedná se o parametrizaci pozorovaných četností - pozorované případy převedeme na odpovídající počet parametrů (Powers, Xie 2000). Interpretujeme stejný počet parametrů jako počet četností, což je jedno a totéž. Takový model je sice přesný (to znamená, že vypočítané modelové frekvence v jednotlivých polích kontingenční tabulky se neliší od pozorovaných - měřených - frekvencí), nicméně není úsporný (neobsahuje méně parametrů než pozorování), a proto není ani interpretačně užitečný. Smyslem statistického modelování hromadných dat je najít úspornější model (popis struktury dat), než je model saturovaný (princip parsimonie). Úspornější znamená jednodušší (některé z parametrů jsou vynechány nebo jinak omezeny). Jednodušší ale obvykle znamená i méně přesný (modelová data se liší od pozorovaných dat). Ideálem statistického modelování je proto najít vždy takový model, který je ještě dostatečně přesný (modelová data se významně neliší od pozorovaných dat), který je ale také maximálně možně úsporný (obsahuje co nejméně vazeb mezi proměnnými ve srovnání se saturovaným modelem). Přesnost a úspornost jsou v protikladu. Zvyšováním přesnosti snižujeme úspornost a naopak. Jedná se o soukolí, v němž je každý výzlíumník při explanaci proměnných a vazeb mezi nimi. Zvýšením počtu vazeb ve struktuře modelu zvyšujeme jeho přesnost, nicméně na úkor úspornosti a jeho interpretovatelnosti. Opomíjením vazeb ve struktuře modelu snižujeme přesnost modelu, tím však snižujeme také pravděpodobnost, že budeme moci na jeho základě pozorovaná data ještě interpretovat. Většina vědců preferuje úspornost před přesností. Jednodušší model je pro interpretaci vhodnější než model složitější. Tento princip je obsažen v zákonu Occamovy břitvy. Podle něho by výzkumník měl vždy hledat takové řešení, které je nejjednodušší, přitom ovšem data (generovaná v rámci) modelu, který interpretuje, by se statisticky významně neměla lišit od pozoro- váných (měřených) dat. V případě, že můžeme volit ze dvou stejných řešení, nicméně jedno je složitější a druhé je jednodušší, měli bychom volit vždy to jednodušší nebo méně komplikované řešení. Modely kťeré neobsahují všechny nezbytné parametry k popsání kontingenční tabulky, se nazývají nesaturované. V log-lineárním modelování existuje mnoho způsobů, jak parametry omezit. V případě, že předpokládáme, že efekt parametru odpovídá číslu 0 (v aditivní rovnici modelu) nebo číslu 1 (v multiplikativní rovnici modelu) a přitom zachováváme pravidlo, že všechny vyšší interakce, v nichž se tento parametr také vyskytuje, se rovnají číslu 0 (nebo číslu 1), hovoříme o hierarchických log-lineárních modelech. Například pokud předpokládáme, že asociace HM (vztah mezi věkovou homogamií a sňatkovým věkem muže) pro data v tabulce A.5 neexistuje (odpovídá číslu 0 v aditivní rovnici modelu), musíme předpokládat, že všechny interakce vyššího řádu, které interakci HM obsahují, rovněž neexistují (rovnají se také číslu 0 v aditivní rovnici). Rovnice pro takový nesaturovaný model pak vypadá následovně: (28) Jiným příkladem nesaturovaného hierarchického log-lineárního modelu může být model nezávislosti, kdy předpokládáme, že interakce mezi věkovou homogamií a sňatkovým věkem mužů nebo mezi věkovou homogamií a typem sňatku nebo mezi sňatkovým věkem mužů a typem sňatku, neexistuje. Rovnice pro takový model je následující: (29) Při hledání modelu, litery adekvátně reprodukuje pozorovaná data (je přesný) a přitom obsahuje pouze tolik vazeb, kolik je nezbytně nutné (je úsporný), se obvykle postupuje dvojím způsobem. Buď začneme odhadem saturovaného modelu a postupně odstraňujeme z modelu interakce vyššího a pak nižšího řádu (postupujeme tedy od nejsložitějších po nejednodušší vazby v datech), až najdeme model, jehož reprodukce dat je stále ještě přesná, a přitom je tento model dostatečně úsporný. Nebo začneme nejjednodušším modelem (obvykle modelem nezávislosti mezi proměnnými) a postupně přidáváme složitější interakce, až nalezneme model, který adekvátně reprodukuje pozorovaná data, přitom ovšem je stále ještě dostatečně úsporný Prvnímu postupu se říká sestupný výběr modelu (backward sekctiori), druhý postup se nazývá vzestupný výběr modelu {forward sekction). V log-lineárním modelování je rozšířenější druhý postup. A/12 Reprodukce marginálních tabulkových četností Víme již, že princip hierarchie znamená, že jsou-li v log-lineárním modelu přítomny interakce vyššího rádu, jsou zároveň také přítomny všechny efekty nižších řádů proměnných, které interakci vyššího řádu tvoří. Je-li v modelu například přítomna trojrozměrná interakce mezi proměnnými, jsou implicitně přítomny všechny dvojrozměrné a jednorozměrné interakce stejných proměnných, včetně hlavního průměru. Oproti hierarchické struktuře modelů existuje také nehierarchická struktura. Jedná se o log-lineární modely, které obsahují interakce vyšších řádů mezi proměnnými, aniž by byly v modelu přítomné interakce nižších řádů nebo efekty jednotlivých proměnných, včetně hlavního průměru. Tyto modely nejsou ale příliš rozšířené. Jednak proto, že není vždy snadné odhadnout jejich modelové četnosti, a jednak proto, že jsou obtížně interpretovatelné. V log-lineárním modelování je obvyklé model specifikovat pomocí jednotlivých proměnných - přesněji řečeno pomocí arbitrárne zvolených písmen pro tyto proměnné ve složených závorkách. Saturovaný model pro data v tabulce A.5 (rovnice 1.7, 18 a 19) můžeme buď specifikovat jako [TMH TM Tli MH THM}, nebo jako {TMH}. V prvním případě písmena odpovídají jednotlivým parametrům v rovnicích 17, 18 nebo 19 (hlavní průměr se ne-spedrikuje), přičemž písmena vedle sebe znamenají interakce proměnných. Ve druhém případě je uvedena pouze trojrozměrná interakce, protože v hierarchické struktuře modelu jsou interakce nižších řádů a efekty jednotlivých proměnných automaticky přítomny. V případě, že chceme vyjádřit nezávislost mezi proměnnými, ponecháme mezi písmeny jednoduše mezeru (například model {T M H} odpovídá rovnici 29). Modelové proměnné a vazby mezi nimi indikované písmeny v závorkách nemají pouze symbolický, ale také praktický význam. Označují marginální kontingenční tabulky generované (pod jednotlivými modely) z celkové kontingenční tabulky. To znamená, že máme-li hypotézu, která určuje vztahy mezi proměnnými, marginální distribuce pro tyto proměnné v kontingenč-ních tabulkách odpovídají marginálním distribucím pro tytéž proměnné v pozorovaných datech. Modelové frekvence F a pozorované frekvence / se sice liší (s výjimkou saturovaného modelu), jejich součet napříč řádky nebo sloupci se však neliší od stejného součtu pozorovaných četností napříč řádky nebo sloupci. Procedury k odhadnutí modelových (očekávaných) četností tedy vycházejí z totožnosti modelových a pozorovaných marginálních distribucí kontingentních tabulek. Toto východisko je součástí tradičního testu chí-kvadrátu, kdy očekávané četnosti odpovídají modelu nezávislosti mezi dvěma proměnnými (poměr šancí OR = 1), přitom všakv marginálních Tabulka A.7 Četnosti saturovaného modelu {TMH} a četnosti modelu {TM MH} pro data tabulky A.5 ■■'ľ;;;/-:.': Model {TM H} Model {TM MH} Typ věkového sňatku ' Sňatkový Věková homogamie 0-2 roky Věková. heteřogamie Sv;r:.:';iivi-3*iét;i;.: Věková homogamie 0-2 roky Věková heteřogamie tradiční 18-29 let 11 4oa 8 166 11 308,967 8 265,033 30+ let 3 191 10 653 3 590,25 10 253,88 netradiční 18-29 let 4 066 3 1« 4 165,033 3 043,967 30í- let 771 663 371,875 1 062,125 distribucích mezi modelem nezávislosti a pozorovanými daty nenajdeme rozdíl. Tabulka A.7 ukazuje četnosti dvou modelů pro data tabulky A5 - saturovaného modelu a modelu, který předpokládá existenci pouze dvou dvojrozměrných interakcí - jednak mezi typem sňatku (T) a sňatkovým věkem muže (jVf) a jednak mezi sňatkovým věkem muže (M) a věkovou homogamií (H). Z hlediska marginálií lze oba modely zapsat následovně: 1) {TMH}; 2} {TM MH}. Součet četností u proměnných TM druhého modelu odpovídá součtu těchto četností u saturovaného modelu a součet četností u proměnných MH u druhého modelu odpovídá součtu stejných četností u saturovaného modelu. U druhého modelu přitom nepředpokládáme existenci interakce TH (poměr šancí OR pro tuto interakci vypočítaný z modelových četností je číslo 1), stejně jako nepředpokládáme existenci trojrozměrné interakce (poměr kombinací poměrů šancí podle variant třetí proměnné odpovídá také číslu 1). A/13 Výpočet modelových četností Principy Iog-lineárního modelování jsou totožné s principy jakéhokoliv jiného statistického modelování hromadných dat. Když v realitě pozorujeme (měříme) data, součástí těchto dat jsou (obvykle) struktury - vazby mezi proměnnými, jež odhalujeme, abychom data mohli interpretovat. Ve statistickém modelování jsou však pouze ve výjimečných případech struktury hledány přímo v pozorovaných datech. Pokud bychom takto postupovali, vystavovali bychom se riziku, že vazeb mezi proměnnými (interakcí) najdeme nekonečně mnoho. Nebyli bychom pak schopni rozlišit, která vazba je pro interpretaci dat ještě zásadní a která už nikoliv. Obvykle se proto postupuje naopak. Navrhne se model, který obsahuje strukturu vazeb mezi proměnnými (model je obvykle reprezentací testo- vané hypotézy). Na základě tohoto modelu vypočítáme modelové četnosti (frekvence) a srovnáváme je s reálnými (pozorovanými) četnostmi. V případě, že odlišnost mezi nimi není statisticky významná, můžeme konstatovat, že navržené (modelové) vazby existují v datech. Pomocí nich pak data interpretujeme. V případě, že odlišnost mezi modelovými a pozorovanými četnostmi je statisticky významná, musíme navrhnout model s jinou strukturou vazeb mezi proměnnými. A opět testujeme, zda se vypočítané četnosti na základě tohoto modelu statisticky významně odlišují od pozorovaných četností.31 Výpočet modelových četností byl dlouhou dobu jedním z velkých problémů log-lineárního modelování, a dokud nebyly nalezeny adekvátní algoritmy, brzdil pokrok v tomto typu analýzy. A/14 Generování modelových četností Začněme příkladem jednoduchého statistického modelu, jímž je model nezávislosti mezi dvěma proměnnými. Na příkladě dat tabulky A.2 bychom testovali hypotézu, že věková homogamie (H) a sňatkový věk muže (JVl) nesouvisejí. Modelovou četnost R v jednotlivých polích kontingenční tabulky vypočítáme jako součin modelové pravděpodobnosti p a celkového počtu respondentů N: F9=Np9 (30) Modelovou pravděpodobnost p neznáme, ale víme, že je výsledkem součinu dvou marginálních modelových pravděpodobností p.+ a p PS=Pi+P*j (31) Marginální modelové pravděpodobnosti vypočítáme jako podíl marginálních pozorovaných četností a celkového počtu případů v tabulce (W či P,.=f,JL> (32) />.;=./V/. (3Í 81 Komparace modelových a pozorovaných četností platí především pro modelování kategorizovaných dat. V technikách vyvinutých pro spojité [kardinální) proměnné se v modelech komparují pozorované a modelové korelace. Tabulka a.b Pozorované četnosti a generované četnosti pro model nezávislosti (kurzívou) pro věkově homogamní a heterogamní sňatky podle sňatkového věku muže v ČR Sňatkový věk muže Věková homogamie : 0^2 roky Věková heterogamie Celkem 18-29 38 322 30 185 68 507 32 689,41 35 817,59 ÚS507 30+ 5 432 17 756 23 188 11 064,59 12 123,41 23 188 Celkem 4 3754 47 941 91 695 Prostou kombinací rovnic 30, 31, 32 a 33 dostaneme rovnici pro výpočet četností modelu nezávislosti, který je také znám jako vzorec pro výpočet očekávaných četností v kontingenční tabulce pro identifikaci velikosti statistiky chí-kvadrát: ■■i./..i/.. (34) Podle tohoto vzorce modelové četnosti v jednotlivých polích kontingenční tabulky určují pouze marginální tabulkové distribuce. Existence vztahu mezi dvěma proměnnými je z rovnice eliminována, jinými slovy řečeno, pomocí tohoto vzorce vypočítáme takové rozložení četností v tabulce, při němž mezi dvěma proměnnými neexistuje vztah. Tabulka A.8 ukazuje pozorované četnosti a četnosti pro model nezávislosti. Pro generování četností složitějších modelů pro vícerozměrné kontingenční tabulky musíme použít speciální algoritmy. Používá se buďarť/oritmus iterativního proporčního sednutí {iterative proportional fitting altgodthm), někdy označovaný také jako Demingův a Stefanův algoritmus pro hierarchické modely nebo Newtonův-Raphsonův algoritmus.33 Oba tyto algoritmy generují odhady maximální věrohodnosti (maximum likdibood estimatcs - MLE) modelových četností. Přitom podobně jako u přímého výpočtu četností modelu nezávislosti, ä u těchto odhadů četností zůstávají marginální tabulkové distribuce totožné s pozorovanými marginálními distribucemi. a/15 Statistická kritéria „sednutí" modelu na data Parametry log-lineárního modelu jsou interpretačně nosné pouze do té míry, do jaké odhadnutý model reprodukuje pozorovaná data. K poznání, který z odhadnutých modelů nejlépe reprodukuje pozorovaná data, se používá několik statistických kritérií. Těmi záldadními jsou Pearsonův test chí-kvadrát (x2) (rovnice 35 pro trojrozměrnou tabulku) a test poměru maximální věrohodnosti (L2) (rovnice 36 pro trojrozměrnou tabulku). V obou těchto testech jsou srovnávány (i když odlišným způsobem) modelové (F) a pozorované (/) četnosti a v obou těchto testech nám jde o to, aby rozdíl mezi těmito četnostmi byl co nejmenší.83 Výsledky obou testů jsou podobné (zvláště při malém počtu případů v datech). Test poměru maximální věrohodnosti (L2) je však před testem Pearsonova chí-kvadrátu (x2) mnoha výzkumníky upřednostňován. ' J K (f : I j-l ÍH (35) 1 ijk i2 = 2IIIV°s /=i j-i i-i F V v* J (36) Hodnoty L2 mají přibližné chí-kvadrát rozdělení s příslušnými stupni volnosti {df). Pro log-Iineární modely platí, že stupně volnosti označují počet vynechaných parametrů, které jsou nezbytné k identifikaci saturovaného modelu. Čím více parametrů z modelu vynecháme, tím více stupňů volnosti model má a tím je také úspornější. Když srovnáme hodnotu L1 a počet stupňů volnosti, platí, že model data reprodukuje odpovídajícím způsobem, pokud jsou tyto hodnoty rovny nebo se liší jen nepatrně. Čím více jsou tyto hodnoty odlišné, tím více modelové četnosti nekorespondují s pozorovanými četnostmi. Na tuto skutečnost poukazuje statistická významnost u L2, která odpovídá na otázku, zda se modelová data statisticky významně odlišují od dat pozorovaných.84 V případě, že tomu tak není, model (navržené vazby mezi proměnnými) můžeme přijmout a data na jeho základě interpretovat. V případě, že se model sta ti sticky významně odlišuje, musíme jej zamítnout a hledat jiný model (jiné vztahy mezi proměnnými). 82 K popisu obou algoritmů viz Bishop, Fienberg, Holland (1975), Haberman (1978, 1979), Fienberg (1980). 83 U poměru maximální věrohodnosti (Ľ9 se jedná o nepodmíněný test, protože srovnáváme statistiku Ľ se saturovaným modelem (í.2 = 0). 84 V jakých polích kontingenční tabulky model neadekvátně reprodukuje data, ukazují rezidua (rozdíly mezi pozorovanými a modelovými četnostmi). Jejich standardizovaná podoba (pro účely srovnání) je počítána podle vzorce: /ř,. = (/— f)l~Jf. V případě, že model data reprodukuje adekvátně, jsou rezidua v podobné míře kladná i záporná, mají přibližně stejnou velikost, a to napříč všemi poli kontingenční tabulky. a/16 Komparace různých modelů pro stejná data a informační kritéria V analýze dat jso,u rozšířené testy statistické významnosti koeficientů a statistické významnosti modelů. V případě koeficientů pomocí testu zkoumáme, zda se daný koeficient liší od nuly natolik, že to nemůže být náhoda, a proto jej očekáváme i v základní populaci (ovšem s určitou pravděpodobností). V případě statistických modelů provádíme obvykle dva testy statistické významnosti. Buď zkoumáme, nakolik struktura (námi navržených) modelových vztahů odpovídá (zase s určitou pravděpodobností) struktuře pozorovaných dat (test chí-kvadrát a test poměru maximální věrohodnosti), nebo zkoumáme, jestli se struktura složitějšího modelu liší od struktury jednoduššího („vsazeného do složitějšího") modelu (s ohledem na stupně volnosti) natolik, že proměnná, litera v (jednodušším) modelu chybí, je pro interpretaci dat nezbytná.85 Přitom musíme mít na paměti, že se jedná o testy statistické, nikoliv reálné odlišnosti. Jedná se o nalezení hranice, kdy jsou dva statistické modely natolik různé, že můžeme z hlediska interpretace jeden považovat za významnější než jiný. Testy se používají obvykle tehdy, kdy více modelů u s pokoj ivě reprodukuj e data. Rovnice 37 a 38 ukazují princip tohoto testu. Poměr maximální věrohodnosti u jednoduššího modelu (o - omezený model) je srovnáván s poměrem maximální věrohodnosti u složitějšího modelu (n - neomezený model). Výsledkem je podmíněný poměr maximální věrohodnosti £;;,„, který s ohledem na rozdíl v počtech stupňů volnosti (počet parametrů, jimiž se modely liší) odpovídá na otázku, zda nepřítomnost parametrů v omezeném modelu je statisticky významná - tedy zda se omezený model statisticky významně odlišuje od modelu neomezeného.66 V případě, že nikoliv, přijmeme jednoduší model a konstatujeme, že přítomnost parametrů, které v omezeném modelu chybějí, není pro interpretaci dat nezbytná (úspornější model není statisticky horší než model složitější). V případě, že statistickou významnost odlišnosti mezi modely nalezneme, chybějící parametry v jednodušším modelu musíme považovat za statisticky významné a pro interpretaci dat nezbytné (úspornější model je statisticky horší než model složitější). 85 Máme například tři modeiy, z nichž model 3 je saturovaný model pro dvojrozměrnou tabulku, model 2 je modelem nezávislostí proměnných pro stejnou tabulku (dvojrozměrný parametr v něm chybí) a model 1 obsahuje pouze parametr pro proměnnou v řádku tabulky. Model 2 je ve srovnání s modelem 3 omezený a říkáme, že je v něm z hlediska hierarchie parametrů „vsazen", model 1 je zase omezený ve srovnání s modelem 2 a je v něm také z hlediska hierarchie parametrů „vsazen". 86 Jedná se o podmíněný test, jelikož srovnáme statistiky L!u dvou nesattirovaných modelů. L'„\n = K ~ K (37) C, =dfn~df„ (3b) Jiný a v současnosti velmi rozšířený přístup k výběru modelu je založen na informačních kritériích. Tato kritéria (BIC, AIC) odkazují ke zkoumané realitě. V případě koeficientu identifikují míru informace, literou o realitě daný koeficient přináší. V případě statistického modelu odkazují k velikostí informace, kterou daný model o zkoumané realitě poskytuje (Raftery 1986, 1995). Čím „bohatší" informaci model poskytuje, tím je také pro interpretaci výsledků vhodnější. Rovnice pro výpočet statisticky BIC a AIC pro log-lineární m oděly j sou následující: BIC = L2 -log Ndf (39) AlC = L2-2df (40) V reálných aplikacích se obvykle bere zřetel jak na testy významnosti, tak na informační kritéria. V případě statistických modelů se hledá model, který se statisticky významně neliší od dat a má zápornou hodnotu informačních kritérií. V případě velkých vzorků však testy statistické významnosti selhávají, protože nelze najít model, který není svou strukturou statisticky nevýznamně odlišný od struktury pozorovaných dat. V takových případech se při výběru modelu spoléháme na informační kritéria. Data interpretujeme na základě modelu, který má nejnižší hodnotu informačních kritérií a o takovém modelu hovoříme jako o modelu, který nám o zkoumané realitě přináší nejvíce informací. V případě, že je statistika BIC pro všechny modely kladné číslo, nezbývá nám než pro data přijmout saturovaný model a konstatovat, že úspornější model se nepodařilo nalézt (srov. Powers, Xie 2000). a/17 Asociativní modely Parametry log-lineárních modelů mohou být omezené více způsoby, než že jsou pouze vynechány (jejich hodnota je 0 v aditivní rovnici nebo 1 v multiplikativní rovnici). Mohou být specifikovány jednak tak, že se jejich hodnoty rovnají, nebo tak, že jeden parametr odpovídá násobiču jiného parametru. Pokud jsou varianty proměnné ordinální (lze je seřadit), máme o proměnné navíc informaci, kterou postrádáme, pokud se jedná o nominální proměnnou (její varianty lze pouze pojmenovat). V takovém případě můžeme předpokládat, že vzdálenosti mezi variantami ordinální proměnné jsou ekvidistantní. PfiradĹme-Ii těmto variantám číselné hodnoty, aby vzdálenost mezi nimi byla stejná,87 vztah mezi nimi můžeme modelovat pomocí jednoho parametru. S lineární specifikací parametrů pracují asociativní log-lineární modely (Goodman 197S;*Clogg, Shihadeh 1994). V případě, že nás zajímá vztah mezi dvěma ordinálními proměnnými, lze tento vztah modelovat lineárně pomocí jednoho parametru (jedná se o model lineární interakce). Tento model se také někdy nazývá jako model uniformní asociace (unidiff model či U-mo-del), protože asociace mezi jednotlivými variantami proměnných je modelována na základě jednoho parametru (j3), a nikoliv pomocí sady (M) a (/-l) nezávislých parametrů (t nebo X). Parametr ((3) je lineární pro skóry variant řádkové proměnné v jednotlivých variantách sloupcové proměnné a lineární pro skóry variant sloupcové proměnné v jednotlivých variantách řádkové proměnné. Specifikace takového modelu pro tabulku 5 = 5 mohou vypadat následovně: -2 ■ -1 . 0 1 . 2 -2 4B 2p Op -2p -4p 1 -1 2B 1(3 Op -13 -2p 2 0 00 op op Op Op 3 1 -2p -1p Op 1p 2p 4 2 -4p -2p Op 2p 4p 5 1 2 3 4 5 1P 2j3 3p 4p 5p 2p 4p óp 8p 10p 3p 6p 9p 12p 15p 4p 8p 12{3 16p 20p 5p 10p 15p 20p 25(3 Předpokládejme, že máme dvě ordinální proměnné: H a M. Saturovaný log-lineární model pro četnosti těchto dvou proměnných má následující podobu: 04-i" (41) Nahradíme-li dvojrozměrnou interakci parametrem ij)3, kde i a j označují číselné hodnoty variant řádkové a sloupcové proměnné, dostaneme rovnici modelu uniformní asociace: ŕij =1lt, T/ e (42) Asociaci v kontingenční tabulce charakterizuje pouze jeden parametr [3, jehož velikost je pro jednotlivé kombinace řádků a sloupců uniformní (stejná) 87 jednotlivé statistické programy přiřazují variantám proměnných jiné hodnoty, což je nezbytné brát v potaz při výpočtu modelových četností na základě odhadnutých parametrů. Například v LEMu jsou hodnoty pro lichý počet pěti variant specifikovány jako -2-1 0 7 2, pra sudý počet šesti variant jako -2,5 -1,5 -0,5 0,5 1,5 2,5. Ať použijeme tuto nebo odlišnou specifikaci (pro lichý počet například 1 2 3 4 5, pro sudý počet 1 2 3 4 5 6), velikost odhadnutých parametrů se nemění. a hodnoty všech nezbytných poměrů šancí jsou totožné (OR = exp[3, nebo OR vypočítáme z modelových četností). U proměnných v řádcích a sloupcích kontingenční tabulky můžeme také linearitu předpokládat jednotlivě. V případě, že takto specifikujeme pouze sloupcovou proměnnou, pro řádkovou proměnnou předpokládáme nominální kategorie, dostaneme řádkovou strukturu asociace. Hovoříme pak o modelu řádkové asociace - R model (z anglického Row mode/). To znamená, že pro každý řádek máme sadu parametrů (ui - tzv. řádkové skóry), liteře ukazují lineární vztahy mezi jednotlivými variantami řádkové proměnné a skóry sloupcové proměnné. V případě, že specifikujeme lineárně řádky tabulky a pro sloupce předpokládáme nominální kategorie, platí totéž, ale pro řádky a sloupce převráceně, jedná se o model sloupcové asociace - C model (z anglického Cb/umn modeO- V takovém případě interpretujeme parametry mezi jednotlivými variantami sloupcové proměnné a skóry řádkové proměnné. V případě, že předpokládáme linearitu u řádkové i sloupcové proměnné dohromady, dostaneme model řádkové a sloupcové asociace (R + C model, někdy také jako model RC i). Předpokladem tohoto modelu je ordinalita variant proměnných a jejich uspořádání před odhadem modelu (změníme-li uspořádání kategorií, změníme také hodnoty odhadnutých parametrů). Pro varianty obou proměnných dostaneme sadu rozdílných parametrů (uf a u.). Odhadované parametry lze následně omezit tak, aby byly odhadnuty jako totožné pro obě proměnné, což je úspornější řešení. Model řádkové asociace je zapsán v rovnici 43, mode! sloupcové asociace v rovnici 44 a model řádkové a sloupcové asociace ukazuje rovnice 45. (43) (44) (45) Log-multiplikativní asociativní model, navržený Leo Goodmanem (1978) nebo Cliffordem Cloggem (1982), se od předchozích asociativních modelů (Lí, R, C a R+C) liší v tom, že skóry pro řádky nebo sloupce tabulky či řádky a sloupce tabulky dohromady nejsou číselně specifikovány před odhadem modelu, ale jejich hodnoty jsou odhadnuty. To znamená, že vzdálenosti mezi uspořádanými kategoriemi nejsou předpokladem, ale výsledkem modelu. Tento model používáme tehdy, nejsme-li si jisti, že uspořádání kategorií proměnných je správné, nebo tehdy, když je naším cílem identifikace vzdáleností mezi kategoriemi proměnných. Jediným předpoldadem tohoto modelu je ordinalita kategorií proměnných. Skóry pro řádky a sloupce tabulky jsou neznámé parametry p.ap.a jsou odhadovány dohromady s parametrem p, litery indikuje tabulkovou asociaci. Z tohoto důvodu se tento model nazývá log-multiplikativní (neboli RC model, někdy také model RCII). Rovnice pro tento model je následující: Fy =Tjxř Xj e q. =B + A.. +A.y +\x,yft (46) A/1B Model log-multiplikativního mezitabulkového efektu O více než desetiletí později Y. Xie (1992) nebo R. Erikson a J. H. Goldthorpe (1992) rozšířili log-multiplikativní princip na mezitabulkovou asociaci (trojrozměrná a vyšší interakce). Nezávisle na sobě navrhují model, v němž jsou odhadnuty parametry pro dvojrozměrnou (tabulkovou) asociaci, přitom je ale pro každou variantu třetí proměnné odhadnuta také multiplikativní odchylka od této dvojrozměrné asociace. Z hlediska interpretace tato odchylka ukazuje, jak se mění dvojrozměrná asociace podle variant třetí proměnné. Předpokládejme, že modelujeme vztah mezi věkovou homogamií (H) a sňatkovým věkem muže (M) v jednotlivých letech (R). Log-Iineární (aditivní) rovnice pro saturovaný model vypadá následovně: Gijt = d+ki +kj +kt +Xki +kkj +^,y +kijt (47) Chceme-li odhadnout model log-multiplikativního mezitabulkového efektu pro tato data, musíme součet parametrů k"M + k""R v této rovnici nahradit součinem parametrů y fy. Parametr ^ukazuje asociaci mezi jednotlivými variantami věkové homogamie a sňatkového věku muže (bez ohledu na roky), parametr c ukazuje velikost změny asociace pro jednotlivé roky. Log-lineární rovnice takového modelu je pak následující: G,,k =V+kt +k} +kk +Xti +\ +\j +\\lfy (49) Pomoci tohoto modelu dokážeme identifikovat jak změny ve struktuře asociace (poměrech šancí), tak velikost změny asociace v jednotlivých variantách třetí proměnné. Jedná se zatím o poslední a velmi významný posun na poli log-lineárních modelů. Za jistou nevýhodu tohoto modelu lze považovat to, že zatím nebyl uspokojivě aplikován na data, která obsahují více než tři rozměry (na čtyřrozměrné a vícerozměrné tabulky). a/19 Podoba dat pro log-lineární analýzu Data pro statistickou analýzu mají bud individuální, nebo agregovanou podobu. V případě, že pracujeme s individuálními daty, analyzujeme matici, v níž je (v jednotlivých polích) zapsaná pozorovaná (měřená) varianta proměnné (bývá obvykle ve sloupcích matice) pro jednotlivé případy (obvykle bývají v řádcích matice). V log-lineární analýze s tímto typem dat nepracujeme. Pokud bychom měli individuální data a chtěli bychom je analyzovat pomocí log-lineárních modelů, bylo by nezbytné je převést na data agregovaná.BE 88 Jiným řešením je použít logistickou regresi, kterou lze aplikovat jak na individuální, tak agregovaná data, přičemž hodnoty koeficientů logicových a log-lineárních modelů, které se neliší svou strukturou a jsou aplikovány na stejná data, jsou totožné. Tabulka A.9 Data z tabulky A.1 ve formě četnostních záznamů pro kombinace variant analyzovaných proměnných Typ věkového Sňatkový .Věková hoňiogamle Rolcy sňatku : věk muže a heterogamie Četnost 1 1 1 1 18 554 1 1 1 2 11 728 1 1 1 3 4 655 1 1 2 1 1 109 1 1 2 2 1 580 1 1 2 3 4 469 1 2 1 1 4 294 1 2 1 2 1 666 1 2 1 3 846 1 2 2 1 361 1 2 2 2 276 1 2 2 3 115 2 1 1 1 11 40B 2 1 1 2 6 347 2 1 1 3 1 819 2 1 2 1 3 191 2 1 2 2 4 574 2 1 2 3 6 079 2 2 1 1 4 066 2 2 1 2 2 106 2 2 1 3 1 018 2 2 2 1 771 2 2 2 2 516 2 2 2 3 147 stejným způsobem jako data individuální, pouze kombinacím jednotlivých proměnných přiřadíme (jim odpovídající) četnosti jako váhy. V log-lineárním modelování pracujeme buď s tímto zápisem dat, nebo s daty v podobě kontingenční tabulky (věcně se jedná o jedno a totéž). Agregovaná data lze jednoduše převést na individuální tak, že do každého řádku matice (v němž předpokládáme případy) vepíšeme odpovídající počty kombinací jednotlivých variant proměnných. V našem případě víme, že kombinace variant 1111 se vyskytuje 18 554 (tabulka A.9). Je nezbytné tedy vepsat 18 554 řádků s hodnotou 1 u každé proměnné. Podobně pak zapíšeme počet řádků daných četnostmi pro všechny zbylé kombinace variant proměnných. Celkový počet řádků v matici pak odpovídá celkovému počtu případů v kontingenční tabulce. V případě tabulky A.9 by to bylo 91 695. Agregovaná data, prezentovaná obvykle ve formě kontingenčních tabulek, ukazují počet opakujících se pozorování pro jednotlivé kombinace variant proměnných. V tomto případě se nejedná o nic jiného než o přepis (jakkoliv mnohorozměrné) kontingenční tabulky podle variant jednotlivých proměnných do řádků a sloupců matice. V tabulce A.l máme agregovaná data, která ukazují počet věkově homo-gamních a heterogamních sňatků podle sňatkového věku muže a typu věkového sňatku v letech 1994 a 2004 v České republice. Tato data můžeme zapsat také v podobě četností pro jednotlivé kombinace tabulkových proměnných. Tabulka A.9 ukazuje tento zápis (názvy variant jednotlivých proměnných jsou nahrazeny čísly). Jedná se o vymezení všech možných případů z hlediska variant jednotlivých proměnných. Každá četnost ukazuje, kolikrát se daná kombinace variant v datech vyskytuje. Tato data analyzujeme naprosto