SOC108/708 LEKCE 7: ZÁKLADY BIVARIAČNÍ ANALÝZY: ROZLOŽENÍ DAT V KONTINGENČNÍ TABULCE (c) Petr Mareš a Ladislav Rabušic 2002 LEKCE08 PŘÍKLAD Základy bivariační analýzy (kontingenční tabulka, asociace mezi kategorizovanými znaky) Až dosud jsme se převážně zabývali analýzami, které byly založeny na srovnávání průměrů a rozptylů, tedy úlohami, kdy jedna z proměnných byla intervalové (kardinální) povahy. V sociologické analýze ovšem velmi často hledáme vztahy mezi proměnnými, u nichž nemá smysl průměry počítat. Buď z toho důvodu, že se jedná o znaky nominální (např. národnost respondenta) nebo proto, že proměnná je ordinální s malým počtem variant (např. proměnná typ lokality: 1. venkov, 2. město, 3. velkoměsto nebo např. příjmové kategorie) nebo že jde o proměnné dichotomické. V bivariační analýze hledáme vztahy mezi dvěma proměnnými. Co to znamená? Nic jiného, než že se ptáme, do jaké míry jedna proměnná ovlivňuje druhou proměnnou. Např. při hledání vztahu mezi pohlavím respondenta a tím, zdali respondent preferuje hodnotu svobody či rovnosti se ptáme, zdali se muži a ženy budou lišit v názoru na to, je-li důležitější svoboda, nebo rovnost. A co znamená, že jedna proměnná ovlivňuje druhou? Mezi proměnnými existuje vztah, pokud rozložení (distribuce) hodnot jedné proměnné je asociováno (spojeno) s rozložením hodnot druhé proměnné. Řečeno jinak: hodnoty jedné proměnné jsou rozloženy (distribuovány) takovým způsobem, že nejsou rozloženy náhodně, ale jsou vzorovány v závislosti na rozložení hodnot druhé proměnné. Této situaci také říkáme, že mezi dvěma proměnnými existuje asociace. Procedura, která nám pomůže otázky tohoto typu odpovědět, se nazývá třídění druhého stupně (třídíme totiž rozložení variant znaku jedné proměnné podle rozložení variant znaku druhé proměnné), v jazyce SPSS pak křížová tabulace (crosstabulation). P8.1: Na základě údajů v datovém souboru EVS_ČR1999.sav zjistěme, jak se liší názor na to, zdali je možné lidem důvěřovat (q8) v závislosti na věkových kategoriích (vek_kat1). Platí náš předpoklad, že s rostoucím věkem narůstá nedůvěra vůči lidem? Procedura: ANALYZE -- DESCRIPTIVE STATISTICS CROSSTABS -- ROWS (vek_kat1) -- COLUMNS (q8) Tab. 8.1: Z tabulky 8.1 vyčteme, že např. 87 respondentů ve věku 18--29 let si myslelo, že lidem je možné důvěřovat. Ve věkové skupině 50+ zastávalo tento názor 199 respondentů. I když by se zdálo, že starší respondenti tento názor zastávali častěji než respondenti mladší, nemůžeme z těchto údajů takovýto závěr učinit. Srovnáváme zde totiž nesrovnatelné. Jak je vidět v celkových součtech (řádky a sloupce označené slovy Total), počty osob v jednotlivých kategoriích jsou různé a to znemožňuje srovnání. Abychom mohli naši úlohu vyřešit, musíme jednotlivé kategorie vyrovnat. Vyrovnat kategorie samozřejmě neznamená, že budeme nějak manipulovat s daty. Vyrovnání jednotlivých počtů provedeme tak, že necháme pro jednotlivá políčka tabulky vypočítat příslušná procenta a místo absolutních četností budeme srovnávat relativní četnosti, procenta. Pravidlo 1: Při proceduře Crosstabs nemá smysl pracovat s absolutními četnostmi (count). Musíme je doplnit o výpočet příslušných procent Před tím ale, než příslušný výpočet zadáme, musíme rozhodnout, jaká procenta budeme počítat. Máme totiž tři možnosti: tzv. řádková, sloupcová a celková. Řádková procenta (Row %) se počítají tak, že absolutní četnost v políčku tabulky se dělí příslušným celkovým počtem případů v kategorii. Ten nalezneme ve sloupci Total. Tak např. řádkové procento pro 199 respondentů ze skupiny 50+let, kteří si myslí, že lidem je možné důvěřovat, je 199/784) * 100 = 25,4 %. Tento údaj čteme následovně: z respondentů ve věku 50 let a starším si 25 % myslí, že lidem se dá důvěřovat. Naopak 75 % (585 / 784 nebo v tomto případě i 100--25) je přesvědčeno, že člověk musí být ve styku s ostatními lidmi velmi opatrný. Sloupcová procenta (Column %) se počítají analogicky, jen s tím rozdílem, že absolutní četnost v políčku se dělí příslušným celkovým počtem případů v kategorii, kterou ovšem nyní nalezneme v řádku označeném Total. Sloupcové procento pro 199 respondentů ve věku 50+ let, kteří si myslí, že lidem lze důvěřovat, je 44,8 % (199/444) * 100 = 44,8 %). Čteme: Ze všech respondentů, kteří si myslí, že lidem je možné důvěřovat, bylo 45 % ve věku 50 více let. Celková procenta (Total %) pak získáme tak, že absolutní četnost v políčku dělíme celkovým počtem případů v souboru. Ten je uveden v křížovém součtu celkových počtů sloupců a řádků. Našich 199 respondentů ve věku 50 a více let, kteří si myslí, že lze důvěřovat, tedy tvoří: (199 / 1864) * 100 = 10,7 %. Čteme: ze všech respondentů našeho souboru bylo 11% těch, kdo měli 50 a více let a kdo jsou současně přesvědčeni, že lidem lze důvěřovat. Vidíme tedy, že počet 199 respondentů jednou znamenal 25 %, podruhé 45 % a potřetí 11 %. Jelikož ve vědě jako v každé jiné činnosti platí také princip efektivity, tedy snaha dosahovat maximálních výsledků s minimálními vstupy, v analýze počítáme jen ta procenta, která jsou pro příslušnou úlohu adekvátní. V analýze dat proto necháme SPSS vypočítat jen ten druh procenta, který je pro řešení úlohy podstatný. Podstatně si tím i zjednodušíme náš analytický život. Jen posuďte, jak by vypadala tabulka, do níž byste nechali vypočítat všechna procenta (viz tab. 8.2) Jak vybereme ta procenta, která jsou pro řešení úlohy podstatná? Lehce. Jediné, co musíme učinit, je rozhodnout, která proměnná je nezávislá -- tedy ta, o níž předpokládáme, že je příčinou, která ovlivňuje rozložení druhé (závisle) proměnné. V naší úloze je nezávisle proměnnou věk (věkové skupiny), neboť lze předpokládat, že postoj k jiným lidem z hlediska důvěry či nedůvěry bude ovlivňován právě věkem respondenta. Předpokládáme, že s narůstajícím věkem bude slábnout důvěra v ostatní lidi. Víme-li, že naše nezávisle proměnná je umístěna v řádcích tabulky, necháme vypočítat řádková procenta. Tím dosáhneme toho, že všechny počty v kategoriích nezávisle proměnné vyrovnáme ("položíme je za sto", jak říkají statistikové), což umožní smysluplné srovnání. O umístění proměnných do řádků či sloupců rozhodujeme sami v dialogovém okně. Tab. 8.2 Podívejme se tedy, jak by měla vypadat tabulka, s jejíž pomocí odpovíme na naši otázku (viz tab. 8.3). Tab. 8.3 Tabulka 8.3 by tedy podle těchto zásad musel být pro případnou publikaci upravena takto: Tabulka X: Důvěra k lidem podle věku (v %) Věkové kategorie Důvěra k lidem 18-29 30-49 50+ Lidem je možné důvěřovat 21 24 25 Člověk musí být ve styku 79 76 75 s ostatními lidmi opatrný Celkem 100 % 100 % 100 % (414) (666) (784) Pramen: EVS ČR 1999 Vidíme, že z celkového počtu respondentů na tuto otázku neodpovědělo 44 dotázaných. Do kontingenční tabulky jsou vždycky zahrnuti pouze ti, kdo mají údaje u obou proměnných -- celkem jich bylo 1 864 (97,7 %). Výsledek třídění je poněkud překvapující. S narůstajícím věkem poněkud narůstá podíl osob, kteří si myslí, že lidem lze důvěřovat (a naopak klesá podíl těch, kdo si myslí, že člověk musí být ve styku s ostatními lidmi velmi opatrný). Rozdíly však nejsou nijak velké: 21 % : 24 % : 25 %, což ilustruje i graf 8.1. Rozdíly mezi procenty v políčkách se nazývají epsilon (a značí se řeckým písmem ĺ). Hodnota epsilon pro respondenty ve věku 50+ a 18-29 je 25,4-21,0 = 4,4 %. Obr. 8.1: Důvěra k lidem podle věkových kategorií Pozn. Tento graf vznikl jako Bar graf s tím, že při jeho editaci kliknete myší na tlačítko Chart, pak na Options a v nich kliknutím zaškrtne Change scale to 100 %. Jiný způsob je, že při zadávání třídění si v proceduře Crosstabs zakliknete požadavek Display clustered bar charts. Obrázek potom editujete stejně jako v předchozím postupu přes Options atd. (viz výše). Jelikož v analýze dat zhruba platí pravidlo, že teprve rozdíl (epsilon), který se blíží 10 %, indikuje analyticky podstatný rozdíl (to je takový, který nevznikl náhodou), vyslovujeme závěr, že v otázce důvěry k lidem se čeští respondenti nelišili v závislosti na jejich věku. Zamítáme ovšem naši výzkumnou hypotézu, že s narůstajícím věkem bude také narůstat nedůvěra v ostatní lidi. Tento příklad je dobrou ukázkou toho, že i "nula" ve vědě je důležitým poznatkem. My jsme zjistili, že mezi věkovými skupinami není v zásadě rozdíl v postoji k důvěře v ostatní. Tento nulový rozdíl (tato zjištěná "nula") v sobě ovšem obsahuje podstatný fakt a nový poznatek. Na základě tohoto výsledku jsme si totiž museli opravit naši domněnku, že starší lidé budou vůči ostatním lidem nedůvěřivější než ti mladší. Pravidlo 3: I nula (nulový rozdíl, nulový výsledek) znamená ve vědě podstatný poznatek. * * * V našem příkladě jsme hledali vztah mezi kategorizovaným věkem a postojem k jiným lidem z hlediska důvěry. Tuto úlohu jsme mohli řešit i jinak. Jelikož naše data obsahují údaje o věku v jeho nekategorizované podobě (proměnná vek), lze srovnat, zdali se liší průměrný věk osob u lidí, kteří si myslí, že lidem lze důvěřovat, a u lidí, kteří se domnívají, že ve styku s jinými lidmi musí být člověk opatrný. Jelikož zde máme pouze dvě kategorie, musíme použít t testu. Výsledek: Rozdíl v průměrném věku není příliš velký, neboť věkový průměr je v obou kategoriích podobný. Proto také, jak ukazuje následující výstup, je rozdíl statisticky nevýznamný, jenž nám velí podržet nulovou hypotézu o tom, že věkový rozdíl nebude statisticky signifikantní. Jinou úlohou jsme dospěli ke stejnému výsledku, takže si můžeme být dost jisti, že mezi věkem (ať v jeho hrubé kategorizaci do tří skupin respondentů mladšího, středního a staršího věku, nebo v jeho "přirozené", nekategorizované podobě) a názorem na důvěru k lidem není souvislost. * * * Pouhé třídění dvou proměnných a výpočet příslušných procent, byť se jedná o velmi mocnou analytickou proceduru, nestačí k tomu, abychom hledanému vztahu mezi dvěma proměnnými dobře rozuměli. Odhalíme-li totiž, že mezi sledovanými proměnnými je vztah, musíme se dále zajímat o to, zdali jednak tento vztah vydrží i test nezávislosti, jednak jakou má tento vztah sílu. Test nezávislosti chí-kvadrát (2) P8.2: Hledejme v datech EVS_ČR1999.sav odpověď na otázku, zdali je důvěra v lidi ovlivněna vzděláním respondentů. Naše výzkumná hypotéza bude znít, že se zvyšujícím se vzděláním bude narůstat podíl těch, kteří si myslí, že lidem je možné důvěřovat a že tento vztah statisticky významný. Řešení: Obr. 8.2, jakož i tabulka 8.4 ukazují, že mezi jednotlivými vzdělanostními kategoriemi existují rozdíly v názorech na důvěru k jiným lidem, přičemž lidé se středoškolským a vysokoškolským vzděláním mají tendenci více důvěřovat ostatním, než lidé se vzděláním základním a vyučen. Nás samozřejmě zajímá, zdali tento rozdíl nebyl způsoben náhodou, to je výběrovou chybou, anebo zda máme dostatek evidence k tomu, abychom mohli zamítnout nulovou hypotézu, že v základním souboru bude tento podíl souhlasících mužů a žen stejný. Test provedeme na základě výpočtu statistiky chí-kvadrát 2 (chi-square). Ten je založen na srovnání empirických a očekávaných četnostech. Empirická četnost (observed count) pozorovaná hodnota v políčku tabulky Očekávaná četnost (expected count) četnost, která by se v políčku objevila, kdyby platila nulová hypotéza Tab. 8.4: Podívejme se nyní do výstupu 8. 4. Vidíme, že v prvním políčku máme respondenty se základním vzděláním, kteří si myslí, že lidem je možné důvěřovat. Bylo jich celkem 71, což je empirická četnost. Očekávaná četnost pro toto políčko se vypočítá velmi snadno: násobíme marginální četnost příslušného sloupce a marginální četnost příslušného řádku a tento součin podělíme celkovým součtem případů v tabulce. Konkrétně tedy: 363 (celkový počet případů v řádku tohoto políčka) * 445 (celkový počet případů ve sloupci tohoto políčka) / 1866 (celkový počet případů v tabulce) = 86,6. Toto je nižší hodnota než ta, kterou jsme my zjistili empiricky, tedy v našem výzkumu. Tento rozdíl nás však ještě neopravňuje k žádnému závěru. Musíme provést další početní operace, to je vypočítat tímto způsobem očekávané četnosti pro všechna pole tabulky. V každém poli tabulky pak musíme vypočítat rozdíl mezi empirickou a očekávanou četností, ten umocnit, podělit hodnotou očekávané četnosti a jednotlivé výsledky sečíst. Tím získáme hodnotu chí-kvadrát. Tu pak jako při každém testování nulové hypotézy porovnáme s matematickým modelem rozložení, v tomto případě s modelem chí-kvadrát a zjistíme statistickou významnost. Všechny tyto operace za nás samozřejmě provede SPSS a pokud bychom chtěli, můžeme tento výpočet kontrolovat. V crosstabsu si totiž můžeme navolit všechny požadované informace tak, že v dialogovém okně Cells zaškrtneme v boxu Counts také políčko Expected a v boxu Residuals políčko Unstandardized. Dostaneme tento výstup (viz tab. 8.5) Tab. 8. 5: Očekávané četnosti a rezidua v proceduře Crosstabs Řádek Residual udává numerický rozdíl mezi empirickou (Count) a očekávanou (Expected Count) četností. Má-li znaménko +, znamená to, že empirická četnost je vyšší, než bychom očekávali, kdyby platila nulová hypotéza, záporné znaménko vyjadřuje pravý opak, tedy že empirická četnost je nižší, než jaká by měla být, kdyby platila nulová hypotéza. V rutinní analytické praxi informace tohoto druhu nepotřebujeme, a proto takto detailní tabulku nevyžadujeme. Test chí-kvadrát pro naši úlohu zadáme následovně: ANALYZE -- DESRIPTIVE STATISTICS CROSSTABS v dialogovém okně klikneme na lištu Statistics a v objevivším se novém dialogovém oknu zaškrtneme políčko Chi-square Výsledkem je tato tabulka (tab. 8.6): Tab. 8.6: Hodnota Pearsonova chí-kvadrátu je 46,479 a její dvoustranná hladina významnosti 0,000. Musíme proto zamítnout nulovou hypotézu o nezávislosti vztahu mezi vzděláním a názorem na důvěru v ostatní lidi a očekáváme, že i v základním souboru se lidé budou ve své důvěře v ostatní odlišovat v závislosti na tom, jakého vzdělání dosáhli. Další údaje v tabulce 8.6 nejsou v dané situaci zajímavé1. Pozornost ale bychom vždy měli věnovat poznámce pod tabulkou. Pokud totiž data poruší jeden z důležitých předpokladů chí- kvadrátu, totiž, že ne více než 20 % políček má očekávanou četnost menší než 5 a že minimální očekávaná četnost nesmí být menší než 1, je použití chí-kvadrátu (a koeficientů asociace, které jsou na něm založeny, jak uvidíme později) nekorektní. V případě, že dojde k porušení těchto předpokladů, v poznámce pod tabulkou se objeví varování. Test chí-kvadrát je možno také chápat také jako test nezávislosti, kdy testujeme, zdali jedna proměnná závisí na druhé. Můžeme např. testovat hypotézu, zdali existuje nějaká souvislost mezi rodinným stavem respondenta a volebními preferencemi. Je to opět úloha na Crosstabs, ale v jejím rámci si ukážeme, jak je možné v rutinní analytické práci postupovat. Test chí-kvadrát v tabulce 8.7 (proměnná q89 "rodinný stav" byla rekódována, neboť obsahovala kategorii "odloučeni", v níž bylo pouze 7 osob -- tak málo obsazená kategorie způsobuje při třídění potíže, proto jsme ji sloučili s obsahově blízkou kategorií "rozveden/a")2 říká, že nemůžeme přijmout hypotéze nezávislosti těchto dvou proměnných. To ale znamená, že volební preference byly rodinným stavem respondenta nějakým způsobem ovlivněny -- vidíme např., že podporu komunistům vyjadřovali především vdovci a vdovy (24 %), naopak svobodní a svobodné by je téměř nevolili (4 %).3 Výsledky třídění v tab. 8.7 lze ale ještě dále specifikovat. Poslouží nám k tomu údaje tzv. adjustovaného reziduálu (Adjusted Residual), který jsme si nechali do tabulky 8.7 vypočítat. Tab. 8.7b: Volební preference podle rodinného stavu respondenta a test chí-kvadrát Adjustovaný reziduál je založen na rozdílu mezi empirickou a očekávanou četností (jak jsme si ukázali v tab. 8.5). řečeno jazykem statistiky, je to rozdíl mezi frekvencí očekávanou (fo) a frekvencí empirickou (fe). Tomuto rozdílu se říká delta a značí se odpovídajícím řeckým písmenem (Ä). V adjustovaném reziduálu je pak tento rozdíl testován z hlediska statistické významnosti, přičemž platí, že pokud je jeho hodnota vyšší než 2,00, můžeme si být s 95% pravděpodobností jisti, že v daném políčku je rozdíl mezi empirickou a očekávanou četností významný a že tedy nevznikl náhodou. Interpretačně má tato informace obrovský význam, neboť nám umožňuje detailní vhled do vztahu mezi proměnnými. Tak např. vidíme, že v řádku těch, kdo preferují KSČM, máme dva statisticky významné adjustované reziduály (pro lepší orientaci jsou zvýrazněny). U vdovců/vdov je hodnota reziduálu 5,2. To znamená, že vdovci a vdovy by volili komunisty významně častěji, než by odpovídalo předpokladu nezávislosti. Naopak svobodní respondenti by komunisty volili mnohem méně častěji (Adj. res. = -3,8), než by odpovídalo hypotéze nezávislosti. Statisticky významně častěji by svobodní volili Unii svobody. Tento statistický vhled do dat nám pomáhá detailněji prozkoumat, do jaké míry je možné výsledky třídění (frekvenci určitého políčka tabulky) očekávat i v základním souboru. V této kapitole jsme si ukázali, jak hledat asociaci mezi proměnnými. Na závěr si připomeňme, co o asociaci říkají Loether a McTavish (1988), jejichž text máte ve vaší čítance ke kursu (viz kapitolu 8). Při zkoumání bivariační asociace bychom měli hledat čtyři následující charakteristiky: 1. Zdali asociace existuje, či nikoliv, 2. jak je asociace silná (těsná) -- to je do jaké rozložení variant jedné proměnné určují rozložení variant druhé proměnné, 3. jaký má asociace směr -- to je, zdali se jedná o asociaci kladnou, nebo zápornou, 4. jakou má povahu -- zdali je monotónní (linární) či jiného druhu O tom, jak tyto charakteristiky zjišťujeme (měříme), hovoří problematika lekce 9 -- měření síly asociace. Až dosud jsme používali test chí-kvadrát pro odhalení asociace. Tohoto testu lze ale použít ještě pro jeden účel, totiž pro testování hypotéz o rozložení hodnot jediné proměnné. Jako nulovou hypotézu můžete např. stanovit, že je pravděpodobné, že rozložení osob, které budou zastávat názor, že věrnost je pro úspěšné manželství velmi důležitá, spíše důležitá a nepříliš důležitá, bude rovnoměrně stejné. Proveďme si tento test (v literatuře se mu říká...) na příslušných datech -- máme je v souboru EVS_ČR1999.sav, proměnná q40_1. Použijeme testu chí-kvadrát: Analyze -- Nonparametric tests -- Chi-Square V dialogovém okně vložíme zvolenou proměnnou do Test Variable List a ponecháme zaškrtnutý způsob výpočtu All categories equal Výsledky: Chi-Square Test V první části tabulky výstupů vidíme, že jsme skutečně testovali hypotézu, že počet osob zastávajících názor, že věrnost je pro úspěšné manželství velmi důležitá, spíše důležitá a nepříliš důležitá, bude stejný (očekávané četnosti by měly být rovny 646,7. Proč? No vzhledem k tomu, že celkem bylo v souboru 1940 osob a má-li být tento počet rozdělen do tří stejně velkých skupin, musíme 1940 podělit 3, což se rovná 647,7). Významnost test chí-kvadrát vyšla velmi nízká (0,000), takže nulovou hypotézu o tom, že počet osob bude ve třech zmíněných kategoriích postoje k důležitosti věrnosti pro manželství stejný, musíme zamítnout. V dalším kroku bychom pak mohli testovat, zdali jsou rozdíly v počtech osob u jednotlivých variant statisticky významné. Tuto proceduru ovšem SPSS nemá zabudovanou přímo. _______________________________ 1 Continuity Correction je Yatesovou korekcí (opravou) Pearsonova chí-kvadrátu pro tabulky 2x2, tedy tabulky, v nichž obě proměnné jsou dichotomické, takže mají každá jen dvě varianty; mnozí totiž tvrdí, že v tabulce 2x2 dochází při standardním výpočtu chí kvadrátu k přecenění jeho hodnot, proto musí být výpočet upraven; Likelihood Ratio je statistika velmi podobná chí-kvadrátu a pro velké vzorky dosahuje velmi podobných hodnot (viz); Fisherův exaktní test (Fisher's Exact Test) můžeme jako sociologové směle ignorovat; Linear-by-Linear Association je míra lineárního vztahu mezi proměnnými. Má smysl jen v tom případě, kdy kategorie obou proměnných jsou uspořádány od nejnižší k nejvyšší. Může se tedy použít jako test linearity avšak obě proměnné musejí být minimálně ordinální. 2 Syntax pro transformaci proměnné je: RECODE q89 (1=1) (2=2) (5=4) (3 thru 4=3) (ELSE=SYSMIS) INTO rod_stav . VARIABLE LABELS rod_stav 'rodinný stav (sloučeno rozvedený + odloučení)'. EXECUTE . 3 Aniž bychom chtěli předbíhat vaše znalosti, je třeba učinit poznámku o možném vlivu třetí proměnné, která do tohoto vztahu může intervenovat.