1 SOC108/708 LEKCE 9: MĚŘENÍ (SÍLY) ASOCIACE MEZI DVĚMA SPOJITÝMI PROMĚNNÝMI: KORELAČNÍ KOEFICIENTY A GRAFY (c) Petr Mareš a Ladislav Rabušic 2002 LEKCE09 PŘÍKLAD Měření síly asociace mezi dvěma proměnnými V minulé kapitole jsme si ukázali, jak zjistit, zdali jsou dvě proměnné na sobě závislé či nikoliv. Použili jsme k tomu testu chí-kvadrát a adjustovaných reziduí. Chí-kvadrát (2) má ovšem své velké limity, jichž bychom si měli být vědomi. Bryman a Cramer (1997)1 uvádějí čtyři: 1. Chí-kvadrát nedokáže změřit sílu vztahu (podrobněji o tomto tématu viz níže). I když hodnota chí-kvadrátu bude pro nějaké dvě proměnné vysoká a bude i silná jeho statistická významnost (např. p < 0,001), tak to ještě neznamená, že souvislost mezi těmito proměnnými je vyšší než u chí- kvadrátu, jehož hodnota je nižší a má menší statistickou významnost (např. p < 0,05). Hodnota chí-kvadrátu je totiž mimo jiné také závislá na počtu řádků a sloupců, tedy na počtu variant obou znaků, což je víceméně technický parametr, který má jen málo společného s věcnou stránkou analýzy. Jediné, co nám údaje o chí-kvadrátu a jeho významnosti říkají, je, jak mnoho si můžeme být jisti, že mezi proměnnými je skutečný vztah, který nebyl způsoben výběrovou chybou. 2. Chí-kvadrát se vůbec nehodí pro situaci, kdy hledáme vztah mezi dvěma ordinálními nebo dvěma kardinálními znaky, popřípadě kombinaci obou. Norušis (1998) k tomu poznamenáví, že chí-kvadrát není v takové situaci dost silný test na to, aby odhalil odchylky od nezávislosti. 3. Chí-kvadrát by se neměl používat pro tabulky o velikosti 2 x 2. Jak jsme již uvedli v pozn. 1 textu příkladů ke kapitole 8, je třeba v takovém případě použít Yatesovy korekce (Correction for Continuity). Někteří autoři navrhují, že v takové situaci je lépe použít fí koeficientu (phi coefficient - ), jak uvidíme později v této kapitole. 4. Chí-kvadrát je nespolehlivý, pokud více než 20 % políček mají očekávané četnosti menší než 5 nebo pokud minimální očekávaná četnost je menší než 1. Jak je tedy zřejmé, procedura chí-kvadrát není ideálním postupem pro hledání vztahu mezi dvěma proměnnými. Tím hlavním problémem, opakujeme, je to, že nedokáže odpovědět na otázku, jak silná je zjišťovaná souvislost (asociace nebo korelace) mezi dvěma proměnnými. Otázka na to, zdali je mezi dvěma proměnnými vztah (asociace, korelace) je jednou ze základních otázek, kterou si při bivariační analýze dat klademe. Zajímá nás např., zdali existuje vztah mezi vzděláním a průměrným věkem v době prvního sňatku, zdali školní prospěch dětí souvisí s majetkovou úrovní jejich rodičů, zdali míra anomie souvisí s postojem k systému českého sociálního zabezpečení, atd. Při těchto otázkách se zajímáme nejen o to, zdali je mezi uvedenými proměnnými souvislost, ale také jakou má tato souvislost sílu, jak je těsná a jakou má povahu, jaký má směr -- viz Loether a McTavish (1988) v předchozí kapitole. Pokud např. zjistíme, že mezi vzděláním a mírou rasové intolerance je souvislost, zajímá nás, zdali se míra intolerance se zvyšujícím se vzděláním zvyšuje, nebo snižuje a jak je tento vztah silný. Pro zjištění síly či těsnosti vztahu počítáme tzv. koeficienty asociace nebo korelace.2 Je to číslo, které nabývá hodnot v intervalu od 0 do 1. Hodnota blízko 0 indikuje nezávislost, čím více se blíží jedné, tím silnější souvislost mezi proměnnými existuje. Hledáme-li souvislost mezi ordinálními či kardinálními znaky, míra korelace se bude pohybovat v intervalu od -1 do +1. I zde platí, že čím blíže je hodnota blízko jedné nebo -1, tím silnější je mezi proměnnými vztah. Pro měření síly vztahu se používá řady nejrůznějších měr asociace a korelace. V SPSS je získáme následovně: Procedura: ANALYZE DESCRIPTIVE STATISTICS CROSSTABS STATISTICS volba příslušných koeficientů (viz obr. 9.1) Obr. 9.1: Postup pro výpočet koeficientů asociace a korelace To, jaký druh koeficientu zakliknutím do příslušného okénka zvolíme, závisí na několika okolnostech, z nichž ta nejdůležitější je povaha proměnných (nominální, ordinální, kardinální či dichotomická), jejichž vztah hledáme. Míry asociace pro nominální znaky Při hledání vztahu mezi dvěma nominálními proměnnými nemáme při interpretaci příliš mnoho prostoru. Vzhledem k povaze těchto znaků, to je k faktu, že uspořádání jejich variant v sobě nenese žádné pořadí a může tedy být libovolné, předurčuje možnost interpretace především nemůžeme nic říci o směru vztahu. Není totiž možné např. konstatovat, že se zvyšující se barvou vlasů se zvyšuje příklon k náboženským denominacím nebo že se snižujícím se rodinným stavem se zvyšuje zakoupená značka automobilu. U žádné z těchto proměnných totiž neexistuje smysluplné pořadí kategorií, takže samozřejmě výroky, které by chtěly pracovat se směrem vztahu (typu čím více X, tím méně Y apod.), jsou nesmyslné. Jediné, co u vztahu dvou nominálních znaků lze změřit, je jeho těsnost. Je samozřejmé, že hodnoty koeficientů pro nominální znaky se budou pohybovat v intervalu od 0 do 1 (proč?). Koeficient pro nominální znaky je třeba použít i tehdy, když zjišťujeme souvislosti mezi jedním znakem nominálním a jedním ordinálním. Obecně totiž platí, že pro volbu koeficientu je rozhodující ta proměnná, která je v hierarchii měření (nominální--ordinální--intervalová) na nižším stupni. a) Míry založené na chí-kvadrátu Koeficient fí (phi coefficient - ) se používá pro situaci, kdy kontingenční tabulka má podobu tabulky 2 x 2, to je má dva řádky a dva sloupce. Vypočítá se tak, že hodnota chí- kvadrát se podělí velikostí vzorku a výsledek se odmocní. V případě, že máme vyšší počet řádků a sloupců než 2, použijeme jako míru asociace tzv. Cramérova V (Cramér's V). SPSS počítá také koeficient kontingence (coefficient of contingecny), avšak ten nedoporučujeme používat. Jeho nevýhodou je, že jeho hodnota příliš závisí na počtu řádků a sloupců a že nenabývá nikdy hodnoty 1, i když se jedná o perfektní souvislost. Např. v tabulce 4 x 4 je nejvyšší možná hodnota tohoto koeficientu, jak upozorňuje Norušis, pouze 0,87. Příklad 9. 1 Testujme nulovou hypotézu, že úroveň dosaženého vzdělání respondenta nemá vliv na to, k jakému druhu náboženského vyznání se hlásí. Řešení: Podle vzoru na obrázku 9.1 necháme spočítat koeficient Cramerovo V. Koeficient fí nelze v tomto případě použít, neboť naše tabulka bude mít 4 řádky pro vzdělání a 3 řádky pro náboženské vyznání (proměnnou q23 jsme rekódovali do smysluplného počtu kategorií tak, aby některé varianty nového znaku byly vůbec obsazeny). Výsledek výpočtu je uveden v tabulce 9.1. Vidíme v ní, že jisté rozdíly mezi některými stupni vzdělání a náboženského vyznání sice existují (např. u respondentů se základním vzděláním bylo 38 % lidí římskokatolického vyznání, u lidí se vzděláním VŠ jich bylo pouze 19 %), avšak celková souvislost je velmi nízká: V = 0,10. Jelikož statistická významnost této hodnoty je 0,000, musíme zamítnout nulovou hypotézu o neexistenci vztahu rozdílu mezi vzděláním a náboženským vyznáním. Nicméně souvislost je nízká. Tab. 9. 1: Náboženská víra podle vzdělání respondenta Míry souvislosti pro ordinální znaky a) souvislost založená na měření konkordance (souhlasu) a diskordance (nesouhlasu) Toto jsou míry založené na srovnávání párů hodnot. Příklad: CaseX1 X2 R1 1 2 R2 2 3 R3 3 2 Srovnejme odpovědi prvního respondenta (R1) a druhého respondenta (R2). Hodnoty respondenta R2 jsou v obou případech vyšší než hodnoty R1 (2 je větší než 1 a 3 je větší než 2). Toto je příklad konkordantního páru. Případ konkordance nastává vždy, když hodnoty obou proměnných jsou vyšší (nebo nižší) než obě hodnoty druhého případu. Případ diskordance nastává tehdy, jestliže hodnota proměnné u jednoho případu je vyšší (nebo nižší) než hodnota téže proměnné u druhého případu a u druhé proměnné je tomu přesně naopak. V naší tabulce jsou respondenti R2 a R3 diskordantní (3:2 a 2:3). V případě, že dvě pozorování mají stejné hodnoty v jedné nebo obou proměnných, říkáme, že jsou spřaženy. U srovnání dvou případů je možných pět různých výsledků: Mohou být 1. konkordatní, 2. diskordantní, 3. spřaženy v první proměnné, 4. spřaženy v druhé proměnné nebo 5. spřaženy v obou proměnných. Jestliže bude většina párů v našich datech konkordantních, bude asociace mezi příslušnými proměnnými pozitivní, což znamená, že s růstem hodnot (nebo také poklesem) jedné proměnné porostou (nebo budou klesat) hodnoty druhé proměnné. Jestliže většina páru je diskordantních, je asociace záporná, tedy se zvyšující se hodnotou jedné proměnné se bude snižovat hodnota druhé proměnné a naopak. Pokud je počet konkordantních a diskordantních párů stejný, není mezi proměnnými žádná asociace. Koeficienty: Goodman-Kruskalovo gamma Kendallovo tau b Kendallovo tau c Somersovo d Spearmanovo rhó - korelace založená na pořadí Příklad 9.2: Zajímá nás, zdali existuje souvislost mezi názorem na to, zdali žena musí mít děti, aby se naplnilo její poslání (proměnná q42 v souboru EVS_ČR1999.sav), a věkem respondenta kategorizovaného do věkových skupin (proměnná vek_kat). Řešení: Jelikož obě proměnné jsou proměnné ordinální,3 zvolíme v příslušném dialogovém okně patřičné koeficienty (viz obr. 9.2) Obrázek 9. 2: Ukázka zadání výpočtu koeficientů pro ordinální znaky Tabulka 9.2: Výpočet pro zjištění souvislosti mezi věkem a postojem k poslání ženy Třídění crosstabs již naznačuje, že jistý vztah mezi sledovanými znaky existuje: názor, že žena musí mít děti, aby se naplnilo její poslání, je zastáván silněji s narůstajícím věkem. A co říkají korelační koeficienty? Především vidíme, že máme dvě skupiny koeficientů: asymetrické (zaměřené -- directional) a symetrické. Asymetrické dokáží změřit souvislost v situaci, kdy jsme schopni rozlišit nezávisle a závisle proměnnou. V našem případě je závisle proměnná (dependent) a42, takže pro analýzu vztahu musíme vzít hodnotu korelace --0,13 (přesně --0,128, ale platí pravidlo, že hodnotu koeficientů zaokrouhlujeme na dvě desetinná místa). Pokud porovnáme tuto hodnotu s hodnotami koeficientů symetrických,4 zjistíme, že každý nabývá poněkud jiných hodnot. Není to chyba, je to dáno způsobem výpočtu. Pro který z nich je třeba se rozhodnout? Populární je Spearmanův koeficient nebo Kendallovo tau-c (jeho varianta Kendallovou tau-b je určena pro čtvercovou tabulku). Spearman obecně nabývá nižších hodnot než Kendall. V našem příkladu je má souvislost dvou znaků hodnotu --0,187 (tedy --0,19) podle Spearmonova koeficientu a 0,211 (0,21) podle Kendalla. Gamma je ještě vyšší: 0,26. Co s tím? Doporučujeme používat pravidelně pouze jeden koeficient. Všimněte si, že v každé tabulce jsou v posledním sloupci uvedeny také hodnoty statistické významnosti příslušného koeficientu. Vidíme, že všechny jsou 0,000, takže musíme zamítnout nulovou hypotézu, že mezi znaky bude souvislost. Zjištěnou korelace musíme proto očekávat také v základním souboru (není dílem výběrové chyby), míra této souvislosti je ovšem nízká. Míra souvislosti pro intervalové znaky Souvislost mezi dvěma znaky intervalovými se měří prostřednictvím jednoho jediného koeficientu Pearsonova koeficientu lineární korelace. Intervalové znaky se mimo jiné vyznačují tím, že mají dlouhé stupnice měření (např. proměnná věk má u dospělých respondentů více než 60 jednotek, příjem může mít desetitisíce jednotek, levo-pravá politická orientace může mít deset jednotek atd.). Bylo by proto nesmyslné nechat vytvářet pro takovéto znaky tabulku třídění II. stupně (Crosstabs). Např. kdybychom třídili proměnnou levo-pravá politická orientace měřenou na desetibodové stupnici s proměnnou důležitost Boha v životě jedince měřenou rovněž na desetibodové stupnici, vznikne tabulka o 20 sloupcích a dvaceti řádcích, která se nedá smysluplně interpretovat. Z tohoto důvodu má SPSS nastavenou možnost vypočítat Pearsona bez tabulky Crossatbs.5 Je jí procedura Correlate, která tiskne jako výstup matici korelací. Procedura: ANALYZE CORRELATE BIVARIATE proměnné, jejichž vztahy hledáme volba koeficientu volba jedno či dvoustranného testu signifikance Obr. 9.3: Dialogové okno pro zadání výpočtu matice korelací Příklad 9.3: Existuje statistická souvislost mezi politickou orientací měřenou na levopravém kontinuu a názorem na důležitost Boha v životě jedince? Řešení: Zadání tohoto výpočtu ukazuje obr. 9.3. Výstup vypadá následovně (viz tab. 9.3): Tabulka 9.3 Hledaná korelace je 0,15 (0,147) a jelikož jsou u ní dvě hvězdičky, je tato korelace signifikantní na hladině významnosti 0,01 (pokud by se objevila jenom jedna, byla by korelace signifikantní na hladině významnosti 0,05). Kladné znaménko znamená, že se zvyšující se hodnotou proměnné q33 se zvyšuje také hodnota proměnné q53. Pro věcnou interpretaci se musíme pro jistotu vždy podívat, jakým směrem je stupnice u obou proměnných orientována. V našem případě je q33 směrována od nedůležitosti Boha k jeho důležitosti a proměnná q53 od levice k pravici. Což znamená, že čím více lidé zdůrazňují důležitost Boha v jejich životě, tím jsou politicky více orientováni doprava. Těsnost této souvislosti však není příliš velká. To, že je statisticky významná říká, že přibližně tak velkou souvislost můžeme očekávat také v základním souboru. Příklad 9.4: Existuje vzájemná souvislost mezi pocitem svobodného rozhodování o svém životě (q9), spokojeností s životem (q10) a politickou orientací (953)? Řešení: Tabulka 9.4: Výsledná matice korelací má vždy podobu čtvercové tabulky obsahující tolik řádků a sloupců, kolik proměnných vstupuje do analýzy. Všimněte si, že korelace proměnných se sebou samými jsou umístěny na diagonále tabulky a jsou vždy rovny 1. Hodnoty jednotlivých bivariačních korelací jsou zobrazeny zrcadlově pod a nad diagonálou, stačí se proto dívat pouze do jedné poloviny matice. V tabulce 9.4 vidíme, že existuje poměrně silná a signifikantní korelace mezi kontrolou nad životem a spokojeností se životem (0,42): Se zvyšujícím se pocitem kontroly nad svým životem roste také spokojenost se životem. Korelace mezi politickou orientací a kontrolou nad životem je nízká, byť signifikantní (0,13) -- spokojeni jsou spíše ti, kdo jsou orientováni pravicově. Podobně nízká je korelace mezi politickou orientací a spokojeností se životem (0,16): pravicově orientovaní respondenti mají tendenci být spokojenější se svým životem. V souvislosti s tímto příkladem stojí zato upozornit na možnost, jak organizovat tvar korelační matice prostřednictvím příkazu syntaxe. Předpokládejme nyní, že bychom považovali levo-pravou orientaci respondenta za nezávisle proměnnou ovlivňující pocit kontroly nad životem i spokojenost se životem. Nezajímali bychom se tedy o korelaci mezi kontrolou nad životem a spokojeností se životem. Abychom dostali pohodlný výstup pro čtení hledaných souvislostí, lze matici korelací uspořádat do takovéto podoby (viz tab 9.5): Tabulka 9.5 Vidíme, že ve srovnání s tab. 9.4 je tato tabulka jednodušší na čtení. Abychom tuto tabulku získali, museli jsme použít syntaxe. Zatímco syntax pro tabulku 9.4 vypadá takto:6 CORRELATIONS /VARIABLES=q9 q10 q53 /PRINT=TWOTAIL NOSIG /MISSING=PAIRWISE. pro tabulku 9.5 pak takto: CORRELATIONS /VARIABLES=q53 with q9 q10 /PRINT=TWOTAIL NOSIG /MISSING=PAIRWISE. Jediný rozdíl spočívá v uspořádání proměnných. Do syntaxe, kterou jsme získali vlepením příkazu z dialogového okna (viz pozn. 6), vepíšeme ručně na první místo nezávisle proměnnou (q53), za ni ručně vepíšeme spojku with, za nímž následují závisle proměnné. Když bychom přeložili smysl obou syntaktických zápisů do normální češtiny, tak ten první říká: vypočítej vzájemné korelace proměnných q9, q10 a q53. Ten druhý pak sděluje: vypočítej matici korelací pro q53 s proměnnými q9 a q10. Příklad 9.5: Zajímají nás souvislosti mezi vzděláním respondenta (ISCED1) a jeho pocitem kontroly nad svým životem a spokojeností se životem. Řešení: Jelikož hledáme korelaci mezi jasně definovanou nezávisle proměnnou proměnnou (vzdělání) a dvěma závislými proměnnými, použijeme způsob zadání výpočtu přes syntax. A jelikož jedna z proměnných je ordinální (vzdělání), musíme při zadávání výpočtu v dialogovém okně Bivariate Correlations zakliknout místo požadovaného Pearsonova koeficientu koeficient Spearmanův. NONPAR CORR /VARIABLES=isced1 with q9 q10 /PRINT=SPEARMAN TWOTAIL NOSIG /MISSING=PAIRWISE. Tabulka 9.6 Vzdělání koreluje s oběma proměnnými jen slabě, byť statisticky vysoce významně. Pocit kontroly nad životem a spokojenost se životem není tedy na vzdělání příliš závislý. Koeficient pro souvislost nominálního znaku s kardinální (nebo dlouhou ordinální) proměnnou V analýze dat se setkáváme s případy, kdy nás zajímá souvislost mezi nominální proměnnou a proměnnou kardinální. např. v datovém souboru EVS_CR1999.sav nás zajímá, zdali existuje souvislost mezi náboženským vyznáním7 a spokojeností se životem. Na základě znalostí, které již máme, bychom mohli tuto úlohu řešit prostřednictvím srovnání průměrů, prostřednictvím procedury Means. Byla by to dobrá volba, neboť tato procedura v sobě také obsahuje výpočet koeficientu eta, který je určen právě pro měření souvislosti mezi nominální proměnnou a proměnnou intervalovou. Ukažme si postup výpočtu. Přes tlačítka Analyze -- Compare means -- Means si v dialogovém okně Means do Dependent list nastavíme jako závisle proměnnou q10 (spokojenost s životem) a do Independent list q23-rec jako proměnnou nezávislou (a navíc nominální). Pak ve stejném okně ještě klikneme na Options a v něm si zvolíme výpočet Anova table and eta (viz obr. 9.4). Výstupní výpočty jsou následující (viz tabulky 9.7a -- 9.7c) Tabulka 9.7a: Tento výstup již známe. Rozdíly v průměrech nejsou příliš velké, věřící i nevěřící jsou se svým životem poměrně spokojeni. Tabulka 9.7b: Tato tabulka (tab. 9.7b) analýzy rozptylu je výsledkem požadovaného výpočtu Anova table and eta. Hodnota statistické signifikance rozdílů v průměrech je 0,42, tedy hodnota, která nám velí podržet nulovou hypotézu o neexistenci rozdílů. Tabulka 9.7c: Tabulka 9.7c zobrazuje hodnotu koeficientu eta. Je velmi nízká, 0,03, takže potvrzuje to, co již naznačovaly průměry: mezi proměnnou náboženské vyznání a spokojeností se životem není žádná souvislost. Začínáte mít pocit, že se v množství koeficientů pomalu ztrácíte? Nezoufejte, každodenní analytická praxe Vás velmi rychle naučí se v tomto množství orientovat a používat ty koeficienty, které jsou pro danou situaci adekvátní. Abychom vám v této orientaci napomohli, uvádíme dvě přehledné tabulky všech používaných koeficientů, které má SPSS ve svých výpočetních operacích, dále podmínky pro jejich použití a některé základní charakteristiky. Pozor -- de facto je to stejná tabulka jako v první části textu, jen maličko jinak uspořádaná a vybrány jsou jen nejoptimálnější koeficienty. Tab. 9.8: Přehled měr asociace a jejich charakteristiky Úroveň měření Počet Vhodná metoda Vhodný koeficient kategorií 1. Nominální / 2 x 2 Crosstabs Phi, Lambda Nominální 2. Nominální / 3+ x 2+ Crosstabs Cramerovo V, Nominální Lambda 3. Nominální / 3+ x 3+ Crosstabs Cramerovo V, Ordinální Lambda 4. Nominální / nominální a) Crosstabs Eta Intervalová nezávislá (pokud má intervalová Eta proměnná málo kategorií b) Means, ANOVA 5. Ordinální / obě proměnné Crosstabs Gamma, Kendalovo Ordinální s malým tau b (pro počtem čtvercovou kategorií tabulku, Sommersovo D, Kendalovo tau c (pro obdélníkovou tabulku) 6. Ordinální / jedna pořadová Kendalovo tau c Ordinální proměnná korelace s mnoha kategoriemi 7. Ordinální / obě proměnné pořadová Kendalovo tau Ordinální s mnoha korelace Spearmanovo rhó kategoriemi 8. Ordinální / obě proměnné a) Crosstabs Eta, Intervalová s několika b) Srovnání stejné kategoriemi průměrů pokud koeficienty jak v je závisle 5. proměnná Eta intervalová 9. Ordinální / ordinální a) Means Eta Intervalová s několika b) Pořadová Kendalovo tau kategoriemi, korelace intervalová s mnoha 10. Ordinální / obě s mnoha pořadová Kendalovo tau Intervalová kategoriemi korelace Spearmanovo rhó 11. Intervalová / bodový graf Pearsonovo R, Intervalová Regrese Tab. 9.9: Charakteristiky měr asociace Koeficient Velikost Rozsah Směr Symetri Lineari tabulky hodnot cký ta Phi 2 x 2 <0; 1> ne ano ne Cramerovo V větší než <0; 1> ne ano ne 2 x 2 Lambda jakákoliv <0; 1> ne obě ne velikost verze Gamma jakákoliv <-1; 1> ano ano ano velikost Somersovo d jakákoliv <-1; 1> ano obě ano velikost verze Kendallovo čtvercové <-1; 1> ano ano ano tau b tabulky Kendallovo jakákoliv <-1; 1> ano ano ano tau c velikost Eta jakákoliv <0; 1> ne ne ne velikost Spearmanovo jakákoliv <-1; 1> ano ano ano rhó velikost Pearsonovo r netabelova <-1; 1> ano ano ano t Při práci s korelačními koeficienty je třeba mít na paměti neustále jednu důležitou věc. Koeficienty pro pořadové proměnné i pro proměnné intervalové měří lineární vztah (viz poslední sloupec v tab. 9.9). Z toho ale vyplývá jedno důležité pravidlo: Vychází-li korelace pro ordinální a intervalové znaky nízká, znamená to pouze, že vztah mezi proměnnými nemá lineární povahu. Možná je souvislost mezi znaky velmi těsná, ale má jinou než lineární podobu. A co je nízká a co vysoká korelace? Bryman a Duncan navrhují následující klasifikaci: Tab. 9.10: Interpretace hodnot korelačního koeficientu Hodnota interpretace korelace souvislosti 0,00 0,19 velmi nízká 0,20 0,39 nízká 0,40 0,69 střední 0,70 0,89 vysoká 0,90 1,00 velmi vysoká Naše zkušenost nám ovšem říká, že když v sociologických analýzách zjistíme korelaci v řádu 0,3, máme důvod k radosti. V souvislosti s výší korelace je třeba upozornit ještě na dva aspekty měření souvislosti dvou vztahů. 1. Ani vysoká míra korelace nemusí znamenat přítomnost kauzálního (příčinného) vztahu. 2. Při analýze nějakého problému je bivariační korelace pouhým vstupním krokem, neboť -- jak již dobře víte, společenské jevy jsou velmi složitě multideterminovány. Proto ani např. zjištění korelace na úrovni 0,6 nás nesmí vést k domněnce, že jsme objevili vysvětlující faktor nebo dokonce příčinu. Aby statistici mírnili naše nadšení nad výší koeficientu korelace, zavedli tzv. koeficient determinace. Jeho výpočet je velmi jednoduchý: hodnotu zjištěného korelačního koefientu umocníte na druhou a výsledek vynásobíte stem. Předpokládejme např, že jsme zjistili, že mezi přiřazením se respondenta k levici či pravici (měřené na 10-ti bodové stupnici) a jeho postojem, kdo by měl být odpovědný za život jedince, zdali jedince sám, nebo stát (rovněž měřený na 10-ti bodové stupnici), je korelace 0,63. Umocněním na druhou získáme výsledek 0,40. Ten po vynásobení stem (0,40 * 100 = 40 %) říká, že politická orientace respondenta (na kontinuu levice versus pravice) vysvětluje pouze ze 40 % variabilitu postoje k odpovědnosti za život jedince. Zbylých 60 % variability je třeba připsat působení jiných faktorů -- zjistit které to jsou, je právě cílem vaší analýzy. Korelaci na úrovni 0,60 ovšem nacházíme v sociologických datech poměrně zřídka, typičtější je korelace na úrovni 0,25 -- 0,30. Pokud by měl zjištěný koeficient korelace např. hodnotu 0,30, z něj vypočtený koeficient determinace je pouhopouhých 9 % ! _______________________________ 1 Bryman, A., Cramer, D. 1997. Quantitative Data Analysis with SPSS for Windows. Routledge. 2 Existuje úzus, že při měření síly souvislosti mezi nominálními znaky hovoříme o asociaci, při měření síly souvislosti mezi ordinálními a kardinálními znaky hovoříme o korelaci. 3 Proměnná q42 je de facto proměnná dichotomická, ale dichotomické proměnné mají tu vlastnost, že mohou být považovány jak za ordinální, tak za intervalové; proměnná "věkové skupiny" je rovněž proměnnou ordinální -- zapamatujme si, že jakmile intervalovou proměnnou kategorizujeme do skupin (v našem případě věkové skupiny vznikly rekódováním proměnné věk, která byla měřena jako proměnná intervalová), přeměníme ji tímto krokem na ordinální znak. 4 Nenechejme se zmást, že v tabulce je také uveden výpočet koeficientu Pearsonova. Ten se používá, jak uvidíme dále, pro měření souvislosti dvou intervalových znaků. To, že je vytištěn mezi koeficienty pořadovými, je způsobeno nastavením SPSS: Spearmanův koeficient získáte tehdy, když si v dialogovém okně Statistics zakliknete požadavek na Correlations. Tato procedura tiskne ovšem koeficienty dva: Spearmanův i Pearsonův. 5 Jistě jste si v tabulce 9.2 všimli, že Pearsonův koeficient je zabudován i v proceduře Crosstabs. Tento způsob výpočtu má smysl použít tehdy, když intervalové proměnné mají krátké stupnice měření. Což by např. bylo v případě, kdybychom hledali souvislost mezi počtem dětí (hodnoty této proměnné se pohybují od 0 do 4) a mírou anomie (tato stupnice nabývá hodnot od 0 do 5). 6 Syntax získáme tak, že v dialogovém okně procedury Bivariate Correlations (viz obr. 9.3) klikneme na tlačítko Paste. Věty syntaxe se objeví v syntaxovém souboru -- na dolní liště obrazovky se objeví nové tlačítko s logem SPPS a písmenem S... 7 Náboženské vyznání (proměnná q23) má mnoho variant, které jsou obsazeny jen malým počtem respondentů. Z tohoto důvodu jsme z proměnné q22 (zdali se respondent hlásí nebo nehlásí k nějakému náboženskému vyznání) a z proměnné q23 (k jakému vyznání se hlásí) vytvořili novou proměnnou (prostřednictvím procedury Compute if) q23_rec, která má varianty: 1. Římskokatolické, 2. Ostatní, 3. Nehlásí se k vyznání.