KAPITOLA 7 v populaci rozdíl či souvislost existuje. V současnosti se v literatuře ještě hodně hovoří o pravděpodobnosti 1 - p, tzv. sítě testu. Technicky jde o pravděpodobnost, že správně zamítneme nulovou hypotézu, která neplatí.1* Samozřejmě že by tato pravděpodobnost měla být co největší (doporučení je minimálně 0,8), ale její výpočet není zcela snadný, resp. je k němu třeba používat speciální procedury. Dodejme, že pokud používáme běžné statistické postupy představené v této učebnici a máme výběrové soubory v řádu minimálně stovek výběrových jednotek, je naše síla testu vždy dostačující. Literarura Cohen. 1 < 1992). A power primer. Psychological Bulletin, 1120), 155-159. Cohen, J. (1988). Statistical Power Analysis forthe BeliavioralScience (2nd ed.), Hillsdale, NJ: Erlbaum. Field, A, (2009). Disvovering Statistics Using SPSS (3rd ed.). London: Sage. Hendl, J. (2004), Přehled statistických metod zpracováni dat. Praha: Portál. Wonnacot, T. H,, & Wonnacot, R. J. (1993). Statistika pro obchod a hospodářství. Praha: Victoria Publishing. Jde o analogii pravděpodobnosti odsouzení opravdového viníka. Kapitola 8 Základy dvourozměrné (bivariační) analýzy kategoriálních proměnných Až dosud jsme se převážně zabývali analýzami, které byly založeny na srovnávání průměrů a rozptylů (varianci), tedy úlohami, kdy závisle proměnná byla intervalové (kardinální) povahy. V sociologické analýze ovšem velmi často hledáme vztahy mezi proměnnými, u nichž nemá smysl průměry počítat. Buď z toho důvodu, že se jedná o znaky nominální (např, „národnost respondenta"), nebo proto, že proměnná je or-dinální s malým počtem variant (napf, proměnná „typ lokality": i. vesnice, 2. město, 3. velkoměsto), případně že jde o proměnné dichotomické. V dvourozměrné analýze zkoumáme vztahy mezi dvěma proměnnými. Znamená to, že se ptáme, do jaké míryjedna proměnná ovlivňuje druhou proměnnou. Například při hledání vztahu mezi pohlavím respondenta a tím, zdali respondent preferuje hodnotu svobody či rovnosti, se ptáme, zdali se muži a ženy budou lišit v názoru na to, je-li důležitější svoboda, nebo rovnost. A co znamená výraz, že , jedna proměnná ovlivňuje druhou"? Mezi proměnnými existuje vztah, pokud rozložení (distribuce) hodnot jedné kategorizované proměnné je asociováno s rozložením hodnot druhé kategorizované proměnné.1" Řečeno jinak: hodnoty jedné proměnné jsou rozloženy takovým způsobem, že jsou vzorovány v závislosti na rozloženi hodnot druhé proměnné. Procedura, která nám pomůže vztah (asociaci) mezi dvěma proměnnými odhalit, se nazývá třídění druhého stupně: třídíme totiž rozložení variant znaku jedné proměnné podle rozložení variant znaku druhé proměnné, V jazyce SPSS je pojmenována jako crosstabulation neboli křížová tabulace česky ovšem raději hovoříme o vytváření a analýze kontingenčnícb tabulek/1'1 Vztahy mezi proměnnými nehledáme samozřejmě pouze u kategorizovaných proměnných, ale také u proměnných spojitých, kardinálních. U dvou kardinálních proměnných ovsem sledujeme, zdali kovaríují, tedy zdali se odchylky od průměru v jedné proměnné podobají odchylkám od průměru v druhé proměnné. O tom ale až v následující kapitole. Jak uvidíme dále, kontingenční tabulky má smysl vytvářet pouze pro kategorizované proměnné s relativně nevelkým počtem kategorii, 242 KAPITOLA 8 Příklad 8.1 Na základe údajů v datovém souboru „EVS99-cvicny" zjistěme, jak se liši názor na to, zdali je možné lidem důvěřovat (proměnná q8) v závislosti na věkových kategoriích (nezávisle proměnná vek_katu. Piati náš předpoklad, že s rostoucím věkem narůstá nedůvěra vůči lidem? Řešení: Procedura Anuhze Descriptive Síatistia Crvsstabs Cobmms (q8) ■ viz obr. 8.1. Rom (vekkatl) Obr. 8.1 Zadáni pro kontingenčni tabulku (Crosstabs] Na základě tohoto zadání, kdy jsme do řádků umístili nezávisle proměnnou a do sloupců proměnnou závislou (f/ťf), získáme výstup 8.1.'" VEK.KAT1 Vekové kategorie ' OB Důvěra v lidi Crosstabulation Count OB Odveta v lidi Total 1 lidem je možné důvěřovat 2 človek musl být oprilrný VEK_KAT1 1 18-29 87 327 414 Věkové kategorie 2 30-49 158 508 666 3 50+ 199 585 784 Total 444 1420 1864 Výstup 8.1 Kontingentní tabulka pro proměnné věk a názorná důvěru Z výstupu 8.1 vyčteme, že např. 87 respondentů ve věku 18-29 let si myslelo, že lidem je možné důvěřovat. Ve věkové skupině 50+ zastávalo tento názor 199 respondentů. Konlingenční tabulky si v SPSS obvykle organizujeme následujícím způsobem: nezávisle pramennou umisťujeme do fádků tabulky, závisle proměnnou do sloupců. 1 244 ZÁKLADY DVOUROZMĚRNÉ ANALÝZY KATEGORlALNÍCH PROMĚNNÝCH I když by se na první pohled zdálo, že starší respondenti tento názor zastávali častěji než respondenti mladší (199 : 87), nemůžeme z těchto údajů takovýto závěr učinit. Srovnáváme zde totiž nesrovnatelné. Jak je vidět v součtech řádků a sloupců (označené slovy Total), počty osob v jednotlivých kategoriích jsou různé, což znemožňuje přímé srovnáni. Abychom mohli naši úlohu vyřešit, musíme jednotlivé kategorie vyrovnat neboli standardizoval. Vyrovnat kategorie samozřejmě neznamená, že budeme nějak manipulovat s daty. Vyrovnáni jednotlivých počtů provedeme tak, že necháme pro jednotlivá políčka tabulky vypočítat příslušná procenta a namísto absolutních četností (počtů) budeme srovnávat relativní četnosti, procenta. Pravidlo I: Při proceduře Crosstabs nemá smysl pracovat jen s absolutními četnostmi (count). Musíme je doplnit o výpočet příslušných procent. Avšak předtím než příslušný výpočet zadáme, musíme rozhodnout, jaká procenta budeme počítat. Máme totiž tri možnosti výpočtu procent: tzv. procenta řádková, sloupcová a celková. Řádková procenta (Äoiv %) se počítají tak, že absolutní četnost v políčku tabulky se děli celkovým počtem případů příslušného řádku. Ten nalezneme ve sloupci Total. Tak např. řádkové procento pro 87 respondentů ze skupiny 50+ (50 a více let), kteří si myslí, že lidem je možné důvěřovat, je: (199/784) x 100 = 25,4%. Tento údaj čteme následovně: z respondentů ve věku 50+ let si 25 % myslí, že lidem se dá důvěřovat. Naopak 75 % (585/784 nebo v tomto případě i 100-25) z této věkové skupiny je přesvědčeno, že člověk musí být ve styku s ostatními lidmi velmi opatrný. Sloupcová procenta (Column %) se počítají analogicky, jen s tím rozdílem, že absolutní četnost v políčku se děli celkovým počtem případů ve sloupcové kategorii, který nalezneme v řádku označeném Total. Sloupcové procento pro 199 respondentů ve věku 50+ let, kteří si myslí, že lidem lze důvěřovat, je 44,8 % (199 / 444) x 100 = = 44,8 %). Čteme: Ze všech respondentů, kteří si myslí, že lidem je možné důvěřovat, bylo 45 % ve věku 50+ let. Celková procenta (Total %) pak získáme tak, že absolutní četnost v poličku dělíme celkovým počtem případů v souboru (resp. jen těch, u nichž máme platné odpovědi na obě analyzované otázky). Ten je uveden v křížovém součtu celkových počtů četností sloupců a řádků. Našich 199 respondentů ve věku 50+ let, kteří si myslí, že lidem lze důvěřovat, tedy tvoři: (199 / 1 864) x 100 = 10,7 %. Čteme: ze všech respondentů našeho souboru bylo 11 % těch, kteří měli 50+ let a kteří byli současně přesvědčeni, že lidem lze důvěřovat. 245 KAPITOLA 8 Všechny Iři druhy procent za nás vypočítá SPSS. Kliknutím v dialogovém okně na tlačítko Cells se rozbalí tato nabídka, v níž vc čtverci Pereentóges zvolíme Row Cti!umu a Tohii (viz obr. 8.2). \_ T C osstabs: Cell Display Unlands ratz«) gl CMím '_.! Stflflfiaítiilŕd •/!:** !_: Adjusted ttnnüarttiz«! honinirtjért "iVe^hö ® Rounu cd counts © ftttumj c»e wftgmi O Truncate cel mis O Trunute c*se wr^nts 0 No AdjuEtmen B Obr. 8.2 Zadání pro výpočet řádkových, sloupcových a celkových procent Po spuštěni příkazu - to je nejdříve se kliknutím na Coiui/iuc vrátíme do dialogu Cmsxtahs, v němž klikneme na OK - získáme výstup 8.2a. ™d_kat1 tri rekové ikupiny ■ qa odveta v lidi CrautabiiiMion q8 Dúwra vJidi 1 lidem je důvěřovat 2 číovefe fhLisi bjtOJjalrny Tom yek_kat1 tri *kowe skupiny 1 f 8-29 Count % winiin wl(_lial1 Lr! vekoveskupiny 37 21.1% 326 78.9%. 100,0* % Will III. 08 O.lJr'.i U . ■.!: 18.«% 23,0% 22.2% % of Total 4,7% 17,5% 22.2% J ?0 49 Count 158 soa 666 % within wk^KBtl trt *kov& skupiny 23,7% 500,0% % ^viihioqa Du*ra widi 35,8* 3s,r-% %0l loVHl B.5% 27.3% 3S,?% Coum 193 585 754 % within vek kail m vakove &kupiny 25,4% 74,611 100.0% % within q8 Duuera * IkIi 44,8%, 41,2% 42,1% Wot Total 50.7% 31.4% 42.1% Colm! 444 1419 5863 ■ wlthlnvekjiaii tri *kow skupifiy 23.8«. 76.2% 100.0% % within qfl Duve ra v lici 100.0% 500.0% % of Total 23,8% 76.2% 100.0% Výstup 6.2a Kontingentní tabulka souvislosti důvěry a veku s řádkovými, sloupcovými a celkovými procenty ZÁKLADY DVOUROZMĚRNÉ ANALÝZY KATEGORlALNlCB proměnných Výstup 8-2a je poněkud nepřehledný v tom, že řádková a sloupcová procenta pojmenovává výrazem % wiihin... (a následuje jméno řádkové a sloupcové proměnné). Abychom si výstup zpřehlednili, navrhujeme nastavit si další skript, který popisek v tabulkách pojmenuje jednodušším způsobem. Příslušný autoskript nastavíme následovně. V základní obrazovce SPSS na horní liště najdeme tlačítko Eďti a roz-klikneme jeho roietku. Úplně dole pak klikneme na tlačítko Optiom. V rozbaleném dialogovém okně najdeme tlačítko Scripfs a kliknutím jej otevřeme. Ukáže se tato obrazovka (viz obr. 8.3): L--O—i— .1 PtvotTauei Senat! hMMpfev impy/fa'-on* DcTjujI acripl lan^ua^e Fytr.sn T | ^e*ccí U* fcrtsniaie ia u« wiwn nt-w scroti are ertaiea Bue Autoscrpt-- Fr* :.E-rj!Ji-f- Auloscnpt t diviúu a. Objects il Sorta Idar.IíMnt OBjai» \ / SOH4 Lanojioe act - AutůCOrTtiaiOňl Tatjkr PyttlOřl AU Caa* Processitva Ejrnrnar.. AkeaJ Model Otscootöftabie fVthon AJter Type / -\_ Pyinon ANACQR Partial A WárrslationVra. PytMi ANOVA wiminní \ PylhUl App^y Dictionary AHUA Automat«! Pata Pr Snos aaoletl To ipply an auJflscrůt id an ť wtf Send« aril taatnam m i n wier or jtara a Krisi n me Ofiinas Obr. 8.3 Zpúsob^ŕíastaveni skriptu pro zjednodušeni popiski, Ubulfcy CrosHabs V ní st nejdříve nastavíme jako default jazyk skripniN}a Python. Poté klinutím na BrůwSe si najdeme v našem adresáři skript s názvem „Autoskript pro Crosstabs.py" (soubor je na přiloženém CD) a vložíme jej do polička File. Kliknutím na OK vše potvrdíme. Y DVOUROZMĚRNÉ ANALÝZY KATEGORIÁLNÍCH PROMĚNNÝCH Když si nyní necháme /novu udělat kontingenční tabulku pro asociaci mezi kategorizovaným věkem a názorem na důvěru k lidem, získáme výstup 8.2b. vokkatl tri vekové skupiny' qS Důvěra v lidi Cross tabulation q6 Důvěra v lidi 1 Jlderrje moiné dú varovat 2 člověk musí být opatrný Total V9k_kal1 tri vekove skupiny 1 16-29 Count 87 326 413 Row % 21.1% 78.9% 100,0% 19.6% 23.0% 22,2% % ofTolal 4.7% 17,5% 22.2% 2 30-49 Count 158 508 666 Row % 23,7% 76,3% 100.0% 35,6% 35.8% 35.7% % at Total 8.5% 27.3% 35.7% 3 50+ Count 199 5B5 764 Row % Column % 25,4% 74,6% 100.0% .....iiu r i to ofToai 10 7% 31.4% 42,1% Total Count 444 1419 1863 Row% Column% 23,8% 100.0% 762% 100.0% 100.0% 100.0% % of Total 23,8% 78 2% ioo,o% Výstup 8.2b Upravená kontingenční tabulka souvislosti důvěry a veku i řádkovými, sloupcovými a celkovými procenty V nčm vidíme, že počet 199 respondentů (v řádku 50+) jednou znamená 25,4 %, podruhé 44,8 % a potřetí 10,7 %. Každý podíl má samozřejmě jiný interpretační význam a my si musíme v analýzách tohoto druhu dát dobrý pozor na to, jaká procenta vlastně chceme interpretovat. Jelikož ve vědě jako v každé jiné činnosti také platí princip efektivity, tedy snaha dosahovat maximálních výsledků s minimálními vstupy, necháváme si obvykle v našich analýzách spočítat jen ten druh procenta, který je pro příslušnou úlohu adekvátní. Podstatně si tím i zjednodušíme analytický život, neboť tabulka výstup 8.2b je zbytečně „mnohomluvná". Jak ale vybereme ta procenta, která jsou pro řešení úlohy podstatná? Lehce. Jediné, co musíme učinit, je rozhodnout, která proměnná je nezávislá - tedy ta, o níž předpokládáme, že je příčinou ovlivňující rozloženi druhé (závisle) proměnné. V naší úloze je nezávisle proměnnou věk (věkové skupiny), neboť lze předpokládat, že postoj k jiným lidem z hlediska důvěry či nedůvěry bude ovlivňován právě věkem respondenta. Ostatně na tom je založena i naše hypotéza, že s narůstajícím věkem bude slábnout důvěra v ostatní lidi. Jestliže víme, která proměnná je nezávislá, podíváme se, kam jsme ji v kontingenční tabulce umístili. Pokud je v řádcích tabulky, počítáme řádková procenta. Tím dosáhneme toho, že všechny počty v kategoriích nezávisle proměnné vyrovnáme (položíme je za základ, tj. sto procent), což umožní smysluplné srovnání. Pokud je nezávisle proměnná ve sloupci, počítáme sloupcová procenta. A co je důležité, o umístěni proměnných do řádků či sloupců rozhodujeme při práci v SPSS sami při zadávání příkazu.''M Pravidlo 2: Umistime-li nezávisle proměnnou do řádků kontingenční tabulky (Rows), použijeme v analýze údaje z řádkových relativních četnosti. Umístíme-li ji do sloupců (Columns), pracujeme s relativními četnostmi sloupcovými. Podívejme se tedy, jak by měla vypadat tabulka, s jejíž pomoci odpovíme na naši otázku (viz výstup 8.2c). Case Processing Summary Cases Valid hissing Total N Percent N Percent N Percent vek kati Iři vekove skupiny ■ q8 Důvěra v lidi 1863,997a 97.7% 44.003 2,3% 190S 100,0% a. Number of valid cases is different from the total count in the crosstabulation table because the cell counts have been rounded vek_kat1 trl vekove skupiny' q8 Duvera v lidi Crosstabulatlon q8 Duvera vlidi 1 lidem je možné důvěřoval 2 člověk musí být opatrný Total vek_kat1 tri vekove skupiny 1 18-29 Count 87 326 413 Row % 21,1% 78,9% 100,0% 2 30-49 Count 158 fifiti Row% 23,7% 76,3% 100,0% 3 50+ Count 199 585 784 Row% 25,4% 74,6% 100.0% Total Count 444 1419 1863 Row% 23,6% 76.2% 100.0% Výstup 8.2c Pozn. Rámeček 8.1 na s. 250 ukazuje, jak má vypadat formát tabulky, když naše výsledky publikujeme. Z první částí výstupu vidíme, že z celkového počtu respondentů na tuto otázku neodpovědělo 44 dotázaných neboli 2,3 %. Pozor, do kontingenční tabulky jsou vždycky zahrnuti pouze ti respondenti, kteří mají platné údaje u obou proměnných -celkem jich bylo 1 864 (to je 97,7 %).'« m Dodejme, že pokud tabulku použijeme například v diplomové práci či článku, musíme buď do názvu íi pod ni do poznámky uvésl, jaký typ procent obsahuje, abychom usnadnili její čtení (viz dále). m Nejste překvapeni, že se v políčku u platného N (Valid N, objevuje údaj s desetinnými místy (1863,997)? Je to důsledek váženi souboru. 249 KAPITOLA 8 ZÁKLADY DVOUROZMĚRNÉ ANALÝZY KATEGORIÁLNÍCH PROMĚNNÝCH Výsledek tříděni je poněkud překvapující. S narůstajícím včkem sice poněkud narůstá podíl osob, které si myslí, že lidem lze důvěřovat (a naopak klesá podíl těch, kdo si myslí, že člověk musí být ve styku s ostatními lidmi velmi opatrný), rozdíly však nejsou nijak velké: 21 % : 24 % : 25 %. Rozdíly mezi procenty v políčkách se nazývají epsilon (a značí se řeckým písmem e). Například hodnota epsilon pro respondenty ve věku (50+) a (18-29) je 25,4 - 21,0 = 4,4 %. Jelikož v analýze dat platí hrubé pravidlo, že teprve rozdíl (epsilon), který se blíží 10 %, indikuje i věcně podstatný rozdíl (to je takový, který nevznikl v důsledku výběrové chyby), vyslovujeme závěr, že v otázce důvěry k lidem se Čeští respondenti nelišili v závislosti na věku. Zamítáme tak naši výzkumnou hypotézu, že s narůstajícím věkem bude také narůstat nedůvěra v ostatní lidi. Při publikaci výsledků ovšem tabulku v takové podobě, jako je ve výstupu 8.2c, nikdy nezveřejňujeme, není totiž pro čtenáře přehledná. Musíme ji proto upravit podle následujících zásad: 1. Každá tabulka musí mít číslo a název. 2. Všechny popisky tabulky musí být česky. 3. Názvy proměnných jsou ve sloupcích a řádcích jasné vyjádřeny. 4. Nezávisle proměnnou obvykle umisťujeme do sloupců, takže počítáme sloupcová procenta. Tento požadavek ale není striktní, umístění proměnných také závisí na tom, jak dlouhé názvy maji jednotlivé kategorie. 5. U nezávisle proměnné uvádíme i procenta „celkem" (obvykle tedy 100%) a současně i absolutní počty případů. 6. V poznámce pod tabulkou se uvadl zdroj data velikost souboru. Tabulka z výstupu 8.2c by tedy podle těchto zásad měla být pro připadnou publikaci upravena takto: Důvěra k lidem Věkové kategorie 18-29 30-49 50+ Lidem je možné důvěřovat 21 24 25 Člověk musi být ve styku s ostatními lidmi opatrný 79 76 75 Celkem 100% (413) 100% (666) 100% (784) Tab. 8.1 Důvěra k lidem podle věku (sloupcová %) Zdroj: EVS ÍR 1999, N ■ 1864. Rámeček 8.1 Náležitosti tabulek Tento příklad je dobrou ukázkou toho, že i „nula" ve vědě je důležitým poznatkem. My jsme zjistili, na rozdíl od našeho předpokladu, že mezi věkovými skupinami není v zásadě rozdíl v postoji „důvěra v ostatní lidi". Tato zjištěná „nula" v sobě ovšem obsahuje podstatný fakt, na jehož základě nyní víme, že v roce 1999 nebyly starší osoby vůči ostatním lidem méně důvěřivé než ty mladší. Pravidlo 3:1 nula (nulový rozdíl, nulový výsledek) znamená ve védě podstatný poznatek. V našem příkladu jsme hledali vztah mezi kategorizovaným věkem a postojem k jiným lidem z hlediska důvěry. Tuto úlohu jsme mohli řešil i jinak. Jelikož náš datový soubor obsahuje také údaje o věku v jeho nekategorizované podobě (je to proměnná vek), lze srovnat, zdali se liší průměrný věk osob u lidí, kteří si myslí, že lidem lze důvěřovat, a u lidí, kteří se domnívají, že ve styku s jinými lidmi musi být člověk opatrný. Jelikož zde máme pouze dvě kategorie, lze použít t-test. Výsledek je na výstupu 8.3. Group Stalistics Q6 Dúuérs vlidi N Sld. Deuáicn Sld. Error Mr>an VEK 1 lidemjemoinédiNéřovet 445 46,95 1S.2S .77 2 Slovek rrusí bytopa'.rr^ 1419 45.41 1&97 .45 rndqKndent Samptes Test VEK Equat *narces ^surned Equal wiances not assi/ned _ Le\ene*s Testfof Equallfyof t-lfjfitfor EflualitvďMoans 1B62 770,843 • 54 154 Corfrdence Irternalof tra niíw« U1 Výstup 8.3 T-test pro průměrný věk u kategorii „duvéry v lidi" Rozdíl v průměrném věku není příliš velký, věkový průměr je v obou kategoriích podobný (46,95 : 45,41). Proto také test nulové hypotézy, že rozdíl se v základním souboru (populaci) mezi těmito kategoriemi nebude odlišovat, vychází statisticky nevýznamný, takže nulovou hypotézu nelze zamítnout. Jinou technikou jsme zde tak dospěli ke stejnému výsledku. Máme tudiž jistotu, že mezi věkem (ať v jeho hrubé kategorizaci do tří skupin respondentů mladšího, středního a staršího věku, nebo v jeho „přirozené", nekategorizované podobě) a názorem na důvěru k lidem není souvislost (ani věcně ani statisticky) významná. Pouhé třídění dvou proměnných a výpočet příslušných procent, byť se jedná o důležitou analytickou proceduru, nestačí k tomu, abychom hledanému vztahu mezi dvěma proměnnými dobře rozuměli. Odhalime-li totiž, že mezi sledovanými proměnnými je v našem výběrovém souboru vztah, musíme se dále zajímat o to, zdali tento vztah vydrží i test nezávislosti v populaci, a také o to, jakou má tento vztah sílu.