10. cvičení: Hodnocení kontingenčních tabulek Příklad 1.: U 100 náhodně vybraných vysokoškolských učitelů bylo zjišťováno jejich pohlaví (veličina X) a jejich pedagogická hodnost (veličina Y). Na asymptotické hladině významnosti 0,05 testujte hypotézu o nezávislosti pedagogické hodnosti a pohlaví a vypočtěte Cramérův koeficient, jsou-li k dispozici následující údaje: pedagogická hodnostpohlaví odb. asistent docent profesor muž 32 15 8 žena 34 8 3 Výsledky: Podmínky dobré aproximace jsou splněny, pouze jedna teoretická četnost klesne pod 5. Testová statistika K = 3,5, kritický obor ∞= ;991,5W . Protože K se nerealizuje v kritickém oboru, hypotézu o nezávislosti pohlaví a pedagogické hodnosti nezamítáme na asymptotické hladině významnosti 0,05. Cramérův koeficient V = 0,187. Příklad 2.: Pro kontingenční tabulku 3 x 3, která byla sestavena na základě dvourozměrného náhodného výběru rozsahu 400, byla spočtena testová statistika K = 464 pro test nezávislosti veličin X, Y. Určete Cramérův koeficient. Výsledek: V = 0,4616 Příklad 3.: 200 respondentů, z nichž bylo 73 žen, hodnotilo úroveň jistého časopisu. 34 žen ji hodnotilo kladně, stejně jako 47 mužů. Ostatní respondenti se o úrovni časopisu vyjádřili záporně. Na asymptotické hladině významnosti 0,05 testujte hypotézu, že hodnocení úrovně časopisu nezávisí na pohlaví respondenta. Test proveďte jak pomocí testové statistiky K, tak pomocí intervalu spolehlivosti pro podíl šancí. Vypočtěte také Cramérův koeficient. Výsledky: Test pomocí statistiky K: Podmínky dobré aproximace jsou splněny, K = 1,7608, nerealizuje se v kritickém oboru )∞= ,841,3W , hypotézu o nezávislosti hodnocení úrovně časopisu na pohlaví respondenta nezamítáme na asymptotické hladině významnosti 0,05. Cramérův koeficient V = 0,0938. Test pomocí podílu šancí: OR = 0,6739, což znamená, že podíl šancí časopisu na kladné hodnocení je asi dvoutřetinový u mužů oproti ženám. 95% interval spolehlivosti pro podíl šancí je ( 37577,0 ; 1,2085). Obsahuje číslo 1, tedy na asymptotické hladině významnosti 0,05 nezamítáme hypotézu o nezávislosti hodnocení úrovně časopisu na pohlaví respondenta. Příklad 4.: V roce 1950 zkoumali Yule a Kendall barvu očí a vlasů u 6800 mužů. Barva vlasůBarva očí světlá kaštanová černá rezavá modrá 1768 807 180 47 šedá nebo zelená 946 1387 746 53 hnědá 115 438 288 16 Na asymptotické hladině významnosti 0,05 testujte hypotézu o nezávislosti barvy očí a barvy vlasů. Vypočtěte Cramérův koeficient. Simultánní četnosti znázorněte graficky. Návod na řešení pomocí systému STATISTICA: Otevřeme datový soubor oci_vlasy.sta. Před provedením testu je zapotřebí ověřit podmínky dobré aproximace: Statistiky – Základní statistiky/tabulky – Kontingenční tabulky - Specif. tabulky – List 1 OCI, List 2 VLASY, OK, Váhy - CETNOST, Stav zapnuto, OK – na záložce Možnosti zaškrtneme Očekávané četnosti – Výpočet. Souhrnná tab.: Očekávané četnosti (oci_vlasy.sta) Četnost označených buněk > 10 Pearsonův chí-kv. : 1088,15, sv=6, p=0,00000 OCI VLASY světlá VLASY kaštanová VLASY černá VLASY rezavá Řádk. součty modrá 1167,259 1085,976 500,902 47,8622 2802,000 šedá nebo zelená 1304,731 1213,875 559,895 53,4990 3132,000 hnědá 357,010 332,149 153,202 14,6388 857,000 Vš.skup. 2829,000 2632,000 1214,000 116,0000 6791,000 Podmínky dobré aproximace jsou splněny. Všechny teoretické četnosti jsou větší než 5. V záhlaví výstupní tabulky je uvedena hodnota testové statistiky pro test hypotézy o nezávislosti proměnných OCI, VLASY (Pearsonův chí-kv: 1088,149) s počtem stupňů volnosti (sv = 6) a odpovídající p-hodnotou (p = 0,0000). Protože p-hodnota je menší než 0,05, nulovou hypotézu o nezávislosti barvy očí a barvy vlasů zamítáme na asymptotické hladině významnosti 0,05. Testování hypotézy o nezávislosti proměnných OCI, VLASY společně se získáním Cramérova koeficientu lze provést také tímto způsobem: Návrat do Výsledky; kontingenční tabulky – na záložce Detaily zaškrtneme Pearsonův&M-V chí - kvadrát, Phi & Cramerovo V – Detailní výsledky – Detailní 2 rozm. tabulky. Statist. Chí-kvadr. sv p Pearsonův chí-kv. M-V chí-kvadr. Fí Kontingenční koeficient Cramér. V 1088,149 df=6 p=0,0000 1155,669 df=6 p=0,0000 ,4002923 ,3716246 ,2830494 Cramérův koeficient 0,283 svědčí o slabé závislosti barvy očí a vlasů. Pro grafické znázornění četností se vrátíme do Výsledky; kontingenční tabulky – Detailní výsledky – 3D histogramy. Graf lze natáčet pomocí volby Zorný bod. Dvourozměrné rozdělení: OCI x VLASY svetla kastanova cerna rezava VLASYmodra seda nebo zelena hneda O CI 200 400 600 800 1000 1200 1400 1600 1800 2000 Početpozorování Příklad 5.: 100 náhodně vybraných osob bylo dotázáno, zda dávají přednost nealkoholickému nápoji A či B. Údaje jsou uvedeny ve čtyřpolní kontingenční tabulce. pohlavípreferovaný nápoj muž žena A 20 30 B 30 20 Na hladině významnosti 0,05 testujte pomocí Fisherova faktoriálového testu hypotézu, že preferovaný typ nápoje nezáleží na pohlaví respondenta. Návod na řešení pomocí systému STATISTICA: Vytvoříme nový datový soubor o třech proměnných NAPOJ, POHLAVI, CETNOST a čtyřech případech. Do proměnné NAPOJ napíšeme dvakrát pod sebe 1 (nápoj A) a dvakrát pod sebe 2 (nápoj B). Do proměnné POHLAVI napíšeme jedničku (1 – muž) a dvojku (2 – žena) a znovu jedničku a dvojku. D proměnné CETNOST napíšeme uvedené četnosti. Statistiky – Základní statistiky/tabulky – Kontingenční tabulky - Specif. tabulky – List 1 NAPOJ, List 2 POHLAVI, OK, Váhy - CETNOST, Stav zapnuto, OK – na záložce Možnosti zaškrtneme Fisher exakt, Yates, McNemar (2x2) – Detailní výsledky – Detailní 2-rozm. tabulky. Statist. : POHLAVI(2) x NAPOJ(2) (kap11_2) Statist. Chí-kvadr. sv p Pearsonův chí-kv. M-V chí-kvadr. Yatesův chí-kv. Fisherův přesný, 1-str. 2-stranný McNemarův chí-kv. (A/D) (B/C) 4,000000 df=1 p=,04550 4,027103 df=1 p=,04478 3,240000 df=1 p=,07186 p=,03567 p=,07134 ,0250000 df=1 p=,87437 ,0166667 df=1 p=,89728 Ve výstupní tabulce je mimo jiné uvedena p-hodnota pro oboustranný a jednostranný test. V našem případě se jedná o oboustranný test (nevíme, zda muži více preferují nápoj A či nápoj B než ženy), zajímáme se tedy o Fisherův přesný, 2-str. Ta je 0,07134. Protože phodnota je větší než 0,05, nezamítáme na hladině významnosti 0,05 hypotézu, že preferovaný typ nápoje nezáleží na pohlaví respondenta. Příklad 6.: Pro údaje z příkladu 5 vypočtěte podíl šancí a sestrojte 95% asymptotický interval spolehlivosti pro podíl šancí. Pomocí tohoto intervalu spolehlivosti testujte na asymptotické hladině významnosti 0,05 hypotézu, že preferovaný typ nápoje nezáleží na pohlaví respondenta. Výsledky: 4,0 9 4 OR == , 95% interval spolehlivosti pro podíl šancí je ( 2,0 ; 0,99). Neobsahuje číslo 1, tedy na asymptotické hladině významnosti 0,05 zamítáme hypotézu o nezávislosti hodnocení úrovně časopisu na pohlaví respondenta. Tento výsledek je v rozporu s výsledkem, ke kterému dospěl Fisherův přesný test. Je to způsobeno tím, že test pomocí asymptotického intervalu spolehlivosti je pouze přibližný. Příklad 7.: Při zápočtové písemce z matematiky, kterou psalo 37 studentů, bylo zjištěno pohlaví studenta a úspěch či neúspěch při písemce. Máte k dispozici kontingenční tabulku: pohlavíÚspěch muž žena Ano 9 12 Ne 7 9 a) Vypočtěte relativní četnost úspěšných mužů mezi všemi muži a relativní četnost úspěšných žen mezi všemi ženami. b) Vypočtěte a interpretujte podíl šancí na úspěch. c) Na asymptotické hladině významnosti 0,05 testujte hypotézu o nezávislosti úspěchu a pohlaví studenta. Ověřte splnění podmínek dobré aproximace, uveďte hodnotu testové statistiky K, kritický obor a rozhodnutí o nulové hypotéze. Výsledky: ad a) Relativní četnost úspěšných mužů: 0,5625, relativní četnost úspěšných žen: 0,5714 ad b) Podíl šancí OR = 0,96 Protože podíl šancí je velmi blízký 1, úspěch u písemky téměř není závislý na pohlaví studenta. ad c) Podmínky dobré aproximace jsou splněny. Testová statistika: K = 0,00295, kritický obor )∞= ,841,3W . Protože testová statistika se nerealizuje v kritickém oboru, hypotézu o nezávislosti úspěchu a pohlaví nezamítáme na asymptotické hladině významnosti 0,05.