ANABNR2 11_Chí-kvadrát (c2) ANABNR2 Test Chí-kvadrát: použití nchí-kvadrát může být použit npro testování rozdělení jedné nominální proměnné (test dobré shody) ntestování nezávislosti zejména dvou nominálních nebo i ordinálních proměnných s málo kategoriemi ANABNR2 Chí-kvadrát pro testování nezávislosti mezi dvěma proměnnými nZe znalosti o průniku (kapitola PRAVDĚPODOBNOST) již víme, že jevy jsou také statisticky nezávislé pokud n p(A a B) = p(A)*p(B) nTedy pokud se četnost kombinace v buňce kontingenční tabulky rovná násobku marginálních celkových četností v příslušném řádku a sloupci vydělená celkovou velikostí vzorku nToto očekávámé pokud platí nulová hypotéza, že jevy jsou nezávislé nOčekávané četnosti pod nulovou hypotézou n= Oij = (ři * sj )/ N, tj. pro každou buňku tabulky se vynásobí celkové marginální četnosti z příslušného řádku se sloupcovými četnostmi a vydělí celkovým počtem osob ANABNR2 Test Chí-kvadrát nchí-kvadrát porovná očekávané četnosti s pozorovanými ve všech buňkách nc2 = S [(pozor. četnosti – oček.)2/oček.] nčím více se očekávané odchylují od pozorovaných, tím vyšší je statistika X2, a tím vyšší je evidence proti H0 o statistické nezávislost (za předpokladu konstantního počtu stupňů volnosti) nPokud mezi pozorovanými a očekávanými četnostmi není rozdíl, pak c2 = 0 n n ANABNR2 Vlastnosti chi2 distribuce výběrových odchylek n1) vždy pozitivní - sahá od 0 do ∞ neboť chi2 statistika sčítá čtverce rozdílů mezi pozorovanými a očekávanými četnosti dělenými očekávanými četnostmi n2) tvar závisí na df (stupních volnosti) n3) zešikmená, s rostoucími stupni volnosti se normalizuje n4) za konstantních df vyšší chi2 = vyšší evidence proti H0 n ANABNR2 File:Chi-square distributionPDF.svg probab2 ANABNR2 Stupně volnosti n= počet hodnot používaných pro výpočet statistiky (např. chí-kvadrát statistiky z tabulky) které nejsou fixní – které se mohou pohybovat (nabývat různých hodnot) 1 stupeň 2 stupně 4 stupně ANABNR2 Příklad nzajímá nás, jak souvisí model manželství s jeho vydařeností nmodel manželství má kategorie: dominance žena, dominance muž, kooperace nvydařenost má 3 kategorie – vydařené, průměrné, nevydařené npozn.: jde o manželství rodičů respondentů, tak jak je posuzují oni (zdroj: Plaňava) notázka zní: liší se podíl (podmíněné proporce) vydařených, průměrných a nevydařených manželství u rodin, kde dominovala matka, rodin, kde dominoval otec a u rodin, kde nedominoval ani jeden z nich? ANABNR2 Absolutní pozorované četnosti ANABNR2 nVydařená manželství jsou relativně více zastoupena v kooperujících svazcích (70,7%) než v ostatních svazcích (31,9 %, resp. 31,8%) Podmíněné proporce ANABNR2 Test Chí-kvadrát nchí-kvadrát porovnává očekávané a pozorované četnosti v každé buňce nočekávané četnosti jsou četnosti za předpokladu, že proměnné jsou nezávislé tj, jaké bychom očekávali četnosti v každé buňce, pokud by mezi proměnnými nebyla souvislost? ANABNR2 Očekávané četnosti výpočet nočekávané četnosti (expected count) n= (celkový počet v příslušném řádku * celkový počet v příslušném sloupci) / celková velikost vzorku nTj. Oij = (ři * sj )/ N ntj. pro každou buňku tabulky se vynásobí celkové marginální četnosti z příslušného řádku se sloupcovými četnostmi a vydělí celkovým počtem osob) ANABNR2 Příklad výpočtu očekávané četnosti npro první políčko tabulky (vydařená manželství s dominantní matkou) je očekávaná četnost nO11 = (69*65 )/ 154 nO11 = 29,12 n ANABNR2 Chí-kvadrát statistika: výpočet nchí-kvadrát porovná očekávané četnosti s pozorovanými ve všech buňkách tabulky nc2 = S [(pozor. četnosti – oček.)2/oček.] nPř. nc2 = (-7,1)2/29,1 +3,92/25,1 + 3,22/14,8 + (-4.6)2/18,6 + 32/16 + 1,62/9,4 + 11,72/17,3 + (-6,9)2/14,9 + (-4,8)2/8,8 = 18, 71 n ANABNR2 Test Chí-kvadrát: stupně volnosti npro vyhledání kritické hodnoty c2 v tabulce musíme vypočítat počet stupňů volnosti (df) n df = (ř-1) (s-1) n (tj. počet řádků -1 krát počet sloupců -1) n df v našem případě = (3-1) * (3-1) = 4 n nv tabulkách vyhledáme kritickou hodnotu c2 pro df = 4 a 5% hladinu významnosti nc2 krit = 9,49 n ANABNR2 Závěr porovnání vypočtené a kritické hodnoty chi nc2 krit = 9,49 nc2 = 18,71 nzávěr: vypočítaná hodnota je větší než kritická hodnota - očekávané a pozorované četnosti se liší na 5% hladině významnosti (tj. je malá pravděpodobnost, že proměnné jsou nezávislé) n ANABNR2 Výsledek v SPSS nPokud platí nulová hypotéza o nezávislosti mezi proměnnými v populaci, pak pravděpodobnost, že dostanu hodnotu chi=18,712 nebo větší při 4 stupních volnosti je 0,001, proto zamítám nulovou hypotézu. ANABNR2 Chí-kvadrát pro 1 proměnnou ntzv. test dobré shody (goodness-of-fit test) nopět porovnává očekávané a pozorované četnosti npředpokladem očekávaných četností není tentokrát nezávislost proměnných (máme jen 1) ANABNR2 Test dobré shody nJak dobře sedí nulovou hypotézou očekávané rozložení pozorovaným datům ve vzorku njak určíme očekávané četnosti? n2 způsoby: npředpoklad vyplývá z teorie nebo ze znalosti parametru v populaci v minulosti nnebo můžeme předpokládat náhodné rozdělení do kategorií n n ANABNR2 Příklad nje počet sebevražd stejný každý den v týdnu? H0= proporciální rozložení sebevražd v populaci do jednotlivých dnů je stejné nzjistíme data pro rok 2000 (ČR) n ANABNR2 Příklad pondělí 255 úterý 247 středa 240 čtvrtek 206 pátek 236 sobota 192 neděle 226 ANABNR2 Příklad nočekávané četnosti nstejný počet sebevražd pro každý den v týdnu ncelkem 1602 sebevražd nočekávaná četnost pro každý den je 228,9 ANABNR2 Příklad ANABNR2 Příklad nvzorec pro výpočet je stejný nc2 = 13,44 ndf = k -1 (počet kategorií -1) ndf = 6 npro df =6 a 5% hladinu významnosti je c2 krit = 12,59 nrozdíl je statisticky významný ANABNR2 Výstup v SPSS ANABNR2 Omezení (předpoklady) Chí-kvadrátu n2 potenciální problémy: nmalý počet osob – pokud má velké % políček tabulky očekávanou četnost menší než 5 (v ideálním případě by všechna měla mít oček. četnost nejméně 5 osob) npříliš velký počet osob – čím vyšší N, tím vyšší c2 (vyjdou významné i malé rozdíly) ANABNR2 Míry asociace nmíry asociace vyjadřují těsnost vztahu proměnných (a případně směr vztahu) nz chí-kvadrátu se dozvíme pouze, zda nějaký vztah mezi proměnnými existuje (tj. zda se liší četnosti pozorované a četnosti očekávané za předpokladu, že proměnné jsou nezávislé) ANABNR2 Míry asociace ntěsnost (síla) vztahu – vyjádřena absolutní hodnotou koeficientu nnení shoda v tom, od jaké hodnoty je vztah považován za těsný (někdy uváděno >0.70, jindy >0.30), středně těsný či slabý ANABNR2 Míry asociace nsměr vztahu – pouze u ordinálních a kardinálních proměnných npozitivní vztah – čím vyšší hodnoty jedné proměnné, tím vyšší hodnoty druhé proměnné nnegativní vztah - čím vyšší hodnoty jedné proměnné, tím nižší hodnoty druhé proměnné n ANABNR2 Míry asociace pro nominální data nmíry asociace pro nominální data ukazují pouze sílu vztahu dvou proměnných, nikoli směr či jiné informace o povaze vztahu ANABNR2 Míry založené na chí-kvadrátu nvelikost hodnoty chí-kvadrát je ovlivněna velikostí výběru a počtem kategorií tabulky núčelem koeficientů založených na chí-kvadrátu je eliminovat tyto vlivy ANABNR2 Míry založené na chí-kvadrátu nrozsah koeficientů je obvykle mezi 0 a 1 nčím vyšší hodnota, tím těsnější vztah n0 – žádný vztah n1 – absolutní vztah (z hodnot jedné proměnné můžeme předpovědět hodnoty druhé proměnné) npro koeficienty je možno spočítat statistickou významnost ANABNR2 Míry založené na chí-kvadrátu nmezi nejčastěji užívané míry asociace založené na chí-kvadrátu patří koeficienty nFí (Phi) nCramerovo V (Cramer’s V) ANABNR2 Míry založené na chí-kvadrátu nFí koeficient - užívá se pro tabulky 2x2 (tj. pro dichotomické proměnné, např. pohlaví) nvypočte se tak, že se hodnota chí-kvadrátu vydělí počtem osob a výsledek se odmocní ANABNR2 Míry založené na chí-kvadrátu nCramerovo V – podobný výpočet jako Fí; počet osob se navíc násobí počtem řádků - 1 n(pokud je počet řádků menší než počet sloupců, jinak počtem sloupců – 1) npoužívá se pro tabulky větší než 2x2 ANABNR2 Příklad nPř. Jak souvisí model manželství s jeho vydařeností? nChí-kvadrát = 18.71 npočet osob N = 154 nm = počet řádků - 1 = 3 – 1 = 2 ANABNR2 Výpočet Cramerova V ntabulka 3x3 – použijeme Cramerovo V n nV = c2/(N*m) n nV = 18.71/(154*2) n nV = 0,246 ANABNR2 Interpretace nHodnota V = 0,246 je poměrně nízká – vztah mezi modelem manželství a jeho vydařeností není příliš těsný (i když statisticky významný – viz výstup v SPSS)