Neparametrické testy oparametrické a neparametrické testy opořadové neparametrické testy otest Chí-kvadrát ntest nezávislosti proměnných ntest dobré shody Parametrické testy ot-testy a analýza rozptylu jsou tzv. parametrické testy oparametr = charakteristika populace (průměr, rozptyl) oparametrické testy používají při výpočtech charakteristiky populace (parametry) Parametrické testy oparametrické testy pracují s předpoklady o charakteristikách populace onapř. u t-testu předpokládáme, že směrodatné odchylky výběrů mohou posloužit jako odhad pro směrodatnou odchylku populace opodobně počítají s normálním rozdělením měřeného znaku Parametrické testy opokud nejsou tyto předpoklady splněny, můžeme dojít k nepřesným výsledkům Neparametrické testy oneparametrické testy nezávisí na charakteristikách populace ani o nich nečiní žádné závěry onení vyžadováno normální rozdělení znaku oproto jsou tyto testy označovány také jako „distribution-free“ testy Neparametrické testy oproč potom vůbec používat parametrické testy? nmnoho parametrických testů je poměrně „odolných“ (tzv. robustních) vůči narušení předpokladů testu (např. menší odchylky od normálního rozdělení výsledky nezkreslí) nparametrické testy mají větší statistickou sílu než neparametrické (větší pravděpodobnost zjištění rozdílu, pokud skutečně existuje) npro některé typy analýz neparametrické metody nejsou (např. neexistuje obecně přijímaná neparametrická faktoriální ANOVA) Neparametrické testy ohlavní výhody neparametrických testů nnejsou omezeny předpokladem normálního rozdělení njsou často založeny na pořadí, dají se použít i pro ordinální data (kde můžeme spočítat pouze průměr, nikoli medián) i pro nominální (test Chí-kvadrát) nnejsou citlivé na extrémní hodnoty (jsou většinou založeny na mediánu) n Neparametrické testy ohlavní nevýhody neparametrických testů nmenší statistická síla npro složitější analýzy často není neparametrická varianta metody k dispozici n Neparametrické testy opřehled neparametrických ekvivalentů parametrických testů nt-test pro nezávislé výběry – Mann-Whitney U test nt-test pro závislé výběry – Wilcoxon test nanalýza rozptylu – Kruskall-Wallis test nopakovaná měření (ANOVA) – Friedman Rank Test n n Test Chí-kvadrát ochí-kvadrát může být použit npro testování rozdělení jedné proměnné (test dobré shody) ntestování nezávislosti dvou proměnných Test Chí-kvadrát ochí-kvadrát pro testování nezávislosti proměnných se používá pro nominální nebo ordinální proměnné odata jsou uspořádána do tzv. kontingenční tabulky (viz příklad) Příklad ozajímá nás, jak souvisí model manželství s jeho vydařeností nmodel manželství má kategorie: dominance žena, dominance muž, kooperace nvydařenost má 3 kategorie – vydařené, průměrné, nevydařené opozn.: jde o manželství rodičů respondentů, tak jak je posuzují oni (zdroj dat – výzkum doc. Plaňavy) Příklad ootázka zní: liší se podíl vydařených, průměrných a nevydařených manželství u rodin, kde dominovala matka, rodin, kde dominoval otec a u rodin, kde nedominoval ani jeden z nich? Kontingenční tabulka (SPSS) Test Chí-kvadrát ochí-kvadrát porovnává očekávané a pozorované četnosti oočekávané jsou četnosti za předpokladu, že proměnné jsou nezávislé Příklad ov našem příkladu bylo 42,2% vydařených manželství opokud by proměnné (model a vydařenost manželství) byly vzájemně nezávislé, poměr vydařených manželství v jednotlivých modelech manželství by měl být přibližně stejný (a odrážet celkový podíl) – 42% opodobně ostatní kategorie… Test Chí-kvadrát oočekávané četnosti – výpočet: nOij = (ři sj )/ N o o (pro každé políčko tabulky se vynásobí celkové četnosti z příslušného řádku se sloupcovými četnostmi a vydělí celkovým počtem osob) Příklad Příklad opro první políčko tabulky (vydařená manželství s dominantní matkou) je očekávaná četnost nOij = (ři sj )/ N nO11 = (ř1 s1 )/ N nO11 = (69*65 )/ 154 nO11 = 29,12 o Očekávané četnosti Test Chí-kvadrát ochí-kvadrát porovná očekávané četnosti s pozorovanými o nc2 = S [(pozor. četnosti – oček.)2/oček.] Příklad nc2 = S [(pozor. četnosti – oček.)2/oček.] nc2 = (-7,1)2/29,1 +3,92/25,1 + 3,22/14,8 + (-4.6)2/18,6 + 32/16 + 1,62/9,4 + 11,72/17,3 + (-6,9)2/14,9 + (-4,8)2/8,8 nc2 = 18, 71 Test Chí-kvadrát opro vyhledání kritické hodnoty c2 v tabulce musíme vypočítat ještě počet stupňů volnosti (df) o df = (ř-1) (s-1) o o (tj. počet řádků -1 krát počet sloupců -1) Příklad odf = (ř-1) (s-1) o df = (3-1) * (3-1) o df = 4 ov tabulkách vyhledáme kritickou hodnotu c2 pro df = 4 a 5% hladinu významnosti oc2 krit = 9,49 o o Příklad oc2 krit = 9,49 oc2 = 18,71 ozávěr: vypočítaná hodnota je větší než kritická hodnota - očekávané a pozorované četnosti se liší na 5% hladině významnosti (tj. je malá pravděpodobnost, že proměnné jsou nezávislé) o Test Chí-kvadrát v SPSS Chí-kvadrát pro 1 proměnnou otzv. test dobré shody (goodness-of-fit test) oopět porovnává očekávané a pozorované četnosti opředpokladem očekávaných četností není tentokrát nezávislost proměnných (máme jen 1) Test dobré shody ojak určíme očekávané četnosti? o2 způsoby: npředpoklad vyplývá z teorie (např. u genetických dat – poměr osob s projevem dominantní a recesivní alely) nnebo můžeme předpokládat náhodné rozdělení do kategorií n n Příklad oje počet sebevražd stejný každý den v týdnu? ozjistíme data pro rok 2000 (ČR) o Příklad pondělí 255 úterý 247 středa 240 čtvrtek 206 pátek 236 sobota 192 neděle 226 Příklad oočekávané četnosti nstejný počet sebevražd pro každý den v týdnu ncelkem 1602 sebevražd nočekávaná četnost pro každý den je 228,9 Příklad Příklad ovzorec pro výpočet je stejný oc2 = 13,44 odf = k -1 (počet kategorií -1) odf = 6 opro df =6 a 5% hladinu významnosti je c2 krit = 12,59 orozdíl je statisticky významný Výstup v SPSS Omezení Chí-kvadrátu o2 potenciální problémy: nmalý počet osob – pokud má velké % políček tabulky očekávanou četnost menší než 5 (v ideálním případě by všechna měla mít oček. četnost nejméně 5 osob) npříliš velký počet osob – čím vyšší N, tím vyšší c2 (vyjdou významné i malé rozdíly) Míry asociace oobecná definice – síla a směr vztahu omíry asociace pro nominální data nzaložené na chí-kvadrátu nPRE míry omíry asociace pro ordinální data o Míry asociace omíry asociace vyjadřují těsnost vztahu proměnných (a případně směr vztahu) oz chí-kvadrátu se dozvíme pouze, zda nějaký vztah mezi proměnnými existuje (tj. zda se liší četnosti pozorované a četnosti očekávané za předpokladu, že proměnné jsou nezávislé) Míry asociace otěsnost (síla) vztahu – vyjádřena absolutní hodnotou koeficientu onení shoda v tom, od jaké hodnoty je vztah považován za těsný (někdy uváděno >0.70, jindy >0.30), středně těsný či slabý Míry asociace osměr vztahu – pouze u ordinálních a kardinálních proměnných opozitivní vztah – čím vyšší hodnoty jedné proměnné, tím vyšší hodnoty druhé proměnné onegativní vztah - čím vyšší hodnoty jedné proměnné, tím nižší hodnoty druhé proměnné o Míry asociace pro nominální data omíry asociace pro nominální data ukazují pouze sílu vztahu dvou proměnných, nikoli směr či jiné informace o povaze vztahu orozlišujeme míry založené na chí-kvadrátu a míry PRE o Míry založené na chí-kvadrátu ovelikost hodnoty chí-kvadrát je ovlivněna velikostí výběru a počtem kategorií tabulky oúčelem koeficientů založených na chí-kvadrátu je eliminovat tyto vlivy Míry založené na chí-kvadrátu orozsah koeficientů je obvykle mezi 0 a 1 nčím vyšší hodnota, tím těsnější vztah n0 – žádný vztah n1 – absolutní vztah (z hodnot jedné proměnné můžeme předpovědět hodnoty druhé proměnné) opro koeficienty je možno spočítat statistickou významnost Míry založené na chí-kvadrátu omezi nejčastěji užívané míry asociace založené na chí-kvadrátu patří koeficienty nFí (Phi) nCramerovo V (Cramer’s V) nkoeficient kontingence (Contingency Coefficient) Míry založené na chí-kvadrátu oFí koeficient - užívá se pro tabulky 2x2 (tj. pro dichotomické proměnné, např. pohlaví) ovypočte se tak, že se hodnota chí-kvadrátu vydělí počtem osob a výsledek se odmocní Míry založené na chí-kvadrátu okoeficient kontingence – užívá se někdy místo Fí pro tabulky větší než 2x2 obohužel jeho max. hodnota je nižší než 1 (závisí na počtu políček tabulky) oneužívá se proto příliš často Míry založené na chí-kvadrátu oCramerovo V – podobný výpočet jako Fí; počet osob se navíc násobí počtem řádků - 1 n(pokud je počet řádků menší než počet sloupců, jinak počtem sloupců – 1) opoužívá se pro tabulky větší než 2x2 Příklad opříklad z minulé přednášky - jak souvisí model manželství s jeho vydařeností oChí-kvadrát = 18.71 opočet osob N = 154 om = počet řádků - 1 = 3 – 1 = 2 Kontingenční tabulka (SPSS) Příklad otabulka 3x3 – použijeme Cramerovo V o oV = c2/(N*m) o oV = 18.71/(154*2) o oV = 0,246 Příklad ointerpretace: hodnota 0,246 je poměrně nízká – vztah mezi modelem manželství a jeho vydařeností není příliš těsný (i když statisticky významný – viz výstup v SPSS) ov SPSS jsou uvedeny oba koeficienty (Fí i V), je třeba zvolit ten správný pro každou tabulku Výstup v SPSS Míry PRE oPRE je zkratka pro Proportional Reduction in Error (poměrná redukce chyby odhadu) oprincip PRE: porovnání odhadu hodnot závislé proměnné bez znalosti hodnot nezávislé proměnné a s její znalostí (o kolik se sníží chyba odhadu?) Míry PRE opříklad – jaký je vztah mezi pohlavím a užíváním rtěnky?* ovypočítáme koeficient lambda opokud bychom měli odhadnout, zda náhodně vybraný respondent používá rtěnku: jaká je pravděpodobnost chybného odhadu? o o*převzat z Disman: Jak se vyrábí sociologická znalost o Míry PRE omůžeme očekávat, že více lidí rtěnku nepoužívá než používá (naprostá většina mužů + některé ženy) otakže bude výhodnější odhadnout, že náhodně vybraný respondent rtěnku nepoužívá opravděpodobnost chyby závisí na podílu lidí užívajících rtěnku Míry PRE Míry PRE opři tomto podílu osob je pravděpobnost chyby asi 40% (když budeme odhadovat, že nádodný respondent rtěnku neužívá) oze 160 případů bychom se zmýlili 63x Míry PRE oo kolik by se chyba zmenšila, kdybychom znali pohlaví respondenta? opro muže bychom odhadovali, že rtěnku nepoužívá, pro ženu naopak - že ji používá Míry PRE Míry PRE opokud bychom znali pohlaví respondenta, zmýlili bychom se ve svém odhadu 21x (2 x u muže a 19x u ženy) oo kolik by se náš odhad zlepšil? Míry PRE ochyby předtím – chyby teď = 63-21 = 42 opoměrná redukce chyby (tj. vzhledem k předchozím chybám) = lambda = 42/63 = 0,667 ochyba v odhadu užívání rtěnky se sníží asi o 67%, pokud známe pohlaví respondenta Míry PRE orozsah koeficientu lambda je od 0 do 1 o0 znamená, že znalost hodnoty nezávislé proměnné vůbec nesníží chybu v odhadu hodnot závislé proměnné; proměnné jsou vzájemně nezávislé očím blíže 1, tím lépe můžeme z hodnot nezávislé proměnné předpovědět hodnoty závislé proměnné Míry PRE ov SPSS jsou počítány 3 varianty koeficientu lambda nsymetrická – není určeno, co je závislá a co nezávislá proměnná n2 asymetrické – pro proměnnou 1 jako závislou a pro proměnnou 2 jako závislou Výstup v SPSS Míry PRE pro nominální data okromě koeficientu lambda se užívají také nGoodmanovo a Kruskalovo tau (nevyužívá při predikci nejčastější kategorii závislé proměnné jako lambda, ale rozdělení ve všech kategoriích závisle proměnné) nCohenova Kappa – pro měření shody dvou posuzovatelů Míry asociace pro ordinální data ou ordinálních dat je výpočet založen na poměru souhlasných a nesouhlasných párů případů osouhlasný pár případů – hodnota obou proměnných je vyšší (nebo nižší) u jednoho člena páru onesouhlasný pár případů – hodnota jedné proměnné je u jednoho člena páru vyšší a hodnota druhé proměnné je nižší o o Míry asociace pro ordinální data opokud je většina párů souhlasných, je hodnota gamma kladná – tj. pozitivní vztah (až +1) opokud je většina párů nesouhlasných, je hodnota gamma záporná – tj. negativní vztah (až -1) opokud je počet souhlasných a nesouhlasných párů vyrovnán – gamma kolem 0 o Míry asociace pro ordinální data ogamma je symetrická míra – nedělá rozdíly mezi závislou a nezávislou proměnnou oasymetrická varianta koeficientu gamma – Somersovo D oKendallovo tau b– bere v úvahu i nerozhodné páry (tzv. ties); ale hodnoty v rozsahu -1 až +1 mohou být získány pouze pro čtvercové tabulky (tj. stejný počet kategorií obou proměnných) o Shrnutí ou nominálních dat hodnota míry asociace proměnných indikuje sílu vztahu – rozsah od 0 do 1 nnejužívanější Fí nebo Cramerovo V; když víme, která proměnná nezávislá - lambda ou ordinálních dat míry asociace indikují jak sílu vztahu (abs. hodnota koeficientu), tak směr vztahu Kontrolní otázky ohlavní rozdíl mezi parametrickými a neparametrickými testy ovýhody a nevýhody neparametrických testů okdy je možno využít chí–kvadrát jako test nezávislosti proměnných? (pro jaké typy proměnných?) okdy se chí–kvadrát využívá jako test dobré shody? o Kontrolní otázky ok čemu slouží míry asociace proměnných? orozdíl mezi mírami založenými na chí-kvadrátu a mírami PRE onejužívanější míry pro nominální data onejužívanější míry pro ordinální data