Neparametrické testy o parametrické a neparametrické testy o pořadové neparametrické testy o test Chí-kvadrát n test nezávislosti proměnných n test dobré shody Parametrické testy o t-testy a analýza rozptylu jsou tzv. parametrické testy o parametr = charakteristika populace (průměr, rozptyl) o parametrické testy používají při výpočtech charakteristiky populace (parametry) Parametrické testy o parametrické testy pracují s předpoklady o charakteristikách populace o např. u t-testu předpokládáme, že směrodatné odchylky výběrů mohou posloužit jako odhad pro směrodatnou odchylku populace o podobně počítají s normálním rozdělením měřeného znaku Parametrické testy o pokud nejsou tyto předpoklady splněny, můžeme dojít k nepřesným výsledkům Neparametrické testy o neparametrické testy nezávisí na charakteristikách populace ani o nich nečiní žádné závěry o není vyžadováno normální rozdělení znaku o proto jsou tyto testy označovány také jako "distribution-free" testy Neparametrické testy o proč potom vůbec používat parametrické testy? n mnoho parametrických testů je poměrně "odolných" (tzv. robustních) vůči narušení předpokladů testu (např. menší odchylky od normálního rozdělení výsledky nezkreslí) n parametrické testy mají větší statistickou sílu než neparametrické (větší pravděpodobnost zjištění rozdílu, pokud skutečně existuje) n pro některé typy analýz neparametrické metody nejsou (např. neexistuje obecně přijímaná neparametrická faktoriální ANOVA) Neparametrické testy o hlavní výhody neparametrických testů n nejsou omezeny předpokladem normálního rozdělení n jsou často založeny na pořadí, dají se použít i pro ordinální data (kde můžeme spočítat pouze medián, nikoli průměr) i pro nominální (test Chí-kvadrát) n nejsou citlivé na extrémní hodnoty (jsou většinou založeny na mediánu) Neparametrické testy o hlavní nevýhody neparametrických testů n menší statistická síla n pro složitější analýzy často není neparametrická varianta metody k dispozici Neparametrické testy o přehled neparametrických ekvivalentů parametrických testů n t-test pro nezávislé výběry -- Mann-Whitney U test n t-test pro závislé výběry -- Wilcoxon test n analýza rozptylu -- Kruskall-Wallis test n opakovaná měření (ANOVA) -- Friedman Rank Test Mann-Whitney U test - příklad o chceme zjistit, zda se levoruké a pravoruké osoby liší v prostorových schopnostech o náhodně vybereme 10 leváků a 10 praváků (podobného věku, stejný počet mužů a žen) a zadáme jim test prostorových schopností Mann-Whitney U test - příklad o jaká bude naše hypotéza? Mann-Whitney U test - příklad o jaká bude naše hypotéza? n skóry v testu prostorových schopností se liší u leváků a praváků Mann-Whitney U test - příklad o jaká bude nulová hypotéza? Mann-Whitney U test - příklad o jaká bude nulová hypotéza? n skóry v testu prostorových schopností se u leváků a praváků neliší o testujeme nulovou hypotézu (začneme s předpokladem, že platí a ptáme se: jaká je pravděpodobnost pozorovaných rozdílů, pokud H0 platí?) Mann-Whitney U test - příklad Mann-Whitney U test - příklad Mann-Whitney U test - příklad o na základě takto malého vzorku nemůžeme rozhodnout, zda je rozdělení skorů z testu prostorových schopností normální o počty osob ve skupinách jsou příliš malé (9 a 10) o vhodnější než t-test bude proto neparametrický test Mann-Whitney U test - příklad o 1. krok n seřadit skóry podle velikosti - bez ohledu na skupinu n a přidělit jim pořadí (rank) Mann-Whitney U test - příklad o 2. krok n sečíst pořadí v obou skupinách S R[1] = 114,5 S R[2] = 75,5 (pokud se leváci a praváci neliší, průměrné pořadí skórů by mělo být u obou skupin podobné) Mann-Whitney U test - příklad o 3. krok n vypočítat U pro obě skupiny n podle vzorce U[1] = (n[1])(n[2]) + n[1] (n[1]+1)/2 - S R[1 ]U[2] = (n[1])(n[2]) + n[2] (n[2]+1)/2 - S R[2] Mann-Whitney U test - příklad o výpočet U U[1] = (n[1])(n[2]) + n[1] (n[1]+1)/2 - S R[1 ]U[1] = (9)(10) + 9 (9+1)/2 -- 114,5 U[1] = 20,5 [ ]U[2] = (n[1])(n[2]) + n[2] (n[2]+1)/2 - S R[2 ]U[2] = (9)(10) + 10(10+1)/2 -- 75,5 U[2] = 69,5 Mann-Whitney U test - příklad o 4. krok n vybrat menší z vypočítaných U [n ] v našem příkladu je to U[1] (=20,5) o 5. krok n najít v tabulce kritickou hodnotu U pro zvolenou hladinu významnosti n pro a = .05, při n[1] = 9 a n[2] = 10 U[krit.]=20 [ ]Mann-Whitney U test - příklad o 6. krok n porovnat vypočítanou hodnotu U a kritickou hodnotu U n u tohoto testu je rozdíl statisticky významný, pokud je vypočítaná hodnota menší než kritická hodnota U [n ] 20,5 není menší než 20 `a nemůžeme zamítnout nulovou hypotézu [ ]Mann-Whitney U test - příklad o závěr: rozdíl mezi leváky a praváky v testu prostorových schopností není statisticky významný o neznamená to nutně, že kdybychom prozkoumali celou populaci leváků a praváků, nebyl by mezi nimi rozdíl -- pouze se nám tento rozdíl nepodařilo prokázat (hlavně díky malému N) Test Chí-kvadrát o chí-kvadrát může být použit n pro testování rozdělení jedné proměnné (test dobré shody) n testování nezávislosti dvou proměnných Test Chí-kvadrát o chí-kvadrát pro testování nezávislosti proměnných se používá pro nominální nebo ordinální proměnné o data jsou uspořádána do tzv. kontingenční tabulky (viz příklad) Příklad o zajímá nás, jak souvisí model manželství s jeho vydařeností n model manželství má kategorie: dominance žena, dominance muž, kooperace n vydařenost má 3 kategorie -- vydařené, průměrné, nevydařené o pozn.: jde o manželství rodičů respondentů, tak jak je posuzují oni (zdroj dat -- výzkum doc. Plaňavy) Příklad o otázka zní: liší se podíl vydařených, průměrných a nevydařených manželství u rodin, kde dominovala matka, rodin, kde dominoval otec a u rodin, kde nedominoval ani jeden z nich? Kontingenční tabulka Test Chí-kvadrát o chí-kvadrát porovnává očekávané a pozorované četnosti o očekávané jsou četnosti za předpokladu, že proměnné jsou nezávislé Příklad o v našem příkladu bylo 42,2% vydařených manželství o pokud by proměnné (model a vydařenost manželství) byly vzájemně nezávislé, poměr vydařených manželství v jednotlivých modelech manželství by měl být přibližně stejný (a odrážet celkový podíl) -- 42% o podobně ostatní kategorie... Test Chí-kvadrát o očekávané četnosti -- výpočet: O[ij] = (ř[i] s[j] )/ N (pro každé políčko tabulky se vynásobí celkové četnosti z příslušného řádku se sloupcovými četnostmi a vydělí celkovým počtem osob) Příklad Příklad o pro první políčko tabulky (vydařená manželství s dominantní matkou) je očekávaná četnost O[ij] = (ř[i] s[j] )/ N O[11] = (ř[1] s[1] )/ N O[11] = (69*65 )/ 154 O[11] = 29,12 Očekávané četnosti Test Chí-kvadrát o chí-kvadrát porovná očekávané četnosti s pozorovanými c^2 = S [(pozor. četnosti -- oček.)^2/oček.] Příklad c^2 = S [(pozor. četnosti -- oček.)^2/oček.] c^2 = (-7,1)^2/29,1 +3,9^2/25,1 + 3,2^2/14,8 + (-4.6)^2/18,6 + 3^2/16 + 1,6^2/9,4 + 11,7^2/17,3 + (-6,9)^2/14,9 + (-4,8)^2/8,8 c^2 = 18, 71 Test Chí-kvadrát o pro vyhledání kritické hodnoty c^2 v tabulce musíme vypočítat ještě počet stupňů volnosti (df) o df = (ř-1) (s-1) (tj. počet řádků -1 krát počet sloupců -1) Příklad o df = (ř-1) (s-1) df = (3-1) * (3-1) df = 4 o v tabulkách vyhledáme kritickou hodnotu c^2 pro df = 4 a 5% hladinu významnosti o c^2 [krit] = 9,49 Příklad o c^2 [krit] = 9,49 o c^2 = 18,71 o závěr: vypočítaná hodnota je větší než kritická hodnota - očekávané a pozorované četnosti se liší na 5% hladině významnosti (tj. je malá pravděpodobnost, že proměnné jsou nezávislé) Test Chí-kvadrát ve Statistice o Pearsonův chí-kv. : 18,7117, sv=4, p=,000896 Chí-kvadrát pro 1 proměnnou o tzv. test dobré shody (goodness-of-fit test) o opět porovnává očekávané a pozorované četnosti o předpokladem očekávaných četností není tentokrát nezávislost proměnných (máme jen 1) Test dobré shody o jak určíme očekávané četnosti? o 2 způsoby: n předpoklad vyplývá z teorie (např. u genetických dat -- poměr osob s projevem dominantní a recesivní alely) n nebo můžeme předpokládat náhodné rozdělení do kategorií Příklad o je počet sebevražd stejný každý den v týdnu? o zjistíme data pro rok 2000 (ČR) Příklad Příklad o očekávané četnosti n stejný počet sebevražd pro každý den v týdnu n celkem 1602 sebevražd n očekávaná četnost pro každý den je 228,9 Příklad Příklad o vzorec pro výpočet je stejný o c^2 = 13,44 o df = k -1 (počet kategorií -1) o df = 6 o pro df =6 a 5% hladinu významnosti je c^2 [krit] = 12,59 o rozdíl je statisticky významný Příklad Omezení Chí-kvadrátu o 2 potenciální problémy: n malý počet osob -- pokud má velké % políček tabulky očekávanou četnost menší než 5 (v ideálním případě by všechna měla mít oček. četnost nejméně 5 osob) n příliš velký počet osob -- čím vyšší N, tím vyšší c^2 (vyjdou významné i malé rozdíly) Kontrolní otázky o hlavní rozdíl mezi parametrickými a neparametrickými testy o výhody a nevýhody neparametrických testů o kdy je možno využít chí--kvadrát jako test nezávislosti proměnných? (pro jaké typy proměnných?) o kdy se chí--kvadrát využívá jako test dobré shody?