12. Analýza kategoriálních dat X2 test dobré shody -Srovnání s teoretickou distribucí -Nominální, ordinální, diskrétní data -Spojitá data kategorizujeme -Předpoklady: kategorie vzájemně nezávislé • očekávané frekvence > 5 - - -ni – pozorované četnosti pro jednotlivé kategorie -nπi – očekávané četnosti při daných pravděpodobnostech πi - - X2 test dobré shody -X2 má pro výběry velkých rozsahů přibližně X2 rozdělení s k-1 stupni volnosti -X má předpokládané rozložení dané pstmi πi => hodnota testové statistiky X2 bude malá, pro velké hodnoty X2 zamítáme H0 -Kritická hodnota = kvantil o df = k-1 stupních volnosti -Pokud ověřujeme pouze typ, ale ne hodnoty parametrů rozložení, musí být parametry z výběru předem odhadnuty => snížení počtu df X2 test dobré shody - příklad •10 000 lidí hází mincí -> rub: 4 000 případů (R) » -> líc: 6 000 případů (L) »Lze výsledek považovat za statisticky významně odlišný od očekávaného poměru R:L = 1:1? - - -Kritická hodnota: -3,84 << 400 => zamítáme H0 o shodnosti očekávaného a pozorovaného poměru X2 test dobré shody - příklad •Studujme rozdělení počtu pacientů, kteří přijdou na zubní pohotovost ve všední den. Ordinační dobu rozdělíme do půlhodinových intervalů a v každé půlhodině zjistíme počet pacientů, kteří se během ní na zubní pohotovost dostavili. Ověřte na 5% hladině významnosti, zda je přijatelný předpoklad o Poissonově rozdělení počtu pacientů. - • Číslo kategorie Počet pacientů Pozorovaná četnost Očekávaná četnost i xi ni nπi 1 0 79 72,97 2 1 188 204,32 3 2 282 286,05 4 3 275 266,98 5 4 196 186,89 6 5 114 104,66 7 6 45 48,84 8 7 10 19,54 9 8 7 6,84 10 9 3 2,13 11 10 1 0,78 12 11 a více 0 0,00 Celkem - 1200 1200,00 H0: Počet příchodů pacientů během 30 min. má Poissonovo rozlož. H1: Počet příchodů pacientů během 30 min. nemá Poissonovo rozlož. Za platnosti H0 pst příchodu určitého počtu pacientů x: λ neznáme => odhadneme jako vážený průměr: Pro λ =2,80 počítáme psti : P(x1=0)=π1, P(x2=1)=π2, … P(x12=11 a více)=π12 Očekávané četnosti: n πi Okrajové třídy spojíme (n πi < 5) df = k – m – 1 = 9 – 1 – 1 = 7 => 8,50 < 14,07 => nezamítáme H0 o Poissonově rozložení 9 8 a více 11 9,75 Kontingenční tabulky -Data kvalitativní, diskrétní kvantitativní, spojité kvantitativní, ale s hodnotami sloučenými do skupin -Dva znaky tohoto typu – kategorie jednoho znaku = řádky, kategorie druhého znaku = sloupce => kontingenční tabulka -Jeden znak r kategorií, druhý znak s kategorií => kontingenční tabulka typu r x s -Kontingenční tabulka typu 2x2 = čtyřpolní tabulka Testy v kontingenčních tabulkách -Hypotéza o shodnosti struktury (1 znaku ve dvou a více výběrech) -Hypotéza o nezávislosti (2 znaků v jednom výběru) -Hypotéza o symetrii (2 znaků či opakovaných měřeních v jednom výběru) Příklady testů - - - - Příklad č.1: Byl studován výskyt mihulí v tocích České republiky. Předběžné výsledky ukázaly, že jejich přítomnost/nepřítomnost v toku není určena současným stupněm znečištění ani znečištěním v minulosti (nelze ale vyloučit jednorázovou intoxikaci). Byly tedy studovány další vlastnosti jednotlivých toků, zvl. mechanické zábrany, které mohou limitovat pohyb kruhoústých a ryb v toku. Toky byly klasifikovány do 2 typů: a) s přítomnosti jezů a splavů zabraňujících zpětnému návratu vodních obratlovců a b) bez přítomnosti jezů a splavů. Bylo celkem vyšetřeno 100 toků. Z nich bylo 50 s jezy a 50 bez jezů. Z toků typu a) byly mihule nalezeny v 10 případech, v tocích typů b) ve 40 případech. Je poměr toků s výskytem/absencí mihulí shodný v obou typech toků (tj. v tocích s bariérami/bez bariér)? Příklad č. 2: Zkoumáme vzájemný výskyt dvou druhů na skalní stepi. Celkem jsme na plochu rozmístili náhodně 100 plošek o rozměru 1x1 m. Na každé ploše jsme zaznamenali přítomnost/nepřítomnost druhu A a druhu B. Oba druhy se vyskytovaly v 36 čtvercích, ani jeden ve 20 čtvercích, pouze druh A se vyskytoval ve 30 čtvercích. Vyskytují se druhy vzájemně nezávisle? Příklad č. 3: Sledujeme skupinu 20 pacientů, kteří byli léčeni dvěma různými hypertenzivy A a B. Každý pacient dostával po dobu 1 měsíce lék A a po odeznění případných účinků po dobu 1 měsíce lék B. Výsledek byl klasifikován jako úspěch (tlak snížen o více než 15 mm Hg) či neúspěch. Liší se léky v účinku? Test hypotézy o shodnosti struktury -Shodnost struktury jednoho ze sledovaných znaků za různých podmínek, které vyjadřují kategorie druhého znaku -Očekávaná četnost = (součet v řádku x součet ve sloupci)/celkový počet pozorování - - -Sčítáme přes všechna políčka v tabulce -Kritická hodnota: kvantil -df=(počet řádků-1)(počet sloupců-1) - - - Čtyřpolní tabulka a b a+b c d c+d a+c b+d n df = 1 Test o shodnosti struktury - příklad kouření/vzdělání základní odborné střední VŠ Suma Nekuřák 14 22 55 73 197 Bývalý kuřák 11 28 44 42 125 Kuřák 14 24 24 17 79 Silný kuřák 78 189 175 106 548 Suma 117 296 298 238 949 df = (r-1)(s-1) = 9 38,68 > 27,88 => zamítáme H0 na hladině významnosti 0,001 Test hypotézy o nezávislosti - příklad •Při studiu vztahu mezi barvou vlasů a očí v populaci Němců antropolog pozoroval náhodný výběr 6800 lidí s těmito výsledky: Barva vlasů Tmavá Světlá Celkem Barva očí Tmavá 726 131 857 Světlá 3129 2814 5943 Celkem 3855 2945 6800 H0: Barva očí je nezávislá na barvě vlasů H0: Barva vlasů je nezávislá na barvě očí H0: Barva očí a barva vlasů jsou vzájemně nezávislé 341,5 > 3,84 => zamítáme H0 o nezávislosti barvy očí a barvy vlasů 313,6 Fisherův exaktní test -Analyzuje všechny možné 2x2 tabulky, které dávají stejnou sumu řádků a sloupců jako zdrojová tabulka -Každé tabulce se přiřazuje pst, že taková situace nastane, je-li H0 pravdivá - - Fisherův exaktní test – ilustrační příklad Delikventi Nedelikventi Celkem Nošení brýlí Ano 1 5 6 Ne 8 2 10 Celkem 9 7 16 Všechny možné varianty tabulky s danou sumou řádků a sloupců Pravděpodobnost náhodného vzniku variant tabulky Test hypotézy o symetrii -Pro 2x2 tabulku => McNemarův test - - - - - -Kritická hodnota: kvantil , kde df=1 -Lze testovat i časový vývoj - Léčba II Léčba I + - Celkem + a b a+b - c d c+d Celkem a+c b+d n McNemar test - příklad •Srovnání dvou metod stanovení antigenu v krvi (antigen vždy přítomen) •H0: metoda I = metoda II Metoda I Metoda II Frekvence úspěch úspěch 202 úspěch neúspěch 60 neúspěch úspěch 42 neúspěch neúspěch 10 Nelze zamítnout H0 o ekvivalentnosti metod