PSY117 Statistická analýza dat v psychologii Přednáška 11 2016 TESTY PRO KATEGORICKÉ PROMĚNNÉ – NEPARAMETRICKÉ METODY ... a to mělo, jak sám vidíte, nedozírné následky. Smrť Analýza četností hodnot kategorických (=O, N) proměnných oVýzkumné otázky… nLiší se preference politických stran? nLiší se poměrné zastoupení kuřáků mezi ženami a muži? nSouvisí nějak individuální volební preference s odhadem měsíčního příjmu respondenta? oOtázky směřují nbuď k rozdílu četností různých jevů v rámci jedné proměnné (četnost různých jevů v populaci), nk rozdílu četností jevu mezi různými proměnnými (četnost jevu v různých populacích), nNebo k pravděpodobnosti výskytu dvou (či více) jevů současně. AJ: frequency, relative frequency, expected frequency, residuals, Chi-square c2 test dobré shody oLiší se empirické četnosti nějakých jevů od teoreticky očekávaných četností? nPreference politických stran ve volbách… nTedy jedna nominální proměnná, jeden výběr oTestujeme p rozdílu mezi empirickými-pozorovanými (fo) a očekávanými (fe) četnostmi oMírou rozdílu je hodnota c2, která má rozložení c2 s n=k-1 stupni volnosti a průměrem n n o oH0: c2 = n vs. H1: c2 > n n n nk je počet kategorií, n velikost vzorku, ni četnost kat. i, n pi teoretická p-nost jevu v kategorii i; oPro získání pravděpodobnosti c2 CHISQ.DIST(c2; df; 1); CHISQ.INV(p; df) oOčekávané četnosti stanavujeme na základě teoretického předpokladu. oni a npi vždy jako četnosti; nikdy ne procenta (ztráta informace o velikosti vzorku) AJ: Chi-square goodness-of-fit test, observed (empirical) frequency vs. expected frequency Rozdělení c2 http://upload.wikimedia.org/wikipedia/commons/thumb/3/35/Chi-square_pdf.svg/1000px-Chi-square_pdf.s vg.png http://upload.wikimedia.org/wikipedia/en/thumb/e/e2/Chi-square_distributionCDF.svg/1000px-Chi-squar e_distributionCDF.svg.png Ve kterém městě byste žili nejraději? Kategorie n p np (n-np)^2/np Paříž 28 0,2 28 0 New York 28 0,2 28 0 Londýn 28 0,2 28 0 L.A. 28 0,2 28 0 Tokio 28 0,2 28 0 Celkem 140 1 140 0 Chi2 0 P(c2 > 0 | c2 = 4)≈1 Ve kterém městě byste žili nejraději? Kategorie n p np (n-np)^2/np Paříž 38 0,2 28 3,57 New York 37 0,2 28 2,89 Londýn 22 0,2 28 1,29 L.A. 25 0,2 28 0,32 Tokio 18 0,2 28 3,57 Celkem 140 1 140 11,64 Chi2 11,64 P(c2 > 11,64 | c2 = 4)=1-CHISQ.DIST(11,64; 4; 1)=0,02 Závislost kategorických proměnných oJaká je souvislost preference politické strany a úrovně hrubého příjmu voliče? oJaká je pravděpodobnost společného výskytu dvou jevů z x a y možných? oKontingenční tabulka … řádky x sloupce = r x s; i x j oVe těle tabulky jsou četnosti jednotlivých kombinací, v okrajích tzv. marginální četnosti – sumy sloupců nebo řádků. Tedy n12 znamená počet osob ve druhém sloupci prvního řádku; počet osob, u nichž nastal jev A1 a současně B2. Kategorie B1 B2 ... Bs Řádkové součty A1 n11 n12 ... n1s n1. A2 n21 n22 ... n2s n2. ... ... ... ... ... ... Ar ni1 ni2 ... nij ni. Sloupcové součty n.1 n.2 ... n.j n AJ: contingency table (crosstabulation, ctosstab), marginal frequencies Závislost kategorických proměnných oc2 test nezávislosti(homogenity) oOčekávané četnosti fe: mij (očekávaná četnost v i-j-té buňce)(i – řádky, j –sloupce) oTestová statistika je c2 oStupně volnosti: df = (i-1)*(j-1) Kategorie B1 B2 ... Bs Řádkové součty A1 n11 n12 ... n1s n1. A2 n21 n22 ... n2s n2. ... ... ... ... ... ... Ar ni1 ni2 ... nij ni. Sloupcové součty n.1 n.2 ... n.j n Př. c2 test nezávislosti(homogenity) Vztah bydliště a počtu holínek Pozorované Řádková % 0 1 >2 Řádkové součty Velkoměsto 10 67% 1 7% 4 27% 15 Maloměsto 15 43% 19 54% 1 3% 35 Vesnice 15 30% 20 40% 15 30% 50 Sloupcové součty 40 40 20 100 Očekávané/ dílčí c2 0 1 >2 Řádkové součty Velkoměsto 6/ 2,7 6/ 4,2 3/ 0,3 15 Maloměsto 14/ 0,1 14/ 1,8 7/ 5,1 35 Vesnice 20/ 1,3 20/ 0 10/ 2,5 50 Sloupcové součty 40 40 20 100 c2=17,9 df=(3-1)*(3-1)=4 P(c2 > 17,9 | c2 = 4)=0,001 Síla vztahu v kontingenční tabulce AJ: strength of association, contingency coefficient, standardized residuals Pozorované Řádková % St. rezidua 0 1 >2 Řádkové součty Velkoměsto 10 67% 1,6 1 7% -2,0 4 27% 0,6 15 Maloměsto 15 43% 0,3 19 54% 1,3 1 3% -2,3 35 Vesnice 15 30% -1,1 20 40% 0 15 30% 1,6 50 Sloupcové součty 40 40 20 100 kontingenční koeficient C = √(17,9/(17,9+100))=0,4 Cramérovo V =√(17,9/(100*2))=0,3 Testy středních hodnot pro ordinální proměnné – neparametrické metody oMetody užívající parametrů normálního rozložení (m, s) mají svá omezení, když… ndata pochází z rozložení, které se od normálního výrazně liší (tvar, či odlehlé hodnoty) ndata mají spíše ordinální charakter; nebo se jedná o krátké intervalové škály oNeparametrické metody njsou robustní vůči rozložení dat… nmají nižší sílu testu (tj. vyšší požadavky na velikost vzorku) oTesty pro mediány nPro jeden výběr: znaménkový test, Wilcoxonův test nPro párové srovnání: Wilcoxonův test nPro 2 nezávislé výběry: Mann-Whitney U, Kolmogorov-Smirnov Z n Non-parametric, robust, data assumptions, sign test Jeden výběr, znaménkový test oH: Je medián roven k? H0: Md = k; H1: Md ≠ k oPlatí-li H0, mělo by nad i pod hypotetizovaným mediánem být stejné množství případů oAsymptotický test pomocí normálního rozložení: nZ+ (Z− ) je počet hodnot vyšších (nižších) než hypotetizovaný medián nHodnoty rovné mediánu ignorujeme a odečítáme z n nPlatí-li H0, Z + = Z − a Z + + Z − = n. nTestová statistika z = (2Z+ – n)/√n má asymptoticky normální rozložení, (přesně má binomické rozložení). nP=2*(1–NORM.S.DIST(z)) o oJedná se tedy o alternativu t-testu pro jeden výběr; oPro závislé výběry (=párové srovnání) spočítáme di = xi – yi a znaménkovým testem testujeme H0: Mdd = 0. s. 282 v Sheskinovi Neparametrické testy pro nezávislé výběry oMediánový test nJe–li společný medián dvou výběrů shodný, leží na jedné straně Md 50% každého výběru. nUrčíme Md pro celý soubor; pokud platí H0, četnosti hodnot ležících nad i pod Md by měly být stejné pro x i y. nPokud H0 neplatí, budou četnosti výrazně asymetrické, v „diagonále“. nPři n>30 lze užít asymptoticky normálně rozloženou testovou statistiku z: Sk A Sk B ∑ Md c d c+d ∑ a+c b+d n Silnější alternativou je Wilcoxonův test pro nezávislé výběry nebo Mann-Whitney U, popřípadě další. Shrnutí oPro nominální data máme testy založené na chí-kvadrátu nTest dobré shody nTest nezávislosti/homogenity oPro ordinální data a výrazně nenormálně rozložená intervalová máme „neparametrické“ testy nJejich primitivní verze jsem si ukázali n„Pojmenované“ testy je zpřesňují n