PSY117/454
Statistická analýza dat v psychologii
Přednáška 10
TESTY PRO NOMINÁLNÍ A ORDINÁLNÍ
PROMĚNNÉ ­ NEPARAMETRICKÉ METODY
... a to mělo, jak sám vidíte, nedozírné následky.
Smrť
Analýza četností hodnot nominální proměnné
 Výzkumné otázky...
 Liší se významně preference nějakých politických stran?
 Liší se poměrné zastoupení kuřáků mezi ženami a muži?
 Souvisí nějak individuální volební preference s odhadem měsíčního příjmu respondenta?
 Otázky směřují
 buď k rozdílu četností různých jevů v rámci jedné proměnné (četnost různých jevů v jedné
populaci),
 k rozdílu četností jevu mezi různými proměnnými (četnost jevu v různých populacích),
 Nebo k pravděpodobnosti výskytu dvou (či více) jevů současně.
 Nominální proměnná
 Též kategoriální, alternativní
 Zařazení jevu do určité kategorie
 Jednotlivé kategorie musí být vzájemně disjunktní ­ metodologie & logika věci
 Kategorie mohou vzniknout i transformací z proměnné vyššího řádu ­ kategorizace pořadí, známek ve
škole, ,,nižší úzkost x vyšší úzkost" atd.
 Ordinální proměnné o málo opakujících se pořadích (k<10) mohou být analyzovány jako nominální
 Klíčová slova
 Četnost, relativní četnost, očekávaná četnost, rezidua, 2 (Chi-kvadrát)
AJ: frequency, relative frequency, expected frequency, residuals, Chi-square
Rozdělení Chi2
c2 ­ test dobré shody
 Liší se empirické četnosti nějakých jevů od teoreticky očekávaných četností?
 Házení kostkou ­ kolikrát padne 1,2,...
 Preference politických stran ve volbách...
 Tedy jedna nominální proměnná, jeden výběr
 Testujeme pravděpodobnost daného rozdílu mezi empirickými a očekávanými
hodnotami v rámci jednoho výběru
 H0: F(x) = F0(x) vs. H1: F(x)  F0(x)
 k je počet kategorií, n velikost vzorku, ni pozorovaná četnost v kat. i, pi teoretická pravděpodnost jevu v kategorii (0 až 1);
ni = npi
 Rozdělení c2; stupně volnosti df = k-1
 Překoná-li hodnota c2 kritickou mez, H0 zamítáme.
 Pro získání pravděpodobnosti c2 CHIDIST(x,volnost); CHIINV(prst, volnost)
 Očekávané četnosti... při uniformním rozložení 1:1:1...; nebo libovolně teoreticky
odvozené (10:24:32...)
 Ni i NPi vždy jako četnosti; nikdy ne procenta = relativní četnosti (ztráta
informace o velikosti vzorku.


k
i i
ii
np
npn
1
2
2 )(
c
AJ: Chi-square goodness-of-fit test, observed (empirical) frequency vs. expected frequency
Ve kterém měste by jste žili
nejraději?
Kategorie n p np (n-np)^2/np
Paříž 28 0,2 28 0
New York 28 0,2 28 0
Londýn 28 0,2 28 0
L.A. 28 0,2 28 0
Tokio 28 0,2 28 0
Celkem 140 1 140 0
Chi2 0 p 1,000
Uniformní/náhodné rozdělení


k
i i
ii
np
npn
1
2
2 )(
c
Ve kterém měste by jste žili
nejraději?


k
i i
ii
np
npn
1
2
2 )(
c
Kategorie n p np (n-np)^2/np
Paříž 38 0,2 28 3,57
New York 37 0,2 28 2,89
Londýn 22 0,2 28 1,29
L.A. 25 0,2 28 0,32
Tokio 18 0,2 28 3,57
Celkem 140 1 140 11,64
Chi2 11,64 p 0,02
Empirické rozdělení
Závislost kategoriálních proměnných
 Jaká je souvislost preference politické strany a úrovně hrubého příjmu voliče?
 Jaká je pravděpodobnost společného výskytu dvou jevů z x a y možných?
Podmínka disjunkce!
 Kontingenční tabulka ... řádky x sloupce = r x s; i x j
 Ve těle tabulky jsou četnosti jednotlivých kombinací, v okrajích tzv. marginální
četnosti ­ sumy sloupců nebo řádků. Tedy n12 znamená počet osob ve druhém
sloupci prvního řádku; počet osob, u nichž nastal jev A1 a současně B2.
Kategorie B1 B2 ... Bs Řádkové součty
A1 n11 n12 ... n1s n1.
A2 n21 n22 ... n2s n2.
... ... ... ... ... ...
Ar ni1 ni2 ... nij ni.
Sloupcové součty n.1 n.2 ... n.j n
AJ: contingency table (crosstabulation, ctosstab), marginal frequencies
Závislost kategoriálních proměnných
 Postup analogický, jako u jednorozměrné verze testu dobré shody c2
 Očekávané četnosti: mij (očekávaná četnost v i-j-té buňce)(i ­ řádky, j ­sloupce)
 Testová statistika je c2
 Stupně volnosti: df = (i-1)*(j-1)
n
nn
m
ji
ij
..
  

r
r
s
j ij
ijij
m
mn
1 1
2
2
)(
c
Kategorie B1 B2 ... Bs Řádkové součty
A1 n11 n12 ... n1s n1.
A2 n21 n22 ... n2s n2.
... ... ... ... ... ...
Ar ni1 ni2 ... nij ni.
Sloupcové součty n.1 n.2 ... n.j n
Síla vztahu v kontingenční tabulce
 Koeficient kontingence (Pearson) Ckor
 Cramerovo V
 Oba koeficienty v intervalu (0;1). Neindikují ovšem žádným způsobem ,,směr" vztahu. Směrů je v kontingenční
tabulce mnoho :-)
 A proto... jsou kontingenční tabulky mnohdy účelné i tehdy, máme-li k dispozici data
na vyšší úrovni měření.
 Možnost odhalení nelineárních vztahů
 Skrze výpočet reziduí, tj. rozdílů mezi pozorovanou a očekávanou četností: nij ­ mij = resi
 tyto ,,zbytkové" hodnoty lokalizují odchylky od pravděpodobnostního rozdělení
 Součet residuí v tabulce je vždy nula
 Standardizovaná rezidua (Pearsonova): R = (nij ­ mij)/ mij
 rozdělení standardizovaných reziduí je normální s průměrem 0 a sm. odchylkou 1; tedy R  +- 1,96
jsou ,,zajímavá" pro interpretaci, významně přispívají k signifikanci 2 .
 Analýza tabulky skrze 2 je nespolehlivá, je-li min(mij) < 5. I řídké jevy musí mít šanci 
 Hendl str. 297 ­ 313.
AJ: strength of association, contingency coefficient, standardized residuals
Testy středních hodnot pro ordinální
proměnné ­ neparametrické metody
 Metody užívající parametrů normálního rozložení nejsou dobře použitelné
v případech, kdy
 Data nepochází z normálního rozložení
 Data mají ordinální charakter; nebo se jedná o krátké intervalové škály
 Jsou malé výběry
 Obecně parametry m, s nedávají dobrou informaci
 Neparametrické metody problém překonávají, jsou robustní vůči rozložení
dat... (nezávisí na parametrech norm. rozl.)
 Pro jeden výběr: znaménkový, ...
 Pro párové srovnání: Marginal Homogeneity, ...
 Pro 2 nezávislé výběry: Mann-Whitney U, Kolmogorov-Smirnov Z
 a mnoho dalších...
 na velkém vzorku je ale koneckonců robustní i t-test ­ platnost centrální limitní
věty; ovšem pozor na bimodalitu a další ,,zvláštní jevy".
Non-parametric, robust, data assumptions, sign test, sample distribution etc.
Jeden výběr, znaménkový test
 Je ,,průměrná" známka z matematiky v nějaké třídě ,,2"?
 Liší se empirická hodnota medianu od stanovené?
 H0: Md = Md0; H1: Md  Md0 ... =>
 H0: 2 = 2
0; H1: 2  2
0
 Pokud se hodnoty mediánů shodují, mělo by nad i pod teoretickým
medianem být stejné množství případů
 Asymptotický test pomocí normálního rozdělení:
 rozdíly di = xi ­ Md0; Z+ je počet kladných rozdílů, analogicky Z-; di = 0
ignorujeme.
 Platí-li H0, Z+= Z-. Z+ + Z- = n.
 Testovací statistika:
z = (2Z+ - n)/n
 Padne-li statistika z do intervalu z/2, H0 nezamítáme.
 z má tvar asymptoticky normálního rozdělení, přesný test by využil
binomického rozdělení.
 Jedná se tedy o alternativu t-testu pro jediný výběr;
 Pro závislé výběry (=párové srovnání) di = xi ­ yi; znaménkovým testem
zkoumáme, zda pro H0 střední hodnota d = 0.
Neparametrické testy pro nezávislé
výběry
 Mediánový test
 Je­li společný medián dvou výběrů shodný, leží na jedné straně Md
50% každého výběru.
 Určíme Md pro celý soubor; pokud platí H0, četnosti hodnot ležících
nad i pod Md by měly být stejné pro x i y.
 Pokud H0 neplatí, budou četnosti výrazně asymetrické, v ,,diagonále".
 V asymptotické verzi testu je možné použít kvantily normálního
rozložení pro:
))()()((
)(
dccadbba
nbcad
z


x y 
<Md a b a+b
>Md c d c+d
 a+c b+d n
Silnější alternativou je Wilcoxonův test pro nezávislé výběry nebo
Mann-Whitney U, popřípadě další.