PŘEHLED STATISTICKÝCH METOD 7 ANALÝZA ZÁVISLOSTÍ .v, a >', tato pořadí přiřadit. Jestliže dvě Čísla v řadě hodnot a,, resp. y, jsou stejná, přiřadíme jim průměrnou hodnotu příslušných pořadí. Obdobně provedeme tuto úpravu pro více stejných hodnot. V každé řadě nesmí být více než 1/5 pozorování stejných. Pokud se tak stane, musíme celý výpočet upravit. PŘÍKLAD 7.7 Výpočet Spearmanova korelačního koeficientu Výpočet rs si ukážeme pro hodnoty z tabulky 7.10: r- = 1 6 x 26 - o ftA 10(100-1} Tab. 7.10 Přiklad postupu při výpočtu Spearmanova korelačního koeficientu pořadí X y /?, Ry D = fíx - R y D* D 187 72 10,00 6,50 3,50 12,25 170 60 1,00 1,00 0.00 0,00 180 73 6.50 8,00 -1,50 2,25 184 74 8,00 9,00 -1,00 1,00 178 72 5,00 6,50 -1.50 2,25 ■30 70 6,50 4,50 2,00 4,00 172 62 2,00 2,00 0,00 0,00 176 70 3,00 4,50 -1,50 2,25 186 8C 9,00 10,00 -1 00 1,00 177 67 4,00 3.00 1.00 1,00 Součet 26,00 Pro posouzení statistické významnosti koeficientu rs slouží tabulka X z přílohy B. Přesahuje-li hodnota \rs\ tabulkovou hodnotu pro daný počet párů měření h a hladinu významnosti, můžeme vztah považovat za prokázaný. Pro náš příklad, testujeme-li dvoustrannou hypotézu ps - 0 na hladině 1 %, je tabulková hodnota 0,746 (tabulka obsahuje kritické hodnoty pro dvoustranné testy). Vztah mezi oběma proměnnými z příkladu je tedy prokázán. U větších výběrů (n > 30) lze na hladině tr použít přibližný r-lest hypotézy ps - 0: 258 Spearmanův koeficient rs někdy používáme pro odhad Pearsonova korelačního koeficientu, resp. r, jelikož pro dvojrozměrně normálně rozdělené proměnné X a Y platí přibližný vztah p = 2 sin(0,523p,v). Tento vzorec je upřesněním přibližně platného vztahu p = /?,. Podle Spearmana lze jeho koeficient korelace s výhodou uplatnit v situacích, kdy: ■ potřebujeme rychlý a rezistentní odhad korelačního koeficientu r; ■ testujeme schopnost zkoumané osoby správně řadit objekty nebo vlastnosti podle určitých hledisek tak, že ji necháme seřadit tyto objekty nebo vlastnosti a toto seřazení pak srovnáme se standardem; ■ testujeme možnost přítomnosti monotónního trendu v časové řadě měření. Pro usnadnění interpretace jsou na obrázku 7.5 znázorněna data z příkladu 7.3 (s. 246, množina 1 = A, 2 = B, 3 = C, 4 = D) a uvedeny k nim vypočtené korelační koeficienty podle Pearsona, Spearmana a Kendalla, aby bylo umožněno srovnání chování těchto koeficientů (viz odstavec o Pearsonově koeficientu). Obrázek ukazuje, jak zachytí Spearmanův koeficient vztah reprezentovaný různými bodovými konfiguracemi. Graf F dokumentuje jeho schopnost měřit monotónní vztahy, graf C ukazuje jeho rezistenci vůči odlehlým hodnotám. 7.2.7 Kendalluv koeficient pořadové korelace Korelační koeficient má měřit „sílu vztahu" dvou proměnných. Ale různé korelační koeficienty ho měří různým způsobem. Pearsonův i Spearmanův korelační koeficient mohou mít hodnotu 0,3, ale pokaždé to znamená něco trochu jiného. Kendalluv korelační koeficient má na rozdíl od předchozích dvou jednoduchou pravděpodobnostní interpretaci. Jeho teoretickou hodnotu v populaci označujeme Ta nebo Kendallovo tau. Zatímco Spearman koreloval pořadí, Kendall založil svoji statistiku na inverzích v pořadí. Vycházíme z dat, která se týkají metrického nebo ordinálního hodnocení n objektů (i = 1, 2,..., n) podle dvou kritérií X a Y. Ke každému objektu i získáme ohodnocení (.r,,y,). Nejdříve seřadíme dvojice (Xj,y,) tak, že hodnotybudou tvořit rostoucí posloupnost. Jestliže mezi kritérii X a K je kladná asociace, pak také y; budou mít vzestupnou tendenci. Při záporné asociaci budou mít v; sestupnou tendenci. Kendall proto rozlišuje vztah y;- > v,-, resp. y j < v,-, pokud j > i (/' = 1,2.....n — 1), V prvním případě nastává tzv. konkordance, jež skóruje pro kladnou asociaci, ve druhém diskordance, která skóruje pro negativní asociaci. Počet všech konkordancí, resp. diskordancí označíme P, resp. Q. Rozdíl S = P - Q někdy nazýváme Kendallovo S a je jednoduchou mírou závislosti. Převaha konkordancí, resp. diskordancí vede ke kladné, resp. záporné hodnotě S. Možná škála hodnot S závisí na rozsahu výběru n. Jednoduchá úprava však 259 PŘEHLED STATISTICKÝCH METOD 7 ANALÝZA ZÁVISLOSTI Zobrazení různých bodových konfigurací a k nim dopočítaného Pearsonova (r) Spearmanova (rs) a Kendaliova {tk) korelačního koeficientu A: r = 0,82 rs = 0,82 tk = 0,64 B: r = 0,82 rs = 0.69 tk = 0,56 n 10 9 7 t H C-. r = 0,82 rB = 0 tk = 0,96 D: r = 0,82 rs = 0,5 tk = 0,43 E. < 0 rB = 0 tk = 0 -r-1--1-1 8 10 12 14 16 X F: r = -0.77 rs = -1 tk = -1 -i-1-1 ' 8 10 12 1* tento problém vyřeší. S se totiž může pohybovat mezi hodnotami -0,5n(« - 1) a 0,5«(« - 1). Proto se Kendallův koeficient tau počítá podle formule S P-Q k~Ď = kde jmenovatel D je maximální možný počet konkordancí, resp. diskordancí a má hodnotu n{n - l)/2. PŘIKLAD 7.8 Výpočet konkordancí a Kendatlova koeficientu pořadové korelace Vypočítáme počet diskordancí a konkordancí pro data v tabulce 7.11. Protože počty P a. Q jsou přibližně stejné, mezi proměnnou X a Y není pravděpodobně žádná asociace. S má hodnotu -2. Kendallův koeficient tk = -2/36 = -0,05. Tab. 7.11 Příklad výpočtu Kendatlova koeficientu pořadové korelace Věk (X) Cholesterol (K) Konkordance Diskordance 41 274 1 7 45 209 4 3 50 194 5 1 51 270 1 4 54 165 4 0 59 234 2 1 62 281 0 2 68 238 0 1 71 208 0 0 Součet P = 17 0= 19 Platí -1 < fy < 1 a hodnot právě ±1 nabývá fy ve stejných situacích jako Spearmanův koeficient. Kritické hodnoty pro rozhodování, kdy je možné zamítnout hypotézu nezávislosti X a Y (H0: rk = 0), nalezneme pomocí speciálních tabulek. Některé programy dokáží spočítat přesnou p-hodnotu pro test nulové hodnoty r*. Pro velká n má fy přibližně normální rozdělení se střední hodnotou 0 a směrodatnou odchylkou sT 260 261 PŘEHLED STATISTICKÝCH METOD Í2(2« + 5) Sr " y 9n(n - 1)' pokud proměnné X a ľ jsou nezávislé. Rozhodování o nulové hodnotě rk vychází z testovací j-statistiky z = tk/sT, kterou porovnáváme s kritickými hodnotami standardizovaného normálního rozdělení. Interpretace rk je přímočařejší než u Spearmanova koeficientu ps. Jestliže rk = p, můžeme u dvou náhodně vybraných jedinců očekávat s pravděpodobností p, že jejich seřazení podle kritéria X bude stejné jako seřazení podle kritéria ľ. Většinou oba koeficienty mají přibližně stejnou velikost. V kapitole 8.4 poznáme využití Kendallova korelačního koeficientu při hodnocení závislosti v kontingenčních tabulkách, jež vznikly klasifikací objektů podle dvou ordinálních znaků. Jestliže v údajích existují shody (xj = x„ resp. v,- = v,-), musíme výpočet modifikovat, protože v tomto případě nemůže koeficient dosáhnout hodnoty -1. resp. 1. Modifikaci uplatňujeme při větším počtu shod a týká se jmenovatele D ve vzorci pro výpočet Kendallova tmi. Označme symboly u. resp. v počty shodných pořadí mezi .r„ resp. >',• postupně v jednotlivých skupinách shodných pořadí a symboly U a V součty, které mají tvar: U = 0,5 T u(u - 1). V = 0,5^\'(v- 1) Modifikace výpočtu spočívá v nahrazení D číslem D' = \I(D-U)(D- V). Takto modifikovaný výpočet Kendallova tau nazýváme Kendallovo tau-b, značíme tb. Kendallovo tb lze interpretovat jako korelaci mezi hodnotami dx a dy, kde dx se rovná 1, resp. -1, pokud pro / > /' je x j > x,-, resp. xj < v,-, a nule v ostatních případech. Hodnoty dy počítame obdobně. Jak hodnoty dx, tak hodnoty dy spočítame pro všechny možná srovnání, kterých je n(n - 0/2. (Zvára, 2000) 7.2.8 Bodově biseriální korelační koeficient a koeficient

'''~ s V n(n-l)' kde m, resp. .v, jsou počty, resp. průměrná hodnota spojitého parametru v obou skupinách a s je společná směrodatná odchylka. Tento koeficient rph testujeme podobně jako normální korelační koeficient. Jestliže rph > 1, resp. rhk < -1, 7 ANALÝZA ZÁVISLOSTÍ dosadíme za něj hodnotu I, resp. -1. Uvedený vzorec se v praxi nepoužívá, protože stejnou hodnotu dostaneme použitím algoritmu pro Pearsonův koeficient korelace pro dvojice hodnot obou proměnných, přičemž binární proměnnou zastupují nuly a jedničky. Jestliže binární proměnná vznikla dichotomizací spojité normálně rozdělené proměnné, můžeme spočítat odhad Pearsonova korelačního koeficientu obou spojitých proměnných pomocí tzv. biseriálního korelačního koeficientu (viz Howell 1992, s. 270). Koeficient 0 je Pearsonův korelační koeficient vypočítaný pro dvě alternativní proměnné, které kódujeme pomocí hodnot 0 a 1. (Existuje i jednodušší výpočet, ale ten nemá v době počítačů opodstatnění.) Platí, že dr = jfVn, kde x2 Je testovací statistika nezávislosti v čtyřpolní tabulce a n je počet dvojic, z nichž se počítá korelační koeficient. Test nulové hodnoty koeficientu