Kapitola 8.: Analýza závislosti dvou náhodných veličin 8.1. Motivace Při zpracování dat se velmi často setkáme s úkolem zjistit, zda dvě náhodné veličiny jsou stochasticky nezávislé. Např. nás může zajímat, zda ve sledované populaci je barva očí a barva vlasů nezávislá nebo zda počet dnů absence a věk pracovníka jsou nezávislé.Testování hypotézy o nezávislosti se provádí různými způsoby podle toho, jakého typu jsou dané ná- hodné veličiny ­ zda jsou nominální, ordinální, intervalové či poměrové. Při zkoumání závislosti je nesmírně důležité provést logický rozbor problému. Nemá smysl se zabývat hledáním závislosti v případech, když - z logických důvodů nemůže existovat, - závislost je způsobena formálními vztahy mezi veličinami, - soubor dvourozměrných dat je nehomogenní, - závislost je způsobena společnou příčinou. Zpravidla chceme také zjistit intenzitu případné závislosti sledovaných dvou veličin. K tomuto účelu byly zkonstruovány různé koeficienty, které nabývají hodnot od 0 do 1 (resp. od -1 do 1). Čím je takový koeficient bližší 1 (resp. -1), tím je závislost mezi danými dvěma veličinami silnější a čím je bližší 0, tím je slabší. 8.2. Testování nezávislosti nominálních veličin 8.2.1. Popis testu Nechť X,Y jsou dvě nominální náhodné veličiny (tj. obsahová interpretace je možná je- nom u relace rovnosti). Nechť X nabývá variant x[1], ..., x[r] a Y nabývá variant y[1], ..., y[s]. Pořídíme dvourozměrný náhodný výběr rozsahu n z rozložení, kterým se řídí dvourozměrný diskrétní náhodný vektor (X, Y). Zjištěné absolutní četnosti njk dvojice variant (x[j], y[k]) uspo- řádáme do kontingenční tabulky: y x njk y[1] ... y[s] nj. x[1] n11 ... n1s n1. M ... ... ... ... x[r] nr1 ... nrs nr. n.k n.1 ... n.s n Testujeme hypotézu H0: X, Y jsou stochasticky nezávislé náhodné veličiny proti H1: X, Y nejsou stochasticky nezávislé náhodné veličiny. Testová statistika má tvar: = = - = r 1j s 1k k..j 2 k..j jk n nn n nn n K . Platí-li H0, pak K se asymptoticky řídí rozložením 2 ((r-1)(s-1)). Hypotézu o nezávislosti veličin X, Y tedy zamítáme na asymptotické hladině významnosti , když K 2 1-((r-1)(s-1)). 8.2.2. Podmínky dobré aproximace Výraz n nn k..j se nazývá teoretická četnost. Rozložení statistiky K lze aproximovat roz- ložením 2 ((r-1)(s-1)), pokud teoretické četnosti aspoň v 80% případů nabývají hodnoty větší nebo rovné 5 a ve zbylých 20% neklesnou pod 2. Není-li splněna podmínka dobré aproxima- ce, doporučuje se slučování některých variant. 8.2.3. Měření síly závislosti Cramérův koeficient: )1m(n K V - = , kde m = min{r,s}. Tento koeficient nabývá hodnot mezi 0 a 1. Čím blíže je 1, tím je těsnější závislost mezi X a Y, čím blíže je 0, tím je tato závislost volnější. 8.2.4. Příklad V sociologickém průzkumu byl z uchazečů o studium na vysokých školách pořízen náhodný výběr rozsahu 360. Mimo jiné se zjišťovala sociální skupina, ze které uchazeč po- chází a typ školy, na kterou se hlásí. Výsledky jsou zaznamenány v kontingenční tabulce: Sociální skupinaTyp školy I II III IV nj. univerzitní 50 30 10 50 140 technický 30 50 20 10 110 ekonomický 10 20 30 50 110 n.k 90 100 60 110 360 Na asymptotické hladině významnosti 0,05 testujte hypotézu o nezávislosti typu školy a sociální skupiny. Vypočtěte Cramérův koeficient. Řešení: ,8,42 360 110140 n nn ,3,23 360 60140 n nn ,9,38 360 100140 n nn ,35 360 90140 n nn 4..13..12..11..1 = == == == = ,6,33 360 110110 n nn ,3,18 360 60110 n nn ,6,30 360 100110 n nn ,5,27 360 90110 n nn 4..23..22..21..2 = == == == = 6,33 360 110110 n nn ,3,18 360 60110 n nn ,6,30 360 100110 n nn ,5,27 360 90110 n nn 4..33..32..31..3 = == == == = ( ) ( ) ( ) 84,76 6,33 6,3350 9,38 9,3830 35 3550 K 222 = - ++ - + - = K , r = 3, s = 4, 2 0,95(6) = 12,6. Protože K 12,6, hypotézu o nezávislosti typu školy a sociální skupiny zamítáme na asymptotické hladině významnosti 0,05. Cramérův koeficient: 3267,0 2360 4,76 V = = . 8.2.5. Čtyřpolní tabulky Nechť r = s = 2. Pak hovoříme o čtyřpolní kontingenční tabulce a používáme označení: n11 = a, n12 = b, n21 = c, n22 = d. YX y[1] y[2] nj. x[1] a b a+b x[2] c d c+d n.k a+c b+d n Pro tuto tabulku navrhl R. A. Fisher přesný (exaktní) test nezávislosti známý jako Fishe- rův faktoriálový test. (Je popsán např. v knize K. Zvára: Biostatistika, Karolinum, Praha 1998.) STATISTICA poskytuje p-hodnotu pro tento test. Jestliže vyjde p , pak hypotézu o nezávislosti zamítáme na hladině významnosti . Ve čtyřpolních tabulkách používáme charakteristiku bc ad OR = , která se nazývá podíl šancí (odds ratio). Můžeme si představit, že pokus se provádí za dvojích různých okolností a může skončit buď úspěchem nebo neúspěchem. okolnostiVýsledek pokusu I II nj. úspěch a b a+b neúspěch c d c+d n.k a+c b+d n Poměr počtu úspěchů k počtu neúspěchů (tzv. šance) za 1. okolností je c a , za druhých okol- ností je d b . Podíl šancí je bc ad OR = . Pomocí 100(1-)% asymptotického intervalu spolehli- vosti pro podíl šancí lze na asymptotické hladině významnosti testovat hypotézu o nezávis- losti nominálních veličin X a Y. Asymptotický 100(1-)% interval spolehlivosti pro přirozený logaritmus skutečného podílu šancí má meze: 2/1u d 1 c 1 b 1 a 1 ORln -+++ . Jestliže po odlogaritmování nezahrne interval spolehlivosti 1, pak hypotézu o nezávislosti zamítneme na asymptotické hladině významnosti . 8.2.6. Příklad U 135 uchazečů o studium na jistou fakultu byl hodnocen dojem, jakým zapůsobili na komisi u ústní přijímací zkoušky. Na asymptotické hladině významnosti 0,05 testujte hypoté- zu, že přijetí na fakultu nezávisí na dojmu u přijímací zkoušky. dojempřijetí dobrý špatný nj. ano 17 11 28 ne 39 58 97 n.k 56 69 125 Řešení: 96,1u,439,0 58 1 39 1 11 1 17 1 d 1 c 1 b 1 a 1 0,832,ORln,298,2 3911 5817 bc ad OR 0,975 ==+++=+++ == == 692,196,1439,0832,0hln,028,096,1439,0832,0dln =+=-=-= 433,5eh,972,0ed 1,692028,0 ==== - Protože interval (0,972; 5,433) obsahuje číslo 1, na asymptotické hladině významnosti 0,05 nezamítáme hypotézu o nezávislosti dojmu u přijímací zkoušky a přijetí na fakultu. 8.3. Testování nezávislosti ordinálních veličin 8.3.1. Popis testu Nechť X,Y jsou dvě ordinální náhodné veličiny (tj. obsahová interpretace je možná je- nom u relace rovnosti a relace uspořádání). Pořídíme dvourozměrný náhodný výběr (X1, Y1), ..., (Xn, Yn) z rozložení, jímž se řídí náhodný vektor (X, Y). Označíme Ri pořadí náhodné veličiny Xi a Qi pořadí náhodné veličiny Yi, i = 1, ..., n. Testujeme hypotézu H0: X, Y jsou pořadově nezávislé náhodné veličiny proti oboustranné alternativě H1: X, Y jsou pořadově závislé náhodné veličiny (resp. proti levostranné alternativě H1: mezi X a Y existuje nepřímá pořadová závislost resp. proti pravostranné alternativě H1: mezi X a Y exis- tuje přímá pořadová závislost). Testová statistika se nazývá Spearmanův koeficient pořadové korelace a má tvar: ( ) ( ) = - - -= n 1i 2 ii2S QR 1nn 6 1r . H0 zamítáme na hladině významnosti a) ve prospěch oboustranné alternativy, když rS rS,1-(n) b) ve prospěch levostranné alternativy, když rS - rS,1-(n) c) ve prospěch pravostranné alternativy, když rS rS,1-(n), kde rS,1-(n) je kritická hodnota, kterou pro = 0,05 nebo 0,01 a n 30 najdeme v tabulkách. Pro n > 30 H0 zamítáme na asymptotické hladině významnosti ve prospěch oboustranné alternativy, když 1n u r 1 S - - (analogicky pro jednostranné alternativy). Spearmanův koeficient rS současně měří sílu pořadové závislosti náhodných veličin X, Y. Nabývá hodnot z intervalu 1,1- . Čím je jeho hodnota bližší -1 (resp.1), tím je silnější nepřímá (resp. přímá) pořadová závislost veličin X, Y. Čím je jeho hodnota bližší 0, tím je slabší pořadová závislost veličin X, Y. 8.3.2. Příklad Dva lékaři hodnotili stav sedmi pacientů po témž chirurgickém zákroku. Postupovali tak, že nejvyšší pořadí dostal nejtěžší případ. Číslo pacienta 1 2 3 4 5 6 7 Hodnocení 1. lékaře 4 1 6 5 3 2 7 Hodnocení 2. lékaře 4 2 5 6 1 3 7 Vypočtěte Spearmanův koeficient rS a na hladině významnosti 0,05 testujte hypotézu, že hod- nocení obou lékařů jsou pořadově nezávislá. Řešení: ( )( ) ( ) ( ) ( ) ( ) ( ) ( )[ ] 857,077321365562144 177 6 1r 2222222 2S =-+-+-+-+-+-+- - -= . Kritická hodnota: rS,0,95(7) = 0,745. Protože 0,857 0,745, nulovou hypotézu zamítáme na hladině významnosti 0,05. 8.4. Testování nezávislosti intervalových či poměrových veličin 8.4.1. Pearsonův koeficient korelace V teorii pravděpodobnosti byl zaveden Pearsonův koeficient korelace náhodných veli- čin X, Y (které jsou aspoň intervalového charakteru) vztahem ( ) ( ) ( ) ( ) ( ) ( ) jinak00,YDXDpro YDXD Y,XC Y,XR =>= . Připomeneme jeho vlastnosti: a) R(X,X) = 1 b) R(X,Y) = R(Y,X) c) R(a + bX, c + dY) = sgn(bd)R(X,Y) d) -1 R(X,Y) 1 a rovnosti je dosaženo tehdy a jen tehdy, když existují reálné konstanty a, b, b 0 tak, že P(Y = a + bX) = 1, přičemž R(X,Y) = 1 pro b > 0 a R(X,Y) = -1 pro b < 0. Z těchto vlastností plyne, že R(X,Y) je vhodnou mírou těsnosti lineárního vztahu náhod- ných veličin X, Y. 8.4.2. Výběrový koeficient korelace R(X,Y) většinou nemůžeme počítat přímo, protože to vyžaduje znalost simultánního roz- ložení náhodného vektoru (X, Y). V praxi jsme většinou odkázáni na náhodný výběr rozsahu n z dvourozměrného rozložení daného distribuční funkcí (x,y). Z tohoto dvourozměrného náhodného výběru můžeme stanovit: výběrové průměry = = n 1i i1 X n 1 M , = = n 1i i2 Y n 1 M , výběrové rozptyly ( ) = - - = n 1i 2 1i 2 1 MX 1n 1 S , ( ) = - - = n 1i 2 2i 2 2 MY 1n 1 S , výběrovou kovarianci ( )( ) = -- - = n 1i 2i1i12 MYMX 1n 1 S a s jejich pomocí zavedeme výběrový koeficient korelace 21 12 12 SS S R = (pro S1S2 > 0). Vlastnosti a), b), c), d) koeficientu korelace se přenášejí i na výběrový koeficient korelace. 8.4.3. Koeficient korelace dvourozměrného normálního rozložení Nechť náhodný vektor (X, Y) má dvourozměrné normální rozložení s hustotou ( ) ( ) - + - - - - - - - = 2 2 2 2 2 1 1 2 1 1 2 yyx 2 x 12 1 2 21 e 12 1 y,x , přičemž 1 = E(X), 2 = E(Y), 1 2 = D(X), 2 2 = D(Y), = R(X,Y). Marginální hustoty jsou: ( ) ( ) 2 1 2 1 2 x 1 1 e 2 1 x - - = , ( ) ( ) 2 2 2 2 2 y 2 2 e 2 1 y - - = . Je-li = 0, pak pro ( ) ( ) ( ) ( )yxy,x:Ry,x 21 2 = , tedy náhodné veličiny X, Y jsou stochasticky nezávislé. Jinými slovy: stochastická nezávislost složek X, Y normálně roz- loženého náhodného vektoru je ekvivalentní jejich nekorelovanosti. Je-li 0, jsou náhodné veličiny X, Y stochasticky závislé. Je-li > 0, říkáme, že jsou kladně korelované, je-li < 0, říkáme, že jsou záporně korelované. Upozornění: V dalším textu budeme předpokládat, že náhodný výběr (X1, Y1), ..., (Xn, Yn) pochází z dvourozměrného normálního rozložení s parametry 1, 2, 1 2 , 2 2 , 8.4.4. Testování hypotézy o nezávislosti Testujeme H0: = 0 proti oboustranné alternativě H1: 0 (resp. proti levostranné al- ternativě H1: < 0 resp. proti pravostranné alternativě H1: > 0). Testová statistika má tvar: 2 12 12 R1 2nR T - - = . Platí-li nulová hypotéza, pak T ~ t(n-2). Kritický obor pro test H0 proti oboustranné alternativě: ( )( ( ) )----= -- ,2nt2nt,W 2/12/1 , proti levostranné al- ternativě: ( )( 2nt,W 1 ---= - a proti pravostranné alternativě: ( ) )-= - ,2ntW 1 . H0 zamítáme na hladině významnosti , když WT . Není-li splněn předoklad dvourozměrné normality, použijeme Spearmanův koeficient pořadové korelace. 8.4.5. Příklad Máme k dispozici výsledky testů ze dvou předmětů zjištěné u osmi náhodně vybraných studentů určitého oboru. Číslo studenta 1 2 3 4 5 6 7 8 Počet bodů v 1. testu 80 50 36 58 42 60 56 68 Počet bodů ve 2. testu 65 60 35 39 48 44 48 61 Na hladině významnosti 0,05 testujte hypotézu, že výsledky obou testů nejsou kladně korelo- vané. Řešení: Nejprve se musíme přesvědčit, že uvedené výsledky lze považovat za realizace náhodného výběru z dvourozměrného normálního rozložení. Lze tak učinit orientačně pomocí dvouroz- měrného tečkového diagramu. Tečky by měly vytvořit elipsovitý obrazec. 0 20 40 60 80 100 120 X 0 20 40 60 80 100 Y Obrázek svědčí o tom, že předpoklad dvourozměrné normality je oprávněný a že mezi počty bodů z 1. a 2. testu bude existovat určitý stupeň přímé lineární závislosti. Testujeme H0: = 0 proti pravostranné alternativě H1: > 0. Výpočtem zjistíme: R12 = 0,6668, T = 2,1917. V tabulkách najdeme t0,95(6) = 1,9432. Kritický obor: )= ;9432,1W . Protože WT , hypotézu o neexistenci kladné korelace vý- sledků z 1. a 2. testu zamítáme na hladině významnosti 0,05. Kontrolní otázky 1. Jak testujeme nezávislost nominálních veličin? Jaké podmínky musí být splněny? 2. K čemu slouží Cramérův koeficient? 3. K čemu slouží Spearmanův koeficient pořadové korelace? 4. Uveďte vlastnosti výběrového koeficientu korelace. 5. Jak se na vzhledu dvourozměrného tečkového diagramu projeví, jsou-li náhodné veličiny X, Y kladně korelovány? 6. Pro náhodný výběr z dvourozměrného normálního rozložení popište test hypotézy o nezá- vislosti veličin X, Y. Příklady 1. Na hladině významnosti 0,05 testujte hypotézu o nezávislosti pedagogické hodnosti a po- hlaví a vypočtěte Cramérův koeficient, jsou-li k dispozici následující údaje: pedagogická hodnostpohlaví odb. asistent docent profesor muž 32 15 8 žena 34 8 3 Výsledek: Podmínky dobré aproximace jsou splněny, pouze jedna teoretická četnost klesne pod 5. Tes- tová statistika se realizuje hodnotou 3,5 , počet stupňů volnosti = 2, kritický obor je = ;991,5W . Hypotézu o nezávislosti pohlaví a pedagogické hodnosti tedy nezamítáme na asymptotické hladině významnosti 0,05. Cramérův koeficient V = 0,187. 2. Dvanáct různých softwarových firem nabízí programy pro vedení účetnictví. Programy byly posouzeny odbornou komisí a komisí složenou z profesionálních účetních. Výsledky v 1. a 2. komisi: (6,4), (7,5), (1,2), (8,10), (4,6), (2.5,1), (9,7), (12,11), (10,8), (2.5,3), (5,12), (11,9). Vypočtěte Spearmanův koeficient pořadové korelace a na hladině významnosti 0,05 testujte hypotézu o nezávislosti pořadí v obou komisích. Výsledek: Spearmanův koeficent pořadové korelace je 0,715, kritická hodnota pro n = 12 a = 0,05 je 0,576. H0 zamítáme na hladině významnosti 0,05 ve prospěch oboustranné alternativy. 3. V dílně pracuje 15 dělníků, u nichž byl zjištěn počet směn odpracovaných za měsíc (veliči- na X) a počet zhotovených výrobků (veličina Y). Orientačně ověřte dvourozměrnou normalitu dat, vypočtěte výběrový koeficient korelace mezi X a Y a na hladině 0,01 testujte hypotézu o nezávislosti veličin X a Y. X 20 21 18 17 20 18 19 21 20 14 16 19 21 15 15 Y 92 93 83 80 91 85 82 98 90 60 73 86 96 64 81. Výsledek: Vzhled dvourozměrného tečkového diagramu svědčí o tom, že předpoklad dvourozměrné normality je oprávněný. Výběrový koeficient korelace je 0,927, testová statistika se realizuje hodnotou 8,597, kritický obor je ( )--= ,012,3012,3,W . Hypotézu o nezávislosti veličin X a Y zamítáme na hladině významnosti 0,01. 4. (S) 100 náhodně vybraných mužů a žen bylo dotázáno, zda dávají přednost nealkoholické- mu nápoji A či B. Údaje jsou uvedeny ve čtyřpolní kontingenční tabulce. nápojpohlaví A B muž 20 30 žena 30 20 Na hladině významnosti 0,05 testujte pomocí Fisherova faktoriálového testu hypotézu, že preferovaný typ nápoje nezáleží na pohlaví respondenta. Výsledek: V našem případě se jedná o jednostrannou závislost, zajímáme se tedy o Fisher exact, one tailed. Ta je 0,03567. Protože p-hodnota je menší nebo rovna 0,05, zamítáme na hladině vý- znamnosti hypotézu, že preferovaný typ nápoje nezáleží na pohlaví respondenta. 5. (S) V následující tabulce jsou uvedeny číselné realizace a absolutní četnosti náhodného výběru (X1, Y1), (X1, Y2), ..., (X62, Y62) z dvourozměrného rozložení: yx 1 3 5 7 9 11 13 15 0 0 0 0 1 2 1 25 0 0 0 5 4 2 0 35 0 0 5 8 2 0 0 45 0 5 6 4 0 0 0 55 3 5 3 0 0 0 0 65 4 2 0 0 0 0 0 Podle vzhledu dvourozměrného tečkového diagramu orientačně posuďte dvourozměrnou normalitu dat. Vypočtěte výběrový koeficient korelace a interpretujte ho. Na hladině význam- nosti 0,05 testujte hypotézu o nezávislosti veličin X a Y. Výsledek: Protože tečky v dvourozměrném tečkovém diagramu vytvářejí elipsovitý obrazec, lze připustit dvourozměrnou normalitu. Výběrový koeficient korelace nabývá hodnoty ­0,899, což zname- ná, že mezi veličinami X a Y existuje dosti silná nepřímá lineární závislost. Testová statistika se realizuje hodnotou -13,6613, odpovídající p-hodnota je velmi blízká 0, nulovou hypotézu zamítáme na hladině významnosti 0,05.