Hodnocení závislosti dvou náhodných veličin Motivace Při zpracování dat se setkáváme s dvojicemi veličin nominálního, ordinálního, intervalového a poměrového typu, např.: nominální veličiny: rodinný stav ženicha a nevěsty – svobodný/á, rozvedený/á, vdovec/vdova, ordinální veličiny: hodnocení softwarových produktů odbornou a laickou porotou na pětibodové škále, intervalové veličiny: teplota měřená ve stupních Celsia na dvou meteorologických stanicích, poměrové veličiny: roční příjem manžela a manželky. Máme-li k dispozici n objektů, na nichž zjišťujeme hodnoty dvou veličin X a Y, můžeme testovat hypotézu, že veličiny X a Y jsou nezávislé. Např. nás zajímá, zda barva očí a barva vlasů jsou ve sledované populaci jedinců nezávislé. Intenzitu případné závislosti měří různé koeficienty, které nabývají hodnot od -1 do 1 nebo od 0 do 1. Čím je absolutní hodnota takového koeficientu bližší 1, tím je závislost mezi danými dvěma veličinami silnější a čím je bližší 0, tím je slabší. Závislost dvou veličin nominálního typu Kontingenční tabulky Nechť X,Y jsou dvě nominální náhodné veličiny (tj. obsahová interpretace je možná jenom u relace rovnosti). Nechť X nabývá variant x[1], ..., x[r] a Y nabývá variant y[1], ..., y[s]. Pořídíme dvourozměrný náhodný výběr (X1, Y1), ..., (Xn, Yn) rozsahu n z rozložení, kterým se řídí dvourozměrný diskrétní náhodný vektor (X, Y). Zjištěné absolutní simultánní četnosti njk dvojice variant (x[j], y[k]) uspořádáme do kontingenční tabulky: y x njk y[1 ] ... y[s] nj. x[1] n11 ... n1s n1. ... ... ... ... ... x[r] nr1 ... nrs nr. n.k n.1 ... n.s n nj. = nj1 + ... + njs je marginální absolutní četnost varianty x[j] n.k = n1k + ... + nrk je marginální absolutní četnost varianty y[k] Testování hypotézy o nezávislosti Testujeme nulovou hypotézu H0: X, Y jsou stochasticky nezávislé náhodné veličiny proti alternativě H1: X, Y nejsou stochasticky nezávislé náhodné veličiny. Kdyby náhodné veličiny X, Y byly stochasticky nezávislé, pak by platil multiplikativní vztah r,,1j K=∀ , s,,1k K=∀ : πjk = πj. π.k neboli n n n n n n k..jjk ⋅= , tj. n nn n k..j jk = . Číslo n nn k..j se nazývá teoretická četnost dvojice variant (x[j], y[k]). Testová statistika: ∑∑ = =       − = r 1j s 1k k..j 2 k..j jk n nn n nn n K . Platí-li H0, pak K se asymptoticky řídí rozložením χ2 ((r-1)(s-1)). Kritický obor: ( )( )( ) )∞−−χ= α− ,1s1rW 1 2 . Hypotézu o nezávislosti veličin X, Y tedy zamítáme na asymptotické hladině významnosti α, když K ≥ χ2 1-α((r-1)(s-1)). Podmínky dobré aproximace Rozložení statistiky K lze aproximovat rozložením χ2 ((r-1)(s-1)), pokud teoretické četnosti n nn k..j aspoň v 80% případů nabývají hodnoty větší nebo rovné 5 a ve zbylých 20% neklesnou pod 2. Není-li splněna podmínka dobré aproximace, doporučuje se slučování některých variant. Měření síly závislosti Cramérův koeficient: )1m(n K V − = , kde m = min{r,s}. Tento koeficient nabývá hodnot mezi 0 a 1. Čím blíže je k 1, tím je závislost mezi X a Y těsnější, čím blíže je k 0, tím je tato závislost volnější. Význam hodnot Cramérova koeficientu: mezi 0 až 0,1 … zanedbatelná závislost, mezi 0,1 až 0,3 … slabá závislost, mezi 0,3 až 0,7 … střední závislost, mezi 0,7 až 1 … silná závislost. Carl Harald Cramér (1893 – 1985): Švédský matematik Příklad V sociologickém průzkumu byl z uchazečů o studium na vysokých školách pořízen náhodný výběr rozsahu 360. Mimo jiné se zjišťovala sociální skupina, ze které uchazeč pochází (veličina X) a typ školy, na kterou se hlásí (veličina Y). Výsledky jsou zaznamenány v kontingenční tabulce: Typ školySociální skupina univerzitní technický ekonomický nj. I 50 30 10 90 II 30 50 20 100 III 10 20 30 60 IV 50 10 50 110 n.k 140 110 110 360 Na asymptotické hladině významnosti 0,05 testujte hypotézu o nezávislosti typu školy a sociální skupiny. Vypočtěte Cramérův koeficient. Řešení: Nejprve vypočteme všech 12 teoretických četností: Typ školySociální skupina univerzitní technický ekonomický nj. I 50 30 10 90 II 30 50 20 100 III 10 20 30 60 IV 50 10 50 110 n.k 140 110 110 360 ,5,27 360 11090 n nn ,5,27 360 11090 n nn ,35 360 14090 n nn 3..12..11..1 = ⋅ == ⋅ == ⋅ = ,6,30 360 110100 n nn ,6,30 360 110100 n nn ,9,38 360 140100 n nn 3..22..21..2 = ⋅ == ⋅ == ⋅ = ,3,18 360 11060 n nn ,3,18 360 11060 n nn ,3,23 360 14060 n nn 3..32..31..3 = ⋅ == ⋅ == ⋅ = 6,33 360 110110 n nn ,6,33 360 110110 n nn ,8,42 360 140110 n nn 3..42..41..4 = ⋅ == ⋅ == ⋅ = Kontingenční tabulka teoretických četností: Typ školySociální skupina univerzitní technický ekonomický I 35 27,5 27,5 II 38,9 30,6 30,6 III 23,3 18,3 18,3 IV 42,8 33,6 33,6 Vidíme, že podmínky dobré aproximace jsou splněny, všechny teoretické četnosti převyšují číslo 5. Dosadíme do vzorce pro testovou statistiku K: ( ) ( ) ( ) 84,76 6,33 6,3350 5,27 5,2730 35 3550 K 222 = − ++ − + − = K . Dále stanovíme kritický obor: ( )( )( ) ) ( )( )( ) ) ( ) ) )∞=∞χ=∞−−χ=∞−−χ= α− ,6,12,6,1314,1s1rW 95,0 2 95,0 2 1 2 Protože K ∈ W, hypotézu o nezávislosti typu školy a sociální skupiny zamítáme na asymptotické hladině významnosti 0,05. Výpočet pomocí systému STATISTICA: Vytvoříme nový datový soubor o třech proměnných (X - sociální skupina, Y – typ školy, četnost) a 12 případech: 1 X 2 Y 3 četnost 1 2 3 4 5 6 7 8 9 10 11 12 I univerzitní 50 I technický 30 I ekonomický 10 II univerzitní 30 II technický 50 II ekonomický 20 III univerzitní 10 III technický 20 III ekonomický 30 IV univerzitní 50 IV technický 10 IV ekonomický 50 Statistiky – Základní statistiky/tabulky – OK – Specif. Tabulky – List 1 X, List 2 Y – OK, zapneme proměnnou vah četnost – OK, Výpočet – na záložce Možnosti zaškrtneme Očekávané četnosti. Dostaneme kontingenční tabulku teoretických čet- ností: Souhrnná tab.: Očekávané četnosti (typ skoly) Četnost označených buněk > 10 Pearsonův chí-kv. : 76,8359, sv=6, p=,000000 X Y univerzitní Y technický Y ekonomický Řádk. součty I 35,0000 27,5000 27,5000 90,0000 II 38,8889 30,5556 30,5556 100,0000 III 23,3333 18,3333 18,3333 60,0000 IV 42,7778 33,6111 33,6111 110,0000 Vš.skup. 140,0000 110,0000 110,0000 360,0000 Všechny teoretické četnosti jsou větší než 5, podmínky dobré aproximace jsou splněny. V záhlaví tabulky je uvedena hodnota testové statistiky K = 76,8359, počet stupňů volnosti 6 a odpovídající p-hodnota. Je velmi blízká 0, tedy na asymptotické hladině významnosti 0,05 zamítáme hypotézu o nezávislosti typu školy a sociální skupiny. Hodnotu testové statistiky a Cramérův koeficient dostaneme také tak, že na na záložce Možnosti zaškrtneme Pearsonův & M-V chí kvadrát a Cramérovo V, na záložce Detailní výsledky vybereme Detailní 2 rozm. tabulky. Statist. Chí-kvadr. sv p Pearsonův chí-kv. M-V chí-kvadr. Fí Kontingenční koeficient Cramér. V 76,83589 df=6 p=,00000 84,53528 df=6 p=,00000 ,4619881 ,4193947 ,3266749 Čtyřpolní tabulky Nechť r = s = 2. Pak hovoříme o čtyřpolní kontingenční tabulce a používáme označení: n11 = a, n12 = b, n21 = c, n22 = d. YX y[1] y[2] nj. x[1] a b a+b x[2] c d c+d n.k a+c b+d n Test nezávislosti ve čtyřpolní tabulce Testovou statistiku pro čtyřpolní kontingenční tabulku lze zjednodušit do tvaru: ( ) ( )( )( )( )dbcadcba bcadn K 2 ++++ − = . Platí-li hypotéza o nezávislosti veličin X, Y, pak K se asymptoticky řídí rozložením χ2 (1). Kritický obor: ( ) )∞χ= α− ,1W 1 2 Nulovou hypotézu zamítáme na asymptotické hladině významnosti α, když K∈W. Povšimněte si, že za platnosti hypotézy o nezávislosti ad = bc. Pro čtyřpolní tabulku navrhl R. A. Fisher přesný (exaktní) test nezávislosti známý jako Fisherův faktoriálový test. Sir Ronald Aylmer Fisher (1890 – 1962): Britský statistik a genetik. (Fisherův přesný test je popsán např. v knize K. Zvára: Biostatistika, Karolinum, Praha 1998. Princip spočívá v tom, že pomocí kombinatorických úvah se vypočítají pravděpodobnosti toho, že při daných marginálních četnostech dostaneme tabulky, které se od nulové hypotézy odchylují aspoň tak, jako daná tabulka.) Upozornění: STATISTICA poskytuje p-hodnotu pro Fisherův přesný test. Jestliže vyjde p ≤ α, pak hypotézu o nezávislosti zamítáme na hladině významnosti α. Příklad: V náhodném výběru 50 obézních dětí ve věku 6 – 14 let byla zjišťována obezita rodičů. Veličina X – obezita matky, veličina Y – obezita otce. Výsledky průzkumu jsou uvedeny v kontingenční tabulce: YX ano ne nj. ano 15 9 24 ne 7 19 26 n.k 22 28 50 Pomocí Fisherova exaktního testu ověřte, zda lze na hladině významnosti 0,05 zamítnout hypotézu o nezávislosti náhodných veličin X a Y. Výpočet pomocí systému STATISTICA: Vytvoříme datový soubor o třech proměnných X, Y (varianty 0 – neobézní, 1 – obézní) a četnost a čtyřech případech: 1 X 2 Y 3 četnost 1 2 3 4 obézní obézní 15 obézní neobézní 9 neobézní obézní 7 neobézní neobézní 19 Statistiky – Základní statistiky/tabulky – OK – Specif. Tabulky – List 1 X, List 2 Y – OK, zapneme proměnnou vah četnost – OK, Výpočet – na záložce Možnosti zaškrtneme Fisher exakt., Yates, McNemar (2x2). Dostaneme výstupní tabulku: Statist. : X(2) x Y(2) (obezita rodicu) Statist. Chí-kvadr. sv p Pearsonův chí-kv. M-V chí-kvadr. Yatesův chí-kv. Fisherův přesný, 1-str. 2-stranný McNemarův chí-kv. (A/D) (B/C) 6,410777 df=1 p=,01134 6,548348 df=1 p=,01050 5,048207 df=1 p=,02465 p=,01188 p=,02163 ,2647059 df=1 p=,60691 ,0625000 df=1 p=,80259 Vidíme, že p-hodnota pro Fisherův exaktní oboustranný test je 0,02163, tedy na hladině významnosti 0,05 zamítáme hypotézu, že obezita matky a otce spolu nesouvisí. Podíl šancí ve čtyřpolní kontingenční tabulce Ve čtyřpolních tabulkách používáme charakteristiku bc ad OR = , která se nazývá výběrový podíl šancí (odds ratio). Považujeme ho za odhad neznámého teoretického podílu šancí 1221 2211 ππ ππ =ορ . Můžeme si představit, že pokus se provádí za dvojích různých okolností a může skončit buď úspěchem nebo neúspěchem. okolnostiVýsledek pokusu I II nj. úspěch a b a+b neúspěch c d c+d n.k a+c b+d n Poměr počtu úspěchů k počtu neúspěchů (tzv. šance) za 1. okolností je c a , za druhých okolností je d b . Podíl šancí je tedy bc ad OR = . Jsou-li veličiny Y,X nezávislé, pak k..jjk ππ=π , tudíž teoretický podíl šancí 1=ορ . Závislost veličin Y,X bude tím silnější, čím více se ορbude lišit od 1. Avšak )∞∈ορ ,0 , tedy hodnoty ορ jsou kolem 1 rozmístěny nesymetricky. Z tohoto důvodu raději používáme logaritmus teoretického či výběrového podílu šancí. Testování nezávislosti ve čtyřpolních tabulkách pomocí podílu šancí Na asymptotické hladině významnosti α testujeme hypotézu H0: Y,X jsou stochasticky nezávislé náhodné veličiny (tj. 0ln =ορ ) proti alternativě H1: Y,X nejsou stochasticky nezávislé náhodné veličiny (tj. 0ln ≠ορ ). Testová statistika d 1 c 1 b 1 a 1 ORln T0 +++ = se asymptoticky řídí rozložením ( )1,0N , když nulová hypotéza platí. Kritický obor: )( ∞∪−∞−= α−α− ,uu,W 2/12/1 . Nulovou hypotézu tedy zamítáme na asymptotické hladině významnosti α , když se testová statistika realizuje v kritickém oboru W. Testování nezávislosti lze provést též pomocí 100(1-α)% asymptotického intervalu spolehlivosti pro logaritmus podílu šancí ορ, který je dán vzorcem: ( )       +++++++−= α−α− 2/12/1 u d 1 c 1 b 1 a 1 ORln,u d 1 c 1 b 1 a 1 ORlnh,d Jestliže interval spolehlivosti neobsahuje 0, pak hypotézu o nezávislosti zamítneme na asymptotické hladině významnosti α . Příklad (testování nezávislosti pomocí podílu šancí a pomocí statistiky K): U 135 uchazečů o studium na jistou fakultu byl hodnocen dojem, jakým zapůsobili na komisi u ústní přijímací zkoušky. Na asymptotické hladině významnosti 0,05 testujte hypotézu, že přijetí na fakultu nezávisí na dojmu u přijímací zkoušky. dojempřijetí dobrý špatný nj. ano 17 11 28 ne 39 58 97 n.k 56 69 125 Řešení: a) Testování pomocí podílu šancí: 298,2 3911 5817 bc ad OR = ⋅ ⋅ == . Podíl šancí nám říká, že uchazeč, který zapůsobil na komisi dobrým dojmem, má asi 2,3 x větší šanci na přijetí než uchazeč, který zapůsobil špatným dojmem. Provedeme další pomocné výpočty: 96,1u,439,0 58 1 39 1 11 1 17 1 d 1 c 1 b 1 a 1 0,832,ORln 0,975 ==+++=+++ = Dosadíme do vzorců pro meze asymptotického intervalu spolehlivosti pro podíl šancí: 692,196,1439,0832,0u d 1 c 1 b 1 a 1 ORlnhln,028,096,1439,0832,0u d 1 c 1 b 1 a 1 ORlndln 2/12/1 =⋅+=++++=−=⋅−=+++−= α−α− Protože interval (-0,028; 1,692) obsahuje číslo 0, na asymptotické hladině významnosti 0,05 nezamítáme hypotézu o nezávislosti dojmu u přijímací zkoušky a přijetí na fakultu. b) Testování pomocí statistiky K: dojempřijetí dobrý špatný nj. ano 17 11 28 ne 39 58 97 n.k 56 69 125 Ověříme splnění podmínek dobré aproximace: 544,12 125 5628 n nn 1..1 = ⋅ = , 456,15 125 6928 n nn 2..1 = ⋅ = , 456,43 125 5697 n nn 1..2 = ⋅ = , 544,53 125 6997 n nn 2..2 = ⋅ = Podmínky dobré aproximace jsou splněny. Dosadíme do zjednodušeného vzorce pro testovou statistiku K: ( ) ( )( )( )( ) ( ) 6953,3 69569728 39115817125 dbcadcba bcadn K 22 = ⋅⋅⋅ ⋅−⋅⋅ = ++++ − = Kritický obor: ( ) ) )∞=∞χ= ,841,3,1W 95,0 2 . Protože testová statistika se nerealizuje k kritickém oboru, nulovou hypotézu nezamítáme na asymptotické hladině významnosti 0,05. Vypočteme ještě Cramérův koeficient: 1719,0 )12(125 6953,3 )1m(n K V = − = − = Vidíme, že mezi dojmem u přijímací zkoušky a přijetím na fakultu je pouze slabá závislost. Závislost dvou veličin ordinálního typu Spearmanův koeficient pořadové korelace Charles Edward Spearman (1863 – 1945): Britský psycholog a statistik, zakladatel faktorové analýzy Nechť X,Y jsou náhodné veličiny ordinálního typu (tj. obsahová interpretace je možná jenom u relace rovnosti a relace uspořádání). Pořídíme dvourozměrný náhodný výběr (X1, Y1), ..., (Xn, Yn) z rozložení, jímž se řídí náhodný vektor (X, Y). Označíme Ri pořadí náhodné veličiny Xi a Qi pořadí náhodné veličiny Yi, i = 1, ..., n. Spearmanův koeficient pořadové korelace: ( ) ( )∑ = − − −= n 1i 2 ii2S QR 1nn 6 1r . Tento koeficient nabývá hodnot mezi –1 a 1. Čím je bližší 1, tím je silnější přímá pořadová závislost mezi veličinami X a Y, čím je bližší –1, tím je silnější nepřímá pořadová závislost mezi veličinami X a Y. Teoretická hodnota Spearmanova koeficientu se značí ρS. Vlastnosti Spearmanova koeficientu pořadové korelace Pro Spearmanův koeficient pořadové korelace platí 1r1 S ≤≤− . Čím je bližší 1, tím je silnější přímá pořadová závislost mezi veličinami X a Y, čím je bližší –1, tím je silnější nepřímá pořadová závislost mezi veličinami X a Y. Je-li 1rS = resp. 1rS −= , pak realizace ( ) n,,1i,y,x ii K= daného náhodného výběru leží na nějaké rostoucí resp. klesající funk- ci. Hodnoty rS se nezmění, když provedeme vzestupnou transformaci původních dat. Hodnoty rS se vynásobí -1, když provedeme sestupnou transformaci původních dat. Koeficient je symetrický. Koeficient je rezistentní vůči odlehlým hodnotám. Význam absolutní hodnoty Spearmanova koeficientu: mezi 0 až 0,1 … zanedbatelná pořadová závislost, mezi 0,1 až 0,3 … slabá pořadová závislost, mezi 0,3 až 0,7 … střední pořadová závislost, mezi 0,7 až 1 … silná pořadová závislost. Spearmanův koeficient pořadové korelace se používá v situacích, kdy - zkoumaná data mají ordinální charakter - nelze předpokládat, že vztah mezi veličinami X, Y je lineární - náhodný výběr nepochází z dvourozměrného normálního rozložení Testování nezávislosti ordinálních veličin Na hladině významnosti α testujeme hypotézu H0: X, Y jsou pořadově nezávislé náhodné veličiny proti - oboustranné alternativě H1: X, Y jsou pořadově závislé náhodné veličiny - levostranné alternativě H1: mezi X a Y existuje nepřímá pořadová závislost - pravostranné alternativě H1: mezi X a Y existuje přímá pořadová závislost). Jako testová statistika slouží Spearmanův koeficient pořadové korelace rS. Nulovou hypotézu zamítáme na hladině významnosti α ve prospěch - oboustranné alternativy, když │rS│≥ rS,1-α/2(n) - levostranné alternativy, když rS ≤ - rS,1-α(n) - pravostranné alternativy, když rS ≥ rS,1-α(n), kde rS,1-α(n) je kritická hodnota, kterou pro α = 0,05 nebo 0,01 a n ≤ 30 najdeme v tabulkách. Asymptotická varianta testu Pro n > 20 lze použít testovou statistiku 2 S S 0 r1 2nr T − − = , která se v případě platnosti nulové hypotézy asymptoticky řídí rozložením t(n-2). Kritický obor pro oboustrannou alternativu: ( ) ( ) )( ∞−∪−−∞−= α−α− ,2nt2nt,W 2/12/1 Kritický obor pro levostrannou alternativu: ( )( 2nt,W 1 −−∞−= α− Kritický obor pro pravostrannou alternativu: ( ) )∞−= α− ,2ntW 1 . Hypotézu o pořadové nezávislosti náhodných veličin X, Y zamítáme na asymptotické hladině významnosti α, když t0 ∈ W. Upozornění: Systém STATISTICA používá tuto variantu testu pořadové nezávislosti bez ohledu na rozsah náhodného výběru. Příklad na testování pořadové nezávislosti Dva lékaři hodnotili stav sedmi pacientů po témž chirurgickém zákroku. Postupovali tak, že nejvyšší pořadí dostal nejtěžší případ. Číslo pacienta 1 2 3 4 5 6 7 Hodnocení 1. lékaře 4 1 6 5 3 2 7 Hodnocení 2. lékaře 4 2 5 6 1 3 7 Vypočtěte Spearmanův koeficient a na hladině významnosti 0,05 testujte hypotézu, že hodnocení obou lékařů jsou pořadově nezávislá. Řešení: Na hladině významnosti 0,05 testujeme H0: X, Y jsou pořadově nezávislé náhodné veličiny proti oboustranné alternativě H1: X, Y jsou pořadově závislé náhodné veličiny. V tomto příkladě přímo známe pořadí Ri (tj. hodnocení 1. lékaře) a pořadí Qi (tj. hodnocení 2. lékaře). Vypočteme ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( )[ ] 857,077321365562144 177 6 1r 2222222 2S =−+−+−+−+−+−+− − −= . Kritická hodnota: rS,0,95(7) = 0,745. Protože 0,857 ≥ 0,745, nulovou hypotézu zamítáme na hladině významnosti 0,05. Výpočet pomocí systému STATISTICA Vytvoříme datový soubor o dvou proměnných X (hodnocení 1. lékaře), Y (hodnocení 2. lékaře) a sedmi případech. Do proměnných X a Y zapíšeme zjištěná hodnocení. 1 X 2 Y 1 2 3 4 5 6 7 4 4 1 2 6 5 5 6 3 1 2 3 7 7 Statistiky – Neparametrické statistiky – Korelace – OK – vybereme Vytvořit detailní report - Proměnné X, Y – OK – Spearmanův koef. R. Dostaneme tabulku Spearmanovy korelace (dva lekari.sta) ChD vynechány párově Označ. korelace jsou významné na hl. p <,05000 Dvojice proměnných Počet plat. Spearman R t(N-2) Úroveň p X & Y 7 0,857143 3,721042 0,013697 Spearmanův koeficient pořadové korelace nabývá hodnoty 0,857, testová statistika se realizuje hodnotou 3,721, odpovídající p-hodnota je 0,0137, tedy na asymptotické hladině významnosti 0,05 zamítáme hypotézu o pořadové nezávislosti hodnocení dvou lékařů ve prospěch oboustranné alternativy. Závislost dvou veličin intervalového či poměrového typu Pearsonův koeficient korelace Karl Pearson (1857 – 1936): Britský statistik Číslo ( ) ( ) jinak0 0)Y(D)X(Dpro )Y(D)X(D YX,C )Y(D )Y(EY )X(D )X(EX E Y,XR      >=      − ⋅ − = se nazývá Pearsonův koeficient korelace. (Pro výpočet Pearsonova koeficentu korelace musíme znát simultánní distribuční funkci Φ(x,y) v obecném případě resp. simultánní hustotu pravděpodobnosti φ(x,y) ve spojitém případě resp. simultánní pravděpodobnostní funkci π(x,y) v diskrétním případě.) Vlastnosti Pearsonova koeficientu korelace a) R(a1, Y) = R(X, a2) = R(a1, a2) = 0 b) R(a1 + b1X, a2 + b2Y) = sgn(b1b2) R(X, Y) = ( ) ( )   <− > 0bbproY,XR 0bbproY,XR 21 21 c) R(X, X) = 1 pro D(X) ≠ 0, R(X, X) = 0 jinak d) R(X, Y) = R(Y, X) e) 1)Y,X(R ≤ a rovnost nastane tehdy a jen tehdy, když mezi veličinami X, Y existuje s pravděpodobností 1 úplná lineární závislost, tj. existují konstanty a, b tak, že pravděpodobnost P(Y = a + bX) = 1. Přitom R(X, Y) = 1, když b > 0 a R(X, Y) = -1, když b < 0. (Uvedená nerovnost se nazývá Cauchyova – Schwarzova – Buňakovského nerovnost.) Z vlastností Pearsonova koeficientu korelace vyplývá, že se hodí pouze k měření těsnosti lineárního vztahu veličin X a Y. Při složitějších závislostech může dojít k paradoxní situaci, že Pearsonův koeficient korelace je nulový. Ilustrace: -1 -0.8 -0.6 -0.4 -0.2 0 0.2 0.4 0.6 0.8 1 -1 -0.9 -0.8 -0.7 -0.6 -0.5 -0.4 -0.3 -0.2 -0.1 0 Definice nekorelovanosti Je-li R(X, Y) = 0, pak řekneme, že náhodné veličiny jsou nekorelované. (Znamená to, že mezi X a Y neexistuje žádná lineární závislost. Jsou-li náhodné veličiny X,Y stochasticky nezávislé, pak jsou samozřejmě i nekorelované.) Je-li R(X, Y) > 0, pak řekneme, že náhodné veličiny jsou kladně korelované. (Znamená to, že s růstem hodnot veličiny X rostou hodnoty veličiny Y a s poklesem hodnot veličiny X klesají hodnoty veličiny Y.) Je-li R(X, Y) < 0, pak řekneme, že náhodné veličiny jsou záporně korelované. (Znamená to, že s růstem hodnot veličiny X klesají hodnoty veličiny Y a s poklesem hodnot veličiny X rostou hodnoty veličiny Y.) Výběrový koeficient korelace Nechť (X1, Y1), ..., (Xn, Yn) náhodný výběr rozsahu n z dvourozměrného rozložení daného distribuční funkcí Φ(x,y). Z tohoto dvourozměrného náhodného výběru můžeme stanovit: výběrové průměry ∑ = = n 1i i1 X n 1 M , ∑ = = n 1i i2 Y n 1 M , výběrové rozptyly ( )∑ = − − = n 1i 2 1i 2 1 MX 1n 1 S , ( )∑ = − − = n 1i 2 2i 2 2 MY 1n 1 S , výběrovou kovarianci ( )( )∑ = −− − = n 1i 2i1i12 MYMX 1n 1 S a s jejich pomocí zavedeme výběrový koeficient korelace      >= − ⋅ − −= ∑ = jinak0 0SSpro SS S S MY S MX 1n 1 R 21 21 12 n 1i 2 2 1 1 12 . Vlastnosti Pearsonova koeficientu korelace se přenášejí i na výběrový koeficient korelace. (Spearmanův koeficient pořadové korelace odpovídá Pearsonovu koeficientu korelace aplikovanému na pořadí.) Pearsonův koeficient korelace dvourozměrného normálního rozložení Nechť náhodný vektor (X, Y) má dvourozměrné normální rozložení s hustotou ( ) ( )               σ µ− + σ µ− σ µ− ρ−      σ µ− ρ− − ρ−σπσ =ϕ 2 2 2 2 2 1 1 2 1 1 2 yyx 2 x 12 1 2 21 e 12 1 y,x , přičemž µ1 = E(X), µ2 = E(Y), σ1 2 = D(X), σ2 2 = D(Y), ρ = R(X,Y). Marginální hustoty jsou: ( ) ( ) ( ) 2 1 2 1 2 x 1 1 e 2 1 ...dyy,xx σ µ− −∞ ∞− πσ ==ϕ=ϕ ∫ , ( ) ( ) ( ) 2 2 2 2 2 y 2 2 e 2 1 ...dxy,xy σ µ− −∞ ∞− πσ ==ϕ=ϕ ∫ . Je-li ρ = 0, pak pro ( ) ( ) ( ) ( )yxy,x:Ry,x 21 2 ϕϕ=ϕ∈∀ , tedy náhodné veličiny X, Y jsou stochasticky nezávislé. Jinými slovy: stochastická nezávislost složek X, Y normálně rozloženého náhodného vektoru je ekvivalentní jejich nekorelovanosti. Pro jiná dvourozměrná rozložení to neplatí! Upozornění: nadále budeme předpokládat, že (X1, Y1), ..., (Xn, Yn) je náhodný výběr rozsahu n z dvourozměrného normálního rozložení N2                 σσρσ σρσσ       µ µ 2 221 21 2 1 2 1 , . Předpoklad dvourozměrné normality lze orientačně ověřit pomocí dvourozměrného tečkového diagramu: tečky by měly zhruba rovnoměrně vyplnit vnitřek elipsovitého obrazce. Vrstevnice hustoty dvourozměrného normálního rozložení jsou totiž elipsy. Do dvourozměrného tečkového diagramu můžeme ještě zakreslit 100(1-α)% elipsu konstantní hustoty pravděpodobnosti. Bude-li více než 100α% teček ležet vně této elipsy, svědčí to o porušení dvourozměrné normality. Bude-li mít hlavní osa elipsy kladnou resp. zápornou směrnici, znamená to, že mezi veličinami X a Y existuje určitý stupeň přímé resp. nepřímé lineární závislosti. Testování hypotézy o nezávislosti Na hladině významnosti α testujeme H0: X, Y jsou stochasticky nezávislé náhodné veličiny (tj. ρ = 0) proti - oboustranné alternativě H1: X, Y nejsou stochasticky nezávislé náhodné veličiny (tj. ρ ≠ 0) - levostranné alternativě H1: X, Y jsou záporně korelované náhodné veličiny (tj. ρ < 0) - pravostranné alternativě H1: X, Y jsou kladně korelované náhodné veličiny (tj. ρ > 0). Testová statistika má tvar: 2 12 12 0 R1 2nR T − − = . Platí-li nulová hypotéza, pak T0 ~ t(n-2). Kritický obor pro test H0 proti - oboustranné alternativě: ( )( ( ) )∞−∪−−∞−= α−α− ,2nt2nt,W 2/12/1 , - levostranné alternativě: ( )( 2nt,W 1 −−∞−= α− , - pravostranné alternativě: ( ) )∞−= α− ,2ntW 1 . H0 zamítáme na hladině významnosti α, když Wt0 ∈ . Příklad: Testování hypotézy o nezávislosti V dílně pracuje 15 dělníků. Byl u nich zjištěn počet směn odpracovaných za měsíc (náhodná veličina X) a počet zhotovených výrobků (náhodná veličina Y): X 20 21 18 17 20 18 19 21 20 14 16 19 21 15 15 Y 92 93 83 80 91 85 82 98 90 60 73 86 96 64 81. Orientačně ověřte dvourozměrnou normalitu dat, vypočtěte výběrový koeficient korelace mezi X a Y a na hladině 0,01 testujte hypotézu o nezávislosti X a Y. Řešení: Dvourozměrnou normalitu dat ověříme pomocí dvourozměrného tečkového diagramu. 10 15 20 25 30 x 50 60 70 80 90 100 110 120 y Vidíme, že předpoklad dvourozměrné normality je oprávněný. Vypočteme realizace výběrových průměrů: m1 = ∑= n 1i ix n 1 = 18,267, m2 = ∑= n 1i iy n 1 = 83,6, výběrových rozptylů: s1 2 = ( )∑= − − n 1i 2 1i mx 1n 1 = 5,6381, s2 2 = ( )∑= − − n 1i 2 2i my 1n 1 = 121,4, výběrové kovariance: s12 = ( )( )∑= −− − n 1i 2i1i mymx 1n 1 = 24,2571, výběrového koeficientu korelace: 21 12 12 ss s r = = 0,927. Realizace testové statistiky: 2 12 12 0 r1 2nr t − − = = 8,912, kritický obor ( )( ( ) ) ( )∞∪−∞−=∞∪−∞−= ,012,3012,3,,13t13t,W 995,0995,0 . Protože Wt0 ∈ , hypotézu o nezávislosti veličin X a Y zamítáme na hladině významnosti 0,01. S rizikem omylu nejvýše 1% jsme tedy prokázali, že mezi počtem směn odpracovaných za měsíc a počtem zhotovených výrobků existuje závislost. Výpočet pomocí systému STATISTICA Vytvoříme datový soubor o dvou proměnných X, Y a 15 případech. Dvourozměrnou normalitu dat ověříme pomocí dvourozměrného tečkového diagramu – viz výše. Statistiky – Základní statistiky/tabulky – Korelační matice – OK – 1 seznam proměn. – X, Y – OK – na záložce Možnosti vybereme Zobrazit detailní tabulku výsledků – Výpočet. Korelace (smeny a vyrobky.sta) Označ. korelace jsou významné na hlad. p < ,05000 (Celé případy vynechány u ChD) Prom. X & prom. Y Průměr Sm.Odch. r(X,Y) r2 t p N Konst. záv.: Y Směr. záv: Y Konst. záv.: X Směrnic záv.: X X X X Y Y X Y Y 18,26667 2,37447 18,26667 2,37447 1,000000 1,000000 15 0,000000 1,000000 0,000000 1,000000 18,26667 2,37447 83,60000 11,01817 0,927180 0,859663 8,923795 0,000001 15 5,010135 4,302365 1,562407 0,199812 83,60000 11,01817 18,26667 2,37447 0,927180 0,859663 8,923795 0,000001 15 1,562407 0,199812 5,010135 4,302365 83,60000 11,01817 83,60000 11,01817 1,000000 1,000000 15 0,000000 1,000000 0,000000 1,000000 Výběrový koeficient korelace se realizoval hodnotou 0,92718, testová statistika nabyla hodnoty 8,924, odpovídající phodnota je 0,000001, tedy na hladině významnosti 0,01 zamítáme hypotézu o nezávislosti veličin X, Y.