12. Testování nezávislosti náhodných veličin 12.1. Motivace: Při zpracování dat se velmi často setkáme s úkolem zjistit, zda dvě náhodné veličiny jsou stochasticky nezávislé. Testování hypotézy o nezávislosti se provádí různými způsoby podle toho, jakého typu jsou dané náhodné veličiny – zda jsou nominální, ordinální, intervalové či poměrové. Nominální náhodné veličiny umožňují obsahovou interpretaci pouze u relace rovnosti, ordinální navíc ještě u relace uspořádání, intervalové pak navíc u operace rozdílu a poměrové i u operace podílu. Např. nás může zajímat, zda ve sledované populaci je barva očí a barva vlasů nezávislá nebo zda počet dnů absence a věk pracovníka jsou nezávislé. Zpravidla chceme také zjistit intenzitu případné závislosti sledovaných dvou veličin. K tomuto účelu byly zkonstruovány různé koeficienty, které nabývají hodnot od 0 do 1 (resp. od -1 do 1). Čím je takový koeficient bližší 1 (resp. -1), tím je závislost mezi danými dvěma veličinami silnější a čím je bližší 0, tím je slabší. 12.2. Definice (definice kontingenční tabulky) Nechť X,Y jsou dvě nominální náhodné veličiny (tj. obsahová interpretace je možná jenom u relace rovnosti). Nechť X nabývá variant x[[1]], ..., x[[r]] a Y nabývá variant y[[1]], ..., y[[s]]. Označme: … simultánní pravděpodobnost dvojice variant (x[[j]], y[[k]]) … marginální pravděpodobnost varianty x[[j]] … marginální pravděpodobnost varianty y[[k]] Simultánní a marginální pravděpodobnosti zapíšeme do kontingenční tabulky: y y[[1]] ... y[[s]] π[j.] x π[jk] x[[1]] π[11] ... π[1s] π[1.] ... ... ... ... ... x[[r]] π[r1] ... π[rs] π[r.] π[.k] π[.1] ... π[.s] 1 Nyní pořídíme dvourozměrný náhodný výběr rozsahu n z rozložení, kterým se řídí dvourozměrný diskrétní náhodný vektor (X, Y). Zjištěné absolutní simultánní četnosti n[jk] dvojice variant (x[[j]], y[[k]]) uspořádáme do kontingenční tabulky: y y[[1]] ... y[[s]] n[j.] x n[jk] x[[1]] n[11] ... n[1s] n[1.] ... ... ... ... ... x[[r]] n[r1] ... n[rs] n[r.] n[.k] n[.1] ... n[.s] n n[j.] = n[j1] + ... + n[js] je marginální absolutní četnost varianty x[[j]] n[.k] = n[1k] + ... + n[rk] je marginální absolutní četnost varianty y[[k]] Simultánní pravděpodobnost π[jk] odhadneme pomocí simultánní relativní četnosti , marginální pravděpodobnosti π[j.] a π[.k] odhadneme pomocí marginálních relativních četností a . 12.3. Věta (věta o testové statistice K) Testujeme nulovou hypotézu H[0]: X, Y jsou stochasticky nezávislé náhodné veličiny proti alternativě H[1]: X, Y nejsou stochasticky nezávislé náhodné veličiny. Kdyby náhodné veličiny X, Y byly stochasticky nezávislé, pak by platil multiplikativní vztah , : π[jk] = π[j.] π[.k] neboli , tj. . Číslo se nazývá teoretická četnost dvojice variant (x[[j]], y[[k]]). Testová statistika: . Platí-li H[0], pak K se asymptoticky řídí rozložením χ^2((r-1)(s-1)). Kritický obor: . Hypotézu o nezávislosti veličin X, Y tedy zamítáme na asymptotické hladině významnosti α, když K ≥ χ^2[1-α]((r-1)(s-1)). 12.4. Poznámka (podmínky dobré aproximace) Rozložení statistiky K lze aproximovat rozložením χ^2((r-1)(s-1)), pokud teoretické četnosti aspoň v 80% případů nabývají hodnoty větší nebo rovné 5 a ve zbylých 20% neklesnou pod 2. Není-li splněna podmínka dobré aproximace, doporučuje se slučování některých variant. 12.5. Definice (definice Cramérova koeficientu, význam jeho hodnot) Cramérův koeficient: , kde m = min{r,s}. Tento koeficient nabývá hodnot mezi 0 a 1. Čím blíže je 1, tím je těsnější závislost mezi X a Y, čím blíže je 0, tím je tato závislost volnější. Význam hodnot Cramérova koeficientu: mezi 0 až 0,1 … zanedbatelná závislost, mezi 0,1 až 0,3 … slabá závislost, mezi 0,3 až 0,7 … střední závislost, mezi 0,7 až 1 … silná závislost. Carl Harald Cramér (1893 – 1985): Švédský matematik 12.6. Příklad: V sociologickém průzkumu byl z uchazečů o studium na vysokých školách pořízen náhodný výběr rozsahu 360. Mimo jiné se zjišťovala sociální skupina, ze které uchazeč pochází a typ školy, na kterou se hlásí. Výsledky jsou zaznamenány v kontingenční tabulce: Typ školy Sociální skupina n[j.] I II III IV univerzitní 50 30 10 50 140 technický 30 50 20 10 110 ekonomický 10 20 30 50 110 n[.k] 90 100 60 110 360 Na asymptotické hladině významnosti 0,05 testujte hypotézu o nezávislosti typu školy a sociální skupiny. Vypočtěte Cramérův koeficient. Řešení: Nejprve vypočteme všech 12 teoretických četností: Vidíme, že podmínky dobré aproximace jsou splněny, všechny teoretické četnosti převyšují číslo 5. Nyní dosadíme do vzorce pro testovou statistiku K: , r = 3, s = 4, χ^2[0,95](6) = 12,6. Protože K ≥ 12,6, hypotézu o nezávislosti typu školy a sociální skupiny zamítáme na asymptotické hladině významnosti 0,05. Cramérův koeficient: . Hodnota Cramérova koeficientu svědčí o tom, že mezi veličinami X a Y existuje středně silná závislost. Výpočet pomocí systému STATISTICA: Vytvoříme nový datový soubor o třech proměnných (X - sociální skupina, Y – typ školy, četnost) a 12 případech: Statistiky – Základní statistiky/tabulky – OK – Specif. Tabulky – List 1 X, List 2 Y – OK, zapneme proměnnou vah četnost – OK, Výpočet – na záložce Možnosti zaškrtneme Očekávané četnosti. Dostaneme kontingenční tabulku teoretických četností: Všechny teoretické četnosti jsou větší než 5, podmínky dobré aproximace jsou splněny. V záhlaví tabulky je uvedena hodnota testové statistiky K = 76,8359, počet stupňů volnosti 6 a odpovídající p-hodnota. Je velmi blízká 0, tedy na asymptotické hladině významnosti 0,05 zamítáme hypotézu o nezávislosti typu školy a sociální skupiny. Hodnotu testové statistiky a Cramérův koeficient dostaneme také tak, že na na záložce Možnosti zaškrtneme Pearsonův & M-V chí kvadrát a Cramérovo V a na záložce Detailní výsledky vybereme Detailní 2 rozm. tabulky. 12.7. Definice (definice čtyřpolní kontingenční tabulky) Nechť r = s = 2. Pak hovoříme o čtyřpolní kontingenční tabulce a používáme označení: n[11] = a, n[12] = b, n[21] = c, n[22] = d. X Y n[j.] y[[1]] y[[2]] x[[1]] a b a+b x[[2]] c d c+d n[.k] a+c b+d n Testová statistika K pro čtyřpolní kontingenční tabulku se dá zjednodušit do tvaru: Kritický obor: 12.8. Věta (věta o testové statistice K pro čtyřpolní tabulky) Testová statistika K pro čtyřpolní kontingenční tabulku se dá zjednodušit do tvaru: Kritický obor: . Hypotézu o nezávislosti náhodných veličin X, Y tedy zamítáme na asymptotické hladině významnosti α, když K W. 12.9. Poznámka: U čtyřpolní KT lze rovněž použít následující podmínky dobré aproximace: a + b > 5, c + d > (a + c)/3. 12.10. Příklad: U 125 uchazečů o studium na jistou fakultu byl hodnocen dojem, jakým zapůsobili na komisi u ústní přijímací zkoušky. Na asymptotické hladině významnosti 0,05 testujte hypotézu, že přijetí na fakultu nezávisí na dojmu u přijímací zkoušky. přijetí dojem n[j.] dobrý špatný ano[] 17 11 28 ne 39 58 97 n[.k] 56 69 125 Řešení: Ověříme splnění podmínek dobré aproximace: a + b = 28 > 5, c + d = 97 > (a + c)/3 = 56/3 = 18,66 – v pořádku Dosadíme do zjednodušeného vzorce pro testovou statistiku K: Kritický obor: . Protože testová statistika se nerealizuje k kritickém oboru, nulovou hypotézu nezamítáme na asymptotické hladině významnosti 0,05. 12.11. Definice (definice podílu šancí) Ve čtyřpolních tabulkách používáme charakteristiku , která se nazývá podíl šancí (odds ratio). Můžeme si představit, že pokus se provádí za dvojích různých okolností a může skončit buď úspěchem nebo neúspěchem. Výsledek pokusu okolnosti n[j.] I II úspěch[] a b a+b neúspěch c d c+d n[.k] a+c b+d n Poměr počtu úspěchů k počtu neúspěchů (tzv. šance) za 1. okolností je , za druhých okolností je . Podíl šancí je . 12.12. Věta (asymptotický interval spolehlivosti pro podíl šancí a jeho využití k testování hypotézy o nezávislosti) Asymptotický 100(1-α)% interval spolehlivosti pro skutečný podíl šancí má meze: , . Jestliže interval spolehlivosti neobsahuje 1, pak hypotézu o nezávislosti zamítneme na asymptotické hladině významnosti α. 12.13. Příklad: Pro údaje z příkladu 12.10. vypočtěte a interpretujte podíl šancí, sestrojte 95% asymptotický interval spolehlivosti pro podíl šancí a s jeho pomocí testujte hypotézu, že přijetí na fakultu nezávisí na dojmu u přijímací zkoušky. Řešení: . Podíl šancí nám říká, že uchazeč, který zapůsobil na komisi dobrým dojmem, má asi 2,3 x větší šanci na přijetí než uchazeč, který zapůsobil špatným dojmem. Provedeme další pomocné výpočty: Dosadíme do vzorců pro meze asymptotického intervalu spolehlivosti pro podíl šancí: Po odlogaritmování dostaneme: Protože interval (0,972; 5,433) obsahuje číslo 1, na asymptotické hladině významnosti 0,05 nezamítáme hypotézu o nezávislosti dojmu u přijímací zkoušky a přijetí na fakultu. Výpočet pomocí systému STATISTICA: Dolní a horní mez intervalu spolehlivosti pro OR zjistíme pomocí STATISTIKY. Vytvoříme datový soubor o dvou proměnných DM a HM a jednom případu. Do Dlouhého jména proměnné DM napíšeme vzorec pro dolní mez: =exp(log(2,298)-sqrt(1/17+1/11+1/39+1/58)*VNormal(0,975;0;1)) a analogicky do Do Dlouhého jména proměnné HM napíšeme vzorec pro horní mez: =exp(log(2,298)+sqrt(1/17+1/11+1/39+1/58)*VNormal(0,975;0;1)) 12.14. Poznámka: Pro čtyřpolní tabulku navrhl R. A. Fisher přesný (exaktní) test nezávislosti známý jako Fisherův faktoriálový test. (Je popsán např. v knize K. Zvára: Biostatistika, Karolinum, Praha 1998.) Jestliže p-hodnota pro tento test ≤ α, pak hypotézu o nezávislosti zamítáme na hladině významnosti α. 12.15. Definice (definice Spearmanova koeficientu pořadové korelace, význam jeho hodnot) Nechť X,Y jsou náhodné veličiny aspoň ordinálního typu. Pořídíme dvourozměrný náhodný výběr (X[1], Y[1]), ..., (X[n], Y[n]) z rozložení, jímž se řídí náhodný vektor (X, Y). Označíme R[i] pořadí náhodné veličiny X[i] a Q[i] pořadí náhodné veličiny Y[i], i = 1, ..., n. Spearmanův koeficient pořadové korelace: . Tento koeficient nabývá hodnot mezi –1 a 1. Čím je bližší 1, tím je silnější přímá pořadová závislost mezi veličinami X a Y, čím je bližší –1, tím je silnější nepřímá pořadová závislost mezi veličinami X a Y. Charles Edward Spearman (1863 – 1945): Britský psycholog a statistik, zakladatel faktorové analýzy 12.16. Věta (věta o testování hypotézy o pořadové nezávislosti veličin X, Y) Na hladině významnosti α testujeme hypotézu H[0]: X, Y jsou pořadově nezávislé náhodné veličiny proti - oboustranné alternativě H[1]: X, Y jsou pořadově závislé náhodné veličiny - levostranné alternativě H[1]: mezi X a Y existuje nepřímá pořadová závislost - pravostranné alternativě H[1]: mezi X a Y existuje přímá pořadová závislost). Jako testová statistika slouží Spearmanův koeficient pořadové korelace r[S]. Nulovou hypotézu zamítáme na hladině významnosti α ve prospěch - oboustranné alternativy, když │r[S]│≥ r[S,1-α](n) - levostranné alternativy, když r[S] ≤ - r[S,1-2α](n) - pravostranné alternativy, když r[S] ≥ r[S,1-2α](n), kde r[S,1-α](n) je kritická hodnota, kterou pro α = 0,05 nebo 0,01 a n ≤ 30 najdeme v tabulkách. Pozor – kritické hodnoty pro jednostranné alternativy se v běžně dostupných tabulkách nenajdou. 12.17. Věta (asymptotická varianta testu) Pro n > 20 lze použít testovou statistiku , která se v případě platnosti nulové hypotézy asymptoticky řídí rozložením t(n-2). Kritický obor pro oboustrannou alternativu: Kritický obor pro levostrannou alternativu: Kritický obor pro pravostrannou alternativu: . Hypotézu o pořadové nezávislosti náhodných veličin X, Y zamítáme na asymptotické hladině významnosti α, když t[0] W. Upozornění: Systém STATISTICA používá tuto variantu testu pořadové nezávislosti bez ohledu na rozsah náhodného výběru. Pro n > 30 lze použít testovou statistiku [.] Platí-li H[0], pak [] ≈ N(0, 1). Nulovou hypotézu tedy zamítáme na asymptotické hladině významnosti α ve prospěch oboustranné alternativy, když , levostranné alternativy, když , pravostranné alternativy, když 12.18. Příklad: Dva lékaři hodnotili stav sedmi pacientů po témž chirurgickém zákroku. Postupovali tak, že nejvyšší pořadí dostal nejtěžší případ. Číslo pacienta 1 2 3 4 5 6 7 Hodnocení 1. lékaře 4 1 6 5 3 2 7 Hodnocení 2. lékaře 4 2 5 6 1 3 7 Vypočtěte Spearmanův koeficient r[S] a na hladině významnosti 0,05 testujte hypotézu, že hodnocení obou lékařů jsou pořadově nezávislá. Řešení: . Kritická hodnota: r[S,0,95](7) = 0,745. Protože 0,857 ≥ 0,745, nulovou hypotézu zamítáme na hladině významnosti 0,05. Výpočet pomocí systému STATISTICA Vytvoříme datový soubor o dvou proměnných X (hodnocení 1. lékaře), Y (hodnocení 2. lékaře) a sedmi případech. Do proměnných X a Y zapíšeme zjištěná hodnocení. Statistiky – Neparametrické statistiky – Korelace – OK – vybereme Vytvořit detailní report - Proměnné X, Y – OK – Spearmanův koef. R. Dostaneme tabulku Spearmanův koeficient pořadové korelace nabývá hodnoty 0,857, testová statistika se realizuje hodnotou 3,721, odpovídající p-hodnota je 0,0137, tedy na asymptotické hladině významnosti 0,05 zamítáme hypotézu o pořadové nezávislosti hodnocení dvou lékařů ve prospěch oboustranné alternativy. 12.19. Definice (definice Pearsonova koeficientu korelace) Nechť (X, Y) je náhodný vektor, přičemž náhodné veličiny X, Y jsou aspoň intervalového typu. Číslo se nazývá Pearsonův koeficient korelace. (Pro výpočet Pearsonova koeficentu korelace musíme znát simultánní distribuční funkci Φ(x,y) v obecném případě resp. simultánní hustotu pravděpodobnosti φ(x,y) ve spojitém případě resp. simultánní pravděpodobnostní funkci π(x,y) v diskrétním případě.) 12.20. Věta (věta o vlastnostech koeficientu korelace) a) R(a[1], Y) = R(X, a[2]) = R(a[1], a[2]) = 0 b) R(a[1] + b[1]X, a[2] + b[2]Y) = sgn(b[1]b[2]) R(X, Y) = c) R(X, X) = 1 pro D(X) ≠ 0, R(X, X) = 0 jinak d) R(X, Y) = R(Y, X) e) a rovnost nastane tehdy a jen tehdy, když mezi veličinami X, Y existuje s pravděpodobností 1 úplná lineární závislost, tj. existují konstanty a, b tak, že pravděpodobnost P(Y = a + bX) = 1. Přitom R(X, Y) = 1, když b > 0 a R(X, Y) = -1, když b < 0. (Uvedená nerovnost se nazývá Cauchyova – Schwarzova – Buňakovského nerovnost.) (Z vlastností Pearsonova koeficientu korelace vyplývá, že se hodí pouze k měření těsnosti lineárního vztahu veličin X a Y. Při složitějších závislostech může dojít k paradoxní situaci, že Pearsonův koeficient korelace je nulový.) Ilustrace: Je-li R(X, Y) = 0, pak řekneme, že náhodné veličiny jsou nekorelované. (Znamená to, že mezi X a Y neexistuje žádná lineární závislost.) Je-li R(X, Y) > 0, pak řekneme, že náhodné veličiny jsou kladně korelované. (Znamená to, že s růstem hodnot veličiny X rostou hodnoty veličiny Y a s poklesem hodnot veličiny X klesají hodnoty veličiny Y.) Je-li R(X, Y) < 0, pak řekneme, že náhodné veličiny jsou záporně korelované. (Znamená to, že s růstem hodnot veličiny X klesají hodnoty veličiny Y a s poklesem hodnot veličiny X rostou hodnoty veličiny Y.) 12.21. Definice (definice výběrového koeficientu korelace) Nechť (X[1], Y[1]), ..., (X[n], Y[n]) náhodný výběr rozsahu n z dvourozměrného rozložení daného distribuční funkcí Φ(x,y). Z tohoto dvourozměrného náhodného výběru můžeme stanovit: výběrové průměry , , výběrové rozptyly , , výběrovou kovarianci a s jejich pomocí zavedeme výběrový koeficient korelace . 12.22. Poznámka: Vlastnosti Pearsonova koeficientu korelace uvedené v 12.20. se přenášejí i na výběrový koeficient korelace. 12.23. Věta (věta o koeficientu korelace dvourozměrného normálního rozložení) Nechť náhodný vektor (X, Y) má dvourozměrné normální rozložení s hustotou , přičemž μ[1] = E(X), μ[2] = E(Y), σ[1]^2 = D(X), σ[2]^2 = D(Y), ρ = R(X,Y). Marginální hustoty jsou: , . Je-li ρ = 0, pak pro , tedy náhodné veličiny X, Y jsou stochasticky nezávislé. Jinými slovy: stochastická nezávislost složek X, Y normálně rozloženého náhodného vektoru je ekvivalentní jejich nekorelovanosti. Pro jiná dvourozměrná rozložení to neplatí! Upozornění: nadále budeme předpokládat, že (X[1], Y[1]), ..., (X[n], Y[n]) je náhodný výběr rozsahu n z dvourozměrného normálního rozložení N[2] . 12.24. Věta (testování hypotézy o nezávislosti) Na hladině významnosti α testujeme H[0]: X, Y jsou stochasticky nezávislé náhodné veličiny (tj. ρ = 0) proti - oboustranné alternativě H[1]: X, Y nejsou stochasticky nezávislé náhodné veličiny (tj. ρ ≠ 0) - levostranné alternativě H[1]: X, Y jsou záporně korelované náhodné veličiny (tj. ρ < 0) - pravostranné alternativě H[1]: X, Y jsou kladně korelované náhodné veličiny (tj. ρ > 0). Testová statistika má tvar: . Platí-li nulová hypotéza, pak T[0] ~ t(n-2). Kritický obor pro test H[0] proti - oboustranné alternativě: , - levostranné alternativě: , - pravostranné alternativě: . H[0] zamítáme na hladině významnosti α, když . 12.25. Příklad: Máme k dispozici výsledky testů ze dvou předmětů zjištěné u osmi náhodně vybraných studentů určitého oboru. Číslo studenta 1 2 3 4 5 6 7 8 Počet bodů v 1. testu 80 50 36 58 42 60 56 68 Počet bodů ve 2. testu 65 60 35 39 48 44 48 61 Na hladině významnosti 0,05 testujte hypotézu, že výsledky obou testů nejsou kladně korelované. Řešení: Nejprve se musíme přesvědčit, že uvedené výsledky lze považovat za realizace náhodného výběru z dvourozměrného normálního rozložení. Lze tak učinit orientačně pomocí dvourozměrného tečkového diagramu. Tečky by měly vytvořit elipsovitý obrazec, protože vrstevnice hustoty dvourozměrného normálního rozložení jsou elipsy. Obrázek svědčí o tom, že předpoklad dvourozměrné normality je oprávněný a že mezi počty bodů z 1. a 2. testu bude existovat určitý stupeň přímé lineární závislosti. Testujeme H[0]: ρ = 0 proti pravostranné alternativě H[1]: ρ > 0. Výpočtem zjistíme: R[12] = 0,6668, T = 2,1917. V tabulkách najdeme t[0,95](6) = 1,9432. Kritický obor: . Protože , hypotézu o neexistenci kladné korelace výsledků z 1. a 2. testu zamítáme na hladině významnosti 0,05. Výpočet pomocí systému STATISTICA a) Vytvoříme datový soubor o dvou proměnných X, Y a 8 případech. Dvourozměrnou normalitu dat ověříme pomocí dvourozměrného tečkového diagramu – viz výše. Statistiky – Základní statistiky/tabulky – Korelační matice – OK – 1 seznam proměn. – X, Y – OK – na záložce Možnosti vybereme Zobrazit detailní tabulku výsledků – Výpočet. Výběrový koeficient korelace se realizoval hodnotou 0,6668, testová statistika nabyla hodnoty 2,1917, odpovídající p-hodnota pro oboustranný test je 0,0709, tedy pro jednostranný test je 0,035045. Na hladině významnosti 0,05 zamítáme hypotézu o nezávislosti veličin X, Y ve prospěch pravostranné alternativy. b) Můžeme využít toho, že již známe r[12]. Statistiky – Pravděpodobnostní kalkulátor – Korelace – vyplníme n = 8, r = 0,6668, odškrtneme Dvojité, zaškrtneme Výpočet p z r – Výpočet. V okénku p se objeví hodnota 0,035455, tedy na hladině významnosti 0,05 zamítáme hypotézu o nezávislosti veličin X a Y ve prospěch pravostranné alternativy. 12.26. Věta (test o porovnání koeficientu korelace s danou konstantou) Nechť c je reálná konstanta. Testujeme H[0]: ρ = c proti H[1]: ρ ≠ c. (Tento test se provádí např. tehdy, když experimentátor porovnává vlastnosti svých dat s vlastnostmi uváděnými v literatuře.) Test je založen na statistice , která má za platnosti H[0] pro n ≥ 10 asymptoticky rozložení N(0,1), přičemž je tzv. Fisherova Z-transformace. Kritický obor pro test H[0] proti oboustranné alternativě tedy je . H[0] zamítáme na asymptotické hladině významnosti α, když . 12.27. Příklad: U 600 vzorků rudy byl stanoven obsah železa dvěma analytickými metodami s výběrovým koeficientem korelace 0,85. V literatuře se uvádí, že koeficient korelace těchto dvou metod má být 0,9. Na asymptotické hladině významnosti 0,05 testujte hypotézu H[0]: ρ = 0,9 proti H[1]: ρ ≠ 0,9. Řešení: , , u[0,975 ]= 1,96, . Protože , H[0] zamítáme na asymptotické hladině významnosti 0,05. Výpočet pomocí systému STATISTICA (pouze přibližný): Statistiky – Základní statistiky a tabulky – Testy rozdílů: r, %, průměry – OK – vybereme Rozdíl mezi dvěma korelačními koeficienty. Do políčka r1 napíšeme 0,85, do políčka N1 napíšeme 600, do políčka r2 napíšeme 0,9, do políčka N2 napíšeme 32767 (větší hodnotu systém neumožní) - Výpočet. Dostaneme p-hodnotu 0,0000, tedy zamítáme nulovou hypotézu na asymptotické hladině významnosti 0,05. Upozornění: Pokud bychom chtěli pomocí systému STATISTICA provést přesnější test s využitím statistiky U, můžeme vypočítat Fisherovu Z- transformaci pomocí Pravděpodobnostního kalkulátoru – Korelace, kde zadáme realizaci výběrového koeficientu korelace, rozsah výběru. Zajímá nás Fisher z. 12.28. Věta (test o porovnání dvou koeficientů korelace) Nechť jsou dány dva nezávislé náhodné výběry o rozsazích n a n^* z dvourozměrných normálních rozložení s korelačními koeficienty ρ a ρ^*. Testujeme H[0]: ρ = ρ^* proti H[1]: ρ ≠ ρ^*. Označme R[12] výběrový korelační koeficient 1. výběru a R[12]^* výběrový korelační koeficient 2. výběru. Položme a . Platí-li H[0], pak testová statistika má asymptoticky rozložení N(0,1). Kritický obor pro test H[0] proti oboustranné alternativě tedy je . H[0] zamítáme na asymptotické hladině významnosti α, když . 12.29. Příklad: Lékařský výzkum se zabýval sledováním koncentrací látek A a B v moči pacientů trpících určitou ledvinovou chorobou. U 100 zdravých jedinců činil výběrový korelační koeficient mezi koncentracemi obou látek 0,65 a u 142 osob trpících zmíněnou chorobou byl 0,37. Na asymptotické hladině významnosti 0,05 testujte hypotézu, že korelační koeficienty v obou skupinách se neliší. Řešení: , , u[0,975 ]= 1,96, . Protože , H[0] zamítáme na asymptotické hladině významnosti 0,05. Výpočet pomocí systému STATISTICA: Statistiky – Základní statistiky a tabulky – Testy rozdílů: r, %, průměry – OK – vybereme Rozdíl mezi dvěma korelačními koeficienty. Do políčka r1 napíšeme 0,65, do políčka N1 napíšeme 100, do políčka r2 napíšeme 0,37, do políčka N2 napíšeme 142 - Výpočet. Dostaneme p-hodnotu 0,0038, tedy zamítáme nulovou hypotézu na asymptotické hladině významnosti 0,05. 12.30. Věta (věta o asymptotickém intervalu spolehlivosti pro koeficient korelace) Nechť dvourozměrný náhodný výběr rozsahu n pochází z dvourozměrného normálního rozložení s koeficientem korelace ρ. Meze 100(1-α)% asymptotického intervalu spolehlivosti pro ρ jsou: , přičemž , . 12.31. Příklad: Pracovník personálního oddělení určité firmy zkoumá, zda existuje vztah mezi počtem dní absence za rok (veličina Y) a věkem pracovníka (veličina X). Proto náhodně vybral údaje o 10 pracovnících. Č.prac. 1 2 3 4 5 6 7 8 9 10 X 27 61 37 23 46 58 29 36 64 40 Y 15 6 10 18 9 7 14 11 5 8 Za předpokladu, že uvedené údaje tvoří číselné realizace náhodného výběru rozsahu 10 z dvourozměrného normálního rozložení, vypočtěte výběrový korelační koeficient a na hladině významnosti 0,05 testujte hypotézu, že X a Y jsou nezávislé náhodné veličiny. Sestrojte 95% asymptotický interval spolehlivosti pro skutečný korelační koeficient ρ. Řešení: Předpoklad o dvourozměrné normalitě dat ověříme orientačně pomocí dvourozměrného tečkového diagramu. Vzhled diagramu svědčí o tom, že předpoklad je oprávněný. Testujeme H[0]: ρ = 0 proti H[1]: ρ ≠ 0. Vypočítáme R[12] = -0,9325, tedy mezi věkem pracovníka a počtem dnů pracovní neschopnosti existuje silná nepřímá lineární závislost. Testová statistika: T = -7,3053, kvantil t[0,975](8) = 2,306, kritický obor . Jelikož , zamítáme na hladině významnosti 0,05 hypotézu o nezávislosti veličin X a Y. Vypočítáme . Meze 95% asymptotického intervalu spolehlivosti pro ρ jsou , tedy -0,9842 < ρ < -0,7336 s pravděpodobností přibližně 0,95.