Jednoduchá korelační analýza Motivace Uvažme náhodné veličiny X, Y, které jsou aspoň ordinálního typu. Tyto náhodné veličiny mohou mít různý vztah: Deterministická (funkční) závislost: jedna náhodná veličina je spjata s druhou náhodnou veličinou funkční závislostí vyjádřenou předpisem Y = g(X), např. X - poloměr náhodně vybrané sériově vyráběné kuličky do kuličkových ložisek, Y = 4 -ti í3 - objem této kuličky. Každé realizaci náhodné veličiny X (vysvětlující proměnná) je přiřazena právě jedna realizace náhodné veličiny Y (vysvětlovaná proměnná). funkční závislost 20 •re e 10 > o 2 4 6 8 vysvětlující proměnná 10 0 0 Stochastická závislost: jedna náhodná veličina ovlivňuje v různé míře druhou náhodnou veličinu, např. X - věk pracovníka v letech, Y - počet dnů absence za rok. Každé realizaci náhodné veličiny X může být přiřazeno více realizací náhodné veličiny Y. Závislost může být jednostranná i oboustranná. stochastická závislost 20 •re .o >a> .o! E 10 > o 2 4 6 8 10 vysvětlující proměnná 0 0 - Stochastická nezávislost: náhodné veličiny se navzájem neovlivňují, např. házíme-li naráz dvěma kostkami a označíme X - počet ok padlých na jedné kostce, Y - počet ok padlých na druhé kostce, pak náhodné veličiny X, Y jsou stochasticky nezávislé. nezávislost 10 n '7 5 - ♦ i 5 ♦ « ♦ fe,5- * * , 0 \-,-,-,-,-? 0 2 4 6 8 10 vysvětlující proměnná X a Y jsou stochasticky nezávislé, když platí: V \,y~le 2:0 ,y"= t> ^ X a Y jsou nekorelované, když platí C(X, Y) = 0 (tj. mezi X a Y není žádný lineární vztah). Ze stochastické nezávislosti vyplývá nekorelovanost, avšak z nekorelovanosti nevyplývá stochastická nezávislost. Korelační analýza: • zkoumá, zda existuje závislost mezi dvěma náhodnými veličinami X, Y, které jsou buď ordinálního nebo intervalového či poměrového typu. Důležité - nelze se spokojit s formálním matematickým popisem závislosti, závislost musí být logicky zdůvodnitelná! • pomocí Pearsonova či Spearmanova koeficientu korelace měří těsnost této závislosti • pro náhodné veličiny intervalového a poměrového typuje založena na předpokladu, že dvourozměrný náhodný vektor fXl se řídí dvourozměrným normálním rozložením N2| (^ U**1 ^1<^2 ^ !, kde Li! = E(X), ii2 = E(Y), d2 = D(X), o22 = D(Y), p = R(X,Y) • při výraznějším porušení předpokladu dvourozměrné normality doporučuje použití metod, které jsou určeny pro náhodné veličiny ordinálního typu Nechť X,Y jsou náhodné veličiny ordinálního typu (tj. obsahová interpretace je možná jenom u relace rovnosti a relace uspořádání). Pořídíme dvourozměrný náhodný výběr (X1, Y1), (Xn, Yn) z rozložení, jímž se řídí náhodný vektor (X, Y). Označíme Ri pořadí náhodné veličiny Xi a Qi pořadí náhodné veličiny Yi, i = 1, ... , n. 6 11 Spearmanův koeficient pořadové korelace: rs = 1 ——"X Ri — Qi ^ • nf -1 J=x Tento koeficient nabývá hodnot mezi -1 a 1. Čím je bližší 1, tím je silnější přímá pořadová závislost mezi veličinami X a Y, čím je bližší -1, tím je silnější nepřímá pořadová závislost mezi veličinami X a Y. Teoretická hodnota Spearmanova koeficientu se značí pS. Vlastnosti Spearmanova koeficientu pořadové korelace Pro Spearmanův koeficient pořadové korelace platí - < s < .. Čím je bližší 1, tím je silnější přímá pořadová závislost mezi veličinami X a Y, čím je bližší -1, tím je silnější nepřímá pořadová závislost mezi veličinami X a Y. Je-li rs = resp. rs = - , pak realizace ^,yi ^ =,...,n daného náhodného výběru leží na nějaké rostoucí resp. klesající funkci. Hodnoty rs se nezmění, když provedeme vzestupnou transformaci původních dat. Hodnoty rS se vynásobí -1, když provedeme sestupnou transformaci původních dat. Koeficient je symetrický. Koeficient je rezistentní vůči odlehlým hodnotám. Význam absolutní hodnoty Spearmanova koeficientu: mezi 0 až 0,1 ... zanedbatelná pořadová závislost, mezi 0,1 až 0,3 ... slabá pořadová závislost, mezi 0,3 až 0,7 ... střední pořadová závislost, mezi 0,7 až 1 ... silná pořadová závislost. Spearmanův koeficient pořadové korelace se používá v situacích, kdy - zkoumaná data mají ordinální charakter - nelze předpokládat, že vztah mezi veličinami X, Y je lineární - náhodný výběr nepochází z dvourozměrného normálního rozložení Testování nezávislosti ordinálních veličin Na hladině významnosti a testujeme hypotézu H0: X, Y jsou pořadově nezávislé náhodné veličiny proti - oboustranné alternativě H1: X, Y jsou pořadově závislé náhodné veličiny - levostranné alternativě H1: mezi X a Y existuje nepřímá pořadová závislost - pravostranné alternativě H1: mezi X a Y existuje přímá pořadová závislost). Jako testová statistika slouží Spearmanův koeficient pořadové korelace rS. Nulovou hypotézu zamítáme na hladině významnosti a ve prospěch - oboustranné alternativy, když |rS |> rS1-a/2(n) - levostranné alternativy, když rS < - rS1-a(n) - pravostranné alternativy, když rS > rS1-a(n), kde rS1-a(n) je kritická hodnota, kterou pro a = 0,05 nebo 0,01 a n < 30 najdeme v tabulkách. Asymptotické varianty testu Pro n > 20 lze použít testovou statistiku T0 = Ts. n ', která se v případě platnosti nulové hypotézy asymptoticky řídí V1" s2 rozložením t(n-2). Kritický obor pro oboustrannou alternativu: W = - 3, -tj_ [/2 {i -2^ u tj_ (/2 {i - 2^,00 Kritický obor pro levostrannou alternativu: W= - > - ] Kritický obor pro pravostrannou alternativu: W= t1_lt-2>_. Hypotézu o pořadové nezávislosti náhodných veličin X, Y zamítáme na asymptotické hladině významnosti a, když t0 e W. Upozornění: Systém STATISTICA používá tuto variantu testu pořadové nezávislosti bez ohledu na rozsah náhodného výběru. Pro n > 30 lze použít testovou statistiku rs VřT— . Platí-li H0, pak rs «Jn— ~ N(0, 1). Nulovou hypotézu tedy zamítáme na asymptotické hladině významnosti a ve prospěch oboustranné alternativy, když rsVn-l e - d, -u1_(/2)u u1_t/2,oo , levostranné alternativy, když rsVn-l e - d, _u1_l\, pravostranné alternativy, když rsVn-l e ux t,oo Příklad na testování pořadové nezávislosti (jsou známa pořadí): Dva lékaři hodnotili stav sedmi pacientů po témž chirurgickém zákroku. Postupovali tak, že nejvyšší pořadí dostal nejtěžší případ. Číslo pacienta 1 2 3 4 5 6 7 Hodnocení 1. lékaře 4 1 6 5 3 2 7 Hodnocení 2. lékaře 4 2 5 6 1 3 7 Vypočtěte Spearmanův koeficient a na hladině významnosti 0,05 testujte hypotézu, že hodnocení obou lékařů jsou pořadově nezávislá. Řešení: Na hladině významnosti 0,05 testujeme H0: X, Y jsou pořadově nezávislé náhodné veličiny proti oboustranné alternativě H1: X, Y jsou pořadově závislé náhodné veličiny. V tomto příkladě přímo známe pořadí Ri (tj. hodnocení 1. lékaře) a pořadí Qi (tj. hodnocení 2. lékaře). Vypočteme rs = - l> (- 0+ t 0+ t >> i > t >> t C = >,857 • Kritická hodnota: rS095(7) = 0,745. Protože 0,857 > 0,745, nulovou hypotézu zamítáme na hladině významnosti 0,05. Výpočet pomocí systému STATISTICA Vytvoříme datový soubor o dvou proměnných X (hodnocení 1. lékaře), Y (hodnocení 2. lékaře) a sedmi případech. Do 1 2 X Y 1 4 4 2 1 2 3 6 5 4 5 6 5 3 1 6 2 3 7 7 7 Statistiky - Neparametrické statistiky - Korelace Spearmanův koef. R. Dostaneme tabulku_ OK - vybereme Vytvořit detailní report - Proměnné X, Y - OK Dvojice proměnných X & Y Spearmanovy korelace (dva lekari.sta) ChD vynechány párově Označ. korelace jsou významné na hl. p <,05000 Počet plat. Spearman R t(N-2) Úroveň p 7 0,857143 3,721042 0,013697 Spearmanův koeficient pořadové korelace nabývá hodnoty 0,857, testová statistika se realizuje hodnotou 3,721, odpovídající p-hodnota je 0,0137, tedy na asymptotické hladině významnosti 0,05 zamítáme hypotézu o pořadové nezávislosti hodnocení dvou lékařů ve prospěch oboustranné alternativy. Příklad na testování pořadové nezávislosti (pořadí musíme stanovit): Jsou dány realizace náhodného výběru z dvourozměrného rozložení, kterým se řídí náhodný vektor (X,Y): (2,5 13,4), (3,4 15,2), (1,3 11,8), (5,8 13,1), (3,6 14,5). Na hladině významnosti 0,05 testujte hypotézu, že náhodné veličiny jsou pořadově nezávislé proti oboustranné alternativě. v Řešení: 2,5 3,4 1,3 5,8 3,6 yi 13,4 15,2 11,8 13,1 14,5 Ri 2 3 1 5 4 Qi 3 5 1 2 4 (Ri-Qi)2 1 4 0 9 0 Testová statistika: rs = ——Y , - y = ——14 = ),3 s ni2 - p 1 5-24 Kritická hodnota: pro n = 5 a a = 0,05 je kritická hodnota 0,9. Protože testová statistika se realizuje hodnotou 0,3, hypotézu o pořadové nezávislosti veličin X a Y nezamítáme na hladině významnosti 0,05. Výpočet pomocí systému STATISTICA Postupujeme úplně stejně jako v předešlém případě. Výstupní tabulka má tvar: Dvojice proměnných Spearmanovy korelace (poradová korelace.sta) ChD vynechány párově Označ. korelace jsou významné na hl. p <,05000 Počet Spearman t(N-2) Úroveň p plat. R X & Y 5 0,300000 0,544705 0,623838 Spearmanův koeficient pořadové korelace nabývá hodnoty 0,3, testová statistika se realizuje hodnotou 0,5447, odpovídající p-hodnota je 0,6238, tedy na asymptotické hladině významnosti 0,05 nezamítáme hypotézu o pořadové nezávislosti veličin X, Y. Číslo , f (^je.Y-JY)^ cj(,Y^ t R*i,Y = ^ 75(X) VĎ(Y) ) VĎ(X)VĎ(Y) ^ V [ jinak se nazývá Pearsonův koeficient korelace. (Pro výpočet Pearsonova koeficentu korelace musíme znát simultánní distribuční funkci 0 a R(X, Y) = -1, když b < 0. (Uvedená nerovnost se nazývá Cauchyova - Schwarzova - Buňakovského nerovnost.) Z vlastností Pearsonova koeficientu korelace vyplývá, že se hodí pouze k měření těsnosti lineárního vztahu veličin X a Y. Při složitějších závislostech může dojít k paradoxní situaci, že Pearsonův koeficient korelace je nulový. Ilustrace: 0 -0.1 -0.2 -0.3 -0.4 -0.5 -0.6 -0.7 -0.8 -0.9 O C O C -1 -0.8 -0.6 -0.4 -0.2 0 0.2 0.4 0.6 0.8 1 -1 Definice nekorelovanosti Je-li R(X, Y) = 0, pak řekneme, že náhodné veličiny jsou nekorelované. (Znamená to, že mezi X a Y neexistuje žádná lineární závislost. Jsou-li náhodné veličiny X,Y stochasticky nezávislé, pak jsou samozřejmě i nekorelované.) Je-li R(X, Y) > 0, pak řekneme, že náhodné veličiny jsou kladně korelované. (Znamená to, že s růstem hodnot veličiny X rostou hodnoty veličiny Y a s poklesem hodnot veličiny X klesají hodnoty veličiny Y.) Je-li R(X, Y) < 0, pak řekneme, že náhodné veličiny jsou záporně korelované. (Znamená to, že s růstem hodnot veličiny X klesají hodnoty veličiny Y a s poklesem hodnot veličiny X rostou hodnoty veličiny Y.) Výběrový koeficient korelace Nechť (Xi, Yi), (Xn, Yn) náhodný výběr rozsahu n z dvourozměrného rozložení daného distribuční funkcí o výběrový koeficient korelace R12 = n -1 Sx S2 SXS2 1 2 . Vlastnosti Pearsonova koeficientu korelace se i [0 jinak přenášejí i na výběrový koeficient korelace. (Spearmanův koeficient pořadové korelace odpovídá Pearsonovu koeficientu korelace aplikovanému na pořadí.) Příklad: Výpočet realizace výběrového koeficientu korelace U 65 zaměstnanců jisté firmy byla zjišťována délka praxe v letech (veličina X) a výška prémií v Kč (veličina Y). Dvourozměrné rozložení četností je dáno kontingenční tabulkou: x y 1250 1750 2250 2750 3250 3750 4250 12,5 5 3 0 0 0 0 0 17,5 2 4 4 0 0 0 0 22,5 0 1 6 7 4 0 0 27,5 0 0 1 3 7 1 0 32,5 0 0 0 1 10 5 1 Vypočtěte realizaci r12 výběrového koeficientu korelace R12 a interpretujte jeho hodnotu. Pro úsporu času máte uvedeny následující součty: X xU] = .562,5,2 yW = 72750 >Z XU]2 = *°456>Z = 198562500 , j=1 k=1 Řešení: Známe tyto SOUČty: £ X[j] = 562,5, £ y[k] = 72750 X[J]2 = 10456 y[k]2 = 198562500 ,XZnjkx[j]y[k] = 4446875 2 _ ■>•"■> ^ y[k] - - y[k] ~ 'Z-iZ-i^jk^u]- j= k= j= k= j=l k=l Vypočteme průměrnou délku praxe: ~^~= '4>038> 172750 průměrnou výšku prémií: m2 = -= :657,692 65 rozptyl délky praxe: s2 = — (10456 - 55 ■{ } = & 25 64^ ^ 65 ) j 1 ( ( 172750 ^ ^ rozptyl výše prémií: s 2 = — 1 198562500 - 55 • - 1 = 516346 64^ ^ 65 ) j 1 • jmi ..... 1 fH^ř -c 1562,5 172750 ^ kovanance délky praxe a vyse premn: s12 = —. 1446875 - >5------I = 1597,4 64 v 65 65 y 4597 4 koeficient korelace délky praxe a výše prémií: r]2 = , '-= ),8705 V45,25 V616346 Hodnota koeficientu korelace svědčí o tom, že mezi délkou praxe a výškou prémií existuje dosti silná přímá lineární závislost - čím delší praxe, tím vyšší prémie. Pearsonův koeficient korelace dvourozměrného normálního rozložení Jak bylo uvedeno v motivaci, korelační analýza předpokládá, že daný náhodný výběr pochází z dvourozměrného normálního rozložení. Proč je tento předpoklad tak důležitý? Odpověď poskytne následující věta. Nechť náhodný vektor (X, Y) má dvourozměrné normální rozložení s hustotou

-^^=e 2 ll °J ' Ci ai^"lj J, přičemž ^ = E(X), U2 = E(Y), d2 = D(X), O22 = D(Y), p = R(X,Y). 00 j i - 00 j < - Marginální hustoty jsou: f ( = p ř,yjíy = •• = —2° , 9 í = f P LyjJx = •• = -2cr • " _ 3 a V27T " " _ 3 a V27T Je-li p = 0, pak pro V ^,y"e 2 : cp l,yZ= P tedy náhodné veličiny X, Y jsou stochasticky nezávislé. Jinými slovy: stochastická nezávislost složek X, Y normálně rozloženého náhodného vektoru je ekvivalentní jejich nekorelovanosti. Pro jiná dvourozměrná rozložení to neplatí! Upozornění: nadále budeme předpokládat, že (X1s Y1), (Xn, Yn) je náhodný výběr rozsahu n z dvourozměrného normálního rozložení N2! i 1 i, i 1 2 2 i!. Předpoklad dvourozměrné normality lze orientačně ověřit pomocí dvourozměrného tečkového diagramu: tečky by měly zhruba rovnoměrně vyplnit vnitřek elipsovitého obrazce. Vrstevnice hustoty dvourozměrného normálního rozložení jsou totiž elipsy: 2 2 Graf hustoty a vrstevnice dvourozměrného normálního rozložení s parametry u = 0, fi2 = 0, o1 = 1, o2 = 1, p = -0,75: Do dvourozměrného tečkového diagramu můžeme ještě zakreslit 100(1 -a)% elipsu konstantní hustoty pravděpodobnosti. Bude-li více než 100a% teček ležet vně této elipsy, svědčí to o porušení dvourozměrné normality. Bude-li mít hlavní osa elipsy kladnou resp. zápornou směrnici, znamená to, že mezi veličinami X a Y existuje určitý stupeň přímé resp. nepřímé lineární závislosti. Testování hypotézy o nezávislosti Na hladině významnosti a testujeme H0: X, Y jsou stochasticky nezávislé náhodné veličiny (tj. p = 0) proti - oboustranné alternativě H1: X, Y nejsou stochasticky nezávislé náhodné veličiny (tj. p ^ 0) - levostranné alternativě H1: X, Y jsou záporně korelované náhodné veličiny (tj. p < 0) - pravostranné alternativě Hi: X, Y jsou kladně korelované náhodné veličiny (tj. p > 0). Testová statistika má tvar: T0 = R'2^"~ ' . Platí-li nulová hypotéza, pak T0 ~ t(n-2). Kritický obor pro test H0 proti - oboustranné alternativě: w= - o, -tj_ ,/2 . H0 zamítáme na hladině významnosti a, když t0 e /. Příklad: Testování hypotézy o nezávislosti proti oboustranné alternativě V dílně pracuje 15 dělníků. Byl u nich zjištěn počet směn odpracovaných za měsíc (náhodná veličina X) a počet zhotovených výrobků (náhodná veličina Y): X 20 21 18 17 20 18 19 21 20 14 16 19 21 15 15 Y 92 93 83 80 91 85 82 98 90 60 73 86 96 64 81. Předpokládejte, že data pocházejí z dvourozměrného normálního rozložení. Vypočtěte výběrový koeficient korelace mezi X a Y a na hladině 0,01 testujte hypotézu o nezávislosti X a Y proti oboustranné alternativě. v Řešení: Vypočteme realizace 1 n 1 n výběrových průměrů: ni! =-Yxi = 18,267, m2 = —Yy, = 83,6, n Tí n tí výběrových rozptylů: Si2 = —!— Y x, - m, ^ = 5,6381, s22 = —^—Y y, -m2 3 = 121,4, n-l~í n-l~í n výběrové kovariance: Si2 =-Y x^m, ^;-m2^ = 24,2571, n-li=1 výběrového koeficientu korelace: r12 = =0,927. s1s 2 Realizace testové statistiky: t0 = ' = 8,912, Vi 2 12 kritický obor W= - x -t0>995 <3)u t0>995 <3y» = - d, -3,012)u 3,012,05 Protože t0 e /, hypotézu o nezávislosti veličin X a Y zamítáme na hladině významnosti 0,01. S rizikem omylu nejvýše 1% jsme tedy prokázali, že mezi počtem směn odpracovaných za měsíc a počtem zhotovených výrobků existuje závislost. Výpočet pomocí systému STATISTICA Vytvoříme datový soubor o dvou proměnných X, Y a 15 případech. Dvourozměrnou normalitu dat ověříme pomocí dvourozměrného tečkového diagramu: Grafy - Bodové grafy - Proměnné X, Y - OK - odškrtneme Typ proložení Lineární - na záložce Detaily zaškrtneme Elipsa Normální - OK. 120 70 50 Statistiky - Základní statistiky/tabulky - Korelační matice - OK - 1 seznam proměn. - X, Y - OK - na záložce Možnosti vybereme Zobrazit detailní tabulku výsledků - Výpočet. Prom. X & prom. Y Korelace (smeny a výrobky.sta) Označ, korelace jsou významné na hlad. p < ,05000 (Celé případy vynechány u ChD) Průměr Sm.Odch. r(X,Y) r2 t P N Konst. záv.: Y Směr. záv: Y Konst. záv.: X Směrnic záv.: X X 18,26667 2,37447 X 18,26667 2,37447 1,000000 1,000000 15 0,000000 1,000000 0,000000 1,000000 X 18,26667 2,37447 Y 83,60000 11,01817 0,927180 0,859663 8,923795 0,000001 1Š 5,010135 4,302365 1,562407 0,199812 Y 83,60000 18,26667 11,01817 2,37447 X 0,927180 0,859663 8,923795 0,000001 15 1,562407 0,199812 5,010135 4,302365 Y 83,60000 11,01817 Y 83,60000 11,01817 1,000000 1,000000 15 0,000000 1,000000 0,000000 1,000000 Výběrový koeficient korelace se realizoval hodnotou 0,92718, testová statistika nabyla hodnoty 8,924, odpovídající p-hodnota je 0,000001, tedy na hladině významnosti 0,01 zamítáme hypotézu o nezávislosti veličin X, Y. Příklad: Testování hypotézy o nezávislosti proti levostranné alternativě Pracovník personálního oddělení určité firmy zkoumá, zda existuje vztah mezi věkem zaměstnance (náhodná veličina X) a počtem dní absence za rok (náhodná veličina Y). Proto náhodně vybral údaje o 10 zaměstnancích: X 27 61 37 23 46 58 29 36 64 40 Y 15 6 10 18 9 7 14 11 5 8 Na hladině významnosti 0,05 testujte hypotézu, že X a Y jsou nezávislé náhodné veličiny proti alternativě, že X, Y jsou záporně korelované náhodné veličiny. Řešení: Předpoklad o dvourozměrné normalitě dat ověříme orientačně pomocí dvourozměrného tečkového diagramu. -20 0 20 40 60 80 100 Vzhled diagramu svědčí o tom, že předpoklad je oprávněný. Na hladině významnosti 0,05 testujeme H0: p = 0 proti H1: p < 0. Vypočítáme r12 = -0,9325, tedy mezi věkem pracovníka a počtem dnů pracovní neschopnosti existuje silná nepřímá lineární závislost. Realizace testové statistiky: t0 = r'2.A^" ' = - ,3053 , VI" u kritický obor W = - 3 - 0 95 = - = - ,8595). Jelikož t0 e /, zamítáme na hladině významnosti 0,05 hypotézu o nezávislosti veličin X a Y ve prospěch levostranné alternativy. S rizikem omylu nejvýše 5% jsme prokázali, že mezi věkem pracovníka a počtem dnů absence za rok existuje nepřímá lineární závislost. Výpočet pomocí systému STATISTICA Můžeme využít toho, že již známe r12. Statistiky - Pravděpodobnostní kalkulátor - Korelace - vyplníme n = 10, r = -0,9325, odškrtneme Dvojité, zaškrtneme Výpočet p z r - Výpočet. V okénku p se objeví hodnota 0,000041, tedy na hladině významnosti 0,05 zamítáme hypotézu o nezávislosti veličin X a Y ve prospěch levostranné alternativy. Příklad: Testování hypotézy o nezávislosti proti pravostranné alternativě Máme k dispozici výsledky testů ze dvou předmětů zjištěné u osmi náhodně vybraných studentů určitého oboru. Číslo studenta 1 2 3 4 5 6 7 8 Počet bodů v 1. testu 80 50 36 58 42 60 56 68 Počet bodů ve 2. testu 65 60 35 39 48 44 48 61 Na hladině významnosti 0,05 testujte hypotézu, že výsledky obou testů nejsou kladně korelované. Řešení: Nejprve se musíme přesvědčit, že uvedené výsledky lze považovat za realizace náhodného výběru z dvourozměrného normálního rozložení. Lze tak učinit orientačně pomocí dvourozměrného tečkového diagramu. Tečky by měly vytvořit elipsovitý obrazec. ^—S / '/ 20 / y" 0 20 4 60 80 100 120 Obrázek svědčí o tom, že předpoklad dvourozměrné normality je oprávněný a že mezi počty bodů z 1. a 2. testu bude existovat určitý stupeň přímé lineární závislosti. Na hladině významnosti 0,05 testujeme H0: p = 0 proti pravostranné alternativě H^: p > 0. Výpočtem zjistíme: \\2 = 0,6668, t0 = 2,1917. Stanovíme kritický obor: W = t0 95 = 1,9432;oo. Jelikož t0 e /, zamítáme na hladině významnosti 0,05 hypotézu o nezávislosti veličin X a Y ve prospěch pravostranné alternativy. S rizikem omylu nejvýše 5% jsme prokázali, že mezi výsledky 1. a 2. testu existuje přímá lineární závislost. Výpočet pomocí systému STATISTICA Můžeme využít toho, že již známe r12. Statistiky - Pravděpodobnostní kalkulátor - Korelace - vyplníme n = 8, r = 0,6668, odškrtneme Dvojité, zaškrtneme Výpočet p z r - Výpočet. V okénku p se objeví hodnota 0,035455, tedy na hladině významnosti 0,05 zamítáme hypotézu o nezávislosti veličin X a Y ve prospěch pravostranné alternativy. Rozdelení Peaľson. moment korelačního koeficientu |0,6668 ľ" Oboustranné (* Výpočet g z r P:|,035455 ^ P Výpočetrzp Fisher. z: | ,804959 M C Výpočet r ze z Konec V Do protokolu & Porovnání koeficientu korelace s danou konstantou Nechť c je reálná konstanta. Testujeme H0: p = c proti H1: p í c. (Tento test se provádí např. tehdy, když experimentátor porovnává vlastnosti svých dat s vlastnostmi uváděnými v literatuře.) Test je založen na statistice u = %_1-inl^--—,1/ÍT- , která má za platnosti H0 pro n > 10 asymptoticky rozložení N(0,1), přičemž Z = -ln ^2 1- 2 100), lze 1- L 2 odvodit, že 100(l-a)% interval spolehlivosti pro p má meze R12 ± iu . 2 M2. . vn - Nejsou-li uvedené podmínky splněny, pak nelze tento vzorec použít, protože rozložení výběrového korelačního koeficientu je příliš zešikmené. V takovém případě využijeme toho, že náhodná veličina Z = -ln 1+ *"12 má i při malém rozsahu výběru 2 1-^-12 přibližně normální rozložení se střední hodnotou EC = -ln^-^+ —-—(2. sčítanec lze při větším n zanedbat) a rozptylem "2 1- ) 1% - 1 7- <(Z) DC = -. Standardizací veličiny Z dostaneme veličinu U = " A ', která má asymptoticky rozložení N(0,1). Tudíž " n- VD(Z) 100(l-a)% asymptotický interval spolehlivosti pro -ln^-^ bude mít meze Z± u3l 2.. Interval spolehlivosti pro p pak 2 1— ) Vn- i dostaneme zpětnou transformací. Poznámka: Jelikož Z = arctgh Ri2, dostáváme Ri2 = tgh Z a meze intervalu spolehlivosti pro p můžeme psát ve tvaru ( ^ x tghi Z ± -==r——r i, přičemž tgh x =--. ^ Vn-3) ex + : Příklad: Pracovník personálního oddělení určité firmy zkoumá, zda existuje vztah mezi počtem dní absence za rok (veličina Y) a věkem pracovníka (veličina X). Proto náhodně vybral údaje o 10 pracovnících. Č.prac. 1 2 3 4 5 6 7 8 9 10 X 27 61 37 23 46 58 29 36 64 40 Y 15 6 10 18 9 7 14 11 5 8 Za předpokladu, že uvedené údaje tvoří číselné realizace náhodného výběru rozsahu 10 z dvourozměrného normálního rozložení, vypočtěte výběrový korelační koeficient a na hladině významnosti 0,05 testujte hypotézu, že X a Y jsou nezávislé náhodné veličiny. Sestrojte 95% asymptotický interval spolehlivosti pro skutečný korelační koeficient p. v Řešení: Předpoklad o dvourozměrné normalitě dat ověříme orientačně pomocí dvourozměrného tečkového diagramu. 30 |—.—.—.——.—.—.—.——.—.—.—.——.—.—.—.——.—.—.—.—.—i—.—.—.—.— 25 .:-----------------J---; 20 ----\- - --------------I---; 15 ■:----^=x---^------------A---• >- 10-----—-------x-----1---' 5 .:-----------o----^"j---• 0.:--------------_l—-; -5 .:-----------------J---: -10 I .... 1..............1 .... 1 ... . -20 0 20 40 60 80 100 Vzhled diagramu svědčí o tom, že předpoklad je oprávněný. Testujeme H0: p = 0 proti H1: p ^ 0. Vypočítáme R12 = -0,9325, tedy mezi věkem pracovníka a počtem dnů pracovní neschopnosti existuje silná nepřímá lineární závislost. Testová statistika: T = -7,3053, kvantil ^975(8) = 2,306, kritický obor W= - 3, -2,306}u 2,306,co . Jelikož T e V, zamítáme na hladině významnosti 0,05 hypotézu o nezávislosti veličin X a Y. Výpočet pomocí systému STATISTICA: Ve STATISTICE vypočteme meze 100(1 -a)% asymptotického intervalu spolehlivosti pro koeficient korelace p tak, že otevřeme nový datový soubor se dvěma proměnnými (pojmenujeme je DM a HM) a jedním případem. Do Dlouhého jména proměnné DM zapíšeme příkaz = TanH(0,5*log((1-0,9325)/(1+0,9325))-VNormal(0,975;0;1)/sqrt(7)) a do Dlouhého jména proměnné HM zapíšeme příkaz = TanH(0,5*log((1-0,9325)/(1+0,9325))+VNormal(0,975;0;1)/sqrt(7)) 1 2 DM HM 1 -0,98425 -0,73358 95% asymptotický interval spolehlivosti pro koeficient korelace p má tedy meze -0,98425 a -0,73358. (Protože nepokrývá hodnotu 0, zamítáme hypotézu o nezávislosti veličin X, Y na asymptotické hladině významnosti 0,05.)