10. Korelační analýza Motivace Uvažme náhodné veličiny X, Y, které jsou aspoň ordinálního typu. Tyto náhodné veličiny mohou mít různý vztah: - Deterministická (funkční) závislost: jedna náhodná veličina je spjata s druhou náhodnou veličinou funkční závislostí vyjádřenou předpisem Y = g(X), např. X – poloměr náhodně vybrané sériově vyráběné kuličky do kuličkových ložisek, Y = - objem této kuličky. Každé realizaci náhodné veličiny X (vysvětlující proměnná) je přiřazena právě jedna realizace náhodné veličiny Y (vysvětlovaná proměnná). - Stochastická závislost: jedna náhodná veličina ovlivňuje v různé míře druhou náhodnou veličinu, např. X – věk pracovníka v letech, Y – počet dnů absence za rok. Každé realizaci náhodné veličiny X může být přiřazeno více realizací náhodné veličiny Y. Závislost může být jednostranná i oboustranná. - Stochastická nezávislost: náhodné veličiny se navzájem neovlivňují, např. házíme-li naráz dvěma kostkami a označíme X – počet ok padlých na jedné kostce, Y – počet ok padlých na druhé kostce, pak náhodné veličiny X, Y jsou stochasticky nezávislé. X a Y jsou stochasticky nezávislé, když platí: X a Y jsou nekorelované, když platí C(X, Y) = 0 (tj. mezi X a Y není žádný lineární vztah). Ze stochastické nezávislosti vyplývá nekorelovanost, avšak z nekorelovanosti nevyplývá stochastická nezávislost. Korelační analýza: · zkoumá, zda existuje závislost mezi dvěma náhodnými veličinami X, Y, které jsou buď ordinálního nebo intervalového či poměrového typu. Důležité – nelze se spokojit s formálním matematickým popisem závislosti, závislost musí být logicky zdůvodnitelná! · pomocí Pearsonova či Spearmanova koeficientu korelace měří těsnost této závislosti · pro náhodné veličiny intervalového a poměrového typu je založena na předpokladu, že dvourozměrný náhodný vektor se řídí dvourozměrným normálním rozložením N[2] , kde μ[1] = E(X), μ[2] = E(Y), σ[1]^2 = D(X), σ[2]^2 = D(Y), ρ = R(X,Y) · při výraznějším porušení předpokladu dvourozměrné normality doporučuje použití metod, které jsou určeny pro náhodné veličiny ordinálního typu Spearmanův koeficient pořadové korelace Charles Edward Spearman (1863 – 1945): Britský psycholog a statistik, zakladatel faktorové analýzy Nechť X,Y jsou náhodné veličiny ordinálního typu (tj. obsahová interpretace je možná jenom u relace rovnosti a relace uspořádání). Pořídíme dvourozměrný náhodný výběr (X[1], Y[1]), ..., (X[n], Y[n]) z rozložení, jímž se řídí náhodný vektor (X, Y). Označíme R[i] pořadí náhodné veličiny X[i] a Q[i] pořadí náhodné veličiny Y[i], i = 1, ..., n. Spearmanův koeficient pořadové korelace: . Tento koeficient nabývá hodnot mezi –1 a 1. Čím je bližší 1, tím je silnější přímá pořadová závislost mezi veličinami X a Y, čím je bližší –1, tím je silnější nepřímá pořadová závislost mezi veličinami X a Y. Teoretická hodnota Spearmanova koeficientu se značí ρ[S]. Testování nezávislosti ordinálních veličin Na hladině významnosti α testujeme hypotézu H[0]: X, Y jsou pořadově nezávislé náhodné veličiny proti - oboustranné alternativě H[1]: X, Y jsou pořadově závislé náhodné veličiny - levostranné alternativě H[1]: mezi X a Y existuje nepřímá pořadová závislost - pravostranné alternativě H[1]: mezi X a Y existuje přímá pořadová závislost). Jako testová statistika slouží Spearmanův koeficient pořadové korelace r[S]. Nulovou hypotézu zamítáme na hladině významnosti α ve prospěch - oboustranné alternativy, když │r[S]│≥ r[S,1-α](n) - levostranné alternativy, když r[S] ≤ - r[S,1-2α](n) - pravostranné alternativy, když r[S] ≥ r[S,1-2α](n), kde r[S,1-α](n) je kritická hodnota, kterou pro α = 0,05 nebo 0,01 a n ≤ 30 najdeme v tabulkách. Pozor – kritické hodnoty pro jednostranné alternativy se v běžně dostupných tabulkách nenajdou. Asymptotické varianty testu Pro n > 20 lze použít testovou statistiku , která se v případě platnosti nulové hypotézy asymptoticky řídí rozložením t(n-2). Kritický obor pro oboustrannou alternativu: Kritický obor pro levostrannou alternativu: Kritický obor pro pravostrannou alternativu: . Hypotézu o pořadové nezávislosti náhodných veličin X, Y zamítáme na asymptotické hladině významnosti α, když t[0] W. Upozornění: Systém STATISTICA používá tuto variantu testu pořadové nezávislosti bez ohledu na rozsah náhodného výběru. Pro n > 30 lze použít testovou statistiku [.] Platí-li H[0], pak [] ≈ N(0, 1). Nulovou hypotézu tedy zamítáme na asymptotické hladině významnosti α ve prospěch oboustranné alternativy, když , levostranné alternativy, když , pravostranné alternativy, když Příklad na testování pořadové nezávislosti (jsou známa pořadí): Dva lékaři hodnotili stav sedmi pacientů po témž chirurgickém zákroku. Postupovali tak, že nejvyšší pořadí dostal nejtěžší případ. Číslo pacienta 1 2 3 4 5 6 7 Hodnocení 1. lékaře 4 1 6 5 3 2 7 Hodnocení 2. lékaře 4 2 5 6 1 3 7 Vypočtěte Spearmanův koeficient a na hladině významnosti 0,05 testujte hypotézu, že hodnocení obou lékařů jsou pořadově nezávislá. Řešení: Na hladině významnosti 0,05 testujeme H[0]: X, Y jsou pořadově nezávislé náhodné veličiny proti oboustranné alternativě H[1]: X, Y jsou pořadově závislé náhodné veličiny. V tomto příkladě přímo známe pořadí R[i ](tj. hodnocení 1. lékaře) a pořadí Q[i] (tj. hodnocení 2. lékaře). Vypočteme . Kritická hodnota: r[S,0,95](7) = 0,745. Protože 0,857 ≥ 0,745, nulovou hypotézu zamítáme na hladině významnosti 0,05. Výpočet pomocí systému STATISTICA Vytvoříme datový soubor o dvou proměnných X (hodnocení 1. lékaře), Y (hodnocení 2. lékaře) a sedmi případech. Do proměnných X a Y zapíšeme zjištěná hodnocení. Statistiky – Neparametrické statistiky – Korelace – OK – vybereme Vytvořit detailní report - Proměnné X, Y – OK – Spearmanův koef. R. Dostaneme tabulku Spearmanův koeficient pořadové korelace nabývá hodnoty 0,857, testová statistika se realizuje hodnotou 3,721, odpovídající p-hodnota je 0,0137, tedy na asymptotické hladině významnosti 0,05 zamítáme hypotézu o pořadové nezávislosti hodnocení dvou lékařů ve prospěch oboustranné alternativy. Příklad na testování pořadové nezávislosti (pořadí musíme stanovit): Jsou dány realizace náhodného výběru z dvourozměrného rozložení, kterým se řídí náhodný vektor (X,Y): (2,5 13,4), (3,4 15,2), (1,3 11,8), (5,8 13,1), (3,6 14,5). Na hladině významnosti 0,05 testujte hypotézu, že náhodné veličiny jsou pořadově nezávislé proti oboustranné alternativě. Řešení: x[i] 2,5 3,4 1,3 5,8 3,6 y[i] 13,4 15,2 11,8 13,1 14,5 R[i] 2 3 1 5 4 Q[i] 3 5 1 2 4 (R[i]-Q[i])^2 1 4 0 9 0 Testová statistika: Kritická hodnota: pro n = 5 a α = 0,05 je kritická hodnota 0,9. Protože testová statistika se realizuje hodnotou 0,3, hypotézu o pořadové nezávislosti veličin X a Y nezamítáme na hladině významnosti 0,05. Výpočet pomocí systému STATISTICA Postupujeme úplně stejně jako v předešlém případě. Výstupní tabulka má tvar: Spearmanův koeficient pořadové korelace nabývá hodnoty 0,3, testová statistika se realizuje hodnotou 0,5447, odpovídající p-hodnota je 0,6238, tedy na asymptotické hladině významnosti 0,05 nezamítáme hypotézu o pořadové nezávislosti veličin X, Y. Pearsonův koeficient korelace Karl Pearson (1857 – 1936): Britský statistik Číslo se nazývá Pearsonův koeficient korelace. (Pro výpočet Pearsonova koeficentu korelace musíme znát simultánní distribuční funkci Φ(x,y) v obecném případě resp. simultánní hustotu pravděpodobnosti φ(x,y) ve spojitém případě resp. simultánní pravděpodobnostní funkci π(x,y) v diskrétním případě.) Vlastnosti Pearsonova koeficientu korelace a) R(a[1], Y) = R(X, a[2]) = R(a[1], a[2]) = 0 b) R(a[1] + b[1]X, a[2] + b[2]Y) = sgn(b[1]b[2]) R(X, Y) = c) R(X, X) = 1 pro D(X) ≠ 0, R(X, X) = 0 jinak d) R(X, Y) = R(Y, X) e) a rovnost nastane tehdy a jen tehdy, když mezi veličinami X, Y existuje s pravděpodobností 1 úplná lineární závislost, tj. existují konstanty a, b tak, že pravděpodobnost P(Y = a + bX) = 1. Přitom R(X, Y) = 1, když b > 0 a R(X, Y) = -1, když b < 0. (Uvedená nerovnost se nazývá Cauchyova – Schwarzova – Buňakovského nerovnost.) Z vlastností Pearsonova koeficientu korelace vyplývá, že se hodí pouze k měření těsnosti lineárního vztahu veličin X a Y. Při složitějších závislostech může dojít k paradoxní situaci, že Pearsonův koeficient korelace je nulový. Ilustrace: Definice nekorelovanosti Je-li R(X, Y) = 0, pak řekneme, že náhodné veličiny jsou nekorelované. (Znamená to, že mezi X a Y neexistuje žádná lineární závislost.) Je-li R(X, Y) > 0, pak řekneme, že náhodné veličiny jsou kladně korelované. (Znamená to, že s růstem hodnot veličiny X rostou hodnoty veličiny Y a s poklesem hodnot veličiny X klesají hodnoty veličiny Y.) Je-li R(X, Y) < 0, pak řekneme, že náhodné veličiny jsou záporně korelované. (Znamená to, že s růstem hodnot veličiny X klesají hodnoty veličiny Y a s poklesem hodnot veličiny X rostou hodnoty veličiny Y.) Výběrový koeficient korelace Nechť (X[1], Y[1]), ..., (X[n], Y[n]) náhodný výběr rozsahu n z dvourozměrného rozložení daného distribuční funkcí Φ(x,y). Z tohoto dvourozměrného náhodného výběru můžeme stanovit: výběrové průměry , , výběrové rozptyly , , výběrovou kovarianci a s jejich pomocí zavedeme výběrový koeficient korelace . Vlastnosti Pearsonova koeficientu korelace se přenášejí i na výběrový koeficient korelace. (Spearmanův koeficient pořadové korelace odpovídá Pearsonovu koeficientu korelace aplikovanému na pořadí.) Příklad: Výpočet realizace výběrového koeficientu korelace U 65 zaměstnanců jisté firmy byla zjišťována délka praxe v letech (veličina X) a výška prémií v Kč (veličina Y). Dvourozměrné rozložení četností je dáno kontingenční tabulkou: x y 1250 1750 2250 2750 3250 3750 4250 12,5 5 3 0 0 0 0 0 17,5 2 4 4 0 0 0 0 22,5 0 1 6 7 4 0 0 27,5 0 0 1 3 7 1 0 32,5 0 0 0 1 10 5 1 Vypočtěte realizaci r[12] výběrového koeficientu korelace R[12] a interpretujte jeho hodnotu. Pro úsporu času máte uvedeny následující součty: , Řešení: Vypočteme průměrnou délku praxe: , průměrnou výšku prémií: rozptyl délky praxe: rozptyl výše prémií: kovariance délky praxe a výše prémií: koeficient korelace délky praxe a výše prémií: Hodnota koeficientu korelace svědčí o tom, že mezi délkou praxe a výškou prémií existuje dosti silná přímá lineární závislost – čím delší praxe, tím vyšší prémie. Pearsonův koeficient korelace dvourozměrného normálního rozložení Jak bylo uvedeno v motivaci, korelační analýza předpokládá, že daný náhodný výběr pochází z dvourozměrného normálního rozložení. Proč je tento předpoklad tak důležitý? Odpověď poskytne následující věta. Nechť náhodný vektor (X, Y) má dvourozměrné normální rozložení s hustotou , přičemž μ[1] = E(X), μ[2] = E(Y), σ[1]^2 = D(X), σ[2]^2 = D(Y), ρ = R(X,Y). Marginální hustoty jsou: , . Je-li ρ = 0, pak pro , tedy náhodné veličiny X, Y jsou stochasticky nezávislé. Jinými slovy: stochastická nezávislost složek X, Y normálně rozloženého náhodného vektoru je ekvivalentní jejich nekorelovanosti. Pro jiná dvourozměrná rozložení to neplatí! Upozornění: nadále budeme předpokládat, že (X[1], Y[1]), ..., (X[n], Y[n]) je náhodný výběr rozsahu n z dvourozměrného normálního rozložení N[2] . Předpoklad dvourozměrné normality lze orientačně ověřit pomocí dvourozměrného tečkového diagramu: tečky by měly zhruba rovnoměrně vyplnit vnitřek elipsovitého obrazce. Vrstevnice hustoty dvourozměrného normálního rozložení jsou totiž elipsy: Graf hustoty a vrstevnice dvourozměrného normálního rozložení s parametry μ[1] = 0, μ[2] = 0, σ[1]^2 = 1, σ[2]^2 = 1, ρ = -0,75: Do dvourozměrného tečkového diagramu můžeme ještě zakreslit 100(1-α)% elipsu konstantní hustoty pravděpodobnosti. Bude-li více než 100α% teček ležet vně této elipsy, svědčí to o porušení dvourozměrné normality. Bude-li mít hlavní osa elipsy kladnou resp. zápornou směrnici, znamená to, že mezi veličinami X a Y existuje určitý stupeň přímé resp. nepřímé lineární závislosti. Testování hypotézy o nezávislosti Na hladině významnosti α testujeme H[0]: X, Y jsou stochasticky nezávislé náhodné veličiny (tj. ρ = 0) proti - oboustranné alternativě H[1]: X, Y nejsou stochasticky nezávislé náhodné veličiny (tj. ρ ≠ 0) - levostranné alternativě H[1]: X, Y jsou záporně korelované náhodné veličiny (tj. ρ < 0) - pravostranné alternativě H[1]: X, Y jsou kladně korelované náhodné veličiny (tj. ρ > 0). Testová statistika má tvar: . Platí-li nulová hypotéza, pak T[0] ~ t(n-2). Kritický obor pro test H[0] proti - oboustranné alternativě: , - levostranné alternativě: , - pravostranné alternativě: . H[0] zamítáme na hladině významnosti α, když . Příklad: Testování hypotézy o nezávislosti proti oboustranné alternativě V dílně pracuje 15 dělníků. Byl u nich zjištěn počet směn odpracovaných za měsíc (náhodná veličina X) a počet zhotovených výrobků (náhodná veličina Y): X 20 21 18 17 20 18 19 21 20 14 16 19 21 15 15 Y 92 93 83 80 91 85 82 98 90 60 73 86 96 64 81. Orientačně ověřte dvourozměrnou normalitu dat, vypočtěte výběrový koeficient korelace mezi X a Y a na hladině 0,01 testujte hypotézu o nezávislosti X a Y proti oboustranné alternativě. Řešení: Dvourozměrnou normalitu dat ověříme pomocí dvourozměrného tečkového diagramu. Vidíme, že předpoklad dvourozměrné normality je oprávněný. Vypočteme realizace výběrových průměrů: m[1] = = 18,267, m[2] = = 83,6, výběrových rozptylů: s[1]^2 = = 5,6381, s[2]^2 = = 121,4, výběrové kovariance: s[12] = = 24,2571, výběrového koeficientu korelace: = 0,927. Realizace testové statistiky: = 8,912, kritický obor . Protože , hypotézu o nezávislosti veličin X a Y zamítáme na hladině významnosti 0,01. S rizikem omylu nejvýše 1% jsme tedy prokázali, že mezi počtem směn odpracovaných za měsíc a počtem zhotovených výrobků existuje závislost. Výpočet pomocí systému STATISTICA Vytvoříme datový soubor o dvou proměnných X, Y a 15 případech. Dvourozměrnou normalitu dat ověříme pomocí dvourozměrného tečkového diagramu – viz výše. Statistiky – Základní statistiky/tabulky – Korelační matice – OK – 1 seznam proměn. – X, Y – OK – na záložce Možnosti vybereme Zobrazit detailní tabulku výsledků – Výpočet. Výběrový koeficient korelace se realizoval hodnotou 0,92718, testová statistika nabyla hodnoty 8,924, odpovídající p-hodnota je 0,000001, tedy na hladině významnosti 0,01 zamítáme hypotézu o nezávislosti veličin X, Y. Příklad: Testování hypotézy o nezávislosti proti levostranné alternativě Pracovník personálního oddělení určité firmy zkoumá, zda existuje vztah mezi věkem zaměstnance (náhodná veličina X) a počtem dní absence za rok (náhodná veličina Y). Proto náhodně vybral údaje o 10 zaměstnancích: X 27 61 37 23 46 58 29 36 64 40 Y 15 6 10 18 9 7 14 11 5 8 Na hladině významnosti 0,05 testujte hypotézu, že X a Y jsou nezávislé náhodné veličiny proti alternativě, že X, Y jsou záporně korelované náhodné veličiny. Řešení: Předpoklad o dvourozměrné normalitě dat ověříme orientačně pomocí dvourozměrného tečkového diagramu. Vzhled diagramu svědčí o tom, že předpoklad je oprávněný. Na hladině významnosti 0,05 testujeme H[0]: ρ = 0 proti H[1]: ρ < 0. Vypočítáme r[12] = -0,9325, tedy mezi věkem pracovníka a počtem dnů pracovní neschopnosti existuje silná nepřímá lineární závislost. Realizace testové statistiky: , kritický obor . Jelikož , zamítáme na hladině významnosti 0,05 hypotézu o nezávislosti veličin X a Y ve prospěch levostranné alternativy. S rizikem omylu nejvýše 5% jsme prokázali, že mezi věkem pracovníka a počtem dnů absence za rok existuje nepřímá lineární závislost. Výpočet pomocí systému STATISTICA Můžeme využít toho, že již známe r[12]. Statistiky – Pravděpodobnostní kalkulátor – Korelace – vyplníme n = 10, r = -0,9325, odškrtneme Dvojité, zaškrtneme Výpočet p z r – Výpočet. V okénku p se objeví hodnota 0,000041, tedy na hladině významnosti 0,05 zamítáme hypotézu o nezávislosti veličin X a Y ve prospěch levostranné alternativy. Příklad: Testování hypotézy o nezávislosti proti pravostranné alternativě Máme k dispozici výsledky testů ze dvou předmětů zjištěné u osmi náhodně vybraných studentů určitého oboru. Číslo studenta 1 2 3 4 5 6 7 8 Počet bodů v 1. testu 80 50 36 58 42 60 56 68 Počet bodů ve 2. testu 65 60 35 39 48 44 48 61 Na hladině významnosti 0,05 testujte hypotézu, že výsledky obou testů nejsou kladně korelované. Řešení: Nejprve se musíme přesvědčit, že uvedené výsledky lze považovat za realizace náhodného výběru z dvourozměrného normálního rozložení. Lze tak učinit orientačně pomocí dvourozměrného tečkového diagramu. Tečky by měly vytvořit elipsovitý obrazec. Obrázek svědčí o tom, že předpoklad dvourozměrné normality je oprávněný a že mezi počty bodů z 1. a 2. testu bude existovat určitý stupeň přímé lineární závislosti. Na hladině významnosti 0,05 testujeme H[0]: ρ = 0 proti pravostranné alternativě H[1]: ρ > 0. Výpočtem zjistíme: r[12] = 0,6668, t[0] = 2,1917. Stanovíme kritický obor: . Jelikož , zamítáme na hladině významnosti 0,05 hypotézu o nezávislosti veličin X a Y ve prospěch pravostranné alternativy. S rizikem omylu nejvýše 5% jsme prokázali, že mezi výsledky 1. a 2. testu existuje přímá lineární závislost. Výpočet pomocí systému STATISTICA Můžeme využít toho, že již známe r[12]. Statistiky – Pravděpodobnostní kalkulátor – Korelace – vyplníme n = 8, r = 0,6668, odškrtneme Dvojité, zaškrtneme Výpočet p z r – Výpočet. V okénku p se objeví hodnota 0,035455, tedy na hladině významnosti 0,05 zamítáme hypotézu o nezávislosti veličin X a Y ve prospěch pravostranné alternativy. Postup při nesplnění předpokladu dvourozměrné normality Máme k dispozici realizace náhodného výběru rozsahu 12 z dvourozměrného rozložení: X 1 3 4 5 6 8 10 11 13 14 16 17 Y 13 15 18 16 23 31 39 56 45 43 37 0 Na hladině významnosti 0,05 testujte hypotézu, že náhodné veličiny X, Y jsou nezávislé proti oboustranné alternativě. Řešení: Na hladině významnosti 0,05 testujeme H[0]: ρ = 0 proti oboustranné alternativě H[1]: ρ ≠ 0. Pokud neověříme předpoklad dvourozměrné normality, obvyklým způsobem vypočteme realizaci výběrového koeficientu korelace r[12] = 0,3729 a realizaci testové statistiky t[0] = 1,271. Stanovíme kritický obor: . Protože , nezamítáme na hladině významnosti 0,05 hypotézu o nezávislosti náhodných veličin X a Y. Nyní budeme testovat hypotézu o normalitě náhodné veličiny X a náhodné veličiny Y. Grafické ověření pomocí N-P grafů: N-P graf pro veličinu X N-P graf pro veličinu Y Vzhled grafů svědčí ve prospěch normality. Testování pomocí Lilieforsovy varianty K - S testu a S – W testu: V obou případech hypotézu o normalitě nezamítáme na hladině významnosti 0,05. Ověření dvourozměrné normality pomocí dvourozměrného tečkového diagramu: Dvourozměrná normalita je silně porušena, tečky nevyplňují vnitřek elipsovitého obrazce. Přejdeme tedy k testování hypotézy o pořadové nezávislosti: Testujeme hypotézu H[0]: X, Y jsou pořadově nezávislé náhodné veličiny proti oboustranné alternativě H[1]: X, Y jsou pořadově závislé náhodné veličiny. Vypočítáme Spearmanův koeficient pořadové korelace. X 1 3 4 5 6 8 10 11 13 14 16 17 Y 13 15 18 16 23 31 39 56 45 43 37 0 R[i] 1 2 3 4 5 6 7 8 9 10 11 12 Q[i] 2 3 5 4 6 7 9 12 11 10 8 1 Stanovíme kritický obor: Testová statistika se nerealizuje v kritickém oboru, nulovou hypotézu nezamítáme na hladině významnosti 0,05. Porovnání koeficientu korelace s danou konstantou Nechť c je reálná konstanta. Testujeme H[0]: ρ = c proti H[1]: ρ ≠ c. (Tento test se provádí např. tehdy, když experimentátor porovnává vlastnosti svých dat s vlastnostmi uváděnými v literatuře.) Test je založen na statistice , která má za platnosti H[0] pro n ≥ 10 asymptoticky rozložení N(0,1), přičemž je tzv. Fisherova Z-transformace. Kritický obor pro test H[0] proti oboustranné alternativě tedy je . H[0] zamítáme na asymptotické hladině významnosti α, když . Příklad: U 600 vzorků rudy byl stanoven obsah železa dvěma analytickými metodami s výběrovým koeficientem korelace 0,85. V literatuře se uvádí, že koeficient korelace těchto dvou metod má být 0,9. Na asymptotické hladině významnosti 0,05 testujte hypotézu H[0]: ρ = 0,9 proti H[1]: ρ ≠ 0,9. Řešení: , , u[0,975 ]= 1,96, . Protože , H[0] zamítáme na asymptotické hladině významnosti 0,05. Výpočet pomocí systému STATISTICA (pouze přibližný): Statistiky – Základní statistiky a tabulky – Testy rozdílů: r, %, průměry – OK – vybereme Rozdíl mezi dvěma korelačními koeficienty. Do políčka r1 napíšeme 0,85, do políčka N1 napíšeme 600, do políčka r2 napíšeme 0,9, do políčka N2 napíšeme 32767 (větší hodnotu systém neumožní) - Výpočet. Dostaneme p-hodnotu 0,0000, tedy zamítáme nulovou hypotézu na asymptotické hladině významnosti 0,05. Upozornění: Pokud bychom chtěli pomocí systému STATISTICA provést přesnější test s využitím statistiky U, můžeme vypočítat Fisherovu Z- transformaci pomocí Pravděpodobnostního kalkulátoru – Korelace, kde zadáme realizaci výběrového koeficientu korelace, rozsah výběru. Zajímá nás Fisher z. Porovnání dvou korelačních koeficientů Nechť jsou dány dva nezávislé náhodné výběry o rozsazích n a n^* z dvourozměrných normálních rozložení s korelačními koeficienty ρ a ρ^*. Testujeme H[0]: ρ = ρ^* proti H[1]: ρ ≠ ρ^*. Označme R[12] výběrový korelační koeficient 1. výběru a R[12]^* výběrový korelační koeficient 2. výběru. Položme a . Platí-li H[0], pak testová statistika má asymptoticky rozložení N(0,1). Kritický obor pro test H[0] proti oboustranné alternativě tedy je . H[0] zamítáme na asymptotické hladině významnosti α, když . Příklad: Lékařský výzkum se zabýval sledováním koncentrací látek A a B v moči pacientů trpících určitou ledvinovou chorobou. U 100 zdravých jedinců činil výběrový korelační koeficient mezi koncentracemi obou látek 0,65 a u 142 osob trpících zmíněnou chorobou byl 0,37. Na asymptotické hladině významnosti 0,05 testujte hypotézu, že korelační koeficienty v obou skupinách se neliší. Řešení: , , u[0,975 ]= 1,96, . Protože , H[0] zamítáme na asymptotické hladině významnosti 0,05. Výpočet pomocí systému STATISTICA: Statistiky – Základní statistiky a tabulky – Testy rozdílů: r, %, průměry – OK – vybereme Rozdíl mezi dvěma korelačními koeficienty. Do políčka r1 napíšeme 0,65, do políčka N1 napíšeme 100, do políčka r2 napíšeme 0,37, do políčka N2 napíšeme 142 - Výpočet. Dostaneme p-hodnotu 0,0038, tedy zamítáme nulovou hypotézu na asymptotické hladině významnosti 0,05. Interval spolehlivosti pro korelační koeficient Jestliže dvourozměrný náhodný výběr rozsahu n pochází z dvourozměrného normálního rozložení, jehož korelační koeficient se příliš neliší od nuly (je splněna podmínka│ρ│ < 0,5) a rozsah výběru je dostatečně velký (n ≥ 100), lze odvodit, že 100(1-α)% interval spolehlivosti pro ρ má meze . Nejsou-li uvedené podmínky splněny, pak nelze tento vzorec použít, protože rozložení výběrového korelačního koeficientu je příliš zešikmené. V takovém případě využijeme toho, že náhodná veličina má i při malém rozsahu výběru přibližně normální rozložení se střední hodnotou (2. sčítanec lze při větším n zanedbat) a rozptylem . Standardizací veličiny Z dostaneme veličinu , která má asymptoticky rozložení N(0,1). Tudíž 100(1-α)% asymptotický interval spolehlivosti pro bude mít meze . Interval spolehlivosti pro ρ pak dostaneme zpětnou transformací. Poznámka: Jelikož Z = arctgh R[12], dostáváme R[12] = tgh Z a meze intervalu spolehlivosti pro ρ můžeme psát ve tvaru , přičemž . Příklad: Pracovník personálního oddělení určité firmy zkoumá, zda existuje vztah mezi počtem dní absence za rok (veličina Y) a věkem pracovníka (veličina X). Proto náhodně vybral údaje o 10 pracovnících. Č.prac. 1 2 3 4 5 6 7 8 9 10 X 27 61 37 23 46 58 29 36 64 40 Y 15 6 10 18 9 7 14 11 5 8 Za předpokladu, že uvedené údaje tvoří číselné realizace náhodného výběru rozsahu 10 z dvourozměrného normálního rozložení, vypočtěte výběrový korelační koeficient a na hladině významnosti 0,05 testujte hypotézu, že X a Y jsou nezávislé náhodné veličiny. Sestrojte 95% asymptotický interval spolehlivosti pro skutečný korelační koeficient ρ. Řešení: Předpoklad o dvourozměrné normalitě dat ověříme orientačně pomocí dvourozměrného tečkového diagramu. Vzhled diagramu svědčí o tom, že předpoklad je oprávněný. Testujeme H[0]: ρ = 0 proti H[1]: ρ ≠ 0. Vypočítáme R[12] = -0,9325, tedy mezi věkem pracovníka a počtem dnů pracovní neschopnosti existuje silná nepřímá lineární závislost. Testová statistika: T = -7,3053, kvantil t[0,975](8) = 2,306, kritický obor . Jelikož , zamítáme na hladině významnosti 0,05 hypotézu o nezávislosti veličin X a Y. Vypočítáme . Meze 95% asymptotického intervalu spolehlivosti pro ρ jsou , tedy -0,9842 < ρ < -0,7336 s pravděpodobností přibližně 0,95. Výpočet pomocí systému STATISTICA: Ve STATISTICE vypočteme meze 100(1-α)% asymptotického intervalu spolehlivosti pro koeficient korelace ρ tak, že otevřeme nový datový soubor se dvěma proměnnými (pojmenujeme je DM a HM) a jedním případem. Do Dlouhého jména proměnné DM zapíšeme příkaz = TanH(0,5*log((1-0,9325)/(1+0,9325))-VNormal(0,975;0;1)/sqrt(7)) a do Dlouhého jména proměnné HM zapíšeme příkaz = TanH(0,5*log((1-0,9325)/(1+0,9325))+VNormal(0,975;0;1)/sqrt(7)) 95% asymptotický interval spolehlivosti pro koeficient korelace ρ má tedy meze –0,98425 a -0,73358. (Protože nepokrývá hodnotu 0, zamítáme hypotézu o nezávislosti veličin X, Y na asymptotické hladině významnosti 0,05.) Vztah mezi koeficienty korelace r[12] a r[S] r[12 ]= 0,82, r[S ] = 0,82 r[12] = 0,82, r[S] = 0,69 r[12] = 0,82, r[S] = 0,99 r[12] = 0,82, r[S] = 0,5 r[12] = 0, r[S] = 0 r[12] = -0,77, r[S] = -1 3. obrázek ukazuje odolnost Spearmanova koeficientu vůči odlehlým hodnotám. 6. obrázek dokumentuje schopnost Spearmanova koeficientu měřit monotónní vztahy. Jestliže náhodný vektor (X, Y) má dvourozměrné normální rozložení s Pearsonovým koeficientem korelace ρ a Spearmanovým koeficientem korelace ρ[S], pak ρ ≈ 2 sin(0,523ρ[S]).