Jednoduchá korelační analýza Motivace Uvažme náhodné veličiny X, Y, které jsou aspoň ordinálního typu. Tyto náhodné veličiny mohou mít různý vztah: - Deterministická (funkční) závislost: jedna náhodná veličina je spjata s druhou náhodnou veličinou funkční závislostí vyjádřenou předpisem Y = g(X), např. X – poloměr náhodně vybrané sériově vyráběné kuličky do kuličkových ložisek, Y = 3 X 3 4 π - objem této kuličky. Každé realizaci náhodné veličiny X (vysvětlující proměnná) je přiřazena právě jedna realizace náhodné veličiny Y (vysvětlovaná proměnná). funkční závislost 0 10 20 0 2 4 6 8 10 vysvětlující proměnná výsvětlovaná proměnná - Stochastická závislost: jedna náhodná veličina ovlivňuje v různé míře druhou náhodnou veličinu, např. X – věk pracovníka v letech, Y – počet dnů absence za rok. Každé realizaci náhodné veličiny X může být přiřazeno více realizací náhodné veličiny Y. Závislost může být jednostranná i oboustranná. stochastická závislost 0 10 20 0 2 4 6 8 10 vysvětlující proměnná výsvětlovaná proměnná - Stochastická nezávislost: náhodné veličiny se navzájem neovlivňují, např. házíme-li naráz dvěma kostkami a označíme X – počet ok padlých na jedné kostce, Y – počet ok padlých na druhé kostce, pak náhodné veličiny X, Y jsou stochasticky nezávislé. nezávislost 0 2,5 5 7,5 10 0 2 4 6 8 10 vysvětlující proměnná výsvětlovaná proměnná X a Y jsou stochasticky nezávislé, když platí: ( ) ( ) ( ) ( )yxy,x:Ry,x 21 2 ΦΦ=Φ∈∀ X a Y jsou nekorelované, když platí C(X, Y) = 0 (tj. mezi X a Y není žádný lineární vztah). Ze stochastické nezávislosti vyplývá nekorelovanost, avšak z nekorelovanosti nevyplývá stochastická nezávislost. Korelační analýza: • zkoumá, zda existuje závislost mezi dvěma náhodnými veličinami X, Y, které jsou buď ordinálního nebo intervalového či poměrového typu. Důležité – nelze se spokojit s formálním matematickým popisem závislosti, závislost musí být logicky zdůvodnitelná! • pomocí Pearsonova či Spearmanova koeficientu korelace měří těsnost této závislosti • pro náhodné veličiny intervalového a poměrového typu je založena na předpokladu, že dvourozměrný náhodný vektor       Y X se řídí dvourozměrným normálním rozložením N2                 σσρσ σρσσ       µ µ 2 221 21 2 1 2 1 , , kde µ1 = E(X), µ2 = E(Y), σ1 2 = D(X), σ2 2 = D(Y), ρ = R(X,Y) • při výraznějším porušení předpokladu dvourozměrné normality doporučuje použití metod, které jsou určeny pro náhodné veličiny ordinálního typu Spearmanův koeficient pořadové korelace Charles Edward Spearman (1863 – 1945): Britský psycholog a statistik, zakladatel faktorové analýzy Nechť X,Y jsou náhodné veličiny ordinálního typu (tj. obsahová interpretace je možná jenom u relace rovnosti a relace uspořádání). Pořídíme dvourozměrný náhodný výběr (X1, Y1), ..., (Xn, Yn) z rozložení, jímž se řídí náhodný vektor (X, Y). Označíme Ri pořadí náhodné veličiny Xi a Qi pořadí náhodné veličiny Yi, i = 1, ..., n. Spearmanův koeficient pořadové korelace: ( ) ( )∑ = − − −= n 1i 2 ii2S QR 1nn 6 1r . Tento koeficient nabývá hodnot mezi –1 a 1. Čím je bližší 1, tím je silnější přímá pořadová závislost mezi veličinami X a Y, čím je bližší –1, tím je silnější nepřímá pořadová závislost mezi veličinami X a Y. Teoretická hodnota Spearmanova koeficientu se značí ρS. Vlastnosti Spearmanova koeficientu pořadové korelace Pro Spearmanův koeficient pořadové korelace platí 1r1 S ≤≤− . Čím je bližší 1, tím je silnější přímá pořadová závislost mezi veličinami X a Y, čím je bližší –1, tím je silnější nepřímá pořadová závislost mezi veličinami X a Y. Je-li 1rS = resp. 1rS −= , pak realizace ( ) n,,1i,y,x ii …= daného náhodného výběru leží na nějaké rostoucí resp. klesající funk- ci. Hodnoty rS se nezmění, když provedeme vzestupnou transformaci původních dat. Hodnoty rS se vynásobí -1, když provedeme sestupnou transformaci původních dat. Koeficient je symetrický. Koeficient je rezistentní vůči odlehlým hodnotám. Význam absolutní hodnoty Spearmanova koeficientu: mezi 0 až 0,1 … zanedbatelná pořadová závislost, mezi 0,1 až 0,3 … slabá pořadová závislost, mezi 0,3 až 0,7 … střední pořadová závislost, mezi 0,7 až 1 … silná pořadová závislost. Spearmanův koeficient pořadové korelace se používá v situacích, kdy - zkoumaná data mají ordinální charakter - nelze předpokládat, že vztah mezi veličinami X, Y je lineární - náhodný výběr nepochází z dvourozměrného normálního rozložení Testování nezávislosti ordinálních veličin Na hladině významnosti α testujeme hypotézu H0: X, Y jsou pořadově nezávislé náhodné veličiny proti - oboustranné alternativě H1: X, Y jsou pořadově závislé náhodné veličiny - levostranné alternativě H1: mezi X a Y existuje nepřímá pořadová závislost - pravostranné alternativě H1: mezi X a Y existuje přímá pořadová závislost). Jako testová statistika slouží Spearmanův koeficient pořadové korelace rS. Nulovou hypotézu zamítáme na hladině významnosti α ve prospěch - oboustranné alternativy, když │rS│≥ rS,1-α/2(n) - levostranné alternativy, když rS ≤ - rS,1-α(n) - pravostranné alternativy, když rS ≥ rS,1-α(n), kde rS,1-α(n) je kritická hodnota, kterou pro α = 0,05 nebo 0,01 a n ≤ 30 najdeme v tabulkách. Asymptotické varianty testu Pro n > 20 lze použít testovou statistiku 2 S S 0 r1 2nr T − − = , která se v případě platnosti nulové hypotézy asymptoticky řídí rozložením t(n-2). Kritický obor pro oboustrannou alternativu: ( ) ( ) )( ∞−∪−−∞−= α−α− ,2nt2nt,W 2/12/1 Kritický obor pro levostrannou alternativu: ( )( 2nt,W 1 −−∞−= α− Kritický obor pro pravostrannou alternativu: ( ) )∞−= α− ,2ntW 1 . Hypotézu o pořadové nezávislosti náhodných veličin X, Y zamítáme na asymptotické hladině významnosti α, když t0 ∈ W. Upozornění: Systém STATISTICA používá tuto variantu testu pořadové nezávislosti bez ohledu na rozsah náhodného výběru. Pro n > 30 lze použít testovou statistiku 1nrs − . Platí-li H0, pak 1nrs − ≈ N(0, 1). Nulovou hypotézu tedy zamítáme na asymptotické hladině významnosti α ve prospěch oboustranné alternativy, když ( )∞∪−∞−∈− α−α− ,uu,1nr 2/12/1S , levostranné alternativy, když ( α−−∞−∈− 1S u,1nr , pravostranné alternativy, když )∞∈− α− ,u1nr 1S Příklad na testování pořadové nezávislosti (jsou známa pořadí): Dva lékaři hodnotili stav sedmi pacientů po témž chirurgickém zákroku. Postupovali tak, že nejvyšší pořadí dostal nejtěžší případ. Číslo pacienta 1 2 3 4 5 6 7 Hodnocení 1. lékaře 4 1 6 5 3 2 7 Hodnocení 2. lékaře 4 2 5 6 1 3 7 Vypočtěte Spearmanův koeficient a na hladině významnosti 0,05 testujte hypotézu, že hodnocení obou lékařů jsou pořadově nezávislá. Řešení: Na hladině významnosti 0,05 testujeme H0: X, Y jsou pořadově nezávislé náhodné veličiny proti oboustranné alternativě H1: X, Y jsou pořadově závislé náhodné veličiny. V tomto příkladě přímo známe pořadí Ri (tj. hodnocení 1. lékaře) a pořadí Qi (tj. hodnocení 2. lékaře). Vypočteme ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( )[ ] 857,077321365562144 177 6 1r 2222222 2S =−+−+−+−+−+−+− − −= . Kritická hodnota: rS,0,975(7) = 0,745. Protože 0,857 ≥ 0,745, nulovou hypotézu zamítáme na hladině významnosti 0,05. Výpočet pomocí systému STATISTICA Vytvoříme datový soubor o dvou proměnných X (hodnocení 1. lékaře), Y (hodnocení 2. lékaře) a sedmi případech. Do proměnných X a Y zapíšeme zjištěná hodnocení. 1 X 2 Y 1 2 3 4 5 6 7 4 4 1 2 6 5 5 6 3 1 2 3 7 7 Statistiky – Neparametrické statistiky – Korelace – OK – vybereme Vytvořit detailní report - Proměnné X, Y – OK – Spearmanův koef. R. Dostaneme tabulku Spearmanovy korelace (dva lekari.sta) ChD vynechány párově Označ. korelace jsou významné na hl. p <,05000 Dvojice proměnných Počet plat. Spearman R t(N-2) Úroveň p X & Y 7 0,857143 3,721042 0,013697 Spearmanův koeficient pořadové korelace nabývá hodnoty 0,857, testová statistika se realizuje hodnotou 3,721, odpovídající p-hodnota je 0,0137, tedy na asymptotické hladině významnosti 0,05 zamítáme hypotézu o pořadové nezávislosti hodnocení dvou lékařů ve prospěch oboustranné alternativy. Příklad na testování pořadové nezávislosti (pořadí musíme stanovit): Jsou dány realizace náhodného výběru z dvourozměrného rozložení, kterým se řídí náhodný vektor (X,Y): (2,5 13,4), (3,4 15,2), (1,3 11,8), (5,8 13,1), (3,6 14,5). Na hladině významnosti 0,05 testujte hypotézu, že náhodné veličiny jsou pořadově nezávislé proti oboustranné alternativě. Řešení: xi 2,5 3,4 1,3 5,8 3,6 yi 13,4 15,2 11,8 13,1 14,5 Ri 2 3 1 5 4 Qi 3 5 1 2 4 (Ri-Qi)2 1 4 0 9 0 Testová statistika: ( ) ( ) 3,014 245 6 1QR 1nn 6 1r n 1i 2 ii2S = ⋅ −=− − −= ∑= Kritická hodnota: pro n = 5 a α = 0,05 je kritická hodnota 0,9. Protože testová statistika se realizuje hodnotou 0,3, hypotézu o pořadové nezávislosti veličin X a Y nezamítáme na hladině významnosti 0,05. Výpočet pomocí systému STATISTICA Postupujeme úplně stejně jako v předešlém případě. Výstupní tabulka má tvar: Spearmanovy korelace (poradova korelace.sta) ChD vynechány párově Označ. korelace jsou významné na hl. p <,05000 Dvojice proměnných Počet plat. Spearman R t(N-2) Úroveň p X & Y 5 0,300000 0,544705 0,623838 Spearmanův koeficient pořadové korelace nabývá hodnoty 0,3, testová statistika se realizuje hodnotou 0,5447, odpovídající p-hodnota je 0,6238, tedy na asymptotické hladině významnosti 0,05 nezamítáme hypotézu o pořadové nezávislosti veličin X, Y. Pearsonův koeficient korelace Karl Pearson (1857 – 1936): Britský statistik Číslo ( ) ( ) jinak0 0)Y(D)X(Dpro )Y(D)X(D YX,C )Y(D )Y(EY )X(D )X(EX E Y,XR      >=         − ⋅ − = se nazývá Pearsonův koeficient korelace. (Pro výpočet Pearsonova koeficentu korelace musíme znát simultánní distribuční funkci Φ(x,y) v obecném případě resp. simultánní hustotu pravděpodobnosti φ(x,y) ve spojitém případě resp. simultánní pravděpodobnostní funkci π(x,y) v diskrétním případě.) Vlastnosti Pearsonova koeficientu korelace a) R(a1, Y) = R(X, a2) = R(a1, a2) = 0 b) R(a1 + b1X, a2 + b2Y) = sgn(b1b2) R(X, Y) = ( ) ( )   <− > 0bbproY,XR 0bbproY,XR 21 21 c) R(X, X) = 1 pro D(X) ≠ 0, R(X, X) = 0 jinak d) R(X, Y) = R(Y, X) e) 1)Y,X(R ≤ a rovnost nastane tehdy a jen tehdy, když mezi veličinami X, Y existuje s pravděpodobností 1 úplná lineární závislost, tj. existují konstanty a, b tak, že pravděpodobnost P(Y = a + bX) = 1. Přitom R(X, Y) = 1, když b > 0 a R(X, Y) = -1, když b < 0. (Uvedená nerovnost se nazývá Cauchyova – Schwarzova – Buňakovského nerovnost.) Z vlastností Pearsonova koeficientu korelace vyplývá, že se hodí pouze k měření těsnosti lineárního vztahu veličin X a Y. Při složitějších závislostech může dojít k paradoxní situaci, že Pearsonův koeficient korelace je nulový. Ilustrace: -1 -0.8 -0.6 -0.4 -0.2 0 0.2 0.4 0.6 0.8 1 -1 -0.9 -0.8 -0.7 -0.6 -0.5 -0.4 -0.3 -0.2 -0.1 0 Definice nekorelovanosti Je-li R(X, Y) = 0, pak řekneme, že náhodné veličiny jsou nekorelované. (Znamená to, že mezi X a Y neexistuje žádná lineární závislost. Jsou-li náhodné veličiny X,Y stochasticky nezávislé, pak jsou samozřejmě i nekorelované.) Je-li R(X, Y) > 0, pak řekneme, že náhodné veličiny jsou kladně korelované. (Znamená to, že s růstem hodnot veličiny X rostou hodnoty veličiny Y a s poklesem hodnot veličiny X klesají hodnoty veličiny Y.) Je-li R(X, Y) < 0, pak řekneme, že náhodné veličiny jsou záporně korelované. (Znamená to, že s růstem hodnot veličiny X klesají hodnoty veličiny Y a s poklesem hodnot veličiny X rostou hodnoty veličiny Y.) Výběrový koeficient korelace Nechť (X1, Y1), ..., (Xn, Yn) náhodný výběr rozsahu n z dvourozměrného rozložení daného distribuční funkcí Φ(x,y). Z tohoto dvourozměrného náhodného výběru můžeme stanovit: výběrové průměry ∑ = = n 1i i1 X n 1 M , ∑ = = n 1i i2 Y n 1 M , výběrové rozptyly ( )∑ = − − = n 1i 2 1i 2 1 MX 1n 1 S , ( )∑ = − − = n 1i 2 2i 2 2 MY 1n 1 S , výběrovou kovarianci ( )( )∑ = −− − = n 1i 2i1i12 MYMX 1n 1 S a s jejich pomocí zavedeme výběrový koeficient korelace      >= − ⋅ − −= ∑= jinak0 0SSpro SS S S MY S MX 1n 1 R 21 21 12 n 1i 2 2 1 1 12 . Vlastnosti Pearsonova koeficientu korelace se přenášejí i na výběrový koeficient korelace. (Spearmanův koeficient pořadové korelace odpovídá Pearsonovu koeficientu korelace aplikovanému na pořadí.) Příklad: Výpočet realizace výběrového koeficientu korelace U 65 zaměstnanců jisté firmy byla zjišťována délka praxe v letech (veličina X) a výška prémií v Kč (veličina Y). Dvourozměrné rozložení četností je dáno kontingenční tabulkou: yx 1250 1750 2250 2750 3250 3750 4250 12,5 5 3 0 0 0 0 0 17,5 2 4 4 0 0 0 0 22,5 0 1 6 7 4 0 0 27,5 0 0 1 3 7 1 0 32,5 0 0 0 1 10 5 1 Vypočtěte realizaci r12 výběrového koeficientu korelace R12 a interpretujte jeho hodnotu. Pro úsporu času máte uvedeny následující součty: 498562500yn,40456xn,172750yn,5,1562xn 7 1k 2 ]k[k. 5 1j 2 ]j[.j 7 1k ]k[k. 5 1j ]j[.j ==== ∑∑∑∑ ==== , ∑∑= = = 5 1j 7 1k ]k[]j[jk 4446875yxn Řešení: Známe tyto součty: 498562500yn,40456xn,172750yn,5,1562xn 7 1k 2 ]k[k. 5 1j 2 ]j[.j 7 1k ]k[k. 5 1j ]j[.j ==== ∑∑∑∑ ==== ,∑∑= = = 5 1j 7 1k ]k[]j[jk 4446875yxn Vypočteme průměrnou délku praxe: 038,24 65 5,1562 m1 == , průměrnou výšku prémií: 692,2657 65 172750 m2 == rozptyl délky praxe: 25,45 65 5,1562 6540456 64 1 s 2 2 1 =               ⋅−= rozptyl výše prémií: 616346 65 172750 65498562500 64 1 s 2 2 2 =               ⋅−= kovariance délky praxe a výše prémií: 4,4597 65 172750 65 5,1562 654446875 64 1 s12 =      ⋅⋅−= koeficient korelace délky praxe a výše prémií: 8705,0 61634625,45 4,4597 r12 == Hodnota koeficientu korelace svědčí o tom, že mezi délkou praxe a výškou prémií existuje dosti silná přímá lineární závislost – čím delší praxe, tím vyšší prémie. Pearsonův koeficient korelace dvourozměrného normálního rozložení Jak bylo uvedeno v motivaci, korelační analýza předpokládá, že daný náhodný výběr pochází z dvourozměrného normálního rozložení. Proč je tento předpoklad tak důležitý? Odpověď poskytne následující věta. Nechť náhodný vektor (X, Y) má dvourozměrné normální rozložení s hustotou ( ) ( )               σ µ− + σ µ− σ µ− ρ−      σ µ− ρ− − ρ−σπσ =ϕ 2 2 2 2 2 1 1 2 1 1 2 yyx 2 x 12 1 2 21 e 12 1 y,x , přičemž µ1 = E(X), µ2 = E(Y), σ1 2 = D(X), σ2 2 = D(Y), ρ = R(X,Y). Marginální hustoty jsou: ( ) ( ) ( ) 2 1 2 1 2 x 1 1 e 2 1 ...dyy,xx σ µ− −∞ ∞− πσ ==ϕ=ϕ ∫ , ( ) ( ) ( ) 2 2 2 2 2 y 2 2 e 2 1 ...dxy,xy σ µ− −∞ ∞− πσ ==ϕ=ϕ ∫ . Je-li ρ = 0, pak pro ( ) ( ) ( ) ( )yxy,x:Ry,x 21 2 ϕϕ=ϕ∈∀ , tedy náhodné veličiny X, Y jsou stochasticky nezávislé. Jinými slovy: stochastická nezávislost složek X, Y normálně rozloženého náhodného vektoru je ekvivalentní jejich nekorelovanosti. Pro jiná dvourozměrná rozložení to neplatí! Upozornění: nadále budeme předpokládat, že (X1, Y1), ..., (Xn, Yn) je náhodný výběr rozsahu n z dvourozměrného normálního rozložení N2                 σσρσ σρσσ       µ µ 2 221 21 2 1 2 1 , . Předpoklad dvourozměrné normality lze orientačně ověřit pomocí dvourozměrného tečkového diagramu: tečky by měly zhruba rovnoměrně vyplnit vnitřek elipsovitého obrazce. Vrstevnice hustoty dvourozměrného normálního rozložení jsou totiž elipsy: Graf hustoty a vrstevnice dvourozměrného normálního rozložení s parametry µ1 = 0, µ2 = 0, σ1 2 = 1, σ2 2 = 1, ρ = -0,75: Do dvourozměrného tečkového diagramu můžeme ještě zakreslit 100(1-α)% elipsu konstantní hustoty pravděpodobnosti. Bude-li více než 100α% teček ležet vně této elipsy, svědčí to o porušení dvourozměrné normality. Bude-li mít hlavní osa elipsy kladnou resp. zápornou směrnici, znamená to, že mezi veličinami X a Y existuje určitý stupeň přímé resp. nepřímé lineární závislosti. Testování hypotézy o nezávislosti Na hladině významnosti α testujeme H0: X, Y jsou stochasticky nezávislé náhodné veličiny (tj. ρ = 0) proti - oboustranné alternativě H1: X, Y nejsou stochasticky nezávislé náhodné veličiny (tj. ρ ≠ 0) - levostranné alternativě H1: X, Y jsou záporně korelované náhodné veličiny (tj. ρ < 0) - pravostranné alternativě H1: X, Y jsou kladně korelované náhodné veličiny (tj. ρ > 0). Testová statistika má tvar: 2 12 12 0 R1 2nR T − − = . Platí-li nulová hypotéza, pak T0 ~ t(n-2). Kritický obor pro test H0 proti - oboustranné alternativě: ( )( ( ) )∞−∪−−∞−= α−α− ,2nt2nt,W 2/12/1 , - levostranné alternativě: ( )( 2nt,W 1 −−∞−= α− , - pravostranné alternativě: ( ) )∞−= α− ,2ntW 1 . H0 zamítáme na hladině významnosti α, když Wt0 ∈ . Příklad: Testování hypotézy o nezávislosti proti oboustranné alternativě V dílně pracuje 15 dělníků. Byl u nich zjištěn počet směn odpracovaných za měsíc (náhodná veličina X) a počet zhotovených výrobků (náhodná veličina Y): X 20 21 18 17 20 18 19 21 20 14 16 19 21 15 15 Y 92 93 83 80 91 85 82 98 90 60 73 86 96 64 81. Předpokládejte, že data pocházejí z dvourozměrného normálního rozložení. Vypočtěte výběrový koeficient korelace mezi X a Y a na hladině 0,01 testujte hypotézu o nezávislosti X a Y proti oboustranné alternativě. Řešení: Vypočteme realizace výběrových průměrů: m1 = ∑= n 1i ix n 1 = 18,267, m2 = ∑= n 1i iy n 1 = 83,6, výběrových rozptylů: s1 2 = ( )∑= − − n 1i 2 1i mx 1n 1 = 5,6381, s2 2 = ( )∑= − − n 1i 2 2i my 1n 1 = 121,4, výběrové kovariance: s12 = ( )( )∑= −− − n 1i 2i1i mymx 1n 1 = 24,2571, výběrového koeficientu korelace: 21 12 12 ss s r = = 0,927. Realizace testové statistiky: 2 12 12 0 r1 2nr t − − = = 8,912, kritický obor ( )( ( ) ) ( )∞∪−∞−=∞∪−∞−= ,012,3012,3,,13t13t,W 995,0995,0 . Protože Wt0 ∈ , hypotézu o nezávislosti veličin X a Y zamítáme na hladině významnosti 0,01. S rizikem omylu nejvýše 1% jsme tedy prokázali, že mezi počtem směn odpracovaných za měsíc a počtem zhotovených výrobků existuje závislost. Výpočet pomocí systému STATISTICA Vytvoříme datový soubor o dvou proměnných X, Y a 15 případech. Dvourozměrnou normalitu dat ověříme pomocí dvourozměrného tečkového diagramu: Grafy – Bodové grafy – Proměnné X, Y – OK – odškrtneme Typ proložení Lineární – na záložce Detaily zaškrtneme Elipsa Normální - OK. 10 15 20 25 30 x 50 60 70 80 90 100 110 120 y Statistiky – Základní statistiky/tabulky – Korelační matice – OK – 1 seznam proměn. – X, Y – OK – na záložce Možnosti vybereme Zobrazit detailní tabulku výsledků – Výpočet. Korelace (smeny a vyrobky.sta) Označ. korelace jsou významné na hlad. p < ,05000 (Celé případy vynechány u ChD) Prom. X & prom. Y Průměr Sm.Odch. r(X,Y) r2 t p N Konst. záv.: Y Směr. záv: Y Konst. záv.: X Směrnic záv.: X X X X Y Y X Y Y 18,26667 2,37447 18,26667 2,37447 1,000000 1,000000 15 0,000000 1,000000 0,000000 1,000000 18,26667 2,37447 83,60000 11,01817 0,927180 0,859663 8,923795 0,000001 15 5,010135 4,302365 1,562407 0,199812 83,60000 11,01817 18,26667 2,37447 0,927180 0,859663 8,923795 0,000001 15 1,562407 0,199812 5,010135 4,302365 83,60000 11,01817 83,60000 11,01817 1,000000 1,000000 15 0,000000 1,000000 0,000000 1,000000 Výběrový koeficient korelace se realizoval hodnotou 0,92718, testová statistika nabyla hodnoty 8,924, odpovídající phodnota je 0,000001, tedy na hladině významnosti 0,01 zamítáme hypotézu o nezávislosti veličin X, Y. Příklad: Testování hypotézy o nezávislosti proti levostranné alternativě Pracovník personálního oddělení určité firmy zkoumá, zda existuje vztah mezi věkem zaměstnance (náhodná veličina X) a počtem dní absence za rok (náhodná veličina Y). Proto náhodně vybral údaje o 10 zaměstnancích: X 27 61 37 23 46 58 29 36 64 40 Y 15 6 10 18 9 7 14 11 5 8 Na hladině významnosti 0,05 testujte hypotézu, že X a Y jsou nezávislé náhodné veličiny proti alternativě, že X, Y jsou záporně korelované náhodné veličiny. Řešení: Předpoklad o dvourozměrné normalitě dat ověříme orientačně pomocí dvourozměrného tečkového diagramu. -20 0 20 40 60 80 100 X -10 -5 0 5 10 15 20 25 30 Y Vzhled diagramu svědčí o tom, že předpoklad je oprávněný. Na hladině významnosti 0,05 testujeme H0: ρ = 0 proti H1: ρ < 0. Vypočítáme r12 = -0,9325, tedy mezi věkem pracovníka a počtem dnů pracovní neschopnosti existuje silná nepřímá lineární závislost. Realizace testové statistiky: 3053,7 r1 2nr t 2 12 12 0 −= − − = , kritický obor ( )( ( 8595,1,8t,W 95,0 −∞−=−∞−= . Jelikož Wt0 ∈ , zamítáme na hladině významnosti 0,05 hypotézu o nezávislosti veličin X a Y ve prospěch levostranné alternativy. S rizikem omylu nejvýše 5% jsme prokázali, že mezi věkem pracovníka a počtem dnů absence za rok existuje nepřímá lineární závislost. Výpočet pomocí systému STATISTICA Můžeme využít toho, že již známe r12. Statistiky – Pravděpodobnostní kalkulátor – Korelace – vyplníme n = 10, r = -0,9325, odškrtneme Dvojité, zaškrtneme Výpočet p z r – Výpočet. V okénku p se objeví hodnota 0,000041, tedy na hladině významnosti 0,05 zamítáme hypotézu o nezávislosti veličin X a Y ve prospěch levostranné alternativy. Příklad: Testování hypotézy o nezávislosti proti pravostranné alternativě Máme k dispozici výsledky testů ze dvou předmětů zjištěné u osmi náhodně vybraných studentů určitého oboru. Číslo studenta 1 2 3 4 5 6 7 8 Počet bodů v 1. testu 80 50 36 58 42 60 56 68 Počet bodů ve 2. testu 65 60 35 39 48 44 48 61 Na hladině významnosti 0,05 testujte hypotézu, že výsledky obou testů nejsou kladně korelované. Řešení: Nejprve se musíme přesvědčit, že uvedené výsledky lze považovat za realizace náhodného výběru z dvourozměrného normálního rozložení. Lze tak učinit orientačně pomocí dvourozměrného tečkového diagramu. Tečky by měly vytvořit elipsovitý obrazec. 0 20 40 60 80 100 120 X 0 20 40 60 80 100 Y Obrázek svědčí o tom, že předpoklad dvourozměrné normality je oprávněný a že mezi počty bodů z 1. a 2. testu bude existovat určitý stupeň přímé lineární závislosti. Na hladině významnosti 0,05 testujeme H0: ρ = 0 proti pravostranné alternativě H1: ρ > 0. Výpočtem zjistíme: r12 = 0,6668, t0 = 2,1917. Stanovíme kritický obor: ( ) ) )∞=∞= ;9432,1;6tW 95,0 . Jelikož Wt0 ∈ , zamítáme na hladině významnosti 0,05 hypotézu o nezávislosti veličin X a Y ve prospěch pravostranné alternativy. S rizikem omylu nejvýše 5% jsme prokázali, že mezi výsledky 1. a 2. testu existuje přímá lineární závislost. Výpočet pomocí systému STATISTICA Můžeme využít toho, že již známe r12. Statistiky – Pravděpodobnostní kalkulátor – Korelace – vyplníme n = 8, r = 0,6668, odškrtneme Dvojité, zaškrtneme Výpočet p z r – Výpočet. V okénku p se objeví hodnota 0,035455, tedy na hladině významnosti 0,05 zamítáme hypotézu o nezávislosti veličin X a Y ve prospěch pravostranné alternativy. Postup při nesplnění předpokladu dvourozměrné normality Máme k dispozici realizace náhodného výběru rozsahu 12 z dvourozměrného rozložení: X 1 3 4 5 6 8 10 11 13 14 16 17 Y 13 15 18 16 23 31 39 56 45 43 37 0 Na hladině významnosti 0,05 testujte hypotézu, že náhodné veličiny X, Y jsou nezávislé proti oboustranné alternativě. Řešení: Na hladině významnosti 0,05 testujeme H0: ρ = 0 proti oboustranné alternativě H1: ρ ≠ 0. Pokud neověříme předpoklad dvourozměrné normality, obvyklým způsobem vypočteme realizaci výběrového koeficientu korelace r12 = 0,3729 a realizaci testové statistiky t0 = 1,271. Stanovíme kritický obor: ( )( ( ) ) ( )∞∪−∞−=∞∪−∞−= ,2281,22281,2,,10t10t,W 975,0975,0 . Protože Wt0 ∉ , nezamítáme na hladině významnosti 0,05 hypotézu o nezávislosti náhodných veličin X a Y. Nyní budeme testovat hypotézu o normalitě náhodné veličiny X a náhodné veličiny Y. Grafické ověření pomocí N-P grafů: N-P graf pro veličinu X 0 2 4 6 8 10 12 14 16 18 Pozorovaná hodnota -2,0 -1,5 -1,0 -0,5 0,0 0,5 1,0 1,5 2,0 Očekávanánormálníhodnota N-P graf pro veličinu Y -10 0 10 20 30 40 50 60 Pozorovaná hodnota -2,0 -1,5 -1,0 -0,5 0,0 0,5 1,0 1,5 2,0Očekávanánormálníhodnota Vzhled grafů svědčí ve prospěch normality. Testování pomocí Lilieforsovy varianty K - S testu a S – W testu: Testy normality Proměnná N max D Lilliefors p W p X Y 12 0,130669 p > .20 0,956714 0,736098 12 0,145742 p > .20 0,968954 0,899540 V obou případech hypotézu o normalitě nezamítáme na hladině významnosti 0,05. Ověření dvourozměrné normality pomocí dvourozměrného tečkového diagramu: 0 2 4 6 8 10 12 14 16 18 X -10 0 10 20 30 40 50 60 Y Dvourozměrná normalita je silně porušena, tečky nevyplňují vnitřek elipsovitého obrazce. Přejdeme tedy k testování hypotézy o pořadové nezávislosti. Testujeme hypotézu H0: X, Y jsou pořadově nezávislé náhodné veličiny proti oboustranné alternativě H1: X, Y jsou pořadově závislé náhodné veličiny. Vypočítáme Spearmanův koeficient pořadové korelace. X 1 3 4 5 6 8 10 11 13 14 16 17 Y 13 15 18 16 23 31 39 56 45 43 37 0 Ri 1 2 3 4 5 6 7 8 9 10 11 12 Qi 2 3 5 4 6 7 9 12 11 10 8 1 ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) 4336,0162 286 1 1121904164110411 14312 6 1 1128111010119128 97766544533221 11212 6 1r 22222 2222222 2S =⋅−=+++++++++++ ⋅ −= =         −+−+−+−+−+ +−+−+−+−+−+−+− − −= Stanovíme kritický obor: ( ) ( ) ( ) ( ) 1,5804,05804,0,11,12r12r,11,nrnr,1W 975,0,S975,0,S2/1,S2/1,S ∪−−=∪−−=∪−−= α−α− . Testová statistika se nerealizuje v kritickém oboru, nulovou hypotézu nezamítáme na hladině významnosti 0,05. Porovnání koeficientu korelace s danou konstantou Nechť c je reálná konstanta. Testujeme H0: ρ = c proti H1: ρ ≠ c. (Tento test se provádí např. tehdy, když experimentátor porovnává vlastnosti svých dat s vlastnostmi uváděnými v literatuře.) Test je založen na statistice ( ) 3n 1n2 c c1 c1 ln 2 1 ZU −      − − − + −= , která má za platnosti H0 pro n ≥ 10 asymptoticky rozložení N(0,1), přičemž 12 12 R1 R1 ln 2 1 Z − + = je tzv. Fisherova Z-transformace. Kritický obor pro test H0 proti oboustranné alternativě tedy je ( )∞∪−∞−= α−α− ,uu,W 2/12/1 . H0 zamítáme na asymptotické hladině významnosti α, když WU ∈ . Příklad: U 600 vzorků rudy byl stanoven obsah železa dvěma analytickými metodami s výběrovým koeficientem korelace 0,85. V literatuře se uvádí, že koeficient korelace těchto dvou metod má být 0,9. Na asymptotické hladině významnosti 0,05 testujte hypotézu H0: ρ = 0,9 proti H1: ρ ≠ 0,9. Řešení: 2562,1 85,01 85,01 ln 2 1 Z = − + = , ( ) 2976,53600 16002 9,0 9,01 9,01 ln 2 1 2562,1U −=−      − − − + −= , u0,975 = 1,96, ( )∞∪−∞−= ,96,196,1,W . Protože WU ∈ , H0 zamítáme na asymptotické hladině významnosti 0,05. Výpočet pomocí systému STATISTICA (pouze přibližný): Statistiky – Základní statistiky a tabulky – Testy rozdílů: r, %, průměry – OK – vybereme Rozdíl mezi dvěma korelačními koeficienty. Do políčka r1 napíšeme 0,85, do políčka N1 napíšeme 600, do políčka r2 napíšeme 0,9, do políčka N2 napíšeme 32767 (větší hodnotu systém neumožní) - Výpočet. Dostaneme p-hodnotu 0,0000, tedy zamítáme nulovou hypotézu na asymptotické hladině významnosti 0,05. Upozornění: Pokud bychom chtěli pomocí systému STATISTICA provést přesnější test s využitím statistiky U, můžeme vypočítat Fisherovu Z- transformaci pomocí Pravděpodobnostního kalkulátoru – Korelace, kde zadáme realizaci výběrového koeficientu korelace, rozsah výběru. Zajímá nás Fisher z. Porovnání dvou korelačních koeficientů Nechť jsou dány dva nezávislé náhodné výběry o rozsazích n a n* z dvourozměrných normálních rozložení s korelačními koeficienty ρ a ρ* . Testujeme H0: ρ = ρ* proti H1: ρ ≠ ρ* . Označme R12 výběrový korelační koeficient 1. výběru a R12 * výběrový korelační koeficient 2. výběru. Položme 12 12 R1 R1 ln 2 1 Z − + = a * 12 * 12* R1 R1 ln 2 1 Z − + = . Platí-li H0, pak testová statistika 3n 1 3n 1 * * ZZ U −− + − = má asymptoticky rozložení N(0,1). Kritický obor pro test H0 proti oboustranné alternativě tedy je ( )∞∪−∞−= α−α− ,uu,W 2/12/1 . H0 zamítáme na asymptotické hladině významnosti α, když WU ∈ . Příklad: Lékařský výzkum se zabýval sledováním koncentrací látek A a B v moči pacientů trpících určitou ledvinovou chorobou. U 100 zdravých jedinců činil výběrový korelační koeficient mezi koncentracemi obou látek 0,65 a u 142 osob trpících zmíněnou chorobou byl 0,37. Na asymptotické hladině významnosti 0,05 testujte hypotézu, že korelační koeficienty v obou skupinách se neliší. Řešení: 3884,0 37,01 37,01 ln 2 1 Z,7753,0 65,01 65,01 ln 2 1 Z * = − + == − + = , 9242,2 3884,07753,0 U 3142 1 3100 1 = + − = −− , u0,975 = 1,96, ( )∞∪−∞−= ,96,196,1,W . Protože WU ∈ , H0 zamítáme na asymptotické hladině významnosti 0,05. Výpočet pomocí systému STATISTICA: Statistiky – Základní statistiky a tabulky – Testy rozdílů: r, %, průměry – OK – vybereme Rozdíl mezi dvěma korelačními koeficienty. Do políčka r1 napíšeme 0,65, do políčka N1 napíšeme 100, do políčka r2 napíšeme 0,37, do políčka N2 napíšeme 142 - Výpočet. Dostaneme p-hodnotu 0,0038, tedy zamítáme nulovou hypotézu na asymptotické hladině významnosti 0,05. Interval spolehlivosti pro korelační koeficient Jestliže dvourozměrný náhodný výběr rozsahu n pochází z dvourozměrného normálního rozložení, jehož korelační koeficient se příliš neliší od nuly (je splněna podmínka│ρ│ < 0,5) a rozsah výběru je dostatečně velký (n ≥ 100), lze odvodit, že 100(1-α)% interval spolehlivosti pro ρ má meze 3n R1 uR 2 12 2/112 − − ± α− . Nejsou-li uvedené podmínky splněny, pak nelze tento vzorec použít, protože rozložení výběrového korelačního koeficientu je příliš zešikmené. V takovém případě využijeme toho, že náhodná veličina 12 12 R1 R1 ln 2 1 Z − + = má i při malém rozsahu výběru přibližně normální rozložení se střední hodnotou ( ) ( )1n21 1 ln 2 1 ZE − ρ + ρ− ρ+ = (2. sčítanec lze při větším n zanedbat) a rozptylem ( ) 3n 1 ZD − = . Standardizací veličiny Z dostaneme veličinu )Z(D )Z(EZ U − = , která má asymptoticky rozložení N(0,1). Tudíž 100(1-α)% asymptotický interval spolehlivosti pro ρ− ρ+ 1 1 ln 2 1 bude mít meze 3n u Z 2/1 − ± α− . Interval spolehlivosti pro ρ pak dostaneme zpětnou transformací. Poznámka: Jelikož Z = arctgh R12, dostáváme R12 = tgh Z a meze intervalu spolehlivosti pro ρ můžeme psát ve tvaru       − ± α− 3n u Ztgh 2/1 , přičemž xx xx ee ee xtgh − − + − = . Příklad: Pracovník personálního oddělení určité firmy zkoumá, zda existuje vztah mezi počtem dní absence za rok (veličina Y) a věkem pracovníka (veličina X). Proto náhodně vybral údaje o 10 pracovnících. Č.prac. 1 2 3 4 5 6 7 8 9 10 X 27 61 37 23 46 58 29 36 64 40 Y 15 6 10 18 9 7 14 11 5 8 Za předpokladu, že uvedené údaje tvoří číselné realizace náhodného výběru rozsahu 10 z dvourozměrného normálního rozložení, vypočtěte výběrový korelační koeficient a na hladině významnosti 0,05 testujte hypotézu, že X a Y jsou nezávislé náhodné veličiny. Sestrojte 95% asymptotický interval spolehlivosti pro skutečný korelační koeficient ρ. Řešení: Předpoklad o dvourozměrné normalitě dat ověříme orientačně pomocí dvourozměrného tečkového diagramu. -20 0 20 40 60 80 100 X -10 -5 0 5 10 15 20 25 30 Y Vzhled diagramu svědčí o tom, že předpoklad je oprávněný. Testujeme H0: ρ = 0 proti H1: ρ ≠ 0. Vypočítáme R12 = -0,9325, tedy mezi věkem pracovníka a počtem dnů pracovní neschopnosti existuje silná nepřímá lineární závislost. Testová statistika: T = -7,3053, kvantil t0,975(8) = 2,306, kritický obor ( )∞∪−∞−= ,306,2306,2,W . Jelikož WT ∈ , zamítáme na hladině významnosti 0,05 hypotézu o nezávislosti veličin X a Y. Výpočet pomocí systému STATISTICA: Ve STATISTICE vypočteme meze 100(1-α)% asymptotického intervalu spolehlivosti pro koeficient korelace ρ tak, že otevřeme nový datový soubor se dvěma proměnnými (pojmenujeme je DM a HM) a jedním případem. Do Dlouhého jména proměnné DM zapíšeme příkaz = TanH(0,5*log((1-0,9325)/(1+0,9325))-VNormal(0,975;0;1)/sqrt(7)) a do Dlouhého jména proměnné HM zapíšeme příkaz = TanH(0,5*log((1-0,9325)/(1+0,9325))+VNormal(0,975;0;1)/sqrt(7)) 1 DM 2 HM 1 -0,98425 -0,73358 95% asymptotický interval spolehlivosti pro koeficient korelace ρ má tedy meze –0,98425 a -0,73358. (Protože nepokrývá hodnotu 0, zamítáme hypotézu o nezávislosti veličin X, Y na asymptotické hladině významnosti 0,05.) r12 = 0,82, rS = 0,82 r12 = 0,82, rS = 0,69 r12 = 0,82, rS = 0,99 r12 = 0,82, rS = 0,5 r12 = 0, rS = 0 r12 = -0,77, rS = -1 Ilustrace vlastností Pearsonova a Spearmanova koeficientu korelace r12 = 0, rS = 0 r12 = -0,77, rS = -1 3. obrázek ukazuje odolnost Spearmanova koeficientu vůči odlehlým hodnotám. 6. obrázek dokumentuje schopnost Spearmanova koeficientu měřit monotónní vztahy. Využití modulu „Analýza síly testu“ v systému STATISTICA Testujeme-li na hladině významnosti α nulovou hypotézu (v našem případě H0: ρ = 0) proti alternativní hypotéze (v našem případě H1: ρ ≠ 0), můžeme se dopustit jedné ze dvou chyb: chyba 1. druhu spočívá v tom, že H0 zamítneme, ač ve skutečnosti platí a chyba 2. druhu spočívá v tom, že H0 nezamítneme, ač ve skutečnosti neplatí. Pravděpodobnost chyby 1. druhu se značí α a nazývá se hladina významnosti testu. Pravděpodobnost chyby 2. druhu se značí β. Číslo 1 – β se nazývá síla testu a vyjadřuje pravděpodobnost, s jakou test vypoví, že H0 neplatí. Modul „Analýza síly testu“ nám umožní vyřešit tři úkoly: a) pro daný korelační koeficient ρ a danou hladinu významnosti α stanovit, jaký musí být rozsah výběru n, aby síla testu byla aspoň rovna danému číslu 1 – β b) pro dané ρ, α, n vypočítat sílu testu 1 – β c) pro daný výběrový koeficient korelace r a dané α určit meze 100(1- α)% intervalu spolehlivosti pro ρ. Ad a) Stanovení rozsahu výběru Předpokládáme, že náhodný výběr (X1, Y1), ..., (Xn, Yn) pochází z dvourozměrného normálního rozložení rozložení s koeficientem korelace ρ = 0,3. Jak velký musí být rozsah tohoto výběru, aby test H0: ρ = 0 proti H1: ρ ≠ 0 měl sílu 0,8, je-li hladina významnosti α = 0,05? Statistiky – Analýza síly testu – Výpočet velikosti vzorku – Jedna korelace, t-test – OK – Ró: 0,3, Alfa: 0,05, Požadovaná síla: 0,8 – OK – Vypočítat N. Zjistíme, že minimální velikost výběru je 84. Ad b) Výpočet síly testu Předpokládáme, že náhodný výběr (X1, Y1), ..., (X25, Y25) pochází z dvourozměrného normálního rozložení s koeficientem korelace ρ, který je neznámý. Výběrový koeficient korelace nabyl hodnoty -0,56. Na hladině významnosti α = 0,05 testujeme H0: ρ = 0 proti H1: ρ ≠ 0. Jaká je síla testu? Statistiky – Analýza síly testu – Výpočet síly testu - Jedna korelace, t-test – OK – Ró: -0,56, N: 25, Alfa: 0,05 – OK – Výpočetní algoritmus: zaškrtneme t-statistika – Vypočítat sílu. Zjistíme, že síla testu je 0,8582. Ad c) Nalezení intervalu spolehlivosti Předpokládáme, že náhodný výběr (X1, Y1), ..., (X25, Y25) pochází z dvourozměrného normálního rozložení s koeficientem korelace ρ, který je neznámý. Výběrový koeficient korelace nabyl hodnoty -0,56. Najděte 95% interval spolehlivosti pro ρ. Statistiky – Analýza síly testu – Odhad intervalu - Jedna korelace, t-test – OK – Pozorované R: -0,56, N: 25, Spolehlivost: 0,95 – Výpočetní algoritmus: zaškrtneme Fisherovo Z (původní) – Vypočítat. Zjistíme, že Dolní mez = -0,7821, Horní mez = -0,2117.