Kapitola 8.: Jednoduchá korelační analýza Cíl kapitoly Po prostudování této kapitoly budete umět - provádět test pořadové nezávislosti dvou náhodných veličin ordinálního typu pomocí Spearmanova koeficientu pořadové korelace - testovat hypotézu o nezávislosti dvou náhodných veličin intervalového či poměrového typu, které se řídí dvourozměrným normálním rozložením Časová zátěž Na prostudování této kapitoly a splnění úkolů s ní spojených budete potřebovat asi 9 hodin studia. 8.1. Motivace Uvažme náhodné veličiny X, Y, které jsou aspoň ordinálního typu. Mezi těmito náhodnými veličinami může existovat různý vztah: - Deterministická (funkční) závislost: jedna náhodná veličina je spjata s druhou náhodnou veličinou funkční závislostí vyjádřenou předpisem Y = g(X). Např. X je poloměr náhodně vybrané sériově vyráběné kuličky do kuličkových ložisek, 3 X 3 4 Y = je objem této kuličky. Každé realizaci náhodné veličiny X (vysvětlující proměnná) je přiřazena právě jedna realizace náhodné veličiny Y (vysvětlovaná proměnná). - Stochastická závislost: jedna náhodná veličina ovlivňuje v různé míře druhou náhodnou veličinu. Např. X je věk pracovníka v letech, Y je počet dnů absence za rok. Každé realizaci náhodné veličiny X může být přiřazeno více realizací náhodné veličiny Y. Závislost může být jednostranná i oboustranná. - Stochastická nezávislost: náhodné veličiny se navzájem neovlivňují. Např. házíme-li naráz dvěma kostkami a označíme X počet ok padlých na jedné kostce a Y počet ok padlých na druhé kostce, pak náhodné veličiny X, Y jsou stochasticky nezávislé. Úkolem korelační analýzy je právě zkoumání stochastické závislosti náhodných veličin X, Y a měření těsnosti této závislosti. Přitom se požaduje, aby míra těsnosti stochastické závislosti nabývala hodnot z určitého přesně vymezeného intervalu, uvnitř tohoto intervalu monotónně rostla se zvyšováním stupně závislosti a nebyla závislá na velikosti hodnot či používaných jednotkách zkoumaných veličin. Tyto požadavky splňuje Spearmanův koeficient pořadové korelace a Pearsonův koeficient korelace. Při zkoumání závislosti je velmi důležité provést logický rozbor problému. Nemá smysl se zabývat hledáním závislosti v případech, když - z logických důvodů nemůže existovat, - závislost je způsobena formálními vztahy mezi veličinami, - soubor dvourozměrných dat je nehomogenní, - závislost je způsobena společnou příčinou. 8.2. Testování nezávislosti ordinálních veličin 8.2.1. Popis testu Nechť X,Y jsou dvě ordinální náhodné veličiny (tj. obsahová interpretace je možná jenom u relace rovnosti a relace uspořádání). Pořídíme dvourozměrný náhodný výběr (X1, Y1), ..., (Xn, Yn) z rozložení, jímž se řídí náhodný vektor (X, Y). Označíme Ri pořadí náhodné veličiny Xi a Qi pořadí náhodné veličiny Yi, i = 1, ..., n. Na hladině významnosti testujeme hypotézu H0: X, Y jsou pořadově nezávislé náhodné veličiny proti - oboustranné alternativě H1: X, Y jsou pořadově závislé náhodné veličiny - levostranné alternativě H1: mezi X a Y existuje nepřímá pořadová závislost - pravostranné alternativě H1: mezi X a Y existuje přímá pořadová závislost). Testová statistika se nazývá Spearmanův koeficient pořadové korelace a má tvar: ( ) ( ) = - - -= n 1i 2 ii2S QR 1nn 6 1r . Tento koeficient nabývá hodnot mezi ­1 a 1. Čím je bližší 1, tím je silnější přímá pořadová závislost mezi veličinami X a Y, čím je bližší ­1, tím je silnější nepřímá pořadová závislost mezi veličinami X a Y. Teoretická hodnota Spearmanova koeficientu se značí S. Nulovou hypotézu zamítáme na hladině významnosti ve prospěch - oboustranné alternativy, když rS rS,1-(n) - levostranné alternativy, když rS - rS,1-2(n) - pravostranné alternativy, když rS rS,1-2(n), kde rS,1-(n) je kritická hodnota, kterou pro = 0,05 nebo 0,01 a n 30 najdeme v tabulkách. Pozor ­ kritické hodnoty pro jednostranné alternativy se v běžně dostupných tabulkách nena- jdou. 8.2.2. Asymptotické varianty testu Pro n > 20 lze použít testovou statistiku 2 S S 0 r1 2nr T - = , která se v případě platnosti nulové hypotézy asymptoticky řídí rozložením t(n-2). Kritický obor pro oboustrannou alternativu: ( ) ( ) )( ----= -- ,2nt2nt,W 2/12/1 Kritický obor pro levostrannou alternativu: ( )( 2nt,W 1 ---= Kritický obor pro pravostrannou alternativu: ( ) )-= - ,2ntW 1 . Hypotézu o pořadové nezávislosti náhodných veličin X, Y zamítáme na asymptotické hladině významnosti , když t0 W. Upozornění: Systém STATISTICA používá tuto variantu testu pořadové nezávislosti bez ohledu na rozsah náhodného výběru. Pro n > 30 lze použít testovou statistiku 1nrs - . Platí-li H0, pak 1nrs - N(0, 1). Nulovou hypotézu tedy zamítáme na asymptotické hladině významnosti ve prospěch oboustranné alternativy, když ( )--- -- ,uu,1nr 2/12/1S , levostranné alternativy, když ( ---- 1S u,1nr , pravostranné alternativy, když )- - ,u1nr 1S 8.2.3. Příklad Dva lékaři hodnotili stav sedmi pacientů po témž chirurgickém zákroku. Postupovali tak, že nejvyšší pořadí dostal nejtěžší případ. Číslo pacienta 1 2 3 4 5 6 7 Hodnocení 1. lékaře 4 1 6 5 3 2 7 Hodnocení 2. lékaře 4 2 5 6 1 3 7 Vypočtěte Spearmanův koeficient rS a na hladině významnosti 0,05 testujte hypotézu, že hodnocení obou lékařů jsou pořadově nezávislá. Řešení: Na hladině významnosti 0,05 testujeme hypotézu H0: X, Y jsou pořadově nezávislé náhodné veličiny proti oboustranné alternativě H1: X, Y jsou pořadově závislé náhodné veličiny. V tomto příkladě přímo známe pořadí Ri (tj. hodnocení 1. lékaře) a pořadí Qi (tj. hodnocení 2. lékaře). Vypočteme ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( )[ ] 857,077321365562144 177 6 1r 2222222 2S =-+-+-+-+-+-+- -= . Kritická hodnota: rS,0,95(7) = 0,745. Protože 0,857 0,745, nulovou hypotézu zamítáme na hladině významnosti 0,05. S rizikem omylu nejvýše 0,05 jsme tedy prokázali, že hodnocení obou lékařů jsou pořadově závislá. Řešení pomocí sytému STATISTICA: Otevřeme nový datový soubor se dvěma proměnnými X, Y a sedmi případy. Do těchto proměnných zapíšeme zjištěná hodnocení. Statistika ­ Neparametrická statistika ­ Korelace ­ OK, Vytvořit Detailní report, Proměnné - 1. seznam proměnných X, 2. seznam proměnných Y ­ OK ­ Spearman R. Spearmanovy korelace (dva lekari.sta) ChD vynechány párově Označ. korelace jsou významné na hl. p <,05000 Dvojice proměnných Počet plat. Spearman R t(N-2) Úroveň p X & Y 7 0,857143 3,721042 0,013697 Spearmanův koeficient korelace nabyl hodnoty 0,857143, asymptotická testová statistika se realizovala číslem 3,721042, odpovídající p-hodnota je 0,013697, tedy na asymptotické hladině významnosti 0,05 zamítáme hypotézu o pořadové nezávislosti hodnocení obou lékařů. Pokud bychom chtěli provést přesný test, nikoliv asymptotický test, museli bychom použít statistické tabulky a vyhledat v nich kritickou hodnotu rS,0,95(7) ­ viz výše. Výpočet ještě doplníme dvourozměrným tečkovým diagramem. Grafy ­ Bodové grafy - vypneme Typ proložení ­ Proměnné ­ X, Y - OK, OK. Bodový graf (priklad832 2v*7c) 0 1 2 3 4 5 6 7 8 1. lékař 0 1 2 3 4 5 6 7 8 2.lékař Vidíme, že s rostoucím hodnocením 1. lékaře roste hodnocení 2. lékaře a naopak. Tedy mezi oběma proměnnými existuje určitý stupeň přímé pořadové závislosti. 8.3. Testování nezávislosti intervalových či poměrových veličin 8.3.1. Pearsonův koeficient korelace V teorii pravděpodobnosti byl zaveden Pearsonův koeficient korelace náhodných veličin X, Y (které jsou aspoň intervalového typu) vztahem ( ) ( ) ( ) ( ) ( ) ( ) jinak00,YDXDpro YDXD Y,XC Y,XR =>= . Připomeneme jeho vlastnosti: a) R(X,X) = 1 b) R(X,Y) = R(Y,X) c) R(a + bX, c + dY) = sgn(bd)R(X,Y) d) -1 R(X,Y) 1 a rovnosti je dosaženo tehdy a jen tehdy, když existují reálné konstanty a, b, b 0 tak, že P(Y = a + bX) = 1, přičemž R(X,Y) = 1 pro b > 0 a R(X,Y) = -1 pro b < 0. Z těchto vlastností plyne, že R(X,Y) je vhodnou mírou těsnosti lineárního vztahu náhodných veličin X, Y. Pomocí koeficientu korelace zavádíme nekorelovanost náhodných veličin X, Y. Je-li R(X, Y) = 0, pak řekneme, že náhodné veličiny jsou nekorelované. (Znamená to, že mezi X a Y neexistuje žádná lineární závislost. Jsou-li náhodné veličiny X,Y stochasticky nezávislé, pak jsou samozřejmě i nekorelované.) Je-li R(X, Y) > 0, pak řekneme, že náhodné veličiny jsou kladně korelované. (Znamená to, že s růstem hodnot veličiny X rostou hodnoty veličiny Y a s poklesem hodnot veličiny X klesají hodnoty veličiny Y.) Je-li R(X, Y) < 0, pak řekneme, že náhodné veličiny jsou záporně korelované. (Znamená to, že s růstem hodnot veličiny X klesají hodnoty veličiny Y a s poklesem hodnot veličiny X rostou hodnoty veličiny Y.) 8.3.2. Výběrový koeficient korelace R(X,Y) většinou nemůžeme počítat přímo, protože to vyžaduje znalost simultánního rozložení náhodného vektoru (X, Y). V praxi jsme zpravidla odkázáni na náhodný výběr rozsahu n z dvourozměrného rozložení daného distribuční funkcí (x,y). Z tohoto dvourozměrného náhodného výběru můžeme stanovit: výběrové průměry = = n 1i i1 X n 1 M , = = n 1i i2 Y n 1 M , výběrové rozptyly ( ) = - - = n 1i 2 1i 2 1 MX 1n 1 S , ( ) = - - = n 1i 2 2i 2 2 MY 1n 1 S , výběrovou kovarianci ( )( ) = -- - = n 1i 2i1i12 MYMX 1n 1 S a s jejich pomocí zavedeme výběrový koeficient korelace 21 12 12 SS S R = (pro S1S2 > 0). Vlastnosti a), b), c), d) koeficientu korelace se přenášejí i na výběrový koeficient korelace. 8.3.3. Koeficient korelace dvourozměrného normálního rozložení Nechť náhodný vektor (X, Y) má dvourozměrné normální rozložení s hustotou ( ) ( ) ( )( ) - + - - - - - - - = 2 2 2 2 2 1 1 2 1 1 2 yyx 2 x 12 1 2 21 e 12 1 y,x , přičemž 1 = E(X), 2 = E(Y), 1 2 = D(X), 2 2 = D(Y), = R(X,Y). Marginální hustoty jsou: ( ) ( ) 2 1 2 1 2 x 1 1 e 2 1 x - - = , ( ) ( ) 2 2 2 2 2 y 2 2 e 2 1 y - - = . Je-li = 0, pak pro ( ) ( ) ( ) ( )yxy,x:Ry,x 21 2 = , tedy náhodné veličiny X, Y jsou stochasticky nezávislé. Jinými slovy: stochastická nezávislost složek X, Y normálně rozloženého náhodného vektoru je ekvivalentní jejich nekorelovanosti. Je-li 0, jsou náhodné veličiny X, Y stochasticky závislé. Je-li > 0, říkáme, že jsou kladně korelované, je-li < 0, říkáme, že jsou záporně korelované. Upozornění: V dalším textu budeme předpokládat, že náhodný výběr (X1, Y1), ..., (Xn, Yn) pochází z dvourozměrného normálního rozložení s parametry 1, 2, 1 2 , 2 2 , . Předpoklad dvourozměrné normality lze orientačně ověřit pomocí dvourozměrného tečkového diagramu: tečky by měly zhruba rovnoměrně vyplnit vnitřek elipsovitého obrazce, neboť vrstevnice hustoty dvourozměrného normálního rozložení jsou elipsy. 8.3.4. Testování hypotézy o nezávislosti Na hladině významnosti testujeme hypotézu H0: X, Y jsou stochasticky nezávislé náhodné veličiny (tj. = 0) proti - oboustranné alternativě H1: X, Y nejsou stochasticky nezávislé náhodné veličiny (tj. 0) - levostranné alternativě H1: X, Y jsou záporně korelované náhodné veličiny (tj. < 0) - pravostranné alternativě H1: X, Y jsou kladně korelované náhodné veličiny (tj. > 0). Testová statistika má tvar: 2 12 12 0 R1 2nR T - = . Platí-li nulová hypotéza, pak T ~ t(n-2). Kritický obor pro test H0 proti - oboustranné alternativě: ( )( ( ) )----= -- ,2nt2nt,W 2/12/1 , - levostranné alternativě: ( )( 2nt,W 1 ---= - , - pravostranné alternativě: ( ) )-= - ,2ntW 1 . H0 zamítáme na hladině významnosti , když Wt0 . Není-li splněn předoklad dvourozměrné normality, použijeme Spearmanův koeficient pořadové korelace. 8.3.5. Příklad Máme k dispozici výsledky testů ze dvou předmětů zjištěné u osmi náhodně vybraných studentů určitého oboru. Číslo studenta 1 2 3 4 5 6 7 8 Počet bodů v 1. testu 80 50 36 58 42 60 56 68 Počet bodů ve 2. testu 65 60 35 39 48 44 48 61 Na hladině významnosti 0,05 testujte hypotézu, že výsledky obou testů nejsou kladně korelo- vané. Řešení: Nejprve se musíme přesvědčit, že uvedené výsledky lze považovat za realizace náhodného výběru z dvourozměrného normálního rozložení. Lze tak učinit orientačně pomocí dvourozměrného tečkového diagramu. Tečky by měly vytvořit elipsovitý obrazec. 0 20 40 60 80 100 120 X 0 20 40 60 80 100 Y Obrázek svědčí o tom, že předpoklad dvourozměrné normality je oprávněný a že mezi počty bodů z 1. a 2. testu bude existovat určitý stupeň přímé lineární závislosti. Testujeme H0: = 0 proti pravostranné alternativě H1: > 0. Výpočtem zjistíme: r12 = 0,6668, t0 = 2,1917. V tabulkách najdeme t0,95(6) = 1,9432. Kritický obor: )= ;9432,1W . Protože Wt0 , hypotézu o neexistenci kladné korelace výsledků z 1. a 2. testu zamítáme na hladině významnosti 0,05. Řešení pomocí sytému STATISTICA: Otevřeme nový datový soubor o dvou proměnných 1.TEST a 2.TEST a osmi případech. Zobrazíme dvourozměrný tečkový diagram s proloženou elipsou 95% konstantní hustoty pravděpodobnosti, s jehož pomocí posoudíme dvourozměrnou normalitu dat: Grafy ­ Bodové grafy ­ vypneme Typ proložení ­ Proměnné X 1.TEST, Y 2.TEST - OK . Na záložce Detaily vybereme Elipsa Normální ­ OK. Ve vzniklém dvourozměrném tečkovém diagramu změníme rozsah zobrazených hodnot na vodorovné a svislé ose, abychom viděli celou elipsu (viz obrázek výše). Formát ­ Vš. Možnosti ­ Osa:Měřítka ­ Osa X ­ automatický mód změníme na manuální s minimem 0 a maximem 120. Totéž pro osu Y, ale stačí maximum 100. Testování hypotézy o nezávislosti: Statistika ­ Základní statistiky /Tabulky - Korelační matice ­ OK ­ 1.seznam proměnných 1.TEST, 2.TEST, OK. Na záložce Možnosti zaškrtneme Zobrazit detailní tabulku výsledků ­ Souhrn. Korelace (priklad845) Označ. korelace jsou významné na hlad. p < ,05000 (Celé případy vynechány u ChD) Prom. X & prom. Y Průměr Sm.Odch. r(X,Y) r^2 t p N Konst. záv.: Y Směr. záv: Y Konst. záv.: X Směrnic záv.: X 1. test 1. test 1. test 2. test 2. test 1. test 2. test 2. test 56,25000 13,99745 56,25000 13,99745 1,000000 1,000000 8 0,00000 1,000000 0,00000 1,000000 56,25000 13,99745 50,00000 10,92834 0,666802 0,444625 2,191693 0,070909 8 20,71637 0,520598 13,54665 0,854067 50,00000 10,92834 56,25000 13,99745 0,666802 0,444625 2,191693 0,070909 8 13,54665 0,854067 20,71637 0,520598 50,00000 10,92834 50,00000 10,92834 1,000000 1,000000 8 0,00000 1,000000 0,00000 1,000000 Ve výstupní tabulce najdeme relizaci výběrového korelačního koeficientu (r12 = 0,666802, tzn. že mezi X a Y existuje nepříliš silná přímá lineární závislost), realizaci testové statistiky t0 = 2,191693 a p-hodnotu pro test hypotézy o nezávislosti (p = 0,070909). Tato p-hodnota je však vypočítána pro testování nulové hypotézy proti oboustranné alternativě, proto ji musíme dělit 2. Dostaneme p = 0,035455, H0 tedy zamítáme na hladině významnosti 0,05. S rizikem omylu nejvýše 5% jsme prokázali, že mezi výsledky 1. a 2. testu existuje přímá lineární závis- lost. Poznámka: Pokud známe výběrový koeficient korelace a rozsah výběru, můžeme test nezávislosti veličin X, Y provést pomocí Pravděpodobnostního kalkulátoru. Statistika - Pravděpodobnostní kalkulátor ­ Korelace ­ zadáme n a r, zaškrtneme Počítat p pomocí r ­ Výpočet. V našem případě navíc ještě odškrtneme Dvojité, protože proti nulové hypotéze stavíme jednostrannou alternativu. V okénku p se objeví hodnota 0,035455, tedy na hladině významnosti 0,05 zamítáme hypotézu, že výsledky obou testů jsou nekorelované ve prospěch pravostranné alternativy, která tvrdí, že mezi výsledky obou testů existuje přímá lineární závislost. 8.3.6. Příklad (Ilustrace postupu při nesplnění předpokladu dvourozměrné normality) Máme k dispozici realizace náhodného výběru rozsahu 12 z dvourozměrného rozložení: X 1 3 4 5 6 8 10 11 13 14 16 17 Y 13 15 18 16 23 31 39 50 45 43 37 15 Na hladině významnosti 0,05 testujte hypotézu, že náhodné veličiny X, Y jsou nezávislé proti oboustranné alternativě. Řešení: Nejprve ověříme předpoklady použití testu nezávislosti dvou náhodných veličin. Budeme tedy testovat hypotézu o normalitě náhodné veličiny X a náhodné veličiny Y pomocí Lilieforsovy varianty K - S testu a S ­ W testu: Testy normality (Tabulka1) Proměnná N max D Lilliefors p W p X Y 12 0,130669 p > .20 0,956714 0,736098 12 0,202049 p < ,20 0,885918 0,104405 V obou případech hypotézu o normalitě nezamítáme na hladině významnosti 0,05. Ověření dvourozměrné normality pomocí dvourozměrného tečkového diagramu: 0 2 4 6 8 10 12 14 16 18 X 10 15 20 25 30 35 40 45 50 55 Y Dvourozměrná normalita je silně porušena, tečky nevyplňují vnitřek elipsovitého obrazce. Přejdeme tedy k testování hypotézy o pořadové nezávislosti: Testujeme hypotézu H0: X, Y jsou pořadově nezávislé náhodné veličiny proti oboustranné alternativě H1: X, Y jsou pořadově závislé náhodné veličiny. Vypočítáme Spearmanův koeficient pořadové korelace. X 1 3 4 5 6 8 10 11 13 14 16 17 Y 13 15 18 16 23 31 39 50 45 43 37 15 Ri 1 2 3 4 5 6 7 8 9 10 11 12 Qi 1 2,5 5 4 6 7 9 12 11 10 8 2,5 ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) 5472,05,129 286 1 125,90904164110425,00 14312 6 1 5,2128111010119128 97766544535,2211 11212 6 1r 22222 2222222 2S =-=+++++++++++ -= = -+-+-+-+-+ +-+-+-+-+-+-+- - -= Stanovíme kritický obor: ( ) ( ) ( ) ( ) 1,5804,05804,0,11,12r12r,11,nrnr,1W 95,0,S95,0,S1,S1,S --=--=--= -- Testová statistika se nerealizuje v kritickém oboru, nulovou hypotézu nezamítáme na hladině významnosti 0,05. Pokud bychom neověřili předpoklad dvourozměrné normality, pak obvyklým způsobem vypočteme realizaci výběrového koeficientu korelace r12 = 0,5856 a realizaci testové statistiky t0 = 2,2843 pro test nezávislosti. Stanovíme kritický obor: ( )( ( ) ) ( )--=--= ,2281,22281,2,,10t10t,W 975,0975,0 . Protože Wt0 , zamítáme na hladině významnosti 0,05 hypotézu o nezávislosti náhodných veličin X a Y. Vidíme tedy, že při nerespektování předpokladů testu můžeme dojít k chybným závěrům. Shrnutí Máme-li dvě náhodné veličiny ordinálního typu, pak testujeme hypotézu o pořadové nezávislosti těchto dvou veličin pomocí Spearmanova koeficientu pořadové korelace, který slouží zároveň jako testová statistika i jako míra intenzity pořadové závislosti daných veličin. Pro menší rozsahy výběrů (orientačně n < 30) porovnáváme tento koeficient s tabelovanou kritickou hodnotou, pro větší rozsahy výběrů využijeme jeho asymptotické normality. Při testování hypotézy o nezávislosti dvou náhodných veličin intervalového či poměrového typu, které se řídí dvourozměrným normálním rozložením, využijeme skutečnosti, že v tomto případě je stochastická nezávislost ekvivalentní nekorelovanosti těchto dvou veličin. Testová statistika vznikne transformací výběrového koeficientu korelace a v případě platnosti nulové hypotézy se řídí Studentovým rozložením. Při zkoumání závislosti dvou náhodných veličin aspoň intervalového typu je vhodné vytvořit dvourozměrný tečkový diagram a s jeho pomocí posoudit intenzitu a směr závislosti, případně orientačně ověřit dvourozměrnou normalitu dat. Kontrolní otázky 1. K čemu slouží Spearmanův koeficient pořadové korelace? 2. Uveďte vlastnosti výběrového koeficientu korelace. 3. Jak se na vzhledu dvourozměrného tečkového diagramu projeví, jsou-li náhodné veličiny X, Y kladně korelovány? 4. Pro náhodný výběr z dvourozměrného normálního rozložení popište test hypotézy o nezávislosti veličin X, Y. Autokorekční test 1. Nechť (X1, Y1), ...., (X16, Y16) je náhodný výběr z dvourozměrného normálního rozložení. Výběrový koeficient korelace R12 nabyl hodnoty -0,87. Jestliže provedeme lineární transformaci U= 1 + 3X, V = -3 - Y, jakou hodnotu nabude výběrový koeficient korelace transformovaných hodnot (U1, V1), ...., (U16, V16)? a) ­0,61 b) 0,87 c) ­0,87 2. Pro 12 náhodně vybraných ojetých automobilů byl vypočten výběrový koeficient korelace mezi jejich stářím v měsících a počtem najetých kilometrů. Nabyl hodnoty 0,831. Předpokládáme, že data pocházejí z dvourozměrného normálního rozložení. Jaká je hodnota testové statistiky pro test nezávislosti obou veličin? a) 4,724 b) 0,831 c) 6,392 3. Pro dvourozměrný náhodný výběr rozsahu n = 10 z dvourozměrného normálního rozložení byl vypočten výběrový koeficient korelace. Nabyl hodnoty ­0,94. Co lze usoudit o vztahu náhodných veličin X a Y? a) S růstem hodnot jedné náhodné veličiny hodnoty druhé náhodné veličiny lineárně rostou. b) Veličiny X a Y jsou nezávislé. c) S růstem hodnot jedné náhodné veličiny hodnoty druhé náhodné veličiny lineárně klesají. 4. Nechť dvourozměrný náhodný výběr pochází z dvourozměrného rozložení, které je výrazně odlišné od normálního. Chceme-li testovat hypotézu, že náhodné veličiny X a Y, které jsou poměrového typu, jsou nezávislé, použijeme testovou statistiku, která je založena na a) Cramérově koeficientu b) Spearmanově koeficientu pořadové korelace c) výběrovém koeficientu korelace. 5. Na základě dvourozměrného náhodného výběru rozsahu 18 byl vypočten Spearmanův koeficient pořadové korelace 0,4819. Jak vypadá kritický obor pro test hypotézy o pořadové nekorelovanosti proti oboustranné alternativě, pokud hladinu významnosti volíme 0,05? a) ( )--= ,1199,21199,2,W b) ( )--= ,4716,04716,0,W c) ( )--= ,96,196,1,W Správné odpovědi: 1b) 2a) 3c) 4b) 5b) Příklady 1. Dvanáct různých softwarových firem nabízí programy pro vedení účetnictví. Programy byly posouzeny odbornou komisí a komisí složenou z profesionálních účetních. Výsledky v 1. a 2. komisi: (6,4), (7,5), (1,2), (8,10), (4,6), (2.5,1), (9,7), (12,11), (10,8), (2.5,3), (5,12), (11,9). Vypočtěte Spearmanův koeficient pořadové korelace a na hladině významnosti 0,05 testujte hypotézu o nezávislosti pořadí v obou komisích. Výsledek: Spearmanův koeficent pořadové korelace je 0,715, kritická hodnota pro n = 12 a = 0,05 je 0,576. H0 zamítáme na hladině významnosti 0,05 ve prospěch oboustranné alternativy. 2. V dílně pracuje 15 dělníků, u nichž byl zjištěn počet směn odpracovaných za měsíc (veličina X) a počet zhotovených výrobků (veličina Y). Orientačně ověřte dvourozměrnou normalitu dat, vypočtěte výběrový koeficient korelace mezi X a Y a na hladině 0,01 testujte hypotézu o nezávislosti veličin X a Y. X 20 21 18 17 20 18 19 21 20 14 16 19 21 15 15 Y 92 93 83 80 91 85 82 98 90 60 73 86 96 64 81 Výsledek: Vzhled dvourozměrného tečkového diagramu svědčí o tom, že předpoklad dvourozměrné normality je oprávněný. Výběrový koeficient korelace je 0,927, testová statistika se realizuje hodnotou 8,597, kritický obor je ( )--= ,012,3012,3,W . Hypotézu o nezávislosti veličin X a Y zamítáme na hladině významnosti 0,01. 3. V následující tabulce jsou uvedeny číselné realizace a absolutní četnosti náhodného výběru (X1, Y1), (X1, Y2), ..., (X62, Y62) z dvourozměrného rozložení: yx 1 3 5 7 9 11 13 15 0 0 0 0 1 2 1 25 0 0 0 5 4 2 0 35 0 0 5 8 2 0 0 45 0 5 6 4 0 0 0 55 3 5 3 0 0 0 0 65 4 2 0 0 0 0 0 Podle vzhledu dvourozměrného tečkového diagramu orientačně posuďte dvourozměrnou normalitu dat. Vypočtěte výběrový koeficient korelace a interpretujte ho. Na hladině významnosti 0,05 testujte hypotézu o nezávislosti veličin X a Y. Výsledek: Protože tečky v dvourozměrném tečkovém diagramu vytvářejí elipsovitý obrazec, lze připustit dvourozměrnou normalitu. Výběrový koeficient korelace nabývá hodnoty ­0,899, což znamená, že mezi veličinami X a Y existuje dosti silná nepřímá lineární závislost. Testová statistika se realizuje hodnotou -13,6613, odpovídající p-hodnota je velmi blízká 0, nulovou hypotézu zamítáme na hladině významnosti 0,05. 4. Pro náhodný výběr (Xi, Yi) , i = 1, ..., 27 z dvourozměrného normálního rozložení byl vypočten výběrový koeficient korelace 0,77. Na hladině významnosti 0,01 testujte hypotézu o nezávislosti veličin X, Y proti pravostranné alternativě. Výsledek: Testová statistika se realizuje hodnotou 6,034, kritický obor pro pravostrannou alternativu )= ,4851,2W . Protože testová statistika se realizuje v kritickém oboru, nulovou hypotézu zamítáme na hladině významnosti 0,01 ve prospěch pravostranné alternativy.