Cvičení 13: Jednoduchá korelační analýza Úkol 1.: Testování nezávislosti ordinálních veličin 12 různých softwarových firem nabízí speciální programové vybavení pro vedení účetnictví. Jednotlivé programy byly posouzeny odbornou komisí složenou z počítačových odborníků a komisí složenou z profesionálních účetních. Úkolem bylo doporučit vhodný program na základě stanovení pořadí jednotlivých programů. Výsledky posouzení: Produkt firmy číslo 1 2 3 4 5 6 7 8 9 10 11 12 Pořadí dle odborníků 6 7 1 8 4 2,5 9 12 10 2,5 5 11 Pořadí dle účetních 4 5 2 10 6 1 7 11 8 3 12 9 Vypočtěte Spearmanův koeficient pořadové korelace a na hladině významnosti 0,05 testujte hypotézu, že hodnocení obou komisí jsou nezávislá. Výpočet pomocí systému STATISTICA Otevřeme datový soubor vedeni_ucetnictvi.sta o dvou proměnných X (hodnocení 1. komise), Y (hodnocení 2. komise) a 12 případech. Statistiky – Neparametrické statistiky – Korelace – OK – vybereme Vytvořit detailní report Proměnné X, Y – OK – Spearmanův koef. R. Dostaneme tabulku Spearmanovy korelace (Tabulka1) ChD vynechány párově Označ. korelace jsou významné na hl. p <,05000 Dvojice proměnných Počet plat. Spearman R t(N-2) Úroveň p X & Y 12 0,714537 3,229806 0,009024 Spearmanův koeficient pořadové korelace nabývá hodnoty 0,7145, testová statistika se realizuje hodnotou 3,2298, odpovídající p-hodnota je 0,009024, tedy na asymptotické hladině významnosti 0,05 zamítáme hypotézu o pořadové nezávislosti hodnocení dvou komisí ve prospěch oboustranné alternativy. Upozornění: Systém STATISTICA používá při testování hypotézy o pořadové nezávislosti veličin X, Y asymptotickou variantu testu bez ohledu na rozsah náhodného výběru. Pokud rozsah výběru nepřesáhne 20, měli bychom systém STATISTICA použít jen k výpočtu rS a testování bychom měli provést pomocí tabelované kritické hodnoty. V našem případě pro n = 12 a α = 0,05 je kritická hodnota 0,5804. Vidíme, že nulovou hypotézu zamítáme na hladině významnosti 0,05, protože 0,7145 ≥ 0,5804. Úkol 2.: Testování nezávislosti intervalových a poměrových veličin Zjišťoval se obsah chromitých iontů v řece (veličina Y, v ppm) v závislosti na vzdálenosti od koželužny (veličina X, v km). Byly získány tyto výsledky: Číslo odběrného místa 1 2 3 4 5 6 7 xi 2,6 5,6 4,4 5,1 7,2 9,9 10,8 yi 91 77 72 56 44 56 47 Data jsou uložena v souboru chrom_v_rece.sta. Nakreslete dvourozměrný tečkový diagram, vypočtěte výběrový korelační koeficient a na hladině významnosti 0,05 testujte hypotézu o nezávislosti obou veličin. Výpočet pomocí systému STATISTICA Otevřeme datový soubor chrom_v_rece.sta. Obvyklým způsobem zobrazíme dvourozměrný tečkový diagram, s jehož pomocí posoudíme dvourozměrnou normalitu dat. Grafy – Bodové grafy – vypneme lineární proložení - Proměnné X, Y – OK – Detaily - Elipsa normální – OK. Ve vzniklém grafu upravíme měřítka na vodorovné a svislé ose: -10 -5 0 5 10 15 20 x 0 20 40 60 80 100 120 140 y Testování hypotézy o nezávislosti: První možnost – pomocí testové statistiky T: Statistiky – Základní statistiky/tabulky – Korelační matice – OK – 2 seznamy proměn. – X, Y – OK – na záložce Možnosti vybereme Zobrazit detailní tabulku výsledků – Výpočet. Korelace (chrom_v_rece.sta) Označ. korelace jsou významné na hlad. p < ,05000 (Celé případy vynechány u ChD) Prom. X & prom. Y Průměr Sm.Odch. r(X,Y) r2 t p N Konst. záv.: Y Směr. záv: Y Konst. záv.: X Směrnic záv.: X x y 6,51429 2,97009 63,28571 17,20188 -0,772569 0,596863 -2,72080 0,041735 7 92,43385 -4,47449 14,95612 -0,133392 Ve výstupní tabulce je mj. hodnotu výběrového korelačního koeficientu R12 (r=-0,7726, tzn. že mezi X a Y existuje silná nepřímá lineární závislost), hodnota testové statistiky (t=-2,7208) a p-hodnota pro test hypotézy o nezávislosti (p=0,0417), H0 tedy zamítáme na hladině významnosti 0,05. S rizikem omylu nejvýše 5 % jsme tedy prokázali, že mezi oběma veličinami existuje závislost. Druhá možnost – pomocí intervalu spolehlivosti pro ρ: Statistiky – Analýza síly testu – Odhad intervalu – Jedna korelace, t-test – OK – Pozorované R: -0,7726, N: 7, zaškrtneme Fisherovo Z (původ.) – Vypočítat. Odhad intervalu (chrom_v_rece.sta) Jedna korelace, t-test Hodnota Pozorovaný korel. koef. R Korelace dle nulové hypotézy (Ró0) Oboustranná p-hodnota Velikost vz. ve skup. (N) Interval spolehlivosti Meze spolehlivosti (Fisher. Z původní): Ró: Dolní mez Horní mez -0,7726 0,0000 1,9600 7,0000 0,9500 -0,9645 -0,0467 95% interval spolehlivosti pro ρ má tedy meze -0,9645 a -0,0467, nepokrývá hodnotu 0 a tudíž hypotézu o nezávislosti veličin X, Y zamítáme na hladině významnosti 0,05. Třetí možnost – pomocí pravděpodobnostního kalkulátoru: Pokud známe výběrový koeficient korelace a rozsah výběru, můžeme test nezávislosti veličin X, Y provést pomocí Pravděpodobnostního kalkulátoru. Statistiky – Pravděpodobnostní kalkulátor – Korelace – zadáme n a r, zaškrtneme Výpočet p z r – Výpočet. Úkol 3.: Porovnání dvou korelačních koeficientů V psychologickém výzkumu bylo vyšetřeno 426 hochů a 430 dívek. Ve skupině hochů činil výběrový koeficient korelace mezi verbální a performační složkou IQ 0,6033, ve skupině dívek činil 0,5833. Za předpokladu dvourozměrné normality dat testujte na hladině významnosti 0,05 hypotézu, že korelační koeficienty se neliší. Výpočet pomocí systému STATISTICA: Statistiky – Základní statistiky a tabulky – Testy rozdílů: r, %, průměry – OK – vybereme Rozdíl mezi dvěma korelačními koeficienty. Do políčka r1 napíšeme 0,6033, do políčka N1 napíšeme 426, do políčka r2 napíšeme 0,5833, do políčka N2 napíšeme 430 - Výpočet. Dostaneme p-hodnotu 0,6528, tedy nezamítáme nulovou hypotézu o shodě dvou koeficientů korelace na asymptotické hladině významnosti 0,05. Úkoly k samostatnému řešení: 1. Načtěte datový soubor IQ.sta. Za předpokladu dvourozměrné normality dat (orientačně ověřte pomocí dvourozměrného tečkového diagramu) testujte na hladině významnosti 0,1 hypotézu, že korelační koeficienty mezi verbální a performační složkou IQ jsou stejné u dětí z města a venkova. Výsledek: p = 0,0784, tedy s rizikem omylu nejvýše 10 % jsme prokázali, že korelační koeficienty se liší. 2. V náhodném výběru 10 dvoučlenných domácností byl zjišťován měsíční příjem (veličina X, v tisících Kč) a vydání za potraviny (veličina Y, v tisících Kč). xi 15 21 34 35 39 42 58 64 75 90 yi 3 4,5 6,5 6 7 8 9 8 9,5 10,5 Vypočtěte výběrový koeficient korelace. Na hladině významnosti 0,05 testujte hypotézu o nezávislosti veličin X, Y. Sestrojte 95% asymptotický interval spolehlivosti pro ρ. (Data jsou uložena v souboru prijem_vydani.sta). Výsledek: r12 = 0,9405, H0 zamítáme na hladině významnosti 0,05, s pravděpodobností aspoň 0,95 platí: 0,7623 < ρ < 0,9862 3. Bylo sledováno 10 žáků. Na základě psychologického vyšetření byli tito žáci seřazeni podle nervové lability (čím byl žák labilnější, tím dostal vyšší pořadí Ri). Kromě toho sledování žáci dostali pořadí Qi na základě svých výsledků v matematice (nejlepší žák v matematice dostal pořadí 1). Výsledky jsou uvedeny v tabulce: Pořadí Ri 1 2 3 4 5 6 7 8 9 10 Pořadí Qi 9 3 8 5 4 2 10 1 7 6 Vypočtěte Spearmanův koeficient pořadové korelace a na hladině významnosti 0,05 testujte hypotézu, že nervová labilita a výsledky v matematice jsou nezávislé. Výsledek: rS = -0,127, H0 nezamítáme na hladině významnosti 0,05.