Cvičení 6.: Mnohonásobná a parciální korelace Příklad 1.: Výnosy pšenice (příklad je převzat ze skript Michálek Jaroslav, Osecký Pavel, Pešek Josef, Rod Jan, Vondráček Jiří: Biometrika, SNTL Praha 1982) Během 30 let od roku 1913 do roku 1942 byly na 20 vybraných farmách ve Švédsku v oblasti Kalmar sledovány následující čtyři náhodné veličiny: Y … průměrný výnos pšenice z podzimní setby (v kg/ha) X[1] … průměrná teplota vzduchu během předchozí zimy (říjen – březen) v oblasti Kalmar (ve °C) X[2] … průměrná teplota vzduchu během vegetačního období (duben – září) v oblasti Kalmar (ve °C) X[3] … celkové srážky během vegetačního období, počítané jako průměr ze tří různých meteorologických stanic (v mm) Data jsou uložena v souboru psenice.sta. Budeme předpokládat, že náhodný vektor (Y, X[1], X[2], X[3])’ se řídí čtyřrozměrným normálním rozložením, tedy naše data jsou realizacemi náhodného výběru rozsahu 30 z tohoto normálního rozložení. Úkol 1.: Pomocí dvourozměrných tečkových diagramů znázorněte závislost mezi všemi dvojicemi náhodných veličin. Vypočtěte výběrové korelační koeficienty pro všechny dvojice náhodných veličin a na hladině významnosti 0,05 testujte hypotézy o nezávislosti. Najděte 95% intervaly spolehlivosti pro všech šest korelačních koeficientů. Řešení: Grafy – Maticové grafy – Proměnné – Vybrat vše – OK Statistiky – Základní statistiky/tabulky – Korelační matice – OK – 1 seznam proměnných – Proměnné 1-4 – OK – na záložce Možnosti zaškrtneme Zobrazit r, úrovně p, počty N a zaškrtneme Zobrazit dlouhá jména proměnných – Výpočet Vidíme, že korelační koeficient mezi: a) výnosem a zimní teplotou je 0,5962, p-hodnota je 0,001, tedy na hladině významnosti 0,05 zamítáme hypotézu o nezávislosti veličin Y a X[1]; b) výnosem a letní teplotou je 0,4188, p-hodnota je 0,021, tedy na hladině významnosti 0,05 zamítáme hypotézu o nezávislosti veličin Y a X[2]; c) výnosem a srážkami je 0,4542, p-hodnota je 0,012, tedy na hladině významnosti 0,05 zamítáme hypotézu o nezávislosti veličin Y a X[3]; d) zimní teplotou a letní teplotou je 0,6703, p-hodnota je 0,000, tedy na hladině významnosti 0,05 zamítáme hypotézu o nezávislosti veličin X[1] a X[2]; e) zimní teplotou a srážkami je 0,3205, p-hodnota je 0,084, tedy na hladině významnosti 0,05 nezamítáme hypotézu o nezávislosti veličin X[1] a X[3]; f) letní teplotou a srážkami je 0,137, p-hodnota je 0,471, tedy na hladině významnosti 0,05 nezamítáme hypotézu o nezávislosti veličin X[2] a X[3]. Meze intervalů spolehlivosti pro koeficienty korelace získáme pomocí modulu Analýza síly testu. Např. koeficient korelace mezi výnosem a zimní teplotou se s pravděpodobností přibližně 0,95 nachází v intervalu (0,3; 0,79). Úkol 2.: Vypočtěte všechny výběrové parciální korelační koeficienty mezi Y a ostatními proměnnými a na hladině významnosti 0,05 testujte hypotézy o jejich nevýznamnosti. Řešení: Postup ukážeme na výpočtu , tj. při zkoumání závislosti výnosu na zimních teplotách při vyloučení vlivu letních teplot a na výpočtu , tj. při zkoumání závislosti výnosu na letních teplotách při vyloučení vlivu zimních teplot. Statistiky – Základní statistiky/tabulky – Korelační matice – OK – na záložce Možnosti zaškrtneme Zobrazit r, úrovně p, počty N a zaškrtneme Zobrazit dlouhá jména proměnných, na záložce Detaily zvolíme Parciální korelace – 1. seznam proměnných Y, X1, druhý seznam proměnných X2 – OK Vidíme, že výběrový parciální korelační koeficient je 0,4682, p-hodnota je 0,01, tedy na hladině významnosti 0,05 zamítáme hypotézu o nevýznamnosti . Analogicky 1. seznam proměnných Y, X2, druhý seznam proměnných X1 – OK V tomto případě výběrový parciální korelační koeficient je 0,0322, p-hodnota je 0,868, tedy na hladině významnosti 0,05 nezamítáme hypotézu o nevýznamnosti . Interpretace: Výběrový korelační koeficient , což je podstatně více než . Mohlo by to znamenat, že vliv zimních teplot na výnosy pšenice je vyšší než vliv letních teplot. Pokud zkoumáme závislost Y na X[1] při vyloučení vlivu X[2], dostaneme výběrový parciální korelační koeficient 0,4682, což je poněkud nižší než 0,5962. Ovšem když zkoumáme závislost Y na X[2] při vyloučení vlivu X[1], dostaneme výběrový parciální korelační koeficient 0,0322, což je zcela nevýznamná korelace. Stejným způsobem vypočteme a prozkoumáme další parciální korelační koeficienty. Pro kontrolu: = 0,534, p = 0,033, = 0,4041, p = 0,03, = 0,346, p = 0,066, = 0,4412, p = 0,017, = 0,388, p = 0,041, = 0,0756, p = 0,702, = 0,3519, p = 0,066. Z těchto výsledků vyplývá, že na výnosy mají silný vliv zimní teploty a srážky, zatímco vliv letních teplot je způsoben silnou korelací mezi zimními a letními teplotami. Úkol 3.: Vypočtěte výběrový koeficient mnohonásobné korelace mezi výnosy a ostatními proměnnými a na hladině významnosti 0,05 testujte hypotézu o jeho nevýznamnosti. Řešení: Statistiky – Vícenásobná regrese – Proměnné – Závislá proměnná Y, seznam nezáv. proměnných X1, X2, X3 – OK – OK. Koeficient najdeme v záhlaví výstupní tabulky pod označením Vícenás. R = 0,6602. Hodnota testové statistiky pro test nevýznamnosti koeficientu mnohonásobné korelace je 6,6963, počet stupňů volnosti čitatele je 3, jmenovatele 26, odpovídající p-hodnota je 0,001691, tedy na hladině významnosti 0,05 zamítáme hypotézu, že výnosy pšenice nejsou závislé na zimních teplotách, letních teplotách a srážkách. Upozornění: Povšimněte si, že všechny výběrové párové korelační koeficienty veličiny Y s ostatními proměnnými jsou v absolutní hodnotě menší než výběrový koeficient mnohonásobné korelace: = 0,5962, = 0,4188, = 0,4542, zatímco = 0,6602. Příklad 2.: U 19 vzorků potravinářské pšenice byl zjišťován obsah zinku v zrnu (proměnná Y), v kořenech (proměnná X[1]), v otrubách (X[2]) a ve stonku a listech (X[3]). Data jsou uložena v souboru zinek.sta. Y X[1] X[2] X[3] 175 164 198 162 169 160 198 159 175 158 211 164 181 162 211 162 539 520 567 523 526 502 540 491 344 339 355 334 475 460 500 446 820 683 813 695 841 731 832 714 828 710 846 697 775 716 818 709 622 543 635 563 661 577 712 580 579 505 596 531 936 790 946 814 903 806 946 834 927 793 912 824 889 820 919 807 a) Normalitu proměnných Y, X[l], X[2], X[3] posuďte pomocí Lileforsovým testem s hladinou významnosti 0,05. b) Závislost mezi dvojicemi proměnných (Y,X[1]), (Y,X[2]), (Y,X[3]) znázorněte dvourozměrnými tečkovými diagramy. c) Vypočtěte výběrovou korelační matici všech čtyř proměnných a pro α = 0,05 otestujte významnost jednotlivých korelačních koeficientů. d) Vypočtěte výběrové parciální korelační koeficienty , , a porovnejte je s výběrovými párovými korelačními koeficienty , , . Na hladině významnosti a = 0,05 testujte hypotézy o nevýznamnosti parciálních korelačních koeficientu , , . Řešení: Načteme datový soubor zinek.sta. ad a) Výsledky Lileforsova testu normality proměnná testová statistika p-hodnota Y 0,15792 > 0,2 X[1] 0,15613 > 0,2 X[2] 0,18177 < 0,1 X[3] 0,16420 < 0,2 Na hladině významnosti 0,05 nelze ani v jednom případě zamítnout hypotézu o normalitě. ad b) Dvourozměrné tečkové diagramy dvojic (Y,X[1]), (Y,X[2]), (Y,X[3]) svědčí o existenci dosti silné přímé lineární závislosti. ad c) Výběrová korelační matice proměnných Y, X[1], X[2], X[3] spolu s odpovídajícími p-hodnotami: Na hladině významnosti 0,05 zamítáme hypotézu o nevýznamnosti jednotlivých korelačních koeficientů. ad d) Výběrový koeficient parciální korelace Výběrový koeficient korelace je 0,9947, zatímco je -0,039. Pokud eliminujeme vliv proměnných X[2], X[3], tak mezi proměnnými Y a X[1] existuje velmi slabá nepřímá lineární závislost, která není na hladině 0,05 významná. Výběrový koeficient parciální korelace Výběrový koeficient korelace je 0,9981, zatímco poklesl na 0,7515. Pokud eliminujeme vliv proměnných X[1], X[3], tak mezi proměnnými Y a X[2] existuje silná přímá lineární závislost, která je na hladině 0,05 významná. Výběrový koeficient parciální korelace Výběrový koeficient korelace je 0,99589, zatímco je pouze 0,223. Pokud eliminujeme vliv proměnných X[1], X[2], tak mezi proměnnými Y a X[3] existuje slabá přímá lineární závislost, která není na hladině 0,05 významná. Vidíme, že existují značné rozdíly mezi párovými a parciálními výběrovými korelačními koeficienty.