Téma č. 6.: Jednoduchá, mnohonásobná a parciální korelace Příklad: Výnosy pšenice (příklad je převzat ze skript Michálek Jaroslav, Osecký Pavel, Pešek Josef, Rod Jan, Vondráček Jiří: Biometrika, SNTL Praha 1982) Během 30 let od roku 1913 do roku 1942 byly na 20 vybraných farmách ve Švédsku v oblasti Kalmar sledovány následující čtyři náhodné veličiny: Y … průměrný výnos pšenice z podzimní setby (v kg/ha) X[1] … průměrná teplota vzduchu během předchozí zimy (říjen – březen) v oblasti Kalmar (ve °C) X[2] … průměrná teplota vzduchu během vegetačního období (duben – září) v oblasti Kalmar (ve °C) X[3] … celkové srážky během vegetačního období, počítané jako průměr ze tří různých meteorologických stanic (v mm) Budeme předpokládat, že náhodný vektor (Y, X[1], X[2], X[3])’ se řídí čtyřrozměrným normálním rozložením, tedy naše data jsou realizacemi náhodného výběru rozsahu 30 z tohoto normálního rozložení. Úkol 1.: Pomocí dvourozměrných tečkových diagramů znázorněte závislost mezi všemi dvojicemi náhodných veličin. Vypočtěte výběrové korelační koeficienty pro všechny dvojice náhodných veličin a na hladině významnosti 0,05 testujte hypotézy o nezávislosti. Řešení: Grafy – Maticové grafy – Proměnné – Vybrat vše – OK Statistiky – Základní statistiky/tabulky – Korelační matice – OK – 1 seznam proměnných – Proměnné 1-4 – OK – na záložce Možnosti zaškrtneme Zobrazit r, úrovně p, počty N a zaškrtneme Zobrazit dlouhá jména proměnných – Výpočet Vidíme, že korelační koeficient mezi: a) výnosem a zimní teplotou je 0,5962, p-hodnota je 0,001, tedy na hladině významnosti 0,05 zamítáme hypotézu o nezávislosti veličin Y a X[1]; b) výnosem a letní teplotou je 0,4188, p-hodnota je 0,021, tedy na hladině významnosti 0,05 zamítáme hypotézu o nezávislosti veličin Y a X[2]; c) výnosem a srážkami je 0,4542, p-hodnota je 0,012, tedy na hladině významnosti 0,05 zamítáme hypotézu o nezávislosti veličin Y a X[3]; d) zimní teplotou a letní teplotou je 0,6703, p-hodnota je 0,000, tedy na hladině významnosti 0,05 zamítáme hypotézu o nezávislosti veličin X[1] a X[2]; e) zimní teplotou a srážkami je 0,3205, p-hodnota je 0,084, tedy na hladině významnosti 0,05 nezamítáme hypotézu o nezávislosti veličin X[1] a X[3]; f) letní teplotou a srážkami je 0,137, p-hodnota je 0,471, tedy na hladině významnosti 0,05 nezamítáme hypotézu o nezávislosti veličin X[2] a X[3]. Úkol 2.: Vypočtěte všechny výběrové parciální korelační koeficienty mezi Y a ostatními proměnnými a na hladině významnosti 0,05 testujte hypotézy o jejich nevýznamnosti. Řešení: Postup ukážeme na výpočtu , tj. při zkoumání závislosti výnosu na zimních teplotách při vyloučení vlivu letních teplot a na výpočtu , tj. při zkoumání závislosti výnosu na letních teplotách při vyloučení vlivu zimních teplot. Statistiky – Základní statistiky/tabulky – Korelační matice – OK – na záložce Možnosti zaškrtneme Zobrazit r, úrovně p, počty N a zaškrtneme Zobrazit dlouhá jména proměnných, na záložce Detaily zvolíme Parciální korelace – 1. seznam proměnných Y, X1, druhý seznam proměnných X2 – OK Vidíme, že výběrový parciální korelační koeficient je 0,4682, p-hodnota je 0,01, tedy na hladině významnosti 0,05 zamítáme hypotézu o nevýznamnosti . Analogicky 1. seznam proměnných Y, X2, druhý seznam proměnných X1 – OK V tomto případě výběrový parciální korelační koeficient je 0,0322, p-hodnota je 0,868, tedy na hladině významnosti 0,05 nezamítáme hypotézu o nevýznamnosti . Interpretace: Výběrový korelační koeficient , což je podstatně více než . Mohlo by to znamenat, že vliv zimních teplot na výnosy pšenice je vyšší než vliv letních teplot. Pokud zkoumáme závislost Y na X[1] při vyloučení vlivu X[2], dostaneme výběrový parciální korelační koeficient 0,4682, což je poněkud nižší než 0,5962. Ovšem když zkoumáme závislost Y na X[2] při vyloučení vlivu X[1], dostaneme výběrový parciální korelační koeficient 0,0322, což je zcela nevýznamná korelace. Stejným způsobem vypočteme a prozkoumáme další parciální korelační koeficienty. Pro kontrolu: = 0,534, p = 0,033, = 0,4041, p = 0,03, = 0,346, p = 0,066, = 0,4412, p = 0,017, = 0,388, p = 0,041, = 0,0756, p = 0,702, = 0,3519, p = 0,066. Z těchto výsledků vyplývá, že na výnosy mají silný vliv zimní teploty a srážky, zatímco vliv letních teplot je způsoben silnou korelací mezi zimními a letními teplotami. Úkol 3.: Vypočtěte výběrový koeficient mnohonásobné korelace mezi výnosy a ostatními proměnnými a na hladině významnosti 0,05 testujte hypotézu o jeho nevýznamnosti. Řešení: Statistiky – Vícenásobná regrese – Proměnné – Závislá proměnná Y, seznam nezáv. proměnných X1, X2, X3 – OK – OK. Koeficient najdeme v záhlaví výstupní tabulky pod označením Vícenás. R = 0,6602. Hodnota testové statistiky pro test nevýznamnosti koeficientu mnohonásobné korelace je 6,6963, počet stupňů volnosti čitatele je 3, jmenovatele 26, odpovídající p-hodnota je 0,001691, tedy na hladině významnosti 0,05 zamítáme hypotézu, že výnosy pšenice nejsou závislé na zimních teplotách, letních teplotách a srážkách. Upozornění: Povšimněte si, že všechny výběrové párové korelační koeficienty veličiny Y s ostatními proměnnými jsou v absolutní hodnotě menší než výběrový koeficient mnohonásobné korelace: = 0,5962, = 0,4188, = 0,4542, zatímco = 0,6602. Příklad k samostatnému řešení U sedmi vybraných domácností byly zjištěny tyto údaje: Y – výdaje za potraviny a nápoje za jeden měsíc (v tisících Kč), X[1] – počet členů, X[2] – celkový čistý příjem (v tisících Kč). Y 4 3 4 1 6 4 5 X[1] 4 2 4 1 5 3 4 X[2] 20 18 22 13 25 22 23 a) Pomocí výběrového koeficientu mnohonásobné korelace posuďte na hladině významnosti 0,05, zda výdaje domácnosti závisí na počtu členů a celkovém čistém příjmu. Orientačně ověřte normalitu dat. b) Vypočtěte výběrové korelační koeficienty a na hladině významnosti 0,05 testujte hypotézu o nezávislosti každé dvojice proměnných. Dále vypočtěte parciální korelační koeficienty , interpretujte je a testujte jejich významnost pro α = 0,05. Návod: Vytvořte datový soubor o třech proměnných Y, X[1], X[2] a sedmi případech. Normalitu proměnných Y, X[1], X[2] posuďte např. N-P plotem a S-W testem. ad a) r[Y. X] = 0,98268275), testová statistika F nabývá hodnoty 56,25025, odpovídající p-hodnota je 0,001179, tedy na hladině významnosti 0,05 zamítáme hypotézu, že výdaje domácnosti nezávisí na počtu členů a příjmech. ad b) = 0,942837 (čím má domácnost více členů, tím jsou vyšší výdaje za potraviny a nápoje), p-hodnota = 0,001455, = 0,976274 (čím jsou vyšší příjmy domácnosti, tím jsou vyšší výdaje za potraviny a nápoje), p-hodnota = 02000164, = 0,921055 (čím více členů domácnost má, tím jsou vyšší příjmy), p-hodnota = 0,003222. Ve všech třech případech je na hladině významnosti 0,05 prokázána závislost odpovídajících dvojic proměnných. , tedy při eliminaci vlivu příjmu existuje mezi výdaji za potraviny a nápoje a počtem členů domácnosti středně silná přímá lineární závislost. Tato závislost však není prokazatelná na hladině významnosti 0,05, protože p-hodnota pro test hypotézy o nulovosti parciálního korelačního koeficientu je 0,293097. Výběrový parciální korelační koeficient je 0,831168, tedy při eliminaci vlivu počtu členů domácnosti existuje mezi výdaji za potraviny a nápoje a příjmy domácnosti dosti silná přímá lineární závislost. Tato závislost je prokazatelná na hladině významnosti 0,05, protože p-hodnota pro test hypotézy o nulovosti parciálního korelačního koeficientu je 0, 040350.