Cvičení 6.: Mnohonásobná lineární regrese Příklad: U 19 vzorků potravinářské pšenice byl zjišťován obsah zinku v zrnu (proměnná Y), v kořenech (proměnná X[1]), v otrubách (X[2]) a ve stonku a listech (X[3]). Y X[1] X[2] X[3] 175 164 198 162 169 160 198 159 175 158 211 164 181 162 211 162 539 520 567 523 526 502 540 491 344 339 355 334 475 460 500 446 820 683 813 695 841 731 832 714 828 710 846 697 775 716 818 709 622 543 635 563 661 577 712 580 579 505 596 531 936 790 946 814 903 806 946 834 927 793 912 824 889 820 919 807 a) Normalitu proměnných Y, X[l], X[2], X[3] posuďte pomocí Lilieforsova varianty K-S testu s hladinou významnosti 0,05. b) Závislost mezi dvojicemi proměnných (Y,X[1]), (Y,X[2]), (Y,X[3]) znázorněte dvourozměrnými tečkovými diagramy. c) Vypočtěte výběrovou korelační matici všech čtyř proměnných a pro α = 0,05 otestujte významnost jednotlivých korelačních koeficientů. d) Vypočtěte výběrové parciální korelační koeficienty , , a porovnejte je s výběrovými párovými korelačními koeficienty , , . Na hladině významnosti a = 0,05 testujte hypotézy o nevýznamnosti parciálních korelačních koeficientu , , . e) V první fázi zpracování předpokládejte, že je vhodný regresní model Y = β[0]+ β[1]x[1] + β[ 2]x[2] + β[3]x[3] + ε. Vypočtěte index determinace a interpretujte ho. Proveďte celkový F-test. Odhadněte parametry regresního modelu. Proveďte dílčí t-testy pro regresní koeficienty. Zjistěte odhad rozptylu. Vypočtěte parciální indexy determinace. (Hladinu významnosti volte α = 0,05.) f) Posuďte pomocí beta koeficientů vliv jednotlivých nezávisle proměnných veličin na regresní model. g) Z regresního modelu odstraňte ty proměnné, jejichž regresní koeficienty se neprokázaly významné pro α = 0,05. Sestavte nový regresní model a proveďte v něm tytéž úkoly jako v bodě e). h) Normalitu reziduí v tomto novém regresním modelu posuďte K-S testem na hladině významnosti α = 0,05. i) V novém regresním modelu najděte 95% interval spolehlivosti pro teoretickou regresní funkci a 95% predikční interval. j) Proveďte regresi metodou STPEPVISE, a to jak Forward, tak Backward. Řešení: Načteme datový soubor zinek.sta. ad a) Výsledky Lilieforsova varianty K-S testu normality proměnná testová statistika p-hodnota Y 0,15792 > 0,2 X[1] 0,15613 > 0,2 X[2] 0,18177 < 0,1 X[3] 0,16420 < 0,2 Na hladině významnosti 0,05 nelze ani v jednom případě zamítnout hypotézu o normalitě. ad b) Dvourozměrné tečkové diagramy dvojic (Y,X[1]), (Y,X[2]), (Y,X[3]) svědčí o existenci dosti silné přímé lineární závislosti. ad c) Výběrová korelační matice proměnných Y, X[1], X[2], X[3] spolu s odpovídajícími p-hodnotami: Na hladině významnosti 0,05 zamítáme hypotézu o nevýznamnosti jednotlivých korelačních koeficientů. ad d) Výběrový koeficient parciální korelace Výběrový koeficient korelace je 0,9947, zatímco je -0,039. Pokud eliminujeme vliv proměnných X[2], X[3], tak mezi proměnnými Y a X[1] existuje velmi slabá nepřímá lineární závislost, která není na hladině 0,05 významná. Výběrový koeficient parciální korelace Výběrový koeficient korelace je 0,9981, zatímco poklesl na 0,7515. Pokud eliminujeme vliv proměnných X[1], X[3], tak mezi proměnnými Y a X[2] existuje silná přímá lineární závislost, která je na hladině 0,05 významná. Výběrový koeficient parciální korelace Výběrový koeficient korelace je 0,99589, zatímco je pouze 0,223. Pokud eliminujeme vliv proměnných X[1], X[2], tak mezi proměnnými Y a X[3] existuje slabá přímá lineární závislost, která není na hladině 0,05 významná. Vidíme, že existují značné rozdíly mezi párovými a parciálními výběrovými korelačními koeficienty. Lze tedy soudit na existenci multikolinearity. O tom svědčí ikoeficienty VIF: ad e) Výsledky pro regresní model Y = β[0 ]+ β[1]x[1] + β[ 2]x[2] + β[3]x[3] + ε Adjustovaný index determinace je 0,9958, tedy zvolený regresní model s proměnnými X[1], X[2], X[3] vysvětluje variabilitu proměnné Y z 99,58%. Testová statistika pro celkový F-test nabývá hodnoty 1422,2, odpovídající p-hodnota je velmi blízká 0, tedy model jako celek je významný na hladině 0,05. Odhad rozptylu získáme z tabulky analýzy rozptylu: s^2 = 327,4 Odhadnutá regresní funkce má tvar: = -28,7607 – 0,0439x[1] + 0,8079x[2] + 0,2802x[3]. Dílčí t-testy pro jednotlivé regresní koeficienty: testová statistika pro test hypotézy H[0]:[ ]β[0] = 0 je -2,71205, p-hodnota je 0,016066, tedy H[0] zamítáme na hladině významnosti 0,05; testová statistika pro test hypotézy H[0]:[ ]β[1] = 0 je -0,15101, p-hodnota je 0,881983, tedy H[0] nezamítáme na hladině významnosti 0,05; testová statistika pro test hypotézy H[0]:[ ]β[2] = 0 je 4,41172, p-hodnota je 0,000505, tedy H[0] zamítáme na hladině významnosti 0,05; testová statistika pro test hypotézy H[0]:[ ]β[3] = 0 je 0,88601, p-hodnota je 0,389598, tedy H[0] nezamítáme na hladině významnosti 0,05. Výpočet parciálních indexů determinace: (Pokud do modelu Y = β[0 ]+ ε zařadíme veličina X[1], pak bude vysvětlovat variabilitu hodnot veličiny Y z 98,94%.) (Pokud do modelu Y = β[0 ]+ β[ 1]x[1] + ε zařadíme veličinu X[2], pak bude vysvětlovat variabilitu hodnot veličiny Y z 65,27%.) (Pokud do modelu Y = β[0 ]+ β[ 1]x[1] + β[ 2]x[2] + ε zařadíme veličinu X[3], pak bude vysvětlovat variabilitu hodnot veličiny Y z 4,97%.) ad f) Interpretace beta koeficientů: beta1 = -0,037425, beta2 = 0,793836, beta3 = 0,242409. V absolutní hodnotě je největší beta2, tedy obsah zinku v otrubách má největší vliv na obsah zinku v zrnu. ad g) Protože dílčí t-testy prokázaly, že na hladině 0,05 nejsou proměnné X[1 ]a X[3] významné, sestavíme nový regresní model Y = β[0 ]+ β[ 2]x[2] + ε. Adjustovaný index determinace je 0,9959, tedy zvolený regresní model s proměnnou X[2] vysvětluje variabilitu proměnné Y z 99,59%. Testová statistika pro celkový F-test nabývá hodnoty 4405,5, odpovídající p-hodnota je velmi blízká 0, tedy model jako celek je významný na hladině 0,05. Vidíme, že = -30,2507 + 1,0157x[2]. Dílčí t-testy pro jednotlivé regresní koeficienty: testová statistika pro test hypotézy H[0]:[ ]β[0] = 0 je -2,93378, p-hodnota je 0,009274, tedy H[0] zamítáme na hladině významnosti 0,05; testová statistika pro test hypotézy H[0]:[ ]β[2] = 0 je 66,37372, p-hodnota je 0,000000, tedy H[0] zamítáme na hladině významnosti 0,05. ad h) Ověření normality reziduí Abychom mohli analyzovat rezidua, musíme je uložit. Ve výstupní tabulce zvolíme Rezidua/předpoklady/předpovědi – Reziduální analýza – Uložit – Uložit rezidua& předpovědi - OK. Testová statistika pro K-S test nabývá hodnoty 0,1163, odpovídající p-hodnota je větší než 0,20, tedy hypotézu o normalitě reziduí nezamítáme na hladině významnosti 0,05. Pro úplnost ještě posoudíme vzhled N-P plotu: N-P plot svědčí o tom, že rozložení reziduí se příliš neliší od normálního rozložení. ad i) Intervaly spolehlivosti pro regresní funkci a pro predikci získáme pomocí dvourozměrných tečkových diagramů, kde v Detailech vybereme lineární proložení a zvolíme regresní pásy. 95% interval spolehlivosti pro regresní funkci 95% interval spolehlivosti pro predikci ad j) Nejprve aplikujeme metodu Forward: Statistiky – Vícerozměrná regrese – Proměnné – Závisle proměnná Y, Nezávisle proměnné X1, X2, X3 – OK – Detailní nastavení – zaškrtneme Další možnosti – OK – Metoda – zvolíme Kroková dopředná – na záložce Metoda zvolíme Zobrazit výsledky Po každém kroku – OK (V kroku 0 nejsou v regresní rovnici žádné proměnné.) Klikneme na Další – Výpo-čet:Výsledky regrese. V prvním kroku byla vybrána proměnná X2. Opět klikneme na Další a dostaneme výsledky kroku 2, který je již konečný: Empirická regresní funkce má tvar = -28,9426 + 0,802x[2] + 0,2436x[4]. Model jako celek je významný na hladině 0,05, avšak nezávisle proměnná X[3]. Přispívá však k vysvětlení variability hodnot závisle proměnné veličiny Y. Adjustovaný index determinace je 0,9961. V modelu s nezávisle proměnnou X[2] byl 0,9959 a v modelu se všemi třemi nezávisle proměnnými byl 0,9958. Normalitu reziduí prozkoumáme pomocí N-P grafu a S-W testu: Rezidua neporušují předpoklad normality. Nyní provedeme metodu Backward: Statistiky – Vícerozměrná regrese – Proměnné – Závisle proměnná Y, Nezávisle proměnné X1, X2, X3 – OK – Detailní nastavení – zaškrtneme Další možnosti – OK – Metoda – zvolíme Kroková zpětná – na záložce Metoda zvolíme Zobrazit výsledky Po každém kroku – OK – Výpočet:Výsledky regrese. V prvním kroku byly zařazeny všechny proměnné. Klikneme na Další – Výpočet: Výsledky regrese. V tomto kroku byly vyloučena proměnná X1. Opět klikneme na Další – Výpočet: Výsledky regrese a dostaneme konečnou tabulku: Vidíme, že metoda STEPWISE, Backward poskytla stejné výsledky jako metoda ENTER.