Cvičení 9.: Mnohonásobná lineární regrese


Příklad: U 19 vzorků potravinářské pšenice byl zjišťován obsah zinku v zrnu (proměnná Y), v
kořenech (proměnná X[1]), v otrubách (X[2]) a ve stonku a listech (X[3]).


Y

   X[1]

       X[2]

           X[3]

175

   164

       198

           162

169

   160

       198

           159

175

   158

       211

           164

181

   162

       211

           162

539

   520

       567

           523

526

   502

       540

           491

344

   339

       355

           334

475

   460

       500

           446

820

   683

       813

           695

841

   731

       832

           714

828

   710

       846

           697

775

   716

       818

           709

622

   543

       635

           563

661

   577

       712

           580

579

   505

       596

           531

936

   790

       946

           814

903

   806

       946

           834

927

   793

       912

           824

889

   820

       919

           807


a) Normalitu proměnných Y, X[l], X[2], X[3] posuďte pomocí Lilieforsova varianty K-S testu s
hladinou významnosti 0,05.

b) Závislost mezi dvojicemi  proměnných (Y,X[1]), (Y,X[2]), (Y,X[3])  znázorněte dvourozměrnými
tečkovými diagramy.

c) Vypočtěte výběrovou korelační matici všech čtyř proměnných a  pro α = 0,05 otestujte významnost
jednotlivých korelačních koeficientů.

d) Vypočtěte výběrové parciální korelační koeficienty ,  , a porovnejte je  s výběrovými párovými
korelačními koeficienty , , . Na hladině významnosti a = 0,05 testujte hypotézy o nevýznamnosti
parciálních korelačních koeficientu , , .

e) V první fázi zpracování předpokládejte, že je vhodný regresní model Y = β[0]+  β[1]x[1] + β[
2]x[2] + β[3]x[3] + ε. Vypočtěte index determinace a interpretujte ho.  Proveďte celkový F-test.
Odhadněte  parametry regresního modelu. Proveďte dílčí  t-testy pro regresní  koeficienty. Zjistěte
odhad rozptylu. Vypočtěte parciální indexy determinace. (Hladinu významnosti volte α = 0,05.)

f) Posuďte pomocí beta koeficientů vliv jednotlivých nezávisle proměnných veličin na regresní
model.

g) Z regresního modelu odstraňte ty proměnné, jejichž regresní koeficienty se neprokázaly významné
pro  α = 0,05. Sestavte nový regresní model a proveďte v něm tytéž úkoly jako v bodě e).

h) Normalitu reziduí v tomto  novém regresním modelu posuďte  K-S testem na hladině významnosti α =
0,05.

i) V novém regresním modelu najděte  95% interval spolehlivosti  pro teoretickou regresní funkci a
95% predikční interval.

j) Proveďte regresi metodou STPEPVISE, a to jak Forward, tak Backward.


Řešení: Načteme datový soubor zinek.sta.

ad a) Výsledky Lilieforsova varianty K-S testu normality

proměnná

        testová statistika

                          p-hodnota

Y

        0,15792

                          > 0,2

X[1]

        0,15613

                          > 0,2

X[2]

        0,18177

                          < 0,1

X[3]

        0,16420

                          < 0,2

Na hladině významnosti 0,05 nelze ani v jednom případě zamítnout hypotézu o normalitě.


ad b)

Dvourozměrné tečkové diagramy dvojic (Y,X[1]), (Y,X[2]), (Y,X[3])  svědčí o existenci dosti silné
přímé lineární závislosti.


ad c) Výběrová korelační matice proměnných Y, X[1], X[2], X[3] spolu s odpovídajícími p-hodnotami:

Na hladině významnosti 0,05 zamítáme hypotézu o nevýznamnosti jednotlivých korelačních koeficientů.


ad d)

Výběrový koeficient parciální korelace

Výběrový koeficient korelace je 0,9947, zatímco  je -0,039.

Pokud eliminujeme vliv proměnných X[2], X[3], tak mezi proměnnými Y a X[1] existuje velmi slabá
nepřímá lineární závislost, která není na hladině 0,05 významná.

Výběrový koeficient parciální korelace

Výběrový koeficient korelace je 0,9981, zatímco  poklesl na 0,7515.

Pokud eliminujeme vliv proměnných X[1], X[3], tak mezi proměnnými Y a X[2] existuje silná  přímá
lineární závislost, která je na hladině 0,05 významná.


Výběrový koeficient parciální korelace

Výběrový koeficient korelace je 0,99589, zatímco  je pouze 0,223.

Pokud eliminujeme vliv proměnných X[1], X[2], tak mezi proměnnými Y a X[3] existuje slabá  přímá
lineární závislost, která není na hladině 0,05 významná.

Vidíme, že existují značné rozdíly mezi párovými a parciálními výběrovými korelačními koeficienty.
Lze tedy soudit na existenci multikolinearity. O tom svědčí ikoeficienty VIF:


ad e) Výsledky pro regresní model Y = β[0 ]+  β[1]x[1] + β[ 2]x[2] + β[3]x[3] + ε

Adjustovaný index  determinace je 0,9958, tedy zvolený regresní model s proměnnými X[1], X[2], X[3]
vysvětluje variabilitu proměnné Y z 99,58%. Testová statistika pro celkový F-test nabývá hodnoty
1422,2, odpovídající p-hodnota je velmi blízká 0, tedy model jako celek je významný na hladině
0,05.

Odhad rozptylu získáme z tabulky analýzy rozptylu:

s^2 = 327,4

Odhadnutá regresní funkce má tvar: = -28,7607 – 0,0439x[1] + 0,8079x[2] + 0,2802x[3].

Dílčí t-testy pro jednotlivé regresní koeficienty:

testová statistika pro test hypotézy H[0]:[ ]β[0] = 0 je -2,71205, p-hodnota je 0,016066, tedy H[0]
zamítáme na hladině významnosti 0,05;

testová statistika pro test hypotézy H[0]:[ ]β[1] = 0 je -0,15101, p-hodnota je 0,881983, tedy H[0]
nezamítáme na hladině významnosti 0,05;

testová statistika pro test hypotézy H[0]:[ ]β[2] = 0 je 4,41172, p-hodnota je 0,000505, tedy H[0]
zamítáme na hladině významnosti 0,05;

testová statistika pro test hypotézy H[0]:[ ]β[3] = 0 je 0,88601, p-hodnota je 0,389598, tedy H[0]
nezamítáme na hladině významnosti 0,05.

Výpočet parciálních indexů determinace:

 (Pokud do modelu Y = β[0 ]+ ε zařadíme veličina X[1], pak bude vysvětlovat variabilitu hodnot
veličiny Y z 98,94%.)

 (Pokud do modelu Y = β[0 ]+ β[ 1]x[1] + ε zařadíme veličinu X[2], pak bude vysvětlovat variabilitu
hodnot veličiny Y z 65,27%.)

 (Pokud do modelu Y = β[0 ]+ β[ 1]x[1] + β[ 2]x[2] + ε zařadíme veličinu X[3], pak bude vysvětlovat
variabilitu hodnot veličiny Y z 4,97%.)


ad f) Interpretace beta koeficientů:

beta1 = -0,037425, beta2 = 0,793836, beta3 = 0,242409. V absolutní hodnotě je největší beta2, tedy
obsah zinku v otrubách má největší vliv na obsah zinku v zrnu.


ad g) Protože dílčí t-testy prokázaly, že na hladině 0,05 nejsou proměnné X[1 ]a X[3] významné,
sestavíme nový regresní model Y = β[0 ]+ β[ 2]x[2] + ε.


Adjustovaný index  determinace je 0,9959, tedy zvolený regresní model s proměnnou X[2] vysvětluje
variabilitu proměnné Y z 99,59%. Testová statistika pro celkový F-test nabývá hodnoty 4405,5,
odpovídající p-hodnota je velmi blízká 0, tedy model jako celek je významný na hladině 0,05.

Vidíme, že = -30,2507 + 1,0157x[2].

Dílčí t-testy pro jednotlivé regresní koeficienty:

testová statistika pro test hypotézy H[0]:[ ]β[0] = 0 je -2,93378, p-hodnota je 0,009274, tedy H[0]
zamítáme na hladině významnosti 0,05;

testová statistika pro test hypotézy H[0]:[ ]β[2] = 0 je 66,37372, p-hodnota je 0,000000, tedy H[0]
zamítáme na hladině významnosti 0,05.


ad h) Ověření normality reziduí

Abychom mohli analyzovat rezidua, musíme je uložit. Ve výstupní tabulce zvolíme
Rezidua/předpoklady/předpovědi – Reziduální analýza – Uložit – Uložit rezidua& předpovědi - OK.

Testová statistika pro K-S test nabývá hodnoty 0,1163, odpovídající p-hodnota je větší než  0,20,
tedy hypotézu o normalitě reziduí nezamítáme na hladině významnosti 0,05.

Pro úplnost ještě posoudíme vzhled N-P plotu:

N-P plot svědčí o tom, že rozložení reziduí se příliš neliší od normálního rozložení.


ad i) Intervaly spolehlivosti pro regresní funkci a pro predikci získáme pomocí dvourozměrných
tečkových diagramů, kde v Detailech vybereme lineární proložení a zvolíme regresní pásy.

95% interval spolehlivosti pro regresní funkci

                                              95% interval spolehlivosti pro predikci


ad j) Nejprve aplikujeme metodu Forward:

Statistiky – Vícerozměrná regrese – Proměnné – Závisle proměnná Y, Nezávisle proměnné X1, X2, X3 –
OK – Detailní nastavení – zaškrtneme Další možnosti – OK – Metoda – zvolíme Kroková dopředná – na
záložce Metoda zvolíme Zobrazit výsledky Po každém kroku – OK (V kroku 0 nejsou v regresní rovnici
žádné proměnné.) Klikneme na Další – Výpo-čet:Výsledky regrese.


V prvním kroku byla vybrána proměnná X2. Opět klikneme na Další a dostaneme výsledky kroku 2, který
je již konečný:


Empirická regresní funkce má tvar = -28,9426 + 0,802x[2] + 0,2436x[3].

Model jako celek je významný na hladině 0,05, avšak nezávisle proměnná X[3] významná není. Přispívá
však k vysvětlení variability hodnot závisle proměnné veličiny Y. Adjustovaný index determinace je
0,9961. V modelu s nezávisle proměnnou X[2] byl 0,9959 a v modelu se všemi třemi nezávisle
proměnnými byl 0,9958.


Normalitu reziduí prozkoumáme pomocí N-P grafu a S-W testu:

Rezidua neporušují předpoklad normality.


Nyní provedeme metodu Backward:

Statistiky – Vícerozměrná regrese – Proměnné – Závisle proměnná Y, Nezávisle proměnné X1, X2, X3 –
OK – Detailní nastavení – zaškrtneme Další možnosti – OK – Metoda – zvolíme Kroková zpětná – na
záložce Metoda zvolíme Zobrazit výsledky Po každém kroku – OK – Výpočet:Výsledky regrese.


V prvním kroku byly zařazeny všechny proměnné.


Klikneme na Další – Výpočet: Výsledky regrese.


V tomto kroku byly vyloučena proměnná X1.


Opět klikneme na Další – Výpočet: Výsledky regrese a dostaneme konečnou tabulku:


Vidíme, že metoda STEPWISE, Backward poskytla stejné výsledky jako metoda ENTER.