Osnova přednášky Mnohonásobná lineární regrese
1. Popis modelu
2. Specifika modelu mnohonásobné lineární regrese
2.1. Kroky před provedením regresní analýzy
2.2. Sedm hlavních předpokladů modelu
2.3. Ověřování předpokladů modelu
2.4. Posouzení vlivu nezávisle proměnných veličin v modelu
3. Dvě hlavní metody při provádění mnohonásobné lineární regrese
3.1. Metoda ENTER
3.2. Metoda STEPWISE
3.3. Postup při budování modelu mnohonásobné lineární regrese
4. Příklad
1. Popis modelu mnohonásobné lineární regrese
Budeme zkoumat lineární závislost veličiny Y na p nezávisle proměnných veličinách (regresorech) X1, ..., Xp.
Omezíme se pouze na model tvaru
Yi = β0 + β1xil + ... + βpxip+ εi, i = 1, ..., n.
Interpretace parametrů:
β0 … teoretická hodnota závisle proměnné veličiny při nulových hodnotách všech nezávisle proměnných veličin,
βj … přírůstek teoretické hodnoty závisle proměnné veličiny odpovídající jednotkové změně j-té nezávisle proměnné veličiny
při konstantní úrovni ostatních nezávisle proměnných, j = l, ..., p.
Parametry β1, …, βp se nazývají parciální regresní koeficienty.
Geometricky tento model představuje regresní nadrovinu.
Ilustrace pro dva regresory:
Model Yi = β0 + β1Xil + ... + βpXip+ εi, i = 1, ..., n lze formálně ztotožnit s lineárním regresním
modelem z přednášky „Jednoduchá lineární regrese“:
Yi = β0 + β1 f1(xi) + ... + βp fp(xi) + εi, i = 1, ..., n,
kde položíme f1(xi) = xi1, ..., fp(xi) = xip, i = 1,..., n.
Dostáváme tedy maticový tvar Y = Xβ + ε, kde regresní matice










=
np1n
p111
xx1
xx1
K
KKKK
K
X , přičemž h(X) = p+1 < n a ε ~ Nn(0, σ2
I).
Všechny výsledky uvedené v přednášce „Jednoduchá lineární regrese“ zůstávají v platnosti.
Příklady vícenásobné regrese
Lékaře zajímá, jak krevní tak Y závisí na věku pacienta X1, na jeho BMI X2 a na
množství vypitého alkoholu X3.
Majitele realitní kanceláře zajímá, jak cena bytu Y závisí na velikosti bytu X1, na počtu
pokojů X2, vzdálenosti bytu od centra města X3 a existenci vlastního parkovacího místa
X4 (1 – ano, 0 – ne).
Pěstitele brambor zajímá, jak výnos Y jisté odrůdy brambor závisí na množství
dodaného hnojiva X1, na množství srážek X2 ve vegetačním období a na teplotě půdy
X3.
Ekonoma zajímá, jak výdaje domácnosti za potraviny a nápoje Y závisí na čistém
příjmu domácnosti X1 a na počtu členů domácnosti X2.
Příklad:
Při zkoumání závislosti hodinové výkonnosti dělníka (veličina Y – v kusech) na jeho věku (veličina X1 – v letech) a době
zapracovanosti (veličina X2 – v letech) byly u 10 náhodně vybraných dělníků zjištěny tyto údaje:
Y 67 65 75 66 77 84 69 60 70 66
X1 43 40 49 46 41 41 48 34 32 42
X2 6 8 14 14 8 12 16 1 5 7
Najděte regresní matici a vektor regresních parametrů.
Řešení:
































=
7421
5321
1341
16481
12411
8411
14461
14491
8401
6431
X 









β
β
β
=
2
1
0
β
2. Specifika modelu mnohonásobné lineární regrese
2.1. Kroky před prováděním mnohonásobné lineární regrese
a) Musíme prozkoumat, zda naše data splňují předpoklady pro regresní analýzu.
b) Pokud je nesplňují, posoudíme, jak vážné je porušení těchto předpokladů.
c) Je-li porušení předpokladů vážné, musíme s daty provést některé operace, abychom
porušení předpokladů odstranili (nebo aspoň zmírnili).
2.2. Sedm hlavních předpokladů regresní analýzy
1. Závisle proměnná Y musí být proměnná aspoň intervalového typu. (Pokud není, musíme použít logistickou
regresi.)
2. Nezávisle proměnné X1, ..., Xp jsou rovněž aspoň intervalového typu. Mohou to být i proměnné alternativní.
3. Nezávisle proměnné by neměly být mezi sebou příliš vysoce korelovány. Pokud v datech existuje
multikolinearita, výsledky regrese jsou nespolehlivé. Vysoká multikolinearita zvyšuje pravděpodobnost, že důležitá
nezávisle proměnná bude shledána statisticky nevýznamná a bude vyřazena z modelu.
4. V datech nesmějí být odlehlé či extrémní hodnoty, neboť na ty je regresní analýza citlivá. Odlehlé hodnoty
mohou vážně narušit kvalitu odhadů regresních parametrů.
5. Proměnné musejí být v lineárním vztahu. Vícenásobná lineární regrese je založena Pearsonově korelačním
koeficientu, takže neexistence linearity způsobuje, že i důležité vztahy mezi proměnnými, pokud nejsou lineární,
zůstanou neodhaleny.
6. Proměnné mají normální rozložení. Význam tohoto předpokladu ustupuje do pozadí, máme-li dostatečně velký
datový soubor, kde se již uplatňuje působení centrální limitní věty.
7. Proměnné vykazují homoskedasticitu, tedy homogenitu rozptylu. (Opakem homoskedasticity je
heteroskedasticita.)
Ukázka homoskedastických dat: Ukázka dat s rostoucí heteroskedasticitou:
Ukázka dat s klesající heteroskedasticitou: Ukázka dat s proměnlivou heteroskedasticitou:
2.3. Ověřování předpokladů modelu
Ověřování normality:
- jednorozměrná: použijeme např. N-P plot a S-W test či Lilieforsův test.
- vícerozměrná: sestrojíme graf závislosti reziduí na predikovaných hodnotách. Tečky by měly
být rovnoměrně rozptýleny po obou stranách vodorovné osy.
62 64 66 68 70 72 74 76
Predikované hodnoty
-10
-8
-6
-4
-2
0
2
4
6
8
10
12
Rezidua
Odhalení multikolinearity:
- Vysoké absolutní hodnoty výběrových korelačních koeficientů nezávisle proměnných (orientačně > 0,75).
- Velké rozdíly mezi párovými a parciálními korelačními koeficienty.
- Celkový F-test je významný, ale dílčí t-testy nikoliv.
Při použití statistického software lze informace o multikolinearitě získat pomocí koeficientu VIF (Variance
inflation factor). Má-li koeficient VIF hodnotu 1, pak příslušná nezávisle proměnná není korelovaná s ostatními
nezávisle proměnnými, jestliže 1 < VIF < 5, pak existuje mírná korelace, pro VIF > 5 vysoká korelace
a pro VIF > 10 extrémní multikolinearita.
Odstranění multikolinearity:
- Je-li multikolinearita způsobena silnou lineární závislostí dvou proměnných, vypustíme jednu z nich
z analýzy. Tím se nedopustíme žádné závažné chyby, neboť když máme dvě vysoce vzájemně korelované
proměnné, velmi často to znamená, že obě indikují podobný jev. Tím, že jednu z těchto proměnných z regresního
modelu vyřadíme, nijak jej neoslabíme.
- Je-li multikolinearita zapříčiněna vzájemnou korelovaností několika proměnných, nabízí se řešení zkombinovat
je do jedné nové proměnné. Tu vytvoříme např. s pomocí analýzy hlavních komponent.
Příklad: Při zkoumání závislosti hodinové výkonnosti dělníka (veličina Y – v kusech) na jeho věku (veličina
X1 – v letech) a době zapracovanosti (veličina X2 – v letech) byly u 10 náhodně vybraných dělníků zjištěny
tyto údaje:
Y 67 65 75 66 77 84 69 60 70 66
X1 43 40 49 46 41 41 48 34 32 42
X2 6 8 14 14 8 12 16 1 5 7
Posuďte pomocí koeficientu VIF, zda proměnné věk a doba zapracovanosti mohou způsobit multikolinearitu
v modelu ε+β+β+β= 22110
xxY .
Řešení:
Statistiky - Pokročilé lineární/nelineární modely – Obecné regresní modely – OK – Proměnné – Závislá Y,
Spojité nezávisle proměnné X1, X2 – OK – Matice – Parciální korelace.
Efekt
Toler. Rozptyl
Infl fak
R^2 Y
Beta v
Y
Parciál.
Y
Semipar.
Y
t
Y
p
"X1"
"X2"
0,282545 3,539258 0,717455 -0,550937 -0,328630 -0,292850 -0,920604 0,387883
0,282545 3,539258 0,717455 0,920415 0,502564 0,489246 1,537994 0,167937
Koeficient VIF je 3,54, tedy mezi věkem a dobou zapracovanosti existuje jen mírná korelace.
Odhalení nelinearity vztahů:
Pomocí tečkového diagramu prozkoumáme závislost reziduí na hodnotách závisle proměnné veličiny Y. Pokud tečky
vytvoří nelineární obrazec, pak buď jedna z nezávisle proměnných nebo kombinace nezávisle proměnných mají
nelineární vztah se závisle proměnnou veličinou Y. Tento graf nám také pomůže odhalit případnou heteroskedasticitu
v datech.
Odstranění nelinearity vztahů:
Doporučuje se ty proměnné, u nichž jsme detekovali nelinearitu, transformovat pomocí logaritmické nebo
odmocninové transformace. Pokud tento postup nepomůže, musíme použít nelineární regresi.
Odhalení odlehlých hodnot:
Použijeme krabicové grafy nebo pravidlo 3 sigma. Odlehlé hodnoty mají velký vliv na kvalitu odhadu regresních
parametrů.
Způsoby řešení problému odlehlých hodnot:
Ověříme, zda při zadávání hodnot dané proměnné nedošlo k překlepu;
proměnnou transformujeme;
upravíme hodnotu odlehlého případu;
odstraníme případy s odlehlou hodnotou;
proměnnou vymažeme.
2.4. Posouzení vlivu jednotlivých nezávisle proměnných v modelu
Chceme-li porovnávat vliv, jaký mají proměnné x1, ..., xp v modelu Y = Xβ + ε, můžeme spočítat
tzv. standardizované regresní parametry, kterým se také říká B-koeficienty (nebo také beta koeficienty).
Zavedeme proto standardizované veličiny
j
j
x
xij
ij
Y
Yi
i
s
mx
v,
s
mY
Z
−
=
−
= , j = 1, ..., p, i = 1, ..., n
a vytvoříme regresní model s těmito standardizovanými proměnnými. Odhady regresních parametrů
v tomto novém modelu jsou B-koeficienty, které pak vyjadřují intenzitu vlivu jednotlivých
nezávisle proměnných veličin na veličinu Y.
V sytému STATISTICA jsou B-koeficienty značeny b*.
Graficky lze absolutní hodnoty standardizovaných regresních parametrů (nebo absolutní hodnoty
testových statistik dílčích t-testů) znázornit pomocí Paretových grafů.
Statistiky - Pokročilé lineární/nelineární modely – Obecné regresní modely – OK – Proměnné –
Závislá Y, Spojité nezávisle proměnné X1, X2 – OK – Paretův graf (pokud ponecháme
zaškrtnuto t-hodn., dostaneme graf pro absolutní hodnoty testových statistik, pokud tuto volbu
vypneme, získáme graf pro absolutní hodnoty standardizovaných regresních parametrů).
Paretův graf t-hodnot koeficienů; sv=7
Proměnná: Y: vykon delnika
Sigma-omezená parametrizace
,9206035
1,537994
p=,05
t-hodnota (koeficienty; absolutní hodnota)
"X1"
"X2"
,9206035
1,537994
Paretův graf standardizovaných koeficientů
Proměnná: Y: vykon delnika
Sigma-omezená parametrizace
,5509366
,9204152
0,0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1,0
Standardizované koeficienty (absolutní hodnota)
"X1"
"X2"
,5509366
Příklad: Při zkoumání závislosti hodinové výkonnosti dělníka (veličina Y – v kusech) na jeho věku (veličina X1 – v letech)
a době zapracovanosti (veličina X2 – v letech) byly u 10 náhodně vybraných dělníků zjištěny tyto údaje:
Y 67 65 75 66 77 84 69 60 70 66
X1 43 40 49 46 41 41 48 34 32 42
X2 6 8 14 14 8 12 16 1 5 7
Posuďte vliv věku a doby zapracovanosti na výkon dělníka pomocí standardizovaných regresních parametrů.
Řešení:
Statistiky – Vícenásobná regrese – Proměnné – Závislá proměnná Y, seznam nezáv. proměnných X1, X2 – OK – OK.
Výsledky regrese se závislou proměnnou : Y (vykony delniku.sta)
R= ,54005243 R2= ,29165662 Upravené R2= ,08927280
F(2,7)=1,4411 p<,29913 Směrod. chyba odhadu : 6,6491
N=10
b* Sm.chyba
z b*
b Sm.chyba
z b
t(7) p-hodn.
Abs.člen
X1
X2
86,74217 25,32397 3,425299 0,011056
-0,550937 0,598452 -0,70031 0,76071 -0,920604 0,387883
0,920415 0,598452 1,35062 0,87817 1,537994 0,167937
Standardizované regresní parametry jsou uvedeny ve sloupci b*
. Pro věk má tento parametr hodnotu -0,5509 a pro dobu zapracovanosti
0,9204. V absolutní hodnotě je vyšší parametr pro dobu zapracovanosti, tedy tato proměnná má vyšší vliv na
výkon než věk.
3. Dvě hlavní metody při provádění mnohonásobné lineární regrese
3.1. Metoda ENTER
Tato metoda je standardní metoda, do modelu vstupují všechny nezávisle proměnné najednou.
Metodu ENTER použijeme v případě,
- kdy chceme popsat, jak velký podíl rozptylu závisle proměnné veličiny Y je vysvětlen nezávisle
proměnnými veličinami X1, …, Xp (zajímá nás index determinace),
- kdy chceme zjistit, jak velký vliv má každá z nezávisle proměnných na proměnnou závislou při kontrole
vlivu působení ostatních proměnných (interpretujeme nestandardizované odhady regresních parametrů),
- kdy nás zajímá, jaká je relativní důležitost každé z nezávisle proměnných (posuzujeme standardizované
odhady regresních parametrů).
Při regresi založené na metodě ENTER by mělo na každou proměnnou připadat minimálně dvacet případů
(poměr tedy 1:20). Budou-li v našem modelu např. čtyři proměnné, datový soubor by měl mít minimálně 80
případů
Nejnižší možný poměr proměnná/počet případů je 1:5. V tom případě ale platí silný požadavek na normalitu
– rozložení reziduí by mělo být normální.
3.2. Metoda STEPWISE
Metoda STEPWISE (postupná regrese) je metoda nalezení „nejlepšího“ modelu (co nejmenší počet
nezávisle proměnných veličin, co nejkvalitněší predikce).
Uživatel nekontroluje pořadí proměnných, jak postupně vstupují do modelu, to provádí samotný program,
který pracuje podle jistého algoritmu.
Používá se ve dvou variantách – dopředná (forward) a zpětná (backward).
Při metodě forward se prediktory postupně přidávají, při metodě backward se nejdříve zařadí všechny
prediktory a pak se postupně odebírají.
Pořadí vkládání nezávisle proměnných je důležité, neboť může vést k různým odhadům jejich důležitosti
v modelu. Proto je při mnohonásobné regresi vždy nutné si dobře rozmyslet, jakou metodu vkládání
proměnných zvolíme.
Při regresi založené na metodě STEPWISE by mělo na každou proměnnou připadat minimálně čtyřicet
případů (poměr tedy 1:40). Budou-li v našem modelu např. čtyři proměnné, datový soubor by měl mít
minimálně 160 případů.
Princip postupné regrese spočívá v tom, že regresní model je budován krok po kroku tak, že v každém kroku
zkoumáme všechny prediktory a zjišťujeme, který z nich nejlépe vystihuje variabilitu závisle proměnné
veličiny.
Zařazování prediktoru do modelu či jeho vylučování se děje pomocí sekvenčních F-testů.
Sekvenční F-test je založen na statistice F, která je podílem přírůstku regresního součtu čtverců při zařazení
daného prediktoru do modelu a reziduálního součtu čtverců.
Jestliže je tato statistika větší než hodnota zvaná „F to enter“ (česky „F na zahrnutí“, ve STATISTICE
implicitně 1 pro dopřednou metodu, 11 pro zpětnou), je prediktor zařazen.
Je-li statistika F menší než hodnota zvaná „F to remove“ (česky „F na vyjmutí“, ve STATISTICE implicitně
0 pro dopřednou metodu, 10 pro zpětnou), je již dříve zařazený prediktor z modelu vyloučen.
Po vybrání proměnných do modelu jsou odhadnuty parametry lineární regresní funkce a kvalita regrese je
posouzena indexem determinace.
Do modelu se postupně přidávají další proměnné, pokud se zvyšuje podíl vysvětlené variability hodnot
veličiny Y.
3.3. Postup při budování modelu mnohonásobné lineární regrese
Metoda ENTER
1. Ověříme předpoklady modelu: normalitu, homoskedasticitu, prozkoumáme existenci případné multikolinearity,
prověříme linearitu vztahů, detekujeme případná vybočující pozorování.
2. V modelu Yi = β0 + β1xil + ... + βpxip + εi, i = l, ..., n získáme bodové a intervalové odhady regresních parametrů
β0, βl, ..., βp, index determinace, odhad rozptylu. Provedeme dílčí t-testy a celkový F-test. Vliv jednotlivých
proměnných posoudíme pomocí B-koeficientů.
3. Z modelu vyloučíme ty nezávisle proměnné, pro něž byly dílčí t-testy nevýznamné a odhadneme parametry
výsledného modelu.
4. Provedeme reziduální analýzu.
Metoda STEPWISE
1. Ověření předpokladů modelu.
2. Zvolíme dopřednou nebo zpětnou metodu Stepwise, nastavíme hladinu významnosti, hodnoty F na zahrnutí
a F na vyjmutí (nebo ponecháme implicitně nastavené hodnoty 0,05, 1, 0.
3. Pro výsledný model provedeme reziduální analýzu.
4. Příklad:
Šest studentů gymnázia absolvovalo čtyři testy, které měří následující veličiny: X1 - přírodovědné vědomosti, X2 – literární
vědomosti, X3 – schopnost koncentrace, X4 – logické myšlení. Testy se hodnotí na škále od 1 do 10 (1 = špatný výsledek, 10
= výborný výsledek).
student X1 X2 X3 X4
1 7 9 10 8
2 9 8 8 10
3 4 3 1 2
4 2 3 2 2
5 3 1 2 4
6 1 1 1 4
Zajímá nás, kolik bodů můžeme očekávat v testu koncentračních schopností studenta, jestliže známe výsledky testů pro literární
schopnosti, přírodovědné schopnosti a logické myšlení.
Řešení pomocí systému STATISTICA:
V tomto problému je proměnná X3 závislá (označíme ji Y) a ostatní proměnné jsou nezávislé.
Sestavíme regresní model Yi = β0 + β1xil + β2xi2 + β4xi4 + εi, i = 1, ..., 6.
Nejprve sestrojíme dvourozměrné tečkové diagramy vyjadřující závislost Y na X1, X2 a X4.
Bodový graf z Y proti X1
Tabulka1 4v*6c
0 1 2 3 4 5 6 7 8 9 10
X1
0
2
4
6
8
10
12
Y
Bodový graf z Y proti X2
Tabulka1 4v*6c
0 1 2 3 4 5 6 7 8 9 10
X2
0
2
4
6
8
10
12
Y
Bodový graf z Y proti X4
Tabulka1 4v*6c
1 2 3 4 5 6 7 8 9 10 11
X4
0
2
4
6
8
10
12
Y
Dále spočteme výběrové korelační koeficienty 1X,Yr , 2X,Yr , 4X,Yr a výběrové parciální korelační koeficienty 21 X.X,Yr , 41 X.X,Yr ,
12 X.X,Yr , 42 X.X,Yr , 14 X.X,Yr , 24 X.X,Yr .
Korelace (ctyri testy.sta)
Označ. korelace jsou významné na hlad. p < ,05000
N=6 (Celé případy vynechány u ChD)
Proměnná X1 X2 X4
Y 0,87 0,96 0,89
Vidíme, že korelace dvojic (Y, X1), (Y, X2), (Y, X4) jsou vysoké.
Parciální korelace (ctyri_testy.sta)
S vyloučením vlivu:X2
Označ. korelace jsou významné na hlad. p < ,05000
N=6 (Celé případy vynechány u ChD)
Proměnná Y X1
Y
X1
1,000000 0,027289
0,027289 1,000000
Parciální korelace (ctyri_testy.sta)
S vyloučením vlivu:X2 a X4
Označ. korelace jsou významné na hlad. p < ,05000
N=6 (Celé případy vynechány u ChD)
Proměnná X1 Y
X1
Y
1,000000 -0,497870
-0,497870 1,000000
Parciální korelace dvojice (Y, X1) při vyloučení vlivu veličiny X2 je pouze 0,0273 a při vyloučení vlivu veličiny X4 je dokonce
-0,4979, tedy mnohem slabší než párová korelace, která činila 0,87.
Parciální korelace (ctyri_testy.sta)
S vyloučením vlivu:X1
Označ. korelace jsou významné na hlad. p < ,05000
N=6 (Celé případy vynechány u ChD)
Proměnná X2 Y
X2
Y
1,000000 0,810849
0,810849 1,000000
Parciální korelace (ctyri_testy.sta)
S vyloučením vlivu:X1 a X4
Označ. korelace jsou významné na hlad. p < ,05000
N=6 (Celé případy vynechány u ChD)
Proměnná X2 Y
X2
Y
1,000000 0,887680
0,887680 1,000000
Parciální korelace dvojice (Y, X2) při vyloučení vlivu veličiny X1 resp. X4 je stále silná, jen o něco menší než párová korelace
(ta byla 0,96).
Parciální korelace (ctyri_testy.sta)
S vyloučením vlivu:X1
Označ. korelace jsou významné na hlad. p < ,05000
N=6 (Celé případy vynechány u ChD)
Proměnná Y X4
Y
X4
1,000000 0,558630
0,558630 1,000000
Parciální korelace (ctyri_testy.sta)
S vyloučením vlivu:X1 a X2
Označ. korelace jsou významné na hlad. p < ,05000
N=6 (Celé případy vynechány u ChD)
Proměnná Y X4
Y
X4
1,000000 0,757737
0,757737 1,000000
Parciální korelace dvojice (Y, X4) při vyloučení vlivu veličiny X1 resp. X2 je o dost menší než párová korelace (ta byla
0,89), ale pokles není tak výrazný jako u dvojice (Y, X1) při vyloučení vlivu veličiny X2 resp. X4.
Z těchto analýz vyplývá, že největší roli v modelu lineární regresní závislosti Y na X1, X2 a X4 bude hrát proměnná X2, podstatně
menší X4 a role X1 bude zřejmě jen nepatrná.
Metodou nejmenších čtverců získáme odhady regresních parametrů.
Výsledky regrese se závislou proměnnou : y (ctyri_testy.sta)
R= ,98240301 R2= ,96511567 Upravené R2= ,91278918
F(3,2)=18,444 p<,05187 Směrod. chyba odhadu : 1,1664
N=6
b* Sm.chyba
z b*
b Sm.chyba
z b
t(2) p-hodn.
Abs.člen
X1
X2
X4
-1,08961 0,941927 -1,15679 0,366858
-0,299065 0,368366 -0,38391 0,472872 -0,81187 0,502130
0,864242 0,316998 0,97862 0,358949 2,72633 0,112320
0,445257 0,271142 0,53513 0,325873 1,64215 0,242263
Empirická regresní funkce má tedy tvar Y
)
= -1,09 – 0,38x1 + 0,98x2 + 0,54x4. Variabilita proměnné Y je z 96,5% vysvětlená
zvoleným regresním modelem. Pro α = 0,05 je celkový F-test nevýznamný, všechny dílčí t-testy rovněž. Podíváme-li se na
beta koeficienty, vidíme, že největší vliv má proměnná X2. Sestavíme tedy nový model Yi = β0 + β2xi2 + εi, i = 1, ..., 6. Metodou
nejmenších čtverců opět získáme odhady regresních parametrů.
Výsledky regrese se závislou proměnnou : X3 (ctyri testy.sta)
R= ,95813306 R2= ,91801897 Upravené R2= ,89752371
F(1,4)=44,792 p<,00259 Směrod. chyba odhadu : 1,2644
N=6
b* Sm.chyba
z b*
b Sm.chyba
z b
t(4) p-hodn.
Abs.člen
X2
-0,520548 0,850099 -0,612338 0,573413
0,958133 0,143162 1,084932 0,162108 6,692666 0,002593
Nyní má empirická regresní funkce tvar Y
)
= -0,52 + 1,08x2, model jako celek je významný a nezávisle proměnná X2 rov-
něž.
Pro kontrolu kvality regrese porovnáme zjištěné a predikované hodnoty veličiny Y.
Vztah mezi naměřenými a predikovanými hodnotami znázorníme pomocí dvourozměrného tečkového diagramu.
0 1 2 3 4 5 6 7 8 9 10
Předpovědi
0
2
4
6
8
10
12
Y
Nyní aplikujeme dopřednou metodu postupné regrese:
Statistiky – Vícerozměrná regrese – Proměnné – Závisle proměnná Y, Nezávisle proměnné X1, X2, X4 – OK – Detailní nastavení
– zaškrtneme Další možnosti – OK – Metoda – zvolíme Kroková dopředná – na záložce Metoda zvolíme Zobrazit
výsledky Po každém kroku – OK (V kroku 0 nejsou v regresní rovnici žádné proměnné.) Klikneme na Další – Výpočet:Výsledky
regrese.
Výsledky regrese se závislou proměnnou : X3 (ctyri testy.sta)
R= ,95813306 R2= ,91801897 Upravené R2= ,89752371
F(1,4)=44,792 p<,00259 Směrod. chyba odhadu : 1,2644
N=6
b* Sm.chyba
z b*
b Sm.chyba
z b
t(4) p-hodn.
Abs.člen
X2
-0,520548 0,850099 -0,612338 0,573413
0,958133 0,143162 1,084932 0,162108 6,692666 0,002593
V prvním kroku byla vybrána proměnná X2. Opět klikneme na Další a dostaneme výsledky kroku 2, který je již konečný:
Výsledky regrese se závislou proměnnou : X3 (ctyri testy.sta)
R= ,97653416 R2= ,95361897 Upravené R2= ,92269829
F(2,3)=30,841 p<,00999 Směrod. chyba odhadu : 1,0981
N=6
b* Sm.chyba
z b*
b Sm.chyba
z b
t(3) p-hodn.
Abs.člen
X2
X4
-1,22615 0,872554 -1,40524 0,254603
0,687789 0,217256 0,77881 0,246007 3,16580 0,050644
0,329675 0,217256 0,39622 0,261109 1,51745 0,226436
Empirická regresní funkce má tvar Y
)
= -1,23 + 0,78x2 + 0,4x4, model jako celek je významný na hladině 0,05, avšak nezávisle
proměnné X2 a X4 nikoliv. Přispívají však k vysvětlení variability hodnot závisle proměnné veličiny Y. Adjustovaný
index determinace je 0,9227. V modelu s nezávisle proměnnou X2 byl 0,8975 a v modelu se všemi třemi nezávisle proměnnými
byl 0,9128.
V tomto výsledném modelu uložíme rezidua a predikované hodnoty:
Rezidua/předpoklady/předpovědi – Reziduální analýza – Uložit rezidua & předpovědi – OK
Pomocí S-W testu a N-P plotu prozkoumáme normalitu reziduí:
Normální p-graf z Rezidua
Tabulka25 9v*6c
-1,2 -1,0 -0,8 -0,6 -0,4 -0,2 0,0 0,2 0,4 0,6 0,8 1,0 1,2
Pozorovaná hodnota
-1,4
-1,2
-1,0
-0,8
-0,6
-0,4
-0,2
0,0
0,2
0,4
0,6
0,8
1,0
1,2
1,4
Očekávanánormálníhodnota
Rezidua : SW-W = 0,9065; p = 0,4138
Vidíme, že rozložení reziduí je blízké normálnímu rozložení.
Zkusíme ještě zpětnou metodu postupné regrese:
Na záložce Metoda zvolíme Metoda – zvolíme Kroková zpětná. V nultém kroku jsou do modelu zařazeny všechny nezávisle
proměnné:
Výsledky regrese se závislou proměnnou : X3 (ctyri testy.sta)
R= ,98240301 R2= ,96511567 Upravené R2= ,91278918
F(3,2)=18,444 p<,05187 Směrod. chyba odhadu : 1,1664
N=6
b* Sm.chyba
z b*
b Sm.chyba
z b
t(2) p-hodn.
Abs.člen
X1
X2
X4
-1,08961 0,941927 -1,15679 0,366858
-0,299065 0,368366 -0,38391 0,472872 -0,81187 0,502130
0,864242 0,316998 0,97862 0,358949 2,72633 0,112320
0,445257 0,271142 0,53513 0,325873 1,64215 0,242263
V 1. kroku je z modelu vyřazena proměnná X1:
Výsledky regrese se závislou proměnnou : X3 (ctyri testy.sta)
R= ,97653416 R2= ,95361897 Upravené R2= ,92269829
F(2,3)=30,841 p<,00999 Směrod. chyba odhadu : 1,0981
N=6
b* Sm.chyba
z b*
b Sm.chyba
z b
t(3) p-hodn.
Abs.člen
X2
X4
-1,22615 0,872554 -1,40524 0,254603
0,687789 0,217256 0,77881 0,246007 3,16580 0,050644
0,329675 0,217256 0,39622 0,261109 1,51745 0,226436
Ve 2. kroku, který je současně poslední, je vyřazena proměnná X4:
Výsledky regrese se závislou proměnnou : X3 (ctyri testy.sta)
R= ,95813306 R2= ,91801897 Upravené R2= ,89752371
F(1,4)=44,792 p<,00259 Směrod. chyba odhadu : 1,2644
N=6
b* Sm.chyba
z b*
b Sm.chyba
z b
t(4) p-hodn.
Abs.člen
X2
-0,520548 0,850099 -0,612338 0,573413
0,958133 0,143162 1,084932 0,162108 6,692666 0,002593
Metoda zpětné postupné regrese tedy jako optimální našla model regresní přímky s nezávisle proměnnou X2.
Upozornění: Pokud bychom na záložce Metoda ručně změnili hodnoty „F na zahrnutí“ a „F na vyjmutí“, mohli bychom
dostat jiné výsledky.