Osnova přednášky Mnohonásobná lineární regrese 1. Popis modelu 2. Specifika modelu mnohonásobné lineární regrese 2.1. Kroky před provedením regresní analýzy 2.2. Sedm hlavních předpokladů modelu 2.3. Ověřování předpokladů modelu 2.4. Posouzení vlivu nezávisle proměnných veličin v modelu 3. Dvě hlavní metody při provádění mnohonásobné lineární regrese 3.1. Metoda ENTER 3.2. Metoda STEPWISE 3.3. Postup při budování modelu mnohonásobné lineární regrese 4. Příklad 1. Popis modelu mnohonásobné lineární regrese Budeme zkoumat lineární závislost veličiny Y na p nezávisle proměnných veličinách (regresorech) X1, ..., Xp. Omezíme se pouze na model tvaru Yi = β0 + β1xil + ... + βpxip+ εi, i = 1, ..., n. Interpretace parametrů: β0 … teoretická hodnota závisle proměnné veličiny při nulových hodnotách všech nezávisle proměnných veličin, βj … přírůstek teoretické hodnoty závisle proměnné veličiny odpovídající jednotkové změně j-té nezávisle proměnné veličiny při konstantní úrovni ostatních nezávisle proměnných, j = l, ..., p. Parametry β1, …, βp se nazývají parciální regresní koeficienty. Geometricky tento model představuje regresní nadrovinu. Ilustrace pro dva regresory: Model Yi = β0 + β1Xil + ... + βpXip+ εi, i = 1, ..., n lze formálně ztotožnit s lineárním regresním modelem z přednášky „Jednoduchá lineární regrese“: Yi = β0 + β1 f1(xi) + ... + βp fp(xi) + εi, i = 1, ..., n, kde položíme f1(xi) = xi1, ..., fp(xi) = xip, i = 1,..., n. Dostáváme tedy maticový tvar Y = Xβ + ε, kde regresní matice           = np1n p111 xx1 xx1 K KKKK K X , přičemž h(X) = p+1 < n a ε ~ Nn(0, σ2 I). Všechny výsledky uvedené v přednášce „Jednoduchá lineární regrese“ zůstávají v platnosti. Příklady vícenásobné regrese Lékaře zajímá, jak krevní tak Y závisí na věku pacienta X1, na jeho BMI X2 a na množství vypitého alkoholu X3. Majitele realitní kanceláře zajímá, jak cena bytu Y závisí na velikosti bytu X1, na počtu pokojů X2, vzdálenosti bytu od centra města X3 a existenci vlastního parkovacího místa X4 (1 – ano, 0 – ne). Pěstitele brambor zajímá, jak výnos Y jisté odrůdy brambor závisí na množství dodaného hnojiva X1, na množství srážek X2 ve vegetačním období a na teplotě půdy X3. Ekonoma zajímá, jak výdaje domácnosti za potraviny a nápoje Y závisí na čistém příjmu domácnosti X1 a na počtu členů domácnosti X2. Příklad: Při zkoumání závislosti hodinové výkonnosti dělníka (veličina Y – v kusech) na jeho věku (veličina X1 – v letech) a době zapracovanosti (veličina X2 – v letech) byly u 10 náhodně vybraných dělníků zjištěny tyto údaje: Y 67 65 75 66 77 84 69 60 70 66 X1 43 40 49 46 41 41 48 34 32 42 X2 6 8 14 14 8 12 16 1 5 7 Najděte regresní matici a vektor regresních parametrů. Řešení:                                 = 7421 5321 1341 16481 12411 8411 14461 14491 8401 6431 X           β β β = 2 1 0 β 2. Specifika modelu mnohonásobné lineární regrese 2.1. Kroky před prováděním mnohonásobné lineární regrese a) Musíme prozkoumat, zda naše data splňují předpoklady pro regresní analýzu. b) Pokud je nesplňují, posoudíme, jak vážné je porušení těchto předpokladů. c) Je-li porušení předpokladů vážné, musíme s daty provést některé operace, abychom porušení předpokladů odstranili (nebo aspoň zmírnili). 2.2. Sedm hlavních předpokladů regresní analýzy 1. Závisle proměnná Y musí být proměnná aspoň intervalového typu. (Pokud není, musíme použít logistickou regresi.) 2. Nezávisle proměnné X1, ..., Xp jsou rovněž aspoň intervalového typu. Mohou to být i proměnné alternativní. 3. Nezávisle proměnné by neměly být mezi sebou příliš vysoce korelovány. Pokud v datech existuje multikolinearita, výsledky regrese jsou nespolehlivé. Vysoká multikolinearita zvyšuje pravděpodobnost, že důležitá nezávisle proměnná bude shledána statisticky nevýznamná a bude vyřazena z modelu. 4. V datech nesmějí být odlehlé či extrémní hodnoty, neboť na ty je regresní analýza citlivá. Odlehlé hodnoty mohou vážně narušit kvalitu odhadů regresních parametrů. 5. Proměnné musejí být v lineárním vztahu. Vícenásobná lineární regrese je založena Pearsonově korelačním koeficientu, takže neexistence linearity způsobuje, že i důležité vztahy mezi proměnnými, pokud nejsou lineární, zůstanou neodhaleny. 6. Proměnné mají normální rozložení. Význam tohoto předpokladu ustupuje do pozadí, máme-li dostatečně velký datový soubor, kde se již uplatňuje působení centrální limitní věty. 7. Proměnné vykazují homoskedasticitu, tedy homogenitu rozptylu. (Opakem homoskedasticity je heteroskedasticita.) Ukázka homoskedastických dat: Ukázka dat s rostoucí heteroskedasticitou: Ukázka dat s klesající heteroskedasticitou: Ukázka dat s proměnlivou heteroskedasticitou: 2.3. Ověřování předpokladů modelu Ověřování normality: - jednorozměrná: použijeme např. N-P plot a S-W test či Lilieforsův test. - vícerozměrná: sestrojíme graf závislosti reziduí na predikovaných hodnotách. Tečky by měly být rovnoměrně rozptýleny po obou stranách vodorovné osy. 62 64 66 68 70 72 74 76 Predikované hodnoty -10 -8 -6 -4 -2 0 2 4 6 8 10 12 Rezidua Odhalení multikolinearity: - Vysoké absolutní hodnoty výběrových korelačních koeficientů nezávisle proměnných (orientačně > 0,75). - Velké rozdíly mezi párovými a parciálními korelačními koeficienty. - Celkový F-test je významný, ale dílčí t-testy nikoliv. Při použití statistického software lze informace o multikolinearitě získat pomocí koeficientu VIF (Variance inflation factor). Má-li koeficient VIF hodnotu 1, pak příslušná nezávisle proměnná není korelovaná s ostatními nezávisle proměnnými, jestliže 1 < VIF < 5, pak existuje mírná korelace, pro VIF > 5 vysoká korelace a pro VIF > 10 extrémní multikolinearita. Odstranění multikolinearity: - Je-li multikolinearita způsobena silnou lineární závislostí dvou proměnných, vypustíme jednu z nich z analýzy. Tím se nedopustíme žádné závažné chyby, neboť když máme dvě vysoce vzájemně korelované proměnné, velmi často to znamená, že obě indikují podobný jev. Tím, že jednu z těchto proměnných z regresního modelu vyřadíme, nijak jej neoslabíme. - Je-li multikolinearita zapříčiněna vzájemnou korelovaností několika proměnných, nabízí se řešení zkombinovat je do jedné nové proměnné. Tu vytvoříme např. s pomocí analýzy hlavních komponent. Příklad: Při zkoumání závislosti hodinové výkonnosti dělníka (veličina Y – v kusech) na jeho věku (veličina X1 – v letech) a době zapracovanosti (veličina X2 – v letech) byly u 10 náhodně vybraných dělníků zjištěny tyto údaje: Y 67 65 75 66 77 84 69 60 70 66 X1 43 40 49 46 41 41 48 34 32 42 X2 6 8 14 14 8 12 16 1 5 7 Posuďte pomocí koeficientu VIF, zda proměnné věk a doba zapracovanosti mohou způsobit multikolinearitu v modelu ε+β+β+β= 22110 xxY . Řešení: Statistiky - Pokročilé lineární/nelineární modely – Obecné regresní modely – OK – Proměnné – Závislá Y, Spojité nezávisle proměnné X1, X2 – OK – Matice – Parciální korelace. Efekt Toler. Rozptyl Infl fak R^2 Y Beta v Y Parciál. Y Semipar. Y t Y p "X1" "X2" 0,282545 3,539258 0,717455 -0,550937 -0,328630 -0,292850 -0,920604 0,387883 0,282545 3,539258 0,717455 0,920415 0,502564 0,489246 1,537994 0,167937 Koeficient VIF je 3,54, tedy mezi věkem a dobou zapracovanosti existuje jen mírná korelace. Odhalení nelinearity vztahů: Pomocí tečkového diagramu prozkoumáme závislost reziduí na hodnotách závisle proměnné veličiny Y. Pokud tečky vytvoří nelineární obrazec, pak buď jedna z nezávisle proměnných nebo kombinace nezávisle proměnných mají nelineární vztah se závisle proměnnou veličinou Y. Tento graf nám také pomůže odhalit případnou heteroskedasticitu v datech. Odstranění nelinearity vztahů: Doporučuje se ty proměnné, u nichž jsme detekovali nelinearitu, transformovat pomocí logaritmické nebo odmocninové transformace. Pokud tento postup nepomůže, musíme použít nelineární regresi. Odhalení odlehlých hodnot: Použijeme krabicové grafy nebo pravidlo 3 sigma. Odlehlé hodnoty mají velký vliv na kvalitu odhadu regresních parametrů. Způsoby řešení problému odlehlých hodnot: Ověříme, zda při zadávání hodnot dané proměnné nedošlo k překlepu; proměnnou transformujeme; upravíme hodnotu odlehlého případu; odstraníme případy s odlehlou hodnotou; proměnnou vymažeme. 2.4. Posouzení vlivu jednotlivých nezávisle proměnných v modelu Chceme-li porovnávat vliv, jaký mají proměnné x1, ..., xp v modelu Y = Xβ + ε, můžeme spočítat tzv. standardizované regresní parametry, kterým se také říká B-koeficienty (nebo také beta koeficienty). Zavedeme proto standardizované veličiny j j x xij ij Y Yi i s mx v, s mY Z − = − = , j = 1, ..., p, i = 1, ..., n a vytvoříme regresní model s těmito standardizovanými proměnnými. Odhady regresních parametrů v tomto novém modelu jsou B-koeficienty, které pak vyjadřují intenzitu vlivu jednotlivých nezávisle proměnných veličin na veličinu Y. V sytému STATISTICA jsou B-koeficienty značeny b*. Graficky lze absolutní hodnoty standardizovaných regresních parametrů (nebo absolutní hodnoty testových statistik dílčích t-testů) znázornit pomocí Paretových grafů. Statistiky - Pokročilé lineární/nelineární modely – Obecné regresní modely – OK – Proměnné – Závislá Y, Spojité nezávisle proměnné X1, X2 – OK – Paretův graf (pokud ponecháme zaškrtnuto t-hodn., dostaneme graf pro absolutní hodnoty testových statistik, pokud tuto volbu vypneme, získáme graf pro absolutní hodnoty standardizovaných regresních parametrů). Paretův graf t-hodnot koeficienů; sv=7 Proměnná: Y: vykon delnika Sigma-omezená parametrizace ,9206035 1,537994 p=,05 t-hodnota (koeficienty; absolutní hodnota) "X1" "X2" ,9206035 1,537994 Paretův graf standardizovaných koeficientů Proměnná: Y: vykon delnika Sigma-omezená parametrizace ,5509366 ,9204152 0,0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1,0 Standardizované koeficienty (absolutní hodnota) "X1" "X2" ,5509366 Příklad: Při zkoumání závislosti hodinové výkonnosti dělníka (veličina Y – v kusech) na jeho věku (veličina X1 – v letech) a době zapracovanosti (veličina X2 – v letech) byly u 10 náhodně vybraných dělníků zjištěny tyto údaje: Y 67 65 75 66 77 84 69 60 70 66 X1 43 40 49 46 41 41 48 34 32 42 X2 6 8 14 14 8 12 16 1 5 7 Posuďte vliv věku a doby zapracovanosti na výkon dělníka pomocí standardizovaných regresních parametrů. Řešení: Statistiky – Vícenásobná regrese – Proměnné – Závislá proměnná Y, seznam nezáv. proměnných X1, X2 – OK – OK. Výsledky regrese se závislou proměnnou : Y (vykony delniku.sta) R= ,54005243 R2= ,29165662 Upravené R2= ,08927280 F(2,7)=1,4411 p<,29913 Směrod. chyba odhadu : 6,6491 N=10 b* Sm.chyba z b* b Sm.chyba z b t(7) p-hodn. Abs.člen X1 X2 86,74217 25,32397 3,425299 0,011056 -0,550937 0,598452 -0,70031 0,76071 -0,920604 0,387883 0,920415 0,598452 1,35062 0,87817 1,537994 0,167937 Standardizované regresní parametry jsou uvedeny ve sloupci b* . Pro věk má tento parametr hodnotu -0,5509 a pro dobu zapracovanosti 0,9204. V absolutní hodnotě je vyšší parametr pro dobu zapracovanosti, tedy tato proměnná má vyšší vliv na výkon než věk. 3. Dvě hlavní metody při provádění mnohonásobné lineární regrese 3.1. Metoda ENTER Tato metoda je standardní metoda, do modelu vstupují všechny nezávisle proměnné najednou. Metodu ENTER použijeme v případě, - kdy chceme popsat, jak velký podíl rozptylu závisle proměnné veličiny Y je vysvětlen nezávisle proměnnými veličinami X1, …, Xp (zajímá nás index determinace), - kdy chceme zjistit, jak velký vliv má každá z nezávisle proměnných na proměnnou závislou při kontrole vlivu působení ostatních proměnných (interpretujeme nestandardizované odhady regresních parametrů), - kdy nás zajímá, jaká je relativní důležitost každé z nezávisle proměnných (posuzujeme standardizované odhady regresních parametrů). Při regresi založené na metodě ENTER by mělo na každou proměnnou připadat minimálně dvacet případů (poměr tedy 1:20). Budou-li v našem modelu např. čtyři proměnné, datový soubor by měl mít minimálně 80 případů Nejnižší možný poměr proměnná/počet případů je 1:5. V tom případě ale platí silný požadavek na normalitu – rozložení reziduí by mělo být normální. 3.2. Metoda STEPWISE Metoda STEPWISE (postupná regrese) je metoda nalezení „nejlepšího“ modelu (co nejmenší počet nezávisle proměnných veličin, co nejkvalitněší predikce). Uživatel nekontroluje pořadí proměnných, jak postupně vstupují do modelu, to provádí samotný program, který pracuje podle jistého algoritmu. Používá se ve dvou variantách – dopředná (forward) a zpětná (backward). Při metodě forward se prediktory postupně přidávají, při metodě backward se nejdříve zařadí všechny prediktory a pak se postupně odebírají. Pořadí vkládání nezávisle proměnných je důležité, neboť může vést k různým odhadům jejich důležitosti v modelu. Proto je při mnohonásobné regresi vždy nutné si dobře rozmyslet, jakou metodu vkládání proměnných zvolíme. Při regresi založené na metodě STEPWISE by mělo na každou proměnnou připadat minimálně čtyřicet případů (poměr tedy 1:40). Budou-li v našem modelu např. čtyři proměnné, datový soubor by měl mít minimálně 160 případů. Princip postupné regrese spočívá v tom, že regresní model je budován krok po kroku tak, že v každém kroku zkoumáme všechny prediktory a zjišťujeme, který z nich nejlépe vystihuje variabilitu závisle proměnné veličiny. Zařazování prediktoru do modelu či jeho vylučování se děje pomocí sekvenčních F-testů. Sekvenční F-test je založen na statistice F, která je podílem přírůstku regresního součtu čtverců při zařazení daného prediktoru do modelu a reziduálního součtu čtverců. Jestliže je tato statistika větší než hodnota zvaná „F to enter“ (česky „F na zahrnutí“, ve STATISTICE implicitně 1 pro dopřednou metodu, 11 pro zpětnou), je prediktor zařazen. Je-li statistika F menší než hodnota zvaná „F to remove“ (česky „F na vyjmutí“, ve STATISTICE implicitně 0 pro dopřednou metodu, 10 pro zpětnou), je již dříve zařazený prediktor z modelu vyloučen. Po vybrání proměnných do modelu jsou odhadnuty parametry lineární regresní funkce a kvalita regrese je posouzena indexem determinace. Do modelu se postupně přidávají další proměnné, pokud se zvyšuje podíl vysvětlené variability hodnot veličiny Y. 3.3. Postup při budování modelu mnohonásobné lineární regrese Metoda ENTER 1. Ověříme předpoklady modelu: normalitu, homoskedasticitu, prozkoumáme existenci případné multikolinearity, prověříme linearitu vztahů, detekujeme případná vybočující pozorování. 2. V modelu Yi = β0 + β1xil + ... + βpxip + εi, i = l, ..., n získáme bodové a intervalové odhady regresních parametrů β0, βl, ..., βp, index determinace, odhad rozptylu. Provedeme dílčí t-testy a celkový F-test. Vliv jednotlivých proměnných posoudíme pomocí B-koeficientů. 3. Z modelu vyloučíme ty nezávisle proměnné, pro něž byly dílčí t-testy nevýznamné a odhadneme parametry výsledného modelu. 4. Provedeme reziduální analýzu. Metoda STEPWISE 1. Ověření předpokladů modelu. 2. Zvolíme dopřednou nebo zpětnou metodu Stepwise, nastavíme hladinu významnosti, hodnoty F na zahrnutí a F na vyjmutí (nebo ponecháme implicitně nastavené hodnoty 0,05, 1, 0. 3. Pro výsledný model provedeme reziduální analýzu. 4. Příklad: Šest studentů gymnázia absolvovalo čtyři testy, které měří následující veličiny: X1 - přírodovědné vědomosti, X2 – literární vědomosti, X3 – schopnost koncentrace, X4 – logické myšlení. Testy se hodnotí na škále od 1 do 10 (1 = špatný výsledek, 10 = výborný výsledek). student X1 X2 X3 X4 1 7 9 10 8 2 9 8 8 10 3 4 3 1 2 4 2 3 2 2 5 3 1 2 4 6 1 1 1 4 Zajímá nás, kolik bodů můžeme očekávat v testu koncentračních schopností studenta, jestliže známe výsledky testů pro literární schopnosti, přírodovědné schopnosti a logické myšlení. Řešení pomocí systému STATISTICA: V tomto problému je proměnná X3 závislá (označíme ji Y) a ostatní proměnné jsou nezávislé. Sestavíme regresní model Yi = β0 + β1xil + β2xi2 + β4xi4 + εi, i = 1, ..., 6. Nejprve sestrojíme dvourozměrné tečkové diagramy vyjadřující závislost Y na X1, X2 a X4. Bodový graf z Y proti X1 Tabulka1 4v*6c 0 1 2 3 4 5 6 7 8 9 10 X1 0 2 4 6 8 10 12 Y Bodový graf z Y proti X2 Tabulka1 4v*6c 0 1 2 3 4 5 6 7 8 9 10 X2 0 2 4 6 8 10 12 Y Bodový graf z Y proti X4 Tabulka1 4v*6c 1 2 3 4 5 6 7 8 9 10 11 X4 0 2 4 6 8 10 12 Y Dále spočteme výběrové korelační koeficienty 1X,Yr , 2X,Yr , 4X,Yr a výběrové parciální korelační koeficienty 21 X.X,Yr , 41 X.X,Yr , 12 X.X,Yr , 42 X.X,Yr , 14 X.X,Yr , 24 X.X,Yr . Korelace (ctyri testy.sta) Označ. korelace jsou významné na hlad. p < ,05000 N=6 (Celé případy vynechány u ChD) Proměnná X1 X2 X4 Y 0,87 0,96 0,89 Vidíme, že korelace dvojic (Y, X1), (Y, X2), (Y, X4) jsou vysoké. Parciální korelace (ctyri_testy.sta) S vyloučením vlivu:X2 Označ. korelace jsou významné na hlad. p < ,05000 N=6 (Celé případy vynechány u ChD) Proměnná Y X1 Y X1 1,000000 0,027289 0,027289 1,000000 Parciální korelace (ctyri_testy.sta) S vyloučením vlivu:X2 a X4 Označ. korelace jsou významné na hlad. p < ,05000 N=6 (Celé případy vynechány u ChD) Proměnná X1 Y X1 Y 1,000000 -0,497870 -0,497870 1,000000 Parciální korelace dvojice (Y, X1) při vyloučení vlivu veličiny X2 je pouze 0,0273 a při vyloučení vlivu veličiny X4 je dokonce -0,4979, tedy mnohem slabší než párová korelace, která činila 0,87. Parciální korelace (ctyri_testy.sta) S vyloučením vlivu:X1 Označ. korelace jsou významné na hlad. p < ,05000 N=6 (Celé případy vynechány u ChD) Proměnná X2 Y X2 Y 1,000000 0,810849 0,810849 1,000000 Parciální korelace (ctyri_testy.sta) S vyloučením vlivu:X1 a X4 Označ. korelace jsou významné na hlad. p < ,05000 N=6 (Celé případy vynechány u ChD) Proměnná X2 Y X2 Y 1,000000 0,887680 0,887680 1,000000 Parciální korelace dvojice (Y, X2) při vyloučení vlivu veličiny X1 resp. X4 je stále silná, jen o něco menší než párová korelace (ta byla 0,96). Parciální korelace (ctyri_testy.sta) S vyloučením vlivu:X1 Označ. korelace jsou významné na hlad. p < ,05000 N=6 (Celé případy vynechány u ChD) Proměnná Y X4 Y X4 1,000000 0,558630 0,558630 1,000000 Parciální korelace (ctyri_testy.sta) S vyloučením vlivu:X1 a X2 Označ. korelace jsou významné na hlad. p < ,05000 N=6 (Celé případy vynechány u ChD) Proměnná Y X4 Y X4 1,000000 0,757737 0,757737 1,000000 Parciální korelace dvojice (Y, X4) při vyloučení vlivu veličiny X1 resp. X2 je o dost menší než párová korelace (ta byla 0,89), ale pokles není tak výrazný jako u dvojice (Y, X1) při vyloučení vlivu veličiny X2 resp. X4. Z těchto analýz vyplývá, že největší roli v modelu lineární regresní závislosti Y na X1, X2 a X4 bude hrát proměnná X2, podstatně menší X4 a role X1 bude zřejmě jen nepatrná. Metodou nejmenších čtverců získáme odhady regresních parametrů. Výsledky regrese se závislou proměnnou : y (ctyri_testy.sta) R= ,98240301 R2= ,96511567 Upravené R2= ,91278918 F(3,2)=18,444 p<,05187 Směrod. chyba odhadu : 1,1664 N=6 b* Sm.chyba z b* b Sm.chyba z b t(2) p-hodn. Abs.člen X1 X2 X4 -1,08961 0,941927 -1,15679 0,366858 -0,299065 0,368366 -0,38391 0,472872 -0,81187 0,502130 0,864242 0,316998 0,97862 0,358949 2,72633 0,112320 0,445257 0,271142 0,53513 0,325873 1,64215 0,242263 Empirická regresní funkce má tedy tvar Y ) = -1,09 – 0,38x1 + 0,98x2 + 0,54x4. Variabilita proměnné Y je z 96,5% vysvětlená zvoleným regresním modelem. Pro α = 0,05 je celkový F-test nevýznamný, všechny dílčí t-testy rovněž. Podíváme-li se na beta koeficienty, vidíme, že největší vliv má proměnná X2. Sestavíme tedy nový model Yi = β0 + β2xi2 + εi, i = 1, ..., 6. Metodou nejmenších čtverců opět získáme odhady regresních parametrů. Výsledky regrese se závislou proměnnou : X3 (ctyri testy.sta) R= ,95813306 R2= ,91801897 Upravené R2= ,89752371 F(1,4)=44,792 p<,00259 Směrod. chyba odhadu : 1,2644 N=6 b* Sm.chyba z b* b Sm.chyba z b t(4) p-hodn. Abs.člen X2 -0,520548 0,850099 -0,612338 0,573413 0,958133 0,143162 1,084932 0,162108 6,692666 0,002593 Nyní má empirická regresní funkce tvar Y ) = -0,52 + 1,08x2, model jako celek je významný a nezávisle proměnná X2 rov- něž. Pro kontrolu kvality regrese porovnáme zjištěné a predikované hodnoty veličiny Y. Vztah mezi naměřenými a predikovanými hodnotami znázorníme pomocí dvourozměrného tečkového diagramu. 0 1 2 3 4 5 6 7 8 9 10 Předpovědi 0 2 4 6 8 10 12 Y Nyní aplikujeme dopřednou metodu postupné regrese: Statistiky – Vícerozměrná regrese – Proměnné – Závisle proměnná Y, Nezávisle proměnné X1, X2, X4 – OK – Detailní nastavení – zaškrtneme Další možnosti – OK – Metoda – zvolíme Kroková dopředná – na záložce Metoda zvolíme Zobrazit výsledky Po každém kroku – OK (V kroku 0 nejsou v regresní rovnici žádné proměnné.) Klikneme na Další – Výpočet:Výsledky regrese. Výsledky regrese se závislou proměnnou : X3 (ctyri testy.sta) R= ,95813306 R2= ,91801897 Upravené R2= ,89752371 F(1,4)=44,792 p<,00259 Směrod. chyba odhadu : 1,2644 N=6 b* Sm.chyba z b* b Sm.chyba z b t(4) p-hodn. Abs.člen X2 -0,520548 0,850099 -0,612338 0,573413 0,958133 0,143162 1,084932 0,162108 6,692666 0,002593 V prvním kroku byla vybrána proměnná X2. Opět klikneme na Další a dostaneme výsledky kroku 2, který je již konečný: Výsledky regrese se závislou proměnnou : X3 (ctyri testy.sta) R= ,97653416 R2= ,95361897 Upravené R2= ,92269829 F(2,3)=30,841 p<,00999 Směrod. chyba odhadu : 1,0981 N=6 b* Sm.chyba z b* b Sm.chyba z b t(3) p-hodn. Abs.člen X2 X4 -1,22615 0,872554 -1,40524 0,254603 0,687789 0,217256 0,77881 0,246007 3,16580 0,050644 0,329675 0,217256 0,39622 0,261109 1,51745 0,226436 Empirická regresní funkce má tvar Y ) = -1,23 + 0,78x2 + 0,4x4, model jako celek je významný na hladině 0,05, avšak nezávisle proměnné X2 a X4 nikoliv. Přispívají však k vysvětlení variability hodnot závisle proměnné veličiny Y. Adjustovaný index determinace je 0,9227. V modelu s nezávisle proměnnou X2 byl 0,8975 a v modelu se všemi třemi nezávisle proměnnými byl 0,9128. V tomto výsledném modelu uložíme rezidua a predikované hodnoty: Rezidua/předpoklady/předpovědi – Reziduální analýza – Uložit rezidua & předpovědi – OK Pomocí S-W testu a N-P plotu prozkoumáme normalitu reziduí: Normální p-graf z Rezidua Tabulka25 9v*6c -1,2 -1,0 -0,8 -0,6 -0,4 -0,2 0,0 0,2 0,4 0,6 0,8 1,0 1,2 Pozorovaná hodnota -1,4 -1,2 -1,0 -0,8 -0,6 -0,4 -0,2 0,0 0,2 0,4 0,6 0,8 1,0 1,2 1,4 Očekávanánormálníhodnota Rezidua : SW-W = 0,9065; p = 0,4138 Vidíme, že rozložení reziduí je blízké normálnímu rozložení. Zkusíme ještě zpětnou metodu postupné regrese: Na záložce Metoda zvolíme Metoda – zvolíme Kroková zpětná. V nultém kroku jsou do modelu zařazeny všechny nezávisle proměnné: Výsledky regrese se závislou proměnnou : X3 (ctyri testy.sta) R= ,98240301 R2= ,96511567 Upravené R2= ,91278918 F(3,2)=18,444 p<,05187 Směrod. chyba odhadu : 1,1664 N=6 b* Sm.chyba z b* b Sm.chyba z b t(2) p-hodn. Abs.člen X1 X2 X4 -1,08961 0,941927 -1,15679 0,366858 -0,299065 0,368366 -0,38391 0,472872 -0,81187 0,502130 0,864242 0,316998 0,97862 0,358949 2,72633 0,112320 0,445257 0,271142 0,53513 0,325873 1,64215 0,242263 V 1. kroku je z modelu vyřazena proměnná X1: Výsledky regrese se závislou proměnnou : X3 (ctyri testy.sta) R= ,97653416 R2= ,95361897 Upravené R2= ,92269829 F(2,3)=30,841 p<,00999 Směrod. chyba odhadu : 1,0981 N=6 b* Sm.chyba z b* b Sm.chyba z b t(3) p-hodn. Abs.člen X2 X4 -1,22615 0,872554 -1,40524 0,254603 0,687789 0,217256 0,77881 0,246007 3,16580 0,050644 0,329675 0,217256 0,39622 0,261109 1,51745 0,226436 Ve 2. kroku, který je současně poslední, je vyřazena proměnná X4: Výsledky regrese se závislou proměnnou : X3 (ctyri testy.sta) R= ,95813306 R2= ,91801897 Upravené R2= ,89752371 F(1,4)=44,792 p<,00259 Směrod. chyba odhadu : 1,2644 N=6 b* Sm.chyba z b* b Sm.chyba z b t(4) p-hodn. Abs.člen X2 -0,520548 0,850099 -0,612338 0,573413 0,958133 0,143162 1,084932 0,162108 6,692666 0,002593 Metoda zpětné postupné regrese tedy jako optimální našla model regresní přímky s nezávisle proměnnou X2. Upozornění: Pokud bychom na záložce Metoda ručně změnili hodnoty „F na zahrnutí“ a „F na vyjmutí“, mohli bychom dostat jiné výsledky.