Příkladová data Výška otce Výška syna 175 178 177 173 188 188 173 173 163 164 163 168 178 169 … … Vodivost vody Ca ionty 164 22.081 155 13.600 467 37.800 171 19.600 67 6.280 78 14.237 Regresní a korelační analýza Korelace Lineární regrese Analýza vztahu dvou kvantitativních proměnných Dva přístupy, pohledy: korelace a regrese. KORELACE popisuje sílu vzájemné závislosti. REGRESE pomocí jedné proměnné popisuje hodnoty druhé proměnné Příklad: výšky otce a syna (data GaltonSyn) Regresní a korelační analýza Korelace Lineární regrese předpovídá výšku otce z výšky syna předpovídá výšku syna z výšky otce Regrese – původ názvu Sir F. Galton (1886): dědičnost výšky postavy Regresní a korelační analýza Korelace Lineární regrese Regrese – vysvětlení variability Y pomocí X • Opět spojitá, kvantitativní data • Hodnoty proměnné Y modelujeme pomocí hodnot proměnné X • Lineární regresní model: 𝑌 = 𝛽0 + 𝛽1 ∙ 𝑋 + 𝐸 … rovnice přímky • Modelem vysvětlujeme variabilitu v hodnotách Y, prokazujeme závislost Y na X nebo předpovídáme střední hodnotu Y pro nové hodnoty X. • V interpretaci zohledňujeme logickou závislost proměnných, „co ovlivňuje co“. Příklad: váha mozku vysvětlovaná váhou celého těla u 54 vybraných savců Regresní a korelační analýza Korelace Lineární regrese Lineární regresní model [simple linear regression, bivariate regression] 𝒀𝒊 = 𝜷 𝟎 + 𝜷 𝟏 ∙ 𝑿𝒊 + 𝑬𝒊 𝑬𝒊 ~ 𝑵(𝟎, 𝝈 𝟐) • Y nazýváme vysvětlovaná proměnná, závislá proměnná, odpověď, odezva [explained variable, dependent variable, response] • X nazýváme vysvětlující proměnná, nezávislá proměnná, prediktor, regresor [explanatory variable, independent variable, predictor] • 𝑬𝒊 ~ 𝑵(𝟎, 𝝈 𝟐) náhodná chyba, přirozená variabilita • 𝜷 𝟎 a 𝜷 𝟏 jsou parametry platné pro celou populaci, tedy neznámé  hledáme odhady 𝒃 𝟎 a 𝒃 𝟏 a testujeme jejich nenulovost • Parametry 𝜷 𝟎 a 𝜷 𝟏 určují přímku závislosti: 𝜷 𝟎 je průsečík s osou y [intercept], když X = 0, potom 𝑌 = 𝛽0 𝜷 𝟏 je sklon přímky [slope]; když X zvětším o 1 jednotku potom Y naroste (v průměru) o 𝛽1. Regresní a korelační analýza Korelace Lineární regrese náhodná složka modelu [deterministic + stochastic component]systematická složka + Odhad regresních koeficientů: β0, β1, σ2 𝒀𝒊 = 𝜷 𝟎 + 𝜷 𝟏 ∙ 𝑿𝒊 + 𝑬𝒊 𝑬𝒊 ~ 𝑵(𝟎, 𝝈 𝟐) 1) Odhady 𝒃 𝟎 a 𝒃 𝟏 hledáme metodou nejmenších čtverců [method of the least squares]  „nafitovaná“ hodnota: ෡𝒀𝒊 = 𝒃 𝟎 + 𝒃 𝟏 ∙ 𝑿𝒊 [fitted value], česky lépe modelovaná, vyhlazená hodnota  Reziduum 𝑼𝒊: 𝑼𝒊 = 𝒀𝒊 − ෡𝒀𝒊 = 𝒀𝒊 − 𝒃 𝟎 + 𝒃 𝟏 ∙ 𝑿𝒊  Součet čtverců (reziduální): 𝑆𝑆 𝐸 = σ𝑖=1 𝑛 𝑈𝑖 2 = σ 𝑌𝑖 − ෠𝑌𝑖 2 = σ 𝑌𝑖 − 𝑏0 + 𝛽1 ∙ 𝑋𝑖 2 … aby byl minimální  𝑏1 = 𝑆 𝑋𝑌 𝑆 𝑋 2 = σ𝑖=1 𝑛 𝑋 𝑖− ത𝑋 𝑌 𝑖− ത𝑌 σ𝑖=1 𝑛 𝑋𝑖− ത𝑋 2  𝑏0 = ത𝑌 − 𝑏1 ∙ ത𝑋 Regresní a korelační analýza Korelace Lineární regrese Odhad regresních koeficientů: σ2 𝒀𝒊 = 𝜷 𝟎 + 𝜷 𝟏 ∙ 𝑿𝒊 + 𝑬𝒊 𝑬𝒊 ~ 𝑵(𝟎, 𝝈 𝟐) 2) Variabilitu náhodné odchylky 𝝈 𝟐 odhadujeme jako reziduální rozptyl, tj. 𝑆2 = 𝑆𝑆 𝐸 𝑛 − 2 Rozklad variability modelu (podobně jako v analýze rozptylu) 𝑆𝑆 𝑇𝑂𝑇 = σ𝑖=1 𝑛 𝑌𝑖 − ത𝑌 2 𝐷𝐹 𝑇𝑂𝑇 = 𝑛 − 1 𝑆𝑆 𝑅𝐸𝐺 = σ𝑖=1 𝑛 ෠𝑌𝑖 − ത𝑌 2 𝐷𝐹𝑅𝐸𝐺 = 𝑘 𝑆𝑆 𝐸 = σ𝑖=1 𝑛 𝑌𝑖 − ෠𝑌𝑖 2 𝐷𝐹𝐸 = 𝑛 − 𝑘 − 1 Platí: 𝑆𝑆 𝑇𝑂𝑇 = 𝑆𝑆 𝑅𝐸𝐺 + 𝑆𝑆 𝐸 Regresní a korelační analýza Korelace Lineární regrese … celková variabilita v datech … regresní, modelová variabilita, variabilita vysvětlená modelem k … počet vysvětlujících proměnných … reziduální variabilita, variabilita modelem nevysvětlená Předpoklady regresního lineárního modelu: 𝒀𝒊 = 𝜷 𝟎 + 𝜷 𝟏 ∙ 𝑿𝒊 + 𝑬𝒊 𝑬𝒊 ~ 𝑵(𝟎, 𝝈 𝟐) 𝒀𝒊 ~ 𝑵 𝜷 𝟎 + 𝜷 𝟏 ∙ 𝑿𝒊, 𝝈 𝟐  𝒀𝒊 jsou vzájemně nezávislé hodnoty, pozorování.  𝒀𝒊 jsou zatíženy náhodnou variabilitou, pro kterou předpokládáme normální rozdělení: nelze ověřit předem, protože se střední hodnota EY mění a my teprve hledáme funkci, která tuto změnu popisuje. Proto nejprve modelujeme a potom ověřujeme. Normalitu zkontrolujeme na reziduálech 𝑌𝑖 − ෠𝑌𝑖 . Předobrazem reziduálů v modelu jsou členy 𝑬𝒊.  Pro 𝑬𝒊 předpokládáme 𝑵(𝟎, 𝝈 𝟐 ) a že 𝝈 𝟐 se nemění.  𝑿𝒊 naopak považujeme za přesné hodnoty bez náhodné chyby (variability). To splňují např. laboratorní teploty v různých pokusných boxech. Naopak váha těla savců z příkladu má jistě svoji variabilitu, předpoklad není dodržen.  EY je lineární funkcí hodnot 𝑿𝒊 (viz dále) Regresní a korelační analýza Korelace Lineární regrese Předpoklady regresního lineárního modelu: 𝒀𝒊 = 𝜷 𝟎 + 𝜷 𝟏 ∙ 𝑿𝒊 + 𝑬𝒊 𝑬𝒊 ~ 𝑵(𝟎, 𝝈 𝟐) 𝒀𝒊 ~ 𝑵 𝜷 𝟎 + 𝜷 𝟏 ∙ 𝑿𝒊, 𝝈 𝟐  EY je lineární funkcí hodnot 𝑿𝒊. Nesplnění tohoto předpokladu znamená, že buď závislost není čistě lineární nebo EY závisí ještě na další proměnné, např. V. Výrazně zakřivené vztahy vidím většinou hned na bodovém grafu. Potom mohu zvolit např. kvadratickou regresi (viz příklad „kořeny“) či proměnné transformovat (příklad „mozky“). Odhalení druhého případu je složitější, zvlášť když nemám další proměnné k dispozici. Popisuje ho příklad „tuk“.  Špatně zvolený model dává vychýlený odhad středních hodnot EY. Projevilo by se to například v používání modelu v praxi, kdy by předpovídané průměry a naměřené průměry byly systematicky vzájemně posunuté, vychýlené.  Předpokládaný lineární vztah dobře funguje, když X i Y, respektive jejich reziduály, mají normální rozdělení. Pokud normalita chybí, pomůžeme si transformací. Normalita X a Y ale není předpokladem regresního modelu. Regresní a korelační analýza Korelace Lineární regrese Testy regresních koeficientů, prokazování závislosti Y na X 𝒀𝒊 = 𝜷 𝟎 + 𝜷 𝟏 ∙ 𝑿𝒊 + 𝑬𝒊 𝑬𝒊 ~ 𝑵(𝟎, 𝝈 𝟐) • Modelujeme závislost EY na X jako 𝑬𝒀 = 𝜷 𝟎 + 𝜷 𝟏 ∙ 𝑿 • Hodnotu 𝜷 𝟎 testujeme zřídka, protože hypotéza většinou nemá biologicky rozumnou interpretaci. • Nezávislost EY na X znamená, že 𝜷 𝟏 = 𝟎. • Hypotézu 𝑯 𝟎: 𝜷 𝟏 = 𝟎 testujeme pomocí statistiky 𝑻 = 𝒃 𝟏 − 0 𝑺. 𝑬. (𝒃 𝟏) ~ 𝑯 𝟎 𝒕 𝒏−𝟐 Toto je jeden z hlavních výsledků regresní analýzy. Pokud p-hodnota < α, zamítám hypotézu o nezávislosti, tedy závislost Y na X je průkazná. Např.: > summary(lm(syn~otec)) Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 88.01687 11.49887 7.654 1.36e-12 *** otec 0.50096 0.06548 7.651 1.39e-12 *** Regresní a korelační analýza Korelace Lineární regrese  syn = 88.02 + 0.50*otec Koeficient determinace R2 𝑹 𝟐 = 𝑺𝑺 𝑹𝑬𝑮 𝑺𝑺 𝑻𝑶𝑻 = 1 − 𝑆𝑆 𝐸 𝑆𝑆 𝑇𝑂𝑇 • 𝑅2 ∈ 0,1 • Interpretujeme jako podíl vysvětlené variability vzhledem k celkové variabilitě v datech Y • Bezrozměrný koeficient, často vyjádřený v procentech • Koeficient ukazuje, jestli má model smysl, jestli vysvětlí nějaký podstatný díl variability. • Pro lineární regresi platí 𝑅2 = 𝑟𝑋𝑌 2 (Pearsonův korelační koeficient ^2) Poznámka: R2 se může velmi měnit s množinou zahrnutých pozorování. Odlehlé pozorování může hodnotu R2 i zdvojnásobit prostě proto, že má velký reziduální čtverec, kterým zvětší jak reziduální průměrný čtverec, tak regresní (modelový) průměrný čtverec. Naše radost nad množstvím vysvětlené variability pak může být vratká a krátká … Regresní a korelační analýza Korelace Lineární regrese Test celého modelu jednoduché lineární regrese Např.: > anova(lm(syn~otec)) Analysis of Variance Table Response: syn Df Sum Sq Mean Sq F value Pr(>F) otec 1 1800.7 1800.69 58.532 1.392e-12 *** Residuals 171 5260.7 30.76  Tabulka analýzy rozptylu: porovnávám variabilitu vysvětlenou pomocí proměnné X (výška otce) s variabilitou reziduální, která zbyde po aplikaci modelu.  F-statistika vypovídá o významnosti té části variability Y, kterou lze vysvětlit modelem (STAT) nebo přidáním další vysvětlující proměnné (R, rozdíl později).  V případě jednoduché lineární regrese s jednou nezávislou proměnnou je p-hodnota F-testu analýzy rozptylu shodná s p-hodnotou t-testu nenulovosti koeficientu b1. To je proto, že v tomto nejjednodušším případě platí F = T2 ~ F1, n-2 Regresní a korelační analýza Korelace Lineární regrese H0: model vysvětlí jen nevýznamný díl variability 𝐹 = 𝑆𝑆 𝑅𝐸𝐺 1 𝑆𝑆 𝐸 𝑛 − 2 ~ 𝐹1,𝑛−2 Porovnáváme s kvantilem 𝐹1,𝑛−2 −1 1 − 𝛼 2 , zde = 5.11 Konfidenční interval pro celou regresní přímku Regresní a korelační analýza Korelace Lineární regrese Model lineární regrese a příčinná závislost Ideálně Y logicky závisí na X. Je-li vztah závislosti nejasný a obě proměnné jsou zatíženy náhodnou chybou, studujeme spíše korelaci proměnných. V praxi používáme regresi i ve sporných případech, kdy kauzální vztah není jasný. Přesto nás zajímá rovnice, která vztah obou proměnných (v daném uspořádání) popisuje. Mluvíme pak spíše o vysvětlované a vysvětlující proměnné a signifikantní model považujeme jen za nepřímý „důkaz“ příčinné závislosti Y na X. Statistickými prostředky nelze dokazovat příčinné závislosti (kauzalitu)! To umíme dělat jen manipulativními experimenty, kdy jsme schopni měnit hodnoty jen jedné proměnné, zatímco ostatní uvažované proměnné udržujeme na stálé úrovni. Interpretace i predikce modelu je založena především na zkoumaném rozsahu hodnot vysvětlující proměnné. Se změnou rozsahu často narazíme na nelinearitu (v přírodě spíše běžnou) a náš model přestává platit. Regresní a korelační analýza Korelace Lineární regrese Ověřování předpokladů – regresní diagnostika [regression diagnostics] STAT: Regresní a korelační analýza Korelace Lineární regrese Ověřování předpokladů – diagnostické grafy STAT: • Histogram reziduí (normalita): záložka Rezidua • Q-Q plot reziduí (normalita): Základ nebo Pravděpodobnostní grafy • Rezidua vs. Předpovědi (stejnost rozptylu): Bodové grafy. Tento graf má odhalit závislost rozptylu σ2 na (předpovídané) střední hodnotě Y. Správně mají být body rozložené stejnoměrně podle vodorovné osy. • Rezidua vs. Nezávislé proměnné (stejnost rozptylu): Rezidua. V této kombinaci zkoumáme případnou závislost rozptylu σ2 na jednotlivých vysvětlujících proměnných. Správně jsou body rozložené stejnoměrně podle vodorovné osy. Regresní a korelační analýza Korelace Lineární regrese Ověřování předpokladů – diagnostické grafy STAT: • Korelace mezi po sobě jdoucími reziduály [autocorrelation](nezávislost mezi Yi): Detaily. Durbin-Watsonova statistika. Výsledek nazvaný Sériové korelace udává korelaci bodů daných souřadnicemi [Ui, Ui+1]. Vychází z úvahy, že závislá pozorování Yi a Yi+1 budou mít podobnou odchylku od průměru. Například sourozenci budou mít podobně vychýlenou výšku. Nebo dotazník vyplněný stejným člověkem bude mít podobné odpovědi. To může fungovat za předpokladu, že pozorování v tabulce jsou zapsána tak, jak byla získána v „terénu“. Pokud by takto závislých pozorování bylo v datech hodně, byla by Sériová korelace výrazně odlišná od nuly. Regresní a korelační analýza Korelace Lineární regrese Ověřování předpokladů – diagnostické grafy a statistiky STAT: • Mahalanobisova vzdálenost (odlehlá pozorování [outlier]): Odlehlé hodnoty. Typ odlehlých hodnot: zvolit. Počítá prostorovou vzdálenost pozorování od centroidu (těžiště) vysvětlujících proměnných, upravenou pro korelované proměné. Výstupní tabulka je uspořádána od největších odchylek po nejmenší, takže potenciálně problematická, odlehlá pozorování jsou na prvních řádcích. • Cookova vzdálenost (příliš vlivná pozorování [leverage case]): Odlehlé hodnoty. Typ odlehlých hodnot: zvolit. Pro každé pozorování spočte rozdíl v odhadu regresních koeficientů v modelu s a bez daného řádku (pozorování). Pokud je rozdíl velký, je jasné, že dané pozorování podstatně ovlivňuje směr regresní přímky, tedy celého modelu. Opět, nejvlivnější pozorování jsou na prvních řádcích. Regresní a korelační analýza Korelace Lineární regrese Ověřování předpokladů – regresní diagnostika R: model <- lm(Y~X) model$reziduals … s tímto vektorem pak tvořím histogramy a Q-Q diagramy plot(model) … 6 předchystaných grafů, předvolba tiskne 1.,2.,3. a 5. graf. Rezidua vs. Předpovědi (stejnost rozptylu): Tento graf má odhalit závislost rozptylu σ2 na (předpovídané) střední hodnotě Y. Správně mají být body rozložené stejnoměrně podle vodorovné osy. Q-Q plot reziduí (normalita): Regresní analýza Lineární regrese Ověřování předpokladů Mnohonásobná regrese Kvadratická regrese Ověřování předpokladů – regresní diagnostika R: plot(model) Odmocněná Rezidua vs. Předpovědi (stejnost rozptylu, normalita). Při porušení předpokladu vykazují body Nějaký druh závislosti (lineární či nelineární). Cookova vzdálenost (příliš vlivná pozorování): Pro každé pozorování spočte rozdíl v odhadu regresních koeficientů v modelu s a bez daného řádku (pozorování). Pokud je rozdíl velký, je jasné, že dané pozorování podstatně ovlivňuje směr regresní přímky, tedy celého modelu. [lever = páka; leverage = vliv páky, páčení] Regresní analýza Lineární regrese Ověřování předpokladů Mnohonásobná regrese Kvadratická regrese Ověřování předpokladů – regresní diagnostika R: Rezidua vs. Nezávislé proměnné: ilustruje případnou závislost rozptylu na hodnotách vysvětlujících, nezávislých proměnných. V Rku možnost Breuschova-Paganova testu (knihovna lmtest) > bptest(model, varformula=~ …, data = …) Regresní analýza Lineární regrese Ověřování předpokladů Mnohonásobná regrese Kvadratická regrese Mnohonásobná lineární regrese [multiple linear regression] Poznámka: Něco jiného je mnohorozměrná regrese [multidimensional regression], ve které modeluji více závislých proměnných pomocí více nezávislých proměnných. Model: 𝒀𝒊 = 𝜷 𝟎 + 𝜷 𝟏 ∙ 𝑿𝒊 + 𝜷 𝟐 ∙ 𝑽𝒊 + 𝜷 𝟑 ∙ 𝑾𝒊 + 𝑬𝒊 𝐤 = 𝟑, 𝑬𝒊 ~ 𝑵(𝟎, 𝝈 𝟐) Jiný zápis: 𝒀𝒊 = 𝜷 𝟎 + 𝜷 𝟏 ∙ 𝑿 𝟏𝒊 + 𝜷 𝟐 ∙ 𝑿 𝟐𝒊 + 𝜷 𝟑 ∙ 𝑿 𝟑𝒊 + 𝑬𝒊 𝑿 = 𝑋11 𝑋21 𝑋31 𝑋12 ⋮ 𝑋22 ⋮ 𝑋32 ⋮ 𝑋1𝑛 𝑋2𝑛 𝑋3𝑛 Odhad rozptylu 𝝈 𝟐: 𝑆2 = 𝑆𝑆 𝐸 𝑛−𝑘−1 Výsledky: odhady regresních koeficientů 𝑏0 , 𝑏1 , 𝑏2 , 𝑏3 ; 𝑅2 ; 𝐹 − test modelu Interpretace 𝒃𝒋 : o kolik vzroste (klesne) hodnota Y, když 𝑿𝒋 vzroste o jednotku a ostatní vysvětlující proměnné se nezmění. Regresní analýza Lineární regrese Ověřování předpokladů Mnohonásobná regrese Kvadratická regrese Hodnoty vysvětlujících proměnných se pak dají zapsat jako matice: Počet pozorování – počet regresorů – 1 Mnohonásobná lineární regrese Model: 𝒀𝒊 = 𝜷 𝟎 + 𝜷 𝟏 ∙ 𝑿 𝟏𝒊 + 𝜷 𝟐 ∙ 𝑿 𝟐𝒊 + 𝜷 𝟑 ∙ 𝑿 𝟑𝒊 + 𝑬𝒊 𝐤 = 𝟑, 𝑬𝒊 ~ 𝑵(𝟎, 𝝈 𝟐) Hodnocení regresních koeficientů: Hypotéza H0: 𝒃𝒋 = 𝟎  𝑇 = 𝒃 𝒋−0 𝑺.𝑬.(𝒃 𝒋) ~ 𝑯 𝟎 𝒕 𝒏−𝒌−𝟏  znamená to, že proměnná 𝑿𝒋 nepřidá do modelu novou informaci o střední hodnotě Y, nic významně nového nevysvětlí. Konfidenční interval 𝜷𝒋 : 𝒃𝒋 − 𝑆. 𝐸. 𝒃𝒋 ∙ 𝒕 𝒏−𝒌−𝟏 1 − Τ𝛼 2 , 𝒃𝒋 + 𝑆. 𝐸. 𝒃𝒋 ∙ 𝒕 𝒏−𝒌−𝟏 1 − Τ𝛼 2 Porovnání vlivu regresorů na Y mezi sebou  přepočítám na standardizovaný tvar: 𝑏𝑗 ∗ = 𝑏𝑗 ∙ 𝑠𝑑(𝑋 𝑗) 𝑠𝑑(𝑌) Příklad: % tuku ~ výška + váha. 𝑏 𝑉𝑌𝑆𝐾𝐴 ∗ = −0.254, 𝑏 𝑉𝐴𝐻𝐴 ∗ = 0.968 Mohu říci, že váha má zhruba 4-krát větší vliv na výsledné % tuku než výška. Regresní analýza Lineární regrese Ověřování předpokladů Mnohonásobná regrese Kvadratická regrese Příklady Regresní analýza Lineární regrese Ověřování předpokladů Mnohonásobná regrese Kvadratická regrese