Lineární regresní analýza Regresní analýza o výsledkem regresní analýzy je model vztahu mezi dvěma nebo více proměnnými o umožňuje přesněji než korelace popsat tvar vztahu mezi proměnnými o snažíme se z hodnot jedné proměnné nebo lineární kombinace více proměnných predikovat hodnoty další proměnné Regresní analýza o dva typy proměnných: predikovaná (závislá) proměnná a prediktory (nezávisle proměnné) o predikovaná proměnná se označuje také jako regresand, prediktor jako regresor [o ] predikovaná proměnná se označuje Y, prediktory X[1], X[2] ...X[n ]o pouze 1 prediktor -- jednoduchá regrese [o ] více prediktorů -- mnohonásobná regrese [ ]Regresní analýza o regresní analýza umožňuje n porozumět vztahům mezi proměnnými, n predikovat hodnoty proměnné Y z hodnot proměnné X (s určitou přesností) o např. z hodnot známek na střední škole nebo z počtu bodů u přijímacího testu předpovědět úspěšnost na VŠ Jednoduchá regresní analýza o příklad -- Jak souvisí vzdělání respondenta se vzděláním otce? o tj. jak dobře můžeme předpovědět počet let formálního vzdělání respondenta z údaje o počtu let vzdělání jeho otce? Jednoduchá regresní analýza Jednoduchá regresní analýza o snažíme se najít rovnici tzv. regresní přímky o regresní přímka je taková přímka, od které je vzdálenost bodů (představujících naměřená data) co nejmenší o taková přímka, která nejlépe vystihuje data Jednoduchá regresní analýza Jednoduchá regresní analýza o jednou z metod, jak regresní přímku nalézt, je metoda nejmenších čtverců o je zvolena taková přímka, kdy platí, že součet čtverců vzdáleností jednotlivých bodů od přímky je minimální Jednoduchá regresní analýza Jednoduchá regresní analýza o obecná rovnice regresní přímky Y' = a + bX o a je konstanta (predikovaná hodnota Y, když hodnota X je 0) o b je směrnice regresní přímky (úhel přímky vzhledem k ose; kolikrát se Y zvětší s každou jednotkou X); Jednoduchá regresní analýza o rozdíl mezi naměřenou a predikovanou hodnotou = reziduální hodnota predikce, chyba predikce (e) Jednoduchá regresní analýza o b = r[xy] * (s[y]/s[x]) o a = y -- b*x Jednoduchá regresní analýza o v příkladu vychází rovnice regresní přímky Y' = 9,93 + 0,32*X o pro děti otců s 0 lety vzdělání předpovídáme necelých 10 let vzdělání o s každým dalším rokem otcova vzdělání předpovídáme o 0,32 roku vzdělání respondenta více n např. pro děti otců s 12 lety vzdělání je predikovaná hodnota jejich vlastního vzdělání 13,8 let Výstup v SPSS Jednoduchá regresní analýza o pokud proměnné standardizujeme pomocí směrodatných odchylek a průměrů na z-skóry, pak n regresní přímka prochází počátkem os n regresní koeficient se rovná korelačnímu koeficientu Výstup v SPSS Mnohonásobná regresní analýza o predikujeme závislou proměnnou z více prediktorů o vliv každého z prediktorů na závislou proměnnou je kontrolován pro vliv všech ostatních prediktorů (jde tedy o vliv "očištěný" od vlivů ostatních proměnných - počítáme tzv. parciální koeficienty) Mnohonásobná regresní analýza o příklad -- kromě vzdělání otce (X[1]) může mít na dosažené vzdělání vliv také počet dalších dětí v rodině (X[2]) o rovnice regresní přímky je Y' = a + b[1]X[1] + b[2]X[2] Mnohonásobná regresní analýza o Y' = 10,68 + 0,30*X[1] -- 0,13*X[2 ]o vliv vzdělání otce (b=0,30) je o něco menší než u jednoduché regresní analýzy (b=0,32) -- je kontrolován pro počet dalších dětí v rodině, který je zřejmě mírně ovlivněn také vzděláním otce o vliv počtu dětí v rodině je záporný -- tj. čím více dětí, tím nižší vzdělání Mnohonásobná regresní analýza o mnohonásobná regresní analýza nám umožní srovnat vliv všech prediktorů na závislou proměnnou o můžeme dojít k závěru, že větší vliv na vzdělání respondenta má vzdělání otce než počet dětí v rodině? Mnohonásobná regresní analýza o pokud chceme srovnávat vliv prediktorů měřených v různých jednotkách, je nutné použít standardizované regresní koeficienty o ukazují, kolikrát vzroste hodnota závislé proměnné, pokud se změní hodnota prediktoru o 1 směrodatnou odchylku a hodnoty ostatních prediktorů přitom zůstanou konstatní Výstup v SPSS Mnohonásobná regresní analýza o beta pro vzdělání otce je 0,43 o pro počet dětí v rodině -0,13 o větší vliv má tedy vzdělání otce než počet dětí v rodině Mnohonásobná regresní analýza o kromě regresních koeficientů je počítán také tzv. koeficient mnohonásobné korelace -- korelace všech prediktorů se závislou proměnnou; ozn. R o jde o korelaci mezi pozorovanými hodnotami závislé proměnné a hodnotami predikovanými na základě regresního modelu Mnohonásobná regresní analýza o koeficient mnohonásobné determinace --% vysvětleného rozptylu (závislé proměnné) lineární kombinací prediktorů; ozn. R^2 Výstup v SPSS Mnohonásobná regresní analýza o u jednoduché regresní analýzy je koeficient mnohonásobné korelace roven korelaci mezi oběma proměnnými Testování hypotéz v regresní analýze o jsou testovány 2 typy hypotéz o 1) zda se R průkazně liší od 0 n testuje se analýzou rozptylu (porovnává rozptyl vysvětlený regresním modelem a reziduální rozptyl) o 2) zda se regresní koeficienty průkazně liší od 0 n testuje se t-testem Výstup v SPSS Výstup v SPSS Reziduály o výsledkem regresní analýzy jsou predikované skóry (na základě regresní rovnice) o z nich je možno odvodit reziduální skóry -- rozdíl mezi skutečnou a predikovanou hodnotou proměnné Předpoklady regresní analýzy o dostatečná variabilita všech proměnných o rozdělení hodnot proměnných je normální n u malých výběrů zkontrolovat extrémní hodnoty Předpoklady regresní analýzy o vztahy mezi Y a každou X jsou lineární n zkontrolovat scatterem o vzájemné korelace mezi prediktory nejsou příliš vysoké (tzv. problém mulikolinearity) n pokud ano, je vhodné buď některou z nich vyřadit, nebo z nich vytvořit např. faktorovou analýzou jeden skór Předpoklady regresní analýzy o rozdělení hodnot reziduálů je normální n zkontrolovat analýzou reziduálů -- histogramem, pravděpodobnostním grafem o dostatečně velký počet osob ve výběru vzhledem k počtu prediktorů v modelu (nejméně 10-20x více osob než prediktorů) Kontrolní otázky o účel regresní analýzy o obecná rovnice regresní funkce o jak se interpretují regresní koeficienty o co je to koeficient mnohonásobné korelace? o předpoklady regresní analýzy Literatura o Hendl, kapitoly 7.3 a 10