Regresní analýza o výsledkem regresní analýzy je matematický model vztahu mezi dvěma nebo více proměnnými o snažíme se z jedné proměnné nebo lineární kombinace více proměnných predikovat hodnoty další proměnné Regresní analýza o dva typy proměnných: predikovaná (závislá) proměnná a prediktory (nezávisle proměnné) [o ] predikovaná proměnná se označuje Y, prediktory X[1], X[2] ...X[n ]o pouze 1 prediktor -- jednoduchá regrese [o ] více prediktorů -- vícenásobná regrese [ ]Regresní analýza o regresní analýza umožňuje n porozumět vztahům mezi proměnnými, n predikovat hodnoty proměnné Y z hodnot proměnné X (s určitou přesností) -- např. z hodnot známek na střední škole nebo z počtu bodů u přijímacího testu předpovědět úspěšnost na VŠ Jednoduchá regresní analýza o příklad -- Jak souvisí vzdělání respondenta se vzděláním otce? o tj. jak dobře můžeme předpovědět počet let formálního vzdělání respondenta z údaje o počtu let vzdělání jeho otce? Jednoduchá regresní analýza Jednoduchá regresní analýza o snažíme se najít rovnici tzv. regresní přímky o regresní přímka je taková přímka, od které je vzdálenost bodů (představujících naměřená data) co nejmenší o taková přímka, která nejlépe vystihuje data Jednoduchá regresní analýza Jednoduchá regresní analýza o jednou z metod, jak regresní přímku nalézt, je metoda nejmenších čtverců o je zvolena taková přímka, kdy platí, že součet čtverců vzdáleností jednotlivých bodů od přímky je minimální Jednoduchá regresní analýza o obecná rovnice regresní přímky Y' = a + bX o a je konstanta (predikovaná hodnota Y, když hodnota X je 0) o b je směrnice regresní přímky (úhel přímky vzhledem k ose; kolikrát se Y zvětší s každou jednotkou X); Jednoduchá regresní analýza o v příkladu vychází rovnice regresní přímky Y' = 9,93 + 0,32*X o pro děti otců s 0 lety vzdělání předpovídáme necelých 10 let vzdělání o s každým dalším rokem otcova vzdělání předpovídáme o 0,32 roku vzdělání respondenta více n např. pro děti otců s 12 lety vzdělání je predikovaná hodnota jejich vlastního vzdělání 13,8 let Výstup ve Statistice Vícenásobná regresní analýza o predikujeme závislou proměnnou z více prediktorů o vliv každého z prediktorů na závislou proměnnou je kontrolován pro vliv všech ostatních prediktorů (jde tedy o vliv "očištěný" od vlivů ostatních proměnných a tudíž počítáme parciální koeficienty) Vícenásobná regresní analýza o příklad -- kromě vzdělání otce (X[1]) může mít na dosažené vzdělání vliv také počet dětí v rodině (X[2]) o rovnice regresní přímky je Y' = a + b[1]X[1] + b[2]X[2] Vícenásobná regresní analýza o Y' = 10,68 + 0,30*X[1] -- 0,13*X[2 ]o vliv vzdělání otce (b=0,30) je o něco menší než u jednoduché regresní analýzy (b=0,32) -- je kontrolován pro počet dětí v rodině, který je zřejmě ovlivněn také vzděláním otce o vliv počtu dětí v rodině je záporný -- tj. čím více dětí, tím nižší vzdělání Vícenásobná regresní analýza o vícenásobná regresní analýza nám umožní srovnat vliv všech prediktorů na závislou proměnnou o můžeme dojít k závěru, že větší vliv na vzdělání respondenta má vzdělání otce než počet dětí v rodině? Vícenásobná regresní analýza o pokud chceme srovnávat vliv prediktorů měřených v různých jednotkách, je nutné použít tzv. standardizované regresní koeficienty o ukazují, kolikrát vzroste hodnota závislé proměnné, pokud se změní hodnota prediktoru o 1 směrodatnou odchylku a hodnoty ostatních prediktorů přitom zůstanou konstantní Výstup ve Statistice Vícenásobná regresní analýza o beta pro vzdělání otce je 0,43 o pro počet dětí v rodině -0,13 o větší vliv má tedy vzdělání otce než počet dětí v rodině Vícenásobná regresní analýza o kromě regresních koeficientů je počítán také tzv. koeficient vícenásobné korelace -- korelace všech prediktorů se závislou proměnnou; ozn. R o jde vlastně o korelaci mezi pozorovanými hodnotami závislé proměnné a hodnotami predikovanými na základě regresního modelu Vícenásobná regresní analýza o koeficient vícenásobné determinace -- tzv. % vysvětleného rozptylu (závislé proměnné) lineární kombinací prediktorů; ozn. R^2 Výstup ve Statistice Vícenásobná regresní analýza o u jednoduché regresní analýzy je koeficient vícenásobné korelace roven korelaci mezi oběma proměnnými Testování hypotéz v regresní analýze o jsou testovány 2 typy hypotéz o 1) zda se R průkazně liší od 0 n testuje se analýzou rozptylu (porovnává rozptyl vysvětlený regresním modelem a reziduální rozptyl) o 2) zda se regresní koeficienty průkazně liší od 0 n testuje se t-testem Výstup ve Statistice Výstup ve Statistice Reziduály o výsledkem regresní analýzy jsou predikované skóry (na základě regresní rovnice) o z nich je možno odvodit reziduální skóry -- rozdíl mezi skutečnou a predikovanou hodnotou proměnné Předpoklady regresní analýzy o skóry v proměnných jsou nezávislé (nejde např. o opakovaná měření) o dostatečná variabilita všech proměnných o rozdělení hodnot proměnných je normální n u malých výběrů zkontrolovat extrémní hodnoty Předpoklady regresní analýzy o vztahy mezi Y a každou X jsou lineární n zkontrolovat scatterem o vzájemné korelace mezi prediktory nejsou příliš vysoké (tzv. problém mulikolinearity) n pokud ano, je vhodné buď některou z nich vyřadit, nebo z nich vytvořit např. faktorovou analýzou jeden skór Předpoklady regresní analýzy o rozdělení hodnot reziduálů je normální n zkontrolovat analýzou reziduálů -- histogramem, pravděpodobnostním grafem o dostatečně velký počet osob ve výběru vzhledem k počtu prediktorů v modelu (nejméně 10-20x více osob než prediktorů) Regresní analýza -- prezentace výsledků o jak model odpovídá datům (R^2), příp. výsledky ANOVA o přehled beta koeficientů, obvykle v tabulce a test jejich statistické významnosti (t a p) o výsledky analýzy residuálů (obvykle graficky) Kontrolní otázky o účel regresní analýzy o obecná rovnice regresní přímky o jak se interpretují regresní koeficienty o co je to koeficient vícenásobné korelace? o předpoklady regresní analýzy Literatura o Hendl, kapitoly 9 a 10