Parciální korelace Regresní analýza Parciální korelace o parciální (dílčí) korelace nám umožňují při výpočtu uměle vyloučit vliv některých proměnných o a odhalit tak případné zkreslení při zkoumání vztahů mezi proměnnými (viz přednášky z metodologie) Parciální korelace o příklad – zkoumáme vztah mezi proměnnými X a Y, a zajímá nás, zda tento vztah nějak není ovlivněn proměnnou Z Parciální korelace - příklad o zjistíme následující korelace X versus Y: r[XY] = 0.50 (r^2[XY] = 0.25) X versus Z: r[XZ] = 0.50 (r^2[XZ] = 0.25) Y versus Z: r[YZ] = 0.50 (r^2[YZ] = 0.25) Parciální korelace - příklad o r^2= koeficient determinace, tj. podíl společného rozptylu obou proměnných o pro každý pár proměnných je v tomto případě 25% (25% rozptylu proměnné X můžeme vysvětlit rozptylem v proměnné Y, atd.) Parciální korelace - příklad Parciální korelace - příklad o z obrázku je zřejmé, že nastává určité prolínání rozptylů všech tří proměnných o to znamená, že určitá část korelace mezi každou dvojicí proměnných (např. X a Y) souvisí s korelacemi těchto dvou proměnných se třetí proměnnou (tj. např. X se Z a Y se Z) o tj. z 25% společného rozptylu proměnných X a Y se určitá část (odhadem z obrázku více než polovina) prolíná s rozptylem proměnné Z Parciální korelace o výpočet parciální korelace nám umožní „změřit“ tuto oblast překrývajících se rozptylů přesně o a tak určit, jaká by byla korelace mezi dvěma proměnnými v případě, že by (hypoteticky) ani jedna z nich nekorelovala s touto třetí proměnnou (nebo také můžeme říct – kdyby byly hodnoty třetí proměnné konstatní) Parciální korelace - příklad o výpočet parciální korelace mezi X a Y s kontrolou proměnné Z o r[XY▪Z] = (r[XY] – (r[XZ]r[YZ]))/ √(1- r^2[XZ])(1- r^2[YZ]) o r[XY▪Z] = (0.50-(0.50)(0.50)/ √(1- 0.25)(1- 0.25) o r[XY▪Z] = 0.25/0.75 = 0.33 o (r^2[XY▪Z] = 0.11) Parciální korelace o příklad „ze života“ o chceme zjistit, jaký je vztah mezi počtem bodů ze závěrečného testu ze statistiky (Y) a celkovým počtem hodin stráveným během semestru studiem (X) o zjistíme, že r[XY] = 0.20 Parciální korelace o zajímá nás, jak je tento vztah ovlivněn třetí proměnnou – strachem studenta ze zkoušky ze statistiky o zjistíme, že r[XZ] = 0.80 (tj. čím větší strach, tím více se student připravoval) a r[YZ] = -0.40 (tj. čím větší strach, tím horší výsledek testu) Parciální korelace o parciální korelace mezi dobou studia a počtem bodů v testu s kontrolou míry strachu ze zkoušky je r[XY▪Z] = 0.95 o tj. pokud „odstraníme“ vliv strachu, je vztah mezi dobou strávenou přípravou na zkoušku a jejím výsledkem mnohem těsnější (0.20 vs 0.95) Regresní analýza o výsledkem regresní analýzy je matematický model vztahu mezi dvěma nebo více proměnnými o snažíme se z jedné proměnné nebo lineární kombinace více proměnných predikovat hodnoty další proměnné Regresní analýza o dva typy proměnných: predikovaná (závislá) proměnná a prediktory (nezávisle proměnné) [o ] predikovaná proměnná se označuje Y, prediktory X[1], X[2] …X[n ]o pouze 1 prediktor – jednoduchá regrese [o ] více prediktorů – vícenásobná regrese [ ]Regresní analýza o regresní analýza umožňuje n porozumět vztahům mezi proměnnými, n predikovat hodnoty proměnné Y z hodnot proměnné X (s určitou přesností) – např. z hodnot známek na střední škole nebo z počtu bodů u přijímacího testu předpovědět úspěšnost na VŠ Jednoduchá regresní analýza o příklad – Jak souvisí vzdělání respondenta se vzděláním otce? o tj. jak dobře můžeme předpovědět počet let formálního vzdělání respondenta z údaje o počtu let vzdělání jeho otce? Jednoduchá regresní analýza Jednoduchá regresní analýza o snažíme se najít rovnici tzv. regresní přímky o regresní přímka je taková přímka, od které je vzdálenost bodů (představujících naměřená data) co nejmenší o taková přímka, která nejlépe vystihuje data Jednoduchá regresní analýza Jednoduchá regresní analýza o jednou z metod, jak regresní přímku nalézt, je metoda nejmenších čtverců o je zvolena taková přímka, kdy platí, že součet čtverců vzdáleností jednotlivých bodů od přímky je minimální Jednoduchá regresní analýza o obecná rovnice regresní přímky Y’ = a + bX o a je konstanta (predikovaná hodnota Y, když hodnota X je 0) o b je směrnice regresní přímky (úhel přímky vzhledem k ose; kolikrát se Y zvětší s každou jednotkou X); Jednoduchá regresní analýza o v příkladu vychází rovnice regresní přímky Y’ = 9,93 + 0,32*X o pro děti otců s 0 lety vzdělání předpovídáme necelých 10 let vzdělání o s každým dalším rokem otcova vzdělání předpovídáme o 0,32 roku vzdělání respondenta více n např. pro děti otců s 12 lety vzdělání je predikovaná hodnota jejich vlastního vzdělání 13,8 let Výstup ve Statistice Vícenásobná regresní analýza o predikujeme závislou proměnnou z více prediktorů o vliv každého z prediktorů na závislou proměnnou je kontrolován pro vliv všech ostatních prediktorů (jde tedy o vliv „očištěný“ od vlivů ostatních proměnných a tudíž počítáme parciální koeficienty) Vícenásobná regresní analýza o příklad – kromě vzdělání otce (X[1]) může mít na dosažené vzdělání vliv také počet dětí v rodině (X[2]) o rovnice regresní přímky je Y’ = a + b[1]X[1] + b[2]X[2] Vícenásobná regresní analýza o Y’ = 10,68 + 0,30*X[1] – 0,13*X[2 ]o vliv vzdělání otce (b=0,30) je o něco menší než u jednoduché regresní analýzy (b=0,32) – je kontrolován pro počet dětí v rodině, který je zřejmě ovlivněn také vzděláním otce o vliv počtu dětí v rodině je záporný – tj. čím více dětí, tím nižší vzdělání Vícenásobná regresní analýza o vícenásobná regresní analýza nám umožní srovnat vliv všech prediktorů na závislou proměnnou o můžeme dojít k závěru, že větší vliv na vzdělání respondenta má vzdělání otce než počet dětí v rodině? Vícenásobná regresní analýza o pokud chceme srovnávat vliv prediktorů měřených v různých jednotkách, je nutné použít tzv. standardizované regresní koeficienty o ukazují, kolikrát vzroste hodnota závislé proměnné, pokud se změní hodnota prediktoru o 1 směrodatnou odchylku a hodnoty ostatních prediktorů přitom zůstanou konstatní Výstup ve Statistice Vícenásobná regresní analýza o beta pro vzdělání otce je 0,43 o pro počet dětí v rodině -0,13 o větší vliv má tedy vzdělání otce než počet dětí v rodině Vícenásobná regresní analýza o kromě regresních koeficientů je počítán také tzv. koeficient vícenásobné korelace – korelace všech prediktorů se závislou proměnnou; ozn. R o jde vlastně o korelaci mezi pozorovanými hodnotami závislé proměnné a hodnotami predikovanými na základě regresního modelu Vícenásobná regresní analýza o koeficient vícenásobné determinace – tzv. % vysvětleného rozptylu (závislé proměnné) lineární kombinací prediktorů; ozn. R^2 Výstup ve Statistice Vícenásobná regresní analýza o u jednoduché regresní analýzy je koeficient vícenásobné korelace roven korelaci mezi oběma proměnnými Testování hypotéz v regresní analýze o jsou testovány 2 typy hypotéz o 1) zda se R průkazně liší od 0 n testuje se analýzou rozptylu (porovnává rozptyl vysvětlený regresním modelem a reziduální rozptyl) o 2) zda se regresní koeficienty průkazně liší od 0 n testuje se t-testem Výstup ve Statistice Výstup ve Statistice Reziduály o výsledkem regresní analýzy jsou predikované skóry (na základě regresní rovnice) o z nich je možno odvodit reziduální skóry – rozdíl mezi skutečnou a predikovanou hodnotou proměnné Předpoklady regresní analýzy o skóry v proměnných jsou nezávislé (nejde např. o opakovaná měření) o dostatečná variabilita všech proměnných o rozdělení hodnot proměnných je normální n u malých výběrů zkontrolovat extrémní hodnoty Předpoklady regresní analýzy o vztahy mezi Y a každou X jsou lineární n zkontrolovat scatterem o vzájemné korelace mezi prediktory nejsou příliš vysoké (tzv. problém mulikolinearity) n pokud ano, je vhodné buď některou z nich vyřadit, nebo z nich vytvořit např. faktorovou analýzou jeden skór Předpoklady regresní analýzy o rozdělení hodnot reziduálů je normální n zkontrolovat analýzou reziduálů – histogramem, pravděpodobnostním grafem o dostatečně velký počet osob ve výběru vzhledem k počtu prediktorů v modelu (nejméně 10-20x více osob než prediktorů) Příklad prezentace výsledků Zápis výsledků - příklad o Regresní analýzou bylo zjištěno, že počet let formálního vzdělání respondenta je ovlivněn především vzděláním otce (beta=0,43), zčásti také počtem sourozenců respondenta (beta=-0,13). Vzdělání otce a vzdělání respondenta je v pozitivním vztahu; naopak čím vyšší počet sourozenců, tím nižší vzdělání respondenta. Regresní model vysvětloval celkem 23% rozptylu v počtu let vzdělání respondenta (F=157,9, p<0,001). Literatura o Hendl, kapitoly 9 a 10