Parciální korelace Regresní analýza Parciální korelace oparciální (dílčí) korelace nám umožňují při výpočtu uměle vyloučit vliv některých proměnných oa odhalit tak případné zkreslení při zkoumání vztahů mezi proměnnými (viz přednášky z metodologie) Parciální korelace opříklad – zkoumáme vztah mezi proměnnými X a Y, a zajímá nás, zda tento vztah nějak není ovlivněn proměnnou Z Parciální korelace - příklad ozjistíme následující korelace o X versus Y: rXY = 0.50 (r2XY = 0.25) X versus Z: rXZ = 0.50 (r2XZ = 0.25) Y versus Z: rYZ = 0.50 (r2YZ = 0.25) Parciální korelace - příklad or2= koeficient determinace, tj. podíl společného rozptylu obou proměnných opro každý pár proměnných je v tomto případě 25% (25% rozptylu proměnné X můžeme vysvětlit rozptylem v proměnné Y, atd.) Parciální korelace - příklad Parciální korelace - příklad oz obrázku je zřejmé, že nastává určité prolínání rozptylů všech tří proměnných oto znamená, že určitá část korelace mezi každou dvojicí proměnných (např. X a Y) souvisí s korelacemi těchto dvou proměnných se třetí proměnnou (tj. např. X se Z a Y se Z) otj. z 25% společného rozptylu proměnných X a Y se určitá část (odhadem z obrázku více než polovina) prolíná s rozptylem proměnné Z Parciální korelace ovýpočet parciální korelace nám umožní „změřit“ tuto oblast překrývajících se rozptylů přesně oa tak určit, jaká by byla korelace mezi dvěma proměnnými v případě, že by (hypoteticky) ani jedna z nich nekorelovala s touto třetí proměnnou (nebo také můžeme říct – kdyby byly hodnoty třetí proměnné konstatní) Parciální korelace - příklad ovýpočet parciální korelace mezi X a Y s kontrolou proměnné Z orXY▪Z = (rXY – (rXZrYZ))/ √(1- r2XZ)(1- r2YZ) o orXY▪Z = (0.50-(0.50)(0.50)/ √(1- 0.25)(1- 0.25) orXY▪Z = 0.25/0.75 = 0.33 o(r2XY▪Z = 0.11) Parciální korelace opříklad „ze života“ ochceme zjistit, jaký je vztah mezi počtem bodů ze závěrečného testu ze statistiky (Y) a celkovým počtem hodin stráveným během semestru studiem (X) ozjistíme, že rXY = 0.20 o Parciální korelace ozajímá nás, jak je tento vztah ovlivněn třetí proměnnou – strachem studenta ze zkoušky ze statistiky ozjistíme, že nrXZ = 0.80 (tj. čím větší strach, tím více se student připravoval) na rYZ = -0.40 (tj. čím větší strach, tím horší výsledek testu) Parciální korelace o Parciální korelace oparciální korelace mezi dobou studia a počtem bodů v testu s kontrolou míry strachu ze zkoušky je rXY▪Z = 0.95 otj. pokud „odstraníme“ vliv strachu, je vztah mezi dobou strávenou přípravou na zkoušku a jejím výsledkem mnohem těsnější (0.20 vs 0.95) Regresní analýza ovýsledkem regresní analýzy je matematický model vztahu mezi dvěma nebo více proměnnými osnažíme se z jedné proměnné nebo lineární kombinace více proměnných predikovat hodnoty další proměnné Regresní analýza odva typy proměnných: predikovaná (závislá) proměnná a prediktory (nezávisle proměnné) opredikovaná proměnná se označuje Y, prediktory X1, X2 …Xn opouze 1 prediktor – jednoduchá regrese ovíce prediktorů – vícenásobná regrese o Regresní analýza oregresní analýza umožňuje nporozumět vztahům mezi proměnnými, npredikovat hodnoty proměnné Y z hodnot proměnné X (s určitou přesností) – např. z hodnot známek na střední škole nebo z počtu bodů u přijímacího testu předpovědět úspěšnost na VŠ Jednoduchá regresní analýza opříklad – Jak souvisí vzdělání respondenta se vzděláním otce? otj. jak dobře můžeme předpovědět počet let formálního vzdělání respondenta z údaje o počtu let vzdělání jeho otce? Jednoduchá regresní analýza Jednoduchá regresní analýza osnažíme se najít rovnici tzv. regresní přímky oregresní přímka je taková přímka, od které je vzdálenost bodů (představujících naměřená data) co nejmenší otaková přímka, která nejlépe vystihuje data Jednoduchá regresní analýza Jednoduchá regresní analýza ojednou z metod, jak regresní přímku nalézt, je metoda nejmenších čtverců oje zvolena taková přímka, kdy platí, že součet čtverců vzdáleností jednotlivých bodů od přímky je minimální Jednoduchá regresní analýza oobecná rovnice regresní přímky o Y’ = a + bX oa je konstanta (predikovaná hodnota Y, když hodnota X je 0) ob je směrnice regresní přímky (úhel přímky vzhledem k ose; kolikrát se Y zvětší s každou jednotkou X); Jednoduchá regresní analýza ov příkladu vychází rovnice regresní přímky Y’ = 9,93 + 0,32*X opro děti otců s 0 lety vzdělání předpovídáme necelých 10 let vzdělání os každým dalším rokem otcova vzdělání předpovídáme o 0,32 roku vzdělání respondenta více nnapř. pro děti otců s 12 lety vzdělání je predikovaná hodnota jejich vlastního vzdělání 13,8 let Výstup v SPSS o Vícenásobná regresní analýza opredikujeme závislou proměnnou z více prediktorů ovliv každého z prediktorů na závislou proměnnou je kontrolován pro vliv všech ostatních prediktorů (jde tedy o vliv „očištěný“ od vlivů ostatních proměnných a tudíž počítáme parciální koeficienty) Vícenásobná regresní analýza opříklad – kromě vzdělání otce (X1) může mít na dosažené vzdělání vliv také počet dětí v rodině (X2) oregresní rovnice se dvěma prediktory o Y’ = a + b1X1 + b2X2 o Vícenásobná regresní analýza oY’ = 10,68 + 0,30*X1 – 0,13*X2 ovliv vzdělání otce (b=0,30) je o něco menší než u jednoduché regresní analýzy (b=0,32) – je kontrolován pro počet dětí v rodině, který je zřejmě ovlivněn také vzděláním otce ovliv počtu dětí v rodině je záporný – tj. čím více dětí, tím nižší vzdělání Vícenásobná regresní analýza ovícenásobná regresní analýza nám umožní srovnat vliv všech prediktorů na závislou proměnnou omůžeme dojít k závěru, že větší vliv na vzdělání respondenta má vzdělání otce než počet dětí v rodině? Vícenásobná regresní analýza opokud chceme srovnávat vliv prediktorů měřených v různých jednotkách, je nutné použít tzv. standardizované regresní koeficienty oukazují, kolikrát vzroste hodnota závislé proměnné, pokud se změní hodnota prediktoru o 1 směrodatnou odchylku a hodnoty ostatních prediktorů přitom zůstanou konstatní Výstup v SPSS o Vícenásobná regresní analýza obeta pro vzdělání otce je 0,43 opro počet dětí v rodině -0,13 ovětší vliv má tedy vzdělání otce než počet dětí v rodině Vícenásobná regresní analýza okromě regresních koeficientů je počítán také tzv. koeficient vícenásobné korelace – korelace všech prediktorů se závislou proměnnou; ozn. R ojde vlastně o korelaci mezi pozorovanými hodnotami závislé proměnné a hodnotami predikovanými na základě regresního modelu Vícenásobná regresní analýza okoeficient vícenásobné determinace – tzv. % vysvětleného rozptylu (závislé proměnné) lineární kombinací prediktorů; ozn. R2 (angl. R square) Výstup v SPSS o Vícenásobná regresní analýza ou jednoduché regresní analýzy je koeficient vícenásobné korelace roven korelaci mezi oběma proměnnými Testování hypotéz v regresní analýze ojsou testovány 2 typy hypotéz o1) zda se R průkazně liší od 0 ntestuje se analýzou rozptylu (porovnává rozptyl vysvětlený regresním modelem a reziduální rozptyl) o2) zda se regresní koeficienty průkazně liší od 0 ntestuje se t-testem Výstup v SPSS o Výstup v SPSS o Reziduály ovýsledkem regresní analýzy jsou predikované skóry (na základě regresní rovnice) oz nich je možno odvodit reziduální skóry – rozdíl mezi skutečnou a predikovanou hodnotou proměnné Předpoklady regresní analýzy oskóry v proměnných jsou nezávislými měřeními odostatečná variabilita všech proměnných orozdělení hodnot proměnných je normální nu malých výběrů zkontrolovat extrémní hodnoty Předpoklady regresní analýzy ovztahy mezi Y a každou X jsou lineární nzkontrolovat scatterem ovzájemné korelace mezi prediktory nejsou příliš vysoké (tzv. problém mulikolinearity) npokud ano, je vhodné buď některou z nich vyřadit, nebo z nich vytvořit např. faktorovou analýzou jeden skór Předpoklady regresní analýzy orozdělení hodnot reziduálů je normální nzkontrolovat analýzou reziduálů – histogramem, pravděpodobnostním grafem odostatečně velký počet osob ve výběru vzhledem k počtu prediktorů v modelu (nejméně 10-20x více osob než prediktorů) o o Příklad prezentace výsledků příklad prezentace výsledků regresní analýzy Zápis výsledků - příklad oRegresní analýzou bylo zjištěno, že počet let formálního vzdělání respondenta je ovlivněn především vzděláním otce (beta=0,43), zčásti také počtem sourozenců respondenta (beta=-0,13). Vzdělání otce a vzdělání respondenta je v pozitivním vztahu; naopak čím vyšší počet sourozenců, tím nižší vzdělání respondenta. Regresní model vysvětloval celkem 23% rozptylu v počtu let vzdělání respondenta (F=157,9, p<0,001). o Literatura oHendl, kapitoly 9 a 10