Přednáška Korelace Jednoduchá regresní analýza Vícenásobná regresní analýza Pearsonův korelační koeficient o u intervalových a poměrových dat můžeme jako míru asociace -- vztahu mezi proměnnými použít Pearsonův korelační koeficient o korelace n ko = s, spolu, vzájemně n relace = vztah n korelace = vzájemný vztah proměnných Pearsonův korelační koeficient o absolutní hodnota koeficientu vyjadřuje sílu (těsnost) vztahu o znaménko (+ nebo -) směr vztahu o rozsah -1 až +1 o označuje se r Pearsonův korelační koeficient o je mírou pouze pro lineární vztahy o před výpočtem je vhodné zobrazit vztah mezi proměnnými graficky -- tzv. scatter (dvourozměrný bodový diagram) Scatter o pozitivní vztah (přímá úměra) -- čím vyšší hodnoty proměnné X, tím vyšší hodnoty proměnné Y o r > 0 Scatter o negativní vztah (nepřímá úměra) -- čím vyšší hodnoty proměnné X, tím nižší hodnoty proměnné Y o r < 0 Scatter o žádný vztah - hodnoty proměnné X nesouvisí s hodnotami proměnné Y o r = 0 Scatter o nelineární vztah o r = 0 Pearsonův korelační koeficient o sám o sobě je deskriptivní statistikou, ale podobně jako u ostatních měr asociace je možno spočíst statistickou významnost o závisí na velikosti výběru -- čím vyšší, tím nižší koeficient vychází průkazný Příklad o jak spolu souvisí pocit štěstí a míra extraverze? o 10 osob, 2 proměnné -- skór z dotazníku štěstí a skór ze škály extraverze Příklad Příklad Příklad o výpočet r Příklad o SP[XY]= SS[X]= SS[Y]= Příklad o SP[XY]= 91,9 SS[X]= 158,9 SS[Y]= 144,9 r = 91,9/( 158,9*144,9) r = 0,606 Výstup ve Statistice Interpretace r o není shoda v tom, jaká hodnota r je považována za těsný vztah o interpretace navržená Guilfordem: n <0.20 zanedbatelný vztah n 0.20-0.40 nepříliš těsný vztah n 0.40-0.70 středně těsný vztah n 0.70-0.90 velmi těsný vztah n >0.90 extrémně těsný vztah Interpretace r o pro lepší interpretaci je možné převést koeficient korelace na koeficient determinace (r^2) o ukazuje, kolik rozptylu v jedné proměnné může být vysvětleno rozptylem ve druhé proměnné Interpretace r o v našem příkladu n r = 0,606 n r^2 = 0,367 o 36,7% rozdílů v míře štěstí můžeme vysvětlit rozdíly v míře extraverze Interpretace r o korelace neznamená příčinný vztah mezi proměnnými n ten můžeme ověřovat např. experimentem, kdy jsou všechny ostatní proměnné udržovány konstantní, proměnná X předchází Y v čase atd. Faktory ovlivňující r o omezený rozsah hodnot proměnné o použití extrémních skupin o nehomogenní soubor o extrémní hodnoty (outliers) o nelineární vztahy o reliabilita použitých nástrojů Omezený rozsah hodnot o omezený rozsah hodnot jedné nebo obou proměnných snižuje hodnotu r o stejně tak nízká variabilita (extrémní případ:pokud by všechny hodnoty 1 proměnné byly stejné, zákonitě r=0) Použití extrémních skupin o použití extrémních skupin (např. jen osob s vysokým IQ) vede k vyššímu r Nehomogenní soubor o může zkreslit r jak směrem nahoru, tak dolů Extrémní hodnoty o extrémní hodnoty v jedné nebo obou proměnných mohou r výrazně zkreslit (nejen hodnotu, ale i směr), zvláště když je počet osob v souboru nízký Extrémní hodnoty o r= 0,606 o r= 0,766 Neparametrický koeficient o pro ordinální data je možno spočítat Spearmanův koeficient pořadové korelace ( r) o počítá se tak, že n hodnoty obou proměnných se seřadí od nejnižší po nejvyšší a přidělí se jim pořadí n z pořadí se pak počítá Pearsonův koeficient korelace Parciální korelace o parciální korelace je taková korelace mezi dvěma proměnnými, kdy kontrolujeme vliv třetí proměnné na obě z nich o např. chceme zjistit, jaký je vztah mezi prospěchem na SŠ a prospěchem na VŠ; obě proměnné jsou nejspíš ovlivněny IQ Kontrolní otázky o co vyjadřuje absolutní hodnota Pearsonova koeficientu korelace? a co jeho znaménko (+ nebo -)? o co je to koeficient determinace? o čím může být zkreslen korelační koeficient? Regresní analýza o výsledkem regresní analýzy je matematický model vztahu mezi dvěma nebo více proměnnými o snažíme se z jedné proměnné nebo lineární kombinace více proměnných predikovat hodnoty další proměnné Regresní analýza o dva typy proměnných: predikovaná (závislá) proměnná a prediktory (nezávisle proměnné) [o ] predikovaná proměnná se označuje Y, prediktory X[1], X[2] ...X[n ]o pouze 1 prediktor -- jednoduchá regrese [o ] více prediktorů -- vícenásobná regrese [ ]Regresní analýza o regresní analýza umožňuje n porozumět vztahům mezi proměnnými, n predikovat hodnoty proměnné Y z hodnot proměnné X (s určitou přesností) -- např. z hodnot známek na střední škole nebo z počtu bodů u přijímacího testu předpovědět úspěšnost na VŠ Jednoduchá regresní analýza o příklad -- Jak souvisí vzdělání respondenta se vzděláním otce? o tj. jak dobře můžeme předpovědět počet let formálního vzdělání respondenta z údaje o počtu let vzdělání jeho otce? Jednoduchá regresní analýza Jednoduchá regresní analýza o snažíme se najít rovnici tzv. regresní přímky o regresní přímka je taková přímka, od které je vzdálenost bodů (představujících naměřená data) co nejmenší o taková přímka, která nejlépe vystihuje data Jednoduchá regresní analýza Jednoduchá regresní analýza o jednou z metod, jak regresní přímku nalézt, je metoda nejmenších čtverců o je zvolena taková přímka, kdy platí, že součet čtverců vzdáleností jednotlivých bodů od přímky je minimální Jednoduchá regresní analýza o obecná rovnice regresní přímky Y' = a + bX o a je konstanta (predikovaná hodnota Y, když hodnota X je 0) o b je směrnice regresní přímky (úhel přímky vzhledem k ose; kolikrát se Y zvětší s každou jednotkou X); Jednoduchá regresní analýza o v příkladu vychází rovnice regresní přímky Y' = 9,93 + 0,32*X o pro děti otců s 0 lety vzdělání předpovídáme necelých 10 let vzdělání o s každým dalším rokem otcova vzdělání předpovídáme o 0,32 roku vzdělání respondenta více n např. pro děti otců s 12 lety vzdělání je predikovaná hodnota jejich vlastního vzdělání 13,8 let Výstup ve Statistice Vícenásobná regresní analýza o predikujeme závislou proměnnou z více prediktorů o vliv každého z prediktorů na závislou proměnnou je kontrolován pro vliv všech ostatních prediktorů (jde tedy o vliv "očištěný" od vlivů ostatních proměnných a tudíž počítáme parciální koeficienty) Vícenásobná regresní analýza o příklad -- kromě vzdělání otce (X[1]) může mít na dosažené vzdělání vliv také počet dětí v rodině (X[2]) o rovnice regresní přímky je Y' = a + b[1]X[1] + b[2]X[2] Vícenásobná regresní analýza o Y' = 10,68 + 0,30*X[1] -- 0,13*X[2 ]o vliv vzdělání otce (b=0,30) je o něco menší než u jednoduché regresní analýzy (b=0,32) -- je kontrolován pro počet dětí v rodině, který je zřejmě ovlivněn také vzděláním otce o vliv počtu dětí v rodině je záporný -- tj. čím více dětí, tím nižší vzdělání Vícenásobná regresní analýza o vícenásobná regresní analýza nám umožní srovnat vliv všech prediktorů na závislou proměnnou o můžeme dojít k závěru, že větší vliv na vzdělání respondenta má vzdělání otce než počet dětí v rodině? Vícenásobná regresní analýza o pokud chceme srovnávat vliv prediktorů měřených v různých jednotkách, je nutné použít tzv. standardizované regresní koeficienty o ukazují, kolikrát vzroste hodnota závislé proměnné, pokud se změní hodnota prediktoru o 1 směrodatnou odchylku a hodnoty ostatních prediktorů přitom zůstanou konstantní Výstup ve Statistice Vícenásobná regresní analýza o beta pro vzdělání otce je 0,43 o pro počet dětí v rodině -0,13 o větší vliv má tedy vzdělání otce než počet dětí v rodině Vícenásobná regresní analýza o kromě regresních koeficientů je počítán také tzv. koeficient vícenásobné korelace -- korelace všech prediktorů se závislou proměnnou; ozn. R o jde vlastně o korelaci mezi pozorovanými hodnotami závislé proměnné a hodnotami predikovanými na základě regresního modelu Vícenásobná regresní analýza o koeficient vícenásobné determinace -- tzv. % vysvětleného rozptylu (závislé proměnné) lineární kombinací prediktorů; ozn. R^2 Výstup ve Statistice Vícenásobná regresní analýza o u jednoduché regresní analýzy je koeficient vícenásobné korelace roven korelaci mezi oběma proměnnými Testování hypotéz v regresní analýze o jsou testovány 2 typy hypotéz o 1) zda se R průkazně liší od 0 n testuje se analýzou rozptylu (porovnává rozptyl vysvětlený regresním modelem a reziduální rozptyl) o 2) zda se regresní koeficienty průkazně liší od 0 n testuje se t-testem Výstup ve Statistice Výstup ve Statistice Reziduály o výsledkem regresní analýzy jsou predikované skóry (na základě regresní rovnice) o z nich je možno odvodit reziduální skóry -- rozdíl mezi skutečnou a predikovanou hodnotou proměnné Předpoklady regresní analýzy o skóry v proměnných jsou nezávislé (nejde např. o opakovaná měření) o dostatečná variabilita všech proměnných o rozdělení hodnot proměnných je normální n u malých výběrů zkontrolovat extrémní hodnoty Předpoklady regresní analýzy o vztahy mezi Y a každou X jsou lineární n zkontrolovat scatterem o vzájemné korelace mezi prediktory nejsou příliš vysoké (tzv. problém mulikolinearity) n pokud ano, je vhodné buď některou z nich vyřadit, nebo z nich vytvořit např. faktorovou analýzou jeden skór Předpoklady regresní analýzy o rozdělení hodnot reziduálů je normální n zkontrolovat analýzou reziduálů -- histogramem, pravděpodobnostním grafem o dostatečně velký počet osob ve výběru vzhledem k počtu prediktorů v modelu (nejméně 10-20x více osob než prediktorů) Regresní analýza -- prezentace výsledků o jak model odpovídá datům (R^2), příp. výsledky ANOVA o přehled beta koeficientů, obvykle v tabulce a test jejich statistické významnosti (t a p) o výsledky analýzy residuálů (obvykle graficky) Kontrolní otázky o účel regresní analýzy o obecná rovnice regresní přímky o jak se interpretují regresní koeficienty o co je to koeficient vícenásobné korelace? o předpoklady regresní analýzy Literatura o Hendl, J. (2004): Přehled statistických metod zpracování dat. Praha: Portál