Korelační a regresní analýza 1.Pearsonův korelační koeficient 2.jednoduchá regresní analýza 3.vícenásobná regresní analýza 4. 4. Pearsonův korelační koeficient ou intervalových a poměrových dat můžeme jako míru asociace – vztahu mezi proměnnými použít Pearsonův korelační koeficient okorelace nko = s, spolu, vzájemně nrelace = vztah nkorelace = vzájemný vztah proměnných Pearsonův korelační koeficient oabsolutní hodnota koeficientu vyjadřuje sílu (těsnost) vztahu oznaménko (+ nebo -) směr vztahu orozsah -1 až +1 ooznačuje se r o Pearsonův korelační koeficient osám o sobě je deskriptivní statistikou, ale podobně jako u ostatních měr asociace je možno spočíst statistickou významnost ozávisí na velikosti výběru – čím vyšší, tím nižší koeficient vychází průkazný o Pearsonův korelační koeficient oje mírou pouze pro lineární vztahy opřed výpočtem je vhodné zobrazit vztah mezi proměnnými také graficky – tzv. scatter (dvourozměrný tečkový diagram) Scatter opozitivní vztah (přímá úměra) – čím vyšší hodnoty proměnné X, tím vyšší hodnoty proměnné Y or > 0 Scatter onegativní vztah (nepřímá úměra) – čím vyšší hodnoty proměnné X, tím nižší hodnoty proměnné Y or < 0 o Scatter ožádný vztah - hodnoty proměnné X nesouvisí s hodnotami proměnné Y or = 0 Scatter onelineární vztah or = 0 o Příklad ojak spolu souvisí pocit štěstí a míra extraverze? o10 osob, 2 proměnné – skór z dotazníku štěstí a skór ze škály extraverze o Příklad Příklad štěstí 15 8 7 18 4 12 10 10 6 9 extraverze 12 7 5 14 6 3 5 10 4 13 Příklad ovýpočet r n n img8 Příklad oSPXY= n o o SSX= o o o SSY= img9 img10 img11 Příklad oSPXY= 91,9 nSSX= 158,9 o SSY= 144,9 o or = 91,9/( 158,9*144,9) or = 0,606 o Výstup v SPSS Interpretace r onení shoda v tom, jaká hodnota r je považována za těsný vztah ointerpretace navržená Guilfordem: n<0.20 zanedbatelný vztah n0.20-0.40 nepříliš těsný vztah n0.40-0.70 středně těsný vztah n0.70-0.90 velmi těsný vztah n>0.90 extrémně těsný vztah Interpretace r opro lepší interpretaci je vhodné převést koeficient korelace na koeficient determinace (r2) oukazuje, kolik rozptylu v jedné proměnné může být vysvětleno rozptylem ve druhé proměnné Interpretace r ov našem příkladu nr = 0,606 nr2 = 0,367 o36,7% rozdílů v míře štěstí můžeme vysvětlit rozdíly v míře extraverze Interpretace r okorelace neznamená příčinný vztah mezi proměnnými!! nten můžeme ověřovat pouze experimentem, kdy jsou všechny ostatní proměnné udržovány konstatní, proměnná X předchází Y v čase atd. Faktory ovlivňující r oomezený rozsah hodnot proměnné opoužití extrémních skupin onehomogenní soubor oextrémní hodnoty (outliers) onelineární vztahy oreliabilita použitých nástrojů o Omezený rozsah hodnot oomezený rozsah hodnot jedné nebo obou proměnných snižuje hodnotu r ostejně tak nízká variabilita (extrémní případ:pokud by všechny hodnoty 1 proměnné byly stejné, zákonitě r=0) Použití extrémních skupin opoužití extrémních skupin (např. jen osob s vysokým IQ) vede k vyššímu r o Nehomogenní soubor omůže zkreslit r jak směrem nahoru, tak dolů Extrémní hodnoty oextrémní hodnoty v jedné nebo obou proměnných mohou r výrazně zkreslit (nejen hodnotu, ale i směr), zvláště když je počet osob v souboru nízký Extrémní hodnoty or= 0,606 or= 0,766 Neparametrický koeficient opro ordinální data je možno spočítat Spearmanův koeficient pořadové korelace (r) opočítá se tak, že nhodnoty obou proměnných se seřadí od nejnižší po nejvyšší a přidělí se jim pořadí nz pořadí se pak počítá Pearsonův koeficient korelace Parciální korelace oparciální korelace je taková korelace mezi dvěma proměnnými, kdy kontrolujeme vliv třetí proměnné na obě z nich onapř. chceme zjistit, jaký je vztah mezi prospěchem na SŠ a prospěchem na VŠ; obě proměnné jsou nejspíš ovlivněny IQ Regresní analýza ovýsledkem regresní analýzy je matematický model vztahu mezi dvěma nebo více proměnnými osnažíme se z jedné proměnné nebo lineární kombinace více proměnných predikovat hodnoty další proměnné Regresní analýza odva typy proměnných: predikovaná (závislá) proměnná a prediktory (nezávisle proměnné) opredikovaná proměnná se označuje Y, prediktory X1, X2 …Xn opouze 1 prediktor – jednoduchá regrese ovíce prediktorů – vícenásobná regrese o Regresní analýza oregresní analýza umožňuje nporozumět vztahům mezi proměnnými, npredikovat hodnoty proměnné Y z hodnot proměnné X (s určitou přesností) – např. z hodnot známek na střední škole nebo z počtu bodů u přijímacího testu předpovědět úspěšnost na VŠ Jednoduchá regresní analýza opříklad – Jak souvisí vzdělání respondenta se vzděláním otce? otj. jak dobře můžeme předpovědět počet let formálního vzdělání respondenta z údaje o počtu let vzdělání jeho otce? Jednoduchá regresní analýza Jednoduchá regresní analýza osnažíme se najít rovnici tzv. regresní přímky oregresní přímka je taková přímka, od které je vzdálenost bodů (představujících naměřená data) co nejménší otaková přímka, která nejlépe vystihuje data Jednoduchá regresní analýza Jednoduchá regresní analýza ojednou z metod, jak regresní přímku nalézt, je metoda nejmenších čtverců oje zvolena taková přímka, kdy platí, že součet čtverců vzdáleností jednotlivých bodů od přímky je minimální Jednoduchá regresní analýza oobecná rovnice regresní přímky o Y’ = a + bX oa je konstanta (predikovaná hodnota Y, když hodnota X je 0) ob je směrnice regresní přímky (úhel přímky vzhledem k ose; kolikrát se Y zvětší s každou jednotkou X); Jednoduchá regresní analýza ov příkladu vychází rovnice regresní přímky Y’ = 9,93 + 0,32*X opro děti otců s 0 lety vzdělání předpovídáme necelých 10 let vzdělání os každým dalším rokem otcova vzdělání předpovídáme o 0,32 roku vzdělání respondenta více nnapř. pro děti otců s 12 lety vzdělání je predikovaná hodnota jejich vlastního vzdělání 13,8 let Výstup v SPSS Vícenásobná regresní analýza opredikujeme závislou proměnnou z více prediktorů ovliv každého z prediktorů na závislou proměnnou je kontrolován pro vliv všech ostatních prediktorů (jde tedy o vliv „očištěný od vlivů ostatních proměnných a tudíž počítáme parciální koeficienty) Vícenásobná regresní analýza opříklad – kromě vzdělání otce (X1) může mít na dosažené vzdělání vliv také počet dětí v rodině (X2) orovnice regresní přímky je o Y’ = a + b1X1 + b2X2 o Vícenásobná regresní analýza oY’ = 10,68 + 0,30*X1 – 0,13*X2 ovliv vzdělání otce (b=0,30) je o něco menší než u jednoduché regresní analýzy (b=0,32) – je kontrolován pro počet dětí v rodině, který je zřejmě ovlivněn také vzděláním otce ovliv počtu dětí v rodině je záporný – tj. čím více dětí, tím nižší vzdělání Vícenásobná regresní analýza ovícenásobná regresní analýza nám umožní srovnat vliv všech prediktorů na závislou proměnnou omůžeme dojít k závěru, že větší vliv na vzdělání respondenta má vzdělání otce než počet dětí v rodině? Vícenásobná regresní analýza opokud chceme srovnávat vliv prediktorů měřených v různých jednotkách, je nutné použít tzv. standardizované regresní koeficienty oukazují, kolikrát vzroste hodnota závislé proměnné, pokud se změní hodnota prediktoru o 1 směrodatnou odchylku a hodnoty ostatních prediktorů přitom zůstanou konstatní Výstup v SPSS Vícenásobná regresní analýza obeta pro vzdělání otce je 0,43 opro počet dětí v rodině -0,13 ovětší vliv má tedy vzdělání otce než počet dětí v rodině Vícenásobná regresní analýza okromě regresních koeficientů je počítán také tzv. koeficient vícenásobné korelace – korelace všech prediktorů se závislou proměnnou; ozn. R ojde vlastně o korelaci mezi pozorovanými hodnotami závislé proměnné a hodnotami predikovanými na základě regresního modelu Vícenásobná regresní analýza okoeficient vícenásobné determinace – tzv. % vysvětleného rozptylu (závislé proměnné) lineární kombinací prediktorů; ozn. R2 Výstup v SPSS Vícenásobná regresní analýza ou jednoduché regresní analýzy je koeficient vícenásobné korelace roven korelaci mezi oběma proměnnými Testování hypotéz v regresní analýze ojsou testovány 2 typy hypotéz o1) zda se R průkazně liší od 0 ntestuje se analýzou rozptylu (porovnává rozptyl vysvětlený regresním modelem a reziduální rozptyl) o2) zda se regresní koeficienty průkazně liší od 0 ntestuje se t-testem Výstup v SPSS Výstup v SPSS Předpoklady regresní analýzy oskóry v proměnných jsou nezávislé (nejde např. o opakovaná měření) odostatečná variabilita všech proměnných orozdělení hodnot proměnných je normální nu malých výběrů zkontrolovat extrémní hodnoty Předpoklady regresní analýzy ovztahy mezi Y a každou X jsou lineární nzkontrolovat scatterem ovzájemné korelace mezi prediktory nejsou příliš vysoké (tzv. problém mulikolinearity) npokud ano, je vhodné buď některou z nich vyřadit, nebo z nich vytvořit např. faktorovou analýzou jeden skór Předpoklady regresní analýzy odostatečně velký počet osob ve výběru vzhledem k počtu prediktorů v modelu Kontrolní otázky oco vyjadřuje absolutní hodnota Pearsonova koeficientu korelace? a co jeho znaménko (+ nebo -)? oco je to koeficient determinace? očím může být zkreslen korelační koeficient? oúčel regresní analýzy oobecná rovnice regresní přímky ojak se interpretují regresní koeficienty oco je to koeficient vícenásobné korelace? opředpoklady regresní analýzy