Parciální korelace
                                          Regresní analýza

                                         Parciální korelace

o    parciální (dílčí) korelace nám umožňují při výpočtu uměle vyloučit vliv některých proměnných

o    a odhalit tak případné zkreslení při zkoumání vztahů mezi proměnnými (viz přednášky z
metodologie)

                                         Parciální korelace

o    příklad -- zkoumáme vztah mezi proměnnými X a Y, a zajímá nás, zda tento vztah nějak není
ovlivněn proměnnou Z

                                    Parciální korelace - příklad

o    zjistíme následující korelace

    X versus Y: r[XY] = 0.50 (r^2[XY] = 0.25)
X versus Z: r[XZ] = 0.50 (r^2[XZ] = 0.25)
Y versus Z: r[YZ] = 0.50 (r^2[YZ] = 0.25)

                                    Parciální korelace - příklad

o    r^2= koeficient determinace, tj. podíl společného rozptylu obou proměnných

o    pro každý pár proměnných je v tomto případě 25% (25% rozptylu proměnné X můžeme vysvětlit
rozptylem v proměnné Y, atd.)

                                    Parciální korelace - příklad

                                    Parciální korelace - příklad

o     z obrázku je zřejmé, že nastává určité prolínání rozptylů všech tří proměnných

o     to znamená, že určitá část korelace mezi každou dvojicí proměnných (např. X a Y) souvisí s
korelacemi těchto dvou proměnných se třetí proměnnou (tj. např. X se Z a Y se Z)

o     tj. z 25% společného rozptylu proměnných X a Y se určitá část (odhadem z obrázku více než
polovina) prolíná s rozptylem proměnné Z

                                         Parciální korelace

o    výpočet parciální korelace nám umožní "změřit" tuto oblast překrývajících se rozptylů přesně

o    a tak určit, jaká by byla korelace mezi dvěma proměnnými v případě, že by (hypoteticky) ani
jedna z nich nekorelovala s touto třetí proměnnou (nebo také můžeme říct -- kdyby byly hodnoty třetí
proměnné konstatní)

                                    Parciální korelace - příklad

o    výpočet parciální korelace mezi X a Y s kontrolou proměnné Z

o    r[XYsBZ] = (r[XY] -- (r[XZ]r[YZ]))/
           SQRT(1- r^2[XZ])(1- r^2[YZ])


o    r[XYsBZ] = (0.50-(0.50)(0.50)/
           SQRT(1- 0.25)(1- 0.25)

o    r[XYsBZ] = 0.25/0.75 = 0.33

o    (r^2[XYsBZ] = 0.11)

                                         Parciální korelace

o    příklad "ze života"

o    chceme zjistit, jaký je vztah mezi počtem bodů ze závěrečného testu ze statistiky (Y) a
celkovým počtem hodin stráveným během semestru studiem (X)

o    zjistíme, že r[XY] = 0.20


                                         Parciální korelace

o    zajímá nás, jak je tento vztah ovlivněn třetí proměnnou -- strachem studenta ze zkoušky ze
statistiky

o    zjistíme, že r[XZ] = 0.80 (tj. čím větší strach, tím více se student připravoval) a r[YZ] =
-0.40 (tj. čím větší strach, tím horší výsledek testu)

                                         Parciální korelace

o    parciální korelace mezi dobou studia a počtem bodů v testu s kontrolou míry strachu ze zkoušky
je
r[XYsBZ] = 0.95

o    tj. pokud "odstraníme" vliv strachu, je vztah mezi dobou strávenou přípravou na zkoušku a jejím
výsledkem mnohem těsnější (0.20 vs 0.95)

                                          Regresní analýza

o    výsledkem regresní analýzy je matematický model vztahu mezi dvěma nebo více proměnnými

o    snažíme se z jedné proměnné nebo lineární kombinace více proměnných predikovat hodnoty další
proměnné

                                          Regresní analýza

o    dva typy proměnných: predikovaná (závislá) proměnná a prediktory (nezávisle proměnné)

[o      ] predikovaná proměnná se označuje Y, prediktory X[1], X[2] ...X[n

]o    pouze 1 prediktor -- jednoduchá regrese

[o      ] více prediktorů -- vícenásobná regrese

[

                                         ]Regresní analýza

o    regresní analýza umožňuje

  n     porozumět vztahům mezi proměnnými,

  n     predikovat hodnoty proměnné Y z hodnot proměnné X (s určitou přesností) -- např. z hodnot
  známek na střední škole nebo z počtu bodů u přijímacího testu předpovědět úspěšnost na VŠ

                                    Jednoduchá regresní analýza

o    příklad -- Jak souvisí vzdělání respondenta se vzděláním otce?

o    tj. jak dobře můžeme předpovědět počet let formálního vzdělání respondenta z údaje o počtu let
vzdělání jeho otce?

                                    Jednoduchá regresní analýza

                                    Jednoduchá regresní analýza

o    snažíme se najít rovnici tzv. regresní přímky

o    regresní přímka je taková přímka, od které je vzdálenost bodů (představujících naměřená data)
co nejmenší

o    taková přímka, která nejlépe vystihuje data

                                    Jednoduchá regresní analýza

                                    Jednoduchá regresní analýza

o    jednou z metod, jak regresní přímku nalézt, je metoda nejmenších čtverců

o    je zvolena taková přímka, kdy platí, že součet čtverců vzdáleností jednotlivých bodů od přímky
je minimální

                                    Jednoduchá regresní analýza

o    obecná rovnice regresní přímky

              Y' = a + bX

o    a je konstanta (predikovaná hodnota Y, když hodnota X je 0)

o    b je směrnice regresní přímky (úhel přímky vzhledem k ose; kolikrát se Y zvětší s každou
jednotkou X);

                                    Jednoduchá regresní analýza

o     v příkladu vychází rovnice regresní přímky Y' = 9,93 + 0,32*X

o     pro děti otců s 0 lety vzdělání předpovídáme necelých 10 let vzdělání

o     s každým dalším rokem otcova vzdělání předpovídáme o 0,32 roku vzdělání respondenta více  

  n      např. pro děti otců s 12 lety vzdělání je predikovaná hodnota jejich vlastního vzdělání
  13,8 let

                                        Výstup ve Statistice

                                    Vícenásobná regresní analýza

o    predikujeme závislou proměnnou z více prediktorů

o    vliv každého z prediktorů na závislou proměnnou je kontrolován pro vliv všech ostatních
prediktorů (jde tedy o  vliv "očištěný" od vlivů ostatních proměnných a tudíž počítáme  parciální
koeficienty)

                                    Vícenásobná regresní analýza

o    příklad -- kromě vzdělání otce (X[1]) může mít na dosažené vzdělání vliv také počet dětí v
rodině (X[2])

o    rovnice regresní přímky je

    Y' = a + b[1]X[1] + b[2]X[2]


                                    Vícenásobná regresní analýza

o    Y' = 10,68 + 0,30*X[1] -- 0,13*X[2

]o    vliv vzdělání otce (b=0,30) je o něco menší než u jednoduché regresní analýzy (b=0,32) -- je
kontrolován pro počet dětí v rodině, který je zřejmě ovlivněn také vzděláním otce

o    vliv počtu dětí v rodině je záporný -- tj. čím více dětí, tím nižší vzdělání

                                    Vícenásobná regresní analýza

o    vícenásobná regresní analýza nám umožní srovnat vliv všech prediktorů na závislou proměnnou

o    můžeme dojít k závěru, že větší vliv na vzdělání respondenta má vzdělání otce než počet dětí v
rodině?

                                    Vícenásobná regresní analýza

o    pokud chceme srovnávat vliv prediktorů měřených v různých jednotkách, je nutné použít tzv.
standardizované regresní koeficienty

o    ukazují, kolikrát vzroste hodnota závislé proměnné, pokud se změní hodnota prediktoru o 1
směrodatnou odchylku a hodnoty ostatních prediktorů přitom zůstanou konstatní

                                        Výstup ve Statistice

                                    Vícenásobná regresní analýza

o    beta pro vzdělání otce je 0,43

o    pro počet dětí v rodině -0,13

o    větší vliv má tedy vzdělání otce než počet dětí v rodině

                                    Vícenásobná regresní analýza

o    kromě regresních koeficientů je počítán také tzv. koeficient vícenásobné korelace -- korelace
všech prediktorů se závislou proměnnou; ozn. R

o    jde vlastně o korelaci mezi pozorovanými hodnotami závislé proměnné a hodnotami predikovanými
na základě regresního modelu

                                    Vícenásobná regresní analýza

o    koeficient vícenásobné determinace -- tzv. % vysvětleného rozptylu (závislé proměnné) lineární
kombinací prediktorů; ozn. R^2

                                        Výstup ve Statistice

                                    Vícenásobná regresní analýza

o    u jednoduché regresní analýzy je koeficient vícenásobné korelace roven korelaci mezi oběma
proměnnými

                                Testování hypotéz v regresní analýze

o    jsou testovány 2 typy hypotéz

o    1) zda se R průkazně liší od 0

  n     testuje se analýzou rozptylu (porovnává rozptyl vysvětlený regresním modelem a reziduální
  rozptyl)

o    2) zda se regresní koeficienty průkazně liší od 0

  n     testuje se t-testem

                                        Výstup ve Statistice

                                        Výstup ve Statistice

                                             Reziduály

o    výsledkem regresní analýzy jsou predikované skóry (na základě regresní rovnice)

o    z nich je možno odvodit reziduální skóry -- rozdíl mezi skutečnou a predikovanou hodnotou
proměnné

                                    Předpoklady regresní analýzy

o    skóry v proměnných jsou nezávislé (nejde např. o opakovaná měření)

o    dostatečná variabilita všech proměnných

o    rozdělení hodnot proměnných je normální

  n     u malých výběrů zkontrolovat extrémní hodnoty

                                    Předpoklady regresní analýzy

o    vztahy mezi Y a každou X jsou lineární

  n     zkontrolovat scatterem

o    vzájemné korelace mezi prediktory nejsou příliš vysoké (tzv. problém mulikolinearity)

  n     pokud ano, je vhodné buď některou z nich vyřadit, nebo z nich vytvořit např. faktorovou
  analýzou jeden skór

                                    Předpoklady regresní analýzy

o    rozdělení hodnot reziduálů je normální

  n     zkontrolovat analýzou reziduálů -- histogramem, pravděpodobnostním grafem

o    dostatečně velký počet osob ve výběru vzhledem k počtu prediktorů v modelu (nejméně 10-20x více
osob než prediktorů)


                                             Literatura

o    Hendl, kapitoly 9 a 10