Přednáška

Korelace

Jednoduchá regresní analýza

Vícenásobná regresní analýza

                                   Pearsonův korelační koeficient

o    u intervalových a poměrových dat můžeme jako míru asociace -- vztahu mezi proměnnými použít
Pearsonův korelační koeficient

o    korelace

  n     ko = s, spolu, vzájemně

  n     relace = vztah

  n     korelace = vzájemný vztah proměnných

                                   Pearsonův korelační koeficient

o    absolutní hodnota koeficientu vyjadřuje sílu (těsnost) vztahu

o    znaménko (+ nebo -) směr vztahu

o    rozsah -1 až +1

o    označuje se r


                                   Pearsonův korelační koeficient

o    je mírou pouze pro lineární vztahy

o    před výpočtem je vhodné zobrazit vztah mezi proměnnými graficky -- tzv. scatter (dvourozměrný
bodový diagram)

                                              Scatter

o    pozitivní vztah (přímá úměra) -- čím vyšší hodnoty proměnné X, tím vyšší hodnoty proměnné Y

o    r > 0

                                              Scatter

o    negativní vztah (nepřímá úměra) -- čím vyšší hodnoty proměnné X, tím nižší hodnoty proměnné Y

o    r < 0


                                              Scatter

o    žádný vztah - hodnoty proměnné X nesouvisí s hodnotami proměnné Y

o    r = 0

                                              Scatter

o    nelineární vztah

o    r = 0


                                   Pearsonův korelační koeficient

o    sám o sobě je deskriptivní statistikou, ale podobně jako u ostatních měr asociace je možno
spočíst statistickou významnost

o    závisí na velikosti výběru -- čím vyšší, tím nižší koeficient vychází průkazný


                                              Příklad

o    jak spolu souvisí pocit štěstí a míra extraverze?

o    10 osob, 2 proměnné -- skór z dotazníku štěstí a skór ze škály extraverze


                                              Příklad

                                              Příklad

                                              Příklad

o     výpočet r

  
                                              Příklad

o     SP[XY]=

  
    SS[X]=


     SS[Y]=

                                              Příklad

o   SP[XY]= 91,9

  SS[X]= 158,9

   SS[Y]= 144,9


r = 91,9/( 158,9*144,9)

r = 0,606

  
                                        Výstup ve Statistice

                                           Interpretace r

o    není shoda v tom, jaká hodnota r je považována za těsný vztah

o    interpretace navržená Guilfordem:

  n     <0.20       zanedbatelný vztah

  n     0.20-0.40  nepříliš těsný vztah

  n     0.40-0.70  středně těsný vztah

  n     0.70-0.90  velmi těsný vztah

  n     >0.90       extrémně těsný vztah

                                           Interpretace r

o    pro lepší interpretaci je možné převést koeficient korelace na koeficient determinace (r^2)

o    ukazuje, kolik rozptylu v jedné proměnné může být vysvětleno rozptylem ve druhé proměnné

                                           Interpretace r

o    v našem příkladu

  n     r = 0,606

  n     r^2 = 0,367

o    36,7% rozdílů v míře štěstí můžeme vysvětlit rozdíly v míře extraverze

                                           Interpretace r

o    korelace neznamená příčinný vztah mezi proměnnými

  n     ten můžeme ověřovat např. experimentem, kdy jsou všechny ostatní proměnné udržovány
  konstantní, proměnná X předchází Y v čase atd.

                                       Faktory ovlivňující r

o    omezený rozsah hodnot proměnné

o    použití extrémních skupin

o    nehomogenní soubor

o    extrémní hodnoty (outliers)

o    nelineární vztahy

o    reliabilita použitých nástrojů


                                       Omezený rozsah hodnot

o    omezený rozsah hodnot jedné nebo obou proměnných snižuje hodnotu r

o    stejně tak nízká variabilita (extrémní případ:pokud by všechny hodnoty 1 proměnné byly stejné,
zákonitě r=0)

                                     Použití extrémních skupin

o     použití extrémních skupin (např. jen osob s vysokým IQ) vede k vyššímu r


                                         Nehomogenní soubor

o    může zkreslit r jak směrem nahoru, tak dolů

                                          Extrémní hodnoty

o    extrémní hodnoty v jedné nebo obou proměnných mohou r výrazně zkreslit (nejen hodnotu, ale i
směr), zvláště když je počet osob v souboru nízký

                                          Extrémní hodnoty

o     r= 0,606

o     r= 0,766

                                     Neparametrický koeficient

o    pro ordinální data je možno spočítat Spearmanův koeficient pořadové korelace ( r)

o    počítá se tak, že

  n     hodnoty obou proměnných se seřadí od nejnižší po nejvyšší a přidělí se jim pořadí

  n     z pořadí se pak počítá Pearsonův koeficient korelace

                                         Parciální korelace

o    parciální korelace je taková korelace mezi dvěma proměnnými, kdy kontrolujeme vliv třetí
proměnné na obě z nich

o    např. chceme zjistit, jaký je vztah mezi prospěchem na SŠ a prospěchem na VŠ; obě proměnné jsou
nejspíš ovlivněny IQ

                                          Kontrolní otázky

o    co vyjadřuje absolutní hodnota Pearsonova koeficientu korelace? a co jeho znaménko (+ nebo -)?

o    co je to koeficient determinace?

o    čím může být zkreslen korelační koeficient?

                                          Regresní analýza

o    výsledkem regresní analýzy je matematický model vztahu mezi dvěma nebo více proměnnými

o    snažíme se z jedné proměnné nebo lineární kombinace více proměnných predikovat hodnoty další
proměnné

                                          Regresní analýza

o    dva typy proměnných: predikovaná (závislá) proměnná a prediktory (nezávisle proměnné)

[o      ] predikovaná proměnná se označuje Y, prediktory X[1], X[2] ...X[n

]o    pouze 1 prediktor -- jednoduchá regrese

[o      ] více prediktorů -- vícenásobná regrese

[

                                         ]Regresní analýza

o    regresní analýza umožňuje

  n     porozumět vztahům mezi proměnnými,

  n     predikovat hodnoty proměnné Y z hodnot proměnné X (s určitou přesností) -- např. z hodnot
  známek na střední škole nebo z počtu bodů u přijímacího testu předpovědět úspěšnost na VŠ

                                    Jednoduchá regresní analýza

o    příklad -- Jak souvisí vzdělání respondenta se vzděláním otce?

o    tj. jak dobře můžeme předpovědět počet let formálního vzdělání respondenta z údaje o počtu let
vzdělání jeho otce?

                                    Jednoduchá regresní analýza

                                    Jednoduchá regresní analýza

o    snažíme se najít rovnici tzv. regresní přímky

o    regresní přímka je taková přímka, od které je vzdálenost bodů (představujících naměřená data)
co nejmenší

o    taková přímka, která nejlépe vystihuje data

                                    Jednoduchá regresní analýza

                                    Jednoduchá regresní analýza

o    jednou z metod, jak regresní přímku nalézt, je metoda nejmenších čtverců

o    je zvolena taková přímka, kdy platí, že součet čtverců vzdáleností jednotlivých bodů od přímky
je minimální

                                    Jednoduchá regresní analýza

o    obecná rovnice regresní přímky

              Y' = a + bX

o    a je konstanta (predikovaná hodnota Y, když hodnota X je 0)

o    b je směrnice regresní přímky (úhel přímky vzhledem k ose; kolikrát se Y zvětší s každou
jednotkou X);

                                    Jednoduchá regresní analýza

o     v příkladu vychází rovnice regresní přímky Y' = 9,93 + 0,32*X

o     pro děti otců s 0 lety vzdělání předpovídáme necelých 10 let vzdělání

o     s každým dalším rokem otcova vzdělání předpovídáme o 0,32 roku vzdělání respondenta více  

  n      např. pro děti otců s 12 lety vzdělání je predikovaná hodnota jejich vlastního vzdělání
  13,8 let

                                        Výstup ve Statistice

                                    Vícenásobná regresní analýza

o    predikujeme závislou proměnnou z více prediktorů

o    vliv každého z prediktorů na závislou proměnnou je kontrolován pro vliv všech ostatních
prediktorů (jde tedy o  vliv "očištěný" od vlivů ostatních proměnných a tudíž počítáme  parciální
koeficienty)

                                    Vícenásobná regresní analýza

o    příklad -- kromě vzdělání otce (X[1]) může mít na dosažené vzdělání vliv také počet dětí v
rodině (X[2])

o    rovnice regresní přímky je

    Y' = a + b[1]X[1] + b[2]X[2]


                                    Vícenásobná regresní analýza

o    Y' = 10,68 + 0,30*X[1] -- 0,13*X[2

]o    vliv vzdělání otce (b=0,30) je o něco menší než u jednoduché regresní analýzy (b=0,32) -- je
kontrolován pro počet dětí v rodině, který je zřejmě ovlivněn také vzděláním otce

o    vliv počtu dětí v rodině je záporný -- tj. čím více dětí, tím nižší vzdělání

                                    Vícenásobná regresní analýza

o    vícenásobná regresní analýza nám umožní srovnat vliv všech prediktorů na závislou proměnnou

o    můžeme dojít k závěru, že větší vliv na vzdělání respondenta má vzdělání otce než počet dětí v
rodině?

                                    Vícenásobná regresní analýza

o    pokud chceme srovnávat vliv prediktorů měřených v různých jednotkách, je nutné použít tzv.
standardizované regresní koeficienty

o    ukazují, kolikrát vzroste hodnota závislé proměnné, pokud se změní hodnota prediktoru o 1
směrodatnou odchylku a hodnoty ostatních prediktorů přitom zůstanou konstantní

                                        Výstup ve Statistice

                                    Vícenásobná regresní analýza

o    beta pro vzdělání otce je 0,43

o    pro počet dětí v rodině -0,13

o    větší vliv má tedy vzdělání otce než počet dětí v rodině

                                    Vícenásobná regresní analýza

o    kromě regresních koeficientů je počítán také tzv. koeficient vícenásobné korelace -- korelace
všech prediktorů se závislou proměnnou; ozn. R

o    jde vlastně o korelaci mezi pozorovanými hodnotami závislé proměnné a hodnotami predikovanými
na základě regresního modelu

                                    Vícenásobná regresní analýza

o    koeficient vícenásobné determinace -- tzv. % vysvětleného rozptylu (závislé proměnné) lineární
kombinací prediktorů; ozn. R^2

                                        Výstup ve Statistice

                                    Vícenásobná regresní analýza

o    u jednoduché regresní analýzy je koeficient vícenásobné korelace roven korelaci mezi oběma
proměnnými

                                Testování hypotéz v regresní analýze

o    jsou testovány 2 typy hypotéz

o    1) zda se R průkazně liší od 0

  n     testuje se analýzou rozptylu (porovnává rozptyl vysvětlený regresním modelem a reziduální
  rozptyl)

o    2) zda se regresní koeficienty průkazně liší od 0

  n     testuje se t-testem

                                        Výstup ve Statistice

                                        Výstup ve Statistice

                                             Reziduály

o    výsledkem regresní analýzy jsou predikované skóry (na základě regresní rovnice)

o    z nich je možno odvodit reziduální skóry -- rozdíl mezi skutečnou a predikovanou hodnotou
proměnné

                                    Předpoklady regresní analýzy

o    skóry v proměnných jsou nezávislé (nejde např. o opakovaná měření)

o    dostatečná variabilita všech proměnných

o    rozdělení hodnot proměnných je normální

  n     u malých výběrů zkontrolovat extrémní hodnoty

                                    Předpoklady regresní analýzy

o    vztahy mezi Y a každou X jsou lineární

  n     zkontrolovat scatterem

o    vzájemné korelace mezi prediktory nejsou příliš vysoké (tzv. problém mulikolinearity)

  n     pokud ano, je vhodné buď některou z nich vyřadit, nebo z nich vytvořit např. faktorovou
  analýzou jeden skór

                                    Předpoklady regresní analýzy

o    rozdělení hodnot reziduálů je normální

  n     zkontrolovat analýzou reziduálů -- histogramem, pravděpodobnostním grafem

o    dostatečně velký počet osob ve výběru vzhledem k počtu prediktorů v modelu (nejméně 10-20x více
osob než prediktorů)


                               Regresní analýza -- prezentace výsledků

o    jak model odpovídá datům (R^2), příp. výsledky ANOVA

o    přehled beta koeficientů, obvykle v tabulce a test jejich statistické významnosti (t a p)

o    výsledky analýzy residuálů (obvykle graficky)

                                          Kontrolní otázky

o    účel regresní analýzy

o    obecná rovnice regresní přímky

o    jak se interpretují regresní koeficienty

o    co je to koeficient vícenásobné korelace?

o    předpoklady regresní analýzy

                                             Literatura

o    Hendl, J. (2004): Přehled statistických metod zpracování dat. Praha: Portál