PSY117/454 Statistická analýza dat v psychologii Přednáška 5 ZOBRAZENÍ DVOUROZMĚRNÝCH DAT KORELAČNÍ KOEFICIENT Všichni žijeme v matrixu. Výzkumné otázky…  Hypotézy o vzájemné souvislosti jevů:  Predikuje intelekt akademický úspěch?  Mají dobří češtináři i dobré známky z matematiky?  Existuje souvislost mezi mírou depresivní a anxiózní symptomatiky?  Jsou měsíční příjem a délka pracovní doby dobrými prediktory životní spokojenosti?  Jsou různá umělecká nadání specifická, nebo vycházejí ze stejného „všeobecného“ talentu? Klasifikace proměnných z hlediska funkce v problému  Cílem výzkumu je obvykle prověřovat kauzální vztahy  …na úrovni humanitních věd velmi ambiciózní   Statistická analýza nemá potenciál ke zjištění nebo testování kauzality. To je úlohou designu výzkumu a teoretického zpracování.  Špatně sebraná data (nevhodný design) nelze zachránit sebelepší analýzou.  Klasifikace proměnných:  Závislé, nezávislé, intervenující  Exogenní, endogenní, moderátory, mediátory  Obvykle není možné identifikovat všechny intervenující proměnné… Přímý efekt mediace Intervenující proměnná s přímým efektem Kontingenční tabulka známka z matematiky celkem 1 2 3 4 5 známka z čj 1 82 40 8 1 0 131 2 71 200 73 17 0 361 3 4 75 109 25 0 213 4 1 7 23 24 1 56 5 0 0 2 1 2 5 celkem 158 322 215 68 3 766  Kontingenční tabulka…  Hodnoty je třeba přehledně uspořádat (stejně jako u tabulky četností)  Pro data všech úrovní měření, nejvhodnější pro diskrétní prom. s málo hodnotami  Buňky mohou obsahovat absolutní četnosti, rel. četnosti (řádkové, sloupcové, celkové)  Poslední sloupec/řádek obsahuje tzv. sloupcové/řádkové marginální (relativní) četnosti  Je grafickou podobou je trojrozměrného sloupcový diagramu či histogramu (může obsahovat i intervaly)  Relativně vysoké četnosti v jedné z diagonál naznačují lineární provázanost proměnných AJ: contingency table, crosstabulation, cells, row/column marginal frequencies, linear realtionship (vs. curvilinear (non-linear) realtionship), 3D barchart, 3D histogram Fuj: Tab.7.2(s239) je správně kontingenční tabulka, korelační tabulka je něco jiného Grafická zobrazení dvourozměrného rozdělení Bivariate Histogram of B15 against B16 b_test_akt.sta 149v*3080c Include condition: v133 = 1 Scatterplot of ZLYING against ZSCHOOL rudý říjen.sta 41v*481c ZLYING = 0,1397+0,0903*x-0,0094*x^2 (0;2] (2;4] (4;6] (6;8] (8;10] (10;12] (12;14] (14;16] (16;18] (18;20] (20;22] (22;24] (24;26] > 26 -3 -2 -1 0 1 2 3 ZSCHOOL -2,0 -1,5 -1,0 -0,5 0,0 0,5 1,0 1,5 2,0 2,5 3,0 ZLYING Bodový graf - scatterplot  Bodový graf – scatterplot  Nahrazuje kontingenční tabulku, jsou-li obě proměnné spojité; pro proměnné s málo body měření nemá smysl  Každá osa reprezentuje jednu proměnnou, každý bod je jedna zkoumaná osoba (jednotka)  Poskytuje tím lepší evidenci o vztahu dvou proměnných…  …čím více měření jsme provedli  …čím přesnější jednotlivá měření byla  Parametrem počtu měření může být např. velikost bodu  Frequency scatterplot -3 -2 -1 0 1 2 3 -3 -2 -1 0 1 2 3 4 Různé podoby/druhy vztahu Pouze takto vypadající scattery zobrazují vztah mezi 2 proměnnými, který je lineární a dobře (=smysluplně, výstižně) popsatelný pomocí Pearsonova korelačního koeficientu. U ostatních jde buď o vztahy nelineární, nebo je problém v heterogenitě, outlierech… Lineární souvislost, vztah  Lineární vztah je to, co se obvykle míní slovem korelace.  Je to monotónní vztah, který se dá popsat slovy čím více X, tím více/méně Y.  Projevuje se tak, že scatterplot se dá proložit „ideální“ přímkou y = ax + b Tato funkce/přímka popisuje strmost vztahu. Korelace popisuje těsnost vztahu. AJ: linear association, correlation, monotonous relationship Těsnost vztahu  Čím těsnější (=intenzivnější, silnější) vztah 2 proměnných je, tím jsou body více nahuštěny okolo nějaké přímky  Těsnost nesouvisí se sklonem té přímky, ale pouze s tím, jak moc se scatterplot podobá přímce.  Těsnost se udává bezrozměrným číslem od 0 do 1, kde 0=žádný vztah(těsnost) a 1= maximální vztah (data na diagonále v obrázku napravo)  Znaménko udává, zda jde o vztah čím víc, tím víc (+) nebo o vztah čím víc, tím míň (-)  Rozsah je tedy od -1 do 1  Těsnost -> kovariance AJ: strength of association/relationship/correlation, positive relationship, negative(inverse) relationship Kovariance (=sdílený rozptyl)  Míru těsnosti lineárního vztahu dvou proměnných lze vyjádřit číselně  Kovariance vypovídá o míře „sdíleného rozptylu“  kde x, y jsou deviační skóry, tj. odchylky od průměru  Kovariance je stejně jako rozptyl nepraktická – výsledek je v jakýchsi „jednotkách na druhou“ i n i ixy yx n c   11 1 Vzpomeňte si na výpočet rozptylu. Ten byl Sx2 / (n – 1). Tohle je Sxy / (n – 1). Místo x*x je tu x*y, proto je to ko-variance Tato suma je tím vyšší čím máme v sadě dat více dvojic xy, u nichž je hodnota x i y nadprůměrná nebo podprůměrná. Sumu naopak snižují dvojice, kde je jedna hodnota nadprůměrná a druhá podprůměrná. AJ: covariance, shared variance Korelace (=standardizovaný sdílený rozptyl)  Chceme-li se zbavit obtížně interpretovatelných jednotek u kovariance, dosáhneme toho podobně jako při výrobě z-skórů – podělením deviačního skóru příslušnou směrodatnou odchylkou (=standardizace)  Zakroužkovanou část vzorce už ale známe – to je transformace na z-skór. Korelace jednodušeji je tedy: ))(( 1 1 1 1 1 y y n i x x xy s my s mx n r     1   n zz r yx xy AJ: correlation Vlastnosti popsaného koeficientu korelace I.  Jde o tzv. Pearsonův součinový, momentový koeficient korelace  patří tedy do kategorie momentových ukazatelů (viz předchozí přednáška) a platí pro něj podobné věci:  nutná intervalová a vyšší úroveň měření  velký vliv odlehlých hodnot na výsledek  je vhodný pro popis normálně rozložených proměnných  vyjadřuje pouze sílu(těsnost) lineárního vztahu  Nabývá hodnot v rozmezí -1 až 1  0 = žádný vztah  1(-1) = dokonalý kladný (záporný) vztah; identita proměnných  Korelace nepopisuje funkční vztah dvou proměnných, ale pouze jeho směr a těsnost. AJ: Pearson’s product-moment correlation Vlastnosti Pearsonova koeficientu korelace II.  Je vázán na homogenitu souboru  Není aditivní  r2 = R = koeficient determinace (někdy D )  = proporce sdíleného rozptylu  V důsledku toho: 0,3-0,1 ≠ 0,7-0,5  r = 0 neznamená, že mezi rozděleními proměnných není žádná souvislost, znamená pouze, že mezi nimi není lineární vztah. AJ: sample/population homogeneity, additivity, coefficient of determination 0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1 -1 -0,5 0 0,5 1 R r Vlastnosti Pearsonova koeficientu korelace III.  Kdy nemá korelace smysl?  V1: Kolik hodin denně sledujete televizi?  V2: Kolik hodin denně sledujete televizní zpravodajství?  Proč?   Korelace proměnných se společnou příčinnou:  Swoboda: platy kněžích a ceny vodky v průběhu doby korelují!  IQ dětí a velikost a jejich výška prý také…  … kovariance proměnných se společnou příčinnou je základem dalších metod analýzy dat v psychologii: analýzy reliability a faktorové analýzy. Scatterplot of Q.6E against Q.6D data 281v*2002c Q.6E = -0,006+0,1787*x-0,0014*x^2 <= -50 (-50;0] (0;50] (50;100] (100;150] (150;200] (200;250] (250;300] (300;350] (350;400] (400;450] (450;500] (500;550] > 550 2 3 4 5 6 7 8 Q.6D 1 2 3 4 5 6 7 Q.6E Korelační koeficienty pro pořadová data  vhodné nejen pro pořadová data, ale i pro intervalová, která mají rozložení výrazně odlišné od normálního  zachycují i nelineární monotónní vztahy (viz Hendl, s260)  ukazatele toho, nakolik jsou pořadí podle korelovaných dvou proměnných stejná  Spearmanův koeficient rhó – r, rs  založený na velikosti rozdílů v pořadí  ekvivalentem Pearsonova koeficientu na pořadových datech  lze interpretovat r 2  Kendallův koeficient tau – t (s variantami „b“ nebo „c“)  založený na počtu hodnot (prvků výběrového souboru) mimo pořadí  vyjadřuje spíše pravděpodobnost, že se prvky výběrového souboru uspořádají podle obou proměnných do stejného pořadí AJ: Spearman (rank correlation) rho, Kendall tau (-b,-c), rank Korelační koeficienty další  korelačních koeficientů existuje velké množství  specifická užití – např. f  zjednodušení ručních výpočtů – např. rpb  ještě budeme mluvit o vztazích mezi nominálními proměnnými… !! Korelace neznamená kauzalitu, jde spíše o koincidenci !! AJ: phi, point-biserial correlation