http://www.newyorker.com/images/2010/12/06/cartoons/101206_cartoon_059_a15439_p465.gif PSY117 Statistická analýza dat v psychologii Přednáška 5 2019 SOUVISLOSTI MEZI PROMĚNNÝMI KORELAČNÍ KOEFICIENT (c) Stanislav Ježek, Jan Širůček Sloupcový diagram s tříděním - souvislost mezi dvěma kategorickými proměnnými Histogramy pro dvě skupiny – vztah mezi kategorickou a metrickou proměnnou http://tylervigen.com/view_correlation?id=1597 Souvislost (vztah) mezi proměnnými oProměnné jsou ve statistickém vztahu… n… když z hodnot jedné proměnné lze usuzovat na možné hodnoty druhé proměnné PRAVDĚPODOBNOST n… když se rozložení (statistiky) jedné proměnné liší ve skupinách vymezených hodnotami proměnné druhé PODMÍNĚNOST n… když se určité kombinace hodnot první a druhé proměnné vyskytují častěji, než bychom čekali (=než součin pravděpodobností kombinovaných hodnot) n oAJ: association Výzkumné otázky… oHypotézy o vzájemné souvislosti jevů: nPredikuje intelekt akademický úspěch? nMají dobří češtináři i dobré známky z matematiky? nExistuje souvislost mezi mírou depresivní a anxiózní symptomatiky? nLiší se děti s ADHD od dětí bez ADHD v denní příjmu sacharidů? nJsou různá umělecká nadání specifická, nebo vycházejí ze stejného „všeobecného“ talentu? Souvislosti vs. kauzální souvislosti oPozorujeme zvýšenou pravděpodobnost společného výskytu 2 jevů (hodnot) - asociace oÚsudek na příčinu je problematický – založen na teorii a výzkumném designu, který vyprodukoval data oÚsudek na příčinu je potřebný ntvorba teorie, úsudek o stabilitě v čase nrozlišování mezi náhodou a pravidelnostmi oLépe předpokládat, že nevíme, co korelaci způsobuje: http://tylervigen.com/spurious-correlations n Lampy Pravděpodobnostní (statistická) souvislost vs. deterministická oPravděpodobnostní, statistická souvislost – ze znalosti hodnoty jedné proměnné dokážeme přibližně usuzovat na hodnotu druhé proměnné nMíra přesnosti tohoto usuzování je mírou síly, těsnosti souvislosti (vztahu) o oDeterministická závislost – hodnoty druhé proměnné dokážeme přesně stanovit, vypočítat (např. obsah čtverce z délky strany) Statistické zachycení souvislosti o… závisí na úrovni měření souvisejících proměnných – kategorické X metrické Kategorická Metrická Kategorická Kontingenční tabulka Složený sloupcový diagram Chí-kvadrát Metrická Složené podoby jednorozměrných zobrazení Rozdíl popisných statistik Bodový diagram Korelace Klasifikace proměnných z hlediska funkce v problému oCílem výzkumu je obvykle prověřovat kauzální vztahy n…na úrovni humanitních věd velmi ambiciózní J nStatistická analýza nemá potenciál ke zjištění nebo testování kauzality. To je úlohou designu výzkumu a teoretického zpracování. nŠpatně sebraná data (nevhodný design) nelze zachránit sebelepší analýzou. oKlasifikace proměnných: nZávislé, nezávislé, intervenující nExogenní, endogenní, moderátory, mediátory nObvykle není možné identifikovat všechny intervenující proměnné… Přímý efekt mediace Intervenující proměnná s přímým efektem Kontingenční tabulka známka z matematiky celkem 1 2 3 4 5 známka z čj 1 82 40 8 1 0 131 2 71 200 73 17 0 361 3 4 75 109 25 0 213 4 1 7 23 24 1 56 5 0 0 2 1 2 5 celkem 158 322 215 68 3 766 oKontingenční tabulka… nHodnoty je třeba přehledně uspořádat (stejně jako u tabulky četností) nPro data všech úrovní měření, nejvhodnější pro diskrétní prom. s málo hodnotami nBuňky mohou obsahovat absolutní četnosti, rel. četnosti (řádkové, sloupcové, celkové) nPoslední sloupec/řádek obsahuje tzv. sloupcové/řádkové marginální (relativní) četnosti nJejí grafickou podobou je 3D sloupcový diagram či histogram (může obsahovat i intervaly) nRelativně vysoké četnosti v jedné z diagonál naznačují lineární provázanost proměnných o AJ: contingency table, crosstabulation, cells, row/column marginal frequencies, linear relationship (vs. curvilinear (non-linear) relationship), Pohlaví Celkem 1 muž 2 žena Kterou z nabízených nadpřirozených schopností byste nejvíc chtěli? 1 neviditelnost n 6 16 22 % 35,3% 48,5% 44,0% 2 super rychlost n 0 5 5 % 0,0% 15,2% 10,0% 3 super inteligenci n 11 12 23 % 64,7% 36,4% 46,0% Celkem n 17 33 50 % 100,0% 100,0% 100,0% Bodový graf - scatterplot oBodový graf – scatterplot(scattergram) oNahrazuje kontingenční tabulku, jsou-li obě proměnné spojité; pro proměnné s málo body měření nemá smysl oKaždá osa reprezentuje jednu proměnnou, každý bod je jedna zkoumaná osoba (jednotka) oPoskytuje tím lepší evidenci o souvislosti dvou proměnných… n…čím více měření jsme provedli n…čím přesnější jednotlivá měření byla oPočet stejných měření může reprezentovat např. velikost bodu nFrequency scatterplot Ukazováček [cm] 14 12 10 8 6 4 2 14 12 10 8 6 4 2 Žena Muž Různé podoby/druhy souvislosti Corr-example Lineární souvislost, vztah oLineární vztah je to, co se obvykle míní slovem korelace. oJe to monotónní vztah, který se dá popsat slovy čím více X, tím více/méně Y. oProjevuje se tak, že scatterplot se dá proložit „ideální“ přímkou ny = ax + b nTato funkce/přímka popisuje strmost vztahu. nKorelace popisuje těsnost souvislosti. AJ: linear association, correlation, monotonous relationship Těsnost souvislosti oČím těsnější (=intenzivnější, silnější) lineární souvislost 2 proměnných je, tím jsou body více nahuštěny okolo nějaké přímky oTěsnost nesouvisí se sklonem té přímky, ale pouze s tím, jak moc se scatterplot podobá přímce. oTěsnost se udává bezrozměrným číslem od 0 do 1, kde 0=žádný vztah(těsnost) a 1= deterministický vztah (data na diagonále v obrázku napravo) oZnaménko udává, zda jde o souvislost čím víc, tím víc (+) nebo o vztah čím víc, tím míň (-) oRozsah je tedy od -1 do 1 Corr-example AJ: strength of association/relationship/correlation, positive relationship, negative(inverse) relationship 6. Odhadněte, jaká je korelace mezi níže uvedenými dvojicemi proměnných – pozitivní, negativní, nebo nulová? a) výška v cm, váha v kg b) věk v měsících, čas v běhu na 50 metrů c) známka z matematiky, známka ze čtení e) známka z matematiky, počet zameškaných hodin za rok f) IQ, rodné číslo g) zájem o sport, zájem o politiku h) počet km na tachometru auta, rok výroby auta i) maximální denní teplota, množství vody spotřebované za den domácnostmi 7. Pokud by ve skutečnosti byla odpověď na variantu h) předchozí otázky -0,8, jak by se korelace změnila, kdybychom místo proměnné „rok výroby auta“ použili proměnnou „stáří auta“? Kovariance (=sdílený rozptyl) Vzpomeňte si na výpočet rozptylu. Ten byl Sx2 / (n – 1). Tohle je Sxy / (n – 1). Místo x*x je tu x*y, proto je to ko-variance Tato suma je tím vyšší čím máme v sadě dat více dvojic xy, u nichž je hodnota x i y nadprůměrná nebo podprůměrná. Sumu naopak snižují dvojice, kde je jedna hodnota nadprůměrná a druhá podprůměrná. AJ: covariance, shared variance . Jsou-li směrodatné odchylky dvou korelovaných proměnných s[X ]= 3 a s[Y ]= 15, jaká je maximální možná kovariance těchto proměnných? (r[XY] = c[XY]/s[X]s[Y]). Korelace (=standardizovaný sdílený rozptyl) oChceme-li se zbavit obtížně interpretovatelných jednotek u kovariance, dosáhneme toho podobně jako při výrobě z-skórů – podělením deviačního skóru příslušnou směrodatnou odchylkou (=standardizace) o o o o o oZakroužkovanou část vzorce už ale známe – to je transformace na z-skór. Korelace jednodušeji je tedy: o o o o AJ: correlation Pokud r=1 a z[x] =-0,5, kolik je z[y]? A pokud r=-1 a z[x] = 0,8, kolik je z[y]? Předpokládejme, že bychom udělali odhad výšky a váhy každého studenta psychologie, který si letos zapsal PSY117. Potom bychom spočítali r[OVáhaOVýška]. Jaká by byla vypočtená korelace v porovnání s korelací spočítanou na výškách a váhách změřených metrem a váhou? 18. Studie 280 studentů učitelství udává téměř nulovou korelaci (r = 0,1) mezi studijními výsledky (průměr známek) a schopností vyučovat (hodnocení zkušeným učitelem při cvičné hodině). Studie dále udává, že korelace mezi hodnoceními těchto 280 studentů dvěma nezávislými zkušenými učiteli je 0,21. Jak tato druhá informace ovlivní vaši interpretaci korelace mezi studijními výsledky a schopností vyučovat? Vlastnosti popsaného koeficientu korelace I. oJde o tzv. Pearsonův součinový, momentový koeficient korelace npatří tedy do kategorie momentových ukazatelů (viz předchozí přednáška) a platí pro něj podobné věci: onutná intervalová a vyšší úroveň měření ovelký vliv odlehlých hodnot na výsledek oje vhodný pro popis normálně rozložených proměnných ovyjadřuje pouze sílu(těsnost) lineárního vztahu oNabývá hodnot v rozmezí -1 až 1 n0 = žádný vztah n1(-1) = dokonalý kladný (záporný) vztah = identita proměnných = přímá úměra oKorelace nepopisuje funkční vztah dvou proměnných, ale pouze jeho těsnost. AJ: Pearson’s product-moment correlation Vlastnosti Pearsonova koeficientu korelace II. or2 = koeficient determinace (někdy D, R2 ) n= proporce sdíleného rozptylu nV důsledku toho: o0,3-0,1 ≠ 0,7-0,5 or = 0 neznamená, že mezi rozděleními proměnných není žádná souvislost, znamená pouze, že mezi nimi není lineární souvislost. AJ: sample/population homogeneity, additivity, coefficient of determination Vlastnosti Pearsonova koeficientu korelace III. oKdy nemá korelace smysl? nV1: Kolik hodin denně sledujete televizi? nV2: Kolik hodin denně sledujete televizní zpravodajství? nProč? J oKorelace proměnných se společnou příčinnou: nSwoboda: platy kněžích a ceny vodky v průběhu doby korelují! nIQ dětí a velikost a jejich výška prý také… n… kovariance proměnných se společnou příčinnou je základem dalších metod analýzy dat v psychologii: analýzy reliability a faktorové analýzy. Další příklad – věk a počet narozenin, počet nemocí, počet partnerů… Jedna studie o infarktech uvádí, že lidem, kteří chodí pravidelně do kostela, hrozí nižší riziko infarktu, než lidem, kteří do kostela nechodí. Který z následujících výroků je pravdivý? a) Když začnete chodit pravidelně do kostela, vaše riziko, že dostanete infarkt se určitě sníží. b) Mezi těmito proměnnými určitě není žádný kauzální vztah. c) Pokud pravidelně chodíte do kostela, je méně pravděpodobné, že dostanete infarkt, než kdybyste do kostela nechodil(a). d) Tato korelace jednoznačně ukazuje na kauzální vztah Korelační koeficienty pro pořadová data (podrobněji přednáška 7) ovhodné nejen pro pořadová data, ale i pro intervalová, která mají rozložení výrazně odlišné od normálního ozachycují i nelineární monotónní vztahy (viz Hendl, s260) oukazatele toho, nakolik jsou pořadí podle korelovaných dvou proměnných stejná oSpearmanův koeficient rhó – r, rs nzaložený na velikosti rozdílů v pořadí nekvivalentem Pearsonova koeficientu na pořadových datech nlze interpretovat r 2 oKendallův koeficient tau – t (s variantami „b“ nebo „c“) nzaložený na počtu hodnot (prvků výběrového souboru) mimo pořadí nvyjadřuje spíše pravděpodobnost, že se prvky výběrového souboru uspořádají podle obou proměnných do stejného pořadí AJ: Spearman (rank correlation) rho, Kendall tau (-b,-c), rank Korelační koeficienty další okorelačních koeficientů existuje velké množství ospecifická užití – např. f ozjednodušení ručních výpočtů – např. rpb oještě budeme mluvit o vztazích mezi nominálními proměnnými… !! Korelace neznamená nutně kauzalitu, jde spíše o koincidenci !! AJ: phi, point-biserial correlation Shrnutí o Kategorická Metrická Kategorická Kontingenční tabulka Složený sloupcový diagram Chí-kvadrát Metrická Složené podoby jednorozměrných zobrazení Rozdíl popisných statistik Bodový diagram Korelace