Korelace Kde jsme •Souvislost kategorických proměnných: crosstab •Souvislost kategorické a kardinální proměnné: srovnání průměrů •Souvislost kardinálních proměnných: korelační koeficient Korelace •„součinitel souvztažnosti“ •Jak se pozná souvislost: •S růstem hodnot jedné proměnné narůstají nebo klesají hodnoty druhé proměnné •Lineární vztah: nárůst/pokles musí být pro nízké i vysoké hodnoty proměnné stejný • • • • • Autor: DenisBoigelot, original uploader was Imagecreator – Vlastní dílo, original uploader was Imagecreator, CC0, https://commons.wikimedia.org/w/index.php?curid=15165296 Typy korelačních koeficientů •pearson •Spearman •kendall Pearsonův korelační koeficient •Jeden ze základních korelačních koeficientů • •Značení - R •Hodnoty koeficientu: •Rozsah od -1 po 1 •+1 = perfektní kladná souvislost – s růstem jedné proměnné roste druhá •-1 = perfektní záporná souvislost – s růstem jedné proměnné klesá druhá •0 = žádná souvislost • •Čím více je hodnota vzdálena od nuly, tím je souvislost silnější •Existují „tabulky“ k hodnocení síly vztahu • Kovariance •Základní mechanismus výpočtu pearsonova korelačního koeficientu •„sdílený rozptyl“ • • • •Ke smysluplné interpretaci potřebuje standardizaci -> pearson •Hodnota kovariance se vydělí součinem obou směrodatných odchylek • • Pearsonův korelační koeficient •Předpoklady: •Kardinální data (jedna z proměnných může být dichotomická) •normální rozložení / dostatečná velikost vzorku (min. 200-500) •Citlivost na odlehlé případy • Vsuvka - Graf •Pokud proměnné nabývají mnoho různých málo se opakujících se hodnot •Nebo pokud je vzorek malý • •=> možnost zobrazit souvislost graficky • •Graphs – legacy dialogs – scatter/dot – simple scatter • • Práce v SPSS •Analyze à Correlate à Bivariate: •Zvolit proměnné •Pearsonův koeficient je přednastavený •Pro sledování signifikance zvolit Flag significant correlations • •Options: •Možnost spočítat základní statistiky a kovarianci •Vynechání hodnot / případů •Listwise – pokud počítáme více korelačních koeficientů, všechny budou založeny na stejných datech •pairwise – missing odstraněny zvlášť v každém páru • Pearsonův korelační koeficient – příklad 1 •Jak spolu souvisí podpora senátního kandidáta v obcích s podporou jeho strany? •Potřebujeme zohlednit signifikanci? • •Co potřebujeme udělat před spočítáním koeficientu? • Výpočet koeficientu v SPSS •Data senat_jicin_22 • •Analyze à Correlate à Bivariate: •Všechny poměnné •Options – missing values – exclude cases listwise •Flag significant corelations nechat prázdné Příklad 2 –souvislost mezi hodnocením situace a hodnocením vlády •Jak spolu souvisí hodnocení vlády a hodnocení ekonomické a politické situace? •Využitá data: vzorek populace •Potřebujeme zohlednit signifikanci? • •Co potřebujeme udělat před spočítáním koeficientu? Data ees9cz Pearsonův korelační koeficient •Se zjištěným R je možné dál pracovat • •Po umocnění získáváme tzv. Index determinace (R2) • •R2 x 100 vymezuje, jaký podíl variability jedné proměnné je sdílený s druhou proměnnou • Pearsonův korelační koeficient •Výjimka z kardinálních dat à korelace jedné kardinální proměnné a jedné dichotomické •Tzv. point-biserial korelace •Kladné / záporné výsledné hodnoty závisí na kódování dichotomické proměnné • •Mnohem lepší je ale v takovém případě použít srovnání průměrů! • Korelace pohlaví x příjem Spearmanovo rho a Kendallovo tau •Oboje: neparametrický postup •RHO: •Využíván zejména pro kombinaci ordinálních proměnných •V menších vzorcích (do 200-500) při porušení normality •pro výpočet využívá pořadí případů, nikoli samotné hodnoty proměnné •Výsledné hodnoty jsou ve stejném pásmu jako u PKK (od -1 po 1) •TAU: (viz příští slide) • • Kendallovo tau •Neparametrický postup •Pro malé vzorky •Menší množství kategorií •Volba mezi kendallem a crosstabem •Některé hodnoty se velice často opakují •Pro malé vzorky •Menší množství kategorií •Volba mezi kendallem a crosstabem •Některé hodnoty se velice často opakují • • SPSS •Analyze à Correlate à Bivariate: •Zvolit proměnné •Vybrat Spearman a/nebo Kendall • • Interpretace výsledků •Základní pravidlo – korelace ≠ kauzalita • •Korelace vyjadřuje pouze souvislost mezi proměnnými, neukazuje na žádnou příčinu a následek • •Vliv třetích proměnných • •Nemožnost konstatovat kauzalitu i pokud se jeví jako logická • •Statistické zjištění nemá automaticky věcný význam • https://www.tylervigen.com/spurious-correlations Práce s koeficienty •Když nevíte, který koef. spočítat, spočítejte všechny •Všechny vyjdou podobně (kendall má ale obecně nižší hodnoty) • • •Co uvádět: •Jaký koeficient byl použit, kolik případů bylo v analýze •V tabulce: hodnoty koeficientu, hvězdičky a sig jen pokud je potřeba zohlednit signifikanci •K hvězdičkám je nutné dodat legendu •