FSS MUNI, katedra SPSP Kvantitativní výzkum x118 Téma 11: Korelace Miroslav Suchanec Korelace - souvislost •vyjádření vzájemné souvislosti dvou nebo více jevů (nejméně ordinálního charakteru) –kondice a klidová tepová frekvence –tělesná výška a tělesná hmotnost –úroveň silových schopností a výsledky běhu na 100m –výška a rozpětí paží •hledání skrytých souvislostí, vazeb, příčin, ... Příčiny souvislosti dvou jevů •přirozená sdružená proměnlivost –barva očí a vlasů • teoretické zdůvodnění –tělesná hmotnost a výška: konstantní tělesná skladba ρ, objem je svázán s výškou, hmotnost = ρ * V • jev X vyvolává jev Y –kouření a rakovina plic • Příčiny souvislosti dvou jevů •jevy spolu souvisejí, protože mají společnou příčinu X Y Z •jevy spolu souvisejí, protože měří něco společného Y X Z Typy souvislostí Obrázek7.wmf Obrázek7.wmf Obrázek8.wmf pozitivní negativní Korelace vs. kauzalita •Korelace není kauzalita, pouze jedním z jejich předpokladů (dále časová následnost, neexistence alternativní příčiny) • Nepravá korelace (spuriousness) X Y Z Počet domácností Počet čápů Počet dětí Znamená vysoká korelace mezi počtem čápů a počtem dětí, že čápi nosí děti? Velikost souvislosti • •koeficient korelace • • • • •mezní hodnoty -1 a 1 značí absolutní souvislost •hodnota 0 značí absolutní nezávislost • • Obrázek9.wmf •různé druhy korelačních koeficientů • •použití se liší podle druhu dat, typu závislosti a typu rozložení • •nejčastěji používané: –Pearsonův koeficient součinové korelace –Spearmanův koeficient pořadové korelace Vyjádření souvislosti Pearsonův korelační koeficient (R) •= nástroj pro měření míry lineární souvislosti (vztahu) mezi dvěma intervalovými nebo poměrovými proměnnými (které tudíž mají svůj průměr, rozptyl a odchylku) (Pro ostatní typy proměnných se užívá jiný nástroj pro měření vztahu) např. souvisí četnost sledování televizních reklam (v min. týdně) s průměrnou týdenní útratou? • -pohybuje se v rozmezí od -1 do 1 ( -1 =< R xy =< 1 ), • kdy R xy=1 je absolutní pozitivní souvislost (např. čím více počtu let vzdělání, tím vyšší mzda); • • R xy=0 je absolutní nezávislost, (např. víme-li člověkovu výšku postavy, nepomůže nám to určit jeho hodnotu IQ); • • a R xy=-1 je absolutní negativní souvislost (např. čím více mailů sekretářka dostává, tím kratší dobu jí trvá než na ně odpoví). • • Předpoklady použití Pearsonova korelačního koeficientu •1) nejméně intervalová data •2) normální rozložení v populaci •3) neexistence extrémních případů •4) linearita vztahu • •2, 3 a 4 třeba ověřit / otestovat • •Není-li jeden z předpokladů naplněn a máme-li alespoň ordinální data, používáme Spearmanův koeficient 225px-Karl_Pearson_2 Předpoklad linearity vztahu Obrázek3.emf Obrázek4.emf Obrázek4.emf lineární nelineární Ověřování předpokladu linearity vztahu •Nejlépe pomocí bodového rozptýlení (scatterplot) Ověřování předpokladu neexistence extrémních hodnot Např. pomocí krabicového diagramu (boxplot) nebo jiného zobrazení extrémních hodnot… Jak nenaplnění předpokladu neexistence extrémních hodnot ovlivní Pearsonův r? Ověřování předpokladu normality a)Graficky – pozorované hodnoty ve vzorku vs. očekávané hodnoty pokud je populace normálně rozložená b)Kolmogorov-Smirnov test normality rozložení 225px-Kolmogorov-m Smirnov_2 Korelační koeficient a bodové rozptýlení proměnných x a y priklady korelace bodove grafy …další příklady Soubor:Correlation examples.png (zdroj: wikipedia) Korelace výpočet s příkladem x y 2 0 2 2 3 1 3 3 4 2 4 4 5 3 5 5 6 4 6 6 korelace mezi x a y, neboli R xy = cov(x,y) / s(x) * s(y), Cov (x,y) = Σ dx * dy / n -1 = Σ (xi – x)*(yi – y) / n - 1 X = Σ xi / n = 40 / 10 = 4 Y = Σ yi / n = 30 / 10 = 3 Cov (x,y) = Σ dx * dy / n -1 = Σ (xi – x)*(yi – y) / n - 1 = (-2*-3) + (-2*-1) + (-1*-2) + 0 + 0 + 0 + 0 +(1*2) + (2*1) + (2*3) = 20 / 9 = 2,22 s(x) * s(y) = √ var (x) * √ var (y) var (x) = Σ (xi – x )2 / n -1 = 20 / 9 = 2,22 var (y) = Σ (yi – y )2 / n -1 = 30 / 9 = 3,33 R xy= cov(x,y) / s(x) s(y) = 2,22 / √ 2,22 * √ 3,33 = 2,22 / 2,72 = 0,81 kovariance Legenda Xi = hodnota X pro jednotlivá individua X = průměr pro x d = absolutní odchylka var(x)=rozptyl x s(x)=směrodatná odchylka Cov (x,y)=kovariance mezi x a y R (x,y)= korelace mezi x a y (Databáze korelace a regrese.sav) Rozdíl mezi Pearsonovým a Spearmanovým koeficientem 300px-Spearman_fig1