Míry asociace o obecná definice – síla a směr vztahu o míry asociace pro nominální data o míry asociace pro ordinální data o korelace Míry asociace o míry asociace vyjadřují těsnost vztahu proměnných (a případně směr vztahu) o z chí-kvadrátu se dozvíme pouze, zda nějaký vztah mezi proměnnými existuje (tj. zda se liší četnosti pozorované a četnosti očekávané za předpokladu, že proměnné jsou nezávislé) Míry asociace o těsnost (síla) vztahu – vyjádřena absolutní hodnotou koeficientu o není shoda v tom, od jaké hodnoty je vztah považován za těsný (někdy uváděno >0.70, jindy >0.30), středně těsný či slabý Míry asociace o směr vztahu – pouze u ordinálních a kardinálních proměnných o pozitivní vztah – čím vyšší hodnoty jedné proměnné, tím vyšší hodnoty druhé proměnné o negativní vztah - čím vyšší hodnoty jedné proměnné, tím nižší hodnoty druhé proměnné Míry asociace pro nominální data o míry asociace pro nominální data ukazují pouze sílu vztahu dvou proměnných, nikoli směr či jiné informace o povaze vztahu Míry asociace pro nominální data o rozsah koeficientů je obvykle mezi 0 a 1 n čím vyšší hodnota, tím těsnější vztah n 0 – žádný vztah n 1 – absolutní vztah (z hodnot jedné proměnné můžeme předpovědět hodnoty druhé proměnné) o pro koeficienty je možno spočítat statistickou významnost Míry založené na chí-kvadrátu o velikost hodnoty chí-kvadrát je ovlivněna velikostí výběru a počtem kategorií (políček tabulky) o účelem koeficientů založených na chí-kvadrátu je eliminovat tyto vlivy Míry založené na chí-kvadrátu o mezi nejčastěji užívané míry asociace založené na chí-kvadrátu patří koeficienty n Fí (Phi) n Cramerovo V (Cramer’s V) Míry založené na chí-kvadrátu o Fí koeficient - užívá se pro tabulky 2x2 (tj. pro dichotomické proměnné, např. pohlaví) o vypočte se tak, že se hodnota chí-kvadrátu vydělí počtem osob a výsledek se odmocní Míry založené na chí-kvadrátu o Cramerovo V – podobný výpočet jako Fí; počet osob se navíc násobí (počtem řádků – 1) n (pokud je počet řádků menší než počet sloupců, jinak počtem sloupců – 1) o používá se pro tabulky větší než 2x2 Příklad o příklad z přednášky o Chí-kvadrátu - jak souvisí model manželství s jeho vydařeností o Chí-kvadrát = 18.71 o počet osob N = 154 o m = (počet řádků – 1) = 3 – 1 = 2 Kontingenční tabulka Příklad o tabulka 3x3 – použijeme Cramerovo V o V = c^2/(N*m) o V = 18.71/(154*2) o V = 0,246 Příklad o interpretace: hodnota 0,246 je poměrně nízká – vztah mezi modelem manželství a jeho vydařeností není příliš těsný (i když statisticky významný – viz výstup ve Statistice) Výstup ve Statistice Další míry asociace o Cohenova kappa – koeficient shody o většinou používán pro měření shody mezi posuzovateli Další testy o McNemarův test – pro závislé výběry (opakovaná měření) o pro tabulky 2x2 – zachycuje míru změny (kolik osob z určité kategorie při prvním měření přejde při druhém měření do jiné kategorie) o obdobný test pro více než dvě měření – Cochranův test Míry asociace pro ordinální data o u ordinálních dat je výpočet založen na poměru tzv. souhlasných a nesouhlasných párů případů o souhlasný pár případů – hodnota obou proměnných je u jednoho člena páru vyšší (nebo nižší) než u druhého o nesouhlasný pár případů – hodnota jedné proměnné je u jednoho člena páru vyšší a hodnota druhé proměnné je nižší než u druhého člena páru Příklad o souvisí spokojenost v manželství n 3 velmi šťastné, 2 spíše šťastné, 1 ne příliš šťastné o s hodnocením života n jako 3 vzrušujícího, 2 stereotypního až 1 nudného? Příklad Příklad o PÁR 1: osoba 1 (2, 3) a osoba 2 (1, 2) - souhlasný o PÁR 2: osoba 1 (2, 3) a osoba 3 (2, 1) – nerozhodně (tzv. tie) o PÁR 3: osoba 2 (1, 2) a osoba 3 (2, 1) - nesouhlasný Míry asociace pro ordinální data o koeficient gamma = počet souhlasných mínus počet nesouhlasných párů, tento rozdíl vzhledem k celkovému počtu párů (jen souhlasných a nesouhlasných) o nerozhodné páry nebere gamma v úvahu Míry asociace pro ordinální data souhlasné - nesouhlasné o gamma = souhlasné + nesouhlasné o gamma = (1-1)/2 = 0 Míry asociace pro ordinální data o pokud je většina párů souhlasných, je hodnota gamma kladná – tj. pozitivní vztah (až +1) o pokud je většina párů nesouhlasných, je hodnota gamma záporná – tj. negativní vztah (až -1) o pokud je počet souhlasných a nesouhlasných párů vyrovnán – gamma kolem 0 Míry asociace pro ordinální data o gamma je symetrická míra – nedělá rozdíly mezi závislou a nezávislou proměnnou o asymetrická varianta koeficientu gamma – Sommerovo D o Kendallovo tau b– stejný výpočet jako gamma, ale bere v úvahu i nerozhodné páry (tzv. ties); hodnoty v rozsahu -1 až +1 mohou být získány pouze pro čtvercové tabulky (tj. stejný počet kategorií obou proměnných) o Kendallovo tau c– kromě korekce pro ties obsahuje i korekci pro velikost tabulky o Spearmanův koeficient korelace (viz dále) Shrnutí o u nominálních dat hodnota míry asociace proměnných indikuje sílu vztahu – rozsah od 0 do 1 o u ordinálních dat míry asociace indikují jak sílu vztahu (abs. hodnota koeficientu), tak směr vztahu Pearsonův korelační koeficient o u intervalových a poměrových dat můžeme jako míru asociace – vztahu mezi proměnnými použít Pearsonův korelační koeficient o korelace n ko = s, spolu, vzájemně n relace = vztah n korelace = vzájemný vztah proměnných Pearsonův korelační koeficient o absolutní hodnota koeficientu vyjadřuje sílu (těsnost) vztahu o znaménko (+ nebo -) směr vztahu o rozsah -1 až +1 o označuje se r Pearsonův korelační koeficient o sám o sobě je deskriptivní statistikou, ale podobně jako u ostatních měr asociace je možno spočíst statistickou významnost (=zda se se významně liší od nuly, tj. zda nějaký vztah mezi proměnnými vůbec existuje) o závisí na velikosti výběru – čím vyšší, tím nižší koeficient vychází průkazný Pearsonův korelační koeficient o je mírou pouze pro lineární vztahy o před výpočtem je vhodné zobrazit vztah mezi proměnnými graficky – tzv. scatter (dvourozměrný bodový diagram) Scatter o pozitivní vztah (přímá úměra) – čím vyšší hodnoty proměnné X, tím vyšší hodnoty proměnné Y o r > 0 Scatter o negativní vztah (nepřímá úměra) – čím vyšší hodnoty proměnné X, tím nižší hodnoty proměnné Y o r < 0 Scatter o žádný vztah - hodnoty proměnné X nesouvisí s hodnotami proměnné Y o r = 0 Scatter o nelineární vztah o r = 0 Příklad o jak spolu souvisí pocit štěstí a míra extraverze? o 10 osob, 2 proměnné – skór z dotazníku štěstí a skór ze škály extraverze Příklad Příklad Příklad o výpočet r [o ] r[xy] = s[xy]/s[x]s[y ] o s[xy]= kovariance o s[xy]= (∑^n[i=1] (x[i]-x)(y[i]-y))/ (n-1) o s[x], s[y] = směrodatné odchylky Příklad o x = m[x] = 9,90 o s[x] = 4,20 o y = m[y] = 7,90 o s[y] = 4,01 o n = 10 Příklad o s[xy]= (∑^n[i=1] (x[i]-x)(y[i]-y))/(n-1) o s[xy]= (∑^n[i=1] (x[i]-9,9)(y[i]-7,9)/(10-1) o s[xy]= ( (15-9,9)(12-7,9) + (8-9,9)(7-7,9) + (7-9,9)(5-7,9) + (18-9,9)(14-7,9) + (4-9,9)(6-7,9) + (12-9,9)(3-7,9) + (10-9,9)(5-7,9) + (10-9,9)(10-7,9) + (6-9,9)(4-7,9) + (9-9,9)(13-7,9) )/9 o s[xy]= ((5,1*4,1) + (-1,9*-0,9) + (-2,9*-2,9) + (8,1*6,1) + (-5,9*-1,9) + (2,1*-4,9) + (0,1*-2,9) + (0,1*2,1) + (-3,9*-3,9) + (-0,9*5,1))/9 o s[xy]= (20,91+1,71+8,41+49,41+11,21+(-10,29)+(-0,29)+0,21+15,21+(-4,59))/9 o s[xy]= 91,9/9 o s[xy]= 10,21 Příklad [o ] r[xy] = s[xy]/s[x]s[y ]o r[xy] = 10,21/4,20*4,01 o r[xy] = 10,21/16,84 o r[xy] = 0,606 Výstup ve Statistice Interpretace r o není shoda v tom, jaká hodnota r je považována za těsný vztah o interpretace navržená Guilfordem: n <0.20 zanedbatelný vztah n 0.20-0.40 nepříliš těsný vztah n 0.40-0.70 středně těsný vztah n 0.70-0.90 velmi těsný vztah n >0.90 extrémně těsný vztah Interpretace r o pro lepší interpretaci je možné převést koeficient korelace na koeficient determinace (r^2) o ukazuje, kolik rozptylu v jedné proměnné může být vysvětleno rozptylem ve druhé proměnné Interpretace r o v našem příkladu n r = 0,606 n r^2 = 0,367 o 36,7% rozdílů v míře štěstí můžeme vysvětlit rozdíly v míře extraverze Interpretace r o korelace neznamená příčinný vztah mezi proměnnými n ten můžeme ověřovat např. experimentem, kdy jsou všechny ostatní proměnné udržovány konstantní, proměnná X předchází Y v čase atd. Faktory ovlivňující r o omezený rozsah hodnot proměnné o použití extrémních skupin o nehomogenní soubor o extrémní hodnoty (outliers) o nelineární vztahy o reliabilita použitých nástrojů Omezený rozsah hodnot o omezený rozsah hodnot jedné nebo obou proměnných snižuje hodnotu r o stejně tak nízká variabilita (extrémní případ:pokud by všechny hodnoty 1 proměnné byly stejné, zákonitě r=0) Použití extrémních skupin o použití extrémních skupin (např. jen osob s vysokým IQ) vede k vyššímu r Nehomogenní soubor o může zkreslit r jak směrem nahoru, tak dolů Extrémní hodnoty o extrémní hodnoty v jedné nebo obou proměnných mohou r výrazně zkreslit (nejen hodnotu, ale i směr), zvláště když je počet osob v souboru nízký Extrémní hodnoty o r= 0,606 o r= 0,766 Neparametrický koeficient o pro ordinální data je možno spočítat Spearmanův koeficient pořadové korelace (r) o počítá se tak, že n hodnoty obou proměnných se seřadí od nejnižší po nejvyšší a přidělí se jim pořadí n z pořadí se pak počítá Pearsonův koeficient korelace Literatura o Hendl: kapitoly 8.3, 7.1 a 7.2