Míry asociace o obecná definice -- síla a směr vztahu o Pearsonův korelační koeficient o míry asociace pro pořadová data o míry asociace pro nominální data Míry asociace o míry asociace vyjadřují těsnost vztahu proměnných (a případně směr vztahu) Míry asociace o těsnost (síla) vztahu -- vyjádřena absolutní hodnotou koeficientu o není shoda v tom, od jaké hodnoty je vztah považován za těsný (někdy uváděno >0.70, jindy >0.30), středně těsný či slabý Míry asociace o směr vztahu -- pouze u ordinálních a kardinálních proměnných, vyjádřen znaménkem koeficientu o pozitivní vztah -- čím vyšší hodnoty jedné proměnné, tím vyšší hodnoty druhé proměnné o negativní vztah - čím vyšší hodnoty jedné proměnné, tím nižší hodnoty druhé proměnné Pearsonův korelační koeficient o u kardinálních dat můžeme jako míru asociace -- vztahu mezi proměnnými použít Pearsonův korelační koeficient o korelace n ko = s, spolu, vzájemně n relace = vztah n korelace = vzájemný vztah proměnných Pearsonův korelační koeficient o absolutní hodnota koeficientu vyjadřuje sílu (těsnost) vztahu o znaménko (+ nebo -) směr vztahu o rozsah -1 až +1 o označuje se r Pearsonův korelační koeficient o je mírou asociace pouze pro lineární vztahy o před výpočtem je vhodné zobrazit vztah mezi proměnnými také graficky -- tzv. scatter (dvourozměrný tečkový diagram) Scatter o pozitivní vztah (přímá úměra) -- čím vyšší hodnoty proměnné X, tím vyšší hodnoty proměnné Y o r > 0 Scatter o negativní vztah (nepřímá úměra) -- čím vyšší hodnoty proměnné X, tím nižší hodnoty proměnné Y o r < 0 Scatter o žádný vztah - hodnoty proměnné X nesouvisí s hodnotami proměnné Y o r = 0 Scatter o nelineární vztah o r = 0 Pearsonův korelační koeficient o sám o sobě je deskriptivní statistikou, ale podobně jako u ostatních měr asociace je možno spočíst statistickou významnost o nulovou hypotézou je zde většinou r=0 Příklad o jak spolu souvisí pocit štěstí a míra extraverze? o 10 osob, 2 proměnné -- skór z dotazníku štěstí a skór ze škály extraverze Příklad Příklad Příklad o m[x] = 7,90 ; s[x] = 4,01 o m[y] = 9,90 ; s[y] = 4,20 Příklad o výpočet r r = s[xy] / s[x]* s[y ] o s[xy] = S (x[i] -- x)*(y[i] -- y)/ (n-1) o s[x,] s[y] jsou směrodatné odchylky Příklad or[xy] = S x[i]'* y[i]' / (n-1) o x[i]' a y[i]' jsou standardizované hodnoty proměnných x a y Příklad Příklad o s[xy]= [(5,1*4,1) + (-1,9*-0,9) + (-2,9*-2,9) + (8,1*6,1) + (-5,9*-1,9) + (2,1*-4,9) + (0,1*-2,9) + (0,1*2,1) + (-3,9*-3,9) + (-0,9*5,1)]/ 9 o s[xy]= 91,9/9 = 10,21 o r[xy]= 10,21 /(4,01*4,20) = 10,21/16,84 o r[xy] = 0,606 Výstup v SPSS Interpretace r o není shoda v tom, jaká hodnota r je považována za těsný vztah o interpretace navržená Guilfordem: n <0.20 zanedbatelný vztah n 0.20-0.40 nepříliš těsný vztah n 0.40-0.70 středně těsný vztah n 0.70-0.90 velmi těsný vztah n >0.90 extrémně těsný vztah Interpretace r o pro lepší interpretaci se koeficient korelace někdy převádí na koeficient determinace (r^2) o interpretuje se jako ukazatel, kolik rozptylu v jedné proměnné může být vysvětleno rozptylem ve druhé proměnné Interpretace r o v našem příkladu n r = 0,606 n r^2 = 0,367 o 36,7% rozdílů v míře štěstí můžeme vysvětlit rozdíly v míře extraverze Interpretace r o korelace neznamená příčinný vztah mezi proměnnými!! n ten můžeme ověřovat pouze experimentem, kdy jsou všechny ostatní proměnné udržovány konstatní, proměnná X předchází Y v čase atd. Faktory ovlivňující r o omezený rozsah hodnot proměnné o použití extrémních skupin o nehomogenní soubor o odlehlé hodnoty o nelineární vztahy o reliabilita použitých nástrojů Omezený rozsah hodnot o omezený rozsah hodnot jedné nebo obou proměnných snižuje hodnotu r o stejně tak nízká variabilita (extrémní případ:pokud by všechny hodnoty jedné proměnné byly stejné, zákonitě r=0) Použití extrémních skupin o použití extrémních skupin (např. jen osob s vysokým IQ) vede k vyššímu r Nehomogenní soubor o může zkreslit r jak směrem nahoru, tak dolů Odlehlé hodnoty o extrémní hodnoty v jedné nebo obou proměnných mohou r výrazně zkreslit (nejen hodnotu, ale i směr), zvláště když je počet osob v souboru nízký Extrémní hodnoty o r= 0,606 o r= 0,766 Spearmanův koeficient [o ] pro pořadová data je možno spočítat Spearmanův koeficient pořadové korelace ( r[s]) o počítá se tak, že n hodnoty obou proměnných se seřadí od nejnižší po nejvyšší a přidělí se jim pořadové číslo n z těchto pořadí se pak počítá Pearsonův koeficient korelace Spearmanův koeficient Spearmanův koeficient o používá se i u kardinálních dat, pokud jsou přítomny odlehlé hodnoty Kendallův koeficient o používá se rovněž pro pořadová data o označuje se t[k] (Kendallovo tau) o princip výpočtu je jiný než u Spearmanova koeficientu Kendallův koeficient o seřadíme dvojice hodnot proměnných x a y tak, aby hodnoty proměnné x byly v pořadí od nejmenší po největší o pokud je mezi proměnnými x a y kladný vztah, pak by i hodnoty proměnné y měly být ve vzestupném pořadí o každou hodnotu proměnné y porovnáme se všemi následujícími hodnotami proměnné y Kendallův koeficient o pokud je y[j]>y[i] (kdy j>i), pak nastává tzv. konkordance (P) -- značí pozitivní vztah o pokud je y[j]i), pak nastává tzv. diskordance (Q) -- naznačuje negativní vztah o Kendallovo S = P-Q o dělí se počtem možných konkordancí a diskordancí D= n*(n-1)/2 Kendallův koeficient Kendallův koeficient o t[k] = S/D o t[k] = (P-Q)/[n*(n-1)/2] o t[k] = (29--14)/[10*(10-1)/2] o t[k] = 15/45 o t[k] = 0,333 Kendallův koeficient o pokud v datech existuje větší počet shod (y[j]=y[i] nebo x[j]=x[i]), upravuje se hodnota D o tento modifikovaný koeficient se označuje jako Kendallovo tau-b Míry asociace pro nominální data o míry asociace pro nominální data ukazují pouze sílu vztahu dvou proměnných, nikoli směr či jiné informace o povaze vztahu o rozlišujeme míry založené na chí-kvadrátu a míry PRE Míry založené na chí-kvadrátu o velikost hodnoty chí-kvadrát je ovlivněna velikostí výběru a počtem kategorií tabulky o účelem koeficientů založených na chí-kvadrátu je eliminovat tyto vlivy Míry založené na chí-kvadrátu o rozsah koeficientů je obvykle mezi 0 a 1 n čím vyšší hodnota, tím těsnější vztah n 0 -- žádný vztah n 1 -- absolutní vztah (z hodnot jedné proměnné můžeme předpovědět hodnoty druhé proměnné) o pro koeficienty je možno spočítat statistickou významnost Míry založené na chí-kvadrátu o mezi nejčastěji užívané míry asociace založené na chí-kvadrátu patří koeficienty n Fí (Phi) n Cramerovo V (Cramer's V) n někdy je užíván i koeficient kontingence (Contingency Coefficient) Míry založené na chí-kvadrátu o Fí koeficient - užívá se pro tabulky 2x2 (tj. pro dichotomické proměnné, např. pohlaví) o vypočte se tak, že se hodnota chí-kvadrátu vydělí počtem osob a výsledek se odmocní o F^2 = c^2/n Míry založené na chí-kvadrátu o Cramerovo V -- podobný výpočet jako Fí; počet osob se navíc násobí (počtem řádků -- 1) n (pokud je počet řádků menší než počet sloupců, jinak počtem sloupců -- 1) o V = c^2/(n*m) o používá se pro tabulky větší než 2x2 Příklad o příklad z minulé přednášky - jak souvisí model manželství s jeho vydařeností o Chí-kvadrát = 18.71 o počet osob N = 154 o m = (počet řádků -- 1) = (3 -- 1) = 2 Kontingenční tabulka (SPSS) Příklad o tabulka 3x3 -- použijeme Cramerovo V o V = c^2/(n*m) o V = 18.71/(154*2) o V = 0,246 Příklad o interpretace: hodnota 0,246 je poměrně nízká -- vztah mezi modelem manželství a jeho vydařeností není příliš těsný o v SPSS jsou uvedeny oba koeficienty (Fí i V), je třeba zvolit ten správný pro každou tabulku Výstup v SPSS Míry PRE o PRE je zkratka pro Proportional Reduction in Error (poměrná redukce chyby odhadu) o princip PRE: porovnání odhadu hodnot závislé proměnné bez znalosti hodnot nezávislé proměnné a s její znalostí (o kolik se sníží chyba odhadu?) Míry PRE o příklad -- jaký je vztah mezi pohlavím a užíváním rtěnky?* o vypočítáme koeficient lambda o pokud bychom měli odhadnout, zda náhodně vybraný respondent používá rtěnku: jaká je pravděpodobnost chybného odhadu? o *příklad převzat z Disman: Jak se vyrábí sociologická znalost Míry PRE o můžeme očekávat, že více lidí rtěnku nepoužívá než používá (naprostá většina mužů + některé ženy) o takže bude výhodnější odhadnout, že náhodně vybraný respondent rtěnku nepoužívá o pravděpodobnost chyby závisí na podílu lidí užívajících rtěnku Míry PRE Míry PRE o při tomto podílu osob je pravděpobnost chyby asi 40% (když budeme odhadovat, že nádodný respondent rtěnku neužívá) o ze 160 případů bychom se zmýlili 63x Míry PRE o o kolik by se chyba zmenšila, pokud bychom znali pohlaví respondenta? o pro muže bychom odhadovali, že rtěnku nepoužívá, pro ženu naopak - že ji používá Míry PRE Míry PRE o pokud bychom znali pohlaví respondenta, zmýlili bychom se ve svém odhadu 21x (2 x u muže a 19x u ženy) o o kolik by se náš odhad zlepšil? tj. o kolik by se zmenšila naše chybovost, oproti původní chybovosti? Míry PRE o chyby předtím -- chyby teď = 63-21 = 42 o poměrná redukce chyby (tj. vzhledem k předchozím chybám) = lambda = 42/63 = 0,667 o chyba v odhadu užívání rtěnky se sníží asi o 67%, pokud známe pohlaví respondenta Míry PRE o rozsah koeficientu lambda je od 0 do 1 o 0 znamená, že znalost hodnoty nezávislé proměnné vůbec nesníží chybu v odhadu hodnot závislé proměnné; proměnné jsou vzájemně nezávislé o čím blíže 1, tím lépe můžeme z hodnot nezávislé proměnné předpovědět hodnoty závislé proměnné Míry PRE o v SPSS jsou počítány 3 varianty koeficientu lambda n symetrická -- není určeno, co je závislá a co nezávislá proměnná n 2 asymetrické -- pro proměnnou 1 jako závislou a pro proměnnou 2 jako závislou Výstup v SPSS Míry PRE pro nominální data o kromě koeficientu lambda se užívají také n Goodmanovo a Kruskalovo tau (nevyužívá při predikci nejčastější kategorii závislé proměnné jako lambda, ale rozdělení ve všech kategoriích závisle proměnné) n Cohenova Kappa -- pro měření shody dvou posuzovatelů Kontrolní otázky o co vyjadřuje absolutní hodnota Pearsonova koeficientu korelace? a co jeho znaménko (+ nebo -)? o co je to koeficient determinace? o čím může být zkreslen korelační koeficient? Kontrolní otázky o rozdíl mezi mírami založenými na chí-kvadrátu a mírami PRE o nejužívanější míry pro nominální data o nejužívanější míry pro ordinální data Literatura o Hendl: kapitola 7 o ukázka výsledků korelační analýzy (v IS): n Parker, J. D. A., Austin, E. J., Hogan, M. J., Wood, L. M., & Bond, B. J. (2005). Alexithymia and academic success: Examining the transition from high school to university. Personality and Individual Differences, 38, 1257-1267.