PSY117 Statistická analýza dat v psychologii Přednáška 6 2015 Vlastnosti a využití korelace Parciální korelace Pořadová korelace a nezávislost Robustnost a resistence statistik Statistics are like bikinis. What they reveal is suggestive, but what they conceal is vital. Aaron Levenstein Dlouhodobá adaptace sluchu Souvisí hlasitost poslechu osobního přehrávače [% z maxima přehrávače] s výdrží snášení nepříjemného hlasitého zvuku? Dlouhodobá adaptace sluchu mh=39,6 sh = 10,7 mv=13,0 sv = 4,9 r = 0,95 výdrž’ = 0,43.hlasitost − 4,15 výdrž’ – 13,0 = 0,43(hlasitost – 39,6) Namalovat pár bodů Vztah mezi třemi proměnnými Parciální a semiparciální korelace oZjistili jsme, že účastníci našeho experimentu se nám opili. To nám vadí, protože opilost snižuje citlivost na podněty a zvyšuje obě naše proměnné. o o o o o oBylo by možné zjistit korelaci mezi hlasitostí a výdrží, bez vlivu alkoholu, tj. kdyby nikdo nepil? o o o A H V 0,95? A H V Jak ale rozdělovat ty rozptyly? oRegrese dělí proměnnou na sdílený rozptyl a reziduální rozptyl…. oParciální korelace rVH.A nUděláme regresi výdrže na alkohol – reziduum výdrže bez alkoholu nUděláme regresi hlasitosti na alkohol – reziduum hlasitosti bez alkoholu nKorelace dvou reziduí je PARCIÁLNÍ KORELACE n n oSemiparciální korelace rV(H.A) nKorelace rezidua (H.A) se závislou proměnnou (V) n n AJ: partial correlation, part (semi-partial) correlation Korelace mezi hlasitostí a výdrží , kontrolujeme-li statisticky* alkohol je… A H V hlasitost vydrz alkohol hlasitost 1,000 ,949 ,864 vydrz ,949 1,000 ,902 alkohol ,864 ,902 1,000 rVH.A = 0,78 * Též, „pokud by alkohol byl konstantní“ A H V Korelace (oranžová+hnědá)/(červená+ fialová oranžová+hnědá) ≈ r2VH Parciální korelace r2VH.A ≈ or/(or+čer) Semiparciální korelace r2V(H.A) ≈ or/(or+čer+fial) Vždy nás zajímá vysvětlený rozptyl závislé proměnné – zde Výdrž Vlastnosti Pearsonova korelačního koeficientu oJde o momentový koeficient korelace, a tedy je nutná intervalová a vyšší úroveň měření oJe vhodný pro popis normálně rozložených proměnných (nebo alespoň stejně rozložených) oVyjadřuje sílu(těsnost) lineárního vztahu, tj. jak moc připomíná tvar scatteru štíhlou elipsu, čáru o oCo když tyto podmínky nejsou splněny? AJ: Pearson’s product-moment correlation Pořadová korelace o Řeší mnohá omezení Pearsonovy r o Čím víc, tím víc/míň nahrazuje ideou shody pořadí o oVysoká pozitivní (negativní) korelace pak znamená: o oMá-li jeden člověk v jedné proměnné vyšší hodnotu než druhý člověk (tj. nižší pořadí), pak by i v druhé proměnné měl mít ten první vyšší (nižší) hodnotu než druhý. Kendallův koeficient pořadové korelace tau známka M obvod hlavy pořadí v M pořadí v obv. h. pořadí v M pořadí v obv. h. K+, D- 3 48 3 3 1 5 ---- 2 43 2 2 2 2 ++- 1 50 1 5 3 3 +- 4 49 4 4 4 4 - 5 40 5 1 5 1 t = (K-D) / [N (N -1)/2] = (3-7)/(5.4/2) = -4/10 = -0,4 AJ: Kendall tau (-b,-c), ranks, rank ordering Kendallův koeficient pořadové korelace tau t= přeškálovaná pravděpodobnost, že dva náhodní lidé budou podle obou proměnných shodně(opačně) seřazeni t<1;-1> tzachycuje i monotonní nelineární vztah tdíky pořadovému základu není ovlivněno outliery tkromě pořadové úrovně měření nepředpokládá nic o oModifikace tb a tc řeší problém shody pořadí (ties). oPodobné: (Goodmanova a Kruskallova) g a Sommerovo d Spearmanův koeficient pořadové korelace rs známka M obvod hlavy pořadí v M pořadí v obv. h. 3 48 3 3 2 43 2 2 1 50 1 5 4 49 4 4 5 40 5 1 rs = Pearsonova r spočítaná na transformovaných proměnných = -0,6 transformace do pořadí Spearmanovo rs (r, ró, rho) ors – tak na půl cesty mezi r a t nJe pořadový a nepředpokládá striktně lineární vztah, ale zohledňuje velikost odchylek od ideálního pořadí nPočítá se jako Pearsonova korelace, ale na pořadích nPoužívá se obvykle jako rezistentnější varianta Pearsonovy r, která zachytí i monotónní nelineární vztahy. oJe-li rs > r, je možné, že vztah není lineární nLze interpretovat rs2 nVychází obvykle numericky vyšší než tau, ovšem to by nikdy nemělo hrát roli ve vašem rozhodování. V obou případech jde o jiný typ vztahu. AJ: Spearman (rank-order correlation) rho, Vztahy na nominální úrovni o=rozdíly řádkových/sloupcových relativních četností v kontingenční tabulce o=rozdíly pravděpodobností/šancí – poměry šancí, poměry rizik oLze vyjádřit jako korelační koeficienty založené na hodnotě c2 nKvůli neexistenci směru mají koeficienty rozsah od 0 (žádný vztah) do 1 (maximálně těsný vztah) oVětší množství koeficientů se specializovaným užitím nPearsonův kontingenční koeficient nCramerovo V nrf – koeficient fí (phi) oTěmto vztahům se budeme věnovat později. o oAJ: odds ratio, risk ratio Př. poměr šancí OR: O(paměť|muž)/O(paměť|žena)=(8/15)/(6/24)=2,1 Je asi 2násobná šance volby paměť u mužů oproti ženám Konstrukce psychologických škál oNeed for structure = součet 10 položek n n M SD Žít dobře uspořádaný život s pravidelným denním rozvrhem mi prostě sedne. 2,96 0,98 Stanovit si pevný režim mi pomáhá více si užívat života. 3,15 1,03 Líbí se mi jasný a uspořádaný způsob života. 3,11 1,09 Nerad(a) se vystavuji situacím, o nichž dopředu nevím, co mohu očekávat. 3,19 1,11 Nerad(a) trávím čas ve společnosti lidí, kteří jsou schopni jednat nepředvídatelně. 2,44 0,97 Nemám rád(a) nepředvídatelné situace. 2,59 1,08 Obyčejně se mi uleví, jakmile se pro něco rozhodnu. 3,67 1,00 Nemám rád(a) nejisté situace. 3,15 0,99 Je mi nepříjemné, když nechápu důvod nějaké události, která se mi přihodila. 3,70 0,95 Nemám rád(a), když něčí výrok může znamenat spoustu různých věcí. 3,19 1,18 Využití korelací v konstrukci psychologických testů - reliabilita oPoložky lze sčítat, pokud spolu korelují. oPoložky korelují, existuje-li společný důvod pro určitý způsob odpovídání na ně – měřená charakteristika. oJak moc spolu musí korelovat? o n n n nrtt je vnitřní konzistence, rM je průměrná korelace mezi položkami, k je počet položek opři 10 položkách stačí průměrná korelace 0,2 oVnitřní konzistence - Cronbachovo a - horní mez reliability ominimálně 0,7 pro výzkum, 0,9 pro diagnostiku o zpět k NfS Průměrná korelace rM= 0,34 Cronbachova alfa rtt = 0,84 Jaké statistiky už známe oČetnosti oPopisné statistiky jedné proměnné nmomentové: M, SD, s 2 npořadové: min, max, Md, Q1, Q3, IQR, percentily nkategorické: Mo oUkazatele vztahu mezi dvěma proměnnými nmomentové: Pearsonova r, b npořadové: Kendallovo t, Spearmanova rs nkategorické: rf , Cramerovo V oS jakými předpoklady je spojeno použití těchto statistik? oCo se stane, když nejsou tyto předpoklady splněny? Předpoklady statistik oJejich splnění podmiňuje nmatematickou smysluplnost výpočtu otypicky úroveň měření npřesnost, výpovědní schopnost vypočítané hodnoty otypicky tvar rozložení oPři splnění všech předpokladů nese vypočítaná statistika tu informaci, kterou od nich v souladu se statistickou teorií očekáváme. oStatistiky, jejichž smysl není porušením předpokladů příliš ovlivněný, jsou ROBUSTNÍ. opoužíváme i pro statistiky s minimálními či žádnými předpoklady. o o oAJ: assumptions, robust Zeptat se na průměr Co ještě omezuje výpovědní schopnost statistik? oOdlehlé, extrémní hodnoty nNení-li statistika příliš ovlivněna výskytem extrémních hodnot, je REZISTENTNÍ nResistenci momentových statistik někdy zvyšujeme ořezáváním extrémů, např. trimmed mean oEfekt podlahy a stropu nsnižuje ukazatele variability nposunuje ukazatele centrální tendence nsnižuje korelaci n… a nic moc s tím nenaděláme, to je věc metodologie