PSY117 2018 Statistická analýza dat v psychologii Přednáška 3 Transformace skórů a kvantily normálního rozložení Shrnutí z minula oPrvním cílem analýzy je zjistit, jaké hodnoty proměnné se v datech vyskytují, jaké jsou jejich četnosti a jak jsou četnosti rozložené. oRozložení pak můžeme popsat jednotlivými četnostmi a/nebo ukazateli centrální tendence a variability. nČetnosti, ukazatele centrální tendence a variability jsou popisné statistiky – popisují rozložení oRozložení zobrazujeme sloupcovými diagramy, histogramem, boxplotem oKódování proměnných je do značné míry arbitrární. oJak ovlivňují různá nakódování tvar rozložení? oMůžeme překódováním proměnné – TRANSFORMACÍ – tvar rozložení záměrně měnit? oMůžeme TRANSFORMACÍ usnadnit porozumění statistikám? Transformace skórů (dat) oPro usnadnění porozumění a možnost dalších analýz často přepočítáváme hodnoty proměnných, aby měly lepší vlastnosti oUsnadnění interpretace – lineární transformace nnapř. vynásobení 10 nebo 100 pro odstranění desetinných míst ntvar rozložení zůstává zachován nmožnost sjednocení různých proměnných na stejnou škálu, měřítko ... Standardizace oZměna tvaru rozložení – nelineární transformace nlog/exp fce, (od)mocniny, Tukey: „ladder of powers“ Hendl kap. o EDA. nTéž „normalizace“ rozložení – normalizované skóry oZměna úrovně měření – pořadová transformace (ranking) o o o o o o o o o oAJ: data transformations, standard scores, z-scores Lineární transformace 1 oNapř. počtu psychologů z jednotek na tisíce o nTvar rozložení zachován nPopisné statistiky se předpověditelně změní nM, SD, Md, IQR, min, max jsou tisíckrát menší ns2 (VAR)? o oAJ: raw score HRUBÝ SKÓR Lineární transformace 2 oDeviační skóry xi - odečtení průměru nTvar rozložení zůstává zachován nPopisné statistiky – CT jsou o průměr menší, variabilita beze změn nSnadnější interpretace jednotlivých skórů n =CENTROVÁNÍ Lineární transformace - standardizace z-skóry, standardizované skóry oNejobvyklejší lineární transformace - standardizace ntransformace sady skórů, aby m = 0, s = 1 njednotkou měření se stává s, možnost srovnávání různých škál (ale pozor rozdíly v rozložení zůstávají!) n nzi = (Xi – m) / s n ns. je zajímavá zvláště u normálně rozložených dat, protože známe řadu jeho percentilů zpaměti ou přibližně normálně rozložených dat o lidech je většina (přes 90%) lidí mezi -3 a 3 o o o oAJ: data transformations, standard(ized) scores, z-scores, normalized scores Skóry odvozené ze z-skórů nPoužívané primárně v psychodiagnostických metodách n oIQ skóry (m=100, s=15) oT skóry (m=50, s= 10) o ostaniny, staninové skóry (standard nine) (m=5, s= 2) + kategorizace zaokrouhlením na celá čísla … od 1 do 9 osteny, stenové skóry (standard ten) (m=5,5, s= 2) + kategorizace zaokrouhlením na celá čísla … od 1 do 10 o o Standardní skóry mají pořád stejné rozložení jako hrubé skóry! Nelineární transformace 1 oZměna rozložení (obv. směrem k normálnímu) nPro smysluplnější využití momentových statistik nPro možnost využití analytických technik, které nějakou podobu rozložení vyžadují oPopisné statistiky se mění složitěji oPř. logaritmus počtu psychologů n Nelineární transformace 2 oTransformace na pořadí – ranking nEliminace odlehlých hodnot, odhlédnutí od velikosti rozdílů mezi lidmi nObvykle vzestupně (nejnižší hodnota má pořadí 1) nStejné hodnoty dostávají průměrné pořadí (=RANK.AVG) nVýsledné rozložení je (přibližně) uniformní Transformace na percentily oZvláštní (standardizovaná) podoba transformace na pořadí oPoužívá se při tvorbě norem psychodiagnostických metod a ve výběrových testech o Psychodiagnostická kalkulačka oPřevody různých skórů online. oNástroj vyvíjí Hynek Cígler a Martin Šmíra ohttp://kalkulacka.testforum.cz/transformace-skoru N psychologů v ČR o http://www.statsdirect.com/help/content/image/stat0108_wmf.gif Normální rozložení Gaussovo, bell-curve oRozložení… n…náhodných chyb n…jevů v přírodě ovlivněných mnoha nezávislými faktory, jejichž efekty se sčítají oDlouhá historie – od 17. stol. nDeMoivre – sázení nLaplace a Gauss – chyby v astronomických pozorováních nQuetelet – lidi, l'homme moyen, BMI n n http://inductivebias.com/Blog/wp-content/uploads/2013/09/normalpdf.jpg o K čemu/proč normální rozložení? oMnoho proměnných je takto rozloženo nMůžeme pak hádat, kolik jakých hodnot v populaci je oMnoho statistických postupů s normálním rozložením pracuje, předpokládá ho nv různých modifikacích a rolích o Vlastnosti normálního rozložení https://en.wikipedia.org/wiki/Normal_distribution oSymetrické, unimodální oPrůměr=medián=modus oV hodnotách M+-SD se mění prohnutí oJe-li SD = 1, pak plocha pod křivkou je 1 oZešikmení (skewness) je 0 oStrmost (kurtosis) je 3 nčasto se prezentuje hodnota K-3 oForma, od níž odrážíme popis pozorovaných rozložení n o o https://tazawhyphi.files.wordpress.com/2011/04/skewness-formula-from-latexit.jpg https://tazawhyphi.files.wordpress.com/2011/04/kurtosis-formula-from-latexit.jpg Mnohost normálních rozložení oJeden tvar, ale různé umístění na různých škálách (M) a různé roztažení (SD) nhttp://www.intmath.com/counting-probability/normal-distribution-graph-interactive.php oStandardní normální rozložení: N(0,1) ntj. převedení normálně rozložené proměnné na z-skóry n Kvantily standardního normálního rozložení N(0;1) alias oblasti pod křivkou normálního rozložení normalcurveLQ •upraveno dle Glass, Hopkins, s. 88 Kvantily přesněji v MS Excel oNORM.S.DIST(z;1) – udává percentil odpovídající zadanému z-skóru, tj. kolik lidí má z-skór roven z nebo menší nProcento lidí v rozmezí z-skórů = NORM.S.DIST(vyšší z;1) – NORM.S.DIST(nižší z;1) oNORM.S.INV(p) – udává z-skór odpovídající zadanému percentilu o oBez toho S. poskytují funkce tutéž informaci pro normální rozložení s jiným M a SD Starší a napříč tabulkovými kalkulátory kompatibilní funkce jsou NORMSDIST(z) a NORMSINV(p). 9781118533871-tbbapp01.eps •Kvantily přesněji postaru Jak usoudíme, že naše pozorované rozložení je (přibližně) normální? 1.TVAR nsymetrická zvonovitost – histogram, Q-Q plot nzešikmení – přibližně 0 (ne víc než +-1) nstrmost – přibližně 0 (ne víc než +-1) n 2.SPOJITOST nmusí být smysluplné předpokládat, že i když máme v datech diskrétní hodnoty, měřená veličina je spojitá Q-Q plot oVynesení kvantilů pozorovaného rozložené proti kvantilům normálního rozložení se stejným M a SD. Jak usoudíme, že naše pozorované rozložení je (přibližně) normální? 1.TVAR nsymetrická zvonovitost – histogram, Q-Q plot nzešikmení – přibližně 0 (ne víc než +-1) nstrmost – přibližně 0 (ne víc než +-1) n 2.SPOJITOST nmusí být smysluplné předpokládat, že i když máme v datech diskrétní hodnoty, měřená veličina je spojitá Statistické zkratky a značky