PSY117 2016 Statistická analýza dat v psychologii Přednáška 2 MÍRY CENTRÁLNÍ TENDENCE A VARIABILITY He uses statistics as a drunken man uses lampposts – for support rather than illumination. Andrew Lang drunk_on_lamppost_2 Rozložení rozdělení, distribuce četností oMěřené jevy jsou nějak rozděleny do kategorií (intervalů) a tyto kategorie jsou různě „populární“ – četné. oČetnosti u reálných ordinálních a vyšších proměnných obvykle nebývají distribuovány nahodile – jejich rozdělení zobrazené histogramem má popsatelný tvar. o o o o oRozdělení četností je tedy to, kolik relativně (či absolutně) máme kterých hodnot měřené proměnné. nTypicky lze přibližně popsat slovy, např.: vyskytlo se hodně středních hodnot a relativně málo extrémních hodnot. nToto rozložení jevů na měřené škále je nejlépe vidět na grafech. nObvykle nějaké konkrétní rozložení očekáváme. o (c) Stanislav Ježek, Jan Širůček Tvar rozložení četností oNormální oUniformní oPočet vrcholů nUnimodální, bimodální, multimodální oZešikmení nZešikmené zprava (pozitivně), efekt podlahy nZešikmené zleva (negativně), efekt stropu oStrmost nLeptokurtické, platykurtické AJ: frequency distribution, normal, rectangular, unimodal, bimodal, positively/negatively skewed, lepto(platy)kurtic, floor/ceiling effect (c) Stanislav Ježek, Jan Širůček Normální (Gaussovo) rozložení o o o o o o o o ohttp://en.wikipedia.org/wiki/Image:Standard_deviation_diagram.png o o„Normální“ ve smyslu „velmi běžné“ oTam, kde se setkává mnoho nezávislých vlivů. oNe vždy, nesouvisí s „kvalitou“ dat. o oAJ: normal distribution, bell curve Procedura někdy jednoduchá jindy složitá (c) Stanislav Ježek, Jan Širůček Shrnutí oPrvní informací (statistikou), která nás zajímá je četnost výskytu jednotlivých hodnot (resp. hodnot uvnitř jednotlivých intervalů) oKonfiguraci četností nazýváme rozložení (rozdělení). oRozložení popisujeme (=komunikujeme je) ntabulkou četností ngraficky – histogram, sloupcový diagram n(pomocí percentilů) oO typu, tvaru rozložení hodnot proměnné uvažujeme většinou graficky – histogram, sloupcový diagram. oNejčastěji diskutovaným rozložením je tzv. normální rozložení. f Stonek a list 3 0 . 002 5 1 . 00005 8 2 . 00000000 2 3 . 00 2 4 . 00 3 5 . 000 2 6 . 00 1 7 . 0 Stonek: jednotky Každý list: 1 případ oNedalo by se rozložení hodnot proměnné popsat úsporněji než pomocí tabulky četností, histogramu? o oKde na měřené škále se data nalézají? oUKAZATEL CENTRÁLNÍ TENDENCE o oJak moc jsou na ní rozptýlená? oUKAZATEL VARIABILITY o o+ tvar rozložení (často implicitně) Centrální tendence (=střední hodnoty, umístění) oCT je jeden údaj, jímž se snažíme popsat rozložení četností jedné proměnné nKouzlo i zrádnost je právě v tom, že je to 1 údaj. oCT udává průměrnou, typickou, reprezentativní, očekávanou hodnotu nCo přesně tím míníme, záleží na tom, jakou míru CT se rozhodneme použít oCT udává, kde na číselné ose si představujeme rozložení proměnné – odtud ukazatel lokace, umístění n o o o oAJ: measures of central tendency, of location Modus, medián a průměr oModus - kategoriální typická hodnota nnejčastější hodnota, h. s nejvyšší četností njediná možnost u nominálních dat, u vyšších úrovní často užitečnou volbou oMedián – pořadová střední hodnota nhodnota prvku uprostřed uspořádaného souboru, 50. percentil (P50) npři sudém počtu prvků je mediánem kterékoli číslo z intervalu mezi nejbližší vyšší a nejbližší nižší hodnotou (konsensuálně střed intervalu) npořadová data a výše oAritmetický průměr – deviační, odchylková, momentová střední h. njak ho znáte ze školy npouze intervalová a poměrová data nvelmi citlivý na extrémní hodnoty nhodnota, od které je součet kvadratických odchylek nejmenší. n n o oAJ: mode, median, mean GH(55): It is interesting to note that although the sum of the deviations from the mean is 0, and the sum of the squared deviations is least from the mean, the sum of the absolute deviations” is least from the median. Jak spočítat Mo, Md, M oMo nvyčteme z tabulky četností nExcel: =MODE(rozsah_s_daty_proměnné) oMd nkategorické p.: vyčteme z tabulky četností, nejsnáze kum. nspojité p. --> intervalové četnosti --> interpolujeme… nformálně, oje-li N liché, je to Xk (k-tý prvek setříděné řady hodnot proměnné), kde k=(N+1)/2, oje-li N sudé, je to průměr Xk a Xk+1, kde k=N/2 nExcel: =MEDIAN(rozsah_s_daty_proměnné) n =PERCENTIL(rozsah_s_daty_proměnné;0,5) oM nExcel: =PRŮMĚR(rozsah_s_daty_proměnné) o n Medián u intervalových četností f % cum % 0 - 0,99 3 11,5 11,5 1 - 1,99 4 19,2 30,8 2 - 2,99 9 30,8 61,5 3 - 3,99 2 7,7 69,2 … … … … 7 - 7,99 1 3,8 100,0 Celkem 26 100,0 1.Identifikujeme interval, v němž kumulativní četnost přesáhne 50% 2-2,99 2.Četnost tohoto intervalu = fm = 9 3.Kumulativní četnost pro předchozí interval = fp=7 4.Horní mez předchozího intervalu = Lp=1,99 5.Šířka intervalu = W = 1 6.Vypočítáme medián Md = Lp+ W(N/2-fp)/fm = = 1,99+1(26/2-7)/9 = 2,66 *Takto odhadnutý medián závisí na tom, jak jsou stanoveny hranice intervalů. f Stonek a list 3 0 . 002 5 1 . 00005 8 2 . 00000000 2 3 . 00 2 4 . 00 3 5 . 000 2 6 . 00 1 7 . 0 Stonek: jednotky Každý list: 1 případ Mo=2 Md=2 M=2,68 Md=2,66 Míry variability (rozptýlenosti) oDruhé číslo, jímž popisujeme rozložení hodnot proměnné oUdává, jak moc či málo jsou data na škále rozptýlená. nMalá variabilita = většina hodnot v souboru je stejných nebo velmi blízkých nVysoká variabilita = hodnoty jsou velmi rozmanité (n. rozložení je bimodální) Rozpětí, rozptyl, směrodatná ochylka oNominální statistika– entropie – nepoužívá se oPořadové statistiky n(variační) rozpětí = Xmax – Xmin (extrémně roste s velikostí vzorku) n(inter)kvartilové rozpětí = Q3 – Q1, IQR oOdchylkové (deviační, momentové) statistiky ozaložené na odchylkách od průměru: x = X – m nprůměrná absolutní odchylka (S|x| / n) – nepoužívá se nprůměrná odchylka na druhou – rozptyl – s2, VAR(X) opopulační (Sx2 / n) vs. výběrový (Sx2 / (n – 1)) osoučet odchylek na druhou = suma čtverců nsměrodatná odchylka (standardní odchylka) – s, SD oodmocnina rozptylu - návrat k původní jednotce o oAJ: measures of variability, entropy, rank-order, range, interquartile range, variance, standard deviation, sum of squares, square, square root oHC: Chyba v komputačním vzorečku na rozptyl. http://www.nerdytshirt.com/deviant.html Jak spočítat ukazatele variability oIQR = Q3-Q1 nQ1=Xk*), kde k=(N+1)*0,25 zaokrouhleno dolů nQ3=Xk, kde k=(N+1)*0,75 zaokrouhleno dolů n=PERCENTIL(rozsah_s_daty_proměnné; 0,25) resp. 0,75 nU spojitých proměnných lze využít intervalového výpočtu jako u mediánu. oSD/VAR 1.pro každý skór spočítáme deviační skór xi=Xi-M 2.deviační skóry umocníme na druhou 3.druhé mocniny deviačních skórů sečteme a podělíme (N-1) 4.pro SD výsledek ještě odmocníme n=VAR.VÝBĚR(rozsah_s_daty_proměnné) n=SMODCH.VÝBĚR(rozsah_s_daty_proměnné) n n*) hodnota k-tého prvku seřazené řady hodnot proměnné X f Stonek a list 3 0 . 002 5 1 . 00005 8 2 . 00000000 2 3 . 00 2 4 . 00 3 5 . 000 2 6 . 00 1 7 . 0 Stonek: jednotky Každý list: 1 případ Mo=2 Md=2 M=2,68 IQR=3 SD=1,97 Ukazatele centrální tendence a variability - poznámky oje třeba je umět spočítat ručně (a zopakovat si práci se sumačním symbolem S) oi vážený průměr ojak je ovlivní datové transformace přičtení konstanty a násobení konstantou ovhodnost použití ukazatelů centrální tendence (Hendl s.95) o o o o oAJ: weighted mean, add, multiply Boxplot – krabicový graf s anténami okrabice je od Q1 do Q3 ov krabici se značí medián oantény jsou Xmin do Xmax, maximálně! však 1,5x délka krabice (kvartilového rozpětí) ohodnoty vzdálenější se značí jako body – odlehlé hodnoty ohodnoty ještě vzdálenější (více než 3x délka krabice od Q1 nebo Q3) jsou někdy označovány jako extrémně odlehlé hodnoty Boxplot - příklad Popis rozložení pomocí percentilů oX-tý percentil nhodnota, pro kterou platí, že X % lidí (jevů) ve vzorku má/získalo tuto nebo menší hodnotu nlze odečíst z kumulativního histogramu či patřičného sloupce tabulky četností oRozložení popisujeme n10., 20., …, 80.,90. percentilem – obecně nmin, 25., 50., 75., max – nejčastěji (…boxplot) nmin., 1., 5., 10., 25., 50., 75., 90., 95., 99. – v normách oLze uvažovat v ještě menších částech rozložení než jsou procenta - obecně kvantily Souhrn oKategoriální deskriptivy nmodus, (entropie) oPořadové deskriptivy nmedián, kvartily, percentily (a jiné kvantily) nkvartilové rozpětí ngrafické znázornění rozložení pomocí pořadových deskriptiv - BOXPLOT oOdchylkové (deviační), momentové deskriptivy naritmetický průměr nrozptyl, směrodatná odchylka (k=2) nzešikmení (k=3) = (Sxk)/ n nšpičatost (strmost) (k=4) Volba popisných statistik oZvažujeme núroveň měření ntvar rozložení – symetrie, normalita ncíl studie – pouze popis X usuzování, porovnávání oPodle komunikačních cílů… nJe-li cílem především deskripce dat(=rozložení), pak použijeme POŘADOVÉ ukazatele. Připojíme-li i odchylkové, nic nezkazíme. oN, min, Q1, Md, Q3, max oboxplot opro individuální skóry percentily nJe-li cílem další usuzování, porovnávání apod., používáme ODCHYLKOVÉ ukazatele … pokud to úroveň měření dovoluje oN, m, s (N, M, SD) opopis rozložení opro individuální skóry z-skóry Prezentace deskriptiv ve studiích oVždy! Bez ohledu na to, jak složité statistiky následují. oPopis rozložení nObvykle se neuvádějí tabulky četností a jejich grafické podoby, pokud ovšem není cílem studie právě statistická deskripce (např. manuál k testu inteligence). nTvar rozložení obvykle podle potřeby zmiňujeme verbálně („přibližně normální, zleva zešikmené…“). Většinou se řeší pouze normalita a odchylky od ní. oObvykle pouze pro proměnné, s nimiž pracujeme (interpretujeme...) n Minimální triáda: N, m, s (či jejich pořadové ekvivalenty Q1, Md, Q3, IQR ) n Vhodná pětice: N, Xmin, Xmax, m, s nV případě potřeby: N, Xmin, Xmax, m, s, zešikmení, špičatost, zajímavé kvantily oObvykle na 2-3 významné číslice (1-2 desetinná místa) oV českém textu česky, v anglickém anglicky! nPozor na konvence spojené s jazykem: značky, desetinné tečky, chybějící nuly oPodoba tabulek je podchycena i normami, např. publikační manuál APA