PSY117 2019 Statistická analýza dat v psychologii Přednáška 2 MÍRY CENTRÁLNÍ TENDENCE A VARIABILITY He uses statistics as a drunken man uses lampposts – for support rather than illumination. Andrew Lang drunk_on_lamppost_2 (c) Stanislav Ježek, Jan Širůček Z minula oPrvní informací (statistikou), která nás zajímá je četnost výskytu jednotlivých hodnot (resp. hodnot uvnitř jednotlivých intervalů) oČetnosti – absolutní, relativní, kumulativní komunikujeme nTabulkou četností nSloupcovým diagramem, histogramem Rozložení rozdělení, distribuce četností oČetnosti hodnot ordinálních a vyšších proměnných obvykle nebývají distribuovány nahodile – jejich rozložení zobrazené histogramem má popsatelný tvar. o o o o oEmpirické rozložení (rozdělení) četností je tedy to, kolik relativně (či absolutně) máme kterých hodnot měřené proměnné. nTypicky lze přibližně popsat slovy, např.: vyskytlo se hodně středních hodnot a relativně málo extrémních hodnot. nToto rozložení jevů na měřené škále je nejlépe vidět na grafech. nObvykle nějaké rozložení očekáváme – teoretické rozložení. nMluvíme o „rozložení/rozdělení proměnné“ o Histogram s relativními četnostmi (%) o Histogram s širšími intervaly (c) Stanislav Ježek, Jan Širůček Tvary rozložení oNormální oUniformní oPodle počtu vrcholů nUnimodální, bimodální, multimodální oZešikmení nZešikmené zprava (pozitivně) nZešikmené zleva (negativně) oStrmost nLeptokurtické, platykurtické AJ: frequency distribution, normal, rectangular/uniform, unimodal, bimodal, positively/negatively skewed, lepto(platy)kurtic Histogram s relativními četnostmi (%) o Normální (Gaussovo) rozložení o o o o o o o o ohttp://en.wikipedia.org/wiki/Image:Standard_deviation_diagram.png o o„Normální“ ve smyslu „velmi běžné“ oTam, kde se setkává mnoho nezávislých vlivů. oNe vždy, nesouvisí s „kvalitou“ dat. o oAJ: normal distribution, bell curve Procedura někdy jednoduchá jindy složitá Změna „první otázky“ oJaké hodnoty proměnné se vyskytují a jak často? o o oJaké je rozložení proměnné? o oCíl: popsat rozložení Parametrický popis rozložení oRozložení je úplně popsáno (určeno) četnostmi jednotlivých hodnot, popř. intervalů. oJe tedy popsáno množstvím statistik (četností), přesněji k-1 četnostmi, pokud proměnná nabývá k hodnot (či k intervalů). oLze rozložení popsat efektivněji, méně statistikami (parametry)? oVšechny hodnoty jsou stejně četné (1 parametr) nfk=k/N kde k je konstanta ….. UNIFORMNÍ rozložení oČetnosti jsou výsledkem procesu, který se dá připodobnit k opakovanému házení korunou, kdy nás zajímá počet „hlav“ npk=pk(1-p)n-k(n!/(n!-k!)) kde n = počet hodů, k= počet hlav p=pravděpodobnost „hlavy“ nBINOMICKÉ rozložení pro diskrétní proměnné (2 parametry) oNormální rozložení o n oNedalo by se rozložení hodnot proměnné popsat úsporněji než pomocí tabulky četností, histogramu? o oKde na měřené škále se rozložení nalézá? oUKAZATEL CENTRÁLNÍ TENDENCE o oJak moc jsou hodnoty proměnné rozptýlené? oUKAZATEL VARIABILITY o o+ tvar rozložení (často implicitně) Centrální tendence (=střední hodnoty, umístění) oCT je jeden údaj, jímž se snažíme popsat rozložení četností jedné proměnné nKouzlo i zrádnost je právě v tom, že je to 1 údaj. oCT udává průměrnou, typickou, reprezentativní, očekávanou hodnotu nCo přesně tím míníme, záleží na tom, jakou míru CT se rozhodneme použít oCT udává, kde na číselné ose si představujeme rozložení proměnné – odtud ukazatel lokace, umístění n o oAJ: measures of central tendency, of location Modus, medián a průměr oModus - kategorická typická hodnota nnejčastější hodnota, h. s nejvyšší četností njediná možnost u nominálních dat, u vyšších úrovní často užitečnou volbou oMedián – pořadová střední hodnota nhodnota prvku uprostřed uspořádaného souboru, 50. percentil (P50) npři sudém počtu prvků je mediánem kterékoli číslo z intervalu mezi nejbližší vyšší a nejbližší nižší hodnotou (konsensuálně střed intervalu) nhodnota minimalizující sumu absolutních odchylek npořadová data a výše oAritmetický průměr – deviační, odchylková, momentová střední h. njak ho znáte ze školy npouze intervalová a poměrová data nvelmi citlivý na extrémní hodnoty nhodnota minimalizující sumu kvadratických odchylek n n o oAJ: mode, median, mean Jak spočítat Mo, Md, M oMo nvyčteme z tabulky četností – hodnota/interval s nejvyšší četností nExcel: =MODE(rozsah_s_daty_proměnné) oMd nkategorické p.: vyčteme z tabulky četností, nejsnáze kum. nspojité p. --> intervalové četnosti --> interpolujeme… nformálně, oje-li N liché, je to Xk (k-tý prvek setříděné řady hodnot proměnné), kde k=(N+1)/2, oje-li N sudé, je to průměr Xk a Xk+1, kde k=N/2 nExcel: =MEDIAN(rozsah_s_daty_proměnné) n =PERCENTIL(rozsah_s_daty_proměnné;0,5) oM nExcel: =PRŮMĚR(rozsah_s_daty_proměnné) o n Medián u intervalových četností a spojitých proměnných s celými hodnotami - interpolací f % cum % 0 – 1> 3 11,5 11,5 1 – 2> 4 19,2 30,8 2 – 3> 9 30,8 61,5 3 – 4> 2 7,7 69,2 … … … … 7 – 8> 1 3,8 100,0 Celkem 26 100,0 1.Identifikujeme interval, v němž kumulativní četnost přesáhne 50% (2;3> 2.Četnost tohoto intervalu = fm = 9 3.Kumulativní četnost pro předchozí interval = fp=7 4.Horní mez předchozího intervalu = Lp=2 5.Šířka intervalu = W = 1 6.Vypočítáme medián Md = Lp+ W((N+1)/2-fp)/fm = = 2+1(27/2-7)/9 = 2,7 *Takto odhadnutý medián závisí na tom, jak jsou stanoveny hranice intervalů. f Stonek a list 3 0 . 002 5 1 . 00005 8 2 . 00000000 2 3 . 00 2 4 . 00 3 5 . 000 2 6 . 00 1 7 . 0 Stonek: jednotky Každý list: 1 případ Mo=2 Md=2 M=2,68 Md=2,7 Míry variability (rozptýlenosti) oDruhé číslo, jímž popisujeme rozložení hodnot proměnné oUdává, jak moc či málo jsou data na škále rozptýlená. nMalá variabilita = většina hodnot v souboru je stejných nebo velmi blízkých nVysoká variabilita = hodnoty jsou velmi rozmanité (n. rozložení je bimodální) Rozpětí, rozptyl, směrodatná ochylka oNominální statistika– entropie – nepoužívá se oPořadové statistiky n(variační) rozpětí = Xmax – Xmin (extrémně roste s velikostí vzorku) n(inter)kvartilové rozpětí = Q3 – Q1, IQR oOdchylkové (deviační, momentové) statistiky ozaložené na odchylkách od průměru: x = X – m nprůměrná absolutní odchylka MAD = (S|x| / n) – řídká, ale … nprůměrná odchylka na druhou – rozptyl – s2, VAR(X) opopulační (Sx2 / n) vs. výběrový (Sx2 / (n – 1)) osoučet odchylek na druhou = suma čtverců nsměrodatná odchylka (standardní odchylka) – s, SD oodmocnina rozptylu - návrat k původní jednotce o oAJ: measures of variability, entropy, rank-order, range, interquartile range, variance, standard deviation, sum of squares, square, square root oHC: Chyba v komputačním vzorečku na rozptyl. http://www.nerdytshirt.com/deviant.html Směrodatná odchylka olze interpretovat přibližně jako nPrůměrná odchylka od průměru nOčekávaná odchylka od průměru Jak spočítat ukazatele variability oIQR = Q3-Q1 nQ1=Xk*), kde k=(N+1)*0,25 zaokrouhleno dolů nQ3=Xk, kde k=(N+1)*0,75 zaokrouhleno dolů n=PERCENTIL(rozsah_s_daty_proměnné; 0,25) resp. 0,75 nU spojitých proměnných lze využít intervalového výpočtu jako u mediánu. oSD/VAR 1.pro každý skór spočítáme deviační skór xi=Xi-M 2.deviační skóry umocníme na druhou 3.druhé mocniny deviačních skórů sečteme a podělíme (N-1) 4.pro SD výsledek ještě odmocníme n=VAR.VÝBĚR(rozsah_s_daty_proměnné) n=SMODCH.VÝBĚR(rozsah_s_daty_proměnné) n n*) hodnota k-tého prvku seřazené řady hodnot proměnné X f Stonek a list 3 0 . 002 5 1 . 00005 8 2 . 00000000 2 3 . 00 2 4 . 00 3 5 . 000 2 6 . 00 1 7 . 0 Stonek: jednotky Každý list: 1 případ Mo=2 Md=2 M=2,68 IQR=3 SD=1,97 Ukazatele centrální tendence a variability - poznámky oje třeba je umět spočítat ručně (a zopakovat si práci se sumačním symbolem S) oi vážený průměr ojak je ovlivní datové transformace přičtení konstanty a násobení konstantou ovhodnost použití ukazatelů centrální tendence (Hendl s.95) o o o o oAJ: weighted mean, add, multiply Očekávaná hodnota a její chyba oStřední hodnoty a ukazatele variability lze také interpretovat z perspektivy pravděpodobnostních očekávání plynoucích ze statistik. oKdyž přijde někdo náhodný, jakou hodnotu budeme očekávat - hádat? o oTo záleží na tom, na čem nám nejvíc záleží. oChceme-li se co nejčastěji přesně trefit (když za trefení dostaneme bod a ze netrefení ne), pak modus. oChceme-li minimalizovat součet velikostí chyb odhadu, pak medián oChceme-li minimalizovat součet kvadratických chyb odhadu, pak průměr oV tomto kontextu jsou ukazatele rozptýlenosti vlastně ukazateli velikosti chyb. o Boxplot – krabicový graf s anténami okrabice je od Q1 do Q3 ov krabici se značí medián oantény jsou Xmin do Xmax, maximálně! však 1,5x délka krabice (kvartilového rozpětí) ohodnoty vzdálenější se značí jako body – odlehlé hodnoty ohodnoty ještě vzdálenější (více než 3x délka krabice od Q1 nebo Q3) jsou někdy označovány jako extrémně odlehlé hodnoty Boxplot - příklad Popis rozložení pomocí percentilů oX-tý percentil nhodnota, pro kterou platí, že X % lidí (jevů) ve vzorku má/získalo tuto nebo menší hodnotu nlze odečíst z kumulativního histogramu či patřičného sloupce tabulky četností oRozložení popisujeme n10., 20., …, 80.,90. percentilem – obecně nmin, 25., 50., 75., max – nejčastěji (…boxplot) nmin., 1., 5., 10., 25., 50., 75., 90., 95., 99. – v normách oLze uvažovat v ještě menších částech rozložení než jsou procenta - obecně kvantily „Deskriptivy“ – popisné statistiky – statistiky popisující rozložení oNominální deskriptivy nmodus, (entropie) oPořadové deskriptivy nmedián, kvartily, percentily (a jiné kvantily) nkvartilové rozpětí ngrafické znázornění rozložení pomocí pořadových deskriptiv - BOXPLOT oOdchylkové (deviační), momentové deskriptivy naritmetický průměr nrozptyl, směrodatná odchylka (k=2) nzešikmení (k=3) = (Sxk)/ n nšpičatost (strmost) (k=4) Volba popisných statistik oZvažujeme núroveň měření ntvar rozložení – symetrie, normalita ncíl studie – pouze popis X usuzování, porovnávání oPodle komunikačních cílů… nJe-li cílem především deskripce dat(=rozložení), pak použijeme POŘADOVÉ ukazatele. Připojíme-li i odchylkové, nic nezkazíme. oN, min, Q1, Md, Q3, max oboxplot opro individuální skóry percentily nJe-li cílem další usuzování, porovnávání apod., používáme ODCHYLKOVÉ ukazatele … pokud to úroveň měření dovoluje oN, m, s (N, M, SD) opopis rozložení opro individuální skóry z-skóry Prezentace deskriptiv ve studiích oVždy! Bez ohledu na to, jak složité statistiky následují. oPopis rozložení nObvykle se neuvádějí tabulky četností a jejich grafické podoby, pokud ovšem není cílem studie právě statistická deskripce (např. manuál k testu inteligence). nTvar rozložení obvykle podle potřeby zmiňujeme verbálně („přibližně normální, zleva zešikmené…“). Většinou se řeší pouze normalita a odchylky od ní. oObvykle pouze pro proměnné, s nimiž pracujeme (interpretujeme...) n Minimální triáda: N, m, s (či jejich pořadové ekvivalenty Q1, Md, Q3, IQR ) n Vhodná pětice: N, Xmin, Xmax, m, s nV případě potřeby: N, Xmin, Xmax, m, s, zešikmení, špičatost, zajímavé kvantily oObvykle na 2-3 významné číslice (1-2 desetinná místa) oV českém textu česky, v anglickém anglicky! nPozor na konvence spojené s jazykem: značky, desetinné tečky, chybějící nuly oPodoba tabulek je podchycena i normami, např. publikační manuál APA Shrnutí oSpíše než jednotlivé četnosti nás zajímá vzorec četností – rozložení oNeparametrický popis rozložení - tabulka četností, sloupcový dg./histogram oParametrický popis četností npopisnými statistikami s ujištěním o tvaru rozložení nboxplotem n n n