PSY117/454
Statistická analýza dat v psychologii
Přednáška 3
MÍRY CENTRÁLNÍ TENDENCE A
VARIABILITY
He uses statistics as a drunken man uses lampposts ­ for support
rather than illumination.
Andrew Lang
Kolik měříte?
Výška [cm] n %
153,75 < x <= 160,25 8 8,9
160,25 < x <= 166,75 16 17,8
166,75 < x <= 173,25 25 27,8
173,25 < x <= 179,75 14 15,6
179,75 < x <= 186,25 16 17,8
186,25 < x <= 192,75 5 5,6
192,75 < x <= 199,25 4 4,4
ChD 2 2,2
Nedalo by se rozložení hodnot proměnné popsat
úsporněji než pomocí tabulky četností, histogramu?
Kde na měřené škále se data nalézají?
UKAZATEL CENTRÁLNÍ TENDENCE
Jak moc jsou na ní rozptýlená?
UKAZATEL VARIABILITY
Centrální tendence (=střední hodnoty, umístění)
 CT je jeden údaj, jímž se snažíme popsat rozložení
četností jedné proměnné
 Jeho kouzlo i zrádnost je právě v tom, že je to
právě jeden údaj.
 CT udává průměrnou, typickou, reprezentativní,
očekávanou hodnotu
 Co se tím míníme, záleží na tom, jakou míru CT se
rozhodneme použít
AJ: measures of central tendency, of location
s 15 bez 15
Průměr 2,48 2,05
Medián 1,00 1,00
Modus 0 0
Modus, medián a průměr
Modus - kategoriální typická hodnota
 nejčastější hodnota, h. s nejvyšší četností
 jediná možnost u nominálních dat, u vyšších úrovní často užitečnou volbou
Medián ­ pořadová střední hodnota
 hodnota prvku uprostřed uspořádaného souboru, 50. percentil (P50)
 při sudém počtu prvků je mediánem kterékoli číslo z intervalu mezi
nejbližší vyšší a nejbližší nižší hodnotou (konsensuálně střed intervalu)
 pořadová data a výše
Aritmetický průměr ­ deviační, ochylková, momentová střední h.
 jak ho znáte ze školy
 pouze intervalová a poměrová data
 velmi citlivý na extrémní hodnoty
AJ: mode, median, mean
MoX ,^
MdX ,
~
mMX ,,
Míry variability (rozptýlenosti)
 Druhé číslo, jímž popisujeme rozložené
hodnot proměnné
 Udává, jak moc či málo jsou data na škále
rozptýlená.
 Malá variabilita = většina hodnot v souboru je
stejných nebo velmi blízkých
 Vysoká variabilita = hodnoty jsou velmi
rozmanité (n. rozložení je bimodální)
Rozpětí, rozptyl, směrodatná
ochylka
Nominální ­ entropie ­ nepoužívá se
Pořadové
 (variační) rozpětí = Xmax ­ Xmin (extrémně roste s velikostí vzorku)
 (inter)kvartilové rozpětí = Q3 ­ Q1, IQR
Odchylkové (deviační, momentové) ukazatele
 založené na odchylkách od průměru: x = X ­ m
 průměrná absolutní odchylka (|x| / n) ­ nepoužívá se
 průměrná odchylka na druhou ­ rozptyl
 populační (x2 / n) vs. výběrový (x2 / (n ­ 1))
 součet odchylek na druhou = suma čtverců
 směrodatná odchylka (standardní odchylka)
 odmocnina rozptylu - návrat k původní jednotce
AJ: measures of variability, entropy, rank-order, range, interquartile range, variance, standard deviation, sum of squares, square, square root
Ukazatele centrální tendence a
variability - poznámky
 je třeba je umět spočítat ručně (a zopakovat si práci se
sumačním symbolem )
 i vážený průměr
 jak je ovlivní datové transformace přičtení konstanty a
násobení konstantou
 vhodnost použití ukazatelů centrální tendence (Hendl
s.95)
AJ: weighted mean, add, multiply
Boxplot ­ krabicový graf s anténami
 krabice je od Q1 do Q3
 v krabici se značí medián
 antény jsou Xmin do Xmax, maximálně však
1,5x délka krabice (kvartilového rozpětí)
 hodnoty vzdálenější se značí jako body odlehlé
hodnoty
 hodnoty ještě vzdálenější (více než 3x
délka krabice od Q1 nebo Q3) jsou někdy
označovány jako extrémně odlehlé
hodnoty
Boxplot - příklad
Souhrn
 Kategoriální deskriptivy
 modus, (entropie)
 Pořadové deskriptivy
 medián, kvartily, percentily (a jiné kvantily)
 kvartilové rozpětí
 grafické znázornění rozložení pomocí pořadových deskriptiv -
BOXPLOT
 Odchylkové, momentové deskriptivy
 aritmetický průměr
 rozptyl, směrodatná odchylka (k=2)
 zešikmení (k=3) = (X-M)k / N
 špičatost (strmost) (k=4)
AJ: skewness, kurtosis
Volba popisných statistik
 Zvažujeme
 úroveň měření
 tvar rozložení ­ symetrie, normalita
 cíl studie ­ pouze popis X usuzování, porovnávání
 Tedy...
 Je-li cílem především deskripce dat, pak použijeme POŘADOVÉ
ukazatele. Připojíme-li i odchylkové, nic nezkazíme.
 N, min, Q1, Md, Q3, max
 boxplot
 pro individuální skóry percentily
 Je-li cílem další usuzování, porovnávání apod., používáme
ODCHYLKOVÉ ukazatele ... pokud to úroveň měření dovoluje
 N, m, s (N, M, SD)
 popis rozložení
 pro individuální skóry z-skóry
Prezentace deskriptiv ve studiích
 Vždy! Bez ohledu na to, jak složité statistiky následují.
 Popis rozložení
 Obvykle se neuvádějí tabulky četností a jejich grafické podoby, pokud ovšem
není cílem studie právě statistická deskripce (např. manuál k testu inteligence).
 Tvar rozložení obvykle podle potřeby zmiňujeme verbálně (,,přibližně normální,
zleva zešikmené..."). Většinou se řeší pouze normalita a odchylky od ní.
 Obvykle pouze pro proměnné, s nimiž pracujeme (interpretujeme...)
 Minimální triáda: N, m, s (či jejich pořadové ekvivalenty Q1, Md, Q3, IQR )
 Vhodná pětice: N, Xmin, Xmax, m, s
 Pro puntičkáře/v případě potřeby: N, Xmin, Xmax, m, s, zešikmení, špičatost
 Obvykle na 2 významné číslice / 2 desetinná místa
 V českém textu česky, v anglickém anglicky!
 Pozor na konvence spojené s jazykem: značky, desetinné tečky, chybějící nuly
 Podoba tabulek je podchycena i normami, např. publikační manuál APA
z-skóry, standardizované skóry
 Transformace dat
 změna rozložení (např. log, (od)mocniny, Hendl 111)
 usnadnění interpretace
 Standardizace
 transformace hodnot tak, aby m = 0, s = 1
 jednotkou měření se stává s, možnost srovnávání různých
škál
 zi = (xi ­ m) / s
 u přibližně normálně rozložených dat o lidech je většina (přes
90%) lidí mezi -3 a 3
 ze z-skórů pak např. T-skóry (m=50,s=10), IQ-skóry (100, 15)
apod.
 Zásadní pro porozumění normám psychologických testů!
AJ: data transformations, standard scores, z-scores
Oblasti pod křivkou normálního
rozložení, percentily
upraveno dle Glass, Hopkins, s. 88
Ze z-skórů na percentily a
zase zpět aneb area
under the curve.
 Normální
rozložení.xls v ISu
2 zobrazení
 hustota (density)
jako histogram
 distribuční funkce
jako graf cum %
Obrázek je z WIkipedie.
Statistické zkratky a značky
 různé systémy, je třeba dobře popisovat
 N, n = velikost vzorku, podvzorku(skupiny)
 Xi = skór i-té osoby u proměnné X
 xi = deviační skór, odchylka od průměru
 M, m,x = průměr
 SD, s = směrodatná odchylka
 s2 = rozptyl
AJ: statistical notation, sample size, subsample, score, deviation score
Obecné principy k zapamatování
 Míru shody mezi modelem a daty obvykle
konceptualizujeme jako sumu rozdílů mezi
modelem a daty umocněných na druhou.
 nejjednodušší model je průměr a odchylky od něj
tvoří rozptyl
 Abstrakce od jednotek měření standardizací
 často převádíme statistiky na takové škály, které
známe