PSY117/454 Statistická analýza dat v psychologii Přednáška 2 ČETNOSTI A ROZLOŽENÍ rPTNOTTÍ ^H Je snadné lhát s pomocí statistiky. Je těžké říkat pravdu bez ní. Andrejs Dunkels; wikiquote (c) Stanislav Ježek, Jan Širůček Jaké hodnoty máme v datech? D Jaké hodnoty proměnné/ých se v datech vv^ivLují? D Jaké různé odpovědi jsme získali na tu kterou I otázku dotazníku? ^B D Jaké různé počty sledovaných chování se při ^^7nrn\/ání vyskytly?; D Kolik kterých hodnot máme? - četnosti ■ Je někUrých víc, jiných miň? ^^ ■ Zdá se být v četnostech jednotlivých hodnot nejaký rad? (c) Stanislav Ježek, Jan Širůček Studium statistiky hreuuencg Percent Valid Percent Cumulative Percent Valid Missing lÜal mě asi bude bavit by mě možná mohlo mě asi bavit nebude mě rozhodně bavit nebude Total I nedokážu říĚ 11 28 36 10 85 5 Ü 12,2 3lp 40,0 1,1 94,4 B'6 100,0 12,9 32,9 42,4 ^^ 100,0 12,9 45,9 88,2 100,0 (c) Stanislav Ježek, Jan Širůček Kolik tak přečtete za měsíc knížek (včetně elektronických a sešitových komixů)? Frequency Percent Valid Percent Cumulative Percent Valid ,0 2 2,2 2,3 2,3 1,0 12 13,3 13,8 16,1 1,5 2 2,2 2,3 18,4 2,0 29 32,2 33,3 51,7 2,5 2 2,2 2,3 54,0 3,0 14 15,6 16,1 70,1 3,5 2 2,2 2,3 72,4 4,0 7 7,8 8,0 80,5 4,5 1 1,1 1,1 81,6 5,0 6 6,7 6,9 88,5 6,0 2 2,2 2,3 90,8 7,0 2 2,2 2,3 93,1 8,0 1 1,1 1,1 94,3 10,0 3 3,3 3,4 97,7 17,0 1 1,1 1,1 98,9 17,5 1 1,1 1,1 100,0 Total 87 96,7 100,0 Missing 999,0 3 3,3 Total 90 100,0 (c) Stanislav Ježek, Jan Širůček Kolik tak přečtete za měsíc knížek (včetně elektronických a sešitových komixů)? (Binned) Frequency Percent Valid Percent Cumulative Percent Valid Missing TcH <=0,0 0,1 -2,0 2,1 -4,0 4,1 -6,0 6,1 -8,0 JU}10,0 16,1^= Totaf^B 1Ü9 2 43 25 3 3 2 87 3 ■'2 47,8 27,8 JU ^.3 B'3 B'2 96,7 ^.3 100,0 H'3 49,4 28,7 JU ^B ■'4 B'3 100,0 51,7 80,5 ^^ 94,3 100,0 SPSS intervalové četnosti samo nedělá. Je třeba rekódovat hodnoty do intervalů (nová proměnná). K tomu např. fee Transform - Visual Binning. (c) Stanislav Ježek, Jan Širůček CD DO Tabulka četností: PI 3: Koliktakp?e?tele za m?s?c kn??ek (v?etn? e m četnost Kumulativní četnost Ffel.četnost Kumulativní rel.četnost 0,OOOOOC<=x^,000000 16 16 1/,////8 17,7778 2,000000<=>«4,000000 47 63 FO 7777? 70,0000 4,OOOO0C<=x^,OOOOOO 14 77 15,55553 85,5556 6,000000<=x^,000000 4 81 4,44444 90,0000 8,000000<=x<1QOOOOO 1 82 1,11111 91,1111 10,00000<=x<1^00000 3 85 3,33333 94,4444 12,00000<=x<14,00000 0 85 0,00000 94,4444 14,00000<=x<1QOOOOO 0 85 0,00000 94,4444 16,00000<=x Ll_ 20-10- 0 4 8 12 16 Kolikrát v životě jste dostal(a) pokutu od policisty, strážníka, revizora apod.? (c) Stanislav Ježek, Jan Širůček Diagram „stonek a list" Frequency Či t em 32,00 0 18,00 1 14,00 2 7,00 3 2,00 4 4,00 5 1,00 6 1,00 7 10,00 Extremes Leaf oooooooooooonnnnnnnnnnoooooooooo oooooooooooooooooo 00000000000000 0000000 00 0000 0 0 (>=8,0) Stem widths 1 Each leaf: 1 case Větev°list (jed, list 1,000000, např. 6°5 6,500000i 0° 00000000000000000000000000000000 i° oooooooooooooooooo 00000000000000 0000000 00 0000 0 7° 0 8° 0 9° 10° 000000 11° 12 13 14' 15 000 0,000000 15,00000 Celk. Ni (c) Stanislav Ježek, Jan Širůček „Férové" zobrazení dat D Každý graf (i tabulka) musí být natolik přehledně popsán (nadpis + popisky uvnitř), aby byl srozumitelný i bez čtení textu D Rozličné rady, např. Good, Hardin M ■ V zobrazení by nemělo být více dimenzí než v zobrazovaných datech (často zbytečný 3. rozměr) ■ Popisky dat by neměly stínit datové body ■ Rozsah škál by měl být volen smysluplně, aby byla plocha užitečně využita („nulové" body na škálách). ■ Numerické osy naznačují spojité proměnné, u kategorií volme raději textové popisky. ■ Nepropojujme datové body, jde-li o diskrétní škály, pokud nemá interpolace smysl, nebo pokud nemáme v úmyslu srovnání profilů (c) Stanislav Ježek, Jan Širůček 25- 20- •5- 10 I JJ 1 -----------------------------1------------------------------------------------1------------------------------------------------r----------------------------- 2 3 4 5 Tea m 4 Team 3 Team 1 10 —r-12 14 —r-16 Teams Team 2 1B i 20 22 24 (c) Stanislav Ježek, Jan Širůček Rozložení rozdělení, distribuce ČetľlOStí D Měřené jevy jsou nějak rozděleny do kategorií (intervalů) a tyto kategorie jsou různě „populární" - četné. D Četnosti u reálných ordinálních a vyšších proměnných obvykle nebývají distribuovány nahodile -jejich rozdělení zobrazené histogramem má popsatelnýtvar= II _ D Rozdělení četností je tedy to, kolik relativně (či absolutně) máme kterých hodnot měřené proměnné. ■ Typicky lze přibližně popsat slovy, např.: vyskytlo se hodně středních hodnot a relativně málo extrémních hodnot. ■ Toto rozložení jevů na měřené škále je nejlépe vidět na grafech. ■ Obvykle nějaké konkrétní rozložení očekáváme.______________________ (c) Stanislav Ježek, Jan Širůček Tvar rozložení četností D Normální D Uniformní D Počet vrcholů ■ Unimodální, bimodální, multimodální D Zešikmení ■ Zešikmené zprava (pozitivně), efekt podlahy ■ Zešikmené zleva (negativně), efekt stropu D Strmost ■ ^ptokur§m|, platykurtické AJ: frequency distribution, normal, rectangular, unimodal, bimodal, positively/negatively skewed, lepto(platy)kurtic, floor/ceiling effect (c) Stanislav Ježek, Jan Širůček Šikmost Špičstost Počet vrcholů zešikmené zprava (kladné zešikmeni) leptokurtlcké (špičatější než normální) jeden vrchol (unimodální) zešikmené zleva (záporné zešikmení) platykurtické (méně špičaté než normální) dva vrcholy (bimodální) symethcké, jeden vrchol, zvonovitý tvar Normální (Gaussovo) rozložení -3g -2a -la \\. Ig 2a to http://en.wikipedia.orq/wiki/Imaqe:Standard deviation diagram.pnq D „Normální" ve smyslu „velmi běžné"= D Tarivid e se setkává mnoho nezávislých vlivů. = D Ne vždy, nesouvisí s „kvalitou" dat. AJ: normal distribution, bell curve (c) Stanislav Ježek, Jan Širůček Poissonovo rozložení D D 0.4 C----'-----'-----•" 0.3 - 0.2 - -i------------■------------1-------------1- -i-------------1-------------1-------------r- -i-------------1-------------1-------------1- o X= 1 X = 4 o X= 10 0.1 - 0.0 t__-. 0 5 10 15 20 Rozložení rídkých událostí (ta lambda v grafu = frekvence za jednotku času) Děje-li se událost častěji, než lOxza časovou jednotku, která nás zajímá, je jeho dobrou aproximací normální rozložení. AJ: Poisson distribution (c) Stanislav Ježek, Jan Širůček Kumulativní histogram 100- 80- ^ 60- 40- 20- Kolikrát v životě jste dostal(a) pokutu od policisty, strážníka, revizora apod.? (c) Stanislav Ježek, Jan Širůček Popis rozložení pomocí percentilů P X-tý percentu ■ ■ hodnota, pro kterou platí, žeX% lidí (jevů) ve vzorku má/získalo tuto nebo menší hodnotu ■ lze snadno odečíst z kumulativního histogramu či patřičnéhHloupce tabulky četností ^^^^ D Typicky rozložení popisujeme1 ■ 10., 20.,..., 80.,90. percentilem - obecne ■ min, 25., 50., 75., max- Hpčastěji = ■ min., 1., 5., 10., 25., 50., 75., 90., 95., 99. - v normách (c) Stanislav Ježek, Jan Širůček (hrnutí ^^^^^^^^^^^^^^^ D První informací {statistikou), která nás zajímaje četnost výskytu jednotlivých hodnot (resp. hodnot uvnitř jednotlivých intervalů) D Konfiguraci četností nazýváme rozložení (rozdělení). D Rozložení popisujeme (=komunikujeme jě) = ■ tabulkou četností ■ graficky - histogram, sloupcový diagram ■ pomocí percentilů D O typu, tvaru rozložení hodnot proměnné uvažujeme většinou qmtic^^ histogram, sloupcový diagraiiü 1 D NU rozložením je tzv. normální rozloženi. i D Byť tohle je 5. třída ZŠ - už tady se podvádí. (c) Stanislav Ježek, Jan Širůček