1 Základní deskriptivní statistika Explorace dat Vizualizace dat s použitím programu Statistica 7 Kateřina Vlčková, Ph.D. Centrum pedagogického výzkumu PdF MU Brno 2 Deskriptivní statistika ˇ Slouží ­ Ke kontrole dat ­ Základnímu popisu dat ­ Předzpracování dat pro další analýzy ­ A k exploraci dat ­ Exploraci problematiky 3 Četnosti ˇ Frekvence (frequencies) ­ Absolutní četnosti ­ Relativní četnosti ­ Kumulativní četnosti Frequency table: P12 (database_strategie) Category Count Cumulative Count Percent of Valid Cumul % of Valid % of all Cases Cumulative % of All 1 2 3 4 5 Missing 108 108 18,03005 18,0301 17,82178 17,8218 196 304 32,72120 50,7513 32,34323 50,1650 191 495 31,88648 82,6377 31,51815 81,6832 78 573 13,02170 95,6594 12,87129 94,5545 26 599 4,34057 100,0000 4,29043 98,8449 7 606 1,16861 1,15512 100,0000 4 Histogram (vizualizace dat) Histogram: P12 K-S d=,19802, p<,01 ; Lillief ors p<,01 Expected Normal 0 1 2 3 4 5 X <= Category Boundary 0 50 100 150 200 250 No.ofobs. 5 Deskriptivní statistika Descriptive Statistics (database_strategie) Variable Valid N Mean Confidence -95,000% Confidence +95,000% Geometric Mean Harmonic Mean Median Mode Frequency of Mode Sum MinimumMaximum P12 5992,529215 2,443820 2,6146112,2875762,0348772,0000002,000000 1961515,0001,0000005,000000 P12 ­ vracím se k tomu, co jsem se učil dříve Descriptive Statistics (database_strategie) Variable Lower Quartile Upper Quartile Percentile 10,00000 Percentile 90,00000 Range Quartile Range VarianceStd.Dev.Standard Error SkewnessStd.Err. Skewness Kurtosis Std.Err. Kurtosis P12 2,0000003,0000001,0000004,0000004,0000001,0000001,1325061,0641930,0434820,3410840,099834-0,4478950,199339 6 Deskriptivní statistika ˇ N: Počet platných případů N (valid N) ˇ Suma ˇ Minimum, maximum 7 Deskriptivní statistika použití měr centrální tendence ˇ Průměr (artihmetic average) ­ Součet všech údajů vydělený jejich počtem ­ Kdy se používá: ˇ Min. intervalová data ˇ Symetrické rozdělení ˇ Chceme použít stat. testy 8 Deskriptivní statistika použití měr centrální tendence ˇ Me: Medián ­ Dělí řadu podle velikosti seřazených prvků do dvou stejných polovin ­ 0, 1, 2, 5, 8, 9, 10 Me = 5 ­ Kdy se používá? ˇ Min. ordinální měřítko ˇ Chceme znát střed rozdělení ˇ Data mohou obsahovat odlehlé hodnoty ˇ Rozdělení dat je zešikmené 9 Deskriptivní statistika použití měr centrální tendence ˇ Mo: Modus, četnost modu ˇ Nejčastější hodnota ˇ Zejména u kategoriálních dat ˇ Zobrazení pomocí histogramu ˇ Kdy se používá? ­ Jestliže rozdělení má více vrcholů ­ Chceme jen základní přehled ­ Slovem ,,průměrně" se myslí nejčastější hodnota ­ Data min. v ordinálním měřítku 10 Deskriptivní statistika Míry rozptýlenosti (measurment of variability) ˇ Rozptyl (variance) ˇ Čtverec vzdálenosti hodnot jednotlivých případů od průměru všech případů ˇ Průměrná kvadratická odchylka měření od aritmetického průměru ˇ Variační rozpětí (range) ˇ Rozdíl mezi nejnižší a nejvyšší hodnotou ˇ U nominálních dat logicky jen min a max ˇ Lepší: interkvartilové rozpětí ­ mezi 75tým a 25tým kvartilem ˇ Směrodatná odchylka ˇ Měří rozptýlenost kolem průměru 11 Deskriptivní statistika Míry rozptýlenosti založené na empirických kvantilech ˇ Kvantil ˇ Hodnota pod níž leží definovaná část údajů ˇ Percentily 10, 90 (percentiles) ˇ Procento případů, s hodnotami, které jsou nad a pod ˇ Dolní a horní kvartil (quartiles) ˇ Kvartily rozdělují vzorek do 4 skupin ˇ 25tý, 50tý, 75tý percentil 12 Deskriptivní statistika Míry špičatosti a šikomosti ˇ Šikmost (skewness) ˇ Zešikmenost, nesymetrie dat ˇ Špičatost (kurtosis) ˇ Odchylka špičatosti od normálního rozdělení 13 Krabicový graf ˇ Popis pomocí pěti hodnot ˇ Zachytíme i odlehlé hodnoty (outliers) Krabicový graf : efektivita Průměr PrůměrSmCh Průměr1,96*SmCh 1 2 pohlaví 0,32 0,33 0,34 0,35 0,36 0,37 0,38 0,39 0,40 0,41 efektivita