Deskriptivní statistika POLb1139 Statistické myšlení v sociálních vědách Dnes se posouváme o krok dále •Známe typy proměnných •Máme data (vlastní sběr / jiným způsobem) • •Jak začít analýzu? • •Ideální první kroky: •Poznejte svá data – struktura, distribuce •Vizualizace dat • • Deskriptivní analýza •Explorace dat v rámci jedné proměnné • •Jednorozměrná analýza • •Cílem je popsat a porozumět datům • •Nehledáme rozdíly ani souvislosti mezi proměnnými • •Má smysl před vícerozměrnou analýzou (nebo i samostatně) • •Vizualizace • Deskriptivní analýza •Záleží na úrovni proměnných podle měření •Různé typy proměnných poskytují různé možnosti •Kardinální > ordinální > nominální •SPSS vás zpravidla nezachrání (a neupozorní na očividný nesmysl) • •Prostor pro odhalování chyb (měření) •Identifikace odlehlých případů (outliers) •Identifikace chyb při vkládaní dat (pokud se dají jednoduše rozpoznat) • • Kategorická data •Nominální a ordinální proměnné •Společné znaky a rozdíly •Co je (a není) s nimi možné dělat? • •Primárně můžeme sledovat, kolik případů spadá do jednotlivých kategorií •Jaká je distribuce hodnot napříč kategoriemi •Numerické kódy pro jejich hodnoty mají pouze symbolický význam à důsledky? Najděte alespoň 5 nom. / ord. proměnných Tabulka četností •Analyze à Descriptive Statistics à Frequencies Tabulka četností Absolutní četnost Relativní četnost Kumulativní procenta Vizualizace •Základní pravidlo – nekomplikovat si grafy (život) • •Cíl – vizualizovat distribuci hodnot • •Plně postačí jednoduché sloupcové grafy (bar charts) • •Je zbytečné přidávat různé prvky typu 3D, kombinovat barvy, používat pro efekt koláčové grafy (pie charts) atd. Vizualizace •Analyze à Descriptive Statistics à Frequencies à Charts •Graphs à Chart Builder à Bar… • Kardinální proměnné •Intervalové a poměrové (SPSS nerozlišuje – obě jsou scale) • •Numerické kódy (zpravidla) odpovídají reálným pozorovaným hodnotám • •Více možností jednorozměrné analýzy oproti nominálním a ordinálním proměnným • •Vizualizace – stejná pravidla • Histogram Histogram !!! Míry centrální tendence •Užitečné nástroje k lepšímu poznání našich dat •Modus, medián, průměr • •Použití závisí od typu proměnné: •Nominální – modus •Ordinální – modus, medián •Kardinální – modus, medián, průměr Modus •Nejčastější hodnota •Frekvenční tabulka - nejvyšší hodnota •Sloupcový graf / histogram - nejvyšší sloupec • •Využití při všech typech proměnných •Modus nemusí být nutně pouze jeden (bimodální, multimodální distribuce) Medián •Středová hodnota, rozděluje dataset na dvě poloviny hodnot •Hodnota, pod kterou leží 50 % hodnot a nad kterou leží 50 % hodnot •V kategorických datech = mediánová kategorie (kumulativní četnost zahrnuje 50 % případů pod mediánem) •50. percentil • •Postup: •Seřadíme hodnoty vzestupně •Najdeme tu, která leží uprostřed data setu (jednodušší pro matice s lichým počtem hodnot) • •Výhoda: je stabilní, není citlivý na extrémní hodnoty • Medián - příklad •Počet hodin denně na sociálních sítích (9 lidí): 7, 0, 15, 8, 4, 6, 3, 10, 1 •Seřazení à 0, 1, 3, 4, 6, 7, 8, 10, 15 •Výběr hodnoty uprostřed (5. v pořadí) à 6 • •Co když máme sudý počet pozorování? •8 lidí, stejný příklad: 7, 0, 15, 8, 4, 6, 3, 10 •Seřazení à 0, 3, 4, 6, 7, 8, 10, 15 •Medián je uprostřed dvou prostředních naměřených hodnot: (6+7)/2 = 6,5 • •Sudý a lichý počet – při velkém počtu dat je rozdíl věcně zanedbatelný • Průměr •Aritmetický průměr = součet hodnot / počet případů • •Pouze u kardinálních proměnných • •Citlivý na extrémní hodnoty • •Průměrná mzda vs. mediánová mzda Měsíčné příjmy hostů restaurace v tis. Kč •Příklad 1: •11 hostů: 20, 30, 35, 40, 45, 50, 55, 60, 70, 75, 80 •Medián = 50k •Průměr = 50,9k • •Příklad 2: •13 hostů: 20, 30, 35, 40, 45, 50, 55, 60, 70, 75, 80, 400, 450 •Medián = 55k •Průměr = 108,5k • •Příklad 3: •Do restaurace vstoupí Elon Musk a Bill Gates •Medián = ? •Průměr = ? • Míry centrální tendence •Užitečné ukazatele, někdy však nemusí stačit • •Např. dva soubory dat mají stejné průměry, ale ve skutečnosti se dost odlišují • •Důležité je znát i míru rozptýlení dat (dispersion) Mezikvartilové rozpětí •Interquartile range (IQR) • •Umožňuje snížit citlivost na odlehlé případy • •Kvartily – hodnoty, které rozdělují soubor dat na 4 stejně velké skupiny • •První kvartil (Q1), druhý kvartil (Q2), třetí kvartil (Q3) •Q1 25 % 25 % 25 % 25 % Q2 Q3 Mezikvartilové rozpětí •IQR = Q3 – Q1 • •Co je Q2? Mezikvartilové rozpětí - postup • • • •1 2,7 4,3 8,9 11,4 17,5 19,0 25,1 31,2 32,8 65,4 • • Najdeme Q1 a Q3 IQR = Q3 – Q1 = 31,2 – 4,3 = 26,9 Odlehlé případy (outliers) •< Q1 – 1,5*IQR •> Q3 + 1,5*IQR • •Outliers leží za těmito hodnotami •Vhodné poznat pro určité druhy analýzy (vliv na výsledky) • •Spočítaní nebo vizualizace pomocí krabicového grafu (boxplot) • Q1 Q2 Q3 Minimum Maximum Outliers