Deskriptivní statistika POLb1139 Statistické myšlení v sociálních vědách Dnes se posouváme o krok dále •Známe typy proměnných •Máme data (vlastní sběr / jiným způsobem) •2 příklady: průzkum v předmětu (n=40) a ESS (n=2000) • •Jak začít analýzu? • •Ideální první kroky: •Poznejte svá data – struktura, distribuce •Vizualizace dat • • Deskriptivní analýza •Explorace dat v rámci jedné proměnné • •Cílem je popsat a porozumět datům • •Má smysl před vícerozměrnou analýzou (nebo i samostatně) • • Jednorozměrná analýza •Získané údaj se týkají vždy jen dané proměnné • • •Nehledáme rozdíly ani souvislosti mezi proměnnými • •Dvourozměrná analýza •Souvislost mezi proměnnými •Kontingenční tabulky •Srovnání průměrů •korelace • • • • • Deskriptivní analýza •Záleží na úrovni proměnných podle měření •Různé typy proměnných poskytují různé možnosti •Kardinální > ordinální > nominální •SPSS vás zpravidla nezachrání (a neupozorní na očividný nesmysl) • •Prostor pro odhalování chyb (měření) •Minimum a maximum •Identifikace odlehlých případů (outliers) •Identifikace chyb při vkládaní dat (pokud se dají jednoduše rozpoznat) • • Nominální proměnné •Pojmenování kategorie • •Co je (a není) s nimi možné dělat? • •kolik případů spadá do jednotlivých kategorií? •Četnost (anglicky frequency) •Modus (nejčastější četnost) •Číselné kódy pro jejich hodnoty mají pouze symbolický význam à důsledky? Modus •Nejčastější hodnota •Frekvenční tabulka - nejvyšší hodnota • •Využití pro všechny typy proměnných •Modus nemusí být nutně pouze jeden (bimodální, multimodální distribuce) Tabulka četností •Analyze à Descriptive Statistics à Frequencies •Analyze à Descriptive Statistics à Frequencies • Tabulka četností Absolutní četnost Relativní četnost Kumulativní procenta Jaký je modus proměnné Q4_predm1? • Ordinální proměnné •Lze seřadit • •Četnosti •Modus •Medián Medián •Středová hodnota, rozděluje dataset na dvě poloviny hodnot •Hodnota, pod kterou leží 50 % (polovina) hodnot a nad kterou leží 50 % (polovina) hodnot •V ordinálních datech = mediánová kategorie (kumulativní četnost zahrnuje 50 % případů pod mediánem) •50. percentil •"My dnes víme, že 50 procent obyvatel má mzdu pod úrovní mediánu." Jiří Šlégr (2016) • •Postup: •Seřadíme hodnoty vzestupně •Najdeme tu, která leží uprostřed data setu (jednodušší pro matice s lichým počtem hodnot) • •Výhoda: je stabilní, není citlivý na extrémní hodnoty • Medián - příklad •Počet hodin denně na sociálních sítích (9 lidí): 7, 0, 15, 8, 4, 6, 3, 10, 1 •Seřazení à 0, 1, 3, 4, 6, 7, 8, 10, 15 •Výběr hodnoty uprostřed (5. v pořadí) à 6 •4 lidé mají nižší hodnotu, 4 vyšší • •Co když máme sudý počet pozorování? •8 lidí, stejný příklad: 7, 0, 15, 8, 4, 6, 3, 10 •Seřazení à 0, 3, 4, 6, 7, 8, 10, 15 •Medián je uprostřed dvou prostředních naměřených hodnot: (6+7)/2 = 6,5 • •Sudý a lichý počet – při velkém počtu dat je rozdíl věcně zanedbatelný • • Jaký je medián proměnné Q7_stres1? • Kardinální proměnné •Intervalové a poměrové (SPSS nerozlišuje – obě jsou scale) • •Numerické kódy (zpravidla) odpovídají reálným pozorovaným hodnotám • •Více možností jednorozměrné analýzy oproti nominálním a ordinálním proměnným • • Co můžeme dělat s kardinálními proměnnými •Modus a četnosti •Udělat můžeme •ale při velkých vzorcích nebo velké variabilitě proměnné nejsou užitečné •ALE … viz příští hodina o grafech •Minimum a maximum •Medián •Průměr •Rozptyl/směrodatná odchylka •kvantily • Míry centrální tendence •„typická“ hodnota •Nejlepší reprezentant proměnné • •Použití závisí na typu proměnné: •Nominální – modus •Ordinální – modus, medián •Kardinální – modus, medián, průměr Průměr •Aritmetický průměr = součet hodnot / počet případů •Stejná vzdálenost k případům s nižšími hodnotami jako k případům s vyššími hodnotami •Citlivý na extrémní hodnoty •Průměrná mzda vs. mediánová mzda Měsíční příjmy hostů restaurace v tis. Kč •Příklad 1: •11 hostů: 20, 30, 35, 40, 45, 50, 55, 60, 70, 75, 80 •Medián = 50k •Průměr = 50,9k • •Příklad 2: •13 hostů: 20, 30, 35, 40, 45, 50, 55, 60, 70, 75, 80, 400, 450 •Medián = 55k •Průměr = 108,5k • •Příklad 3: •Do restaurace vstoupí Elon Musk a Bill Gates •Medián = ? •Průměr = ? • Míry centrální tendence •Užitečné ukazatele, někdy však nemusí stačit • •Např. dva soubory dat mají stejné průměry, ale ve skutečnosti se dost odlišují • •Důležité je znát i míru rozptýlení dat (dispersion) Rozptyl (variance) •Suma umocněných odchylek od průměru •9 hostů: 20, 35, 40, 45, 50, 55, 60, 65, 80 •Průměr = 50k • •(20-50)+(35-50)+(40-50)+(45-50)+(50-50)+(55-50)+(60-50)+(65-50)+(80-50) • -30 + - 15 + -10 + -5 + 0 + 5 + 10 + 15 + 30 •900 + 225 + 100 + 25 + 0 + 25 + 100 + 225 + 900 •2500/(n-1) = 312,5 • •Směrodatná odchylka = odmocnina z rozptylu •Průměrná odchylka od průměru •Bude velice důležitá v dalších hodinách !!! • • Mezikvartilové rozpětí •Interquartile range (IQR) • •Umožňuje snížit citlivost na odlehlé případy • •Kvartily – hodnoty, které rozdělují soubor dat na 4 stejně velké skupiny = „poloviční mediány“ • •První kvartil (Q1), druhý kvartil (Q2), třetí kvartil (Q3) •Q1 25 % 25 % 25 % 25 % Q2 Q3 Mezikvartilové rozpětí •IQR = Q3 – Q1 • •Co je Q2? Mezikvartilové rozpětí - postup • • • •1 2,7 4,3 8,9 11,4 17,5 19,0 25,1 31,2 32,8 65,4 • • Najdeme Q1 a Q3 IQR = Q3 – Q1 = 31,2 – 4,3 = 26,9 V spss •Pro proměnnou Q9_teplo •Analyze à Descriptive Statistics à Frequencies à Statistics • • A co pro proměnnou Q1_vzd_ok •