Deskriptivní statistika POLB1139 19.10. 2020 Navazujeme na minule… Máme data Máme datovou matici Kombinace proměnných a případů Co s tím? Chci data sumarizovat, vizualizovat, podívat se na strukturu dat Deskriptivní analýza Explorace dat v rámci jedné proměnné Jednorozměrná analýza Nehledáme rozdíly ani souvislosti mezi proměnnými (vícerozměrná analýza) Dobrý první krok vždy Vizualizace Deskriptivní analýza Záleží na úrovni proměnných podle měření Různé typy proměnných = různé možnosti Vždy ale začínáme popisem Prostor pro odhalování chyb (měření) Kategorická data Nominální a ordinální proměnná Čím se vyznačují? Co s nimi tedy můžeme dělat? Můžeme se podívat, kolik máme případů pro jednotlivé kategorie Jak je distribuovaná proměnná napříč kategoriemi Neprovádíme žádné výpočty Obsah obrázku interiér, počítač, vyplněné, přenosný počítač Popis byl vytvořen automaticky Tabulka četností (frequency table) Vizualizace Sloupcový graf (bar chart) Koláčový graf (pie chart) – nedoporučuje se Obsah obrázku stůl Popis byl vytvořen automaticky Co kvantitativní (kardinální proměnné?) Histogram Histogram Distribuce Kolik má vrcholů? Je symetrická (zvonový tvar, symetrie kolem střední hodnoty) Symetrické rozložení = šikmost (skewness) blízko nule Pozitivní zešikmění (zešikmení zprava) Negativní zešikmení (zleva) Špičatost (kurtosis) = rozdělení blízko středu Pozitivní špičatost = špičaté rozložení Negativní špičatost = ploché/placaté Centrální tendence distribuce Užitečné k sumarizaci Modus Medián Průměr Centrální tendence distribuce Užitečné k sumarizaci Nominální data – modus Ordinální data – modus, medián Kategorická data – modus, medián, průměr MODUS Nejčastější hodnota Který sloupec sloupcového grafu nebo histogramu je nejvyšší??? Který kus koláčového grafu je největší? Může jich být více – pak máme multimodální distribuci Více modů (třeba bimodální) Můžu použít pro kardinální i kategorická data MEDIÁN Středová hodnota, rozděluje data set na dvě poloviny hodnot Seřadíme hodnoty vzestupně Najdeme tu, která leží uprostřed data setu (jednodušší pro matice s lichým počtem hodnot) Hodnota, pod kterou leží 50 % hodnot a nad kterou leží 50 % hodnot V kategorických datech = mediánová kategorie (kumulativní četnost zahrnuje 50% případů pod mediánem) 50. percentil Výhoda: je stabilní, není citlivý na extrémní hodnoty Medián: příklad Počet odpracovaných hodin týdně pro 11 lidí: 45, 20, 56, 33, 18, 70, 40, 8, 40, 48, 59 Seřadíme vzestupně: 8, 18, 20, 33, 40, 40, 45, 48, 56, 59, 70 Najdu hodnotu, co leží uprostřed (na 6. místě): 8, 18, 20, 33, 35, 40, 45, 48, 56, 59, 70 SUDÝ POČET ČÍSEL: 8, 18, 20, 33, 35, 40, 45, 48, 56, 59 - Je to hodnota uprostřed dvou prostředních naměřených hodnot = (35+40)/2 = 37,5 PRŮMĚR Průměr: příklad Měsíční plat tří random lidí v baru: 25 000, 32 0000, 40 000 Kč x̄ = (25 000 + 32 000 + 40 000)/3 = 97 000/3 = 32 333,3 Kč 40 000 Kč 32 000 Kč 25 000 Kč Průměr: příklad Jaký je průměr? x̄ = 86 750 Kč 40 000 Kč 32 000 Kč 25 000 Kč 250 000 Míry centrální tendence Jsou jednou z cenných informací o distribuci dat ALE!!! Nestačí. Potřebujeme znát i míru rozptýlenosti těch dat (dispersion) Příklad: potetovaná plocha z celkové plochy těl fotbalových hráčů?? ROZPĚTÍ (range) 250 000 – 25 000 = 225 000 Variační rozpětí je taky citlivé na extrémní hodnoty Tetování: dva týmy 8,5 27,7 MEZIKVARTILOVÉ ROZPĚTÍ Interquartile range (IQR) Nebere v úvahu odlehlé hodnoty (výhoda) Kvartil – hodnoty, které dělá soubor na čtyři stejně velké části Je to první, druhý a třetí kvartil MEZIKVARTILOVÉ ROZPĚTÍ Interquartile range (IQR) Nebere v úvahu odlehlé hodnoty (výhoda) Kvartil – hodnoty, které dělá soubor na čtyři stejně velké části Je to první, druhý a třetí kvartil IQR je rozdíl mezi Q3 a Q1 IQR = Q3 – Q1 Najít Q2 Najdu Q1 a Q3 Co když mě zajímají odlehlé hodnoty??? Q3 + 1,5(IQR) Za těmito hodnotami leží tzv. outliers BOXPLOT: krabicový graf Za jakými hodnotami leží odlehlé případy???? < Q1 - 1,5(IQR) a > Q3 + 1,5(IQR) Za jakými hodnotami leží odlehlé případy???? < Q1 - 1,5(IQR) a > Q3 + 1,5(IQR) IQR = 75,5 – 67 = 8,5 67 – 1,5(8,5) = 54,2 75,5 + 1,5(8,5) = 88,25 ROZPTYL (variance) ROZPTYL ROZPTYL Čím větší rozptyl, tím větší variabilita dat. Tím více jsou rozptýlena. Indikuje to rozptyl a vizuálně i krabicový graf (příklad s fotbalisty) Co je nevýhoda? Je udán ve stupnici měřené proměnné ale na druhou. SMĚRODATNÁ ODCHYLKA (standard deviation) Odmocníme hodnotu rozptylu! Čím větší SD, tím větší variabilita v datech. V našem fotbalovém týmu byl rozptyl 63,97, tím pádem směrodatná odchylka je 8. Jako míra disperze dat se používá nejčastěji.