Popisné statistiky konečného souboru, zde nepracuji s odhady. Charakteristiky polohy (míry polohy, centrální tendence) Popisují typickou hodnotu datového souboru, kde data leží na číselné ose. Charakteristiky souboru – POLOHA Charakteristiky souboru - VARIABILITA Grafické shrnutí dat Minimum, maximum Aritmetický průměr Modus Medián Kvartil, kvantil Geometrický průměr Harmonický průměr Popisné statistiky konečného souboru, zde nepracuji s odhady. Charakteristiky polohy (míry polohy, centrální tendence) Popisují typickou hodnotu datového souboru, kde data leží na číselné ose. 1/ Minimum a maximum [minimum and maximum] (min, max) = nejmenší a největší hodnota souboru. 𝒙 𝒎𝒊𝒏 𝒙 𝒎𝒂𝒙 • kvantitativní data (intervalová a poměrová stupnice) a ordinální stupnice • pro nominální data nemá smysl (je menší červená nebo modrá barva?) • Značení ve smyslu uspořádaných hodnot: 𝒙 𝒎𝒊𝒏 = 𝒙(𝟏) 𝒙 𝒎𝒂𝒙 = 𝒙(𝑵) , případně 𝒙(𝒏) Příklad: výšky 12 náhodně vybraných desetiletých dívek 𝒙(𝟏) = 𝟏𝟑𝟏 = 𝒙 𝒎𝒊𝒏 𝒙(𝟏𝟐) = 𝟏𝟓𝟏 = 𝒙 𝒎𝒂𝒙 Minimum, maximum Aritmetický průměr Modus Medián Kvartil, kvantil Geometrický průměr Harmonický průměr Charakteristiky souboru – POLOHA Charakteristiky souboru - VARIABILITA Grafické shrnutí dat 2/ Aritmetický průměr [arithmetic mean] (mean) základní soubor: výběrový soubor: ഥ𝒙 = 𝟏 𝑵 ෍ 𝒊=𝟏 𝑵 𝒙𝒊 výběrová verze ഥ𝒙 = 𝟏 𝒏 ෍ 𝒊=𝟏 𝒏 𝒙𝒊 Populační průměr [population mean], výběrový průměr [sample mean] • Jen kvantitativní data (intervalová a poměrová stupnice) Poznámka: μ – čti [mí], označuje skutečný parametr základního (∞) souboru; μ většinou nazýváme střední hodnota (bude později), ale může označovat i populační průměr. Příklad: výšky 12 náhodně vybraných desetiletých dívek ҧ𝑥 = 1 12 135 + 141 + 143 + 131 + 146 + 141 + 151 + 132 + 141 + 142 + 146 + 141 = 𝟏𝟒𝟎, 𝟖𝟑 Minimum, maximum Aritmetický průměr Modus Medián Kvartil, kvantil Geometrický průměr Harmonický průměr Charakteristiky souboru – POLOHA Charakteristiky souboru - VARIABILITA Grafické shrnutí dat 3/ Modus [mode] (mode v R má jiný význam) = nejčastěji se vyskytující hodnota • všechny typy dat • označení ෝ𝒙, ale i jinak Příklad: výšky 12 náhodně vybraných desetiletých dívek – uspořádané: ෝ𝒙 = 𝟏𝟒𝟏 Poznámka: mohou být dvě (a více) stejně „nejpočetnějších“ hodnot či kategorií. Poznámka: unimodální a bimodální rozdělení má souvislost právě s počtem modů v (teoretických) datech. Minimum, maximum Aritmetický průměr Modus Medián Kvartil, kvantil Geometrický průměr Harmonický průměr Charakteristiky souboru – POLOHA Charakteristiky souboru - VARIABILITA Grafické shrnutí dat 4/ Medián [median] (median) = označuje „prostřední“ hodnotu, tedy hodnotu v polovině uspořádaného souboru: polovina všech hodnot je menší než hodnota mediánu a polovina je větší než hodnota mediánu • časté označení ෥𝒙 • data kvantitativní (intervalová a poměrová stupnice) a data uspořádaná (ordinální stupnice) Lichý počet hodnot: ෥𝒙 = 𝒙 𝒏+𝟏 𝟐 Sudý počet hodnot: ෥𝒙 = 𝟏 𝟐 𝒙 𝒏 𝟐 + 𝒙 𝒏 𝟐 +𝟏 Příklad: výšky 12 náhodně vybraných desetiletých dívek – uspořádané: ෥𝒙 = 𝟏𝟒𝟏 5 hodnot => prostřední je 3. hodnota (5+1)/2 = 3 Minimum, maximum Aritmetický průměr Modus Medián Kvartil, kvantil Geometrický průměr Harmonický průměr Charakteristiky souboru – POLOHA Charakteristiky souboru - VARIABILITA Grafické shrnutí dat ad 4/ Kvartil, kvantil [quartile, quantile] (quantile) Medián ~ padesátiprocentní kvantil, Q2 prostřední hodnota, dělí soubor na 50 % – 50 % Můžeme se ptát také na čtvrtiny. Označujeme je dolní kvartil, Q1, 25% kvantil: dělí soubor na 25 % – 75 % horní kvartil, Q3, 75% kvantil: dělí soubor na 75 % – 25 % Obecně např. 30% kvantil: dělí soubor na 30 % – 70 % atd. Poznámka: výpočty kvantilů se mohou v různých softwarech lišit. Minimum, maximum Aritmetický průměr Modus Medián Kvartil, kvantil Geometrický průměr Harmonický průměr Charakteristiky souboru – POLOHA Charakteristiky souboru - VARIABILITA Grafické shrnutí dat Příklad výšky 12 náhodně vybraných desetiletých dívek – uspořádané: Někdy je užitečné popsat soubor takto uspořádanými charakteristikami: minimum první kvartil medián průměr třetí kvartil maximum Můžeme takto popsat i více souborů, čtenář pak porovnává hodnoty mezi soubory. minimum první kvartil medián průměr třetí kvartil maximum 131 138 141 140,83 144,5 151 Minimum, maximum Aritmetický průměr Modus Medián Kvartil, kvantil Geometrický průměr Harmonický průměr Charakteristiky souboru – POLOHA Charakteristiky souboru - VARIABILITA Grafické shrnutí dat A další, například: 5/ Geometrický průměr [geometric mean] 𝐺𝑀 = 𝑛 ෑ 𝑖=1 𝑛 𝑥𝑖 = 𝑛 𝑥1 𝑥2 𝑥3 ⋯ 𝑥 𝑛 • Procesy, kde se hodnoty mění spíše násobně než aditivně, př. 10-1 – 1000 – 10 – 1. • Data na poměrové stupnici, nesmí obsahovat nulu. 5/ Harmonický průměr [harmonic mean] 𝐻𝑀 = 1 1 𝑛 σ𝑖=1 𝑛 1 𝑥𝑖 • Data na poměrové stupnici, nesmí obsahovat nulu. • Například průměr z několika rychlostí. Čti příklad v M.J.Crawley, str.28. Pojem „centrální tendence“. Čti příklad v M.J.Crawley, str.30, slon a průměrná rychlost. Minimum, maximum Aritmetický průměr Modus Medián Kvartil, kvantil Geometrický průměr Harmonický průměr Charakteristiky souboru – POLOHA Charakteristiky souboru - VARIABILITA Grafické shrnutí dat Charakteristiky rozptylu, variability • Snaží se popsat rozptýlenost, proměnlivost souboru, „kolik prostoru“ na číselné ose hodnoty zabírají 1/ Rozsah, rozpětí [range] (range) = rozdíl mezi největší a nejmenší hodnotou souboru 𝒓𝒐𝒛𝒔𝒂𝒉 = 𝒙 𝒎𝒂𝒙 − 𝒙 𝒎𝒊𝒏 Příklad dívky: rozsah = 151 − 131 = 20 • Data na intervalové a poměrové stupnici • Charakteristika je ovlivněna netypickými (odlehlými, extrémními) hodnotami, proto se používá zřídka • ! Odhad rozsahu hodnot v celé populaci na základě výběru: se zvětšováním výběru většinou roste také rozsah, proto se rozsah hodnot celé populace (základního souboru) nedá dobře odhadnout jen z výběrového souboru! • Lépe bude fungovat následující charakteristika: Rosah.rozpětí Mezikvartilové rozpětí Rozptyl Směrodatná odchylka Variační koeficient Entropie Z-skóry Šikmost, špičatost Charakteristiky souboru – POLOHA Charakteristiky souboru - VARIABILITA Grafické shrnutí dat 2/ Mezikvartilové rozpětí [interquartile range] (IQR) = vyjadřuje šířku intervalu, ve kterém leží „prostřední“ polovina hodnot 𝒊𝒏𝒕𝒆𝒓𝒌𝒗𝒂𝒓𝒕. 𝒓𝒐𝒛𝒑𝒆𝒕𝒊 = 𝑸 𝟑 − 𝑸 𝟏 • Data na intervalové a poměrové stupnici • Charakteristika není tolik ovlivněna odlehlými hodnotami Náš příklad: 𝑄3 − 𝑄1 = = 144,5 − 138 = 6,5 Rosah.rozpětí Mezikvartilové rozpětí Rozptyl Směrodatná odchylka Variační koeficient Entropie Z-skóry Šikmost, špičatost Charakteristiky souboru – POLOHA Charakteristiky souboru - VARIABILITA Grafické shrnutí dat 3/ Rozptyl [variance] (var) = popisuje, jak jsou hodnoty „rozptýleny“ kolem průměru 𝒔 𝑿 𝟐 = 𝑽𝑨𝑹 𝑿 = σ𝒊=𝟏 𝒏 𝒙𝒊 − ഥ𝒙 𝟐 𝒏 − 𝟏 • Nejužívanější charakteristika • Pro kvantitativní data. • Dále bude Entropie pro kvalitativní data. • Definována jako (téměř) průměrná plocha čtverce odchylky od průměru • Ve starší literatuře může být jiný vzoreček: σ 𝑥 𝑖− ҧ𝑥 2 𝑛 • První verze vzorečku má lepší vlastnosti (bude později) • Další označení: populační rozptyl = σ2. Takto označujeme skutečný parametr základního souboru, který většinou neznáme. Výše uvedeným vzorcem počítáme jeho odhad a označujeme s2. Rosah.rozpětí Mezikvartilové rozpětí Rozptyl Směrodatná odchylka Variační koeficient Entropie Z-skóry Šikmost, špičatost Charakteristiky souboru – POLOHA Charakteristiky souboru - VARIABILITA Grafické shrnutí dat 4/ Směrodatná odchylka [standard deviation] (sd) • Odmocnina rozptylu => délka strany průměrného čtverce odchylky. • Má stejný fyzikální rozměr, jako naměřené hodnoty: Rozptyl má jiný fyzikální rozměr, je totiž umocněn na druhou. 𝒔 𝑿 = 𝑺𝑫 𝑿 = 𝒔 𝟐 𝑿 Příklad dívky: 𝒔 = 𝟓, 𝟖 5/ Variační koeficient [coefficient of variation] • Poměr směrodatné odchylky a průměru 𝑪𝑽 𝑿 = 𝒔 𝑿 ഥ𝒙 • (fyzikálně) bezrozměrná hodnota • Pro data na poměrové stupnici • Používá se k porovnání variability souborů s nestejnými průměry Příklad: 𝑪𝑽 = ∗ ∗ = 𝟎, 𝟎𝟒𝟏 Rosah.rozpětí Mezikvartilové rozpětí Rozptyl Směrodatná odchylka Variační koeficient Entropie Z-skóry Šikmost, špičatost Charakteristiky souboru – POLOHA Charakteristiky souboru - VARIABILITA Grafické shrnutí dat 6/ Entropie [entropy] (ekologické indexy v balíku vegan) • neuspořádanost • Popisuje „rozptyl“ dat s nominálním a ordinálním měřítkem 𝑯 = − ෍ 𝒋=𝟏 𝒎 𝒏𝒋 𝒏 ∙ 𝐥𝐧 𝒏𝒋 𝒏 • Entropie je nulová, je-li 𝒏 𝟏 = 𝒏, tedy všechny hodnoty jsou stejné. • Velké hodnoty entropie dostaneme, máme-li hodně různých kategorií, tedy velké m. • Pro dané m dosáhne entropie maximální možné hodnoty v případě, že jsou všechny četnosti 𝒏 𝟏, 𝒏 𝟐, ⋯ , 𝒏 𝒎 stejné. • Další charakteristiky: Shannonova entropie, Simpsonův index. (Hledejte kapitolu Náhodná veličina.) Ln je přirozený logaritmus (o základu e) nomin. a ordin. data třídíme do kategorií m počet kategorií, 𝒏𝒋 počet hodnot v j-té kategorii n = počet všech hodnot v souboru Rosah.rozpětí Mezikvartilové rozpětí Rozptyl Směrodatná odchylka Variační koeficient Entropie Z-skóry Šikmost, špičatost Charakteristiky souboru – POLOHA Charakteristiky souboru - VARIABILITA Grafické shrnutí dat 7/ Z-skóry [z-score] = normované hodnoty, tj. upravené (transformované) tak, že potom celý soubor z-skórů má dohromady průměr = 0 a rozptyl = 1 (nulový průměr a jednotkový rozptyl). 𝒛𝒊 = 𝒙𝒊 − ഥ𝒙 𝒔 𝑿 • Použití při dalších vzorcích a postupech; jen kvantitativní data. Příklad 𝒙𝒊 − 𝟏𝟒𝟎, 𝟖𝟑 𝟓, 𝟖 𝑥(1) 𝑥(2) 𝑥(3) 𝑥(4) 𝑥(5) 𝑥(6) 𝑥(7) 𝑥(8) 𝑥(9) 𝑥(10) 𝑥(11) 𝑥(12) -1,7 -1,5 -1,0 0,03 0,03 0,03 0,03 0,20 0,37 0,89 0,89 1,75 Rosah.rozpětí Mezikvartilové rozpětí Rozptyl Směrodatná odchylka Variační koeficient Entropie Z-skóry Šikmost, špičatost Charakteristiky souboru – POLOHA Charakteristiky souboru - VARIABILITA Grafické shrnutí dat 8/ Šikmost [skewness] = vyjadřuje symetrii rozložení hodnot kolem průměrné hodnoty 𝒈 𝟏 = 𝟏 𝒏 ෍ 𝒊=𝟏 𝒏 𝒛𝒊 𝟑 = 𝟏 𝒏 ෍ 𝒊=𝟏 𝒏 𝒙𝒊 − ഥ𝒙 𝒔 𝑿 𝟑 • Je to průměr ze 3. mocnin normovaných hodnot • Bezrozměrná charakteristika • Histogram zešikmený doprava má kladnou 𝒈 𝟏, tj. 𝒈 𝟏 > 𝟎 [positively skewed, right skewed] • Histogram zešikmený doleva má negativní 𝒈 𝟏, tj. 𝒈 𝟏 < 𝟎 [negatively skewed, left skewed] • Symetrické rozdělení (Gaussova křivka) má 𝒈 𝟏 blízké nule Rosah.rozpětí Mezikvartilové rozpětí Rozptyl Směrodatná odchylka Variační koeficient Entropie Z-skóry Šikmost, špičatost Charakteristiky souboru – POLOHA Charakteristiky souboru - VARIABILITA Grafické shrnutí dat 9/ Špičatost [kurtosis] • Interpretace nesnadná 𝒈 𝟐 = 𝟏 𝒏 ෍ 𝒊=𝟏 𝒏 𝒛𝒊 𝟒 − 𝟑 = 𝟏 𝒏 ෍ 𝒊=𝟏 𝒏 𝒙𝒊 − ഥ𝒙 𝒔 𝑿 𝟒 − 𝟑 • Upravený průměr ze 4. mocnin normovaných hodnot • Bezrozměrná charakteristika • Špičatý tvar: 𝒈 𝟐 > 𝟎 [leptokurtic], všechny hodnoty blízko průměru • Plochý tvar: 𝒈 𝟐 < 𝟎 [platykurtic], mnohé hodnoty daleko od prům. • Gaussova křivka (normální rozdělení) má 𝒈 𝟐 ≈ 0 [mesokurtic] Rosah.rozpětí Mezikvartilové rozpětí Rozptyl Směrodatná odchylka Variační koeficient Entropie Z-skóry Šikmost, špičatost Charakteristiky souboru – POLOHA Charakteristiky souboru - VARIABILITA Grafické shrnutí dat Terminologická vsuvka: 10/ Centrální momenty [central moments] κ 𝒌 = 𝟏 𝒏 ෍ 𝒊=𝟏 𝒏 𝒙𝒊 − 𝝁 𝒌  κ 𝟏 = 𝟏 𝒏 σ𝒊=𝟏 𝒏 (𝒙𝒊 − 𝝁) … skoro průměr  κ 𝟐 = 𝟏 𝒏 σ𝒊=𝟏 𝒏 𝒙𝒊 − 𝝁 𝟐 … skoro rozptyl  κ 𝟑 = 𝟏 𝒏 σ𝒊=𝟏 𝒏 𝒙𝒊 − 𝝁 𝟑 … skoro šikmost  κ 𝟒 = 𝟏 𝒏 σ𝒊=𝟏 𝒏 𝒙𝒊 − 𝝁 𝟒 … skoro špičatost • Další teorie např. na wikipedii … k-tý centrální moment μ je střední hodnota ~ populační průměr Rosah.rozpětí Mezikvartilové rozpětí Rozptyl Směrodatná odchylka Variační koeficient Entropie Z-skóry Šikmost, špičatost Charakteristiky souboru – POLOHA Charakteristiky souboru - VARIABILITA Grafické shrnutí dat Grafické shrnutí datového souboru • dobrý graf řekne o datech více než čísla sumární charakteristiky • EDA = exploratory data analysis = moderní odnož popisné statistiky, znázorňuje předchozí charakteristiky graficky • ! V různých softwarech jsou odchylky ve výpočtech. Potom stejně vypadající graf může reprezentovat jiné charakteristiky. Proto vždy čtěte komentáře ve zvoleném softwaru. Krabicový diagram Histogram četností Výsečový diagram Sloupcový diagram Absolutní četnost Relativní četnost 135140145150 vysky Frequency 130 135 140 145 150 155 0123456 Charakteristiky souboru – POLOHA Charakteristiky souboru - VARIABILITA Grafické shrnutí dat Krabicový diagram [box-and-whisker plot] (boxplot) Příklad: Krabicový diagram Histogram četností Výsečový diagram Sloupcový diagram Absolutní četnost Relativní četnost 131.0 138.0 141.0 144.5 151.0 minimum první kvartil medián průměr třetí kvartil maximum 131 138 141 140,83 144,5 151 Charakteristiky souboru – POLOHA Charakteristiky souboru - VARIABILITA Grafické shrnutí dat Krabicový diagram Krabicový diagram Histogram četností Výsečový diagram Sloupcový diagram Absolutní četnost Relativní četnost 131.0138.0141.0144.5151.0 • Nevyčtu počet hodnot (pozorování), ale mohu si udělat představu o symetričnosti rozložení dat kolem mediánu. • Někdy je možné měnit šířku krabice podle počtu hodnot (R soft.). To má smysl, když porovnáváme několik souborů s různým počtem pozorování. • STATISTICA má základně nastaveno, že se zobrazuje aritmetický průměr a ± směrodatná odchylka. To je vhodné pro data se symetrickým rozložením hodnot (např. Gaussova křivka). • Vždy uvádějte v popisu grafu, které charakteristiky jsou zobrazeny! Charakteristiky souboru – POLOHA Charakteristiky souboru - VARIABILITA Grafické shrnutí dat Krabicový diagram Několik výběrů Krabicový diagram Histogram četností Výsečový diagram Sloupcový diagram Absolutní četnost Relativní četnost Délka kojení novorozenců podle vzdělání matky Median 25%-75% Non-Outlier Range maturita VŠ základní Vzdělání matky -2 0 2 4 6 8 10 12 14 16 18 20 22 24 26 délkakojení[měsíce] Charakteristiky souboru – POLOHA Charakteristiky souboru - VARIABILITA Grafické shrnutí dat Histogram četností [frequency histogram] (hist) Krabicový diagram Histogram četností Výsečový diagram Sloupcový diagram Absolutní četnost Relativní četnost Histogram of vysky vysky Frequency 130 135 140 145 150 155 0123456 • Histogram je tabulka četností převedená do grafické podoby. • Četnost [frequency] = kolikrát se ta která hodnota vyskytuje. • Kvantitativní data => intervaly • (Kvalitativní data => kategorie, pro které se ale lépe hodí sloupcový graf – vizte dále.) • Každý interval může být reprezentován jednou „typickou“ hodnotou, označme ji xj *, a k ní přiřadíme počet hodnot, které do intervalu patří: • Toto je tabulka četností. • (130, ۧ135 - kam patří hraniční hodnoty • Stejná šířka intervalů. • Změnou šířky intervalů měním i tvar histogramu. 𝒙 𝟏 ∗ 𝒙 𝟐 ∗ 𝒙 𝟑 ∗ 𝒙 𝟒 ∗ 𝒙 𝟓 ∗ 𝒙𝒋 ∗ 132,5 137,5 142,5 147,5 152,5 𝒏𝒋 3 0 6 2 1 Charakteristiky souboru – POLOHA Charakteristiky souboru - VARIABILITA Grafické shrnutí dat Relativní četnost [relative frequency] = převádí (absolutní) četnost do rozmezí 0 až 1, případně 0 až 100 jako procenta. Takto: 𝒏𝒋 ∗ = 𝒏 𝒋 𝒏 … tedy jakou část z celkového počtu hodnot tvoří hodnoty v kategorii /intervalu j • Kontrola: součet všech relativních četností je roven 1. ෍ 𝑗=1 𝑚 𝑛𝑗 ∗ = 0,25 + 0 + 0,5 + 0,17 + 0,08 = 1 • Vyjádření jako procenta: 0,25 → 25 % • Součet je potom = 100 % • Histogram z relativních četností má stejný tvar, změní se měřítko. Krabicový diagram Histogram četností Výsečový diagram Sloupcový diagram Absolutní četnost Relativní četnost 𝒙𝒋 ∗ 132,5 137,5 142,5 147,5 152,5 ← typické hodnoty četnost 3 0 6 2 1 součet = 12 relativní četnost 3 12 = 0,25 0 12 = 0 6 12 = 0,5 2 12 = 0,17 1 12 = 0,08 součet = 1 Charakteristiky souboru – POLOHA Charakteristiky souboru - VARIABILITA Grafické shrnutí dat Výsečový diagram [pie chart] (pie(relativní četnosti)) Také koláčový graf • Vhodný pro kvalitativní data (nominál. a ordinál. stupnice). • Konstruovaný z relativních četností, software si četnosti většinou počítá sám. • Není důležité měřítko (jednotky), vynikne jenom poměr velikosti kategorií. • Zkušení nedoporučují, z grafu není VIDĚT ZŘETELNĚ informace o množství. Naše oko je dobré v porovnávání LINEÁRNÍCH VZDÁLENOSTÍ, ale rozdíl v ploše porovnává špatně. DOPORUČENÝ je SLOUPCOVÝ DIAGRAM. Krabicový diagram Histogram četností Výsečový diagram Sloupcový diagram Absolutní četnost Relativní četnost Charakteristiky souboru – POLOHA Charakteristiky souboru - VARIABILITA Grafické shrnutí dat Sloupcový diagram [bar chart] (barplot) Krabicový diagram Histogram četností Výsečový diagram Sloupcový diagram Absolutní četnost Relativní četnost • Všechny typy dat, ale kvalitativní data musím zadat jako četnosti v kategoriích. • Zakreslí dané hodnoty jako sloupec o odpovídající výšce. • Chci-li data zobrazit jako relativní čísla, musím do R-příkazu zadat výsledné relativní četnosti (vs. Excel přepočítá sám). Charakteristiky souboru – POLOHA Charakteristiky souboru - VARIABILITA Grafické shrnutí dat