Základy zpracování geologických dat Od histogramu (rozdělení četností) k rozdělení pravděpodobnosti a základní charakteristiky polohy a variability §R. Čopjaková § § rozdeleni cetnosti Od histogramu (rozdělení četností) k rozdělení pravděpodobnosti zahušťujeme měření zahušťujeme měření n f n f hustota rozdělení pravděpodobností frekvenční funkce pravděpodobnostní funkce histogram – rozdělení četností §Spojité náhodné veličiny §Diskrétní náhodné veličiny Rozdělení pravděpodobnosti Soubor:Normalni rozdeleni hustota.svg 507px-Rovnomerne_rozdeleni_hustota normální rozdělení - spojité lognormální rozdělení - spojité rovnoměrné rozdělení - spojité binomické rozdělení - nespojité Numerická charakteristika souborů dat §Charakteristiky (míry) polohy –charakterizují střední hodnotu souboru dat (např. aritmetický průměr) §Charakteristiky (míry) variability –charakterizují rozptýlenost, variabilitu dat, (např. variační rozpětí) § § §míry parametrické –počítané ze všech hodnot souboru –závislé na typu rozdělení pravděpodobností §míry neparametrické –počítané jen z některých hodnot souboru –univerzálně použitelné pro různé typu rozdělení pravděpodobností – § Charakteristiky (míry) polohy Střední hodnoty §aritmetický průměr - (parametrická míra) normální rozdělení pravděpodobností § § § §geometrický průměr - (parametrická míra) lognormální rozdělení pravděpodobností –n-tá odmocnina součinu hodnot souboru § § §medián - (neparametrická míra) je hodnota, jež dělí soubor dat seřazených podle velikosti na dvě stejně početné poloviny. § §modus - (neparametrická míra) - nejčetnější hodnota souboru – např. u bimodálních rozdělení četností § – G ( x_1,x_2,\dots,x_n) = \sqrt[n]{x_1 \cdot x_2 \dotsb x_n} = \left( \prod_{i=1}^{n} x_i \right)^{\frac{1}{n}} \bar{x} = \frac{1}{n} \left ( x_1 + x_2 + \ldots + x_n \right ) = \frac{1}{n} \sum_{i=1}^{n} x_i Charakteristiky (míry) polohy § Nejznámější a nejčastěji používanou charakteristkou polohy je aritmetický průměr hodnot souboru. § Ano Ne Ne Ne \bar{x} = \frac{1}{n} \left ( x_1 + x_2 + \ldots + x_n \right ) = \frac{1}{n} \sum_{i=1}^{n} x_i §Medián – (neparametrická míra polohy) §Medián je hodnota, jež dělí soubor dat seřazených podle velikosti na dvě stejně početné poloviny. §Platí, že nejméně 50 % hodnot je menších nebo rovných a nejméně 50 % hodnot je větších nebo rovných mediánu. §Pro nalezení mediánu daného souboru stačí hodnoty seřadit podle velikosti a vzít hodnotu, která se nalézá uprostřed seznamu. Pokud má soubor sudý počet prvků, obvykle se za medián označuje aritmetický průměr dvou hodnot na místech n/2 a n/2+1. §. §Výhody mediánu §Základní výhodou mediánu jako statistického ukazatele je fakt, že není ovlivněný extrémními hodnotami (nízkými či vysokými). Proto se často používá v případě šikmých rozdělení, u kterých aritmetický průměr dává obvykle nevhodné výsledky. § § § § §Kvantil - udávající hodnotu, kterou stanovená část p (z intervalu ⟨ 0 ; 1 ⟩ nebo v procentech v rozmezí 0–100 %) hodnot nepřesahuje §Medián jako kvantil §Medián je nejpoužívanější kvantil (konkrétně kvantil dělící soubor na dvě části). §Kromě mediánu se velmi často používají kvartily (soubor se dělí na čtyři části), decily (na deset částí) a percentily (na sto částí). § Charakteristiky (míry) polohy median Statistické funkce v Excelu § Charakteristiky polohy §AVERAGEA/průměr = spočte aritmetický průměr souboru –zadám oblast dat, z níž má průměrnou hodnotu spočítat – §GEOMEAN = spočte geometrický průměr souboru –zadám oblast dat, z níž má průměrnou hodnotu spočítat – §MEDIAN = stanoví medián pro soubor dat –zadám oblast dat, z níž má medián stanovit – § stanovení daného kvantilu/percentilu §PERCENTIL.EXC = stanoví hodnotu k-tého percentilu; k je Є (0, 1) §PERCENTIL.INC = stanoví hodnotu k-tého percentilu; k je Є ‹0, 1› –pole = oblast dat, z níž má k-tý percentil stanovit –k = hodnota percentilu, který chceme stanovit – např. pro 1. kvartil k=0,25; pro 3. kvartil k=0,75; pro medián k=0,5 – §MODE.SNGL = stanoví modus pro soubor dat –zadám oblast dat, z níž mám modus stanovit – Charakteristiky (míry) variability-rozptýlenosti §minimem a maximem souboru (stat. fce v Excelu – MIN a MAX) § §variační rozpětí (neparametrická míra) R = xmax − xmin § § §desátým a devadesátým percentilem (neparametrické míry) –(stat . fce v Excelu – PERCENTIL, k=0,1 a k=0,9); pokud velké soubory dat; nebo výsledky metod, kde je velká chyba stanovení, např. výsledky z LA-ICP-MS § §mezikvartilové rozpětí (neparametrická míra) –rozdíl mezi hodnotou třetího a prvního kvartilu –(stat . fce v Excelu – PERCENTIL - k=0,25; k=0,75 a jejich rozdíl) – § Charakteristiky (míry) variability-rozptýlenosti §rozptyl = průměrný čtverec odchylky jednotlivých hodnot souboru od aritmetického průměru; (parametrická míra) – pro soubor dat s normálním rozdělením § § rozptyl (základní soubor) § § § rozptyl (výběrový soubor – tzv. odhad rozptylu) § § § §směrodatná odchylka = odmocnina z rozptylu § (parametrická míra) – pro soubor dat s normálním rozdělením – – § směrodatná odchylka (základní soubor) § § § směrodatná odchylka (výběrový soubor § – tzv. odhad směrodatné odchylky) Statistické funkce v Excelu § Charakteristiky variability §VAR.P/VAR = vypočte rozptyl základního souboru –zadám oblast dat, z níž má průměrnou hodnotu spočítat – §VAR.S/VAR.VÝBĚR = odhadne rozptyl základního souboru § (pracujeme-li s výběrovým souborem) § –zadám oblast dat, z níž má průměrnou hodnotu spočítat – §SMODCH.P/SMODCH/STDEV = vypočte směrodatnou odchylku základního souboru § § –zadám oblast dat, z níž má směrodatnou odchylku spočítat – §SMODCH.VÝBĚR.S/SMODCH.VÝBĚR = odhadne směrodatnou odchylku základního souboru; (pracujeme-li s výběrovým souborem) § § § –zadám oblast dat, z níž má směrodatnou odchylku spočítat