Základy zpracování geologických dat §R. Čopjaková § § §Předmět je zaměřen na získání teoretických základů statistické analýzy numerických dat v geologických vědách a její praktické provádění pomocí programu Microsoft Excel Zpracování geologických dat §Úvod. Sběr dat. Analýza a výběr dat. Vlastní zpracování dat, grafická prezentace. §Popis jednorozměrných statistických souborů. Náhodný výběr, Uspořádání dat zákl. souboru - rozdělení četností. Četnost absolutní, relativní, kumulativní. §Základní typy rozdělení četností – rozdělení četností u geologických jevů. §Základní statistické charakteristiky. Míry polohy - aritmetický průměr, medián, kvantily, modus; Míry variability - rozptyl, směrodatná odchylka, variační rozpětí; bodové a intervalové odhady. §Testování statistických hypotéz - Základní pojmy a postup testování. Základní parametrické a neparametrické testy. §Vzájemné vztahy veličin - Regresní analýza a korelační analýza. Doporučená literatura §Brázdil, Rudolf - Kolář, Miroslav - Prošek, Pavel. Statistické metody v geografii. Brno : Masarykova univerzita Brno, 1993. 177 s. §Brázdil, Rudolf. Statistické metody v geografii :cvičení. 3. vyd. Brno : Vydavatelství Masarykovy univerzity, 1995. 177 s. §Sattran, Vladimír - Soukup, Blahomil. Použití matematických metod v geologii. Vyd. 1. Praha : Ústřední ústav geologický v Academii, 1973. 153 s. §Biostatistika. Edited by Karel Zvára. 1. vyd. Praha : Univerzita Karlova-Vydavatelství Karolinum, 2001. 210 s. §Hanousek, Jan - Charamza, Pavel. Moderní metody zpracování dat :matematická statistika pro každého. 1. vyd. Praha : Grada, 1992. 210 s. §Při statistickém zkoumání nás zajímají hromadné jevy a procesy, u kterých zkoumáme zákonitosti, které se projevují u velkého počtu prvků. –Petrologie - celohorninové analýzy, mineralogie - analýzy minerálů –Geochemie, hydrologie – kontaminace půd, vod atd. –Pórovitost, hustota hornin –Měření geologickým kompasem –Měření morfologických parametrů na schránkách organismů §Prvky zkoumání nazýváme statistické jednotky. §Pozorovaním nebo měřením hodnot zkoumaného znaku (veličiny) na několika statistických jednotkách získáme datový soubor. § §Statistický soubor jednorozměrný, jestliže sledujeme jeden znak – stanovení stáří, pórovitost § nebo vícerozměrný, pokud sledujeme více znaků - celohorninové analýzy, chemické analýzy minerálů § §statistické znaky: § - kvantitativní, popsané číselnou hodnotou (průtok, stáří, hustota); § kvantitativní pořadové – např. stupeň vybělení horniny § - kvalitativní, popsané vlastnostmi (barva) § § Statistický soubor: z pohledu úplnosti § §základní soubor je soubor všech statistických jednotek §výběrový soubor je vybraná část ze základního souboru § §Základní soubor není vždy k dispozici (např. změřit všechny objekty je časově nebo finančně neúnosné nebo nemožné). §Data pak zobrazují jen část objektů (výběrový soubor), avšak my chceme získat obraz o parametrech celého základního souboru. Z výběrového souboru samozřejmě nemůžeme určit přesné parametry základního souboru, ale pouze jejich odhady. § §rozsah základního (výběrového) souboru je počet jednotek v souboru; n = počet statistických jednotek § §Grafické zpracování – správné čtení a interpretace –Funkce – lineární, logaritmické, exponenciální §Početní – míry polohy a variability – např. aritmetický průměr, směrodatná odchylka, minimum, maximum, §Vzájemné vztahy a závislosti Zpracování kvantitativních dat Histogram – stáří metamorfovaných hornin § Celohorninové složení obr Whole rock Chemické složení a zonálnost granátu §Profil zrnem granátu grt zon od DB Substituce v turmalínech § XY3Z6T6O18(BO3)3V3W § §dva substituční vektory § substituce: XYAlWOH XNa-1YMg-1WF-1 substituce: YFeYMg-1 substituce trm Zpracování kvantitativních dat-jednorozměrné soubory §Tvorba histogramu §soubor dat: x1, x2, . . . , xn, §soubor uspořádáme podle velikosti §stanovení intervalů §dolní hranice třídy §horní hranice třídy §střed třídy je průmer horní a dolní hranice třídy §šírka třídy je rozdíl horní a dolní hranice trídy § histogram §Tvorba histogramu §najít logické hledisko pro stanovení šířky intervalu (třídy) nebo počtu intervalů §šířka intervalů nemusí být kontantní – často zejména krajní intervaly jsou širší, případně neomezené §počet intervalů musí být takový, aby vynikly podstatné a charakteristické rysy souboru §jednoznačnost přiřazení statistických jednotek do určité třídy § §Pravidla pro stanovení šířky či počtu intervalů: § Sturgesovo pravidlo K = 1 + 3,3 log n § k = √n § k=celá část (5*log n) § § kde k je počet intervalů a n je rozsah souboru § § 0,05R ≤ h ≤ 0,08R § kde h je šířka intervalu a R variační rozpětí tj. R = Xmax-Xmin § § §histogram (sloupcový graf) polygon četností (spojnicový graf) § histogramy Charakteristiky (míry) polohy § Nejznámější a nejčastěji používanou charakteristkou polohy je aritmetický průměr hodnot souboru. § \bar{x} = \frac{1}{n} \left ( x_1 + x_2 + \ldots + x_n \right ) = \frac{1}{n} \sum_{i=1}^{n} x_i Ano Ne Ne Ne §Kvantil - dělí soubor seřazených hodnot na několik stejně velkých částí. Kvantily tvoří inverzní funkci k funkci distribuční. § §Speciální označení kvantitů §Medián - je hodnota, jež dělí soubor dat seřazených podle velikosti na dvě stejně početné poloviny. Platí, že nejméně 50 % hodnot je menších nebo rovných a nejméně 50 % hodnot je větších nebo rovných mediánu. Pro nalezení mediánu daného souboru stačí hodnoty seřadit podle velikosti a vzít hodnotu, která se nalézá uprostřed seznamu. Pokud má soubor sudý počet prvků, obvykle se za medián označuje aritmetický průměr dvou hodnot na místech n/2 a n/2+1. §. Výhody mediánu §Základní výhodou mediánu jako statistického ukazatele je fakt, že není ovlivněný extrémními hodnotami (nízkými či vysokými). Proto se často používá v případě šikmých rozdělení, u kterých aritmetický průměr dává obvykle nevhodné výsledky. § § § § § §Medián je nejpoužívanější kvantil (konkrétně kvantil dělící soubor na dvě části). §Kromě mediánu se velmi často používají kvartily (soubor se dělí na čtyři části), decily (na deset částí) a percentily (na sto částí). § §Modus §Nejčetnější hodnota souboru – užití např. u bimodálních rozdělení četností Charakteristiky (míry) polohy median Charakteristiky (míry) variability-rozptýlenosti §variační rozpětí R = xmax − xmin § §mezikvartilové rozpětí § §rozptyl - střední kvadratická odchylka od průměru § –rozptyl (základní soubor) – –výběrový rozptyl (výběrový soubor) § §směrodatná odchylka – odmocnina z rozptylu; nejužívanější míra variability; vyjadřuje rozkolísanost hodnot kolem střední hodnoty –směrodatná odchylka (základní soubor) – –výběrová směrodatná odchylka - pro skutečný výpočet odhadu směrodatné odchylky na empiricky zjištěné řadě čísel (výběrovém souboru) § § §