1 Z1069 Statistické metody a zpracování dat I. Úvod, základní pojmy Organizační pokyny 1. Veškeré potřebné informace jsou uvedeny v ISu (obsah přednášky, doporučená literatura, …) 2. V ISu budou k dispozici také podklady k přednáškám, vybrané studijní materiály, podklady ke cvičením 3. Cvičení probíhají v programu STATISTICA. Mutilicence MU https://inet.muni.cz/app/soft/licence 4. EXCEL, R, … 5. Zakončení předmětu • splnění všech požadavků v praktických cvičeních • 1. písemný test ( týden od 9. 11. 2015) – řešení praktické úlohy • 2. písemný test (17. 12. 2015) – odpřednášená látka • hodnocení: minimálně 50% bodů v součtu obou testů • v celkovém hodnocení se promítají i výsledky na cvičeních Proč statistika v geografii? (motivace) Proč statistika v geografii? Statistické metody jsou jednou z nedílných součástí vědecké metodologie. Cílem vědeckého poznání je “obecné porozumění” pozorovaným jevům Rogerson (2001) Statistické metody umožňují: • zorganizovat data • popsat je a analyzovat • formulovat hypotézu • sestavit model • otestovat model • vyslovit zobecnění • vytvořit, potvrdit / vyvrátit teorii Statistika je vědní obor zabývající se zkoumáním jevů, které mají hromadný charakter. Statistika je v určitém smyslu jazykem pro shromažďování, zpracování, rozbor, hodnocení a interpretaci hromadných jevů STATISTIKA - definice Co je typické pro statistiku • Zabývá se proměnlivými - variabilními - vlastnostmi. • Pracuje s čísly a vyjadřuje se pomocí čísel - zajímá se především o kvantitativní stránku reality (existují však i metody kvalitativní statistiky) • Používá výpočetní techniku k vytváření a správě statistických databází, k provádění hromadného zpracování a analýzy dat a ke komunikaci. Významy pojmu STATISTIKA I. Statistika jako praktická činnost - statistická evidence, instituce, ročenky meteorologických pozorování atd. II. Statistika jako vědní disciplina - popisná a matematická (induktivní) statistika, aplikované vědy (ekonometrie, chemometrie atd.), vědy se silným statistickým základem: klimatologie, hydrologie, sociologie, psychologie, demografie aj. 2 Vymezení základních pojmů I Hromadné jevy: přírodní či společenské jevy, které jsou výsledkem působení velkého množství příčin, jejich vlastnosti se neprojevují v jednotlivých jevech, ale jen v souboru a to prostřednictvím řady náhod. Řada jevů, které v geografii studujeme pomocí statistických metod, má povahu jevů náhodných – tzv. stochastických (hydrologické jevy či meteorologické jevy). Stochastické vs. deterministické jevy, procesy Vymezení základních pojmů II Statistická jednotka: je to určitý jev či prvek, který je předmětem statistického šetření a pro který se zjišťují údaje Statistický soubor: skupina statistických jednotek stejného druhu (věcně, prostorově a časově vymezených), které jsou předmětem statistického zkoumání. Každý z prvků je statistickou jednotkou. Prvky tvořící statistický soubor mají určité společné vlastnosti - tzv. identifikační znaky - umožňující určit, zda prvek do daného statistického souboru patří nebo nepatří (vymezují statistický soubor). Z hlediska cílů statistického zkoumání sledujeme na prvcích statistického souboru jednu nebo více vlastností - sledované znaky. Statistický znak: je to určitá vlastnost statistické jednotky, kterou se snažíme postihnut. Statistická jednotka musí být přesně vymezena na počátku vlastního šetření a to z hlediska věcného, časového, prostorového. Vymezení základních pojmů III Statistické znaky lze dělit na znaky prostorové, časové a věcné. Věcné znaky se dělí na znaky kvantitativní a kvalitativní Kvalitativní znaky mohou být alternativní a množné Kvantitativní znaky dělíme nejčastěji na znaky spojité a diskrétní. Statistické znaky můžeme získat přímo – (např. měřením) a nebo nepřímo (výpočtem). Tyto potom nazýváme znaky odvozenými. Podle škály, na které znaky zjišťujeme je dělíme na znaky nominální, ordinální, poměrové, intervalové (viz dále) Vymezení základních pojmů IV Reprezentativní výběr: pokud zkoumaný výběr dobře odráží strukturu celého zkoumaného souboru, nazýváme jej reprezentativním výběrem. Rozsah statistického souboru: N – rozsah základního souboru n – rozsah výběrového souboru Statistický soubor jednorozměrný, vícerozměrný Základní statistický soubor - populace Výběrový statistický soubor je podmnožinou základního souboru. Je vytvořen ze statistických jednotek, vybraných podle určitého hlediska. Vymezení základních pojmů V Výběrová šetření Náhodný výběr: každý prvek populace má stejnou možnost být zařazen do výběru S výběrovými soubory pracujeme, protože např. z důvodů omezeného času či prostředků nemůžeme vyšetřit všechny jednotky populace či počet statistických jednotek v populaci není konečný. Výběr mechanický (systematický), oblastní (stratifikovaný), vícestupňový, … Příklady systematického, náhodného a stratifikovaného náhodného výběru Popisná statistika Jak mohou být tyto jevy jednoduše popsány (charakterizovány, sumarizovány). Existují dvě základní možnosti, které se vzájemně doplňují: • grafické metody – sestrojení vhodného typu grafu. Jsou názornější a umožňují vystihnout vztahy. 0,3 6,3 5,0 max min = −= = x x x Popisná (deskriptivní) statistika se zabývá uspořádáním souborů, jejich popisem a účelnou sumarizací. • numerické metody – jedním nebo několika málo čísly lze vystihnout určité vlastnosti jevu. Jsou přesnější a objektivnější. 3 Induktivní statistika Induktivní (matematická) statistika se vyvinula z popisné statistiky a jejím základem je teorie pravděpodobnosti. Matematická statistika zkoumá soubory nepřímo prostřednictvím výběrů. Induktivní statistika se zabývá metodami jak poznatky přenášet a umožňuje z pozorovaných dat vytvářet obecné závěry s udáním stupně jejich spolehlivosti. Výpočet stupně spolehlivosti závěrů je však objektivní, neboť je založen na poznatcích teorie pravděpodobnosti a nezávisí na subjektivním názoru hodnotitele. -8 -6 -4 -2 0 2 4 6 1701 1711 1721 1731 1741 1751 1761 1771 1781 1791 1801 1811 1821 1831 1841 T reconst. T_reconst., gauss 10 T measured 95% interval spolehlivosti Geografická data a jejich specifika • Zdroje geografických dat – primární, sekundární • Prostorový aspekt – statistika prostorově lokalizovaných dat (geostatistika) • Časový aspekt Dr. John Snow Místa výskytu onemocnění cholerou v Londýně v r. 1854 Geografická data a jejich specifika • Nominální (kategorie využití země) • Ordinální (řád vodního toku, stupnice síly větru) • Intervalová (teplota vzduchu) nula = data • Poměrová (množství srážek, délka vodního toku) nula = neexistence jevu Dělení geografických dat podle použité škály měření: Typy geografických dat Nominální data – hodnota představuje konkrétní kategorii či třídu a vyjadřuje její označení (jméno), kategorie se nesmějí překrývat – jsou disjunktní. Každý objekt je zařaditelný alespoň do jedné kategorie, žádný nespadá do více než jedné. Čísla, která označují kategorie jsou pouze symboly a nelze s nimi provádět aritmetické operace. V nejjednodušší podobě mají binární charakter a lze je pouze porovnávat. Ordinální data – data, která lze seřadit do uspořádané posloupnosti podle určitého kritéria. Je známé pořadí kategorií, rozdíl však nemá smysl. Např. řád vodního toku, třída silnice, bonita půdy atd. Typy geografických dat Intervalová data – umožňují provádět i odečítání mezi kategoriemi definovat rozdíl mezi kategoriemi. Teplota vzduchu. Stupnice většinou nezačíná nulou. Poměr dat závisí na zvolených jednotkách. Poměrová data – vedle rovnosti, uspořádání a odčítání umožňují také dělení. Nula vyjadřuje neexistenci jevu –objem, délka … 4 Základní vyjadřovací prostředky ve statistice • Statistické tabulky • Statistické grafy Tabulky – složené z buněk, přehledné, nezávislé na textu • nadpis • záhlaví • legenda • pramen • poznámky • vysvětlivky Tab. 1 Základní statistické charakteristiky teploty vzduchu [°C] na vybraných stanicích za období 1961-2000 Statistické tabulky • Záhlaví a legenda mají obsahovat měrné jednotky • Tabulka má vyplněna všechna políčka • Smluvené znaky pro políčka bez číselného údaje - – údaj se nevyskytuje x – údaj není možný z logických důvodů 0 – hodnota je menší než polovina nejmenší měrné jednotky . – údaj nelze spolehlivě zjistit Motto: Jeden obrázek je za tisíce slov Cílem grafického znázornění je podat rychlou a srozumitelnou informaci o studovaném jevu či o vzájemném vztahu více jevů. 0 20 40 60 80 100 120 0 20 40 60 80 100p [%] Q [m3/s] Teoretické h. Empirické h. Metody grafického znázornění geografických jevů Graf a jeho základní prvky Grafický obraz – soubor grafických prostředků, pomocí kterých na základě dohodnutého výkladu jejich smluveného významu sestrojujeme graf Grafický výklad – soubor zásad, podle kterých interpretujeme (čteme) příslušný graf). 1. stupnice 2. grafický interval 3. síť 4. klíč 5. vysvětlivka 6. délka stupnice Graf – kresba provedená podle předem dohodnutých pravidel, která znázorňuje kvalitativní či kvantitativní znaky. Dělení grafických prostředků podle významu Ideografické - mají kvalitativní význam a v grafu fungují jako znaky (klasifikační, identifikační). Jejich tvar a rozměry slouží pouze k jejich odlišení, nemají kvantitativní význam (písmena, číslice, symboly, geometrické obrazce, šrafura, barva, druhy čar apod.). Geometrické – mají vždy kvantitativní význam, často však také slouží ke kvalitativnímu odlišení statistických jednotek (body, úsečky, obrazce). Ideografické prostředky 1 – windbreakage 2 – damage on buildings of lesser extent 3 – destroyed buildings 4 – damage without specification 5 Geometrické prostředky Teoretické stand. hodnoty R[mm] ,01 ,05 ,15 ,25 ,35 ,45 ,55 ,65 ,75 ,85 ,95 ,99 20 30 40 50 60 70 80 90 -1,5 -1,0 -0,5 0,0 0,5 1,0 1,5 2,0 2,5 3,0 3,5 4,0 Základní typy grafů Z hlediska předmětu grafu: • schémata (struktura, vztahy, …) • diagramy (kvantita, četnost, …) 0 5 10 15 20 25 30 35 40 III IV V VI VII VIII IX X 2 1 Základní typy grafů Z hlediska způsobu použití geometrických prostředků: • rozměrové grafy • souřadnicové grafy Statistické mapy • kartogramy • kartodiagramy Speciální typy grafů využívané v geografii: • ternární graf • větrná růžice, klimadiagram, … 0 20 40 60 80 Neklas. F0 F1 F2 F3 N Základní typy grafů Grafy pro vyjádření jedné proměnné • sloupkový diagram • histogram • kruhový diagram, výsečový graf • bodový graf • spojnicový graf Základní typy grafů Grafy pro vyjádření vztahů dvou a více proměnných - korelogram Speciální typy grafů • krabičkový graf (box-plot) • piktogram • graf stonku a listů (stem-and-leaf-plot) 6 Speciální typy grafů využívané v geografii: • ternární graf • „strom života“ • větrná růžice • klimadiagram Analýza grafů Všímáme si základního tvaru a odchylek od něho U tvaru grafu hodnotíme: • zhuštění – místa největší četnosti hodnot • shluky – existence jednoho či více shluků hodnot • mezery – existence intervalů či oblastí bez hodnot • odlehlé hodnoty – existence údajů podstatně rozdílných od ostatních hodnot • extrémní hodnoty – poloha min a max hodnot v grafu • tvar rozdělení – jak ho lze popsat – symetrie, počet vrcholů Volba vhodného typu grafu musí zohledňovat typ zobrazované proměnné (spojitá či diskrétní) Statistická mapa kartodiagram Příklady kartogramu Grafické vyjádření intenzity jevu Grafické znázornění prostorové diferenciace intenzity jevů: • Absolutní metoda: 1) bodová – počet grafických prvků je úměrný velikosti jevu 2) značková – velikost grafického prvku je úměrná velikosti jevu 1) 2) Relativní metoda: barva, šrafování Grafické znázornění prostorové diferenciace intenzity jevů: 7 Grafické znázornění prostorové diferenciace intenzity a struktury jevů Konstrukce izolinií - interpolace: Konstrukce spojitých polí (viz. Geostatistika) Statistika se těší pochybnému vyznamenání tím, že je nejvíce nepochopeným vědním oborem (H. Levinson) STATISTIKA