1 Z1069 Statistické metody a zpracování dat I. Úvod, základní pojmy Organizační pokyny 1. Veškeré potřebné informace jsou uvedeny v ISu (obsah přednášky, doporučená literatura, …) 2. V ISu budou k dispozici také podklady k přednáškám, vybrané studijní materiály, podklady ke cvičením 3. Cvičení probíhají v programu STATISTICA. Mutilicence MU https://inet.muni.cz/app/soft/licence 4. EXCEL, R, … 5. Zakončení předmětu • splnění všech požadavků v praktických cvičeních • 1. písemný test ( týden od 14. 11. 2016) – řešení praktické úlohy • 2. písemný test (14. 12. 2016) – odpřednášená látka • hodnocení: minimálně 50% bodů v součtu obou testů • v celkovém hodnocení se promítají i výsledky na cvičeních Proč statistika v geografii? (motivace) Proč statistika v geografii? Statistické metody jsou jednou z nedílných součástí vědecké metodologie. Cílem vědeckého poznání je “obecné porozumění” pozorovaným jevům Rogerson (2001) Statistické metody umožňují: • zorganizovat data • popsat je a analyzovat • formulovat hypotézu • sestavit model • otestovat model • vyslovit zobecnění • vytvořit, potvrdit / vyvrátit teorii Statistika je vědní obor zabývající se zkoumáním jevů, které mají hromadný charakter. Statistika je v určitém smyslu jazykem pro shromažďování, zpracování, rozbor, hodnocení a interpretaci hromadných jevů STATISTIKA - definice Co je typické pro statistiku • Zabývá se proměnlivými - variabilními - vlastnostmi. • Pracuje s čísly a vyjadřuje se pomocí čísel - zajímá se především o kvantitativní stránku reality (existují však i metody kvalitativní statistiky) • Používá výpočetní techniku k vytváření a správě statistických databází, k provádění hromadného zpracování a analýzy dat a ke komunikaci. Významy pojmu STATISTIKA I. Statistika jako praktická činnost - statistická evidence, instituce, ročenky meteorologických pozorování atd. II. Statistika jako vědní disciplina - popisná a matematická (induktivní) statistika, aplikované vědy (ekonometrie, chemometrie atd.), vědy se silným statistickým základem: klimatologie, hydrologie, sociologie, psychologie, demografie aj. 2 Vymezení základních pojmů I Hromadné jevy: přírodní či společenské jevy, které jsou výsledkem působení velkého množství příčin, jejich vlastnosti se neprojevují v jednotlivých jevech, ale jen v souboru a to prostřednictvím řady náhod. Řada jevů, které v geografii studujeme pomocí statistických metod, má povahu jevů náhodných – tzv. stochastických (hydrologické jevy či meteorologické jevy). Stochastické vs. deterministické jevy, procesy Vymezení základních pojmů II Statistická jednotka: je to určitý jev či prvek, který je předmětem statistického šetření a pro který se zjišťují údaje Statistický soubor: skupina statistických jednotek stejného druhu (věcně, prostorově a časově vymezených), které jsou předmětem statistického zkoumání. Každý z prvků je statistickou jednotkou. Prvky tvořící statistický soubor mají určité společné vlastnosti - tzv. identifikační znaky - umožňující určit, zda prvek do daného statistického souboru patří nebo nepatří (vymezují statistický soubor). Z hlediska cílů statistického zkoumání sledujeme na prvcích statistického souboru jednu nebo více vlastností - sledované znaky. Statistický znak: je to určitá vlastnost statistické jednotky, kterou se snažíme postihnut. Statistická jednotka musí být přesně vymezena na počátku vlastního šetření a to z hlediska věcného, časového, prostorového. Vymezení základních pojmů III Statistické znaky lze dělit na znaky prostorové, časové a věcné. Věcné znaky se dělí na znaky kvantitativní a kvalitativní Kvalitativní znaky mohou být alternativní a množné Kvantitativní znaky dělíme nejčastěji na znaky spojité a diskrétní. Statistické znaky můžeme získat přímo – (např. měřením) a nebo nepřímo (výpočtem). Tyto potom nazýváme znaky odvozenými. Podle škály, na které znaky zjišťujeme je dělíme na znaky nominální, ordinální, poměrové, intervalové (viz dále) Vymezení základních pojmů IV Reprezentativní výběr: pokud zkoumaný výběr dobře odráží strukturu celého zkoumaného souboru, nazýváme jej reprezentativním výběrem. Rozsah statistického souboru: N – rozsah základního souboru n – rozsah výběrového souboru Statistický soubor jednorozměrný, vícerozměrný Základní statistický soubor - populace Výběrový statistický soubor je podmnožinou základního souboru. Je vytvořen ze statistických jednotek, vybraných podle určitého hlediska. Vymezení základních pojmů V Výběrová šetření Náhodný výběr: každý prvek populace má stejnou možnost být zařazen do výběru S výběrovými soubory pracujeme, protože např. z důvodů omezeného času či prostředků nemůžeme vyšetřit všechny jednotky populace či počet statistických jednotek v populaci není konečný. Výběr mechanický (systematický), oblastní (stratifikovaný), vícestupňový, … Příklady systematického, náhodného a stratifikovaného náhodného výběru Popisná statistika Jak mohou být tyto jevy jednoduše popsány (charakterizovány, sumarizovány). Existují dvě základní možnosti, které se vzájemně doplňují: • grafické metody – sestrojení vhodného typu grafu. Jsou názornější a umožňují vystihnout vztahy. 0,3 6,3 5,0 max min = −= = x x x Popisná (deskriptivní) statistika se zabývá uspořádáním souborů, jejich popisem a účelnou sumarizací. • numerické metody – jedním nebo několika málo čísly lze vystihnout určité vlastnosti jevu. Jsou přesnější a objektivnější. 3 Induktivní statistika Induktivní (matematická) statistika se vyvinula z popisné statistiky a jejím základem je teorie pravděpodobnosti. Matematická statistika zkoumá soubory nepřímo prostřednictvím výběrů. Induktivní statistika se zabývá metodami jak poznatky přenášet a umožňuje z pozorovaných dat vytvářet obecné závěry s udáním stupně jejich spolehlivosti. Výpočet stupně spolehlivosti závěrů je však objektivní, neboť je založen na poznatcích teorie pravděpodobnosti a nezávisí na subjektivním názoru hodnotitele. -8 -6 -4 -2 0 2 4 6 1701 1711 1721 1731 1741 1751 1761 1771 1781 1791 1801 1811 1821 1831 1841 T reconst. T_reconst., gauss 10 T measured 95% interval spolehlivosti Geografická data a jejich specifika • Zdroje geografických dat – primární, sekundární • Prostorový aspekt – statistika prostorově lokalizovaných dat (geostatistika) • Časový aspekt Dr. John Snow Místa výskytu onemocnění cholerou v Londýně v r. 1854 Geografická data a jejich specifika • Nominální (kategorie využití země) • Ordinální (řád vodního toku, stupnice síly větru) • Intervalová (teplota vzduchu) nula = data • Poměrová (množství srážek, délka vodního toku) nula = neexistence jevu Dělení geografických dat podle použité škály měření: Typy geografických dat Nominální data – hodnota představuje konkrétní kategorii či třídu a vyjadřuje její označení (jméno), kategorie se nesmějí překrývat – jsou disjunktní. Každý objekt je zařaditelný alespoň do jedné kategorie, žádný nespadá do více než jedné. Čísla, která označují kategorie jsou pouze symboly a nelze s nimi provádět aritmetické operace. V nejjednodušší podobě mají binární charakter a lze je pouze porovnávat. Ordinální data – data, která lze seřadit do uspořádané posloupnosti podle určitého kritéria. Je známé pořadí kategorií, rozdíl však nemá smysl. Např. řád vodního toku, třída silnice, bonita půdy atd. Typy geografických dat Intervalová data – umožňují provádět i odečítání mezi kategoriemi definovat rozdíl mezi kategoriemi. Teplota vzduchu. Stupnice většinou nezačíná nulou. Poměr dat závisí na zvolených jednotkách. Poměrová data – vedle rovnosti, uspořádání a odčítání umožňují také dělení. Nula vyjadřuje neexistenci jevu –objem, délka …