1 Statistické metody a zpracování dat I. Úvod, základní pojmy Petr Dobrovolný Obsah přednášky 1. Úvod, základní pojmy 2. Základní vyjadřovací prostředky ve statistice 3. Základní popisné statistické charakteristiky 4. Úvod do počtu pravděpodobnosti, teoretická rozdělení 5. Odhady parametrů a intervaly spolehlivosti 6. Testování statistických hypotéz 7. Měření závislosti náhodných veličin 8. Analýza kategoriálních dat 9. Úvod do analýzy rozptylu 10. Úvod do analýzy časových řad 11. Úvod do vícerozměrných statistických metod Základní literatura Brázdil a kol. (1995): Statistické metody v geografii. MU Brno, 177 s. Prezentace z přednášek ­ doplňky Rogerson, P. A (2001): Statistical methods for Geography. Sage Publications, London,. 236 s. Hendl, J. (2004): Přehled statistických metod zpracování dat. Portál, Praha, 583 s. IS ­ Studijní materiály Program STATISTICA Multilicence MU https://inet.muni.cz/app/soft/licence Cvičení ­ zadání, podkladová data - přes IS Základy práce s programem ­ 1. cvičení. Další informace, elektronická učebnice: http://www.statsoft.cz Zakončení předmětu * účast na cvičeních, včasné odevzdání protokolů * 1. písemný test (polovina semestru) ­ řešení praktické úlohy * 2. písemný test (konec semestru) ­ odpřednášená látka * hodnocení: minimálně 50% bodů v součtu obou testů, žádný jeden by neměl být horší než 25%) * termíny testů budou včas oznámeny Statistika je vědní obor zabývající se zkoumáním jevů, které mají hromadný charakter. Statistika je v určitém smyslu jazykem pro shromažďování, zpracování, rozbor, hodnocení a interpretaci hromadných jevhromadných jevůů STATISTIKA - definice Co je typické pro statistiku * Zabývá se proměnlivými - variabilními - vlastnostmi. * Pracuje s čísly a vyjadřuje se pomocí čísel - zajímá se především o kvantitativní stránku reality. * Používá výpočetní techniku k vytváření a správě statistických databází, k provádění hromadného zpracování a analýzy dat a ke komunikaci. 2 Významy pojmu STATISTIKA I. Statistika jako praktická činnost - statistická evidence, instituce, ročenky meteorologických pozorování atd. II. Statistika jako vědní disciplina - popisná a matematická (induktivní) statistika, aplikované vědy (ekonometrie, chemometrie atd.), vědy se silným statistickým základem: klimatologie, hydrologie, sociologie, psychologie, demografie aj. Statistika se těší pochybnému vyznamenání tím, že je nejvíce nepochopeným vědním oborem (H. Levinson) Vymezení základních pojmů I HromadnHromadnéé jevy:jevy: přírodní či společenské jevy, které jsou výsledkem působení velkého množství příčin, jejich vlastnosti se neprojevují v jednotlivých jevech, ale jen v souboru a to prostřednictvím řady náhod. Řada jevů, které v geografii studujeme pomocí statistických metod, má povahu jevů náhodných ­ tzv. stochastických (hydrologické jevy či meteorologické jevy). Vymezení základních pojmů II StatistickStatistickáá jednotka:jednotka: je to určitý jev či prvek, který je předmětem statistického šetření a pro který se zjišťují údaje Statistická jednotka musí být přesně vymezena na počátku vlastního šetření a to z hlediska věcného, časového, prostorového. Statistický znak:Statistický znak: je to určitá vlastnost statistické jednotky, kterou se snažíme postihnut. Statistický soubor:Statistický soubor: skupina statistických jednotek stejného druhu (věcně, prostorově a časově vymezených), které jsou předmětem statistického zkoumání. Každý z prvků je statistickou jednotkou. Prvky tvořící statistický soubor mají určité společné vlastnosti - tzv. identifikační znaky - umožňující určit, zda prvek do daného statistického souboru patří nebo nepatří (vymezují statistický soubor). Z hlediska cílů statistického zkoumání sledujeme na prvcích statistického souboru jednu nebo více vlastností - sledované znaky. Vymezení základních pojmů III Statistické znaky lze dělit na znaky prostorové, časové a věcné. Věcné znaky se dělí na znaky kvantitativní a kvalitativní Kvalitativní znaky mohou být alternativní a množné Kvantitativní znaky dělíme nejčastěji na znaky spojité a diskrétní. Statistické znaky můžeme získat přímo ­ (např. měřením) a nebo nepřímo (výpočtem). Tyto potom nazýváme znaky odvozenými. Podle škály, na které znaky zjišťujeme je dělíme na znaky nominální, ordinální, poměrové, intervalové Vymezení základních pojmů IV ReprezentativnReprezentativníí výbvýběěr:r: Pokud zkoumaný výběr dobře odráží strukturu celého zkoumaného souboru, nazýváme jej reprezentativním výběrem. Rozsah statistickRozsah statistickéého souboru:ho souboru: N ­ rozsah základního souboru n ­ rozsah výběrového souboru Statistický soubor jednorozmjednorozměěrnýrný, vvíícerozmcerozměěrnýrný ZZáákladnkladníí statistický souborstatistický soubor - populace VýbVýběěrový statistický souborrový statistický soubor je podmnožinou základního souboru. Je vytvořen ze statistických jednotek, vybraných podle určitého hlediska. Popisná statistika Jak mohou být tyto jevy jednoduše popsány (charakterizovány, sumarizovány)? Existují dvě základní možnosti, které se vzájemně doplňují: * NumerickNumerickéé metodymetody ­ jedním nebo několika málo čísly lze vystihnout určité vlastnosti jevu. Jsou přesnější a objektivnější * GrafickGrafickéé metodymetody ­ sestrojení vhodného typu grafu. Jsou názornější a umožňují vystihnout vztahy. 0,3 6,3 5,0 max min = -= = x x x PopisnPopisnáá (deskriptivn(deskriptivníí) statistika) statistika se zabývá uspořádáním souborů, jejich popisem a účelnou sumarizací. 3 Induktivní statistika InduktivnInduktivníí (matematick(matematickáá) statistika) statistika se vyvinula z popisné statistiky a jejím základem je teorie pravděpodobnosti. Matematická statistika zkoumá soubory nepřímo prostřednictvím výběrů Induktivní statistika se zabývá metodami jak poznatky přenášet a umožňuje z pozorovaných dat vytvářet obecné závěry s udáním stupně jejich spolehlivosti. Výpočet stupně spolehlivosti závěrů je však objektivní, neboť je založen na poznatcích teorie pravděpodobnosti a nezávisí na subjektivním názoru hodnotitele. -8 -6 -4 -2 0 2 4 6 1701 1711 1721 1731 1741 1751 1761 1771 1781 1791 1801 1811 1821 1831 1841 T reconst. T_reconst., gauss 10 T measured 95% confidence limits Geografická data a jejich specifika * Nominální (kategorie využití země) ˇˇˇˇ Ordinální (řád vodního toku, stupnice síly větru) * Intervalová (teplota vzduchu) nula = data * Poměrová (množství srážek, délka vodního toku) nula = neexistence jevu * Zdroje geografických dat ­ primární, sekundární * Prostorový aspekt ­ statistika prostorově lokalizovaných dat (geostatistika) * Časový aspekt Děěěělení geografických dat podle použžžžité škály měřěřěřěření Typy geografických dat Nominální data ­ hodnota představuje konkrétní kategorii či třídu a vyjadřuje její označení (jméno), kategorie se nesmějí překrývat ­ jsou disjunktní. Každý objekt je zařaditelný alespoň do jedné kategorie, žádný nespadá do více než jedné. Čísla, která označují kategorie jsou pouze symboly a nelze s nimi provádět aritmetické operace. V nejjednodušší podobě mají binární charakter a lze je pouze porovnávat. Ordinální data ­ data, která lze seřadit do uspořádané posloupnosti podle určitého kritéria. Je známé pořadí kategorií, rozdíl však nemá smysl. Např. řád vodního toku, třída silnice, bonita půdy atd. Typy geografických dat Intervalová data ­ umožňují provádět i odečítání mezi kategoriemi definovat rozdíl mezi kategoriemi. Teplota vzduchu. Stupnice většinou nezačíná nulou. Poměr dat závisí na zvolených jednotkách. Poměrová data ­ vedle rovnosti, uspořádání a odčítání umožňují také dělení. Nula vyjadřuje neexistenci jevu objem, délka ... Statistický software 1. Programové vybavení založené na využití vlastního programovacího jazyka (R, Splus, SAS) 2. Interaktivní zpracování v ,,oknech" MINITAB, SPSS, STATGRAPHICS, Statistica 3. Programové vybavení s knihovnou statistických, matematických a grafických funkcí (EXCEL) Základní vyjadřovací prostředky ve statistice * Statistické tabulky * Statistické grafy Tabulky ­ složené z buněk, přehledné, nezávislé na textu * nadpis * záhlaví * legenda * pramen * poznámky * vysvětlivky Tab. 1 Základní statistické charakteristiky teploty vzduchu [°C] na vybraných stanicích za období 1961-2000 4 Statistické tabulky * Záhlaví a legenda mají obsahovat měrné jednotky * Tabulka má vyplněna všechna políčka * Smluvené znaky pro políčka bez číselného údaje - ­ údaj se nevyskytuje x ­ údaj není možný z logických důvodů 0 ­ hodnota je menší než polovina nejmenší měrné jednotky . ­ údaj nelze spolehlivě zjistit Motto: Jeden obrázek je za tisíce slov Cílem grafického znázornění je podat rychlou a srozumitelnou informaci o studovaném jevu či o vzájemném vztahu více jevů. 0 20 40 60 80 100 120 0 20 40 60 80 100p [%] Q [m3/s] Teoretické h. Empirické h. Metody grafického znázornění geografických jevů Graf a jeho základní prvky Grafický obraz ­ soubor grafických prostředků, pomocí kterých na základě dohodnutého výkladu jejich smluveného významu sestrojujeme graf Grafický výklad ­ soubor zásad, podle kterých interpretujeme (čteme) příslušný graf). 1. stupnice 2. grafický interval 3. síť 4. klíč 5. vysvětlivka 6. délka stupnice Graf ­ kresba provedená podle předem dohodnutých pravidel, která znázorňuje kvalitativní či kvantitativní znaky. Dělení grafických prostředků podle významu Ideografické - mají kvalitativní význam a v grafu fungují jako znaky (klasifikační, identifikační). Jejich tvar a rozměry slouží pouze k jejich odlišení, nemají kvantitativní význam (písmena, číslice, symboly, geometrické obrazce, šrafura, barva, druhy čar apod.). Geometrické ­ mají vždy kvantitativní význam, často však také slouží ke kvalitativnímu odlišení statistických jednotek (body, úsečky, obrazce). Ideografické prostředky 1 ­ windbreakage 2 ­ damage on buildings of lesser extent 3 ­ destroyed buildings 4 ­ damage without specification Geometrické prostředky Teoretické stand. hodnoty R[mm] ,01 ,05 ,15 ,25 ,35 ,45 ,55 ,65 ,75 ,85 ,95 ,99 20 30 40 50 60 70 80 90 -1,5 -1,0 -0,5 0,0 0,5 1,0 1,5 2,0 2,5 3,0 3,5 4,0 5 Základní typy grafů Z hlediska předmětu grafu: * schémata (struktura, vztahy, ...) * diagramy (kvantita, četnost, ...) 0 5 10 15 20 25 30 35 40 III IV V VI VII VIII IX X 2 1 Základní typy grafů Z hlediska způsobu použití geometrických prostředků: * rozměrové grafy * souřadnicové grafy Statistické mapy * kartogramy * kartodiagramy Speciální typy grafů využívané v geografii: * ternární graf * větrná růžice, klimadiagram, ... 0 20 40 60 80 Neklas. F0 F1 F2 F3 N Základní typy grafů Grafy pro vyjádření jedné proměnné * sloupkový diagram * histogram * kruhový diagram, výsečový graf * bodový graf * spojnicový graf Základní typy grafů Grafy pro vyjádření dvou a více proměnných - korelogram Speciální typy grafů * krabičkový graf * graf stonku a listů (stem-and-leaf-plot) * piktogram Speciální typy grafů využívané v geografii: * ternární graf * ,,strom života" * větrná růžice * klimadiagram 6 Analýza grafů Všímáme si základního tvaru a také odchylek od něho U tvaru grafu hodnotíme: * zhuštění ­ místa největší četnosti hodnot * shluky ­ existence jednoho či více shluků hodnot * mezery ­ existence intervalů či oblastí bez hodnot * odlehlé hodnoty ­ existence údajů podstatně rozdílných od ostatních hodnot * extrémní hodnoty ­ poloha min a max hodnot v grafu * tvar rozdělení ­ jak ho lze popsat ­ symetrie, počet vrcholů Volba vhodného typu grafu musí zohledňovat typ zobrazované proměnné (spojitá či diskrétní) Statistická mapa kartodiagram Příklady kartogramu Grafické znázornění prostorové diferenciace intenzity jevů: * Absolutní metoda: bodová ­ počet grafických prvků je úměrný velikosti jevu značková ­ velikost grafického prvku je úměrná velikosti jevu Grafické znázornění prostorové diferenciace intenzity jevů: Relativní metoda: barva, šrafování Grafické znázornění prostorové diferenciace intenzity a struktury jevů 7 Konstrukce izolinií - interpolace: Konstrukce spojitých polí (viz. Geostatistika)