1 Statistické metody a zpracování dat I. Úvod, základní pojmy Petr Dobrovolný Obsah přednášky 1. Úvod, základní pojmy 2. Základní vyjadřovací prostředky ve statistice 3. Základní popisné statistické charakteristiky 4. Úvod do počtu pravděpodobnosti, teoretická rozdělení 5. Odhady parametrů a intervaly spolehlivosti 6. Testování statistických hypotéz 7. Měření závislosti náhodných veličin 8. Analýza kategoriálních dat 9. Úvod do analýzy rozptylu 10. Úvod do analýzy časových řad 11. Úvod do vícerozměrných statistických metod I, Faktorová analýza 12. Úvod do vícerozměrných statistických metod II, Shluková analýza Základní literatura Brázdil a kol. (1995): Statistické metody v geografii. MU Brno, 177 s. Prezentace z přednášek ­ doplňky Hendl, J. (2004): Přehled statistických metod zpracování dat. Portál, Praha, 583 s. Rogerson, P. A (2001): Statistical methods for Geography. Sage Publications, London,. 236 s. Heřmanová, E. (1991): Vybrané vícerozměrné statistické metody v geografii. SPN, Praha, 133 s. Cvičení ­ zadání, podkladová data - přes IS Termíny písemných testů: 9.11. 21.12. Statistika je vědní obor zabývající se zkoumáním jevů, které mají hromadný charakter. Statistika je v určitém smyslu jazykem pro shromažďování, zpracování, rozbor, hodnocení a interpretaci hromadných jevů STATISTIKA - definice Co je typické pro statistiku ˇ Zkoumá hromadné jevy. ˇ Zabývá se proměnlivými - variabilními - vlastnostmi. ˇ Pracuje s čísly a vyjadřuje se pomocí čísel - zajímá se především o kvantitativní stránku reality. ˇ Používá výpočetní techniku k vytváření a správě statistických databází, k provádění hromadného zpracování a analýzy dat a ke komunikaci. Významy pojmu STATISTIKA I. Statistika jako praktická činnost ˇ Statistická evidence (např. sběr údajů, třídění, sumarizace apod.), ˇ Instituce, která tuto evidenci provádí (např. ČSÚ, ministerstva aj.) ˇ Souhrn údajů o nějaké skutečnosti (statistika nezaměstnanosti, ročenka meteorologických pozorování atd.) Významy pojmu STATISTIKA II. Statistika jako vědní disciplina ˇ Popisná statistika (výsledky nelze zobecnit) ˇ Matematická (induktivní) statistika - cílem je zobecnit výsledky (odhad a testování hypotéz) - použití počtu pravděpodobnosti ˇ Teorie výběrových zjišťování či měření ˇ Aplikované vědy (,,­metrie" a ,,-grafie"): biometrie, dendrometrie, ekonometrie, chemometrie atd. ˇ Vědy se silným statistickým základem: klimatologie, hydrologie, sociologie, psychologie, demografie aj. 2 Co statistika ,,umí" ˇ Zjišťování (počet domácností ČR, počet pracovníků v odvětví XY) ˇ Shrnování dílčích ukazatelů v čase a prostoru (průměrná nezaměstnanost v regionu) ˇ Srovnávání agregovaných ukazatelů v čase nebo prostoru (trend vývoje počtu obyvatelstva, teploty vzduchu dvou lokalit) ˇ Měření závislosti (závislost mezd na HDP, závislost meteorologického prvku na nadmořské výšce). ˇ Popis struktury (věková struktura obyvatel ČR, roční chod hodnot meteorologických prvků) ˇ Předvídání jejich budoucí úrovně (tržby v maloobchodě v příštím roce) ... a co statistika ,,neumí": ˇ Nemá k dispozici adekvátní číselné údaje ˇ Chybí-li představa o velikosti chyb měření a vlivu různých doprovodných činitelů ˇ Nemá-li k dispozici dostatečně rozsáhlý soubor případů ˇ Není-li v datech přítomna proměnlivost (variabilita). Statistika selhává, pokud: Vymezení základních pojmů I Hromadné jevy: přírodní či společenské jevy, které jsou výsledkem působení velkého množství příčin, jejich vlastnosti se neprojevují v jednotlivých jevech, ale jen v souboru a to prostřednictvím řady náhod. Některé jevy, které v geografii studujeme pomocí statistických metod mají povahu jevů náhodných ­ tzv. stochastických (hydrologické jevy či meteorologické jevy). Hromadné jevy pozorujeme: ˇ jednoduché pozorování ˇ experiment Vymezení základních pojmů II Statistická jednotka: je to určitý jev či prvek, který je předmětem statistického šetření a pro který se zjišťují údaje Statistická jednotka musí být přesně vymezena na počátku vlastního šetření a to z hlediska věcného, časového, prostorového. Statistický znak: je to určitá vlastnost statistické jednotky, kterou se snažíme postihnut. Tzv. shodné (společné) znaky vymezují příslušnost statistické jednotky k určitému statistickému souboru. Ostatní jsou znaky proměnlivé (variabilní). Vymezení základních pojmů III Statistické znaky lze dělit na znaky prostorové, časové a věcné. Věcné znaky se dělí na znaky kvantitativní a kvalitativní Kvalitativní znaky mohou být alternativní a množné Kvantitativní znaky dělíme nejčastěji na znaky spojité a diskrétní. Statistické znaky můžeme získat přímo ­ (např. měřením) a nebo nepřímo (výpočtem). Tyto potom nazýváme znaky odvozenými. Podle škály, na které znaky zjišťujeme je dělíme na znaky nominální, ordinální, poměrové, intervalové Vymezení základních pojmů IV Statistický soubor: skupina statistických jednotek stejného druhu (věcně, prostorově a časově vymezených) Je to množina všech prvků, které jsou předmětem daného statistického zkoumání. Každý z prvků je statistickou jednotkou. Prvky tvořící statistický soubor mají určité společné vlastnosti - tzv. identifikační znaky - umožňující určit, zda prvek do daného statistického souboru patří nebo nepatří. Identifikační znaky tedy statistický soubor vymezují. Z hlediska cílů statistického zkoumání sledujeme na prvcích statistického souboru jednu nebo více vlastností - sledované znaky. Je-li vlastnost měřitelná v nějakých jednotkách, jde o kvantitativní znak, jinak jde o kvalitativní znak. 3 Vymezení základních pojmů IV Statistický soubor můžeme podle různých hledisek dále dělit: Základní soubor - populace Výběrový soubor je podmnožinou základního souboru. Je vytvořen ze statistických jednotek, vybraných podle určitého hlediska. Reprezentativní výběr: Pokud zkoumaný výběr dobře odráží strukturu celého zkoumaného souboru, nazýváme jej reprezentativním výběrem. Rozsah statistického souboru: N ­ rozsah základního souboru n ­ rozsah výběrového souboru ˇ Statistický soubor jednorozměrný, vícerozměrný ˇ Statistický soubor základní a výběrový Popisná statistika Popisná (deskriptivní) statistika se zabývá uspořádáním souborů, jejich popisem a účelnou sumarizací. Jak mohou být tyto jevy jednoduše popsány (charakterizovány, sumarizovány)? Existují dvě základní možnosti, které se vzájemně doplňují: ˇ Numerické metody ­ jedním nebo několika málo čísly lze vystihnout určité vlastnosti jevu. Jsou přesnější a objektivnější ˇ Grafické metody ­ sestrojení vhodného typu grafu. Jsou názornější a umožňují vystihnout vztahy. Induktivní statistika Induktivní (matematická) statistika se vyvinula z popisné statistiky a jejím základem je teorie pravděpodobnosti. Matematická statistika zkoumá soubory nepřímo prostřednictvím výběrů Induktivní statistika se zabývá metodami jak poznatky přenášet a umožňuje z pozorovaných dat vytvářet obecné závěry s udáním stupně jejich spolehlivosti. Výpočet stupně spolehlivosti závěrů je však objektivní, neboť je založen na poznatcích teorie pravděpodobnosti a nezávisí na subjektivním názoru hodnotitele. Základní etapy statistického zpracování dat ˇ Zjišťování - shromáždění a zaznamenání údajů, jejich kontrola aj., ˇ Zpracování - uspořádání, seskupení, shrnování, sumarizace, ˇ Analýza - výpočet charakteristik, měření závislostí, srovnávání, měření dynamiky ˇ Prezentace výsledků - tabulkové či grafické vyjádření a slovní zhodnocení výsledků předcházejících etap. Základní dělení statistických údajů ˇ podle zdroje -- primární a sekundární, ˇ podle reálnosti situace -- skutečné a simulované, ˇ podle periodicity zjišťování -- průběžné, periodické a jednorázové, ˇ podle časového hlediska -- okamžikové a intervalové. ˇ podle použité škály měření ­ nominální, ordinální, intervalové, poměrové Typy geografických dat ˇ Nominální (kategorie využití země) ˇ Ordinální (řád vodního toku, stupnice síly větru) ˇ Intervalová (teplota vzduchu) nula = data ˇ Poměrová (množství srážek, délka vodního toku) nula = neexistence jevu 4 Typy geografických dat Nominální data ­ hodnota představuje konkrétní kategorii či třídu a vyjadřuje její označení (jméno), kategorie se nesmějí překrývat ­ jsou disjunktní. Každý objekt je zařaditelný alespoň do jedné kategorie, žádný nespadá do více jak jedné. Čísla, která označují kategorie jsou pouze symboly a nelze s nimi provádět aritmetické operace. V nejjednodušší podobě mají binární charakter a lze je pouze porovnávat. Ordinální data ­ data, která lze seřadit do uspořádané posloupnosti podle určitého kritéria. Je známé pořadí kategorií, rozdíl však nemá smysl. Např. řád vodního toku, třída silnice, bonita půdy atd. Typy geografických dat Intervalová data ­ umožňují provádět i odečítání mezi kategoriemi definovat rozdíl mezi kategoriemi. Teplota vzduchu. Stupnice většinou nezačíná nulou. Poměr dat závisí na zvolených jednotkách Poměrová data ­ vedle rovnosti, uspořádání a odčítání umožňují také dělení. Nula vyjadřuje neexistenci jevu ­ objem, délka ... Konverze mezi jednotlivými typy dat 1151322,7N98,4O 2141006,5I1322,7N 213889,5H654,5M 112678,3C32,7L 111654,5M112,7K 110554,9F445,1J 29445,1J1006,5I 28112,7K889,5H 17112,7E67,7G 26112,7A554,9F 1598,4O112,7E 1467,7G15,8D 2340,6B678,3C 1232,7L40,6B 1115,8D112,7A Příslušnost stanice do třídy Pořadí v utříděné posloupnosti Vzdálenosti utříděné vzestupně Čerpací stanice Vzdálenost od středu města Čerpací stanice Třída příslušnosti: 1 ­ stanice blízká; 2 ­ stanice vzdálená kritérium: hodnota vzdálenosti 500 m Vzdálenost ­ poměrová data Pořadové číslo ­ ordinální data Třída ­ nominální data Statistika a výpočetní technika ˇ Výpočetní technika zasahuje do všech etap statistického zpracování dat. ˇ Exploze výpočetní techniky umožňuje provádět výpočty, které byly dříve nerealizovatelné (z důvodů velkého objemu dat, pracnosti, ...). ˇ Na druhou stranu však roste nebezpečí výběru nesprávného postupu. Výhody počítačového zpracování I. Přesnost a rychlost: Dobré počítačové programy nám dají velmi rychle správné výsledky. Dřívější ruční zpracování dat bylo často zatíženo aritmetickými chybami a bylo časově velmi náročné. Univerzálnost: Počítače zpřístupňují širokou škálu statistických metod a umožňují provést velmi rychle i rozsáhlé komplexní statistické analýzy. Grafika: Počítače umožňují snadné grafické zobrazení pozorovaných dat a výsledků statistického zpracování. Flexibilita: Velkou výhodou počítačů je, že umožňují rychle provést nové zpracování při změnách v datech či transformaci některých veličin. Výhody počítačového zpracování II. Nové veličiny: Snadno lze vytvářet nové veličiny pomocí požadovaných transformací. Velikost datových souborů: Počítače umožňují zpracování velmi rozsáhlých souborů dat pomocí vhodného softwaru, což bylo ještě před deseti lety velmi obtížné. Snadný přenos dat: Jakmile se jednou data dostala do počítače, lze je snadno přenést elektronicky (například pomocí Internetu) na jiné místo. ...ale 5 Nevýhody počítačového zpracování I. Kvalita, dostupnost, spolehlivost softwaru. Ne všechny statistické programy jsou spolehlivé. Řada SW programů aplikaci statistických metod zjednodušuje Je vhodné využívat ověřené postupy a programy - BMDP, SAS, SPSS, STATISTICA, S PLUS, STATGRAPHICS a další. Univerzálnost. Může vést k výběru nevhodné metody zpracování. Je velmi důležité, aby každý, kdo používá statistický software, si byl vědom úrovně svých statistických znalostí a užíval pouze ty metody, kterým rozumí. Pozor na používání neznámých statistických metod. Nevýhody počítačového zpracování II Černá skříňka. Počítač vzdaluje uživatele od dat i metody zpracování. Statistická analýza se provádí automaticky, nová data se zpracovávají a výsledky se ukládají, aniž by byly posouzeny člověkem. Protože většinou výsledky zachycují jen průměrné efekty, může se zcela ztrácet citlivost k individuálním pozorováním. Špatná data plodí špatné závěry. Jestliže data jsou nasbírána či naměřena špatně (například jsou špatně kladené otázky v dotazníku), nelze očekávat, že závěry z takových dat budou správné. Sem náleží i nesprávné zpracování datových souborů, chybějící či ovlivněné (tzv. nehomogenní) údaje. Statistický software 1. Programové vybavení založené na využití vlastního programovacího jazyka (R, Splus, SAS) 2. Interaktivní zpracování v ,,oknech" MINITAB, SPSS, STATGRAPHICS, Statistica 3. Programové vybavení s knihovnou statistických, matematických a grafických funkcí (EXCEL) Statistické metody a zpracování dat II. Vyjadřovací prostředky ve statistice Petr Dobrovolný Základní vyjadřovací prostředky ve statistice ˇ Statistické tabulky ˇ Statistické grafy Tabulky ­ složené z buněk, přehledné, nezávislé na textu ˇ nadpis ˇ záhlaví ˇ legenda ˇ pramen ˇ poznámky ˇ vysvětlivky Tab. 1 Základní statistické charakteristiky teploty vzduchu [°C] na vybraných stanicích za období 1961-2000 Statistické tabulky ˇ Záhlaví a legenda mají obsahovat měrné jednotky ˇ Tabulka má vyplněna všechna políčka ˇ Smluvené znaky pro políčka bez číselného údaje - ­ údaj se nevyskytuje x ­ údaj není možný z logických důvodů 0 ­ hodnota je menší než polovina nejmenší měrné jednotky . ­ údaj nelze spolehlivě zjistit 6 Druhy statistických tabulek a) Podle účelu ­ pracovní, koncentrační, publikační b) Podle obsahu ­ jednoduché, kombinační c) Korelační, asociační, kontingenční Motto: Jeden obrázek je za tisíce slov Cílem grafického znázornění je podat rychlou a srozumitelnou informaci o studovaném jevu či o vzájemném vztahu více jevů. 0 20 40 60 80 100 120 0 20 40 60 80 100p [%] Q [m3/s] Teoretické h. Empirické h. Metody grafického znázornění geografických jevů Graf a jeho základní prvky Graf ­ kresba provedená podle předem dohodnutých pravidel, která znázorňuje kvalitativní či kvantitativní znaky. Grafický obraz ­ soubor grafických prostředků, pomocí kterých na základě dohodnutého výkladu jejich smluveného významu sestrojujeme i čteme graf 1. stupnice 2. grafický interval 3. síť 4. klíč 5. vysvětlivka 6. délka stupnice Dělení grafických prostředků podle významu Ideografické - mají kvalitativní význam a v grafu fungují jako znaky (klasifikační, identifikační). Jejich tvar a rozměry slouží pouze k jejich odlišení, nemají kvantitativní význam (písmena, číslice, symboly, geometrické obrazce, šrafura, barva, druhy čar apod.). Geometrické ­ mají vždy kvantitativní význam, často však také slouží ke kvalitativnímu odlišení statistických jednotek (body, úsečky, obrazce). Ideografické prostředky 1 ­ windbreakage 2 ­ damage on buildings of lesser extent 3 ­ destroyed buildings 4 ­ damage without specification Geometrické prostředky Teoretické stand. hodnoty R[mm] ,01 ,05 ,15 ,25 ,35 ,45 ,55 ,65 ,75 ,85 ,95 ,99 20 30 40 50 60 70 80 90 -1,5 -1,0 -0,5 0,0 0,5 1,0 1,5 2,0 2,5 3,0 3,5 4,0 7 Grafický výklad Soubor zásad, podle kterých interpretujeme (čteme) příslušný graf). Základní prvky grafického výkladu: ˇ Klíč ˇ Stupnice ˇ Souřadná soustava ˇ Zonální soustava ˇ Název a podtitul ˇ Poznámky a vysvětlivky Základní typy grafů Z hlediska předmětu grafu: ˇ schémata ˇ diagramy 0 5 10 15 20 25 30 35 40 III IV V VI VII VIII IX X 2 1 Základní typy grafů Z hlediska způsobu použití geometrických prostředků: ˇ rozměrové grafy ˇ souřadnicové grafy Statistické mapy ˇ kartogramy ˇ kartodiagramy Speciální typy grafů využívané v geografii: ˇ ternární graf ˇ větrná růžice, klimadiagram, ... 0 20 40 60 80 Neklas. F0 F1 F2 F3 N Základní typy grafů Grafy pro vyjádření jedné proměnné ˇ sloupkový diagram ˇ histogram ˇ kruhový diagram, výsečový graf ˇ bodový graf ˇ spojnicový graf Základní typy grafů Grafy pro vyjádření dvou a více proměnných - korelogram Speciální typy grafů ˇ krabičkový graf ˇ graf stonku a listů (stem-and-leaf-plot) ˇ piktogram 8 Speciální typy grafů využívané v geografii: ˇ ternární graf ˇ ,,strom života" ˇ větrná růžice ˇ klimadiagram Analýza grafů Všímáme si základního tvaru a také odchylek od něho U tvaru grafu hodnotíme: ˇ zhuštění ­ místa největší četnosti hodnot ˇ shluky ­ existence jednoho či více shluků hodnot ˇ mezery ­ existence intervalů či oblastí bez hodnot ˇ odlehlé hodnoty ­ existence údajů podstatně rozdílných od ostatních hodnot ˇ extrémní hodnoty ­ poloha min a max hodnot v grafu ˇ tvar rozdělení ­ jak ho lze popsat ­ symetrie, počet vrcholů Volba vhodného typu grafu musí zohledňovat typ zobrazované proměnné (spojitá či diskrétní) Statistická mapa kartodiagram Příklady kartogramu Grafické znázornění prostorové diferenciace intenzity jevů: ˇ Absolutní metoda: bodová ­ počet grafických prvků je úměrný velikosti jevu značková ­ velikost grafického prvku je úměrná velikosti jevu Grafické znázornění prostorové diferenciace intenzity jevů: Relativní metoda: barva, šrafování 9 Grafické znázornění prostorové diferenciace intenzity a struktury jevů Interpolace: Konstrukce spojitých polí a izolinií (viz. Geostatistika)