STATISTICKÉ METODY V GEOGRAFII Kdybych měl poslední den života, chtěl bych ho strávit na přednášce ze statistiky – - je tak nekonečně dlouhá ……. Metody studia geografie Úvod + geografie jako věda statistické metody v geografii Podmínky úspěšného zakončení: Průběžný test - středoškolské znalosti zeměpisu,20 otázek, min. 12 Získání zápočtu ze cvičení , následně Písemná zkouška, teorie, příklady lstatistika –definice –pojetí Statistika je vědní obor zabývající se zkoumáním jevů, které mají hromadný charakter. Statistika je v určitém smyslu jazykem pro shromažďování, zpracování, rozbor, hodnocení a interpretaci hromadných jevů statistika - definice Hromadný jev ve statistice Statistika se zabývá hromadnými jevy tj. jevy, které se vyskytují u souboru lidí, věcí, událostí buď v kvantitativní formě nebo i kvalitativní formě převoditelné na číselnou hromadné jevy – příklady: u souboru lidí hromadný jev:věk osob, váha, dosažené vzdělání ……studenti dopíší další příklady ( např. viz. statistické ročenky)…. Co je typické pro statistiku • Zkoumá hromadné jevy. • Zabývá se proměnlivými - variabilními - vlastnostmi. • Pracuje s čísly • Používá výpočetní techniku. •Pracuje s čísly a vyjadřuje se pomocí čísel - zajímá se především o kvantitativní stránku reality. • Používá výpočetní techniku k vytváření a správě statistických databází, k provádění hromadného zpracování a analýzy dat a ke komunikaci statistika – dva významy - dvě pojetí –vědní disciplína l předmět zkoumání : stav a vývoj číselně vyjádřených hromadných jevů – praktická činnost l ( zaznamenání, třídění, shrnování číselných údajů o skutečnostech, udělám si statistiku ……) – lstatistika popisná l l l lmatematická statistika – STATISTIKA jako vědní disciplína statistika popisná popisuje jev statistickými charakteristikami takto zpřehledňuje velké množství dat – shrnují je do kategorií (průměr, nejčetnější hodnota, grafické znázornění dat) využívá numerické a grafické metody matematická statistika usuzování na závěry o sledovaném jevu z malého vzorku ( zkoumání veřejného mínění, namátkový test), tj. z chování části usuzujeme na chování celku zobecňuje výsledky (odhad a testování hypotéz) - používá počtu pravděpodobnosti Statistika jako praktická činnost •Činnost Statistická evidence ( např. sběr údajů, třídění, sumarizace apod.), , • Instituce, která tuto evidenci provádí (např. ČSÚ, ministerstva aj.) • výsledek - Souhrn údajů o nějaké skutečnosti (statistika nezaměstnanosti, ročenka meteorologických pozorování atd.) Základní etapy statistického zpracování dat •1. Zjišťování/ Sběr údajů - shromáždění a zaznamenání údajů, jejich kontrola aj., •periodicita sběru: Zjišťování – zpracování – analýza - prezentace l 2. Zpracování – uspořádání, sumarizace, l 3. Analýza - výpočet charakteristik, měření závislostí, srovnávání, měření dynamiky l 4. Prezentace výsledků - tabulkové či grafické vyjádření a slovní zhodnocení výsledků předcházejících etap. •. Zjišťování/ Sběr údajů - shromáždění a zaznamenání údajů, jejich kontrola aj., •periodicita sběru: •a) periodické (např. 1* ročně) •b) běžné – krátké, pravidelné lhůty •c) jednorázové Základní dělení statistických údajů • podle zdroje ODKUD?— primární a sekundární, • podle periodicity zjišťování JAK ČASTO? — průběžné, periodické a jednorázové, • podle časového hlediska KDY? ZA JAK DLOUHO?— okamžikové a intervalové •podle reálnosti situace OPRAVDU?— skutečné a simulované, • Co statistika „umí“ • Zjišťovat • Popisovat struktury • Shrnovat dílčí ukazatele v čase a prostoru • Srovnávat agregované ukazatele v čase nebo prostoru • Měřit závislosti •Zjišťovat (počet domácností ČR, počet pracovníků v odvětví XY) • Popisovat struktury (věková struktura obyvatel ČR, roční chod hodnot meteorologických prvků) • Shrnovat dílčí ukazatele v čase a prostoru (průměrná nezaměstnanost v regionu) • Srovnávat agregované ukazatele v čase nebo prostoru (trend vývoje počtu obyvatelstva, teploty vzduchu dvou lokalit) • Měřit závislosti (závislost mezd na HDP, závislost met. prvku na nadmořské výšce). … a co statistika „neumí“: • Nemá k dispozici adekvátní číselné údaje •Nemá-li k dispozici dostatečně rozsáhlý soubor případů • Není-li v datech přítomna proměnlivost (variabilita). Statistika selhává, pokud: Statistika a výpočetní technika • Výpočetní technika zasahuje do všech etap statistického zpracování dat. • Exploze výpočetní techniky umožňuje provádět výpočty, které byly dříve nerealizovatelné (z důvodů velkého objemu dat, pracnosti, …). • Na druhou stranu však roste nebezpečí výběru nesprávného postupu. Výhody počítačového zpracování I. •Přesnost a rychlost • •Univerzálnost • •Grafika • •Flexibilita •Nové veličiny: Snadno lze vytvářet nové veličiny pomocí požadovaných transformací. • •Velikost datových souborů: • •Snadný přenos dat: …ale Přesnost a rychlost Dobré počítačové programy (software) nám dají velmi rychle správné výsledky. Dřívější ruční zpracování dat bylo často zatíženo aritmetickými chybami a bylo časově velmi náročné. Univerzálnost Počítače zpřístupňují širokou škálu statistických metod a umožňují provést velmi rychle i rozsáhlé komplexní statistické analýzy. Grafika Počítače umožňují snadné grafické zobrazení pozorovaných dat a výsledků statistického zpracování. Flexibilita Velkou výhodou počítačů je, že umožňují rychle provést nové zpracování při změnách v datech či transformaci některých veličin. Nové veličiny: Snadno lze vytvářet nové veličiny pomocí požadovaných transformací. Velikost datových souborů: Počítače umožňují zpracování velmi rozsáhlých souborů dat pomocí vhodného softwaru, což bylo ještě před deseti lety velmi obtížné. Snadný přenos dat: Jakmile se jednou data dostala do počítače, lze je snadno přenést elektronicky (například pomocí Internetu) na jiné místo. Nevýhody počítačového zpracování I. Chyby v softwaru. Ne všechny statistické programy jsou spolehlivé. Univerzálnost. Může vést k výběru nevhodné metody zpracování. Je velmi důležité, aby každý, kdo používá statistický software, si byl vědom úrovně svých statistických znalostí a užíval pouze ty metody, kterým rozumí. Pozor na používání neznámých statistických metod. Černá skříňka. . Špatná data plodí špatné závěry. . Je dobré používat programy, které mají dobrou pověst a jsou používány již dostatečně dlouho, takže byla postupně odstraněna většina jejich chyb. K takovým programům patří například BMDP, SAS, SPSS, STATISTICA, S PLUS, STATGRAPHICS a další. Počítač vzdaluje uživatele od dat i metody zpracování. Statistická analýza se provádí automaticky, nová data se zpracovávají a výsledky se ukládají, aniž by byly posouzeny člověkem. Protože většinou výsledky zachycují jen průměrné efekty, může se zcela ztrácet citlivost k individuálním pozorováním Jestliže data jsou nasbírána či naměřena špatně (například jsou špatně kladené otázky v dotazníku), nelze očekávat, že závěry z takových dat budou správné. Sem náleží i nesprávné zpracování datových souborů, chybějící či ovlivněné (tzv. nehomogenní) údaje Vymezení základních statistických pojmů Statistika je vědní obor zabývající se zkoumáním jevů, které mají hromadný charakter. statistika - definice Hromadné jevy: jevy, které které se vyskytují u souboru lidí, věcí, událostí A jsou výsledkem působení velkého množství příčin, Příklady: kvalita vody – chem. složení, emise, produkce odpadů, zaměstnanost, novorozenecká úmrtnost, HMOTNOST NOVOROZENÝCH DĚTÍ zatížení osob hlukem…….. Statistická jednotka: je to určitý jev či prvek, který je předmětem statistického šetření a pro který se zjišťují údaje Statistická jednotka musí být přesně vymezena na počátku vlastního šetření a to z hlediska věcného, časového, prostorového. (CO, KDY, KDE) Příklady: stat. jednotka – občan, novorozenec, rodina, dům,, obec,výrobní podnik, Co: Kde: Kdy: lStatistický znak: l je to určitá vlastnost statistické jednotky, kterou se snažíme postihnut. lTzv. shodné (společné) znaky vymezují příslušnost statistické jednotky k určitému statistickému souboru. lOstatní jsou znaky proměnlivé (variabilní). Příklady: shodný znak – novorozenost proměnlivé znaky – váha, délka, jméno, národnost…… Statistické znaky lze dělit na znaky •A) prostorové •B) časové •C) věcné: 1.kvalitativní: •alternativní •možné 2.kvantitativní: •spojité •diskrétní/nespojité • . stat. jednotka novorozenec místo narození: Brno datum: 30.9.2011 pohlaví:muž národnost:česká délka v cm: 55 Doplňte další příklady lStatistické znaky můžeme získat : l •přímo – (např. měřením, zvážením) tj. •………..data •nepřímo (výpočtem), (znaky odvozené) tj. ………….data l primární sekundární Statistický soubor: skupina statistických jednotek stejného druhu (věcně, prostorově a časově vymezených) Je to množina všech prvků, které jsou předmětem daného statistického zkoumání. Každý z prvků je statistickou jednotkou. . lPrvky tvořící statistický soubor mají: l určité společné vlastnosti - tzv. shodné - identifikační znaky l - sledované znaky – tyto znaky statisticky šetříme Příklad: statistický soubor Novorozenci v ČR Shodný - identifikační znak: novorozenost sledovaný znak: váha, živý, pohlaví Statistický soubor:Občané v produktivním věku Shodný - identifikační znak: Sledovaný znak: Statistický soubor můžeme podle různých hledisek dále dělit: Statistický soubor • jednorozměrný •vícerozměrný 1 –rozm.:3650, 2100, 1200, 3500, 4100, 2800 3650, 55; 2100, 47; 1200, 36, 3500, 50 Příklady (váha dítěte), dvourozm. (váha; délka), ! jako dvojice! Statistický soubor základní a výběrový lVýběrový soubor l je podmnožinou základního souboru. Je vytvořen ze statistických jednotek, vybraných podle určitého hlediska. l Př. Novorozenci v Jihomoravském kraji l lReprezentativní výběr: l Pokud zkoumaný výběr dobře odráží strukturu celého zkoumaného souboru, nazýváme jej reprezentativním výběrem. l Př. šetření průzkum volebních výsledků, peoplemetry lRozsah statistického souboru: lpočet statistických jednotek v souboru: lN – rozsah základního souboru ln – rozsah výběrového souboru l l Grafické znázornění jevů Grafické znázornění jevů lGraf – definice l – kresba podle pravidel znázorňující kvalitativní a kvantitativní informace l lZákladní prvky grafického znázornění: l1.Název, příp. podnázev l2.vlastní kresba l3.stupnice a její popis (rovnoměrná, nerovnoměrná) l4.legenda/klíč l5.zdroj údajů lvysvětlivky, poznámky, Graf – ukázka G:\STATISTIKA\graf_vyrez_2.GIF lČeský statistický úřad, 2003 l Typy grafů lschéma – znázorňuje strukturu a vztahy jevu či procesu lPříklad ldiagram – znázorňuje kvantitativní údaje o souboru –sloupcový, bodový, plošný atd. lpříklad lstatistická mapa – prostorové rozložení prvku v podkladové mapě schéma l C:\Documents and Settings\svatonova\Dokumenty\ZPand Enviro\schema_propojení.gif Diagram l C:\Documents and Settings\svatonova\Dokumenty\ZPand Enviro\investice_zp.gif Český statistický úřad, 1994 Diagram_ - věkové složení obyv., tzv.pyramida života l G:\STATISTIKA\věk_pyramida_2001.jpg Český statistický úřad, 2003 Odchylka od průměrné teploty na Zemi 140let-teplota.gif jazyk.gif svet2050.gif svet1998.gif Statistická mapa l G:\STATISTIKA\k5.gif okresní úřad Karviná, 2003 Použití grafických papírů při studiu geografických jevů lGrafický papír usnadňuje vynášení prvků do grafu. lMilimetrový papír – rovnoměrné stupnice, čáry se jeví v původní, nezkreslené podobě lPolologaritmický papír – kombinace dvou sítí – rovnoměrné a logaritmické lPravděpodobnostní papír – kombinace rovnoměrné a pravděpodobnostní stupnice Sítě lTrojúhelníková síť – znázorňování jevů o třech prvcích, které mají vždy konstantní součet lnapř. půdní druhy l půda A:: 50 % jílu, 25% hlíny, 25%, písku l př. Vzdělání jíl hlína písek 0 % 100% A Sítě lKruhová (radiální) síť – kombinace soustředných kružnic a přímek procházejících středem kružnice lpro grafické znázorňování opakujících se jevů, struktury jevů lPříklad lroční chod teploty lsměry větru statistická mapa: kartogram kartodiagram kartogram l l Kartogram je obrysová kartografická kresba územních celků, ve kterých jsou grafickým způsobem (barevný odstín, rast) plošně znázorněna statistická data týkající se různých geografických jevů (lidnatost, využívání ploch apod.) KARTOGRAM1 lKartogramy lze rozdělit podle územního dělení na: •kartogramy s geografickými hranicemi •kartogramy s geometrickými hranicemi Kartodiagram lKartodiagramy jsou diagramy vložené do mapové kostry, kterou tvoří dílčí územní celky. lJejich údaje se vztahují na celé území jednotky, kde leží l ( rozdíl od metody lokalizovaných diagramu – údaj vztahující se k urč. bodu – např. chod roční srážek na meteorolog. stanici) k5 Kartodiagramy lVkládanými diagramy mohou být: l •Spojnicové diagramy pro vyjadřování časových řad • sloupcové diagramy (sloupce, věkové pyramidy apod.) • různě dělené geometrické značky k5 Grafické metody analýzy geografických jevů l1.znázornění intenzity jevu v prostoru la) absolutními metodami l *značková metoda (velikost značky odpovídá velikosti jevu) l * bodová metoda (počet prvků….velikost jevů) lb) relativními metodami (např. šrafování- hustota obyv.) př l2.znázornění struktury jevu v prostoru lvyužití výsečových grafů l *pouze strukturu vyjádříme výsečovými grafy se stejným poloměrem l*strukturu a velikost celku ( výsečový graf + velikost poloměru odp. velikosti jevu) př Grafické metody analýzy geografických jevů Náležitosti statistické mapy lObsah mapy tvoří všechny objekty, jevy a jejich vztahy, které jsou v mapě kartograficky znázorněny lZákladní údaje tvoří –Název mapy - stručně a výstižně charakterizuje zobrazené území, druh mapy lze i název hlavní a vedlejší) –Mapový rámec – „vlastní mapa“ –Měřítko v číselné, grafické nebo slovní formě –Legenda (vysvětlivky) – podávají výklad použitých mapových značek a ostatních kartografických vyjadřovacích prostředků včetně barevných a velikostních stupnic, legenda musí být: lÚplná, logicky uspořádaná, přehledná a zapamatovatelná, POZOR na intervaly, na barevnou škálu –Autoři Dalšími údaji mohou být : lvyznačení severu nebo směrová růžice, souřadnicový systém, přehled použitých mapových podkladů, datum, ke kterému se obsah mapy vztahuje lobrázky, grafy, tabulky, text l l Hledejme chyby k5 Hledejme chyby studenti samostatně Hledejme chyby Jak byla vymezena st. jednotka? Vel .stupnice?: Barevnost?: l C:\Documents and Settings\svatonova\Dokumenty\STATISTIKA\JARO_07\mapa202.jpg l C:\Documents and Settings\svatonova\Dokumenty\STATISTIKA\JARO_07\mapa306.jpg l C:\Documents and Settings\svatonova\Dokumenty\STATISTIKA\JARO_07\mapa304.jpg Izolinie – konstrukce a vlastnosti lIzolinie – čáry, které v grafu spojují body se stejnou intenzitou (velikostí, hodnotou) jevu lzískávají se metodou prostorové interpolace hodnot vynesených do grafu lplynulé čáry lizobary, izotermy, vrstevnice atd. lKonstrukce izolinie - příklad Rozdělení četností Absolutní, relativní kumulované četnosti lčetnost – počet výskytu určité hodnoty v souboru, frekvence hodnoty lrozdělení četností – počty prvků s určitými hodnotami statistického znaku, obvykle pro nespojité hodnoty lskupinové rozdělení četností - počty prvků s hodnotami statistického znaku, které patří do určitého intervalu, obvykle pro spojité hodnoty l skupinové rozdělení četností lroztřídíme statistické jednotky podle velikosti jejich statistického znaku do intervalů linterval – hranice, dolní a horní mez, šířka (délka) lzásady: lvymezené hranice pro jednoznačné zařazení prvků lobvykle stejná šířka lpřiměřený počet intervalů Četnosti labsolutní četnost – počet jednotek v intervalu lrelativní četnost – podíl četností na rozsahu souboru lkumulovaná četnost – počet jednotek s hodnotami menšími nebo rovny horní hranici intervalu lpříklad Interval střed abs. č. relativ. č. kumul. abs. kumul. relat. 500 - 1000 750 1001 - 1500 1250 1501 - 2000 1750 atd. 50 100% Tab.S Skupinové rozdělení četností, ukázka – příklad váha 50 novorozenců v JMK Grafické znázornění rozdělení četností lhistogram lpolygon lčára kumulovaných četností čára kumulovaných četností – součtová čára, graf kumulované četnosti, vždy k horní hranici intervalu Histogram lHistogram – sloupcový diagram, lšířka sloupce – šířka intervalu, výška sloupce - četnost náčrt Polygon lPolygon – spojnicový diagram, lhodnoty četnosti se vynáší ke středům intervalu náčrt Čára kumulovaných četností lčára kumulovaných četností – součtová čára, l graf kumulované četnosti, vždy k horní hranici intervalu náčrt histogram – věkové složení obyvatelstva, věková struktura, pyramida života G:\STATISTIKA\věk_pyramida_2001.jpg l C:\Documents and Settings\svatonova\Dokumenty\STATISTIKA\JARO_06\cviceni_jaro 2006\pyramida_1946.gif C:\Documents and Settings\svatonova\Dokumenty\STATISTIKA\JARO_06\cviceni_jaro 2006\pyramida_2003.gif C:\Documents and Settings\svatonova\Dokumenty\STATISTIKA\JARO_06\cviceni_jaro 2006\pyramida_1985.gif l Základní statistické charakteristiky lzákladní statistické charakteristiky „popisují“ statistický soubor l la) charakteristiky úrovně – tzv. střední hodnoty lb) charakteristiky variability lc) charakteristiky asymetrie a špičatosti l Základní statistické charakteristiky Popisná statistika Střední hodnoty lMísto jednotlivých hodnot u jednorozměrného statistického souboru používáme často střední hodnoty l lStřední hodnoty umožňují porovnávání souborů Střední hodnoty laritmetický průměr (+ vážený aritm. průměr, geometrický průměr, harmonický průměr) lmodus laritmetický střed lmedián a kvantily lgeografický medián Aritmetický průměr lnejčastěji používaná st. charakteristika ltypický a netypický průměr l(jedno a více vrcholová rozdělení četností) ltypický aritm. průměr – jednovrcholové rozdělení četností + blízký nejčetnější hodnotě Obr. Vážený aritmetický průměr l lpři výpočtu množství srážek v povodí – váha – plocha území l v klimatologii – výpočet denního průměru teplot ze tří měření Př. výpočtu Modus l modus - nejčetnější hodnota kvantitativního znaku ve studovaném souboru lvýznamný především u souboru nespojitých veličin l lmodální interval – interval zahrnující největší počet jednotek, závisí však na stanovení hranic intervalů lrozdělení s více mody – polymodální rozdělení příklad Aritmetický střed lAritm. střed je polovina součtu min. a max. hodnoty znaku v souboru lpokud soubor obsahuje extrémní hodnoty, je aritmetický střed značně zkreslující charakteristika příklad Medián lMedián – tzv. prostřední hodnota, lje to prvek řady uspořádané v neklesajícím pořadí ( od nejm. po největší), který ji dělí na dvě poloviny, které mají menší a větší hodnotu znaku lPOZOR: soubor je třeba vždy uspořádat lpořadí prvku (kolikátý prvek to je, hodnota prvku je medián!) určují vzorce : lpro řadu s lichým počtem prvků (n+1)/2, lpro řadu o sudém počtu je medián průměr z hodnot mezi prvkem na (n/2) a (n/2+1) místě lPříklad Kvantily lMedián je kvantil dělící soubor na dvě poloviny dle předch. pravidel lobdobně lkvartily – na čtvrtiny, x25 , x 50, x75, ldecily lpercentily l kvantily obecně široké použití ve statistice a v geografii příklad Geografický medián lGeografický medián je čára dělící plochu, kde se jev vyskytuje tak, aby hodnota jevu byla v obou plochách stejná Charakteristiky variability lvariační rozpětí lkvantilové odchylky lprůměrné odchylky lrozptyl lsměrodatná odchylka lvariační koeficient Variační rozpětí lrozdíl největší a nejmenší hodnoty sledovaného statist. znaku lR= xmax – xmin l ljednoduchá charakteristika lpodléhá extrémním hodnotám, které mohou být i chybami l l příklad Průměrné odchylky lprůměrná odchylka je definována jako aritmetický průměr odchylek jednotlivých hodnot znaku od vybrané střední hodnoty (tj. od aritmetického průměru, mediánu, modu apod.) Kvantilové odchylky lZaloženy na kladných odchylkách jednotlivých sousedních kvantilů l lnapř. kvartilová odchylka ldecilová odchylka lpercentilová odchylka Střední diference lje def. jako aritmetický průměr absolutních hodnot všech možných rozdílů jednotlivých hodnot sledovaného znaku lv praxi vhodná pouze pro malé soubory Příklad Rozptyl a směrodatná odchylka lnejdůležitější charakteristiky variability lRozptyl s2 z n hodnot znaku x je průměr druhých mocnin odchylek jednotlivých hodnot znaku od aritmetického průměru lsměrodatná odchylka s je mírou měnlivosti hodnot souboru kolem aritmetického průměru l je druhou odmocnina rozptylu Variační koeficient l je častou používanou relativní mírou variability lje definován jako poměr směrodatné odchylky k aritmetickému průměru Charakteristiky asymetrie lCharakteristiky asymetrie ( míry šikmosti) jsou čísla dávající představu l o souměrnosti tvaru rozdělení četností lmíra šikmosti pro souměrné rozdělení je nula lpro nesouměrné je kladná nebo záporná Charakteristiky asymetrie l C:\Documents and Settings\svatonova\Dokumenty\Obrázky\as1.bmp C:\Documents and Settings\svatonova\Dokumenty\Obrázky\as3_klad.bmp C:\Documents and Settings\svatonova\Dokumenty\Obrázky\as2_zap.bmp Symetrické Záporně sešikmené Kladně sešikmené ar. průměr, medián, modus charakteristiky špičatosti lCharakteristiky špičatosti ( míry špičatosti) jsou čísla charakterizující koncentraci prvků souboru v blízkosti určité hodnoty znaku Obr. Špičaté, normální a ploché rozdělení charakteristiky špičatosti l C:\Documents and Settings\svatonova\Dokumenty\Obrázky\spicatost.bmp 1 – špičaté 2 – normální 3 – ploché rozdělení Karl Friedrich Gauss 1777-1855 STATISTICKÉ METODY V GEOGRAFII Teoretická rozdělení Základní pojmy lnáhodná veličina spojitá lMůže teoreticky nabývat nekonečného množství hodnot z určitého intervalu např.teplota) l lnáhodná veličina nespojitá lNabývá jen konečného množství hodnot urč. intervalu. Např. počet měsíců s teplotou nad…) lKaždé hodnotě je možno přiřadit pravděpodobnost jejího výskytu, součet všech dílčích pravděpodobností je 1 Teoretická rozdělení lhistogram – grafické znázornění četností lrozsah souboru se blíží k nekonečnu + náhodná veličina je spojitá l – frekvenční funkce / hustota pravděpodobnosti lkumulativní relativní četnost tj. součtová čára - ldistribuční funkce lobr. l Normální rozdělení / Gaussovo, Laplaceovo- Gaussovo lNormální rozdělení se univerzálně používá k aproximaci (k přibližnému vyjádření) rozdělení pravděpodobnosti velkého množství náhodných veličin (v biologii, technice, ekonomii atd.) l Hustota pravděpodobnosti normálního rozdělení je symetrická zvonovitá Gaussova křivka. C:\Documents and Settings\svatonova\Dokumenty\STATISTIKA\JARO_07\180px-Normalni_rozdeleni_hustota_svg.png Normální rozdělení •Zvonovitý tvar •Souměrný •Šikmost 0, špičatost 0 •Asymptoticky se blíží 0 • C:\Documents and Settings\svatonova\Dokumenty\STATISTIKA\JARO_07\180px-Normalni_rozdeleni_hustota_svg.png lNormální rozdělení s parametry: l stejný průměr, různé směrodatné odchylky lčím větší odchylka , tím „plošší tvar rozdělení Načrtni obr s oběma křivkami lNormální rozdělení s parametry: l stejný průměr, různé směrodatné odchylky lčím větší odchylka , tím „plošší tvar rozdělení l C:\Documents and Settings\svatonova\Dokumenty\STATISTIKA\JARO_07\normalní podle smer_odchylek.gif lNormální rozdělení l různé průměry, stejná směrodatná odchylka Načrtni obr s oběma křivkami C:\Documents and Settings\svatonova\Dokumenty\STATISTIKA\JARO_07\normalní_ různyPrůměr_stejne směr_odchylky.gif lNormální rozdělení l různé průměry, stejná směrodatná odchylka lNormální křivka a osa x vymezují plochu 100%, ltj. lze stanovit pravděpodobnosti, s nimiž leží hodnoty v určitém intervalu, lhranice intervalu tvoří průměr a násobky směrodatné odchylky lobr. Normální rozdělení / Gaussovo pokračování \begin{figure} \centering \fbox{\includegraphics[clip, width=\sirka]{eps/gnorm.eps}}\end{figure} lV normálním rozdělení: l68, 27% leží v intervalu: l (průměr + - směr. odchylka) l l95% leží v intervalu: l (ar. průměr +- 1,96 směr. odchylky) l l99% leží v intervalu: l (ar. průměr +- 2,576 směr. odchylky) – C:\Documents and Settings\svatonova\Dokumenty\STATISTIKA\JARO_07\IQ_normální rozdělení.jpg Normální rozdělení pro IQ debilita imbecilita Lehká d. průměr vynikající genialita idiocie IQ (v bodech) stupeň inteligence procento zkoumaných případů (v %) méně než 20 idiocie 0,1 20 - 49 imbecilita 0,5 50 - 69 debilita 1,9 70 - 79 tzv. lehká debilita 5,0 80 - 89 podprůměrná 14 90 - 109 průměrná 48 110 - 119 nadprůměrná 18 120 - 139 vynikající 11 140 a více genialita 1,5 Příklady Př.1 lPopulace má v daném testu průměr 100, směrodatnou odchylku 15. lVypočítejte hranice intervalů, v kterém se nachází 68 % populace. 68, 27% leží v intervalu: (průměr + - směr. odchylka) lVýška v populaci chlapců ve věku 3,5 - 4 roky má normální rozdělení s průměrem 102 cm a směrodatnou odchylkou 4,5 cm. lVypočítejte hranice intervalu hodnot výšky , ve kterých se nachází lA)68% lB) 95% lC)99% lpříslušné populace Příklad V normálním rozdělení: l68, 27% leží v intervalu: l (průměr + - směr. odchylka) l l95% leží v intervalu: l (ar. průměr +- 1,96 směr. odchylky) l l99% leží v intervalu: l (ar. průměr +- 2,576 směr. odchylky) Příklad 3 lzadání: lVýška v populaci chlapců ve věku 3,5 - 4 roky má normální rozdělení s průměrem 102 cm a směrodatnou odchylkou 4,5 cm. l Spočtěte, jaké procento chlapců v uvedeném věku má výšku menší nebo rovnou 93 cm. Řešení 3 lPravděpodobnost, že výška nabude hodnoty menší nebo rovné 93 cm, je vyjádřena hodnotou distribuční funkce F (93) pro parametry normálního rozdělení 102;4,5 C:\Documents and Settings\Svatonova\Dokumenty\STATISTIKA\JARO_06\PRÍKLAD1.bmp Odpověď: 2,27 % chlapců ve věku 3,5 – 4 roky je menších než 93 cm. Příklad 4 lPsychologickými testy bylo zjištěno, že hodnota IQ populace je náhodnou veličinou s normálním rozdělením, jehož střední hodnota je 104 a směrodatná odchylka 8. lUrčete hodnotu IQ, kterou podle uvedených pravděpodobnostních předpokladů: l meze, ve kterých bude 50% populace, l Řešení 4 la) meze pro 50 % mužské populace 50 % Hledáme dolní a horní meze intervalu ( hodnot IQ), ve které se bude nacházet 50% mužské populace, tj 1. a 3. kvartil 104 Podle parametrů daného normálního rozdělení 50 populace má IQ v intervalu 98,6 a 109,4. Řešení 2a) Excel, statistická funkce inverzní k e Gauss. - NORMINV lPro normované normální rozdělení zavedeme označení N (0, 1). Hustota pravděpodobnosti normovaného normálního rozdělení: f(u) φ ( Tabulkové vyjádření vybraných hodnot hustoty pravděpodobnosti u 0,0 0,5 1,0 1,5 2,0 2,5 3,0 3,5 f(u) 0,399 0,352 0,242 0,130 0,054 0,018 0,004 0,001 u Tabulkové vyjádření vybraných hodnot distribuční funkce u 0,0 0,5 1,0 1,5 2,0 2,5 3,0 3,5 F(u) 0,500 0,691 0,841 0,933 0,977 0,994 0,999 0,999 Normování hodnoty: od hodnoty se odečte aritmetický průměr, výsledek (tj. odchylka) se dělí směr. odchylkou Binomické rozdělení l Binomické rozdělení lpro diskrétní náhodné proměnné, lkteré mohou nabývat pouze dvou hodnot ( např. ano, ne) lpravděpodobnost, že nastane alternativa ANO označme π lpravděpodobnost, že nastane NE …q = 1 – π), protože lplatí π +q = 1 (100 %) lk výpočtu se používá binomický rozvoj l \begin{displaymath}{n \choose k} = \frac{n!}{k!(n - k)!}, \end{displaymath} \begin{displaymath}\ensuremath{\mathrm{P}} (X = k) = {n \choose k} \pi^k (1 - \pi)^{n - k}, \quad \mbox{pro } k = 0,1,2, \dots, n. \end{displaymath} Příklad 1 – binomické rozdělení lPředpokládejme, že pravděpodobnost narození dívky je 0,49. lJaká je pravděpodobnost toho, že mezi třemi dětmi v rodině je právě jedna dívka? Řešení 1 Tabulka3: Parametry binomického rozdělení v příkladu Pokus Úspěch Neúspěch Pravděpodobnost úspěchu Počet pokusů Počet úspěchů n k narození dítěte dívka chlapec 0,49 počet dětí počet dívek Jak je vidět z tabulky, počet narozených dívek v rodině je náhodná veličina s binomickým rozdělením. Pravděpodobnost, že mezi třemi dětmi je právě jedna dívka, tedy vypočteme jako \begin{displaymath}\ensuremath{\mathrm{P}} (X = 1) = {3 \choose 1} 0{,}49^1 \cdot 0{,}51^2 = 3\cdot0{,}127 = 0{,}38. \ \Diamond \end{displaymath} \begin{displaymath}{3 \choose 1} = \frac{3!}{1!2!} = \frac{3\cdot2\cdot1}{1\cdot 2\cdot 1} = 3. \end{displaymath} Pravděpodobnost, že ze tří dětí bude jedna dívka, je 38%. Řešení 1 Příklad 2 lJaká je pravděpodobnost, že v rodině s 8 dětmi jsou právě 3 dívky? Pravděpodobnost narození dívky je 0,49. \begin{displaymath}\ensuremath{\mathrm{P}} (k = 3) = {8 \choose 3} 0{,}49^3 \cdo... ...\cdot2\cdot1} \cdot 0{,}118 \cdot 0{,}035 = 0{,}23. \ \Diamond \end{displaymath} Řešení binomický rozvoj: Pravděpodobnost, že v rodině s 8 dětmi jsou tři dívky, je 0,23, tj. 23 %. Příklad 2, binomické rozdělení lVypočítejte pravděpodobnost, se kterou se vyskytne určitý počet měsíců v roce hodnocených jako „ suché“. lKonkretizace: l oblast Oxford, l období 1851 – 1943, tj. 1116 měsíců lSuchý měsíc - tj. méně srážek v měsíci než je dlouhodobý průměr tohoto měsíce. l617 měsíců hodnocených jako suché l499 – vlhké měsíce „úspěch“ „neúspěch“ Pravděpodobnost suchého měsíce Pravděpodobnost vlhkého měsíce suchý vlhký π = 617/1116 π = 0,553 q = 499/1116 q = 0,447 (q = 1 – π) Počet suchých měsíců Počet měsíců n =12 k=0 až 12 Řešení a)Ručně pomocí binomického rozvoje b) s podporou např. Excel Řešíme dílčí příklady, tj. jaká je pravděpodobnost, že v roce se vyskytne a)žádny suchý měsíc, tj- k = 0 b)Jeden suchý měsíc, tj. k = 1 c)Atd. d) všechny měsíce suché, k= 12 Řešení 2 C:\Documents and Settings\svatonova\Dokumenty\STATISTIKA\JARO_06\příklad_binom_mesice.bmp Řešení 2 Jak bude vypadat situace pro „vlhké“ měsíce? Poisson - příklad l Poissonovo rozdělení l– pro rozdělení vzácných případů l (zimní bouřka, výskyt mutace apod.). l lJe-li pravděpodobnost nějaké výjimečné události (např. určité mutace genu) relativně malá a rozsah výběru poměrně velký, pak Poissonovo rozdělení v podstatě splývá s binomickým, ale je mnohem výhodnější pro počítání . Poisson - příklad lPředpokládejme, že v určité populaci krys se vyskytuje albín s pravděpodobností lp = 0,001 , ostatní krysy jsou normálně pigmentované. lVe vzorku 100 krys náhodně vybraných z této populace určete pravděpodobnost, že vzorek l a) neobsahuje albína, lb) obsahuje právě jednoho albína. Řešení Pravděpodobnost, že neobsahuje albína, je 90,47 % lurčete pravděpodobnost, že vzorek lneobsahuje albína, Řešení 3 Pravděpodobnost, že 100 členná populace krys bude obsahovat albína, je 9 %. Další rozdělení Pearsonova křivka III. typu lNa empirické rozdělení mnoha statistických souborů s nimiž v geografii pracujeme, nelze aplikovat normální rozdělení. l Platí to například v těch případech, kdy studovaná náhodná veličina nemá teoreticky zdůvodněnou možnost nabývat nekonečných hodnot nebo je-li omezena konečnými čísly V takovýchto případech lze aplikovat na studovaný soubor některou ze dvanácti křivek Pearsonova systému. Pearsonova křivka III. typu lPearsonova křivka III. typu l - obvykle pro veličiny s omezeným množstvím hodnot, které může nabývat l - z křivky lze např. vyčíst pravděpodobnost se kterou bude hodnota sledovaného statistického znaku dosažena lv hydrologii se počítá Pearsonova křivka ve variantě součtová čára četností jako l tzv. čára překročení l lpříklad lKonstrukce čáry překročení z průměrných ročních průtoků vodního toku Lažánka za říjen 2002. l den průtok Qd (m3/s) den průtok Qd (m3/s) 1 2,99 16 2,98 2 2,84 17 4,64 3 2,75 18 12,2 4 3,22 19 7,73 5 3,55 20 4,38 6 12,2 21 3,41 7 9,12 22 3,85 8 3,82 23 3,47 9 3,55 24 3,36 10 3,23 25 3,51 11 2,89 26 12,2 12 3,25 27 10,3 13 3,79 28 6,2 14 3,05 29 4,15 15 3,05 30 5,75 31 5,1 Křivka překročení průměrných ročních průtoků , Lažanka, říjen 2002 0 20 40 60 80 100 % 20 10 5 0 15 Odhady parametrů intervaly spolehlivosti lzákladní soubor, l statistický soubor lvýběrový soubor l náhodný výběr l k základnímu jednomu souboru lze získat více výběrových, různé charakteristiky l Základní pojmy lreprezentativnost výběru – kvalita výběru lprostý náhodný výběr ( s opakováním a bez opakování) loblastní náhodný výběr ( výběr z každé dílčí části) lsystematický náhodný výběr ( podle pravidla, které nesouvisí se sledovaným znakem, např. sledovaný znak - počet obyvatel obce, seřadit obce podle abecedy a vybrat vždy každou pátou obec) l Základní pojmy Intervaly spolehlivosti lnormální rozdělení, lStatistický soubor s norm rozdělením (X, s) lJeho výběrový soubor bude mít norm rozdělení s param (x, s/én), lInterval spolehlivosti – pro zvolený koeficient spolehlivosti ( pravděpodobnost , že tam X padne) (např. 95 %) l vypočítáme interval,ve kterém s touto pravděpodobností leží X. lObrázek: Oboustranný test H0 l \begin{figure} \centering \fbox{\includegraphics[clip, width=\sirka]{eps/g28.eps}}\end{figure} lprovedeme-li výběr o rozsahu n a spočteme x , pak průměr X leží s pravděpodobností 0,95 ve vzdálenosti menší než 1,96 s /én od x , l tj. v intervalu s krajními body l (x- 1,96 s /én , x+ 1,96 s /én)… interval spolehlivosti pro průměr. lkoeficient spolehlivosti P = 0,95 l(tj. hladinu významnosti a = 0,05 ) l $\bar{x}$ llze použít intervaly spolehlivosti např. l pro 95 % (μ + - 1,960σ), lpro 99 % (μ + - 2,576σ), tj. širší! interval l lhodnoty, které leží mimo interval, v tzv. kritickém oboru se považují za nepřípustné, jejich odchylky od průměru za významné l Závislost náhodných veličin lDo jaké míry závisí změna prvku jednoho statistického souboru změnu prvku druhého statistického souboru? lJak podmiňuje změna prvku x změnu prvku y? lJak těsně na sobě závisí prvky dvourozměrného statistického souboru? lNapř. l vztahy teplota a nadm. výška, lsrážky a odtok v povodí lváha a výška člověka, Závislost náhodných veličin Vztahy náhodných veličin lJednostranné ( nezávislá hodnota x jednoho stat. souboru podmiňuje hodnotu y druhého stat. souboru lVzájemné (nelze rozlišit závislou a nezávislou proměnou) l Vztahy náhodných veličin lPodle stupně závislosti lFunkční ( pevnou) l( určité hodnotě x odpovídá jediná hodnota y, vztah x a y lze tedy vyjádřit mat. funkcí), l např. lKonkrétní teplotě odpovídá jedna hodnota stupně nasycení vodní párou Vztahy náhodných veličin lStatistická l ( jedné hodnotě x odpovídá více hodnot y, hodnoty y mají své rozdělení s průměrem, tento průměr hodnot y je i pro různá x shodný) l l l l Vztahy náhodných veličin lKorelační lSe změnou hodnot x se mění soubory hodnot y, které mají své rozdělení a různých průměrech lnapř. pro určitou těl výšku existuje více hodnot hmotnosti, které budou mít normální rozdělení, lrůzným výškám odpovídají hmotnosti s normálním rozdělením, ale s různým průměrem lPř. Pro 170 cm existuje norm. rozdělení hmotností o průměru 68 kg, pro 180 cm opět normální rozdělení hmotností s průměrem 76 kg Korelační závislost lUrčení těsnosti korelační závislosti l l(jak těsný je vztah mezi výškou a hmotností člověka) lKorelace je druh závislosti mezi prvky dvou souborů lRegresní čára znázorňuje graficky tuto korelační závislost Př. lineární regrese lVypočítejte koeficient korelace pro vztah délky slunečního svitu a teploty na datech meteorol. stanice Tuřany, 2002 l l Délka slun. svitu (h) 55,6 82,7 183,4 169,5 238,3 291,4 288,0 221,2 174,5 89,4 44,7 40,3 Teplota (° C ) -1,2 3,6 5,8 9,4 17,1 19,1 20,9 20,4 14,0 7,6 6,0 -3,1 t -1,2 3,6 5,8 9,4 17,1 h 55,6 82,7 183,4 169,5 238,3 corel h, t 0,920888 corel t, h 0,920888 Výpočet koeficientu regrese b : Excel, funkce CORREL, POLE1 - hodnoty délka slun. Svitu, Pole2 - hodnoty teploty lineární regresní čára - Přidat spojnici trendu Časové řady Bazické a řetězové Z - diagram časová řady – základní pojmy l statistická řada l posloupnost hodnot znaku uspořádaných podle určitého hlediska lčasová řada l statistická řada upořádaná podle času lčasová řada=dynamická=chronologická = vývojová Sestavování časových řad ldodržovat zásady: –stejně dlouhá časová období l( přepočet na „standardizovaný“ měsíc se 30 dny, přepočet na počet shodný počet pracovních dní v měsíci p –stejně velká území, příp. stejná úroveň (shodná rozloha, povodí řádu toku, administrativní jednotka) –stejné jednotky Cíl – získat porovnatelná čísla lčasová řada OKAMŽIKOVÁ –sleduje se hodnoty znaku k určitému okamžiku – např. počet obyvatel ČR k 31.12. 2000, 2001, – lčasová řada INTERVALOVÁ – sleduje se hodnota znaku v intervalu , období –denní úhrn srážek, průměrná denní teplota, měsíční těžba… lpouze k této řadě se vztahuje požadavek stejného intervalu zvláště u sledování ekonomických ukazatelů Analýza časových řad l cíle analýzy: –zjistit hlavní rysy průběhu časových řad a analyzovat je lpodle průběhu časové řady: lstacionární nebo s trendem ls periodickým opakováním výkyvů nebo bez výkyvů lvšechny možné kombinace Charakteristiky časových řad lpřírůstky: labsolutní přírůstek – rozdíl hodnot po sobě následujících ( „druhá“ – „ první“) lx i – x i-1 l lrelativní přírůstek l podíl x i – x i-1 / x i-1 l l přírůstky a indexy Řetězové a bazické indexy lbazický index lpodíl x i / x z * 100, l x z - první „ základní „ hodnota časové řady lzměny k jedné základní ( bazické) hodnotě l lřetězový index (koeficient růstu ) lpodíl x i / x i-1 * 100 lpodíl v procentech po sobě následujících hodnot l( změny např. z měsíce na měsíc“ – řetězení) l Klouzavé úhrny lzvláštní typ součtové čáry lvhodné pro porovnávání dvou či více řad hodnot za po sobě následující období lnapř. kolísání ročního chodu srážek lpostup viz. např. skripta Brázdil. a kol. str. 147 měsíc 1 2 3 4 5 6 7 8 9 10 11 12 prům úhrn srážek;2002; mm 8,1 21,3 21 29 45,8 81,7 58 91,2 39,2 71,9 48,2 46 prům úhrn srážek;2003, mm 26,6 4,3 4,1 22 92,8 59,8 66,1 37 24,3 58,5 32,4 54,3 KLOUZAVÝ ÚHRN 482,6 454,9 486 521 586 565 573 518 504 490 474,3 483 LEDNOVÁ HODNOTA – SOUČET „NOVÝ“ LEDEN + 11 předchozích měsíců ÚNOROVÁ HODNOTA – SOUČET „NOVÝ“ LEDEN + ÚNOR +STARÉ OSTATNÍ MĚSÍCE Klouzavý úhrn,vždy součet 12 měsíčních hodnot, tj. daný měsíc plus +11 předchozích Z - diagramy lGRAFICKÉ ZNÁZORNĚNÍ –řada běžných hodnot, –součtová čára, – řada klouzavých úhrnů – l lspolečné body Z - diagramu( tj. spol. hodnoty) –výchozí bod součtové č. a řady běžných hodnot – poslední hodnota součtové čáry a poslední hodnota klouzavého úhrnu Z - diagramy