STATISTICKÉ METODY V GEOGRAFII Kdybych měl poslední den života, chtěl bych ho strávit na přednášce ze statistiky – - je tak nekonečně dlouhá ……. •statistika –definice –pojetí Statistika je vědní obor zabývající se zkoumáním jevů, které mají hromadný charakter. Statistika je v určitém smyslu jazykem pro shromažďování, zpracování, rozbor, hodnocení a interpretaci hromadných jevů statistika - definice Hromadný jev ve statistice Statistika se zabývá hromadnými jevy tj.:…………………………………………….. jevy, které se vyskytují u souboru lidí, věcí, událostí buď …………………..formě nebo i …………….převoditelné na …………….. hromadné jevy –…studenti dopíší další příklady ( např. viz. statistické ročenky)…. Co je typické pro statistiku : •Pracuje s čísly a vyjadřuje se pomocí čísel - zajímá se především o kvantitativní stránku reality. • Používá výpočetní techniku k vytváření a správě statistických databází, k provádění hromadného zpracování a analýzy dat a ke komunikaci statistika – dva významy - dvě pojetí –……………………………….. • předmět zkoumání : stav a vývoj číselně vyjádřených hromadných jevů – …………………………… • ( zaznamenání, třídění, shrnování číselných údajů o skutečnostech, udělám si statistiku ……) – STATISTIKA jako vědní disciplína •statistika popisná:………………… • • • •matematická statistika: ………………… – statistika popisná popisuje jev statistickými charakteristikami takto zpřehledňuje velké množství dat – shrnují je do kategorií (průměr, nejčetnější hodnota, grafické znázornění dat) využívá numerické a grafické metody matematická statistika usuzování na závěry o sledovaném jevu z malého vzorku ( zkoumání veřejného mínění, namátkový test), tj. z chování části usuzujeme na chování celku zobecňuje výsledky (odhad a testování hypotéz) - používá počtu pravděpodobnosti Statistika jako praktická činnost •Činnost ……………………, • Instituce, …………………………… • výsledek …………………………. Základní etapy statistického zpracování dat •1. Zjišťování/ Sběr údajů…………………. Zjišťování – zpracování – analýza - prezentace l 2. Zpracování – ……………………………. l 3. Analýza - ………………………. l 4. Prezentace výsledků ………………………….. •. Zjišťování/ Sběr údajů - shromáždění a zaznamenání údajů, jejich kontrola aj., •periodicita sběru: •a) periodické (např. 1* ročně) •b) běžné – krátké, pravidelné lhůty •c) jednorázové Základní dělení statistických údajů • podle zdroje ODKUD?— primární a sekundární, • podle periodicity zjišťování JAK ČASTO? — průběžné, periodické a jednorázové, • podle časového hlediska KDY? ZA JAK DLOUHO?— okamžikové a intervalové •podle reálnosti situace OPRAVDU?— skutečné a simulované, • Co statistika „umí“: •Zjišťovat (počet domácností ČR, počet pracovníků v odvětví XY) • Popisovat struktury (věková struktura obyvatel ČR, roční chod hodnot meteorologických prvků) • Shrnovat dílčí ukazatele v čase a prostoru (průměrná nezaměstnanost v regionu) • Srovnávat agregované ukazatele v čase nebo prostoru (trend vývoje počtu obyvatelstva, teploty vzduchu dvou lokalit) • Měřit závislosti (závislost mezd na HDP, závislost met. prvku na nadmořské výšce). … a co statistika „neumí“: Statistika selhává, pokud: Statistika a výpočetní technika • Výpočetní technika zasahuje do všech etap statistického zpracování dat. • Exploze výpočetní techniky umožňuje provádět výpočty, které byly dříve nerealizovatelné (z důvodů velkého objemu dat, pracnosti, …). • Na druhou stranu však roste nebezpečí výběru nesprávného postupu. Výhody počítačového zpracování I. •Přesnost a rychlost • •Univerzálnost • •Grafika • •Flexibilita •Nové veličiny: Snadno lze vytvářet nové veličiny pomocí požadovaných transformací. • •Velikost datových souborů: • •Snadný přenos dat: …ale Přesnost a rychlost Dobré počítačové programy (software) nám dají velmi rychle správné výsledky. Dřívější ruční zpracování dat bylo často zatíženo aritmetickými chybami a bylo časově velmi náročné. Univerzálnost Počítače zpřístupňují širokou škálu statistických metod a umožňují provést velmi rychle i rozsáhlé komplexní statistické analýzy. Grafika Počítače umožňují snadné grafické zobrazení pozorovaných dat a výsledků statistického zpracování. Flexibilita Velkou výhodou počítačů je, že umožňují rychle provést nové zpracování při změnách v datech či transformaci některých veličin. Nové veličiny: Snadno lze vytvářet nové veličiny pomocí požadovaných transformací. Velikost datových souborů: Počítače umožňují zpracování velmi rozsáhlých souborů dat pomocí vhodného softwaru, což bylo ještě před deseti lety velmi obtížné. Snadný přenos dat: Jakmile se jednou data dostala do počítače, lze je snadno přenést elektronicky (například pomocí Internetu) na jiné místo. Nevýhody počítačového zpracování I. Chyby v softwaru. Ne všechny statistické programy jsou spolehlivé. Univerzálnost. Může vést k výběru nevhodné metody zpracování. Je velmi důležité, aby každý, kdo používá statistický software, si byl vědom úrovně svých statistických znalostí a užíval pouze ty metody, kterým rozumí. Pozor na používání neznámých statistických metod. Černá skříňka. . Špatná data plodí špatné závěry. . Je dobré používat programy, které mají dobrou pověst a jsou používány již dostatečně dlouho, takže byla postupně odstraněna většina jejich chyb. K takovým programům patří například BMDP, SAS, SPSS, STATISTICA, S PLUS, STATGRAPHICS a další. Počítač vzdaluje uživatele od dat i metody zpracování. Statistická analýza se provádí automaticky, nová data se zpracovávají a výsledky se ukládají, aniž by byly posouzeny člověkem. Protože většinou výsledky zachycují jen průměrné efekty, může se zcela ztrácet citlivost k individuálním pozorováním Jestliže data jsou nasbírána či naměřena špatně (například jsou špatně kladené otázky v dotazníku), nelze očekávat, že závěry z takových dat budou správné. Sem náleží i nesprávné zpracování datových souborů, chybějící či ovlivněné (tzv. nehomogenní) údaje Vymezení základních statistických pojmů Statistika je vědní obor zabývající se zkoumáním jevů, které mají hromadný charakter. statistika - definice Hromadné jevy: jevy, které které se vyskytují u …………………………… A jsou výsledkem ……………………………….. Příklady: Statistická jednotka:………… Statistická jednotka musí být přesně vymezena na počátku vlastního šetření a to z hlediska ………………………………………………………………………………………………………………………………………………………………………………) Příklady: stat. jednotka – občan, novorozenec, byt, rodinný dům, Co: Kde: Kdy: •Statistický znak: • je to ……………………………………….. •Tzv. shodné (společné) znaky vymezují ………………………………………………………………………………………………………... •Ostatní jsou znaky ………………………………… Příklady: shodný znak – ………………… ………………..znaky – váha, délka, jméno, národnost…… Statistické znaky lze dělit na znaky •A) prostorové •B) časové •C) věcné: 1.kvalitativní: •alternativní •možné 2.kvantitativní: •spojité •diskrétní/nespojité • . Doplňte další příklady •Statistické znaky můžeme získat : • •přímo – (např. měřením, zvážením) tj. •………..data •nepřímo (výpočtem), (znaky odvozené) tj. ………….data •Příklady: •Nastudovat z Thinking Geography – uč. materiály primární sekundární Statistický soubor: …………………………………………………………………………………………………………) Je to množina všech prvků, které jsou předmětem daného statistického zkoumání. Každý z prvků je statistickou jednotkou. . •Prvky tvořící statistický soubor mají: • určité společné vlastnosti - tzv. ……………………………………………………….znaky • -……………………………………………….znaky – tyto znaky statisticky šetříme Příklad: statistický soubor Shodný - :identifikační znak sledovaný znak: Statistický soubor:Občané v produktivním věku Shodný - identifikační znak: Sledovaný znak: Statistický soubor můžeme podle různých hledisek dále dělit: Statistický soubor • jednorozměrný •vícerozměrný 1 –rozm.:3650, 2100, 1200, 3500, 4100, 2800 3650, 55; 2100, 47; 1200, 36, 3500, 50 Příklady (váha dítěte), dvourozm. (váha; délka), ! jako dvojice! Statistický soubor základní a výběrový •Výběrový soubor • je .…………. základního souboru. Je vytvořen ze…………………………., vybraných podle určitého hlediska. • Př. Novorozenci v ……………………………. • •Reprezentativní výběr: • Pokud zkoumaný výběr dobře odráží ……………………………………. celého zkoumaného souboru, nazýváme jej reprezentativním výběrem. • Př. …………………………………………. •Rozsah statistického souboru: •počet statistických jednotek v souboru: •N – rozsah základního souboru •n – rozsah výběrového souboru • Grafické znázornění jevů • Grafické znázornění jevů •Graf – definice • – kresba podle pravidel znázorňující kvalitativní a kvantitativní informace • •Základní prvky grafického znázornění: •1.Název, příp. podnázev •2.vlastní kresba •3.stupnice a její popis (rovnoměrná, nerovnoměrná) •4.legenda/klíč •5.zdroj údajů •vysvětlivky, poznámky, Graf – ukázka •Český statistický úřad, 2003 • Typy grafů •schéma – znázorňuje strukturu a vztahy jevu či procesu •Příklad •diagram – znázorňuje kvantitativní údaje o souboru –sloupcový, bodový, plošný atd. •příklad •statistická mapa – prostorové rozložení prvku v podkladové mapě schéma Diagram • Český statistický úřad, 1994 Diagram_ - věkové složení obyv., tzv.pyramida života • Český statistický úřad, 2003 Odchylka od průměrné teploty na Zemi • Statistická mapa • okresní úřad Karviná, 2003 Použití grafických papírů při studiu geografických jevů •Grafický papír usnadňuje vynášení prvků do grafu. •Milimetrový papír – rovnoměrné stupnice, čáry se jeví v původní, nezkreslené podobě •Polologaritmický papír – kombinace dvou sítí – rovnoměrné a logaritmické •Pravděpodobnostní papír – kombinace rovnoměrné a pravděpodobnostní stupnice Sítě •Trojúhelníková síť – znázorňování jevů o třech prvcích, které mají vždy konstantní součet •např. půdní druhy • půda A:: 50 % jílu, 25% hlíny, 25%, písku jíl hlína písek 0 Sítě •Kruhová (radiální) síť – kombinace soustředných kružnic a přímek procházejících středem kružnice •pro grafické znázorňování opakujících se jevů, struktury jevů •Příklad •roční chod teploty •směry větru statistická mapa: kartogram kartodiagram kartogram • • Kartogram je obrysová kartografická kresba územních celků, ve kterých jsou grafickým způsobem (barevný odstín, rast) plošně znázorněna statistická data týkající se různých geografických jevů (lidnatost, využívání ploch apod.) KARTOGRAM1 •Kartogramy lze rozdělit podle územního dělení na: •kartogramy s .………….. hranicemi •kartogramy s ………………..hranicemi Kartodiagram •Kartodiagramy jsou diagramy vložené do mapové kostry, kterou tvoří dílčí územní celky. •Jejich údaje se vztahují na celé území jednotky, kde leží • ( rozdíl od metody lokalizovaných diagramu – údaj vztahující se k urč. bodu – např. chod roční srážek na meteorolog. stanici) k5 Kartodiagramy •Vkládanými diagramy mohou být: • •………………… diagramy pro vyjadřování časových řad •…………………….diagramy (sloupce, věkové pyramidy apod.) • různě dělené …………………. značky k5 Grafické metody analýzy geografických jevů •1.znázornění intenzity jevu v prostoru •a) absolutními metodami • *značková metoda (…………………………………………………..) • * bodová metoda (……………………………………………… •b) relativními metodami (např. ……………………………………… •2.znázornění struktury jevu v prostoru •využití …………………………….. grafů • *pouze strukturu vyjádříme výsečovými grafy se stejným ……………………………. •*strukturu a velikost celku ( ……………………………………………………………………………………………………………………..) Náležitosti statistické mapy •Obsah mapy tvoří všechny objekty, jevy a jejich vztahy, které jsou v mapě kartograficky znázorněny •Základní údaje tvoří –Název mapy - stručně a výstižně charakterizuje zobrazené území, druh mapy lze i název hlavní a vedlejší) –Mapový rámec – „vlastní mapa“ –Měřítko v číselné, grafické nebo slovní formě –Legenda (vysvětlivky) – podávají výklad použitých mapových značek a ostatních kartografických vyjadřovacích prostředků včetně barevných a velikostních stupnic, legenda musí být: •Úplná, logicky uspořádaná, přehledná a zapamatovatelná, POZOR na intervaly, na barevnou škálu –Autoři Dalšími údaji mohou být : lvyznačení severu nebo směrová růžice, souřadnicový systém, přehled použitých mapových podkladů, datum, ke kterému se obsah mapy vztahuje lobrázky, grafy, tabulky, text l Vysvětlete • C:\Documents and Settings\svatonova\Dokumenty\STATISTIKA\JARO_07\mapa304.jpg Izolinie – konstrukce a vlastnosti •Izolinie – ………………………………………………………………………………. •získávají se metodou prostorové interpolace hodnot vynesených do grafu •plynulé čáry •Izo……………., izo………………., v…………….atd. •Konstrukce izolinie - příklad Rozdělení četností Absolutní, relativní kumulované četnosti •četnost – počet ……………………určité hodnoty v souboru, frekvence hodnoty •rozdělení četností – ……………………. prvků s určitými hodnotami statistického znaku, obvykle pro nespojité hodnoty •skupinové rozdělení četností - počty prvků s hodnotami statistického znaku, které patří do určitého ………………………………, obvykle pro spojité hodnoty • skupinové rozdělení četností •roztřídíme statistické jednotky podle velikosti jejich statistického znaku do …………………………. •interval – hranice, dolní a horní mez, šířka (délka) •zásady: •vymezené hranice pro jednoznačné zařazení prvků •Obvykle …………………šířka •přiměřený ……………………. intervalů Četnosti •absolutní četnost – •relativní četnost – • •kumulovaná četnost – • •příklad Interval střed abs. č. relativ. č. kumul. abs. kumul. relat. 500 - 1000 750 1001 - 1500 1250 1501 - 2000 1750 atd. Tab.S Skupinové rozdělení četností, ukázka – příklad váha 1novorozenců v JMK Grafické znázornění rozdělení četností •histogram •polygon •čára kumulovaných četností čára kumulovaných četností – součtová čára, graf kumulované četnosti, vždy k horní hranici intervalu Histogram •Histogram – …………………………………………………………… • •šířka sloupce – šířka intervalu, •výška sloupce - četnost Polygon •Polygon – spojnicový diagram, •hodnoty četnosti se vynáší ke středům intervalu Čára kumulovaných četností •čára kumulovaných četností –………………………………………………………………………………………………..k horní hranici intervalu histogram – věkové složení obyvatelstva, věková struktura, pyramida života • Základní statistické charakteristiky Základní statistické charakteristiky •základní statistické charakteristiky „popisují“ statistický soubor • •a) charakteristiky úrovně – tzv. střední hodnoty •b) charakteristiky variability •c) charakteristiky asymetrie a špičatosti • Střední hodnoty •Místo ……………………………………………..u jednorozměrného statistického souboru používáme často ……………………………………… • •Střední hodnoty umožňují porovnávání souborů Střední hodnoty •aritmetický průměr (+ vážený aritm. průměr, geometrický průměr, harmonický průměr) •modus •aritmetický střed •medián a kvantily •geografický medián Aritmetický průměr •nejčastěji používaná st. charakteristika •typický a netypický průměr •(jedno a více vrcholová rozdělení četností) •typický aritm. průměr – ………………………………… •Netypický………………………………… Obr. Vážený aritmetický průměr •při výpočtu množství srážek v povodí – váha – plocha území • v klimatologii – výpočet denního průměru teplot ze tří měření Př. výpočtu Modus • modus - ……………………….. hodnota kvantitativního znaku ve studovaném souboru •významný především u souboru nespojitých veličin • •modální interval – interval zahrnující ……………………………. počet jednotek, závisí však na stanovení hranic intervalů •rozdělení s více mody – polymodální rozdělení příklad Aritmetický střed •Aritm. střed je polovina součtu min. a max. hodnoty znaku v souboru •pokud soubor obsahuje extrémní hodnoty, je aritmetický střed značně zkreslující charakteristika příklad Medián •Medián – tzv. prostřední hodnota, •je to prvek řady uspořádané v neklesajícím pořadí ………………………………..í), který ji dělí na dvě poloviny, které mají menší a větší hodnotu znaku •POZOR: soubor je třeba ……………………. • vzorce určují .pořadí prvku (kolikátý prvek to je, hodnota prvku je medián!) •pro řadu s lichým počtem prvků ……………………. •pro řadu o sudém počtu je medián průměr z hodnot mezi prvkem na (…………………………………..) místě •Příklad Kvantily •Medián je kvantil dělící soubor na dvě poloviny dle předch. pravidel •obdobně •kvartily – ., x25 , x 50, x75, •decily •percentily • kvantily obecně široké použití ve statistice a v geografii příklad Geografický medián •Geografický medián je čára dělící …………………….kde se jev vyskytuje tak, aby hodnota jevu byla v obou plochách stejná Charakteristiky variability •variační rozpětí •kvantilové odchylky •průměrné odchylky •rozptyl •směrodatná odchylka •variační koeficient Variační rozpětí •rozdíl největší a nejmenší hodnoty sledovaného statist. znaku •R= xmax – xmin • •jednoduchá charakteristika •podléhá ……………………………… hodnotám, které mohou být i chybami • • příklad Průměrné odchylky •průměrná odchylka je definována jako ……………………………………………………………………………………………….od vybrané střední hodnoty (tj. od aritmetického průměru, mediánu, modu apod.) Kvantilové odchylky •Založeny na kladných odchylkách jednotlivých sousedních kvantilů • •např. kvartilová odchylka •decilová odchylka •percentilová odchylka Střední diference •je def. jako aritmetický průměr absolutních hodnot ……………………………………………………………………………………………………………………………………………… •v praxi vhodná pouze pro malé soubory Příklad Rozptyl a směrodatná odchylka •nejdůležitější charakteristiky variability •Rozptyl s2 z n hodnot znaku x je průměr druhých mocnin odchylek jednotlivých hodnot znaku od aritmetického průměru •směrodatná odchylka s je mírou měnlivosti hodnot souboru kolem aritmetického průměru • je druhou odmocnina rozptylu Variační koeficient • je častou používanou relativní mírou variability •je definován jako poměr směrodatné odchylky k aritmetickému průměru Charakteristiky asymetrie •Charakteristiky asymetrie ( míry šikmosti) jsou čísla dávající představu • o souměrnosti ………………………………tvaru rozdělení četností •míra šikmosti pro souměrné rozdělení je nula •pro nesouměrné je kladná nebo záporná Charakteristiky asymetrie • Symetrické Záporně sešikmené Kladně sešikmené ar. průměr, medián, modus charakteristiky špičatosti •Charakteristiky špičatosti ( míry špičatosti) jsou čísla charakterizující ……………………………… prvků souboru v …………………………….určité hodnoty znaku Obr. Špičaté, normální a ploché rozdělení charakteristiky špičatosti • 1 – špičaté 2 – normální 3 – ploché rozdělení Karl Friedrich Gauss 1777-1855 STATISTICKÉ METODY V GEOGRAFII Teoretická rozdělení Základní pojmy •náhodná veličina …………………………. •Může teoreticky nabývat nekonečného množství hodnot z určitého intervalu např.teplota) • •náhodná veličina ……………………………. •Nabývá jen konečného množství hodnot urč. intervalu. Např. počet měsíců s teplotou nad…) •Každé hodnotě je možno přiřadit pravděpodobnost jejího výskytu, součet všech dílčích pravděpodobností je 1 Teoretická rozdělení •histogram – grafické znázornění četností •rozsah souboru se blíží k nekonečnu + náhodná veličina je spojitá • – frekvenční funkce / hustota pravděpodobnosti •kumulativní relativní četnost tj. součtová čára - •distribuční funkce •obr. • Normální rozdělení / Gaussovo, Laplaceovo- Gaussovo •Normální rozdělení se univerzálně používá k aproximaci (k přibližnému vyjádření) rozdělení pravděpodobnosti velkého množství náhodných veličin (v biologii, technice, ekonomii atd.) • Hustota pravděpodobnosti normálního rozdělení je symetrická zvonovitá Gaussova křivka. Normální rozdělení •Zvonovitý tvar •Souměrný •Šikmost 0, špičatost 0 •Asymptoticky se blíží 0 • Obr. •Normální rozdělení s parametry: • stejný průměr, různé směrodatné odchylky •čím větší odchylka , tím „plošší tvar rozdělení Načrtni obr s oběma křivkami •Normální rozdělení s parametry: • stejný průměr, různé směrodatné odchylky •čím větší odchylka , tím „plošší tvar rozdělení • Načrtni obr C:\Documents and Settings\svatonova\Dokumenty\STATISTIKA\JARO_07\normalní_ různyPrůměr_stejne směr_odchylky.gif lNormální rozdělení l různé průměry, stejná směrodatná odchylka •Normální rozdělení • různé průměry, stejná směrodatná odchylka Načrtni obr s oběma křivkami •Normální křivka a osa x vymezují plochu 100%, •tj. lze stanovit pravděpodobnosti, s nimiž leží hodnoty v určitém intervalu, •hranice intervalu tvoří průměr a násobky směrodatné odchylky •obr. Normální rozdělení / Gaussovo pokračování \begin{figure} \centering \fbox{\includegraphics[clip, width=\sirka]{eps/gnorm.eps}}\end{figure} •V normálním rozdělení: •68, 27% hodnot leží v intervalu: • (………………………….) • •95% leží v intervalu: • (………………………………………….. • l99% leží v intervalu: l (………………………………………………….) – Příklady Př.1 •Populace má v daném testu průměr 100, směrodatnou odchylku 15. •Vypočítejte hranice intervalů, v kterém se nachází 68 % populace. •Výška v populaci chlapců ve věku 3,5 - 4 roky má normální rozdělení s průměrem 102 cm a směrodatnou odchylkou 4,5 cm. •Vypočítejte hranice intervalu hodnot výšky , ve kterých se nachází •A)68% •B) 95% •C)99% •příslušné populace Příklad 2 Příklad 3 •zadání: •Výška v populaci chlapců ve věku 3,5 - 4 roky má normální rozdělení s průměrem 102 cm a směrodatnou odchylkou 4,5 cm. • Spočtěte, jaké procento chlapců v uvedeném věku má výšku menší nebo rovnou 93 cm. • Příklad 4 •Psychologickými testy bylo zjištěno, že hodnota IQ populace je náhodnou veličinou s normálním rozdělením, jehož střední hodnota je 104 a směrodatná odchylka 8. •Určete hodnotu IQ, kterou podle uvedených pravděpodobnostních předpokladů: • meze, ve kterých bude 50% populace, • • •Pro normované normální rozdělení zavedeme označení N (0, 1). Hustota pravděpodobnosti normovaného normálního rozdělení: f(u) φ ( Tabulkové vyjádření vybraných hodnot hustoty pravděpodobnosti u 0,0 0,5 1,0 1,5 2,0 2,5 3,0 3,5 f(u) 0,399 0,352 0,242 0,130 0,054 0,018 0,004 0,001 u Tabulkové vyjádření vybraných hodnot distribuční funkce u 0,0 0,5 1,0 1,5 2,0 2,5 3,0 3,5 F(u) 0,500 0,691 0,841 0,933 0,977 0,994 0,999 0,999 Normování hodnoty: od hodnoty se odečte aritmetický průměr, výsledek (tj. odchylka) se dělí směr. odchylkou • Binomické rozdělení • Binomické rozdělení •pro diskrétní náhodné proměnné, •které mohou nabývat pouze dvou hodnot ( např. ano, ne) •pravděpodobnost, že nastane alternativa ANO označme π •pravděpodobnost, že nastane NE …q = 1 – π), protože •platí ……………………… (100 %) •k výpočtu se používá binomický rozvoj • \begin{displaymath}{n \choose k} = \frac{n!}{k!(n - k)!}, \end{displaymath} \begin{displaymath}\ensuremath{\mathrm{P}} (X = k) = {n \choose k} \pi^k (1 - \pi)^{n - k}, \quad \mbox{pro } k = 0,1,2, \dots, n. \end{displaymath} Příklad 1 – binomické rozdělení •Předpokládejme, že pravděpodobnost narození dívky je 0,49. •Jaká je pravděpodobnost toho, že mezi třemi dětmi v rodině je právě jedna dívka? Řešení 1 Tabulka3: Parametry binomického rozdělení v příkladu Pokus Úspěch Neúspěch Pravděpodobnost úspěchu Počet pokusů Počet úspěchů n k narození dítěte dívka chlapec 0,49 počet dětí počet dívek Jak je vidět z tabulky, počet narozených dívek v rodině je náhodná veličina s binomickým rozdělením. Pravděpodobnost, že mezi třemi dětmi je právě jedna dívka, tedy vypočteme jako \begin{displaymath}\ensuremath{\mathrm{P}} (X = 1) = {3 \choose 1} 0{,}49^1 \cdot 0{,}51^2 = 3\cdot0{,}127 = 0{,}38. \ \Diamond \end{displaymath} \begin{displaymath}{3 \choose 1} = \frac{3!}{1!2!} = \frac{3\cdot2\cdot1}{1\cdot 2\cdot 1} = 3. \end{displaymath} Pravděpodobnost, že ze tří dětí bude jedna dívka, je 38%. Řešení 1 Příklad 2 •Jaká je pravděpodobnost, že v rodině s 8 dětmi jsou právě 3 dívky? Pravděpodobnost narození dívky je 0,49. Řešení binomický rozvoj: Příklad 2, binomické rozdělení •Vypočítejte pravděpodobnost, se kterou se vyskytne určitý počet měsíců v roce hodnocených jako „ suché“. •Konkretizace: • oblast Oxford, • období 1851 – 1943, tj. 1116 měsíců •Suchý měsíc - tj. méně srážek v měsíci než je dlouhodobý průměr tohoto měsíce. •617 měsíců hodnocených jako suché •499 – vlhké měsíce „úspěch“ „neúspěch“ Pravděpodobnost suchého měsíce Pravděpodobnost vlhkého měsíce suchý vlhký π = ... π = . q = .…. q = .. (q = 1 – π) Počet suchých měsíců Počet měsíců n =12 k=0 až 12 Řešení a)Ručně pomocí binomického rozvoje b) s podporou např. Excel Řešíme dílčí příklady, tj. jaká je pravděpodobnost, že v roce se vyskytne a)žádny suchý měsíc, tj- k = 0 b)Jeden suchý měsíc, tj. k = 1 c)Atd. d) všechny měsíce suché, k= 12 Řešení 2 C:\Documents and Settings\svatonova\Dokumenty\STATISTIKA\JARO_06\příklad_binom_mesice.bmp Řešení 2 Jak bude vypadat situace pro „vlhké“ měsíce? • Poisson - příklad • Poissonovo rozdělení •– pro rozdělení …………………… případů • (zimní bouřka, výskyt mutace apod.). • •Je-li pravděpodobnost nějaké výjimečné události (např. určité mutace genu) relativně malá a rozsah výběru poměrně velký, pak Poissonovo rozdělení v podstatě splývá s binomickým, ale je mnohem výhodnější pro počítání . Poisson - příklad •Předpokládejme, že v určité populaci krys se vyskytuje albín s pravděpodobností •p = 0,001 , ostatní krysy jsou normálně pigmentované. •Ve vzorku 100 krys náhodně vybraných z této populace určete pravděpodobnost, že vzorek • a) neobsahuje albína, •b) obsahuje právě jednoho albína. Řešení Pravděpodobnost, že neobsahuje albína, je…………………… lurčete pravděpodobnost, že vzorek lneobsahuje albína, Řešení 3 Pravděpodobnost, že 100 členná populace krys bude obsahovat albína, je ………………%. • Další rozdělení Pearsonova křivka III. typu •Na empirické rozdělení mnoha statistických souborů s nimiž v geografii pracujeme, nelze aplikovat normální rozdělení. • Platí to například v těch případech, kdy studovaná náhodná veličina nemá teoreticky zdůvodněnou možnost nabývat nekonečných hodnot nebo je-li omezena konečnými čísly V takovýchto případech lze aplikovat na studovaný soubor některou ze dvanácti křivek Pearsonova systému. Pearsonova křivka III. typu •Pearsonova křivka III. typu • - obvykle pro veličiny s omezeným množstvím hodnot, které může nabývat • - z křivky lze např. vyčíst…………………………………………………………………………………………………………………………. •v hydrologii se počítá Pearsonova křivka ve variantě součtová čára četností jako • tzv. ……………………………………………….. • •příklad •Konstrukce čáry překročení z průměrných ročních průtoků vodního toku Lažánka za říjen 2002. • Křivka překročení průměrných ročních průtoků , Lažanka, říjen 2002 0 20 40 60 80 100 % 20 10 5 0 15 načrtni Odhady parametrů intervaly spolehlivosti Základní pojmy •základní soubor, • statistický soubor •výběrový soubor • náhodný výběr • k základnímu jednomu souboru lze získat více výběrových, různé charakteristiky • •reprezentativnost výběru – ………………………………….. •prostý náhodný výběr ( ………………………………………………. •oblastní náhodný výběr ( ………………………………………….. •systematický náhodný výběr ( …………………………………………………………………………………………………………………………………………………………………………………………. • Základní pojmy Intervaly spolehlivosti •normální rozdělení, •Statistický soubor s norm rozdělením (X, s) •Jeho výběrový soubor bude mít norm rozdělení s param (x, s/én), •Interval spolehlivosti – pro zvolený koeficient spolehlivosti ( pravděpodobnost , že tam X padne) (např. 95 %) • vypočítáme interval,ve kterém s touto pravděpodobností leží X. •provedeme-li výběr o rozsahu n a spočteme x , pak průměr X leží s pravděpodobností 0,95 ve vzdálenosti menší než 1,96 s /én od x , • tj. v intervalu s krajními body • (x- 1,96 s /én , x+ 1,96 s /én)… interval spolehlivosti pro průměr. •koeficient spolehlivosti P = 0,95 •(tj. hladinu významnosti a = 0,05 ) • $\bar{x}$ •lze použít intervaly spolehlivosti např. • pro 95 % (μ + - 1,960σ), •pro 99 % (μ + - 2,576σ), tj. širší! interval • •hodnoty, které leží mimo interval, v tzv. kritickém oboru se považují za nepřípustné, jejich odchylky od průměru za významné • Testování statistických hypotéz •jak ověřit předpoklady o charakteristikách statistických souborů? •Je soubor A reprezentativním výběrem ze souboru B? •Do jaké míry se soubory shodují v rozdělení četností, podle aritm. průměru, podle směrodatné odchylky apod. •Test nulové hypotézy tedy spočívá v tom, zda p překročí, nebo nepřekročí zvolenou mez • • Příklad Soubor A Soubor a Rozdělení četností souborů A , a cvičení •a. stanovte hladinu významnosti pro porovnání souborů na 95 %. • b. formulujte nulovou hypotézu pro shodu souborů. •c. porovnejte shodnost rozložení četností souboru pro Brno – venkov se souborem pro ČR pomocí testu CHÍ – kvadrát ( CHITEST) •d. Testujte významnost rozdílu rozptylů souborů pomocí F –testu (ftest) • e. Testujte významnost rozdílu pomocí T - testu.( ttest) • f. Přijměte nebo odmítněte nulovou hypotézu. • chitest 0,99 ftest 0,958 t test 0,997 •Test nulové hypotézy tedy spočívá v tom, zda p překročí, nebo nepřekročí zvolenou mez •STATISTICKÁ HYPOTÉZA: •předpoklad: průměrná výška studentek PdF MU je shodná s průměrnou výškou žen ve věku 20 - 25 let v ČR •NULOVÁ HYPOTÉZA •Průměry obou souborů jsou shodné •zvolíme hladinu významnosti •např. 5% , tj. a= 0,05, tj. ( pravděpodobností 95 % ) •aplikace testovacího kritéria •je výsledek testování významný ? •podle výsledku přijmeme nebo odmítneme nulovou hypotézu • Závislost náhodných veličin Závislost náhodných veličin •Do jaké míry závisí změna prvku jednoho statistického souboru změnu prvku druhého statistického souboru? •Jak podmiňuje změna prvku x změnu prvku y? •Jak těsně na sobě závisí prvky dvourozměrného statistického souboru? •Např. • vztahy teplota a nadm. výška, •srážky a odtok v povodí •váha a výška člověka, Vztahy náhodných veličin •Jednostranné ( …………………………………………………………………………………………………………………………………………………. •Vzájemné (………………………………………………………………………………) • Vztahy náhodných veličin •Podle stupně závislosti •Funkční ( pevnou) •( určité hodnotě x odpovídá jediná hodnota y, vztah x a y lze tedy vyjádřit mat. funkcí), • např. •Konkrétní teplotě odpovídá jedna hodnota stupně nasycení vodní párou Vztahy náhodných veličin •Statistická • ( jedné hodnotě x odpovídá více hodnot y, hodnoty y mají své rozdělení s průměrem, tento průměr hodnot y je i pro různá x shodný) • • • • Vztahy náhodných veličin •Korelační •Se změnou hodnot x se mění soubory hodnot y, které mají své rozdělení a různých průměrech •např. …………………………………………………………………………………. •.. •Př. . Korelační závislost •Určení těsnosti korelační závislosti • •(jak těsný je vztah mezi výškou a hmotností člověka) lKorelace je ……………………………………………………….. lRegresní čára znázorňuje …………………………………………………………….. Intervaly a pásy spolehlivosti pro lineární regresní závislost •Kolem regresní přímky lze sestrojit • …………………………………………………………….., • který určuje pro vybrané x • interval, ve kterém se budou s určitou pravděpodobností nacházet hodnoty y Př. lineární regrese •Vypočítejte koeficient korelace pro vztah délky slunečního svitu a teploty na datech meteorol. stanice Tuřany, 2002 • • Délka slun. svitu (h) 55,6 82,7 183,4 169,5 238,3 291,4 288,0 221,2 174,5 89,4 44,7 40,3 Teplota (° C ) -1,2 3,6 5,8 9,4 17,1 19,1 20,9 20,4 14,0 7,6 6,0 -3,1 t -1,2 3,6 5,8 9,4 17,1 h 55,6 82,7 183,4 169,5 238,3 corel h, t 0,920888 corel t, h 0,920888 • Výpočet koeficientu regrese b : Excel, funkce CORREL, POLE1 - hodnoty délka slun. Svitu, Pole2 - hodnoty teploty • lineární regresní čára - Přidat spojnici trendu • Časové řady Bazické a řetězové Z - diagram časová řady – základní pojmy • statistická řada • …………………………………………………………………………….. •časová řada • statistická řada upořádaná podle …………………… •časová řada=…………………………… •………………………………………………………………….. Sestavování časových řad •dodržovat zásady: –stejně dlouhá časová období •( ………………………………………………………………………………………………………. –stejně velká území, příp. stejná úroveň (…………………………………………………………………………………………………………………….. –stejné jednotky Cíl – získat porovnatelná čísla •časová řada OKAMŽIKOVÁ –sleduje se hodnoty znaku k určitému okamžiku – např. – •časová řada INTERVALOVÁ – sleduje se hodnota znaku v intervalu , období –př……………………………. •pouze k této řadě se vztahuje požadavek stejného intervalu zvláště u sledování ekonomických ukazatelů Analýza časových řad • cíle analýzy: –zjistit hlavní rysy průběhu časových řad a analyzovat je •podle průběhu časové řady: •stacionární nebo s trendem •s periodickým opakováním výkyvů nebo bez výkyvů •všechny možné kombinace Charakteristiky časových řad •přírůstky: •absolutní přírůstek – ………………………………………………………………………………………………………………………………………….. •relativní přírůstek • …………………………………………………………………………………….. • • přírůstky a indexy Řetězové a bazické indexy •bazický index •……………………………………………………………………………………………………………………………………………………………………………………………………………………………. •řetězový index (koeficient růstu ) •……………………………………… •………………………………………………. •……………………………………………………………… Klouzavé úhrny •zvláštní typ součtové čáry •vhodné pro porovnávání dvou či více řad hodnot za po sobě následující období •např. kolísání ročního chodu srážek •postup viz. např. skripta Brázdil. a kol. str. 147 měsíc 1 2 3 4 5 6 7 8 9 10 11 12 prům úhrn srážek;2002; mm 8,1 21,3 21 29 45,8 81,7 58 91,2 39,2 71,9 48,2 46 prům úhrn srážek;2003, mm 26,6 4,3 4,1 22 92,8 59,8 66,1 37 24,3 58,5 32,4 54,3 KLOUZAVÝ ÚHRN 482,6 454,9 486 521 586 565 573 518 504 490 474,3 483 LEDNOVÁ HODNOTA – SOUČET „NOVÝ“ LEDEN + 11 předchozích měsíců ÚNOROVÁ HODNOTA – SOUČET „NOVÝ“ LEDEN + ÚNOR +STARÉ OSTATNÍ MĚSÍCE Klouzavý úhrn,vždy součet 12 měsíčních hodnot, tj. daný měsíc plus +11 předchozích Z - diagramy •GRAFICKÉ ZNÁZORNĚNÍ –Řada……………………………, –…………………………čára, – řada …………………………………….. – • •společné body Z - diagramu( tj. spol. hodnoty) –………………………………………………………………… – …………………………………………………………………………………………………………….. Z - diagramy Testy a pís. zkoušky •Příprava na test - pojmy viz. uč. Materiály na IS •Pís. zkouška,vždy min jedna přípravná otázka ke st. zkoušce: • Bc otázky •Popište vývoj a pojetí statistiky. Objasněte základní kroky statistických šetření a vymezte následující pojmy: hromadný jev, statistický soubor, statistická jednotka, statistický znak. •16) Popište a vysvětlete rozdělení četností (absolutní, relativní, kumulované) statistických jevů jejich grafické znázornění a uveďte příklady geografických aplikací. •17) Uveďte příklady grafické znázornění statistických informací (grafy, sítě, statistické mapy) a na konkrétních příkladech doložte jejich náležitosti. •18) Přehledně představte základní míry úrovně (střední hodnoty), variability, asymetrie a špičatosti. Vysvětlete jejich význam a doložte nákresy. •19) Popište teoretická rozdělení náhodných veličin (Gaussovo, binomické a Pearsonovo rozdělení). S využitím nákresů popište a interpretujte význam normálního rozdělení. Uveďte další příklady jiných rozdělení. •20) Vysvětlete a popište statistické závislosti náhodných veličin (korelace regrese, korelační koeficient). Uveďte konkrétní příklady geografických aplikací. •21) Popište obecné principy statistického testování (základní kroky, hypotézy, teorie a druhy testů) a uveďte příklady geografických aplikací. Vysvětlete, proč se formuluje nulová hypotéza, co je hladina významnosti a jak se nulové hypotézy mohou ověřit. •22) Vysvětlete pojem časové řady a uveďte jejich hlavní rysy. S pomocí náčrtu objasněte tendence časových řad. Uveďte příklad využití řetězových a bazických indexů – doložte příkladem výpočtu. • Ukázky části otázek k pís. zk., zdroje: Literatura viz. IS, učební texty na IS :historie a Thinking G.,), zápisy z přednášek, cvičení •Vysvětlete pojem primární data a napište hlavní zdroje primárních dat pro geografický výzkum •Vysvětlete pojem sekundární data, napište hlavní zdroje sekundárních dat pro geografický výzkum • Čím se geografové zabývají?( Na jakých pracovních pozicích a s jakým obsahem pracovní činnosti.)Udejte min dva konkrétní příklady a vysvětlete, jak využívají své odbornosti geografa a znalosti geografických konceptů. • Jmenujte základná fáze vědeckého výzkumu a stručně je popišteDefinujte systém, objasněte s využitím náčrtu. •Které dovednosti patří pod pojem „geografické myšlení“? •Jmenujte typické geografické otázky, které jsou potřebné pro správnou výuku zeměpisu a rozvoj geografického myšlení. •Definujte geografii •Zařaďte geografii do souboru věd. Definujte objekt studia geografie a předmět studia geografie. • Definujte a vymezte objekt studia geografie a předmět studia geografie. Dejte do souvislosti předmět studia geografie a typické geografické otázky. •Systém geografických věd – napište strukturovaný výčet či nakreslete schéma. •Stručně popište nejstarší etapu vývoje statistiky. •Kdy se o statistice objevují první zprávy? Které činnosti se k ní vztahovaly? •Co bylo obsahem politické aritmetiky? •Definujte statistiku •Definujte Hromadný jev, udejte min. dva konkrétní příklady •Jmenujte a následně definujte či vysvětlete dvě základní pojetí statistiky •Napište základní etapy statistického zpracování dat •Definujte statistickou jednotku včetně vymezení. Uveďte jeden konkrétní příklad vymezení statistické jednotky •Definujte statistický znak, napište základní členění st. znaků, uveďte vždy u každé dílčí skupiny min. jeden příklad •Definujte statistický soubor, napište základní typy st. souborů, uveďte k nim vhodné příklady. • Na konkrétním příkladu objasněte termíny: statistický soubor jednorozměrný a vícerozměrný. •Na konkrétním příkladu objasněte termíny: statistický soubor základní a výběrový. •Na konkrétním příkladu objasněte termíny: statistický soubor základní a reprezentativní. jmenujte základní typy grafů. • Načrtněte trojúhelníkovou síť pro hodnocení nejvyššího dosaženého vzdělání a vyznačte v ní obec A s podíly obyvatel se základním vzděláním 30 %, se středním 50,% a vysokoškolským 20% a obec B s podíly (10 %, 60 %, 40%). •Vysvětlete, pro které jevy lze použít kruhovou siť. Uveďte min. dva příklady. • Načrtněte kruhovou síť pro znázornění průměrných srážek na met. stanici. • Kartogram a kartodiagram, uveďte vhodné příklady pro jejich využití , objasněte, kdy je vhodné použít kartogram a kdy kartodiagram •A další….. •