Odhady parametrů základního souboru •Cvičení 6 •Statistické metody a zpracování dat 1 (podzim 2016) •Brno, říjen–listopad 2016 •Ambrožová Klára Motivační příklad • •Mám průměrné roční teploty vzduchu z 8 stanic v oblasti Antarktického poloostrova z let 2005–2015. • • AP_6stanic_3 Motivační příklad • • •Výběrové průměry a směrodatné odchylky: • • • • • •Výše uvedené statistiky platí pro náš výběr (tj. 8 míst, na nichž se měří), ale platí i pro základní soubor (celou oblast Antarktického poloostrova)? Trocha teorie •Můžeme počítat statistické charakteristiky pro náš výběr, např. • –Výběrový průměr – –Výběrový rozptyl – –Výběrová směrodatná odchylka – –a spousta dalších J – • • •V praxi ale potřebujeme znát statistické charakteristiky základního souboru, resp. jak moc se naše výběrové stat. charakteristiky liší od stat. charakteristik základního souboru? Odhady •Odhad bodový: –vyjádření jedním číslem –nevýhoda: neznáme riziko, že dané číslo není skutečnou charakteristikou základního souboru! – –Odhad aritmetického průměru: – –Odhad rozptylu: – –Odhad směrodatné odchylky: – – Pro tyto tři charakteristiky platí, že výběrové charakteristiky jsou nestranným odhadem charakteristik základního souboru. Záhada směrodatné odchylky aneb proč bylo na přednášce, že směrodatná odchylka výběrového souboru není nezkresleným odhadem směrodatné odchylky základního souboru? •Popisná statistika: –Zabývá se pouze popisem vlastností našeho výběru –Definice směrodatné odchylky (výběrového souboru): – •Matematická statistika a statistika pravděpodobnosti: –Uvědomuje si, že náš soubor je pouze výběr, a že bude třeba zobecňovat –Definice směrodatné odchylky (výběrového souboru): – – Tohle počítá program STATISTICA. Hodnotu jako ze vzorce (1) lze získat takto: (1) (2) (1) = (2) * √(n-1) / n Sm. odchylka ze vzorce (1) tedy není nezkresleným odhadem, hodnota ze vzorce (2) je nezkresleným odhadem Poznámka k bodovému odhadu průměru •Směrodatná chyba průměru (Standard error of the mean): –směrodatná odchylka výběrových průměrů, která závisí na směrodatné odchylce základního souboru (σ) a velikosti výběrů (n) – – –v praxi se používá výpočet na základě 1 náhodného výběru o velikosti n a směrodatné odchylce s – – –Je zjevné, že čím větší je náš výběr n,tím je menší chyba (a menší riziko, že jsme se v odhadu zmýlili) Provedeme-li např. 1000 výběrů z tohoto souboru o velikosti n=16, jejich průměry lze vykreslit ve vedlejším grafu Intuitivně by všechny výběrové průměry měly být rovny průměru základního souboru, prakticky tomu tak není. Soubor složený z těchto výběrových průměrů má svou variabilitu, která bude tím menší, čím větší je n. Odhady •Odhad intervalový –Odhad intervalem hodnot –známe riziko, s nímž se reálná hodnota v tomto intervalu nenachází – –Existují tři typy intervalů: 1.Oboustranný interval spolehlivosti •Odhadovaná charakteristika se v intervalu (D,H) nachází s pravděpodobností 1-α 2.Pravostranný interval spolehlivosti •Odhadovaná charakteristika je menší než H s pravděpodobností 1-α 3.Levostranný interval spolehlivosti •Odhadovaná charakteristika je větší než D s pravděpodobností 1-α – – – α – hladina významnosti (riziko). Zvolíme-li α=0.05, pak bude odhad. charakteristika v daném intervalu s pravděpodobností 95 % (0.95). Intervalové odhady – –Intervalový odhad aritmetického průměru (n>30): – – –Intervalový odhad rozptylu: – –Intervalový odhad směrodatné odchylky: meze získáme odmocněním hodnot D a H – α = 0.05 -> z=1.96 α = 0.01 -> z=2.576 χ2 potřeba nalézt v tabulkách, protože závisí na n D H PŘEDPOKLAD NORMÁLNÍHO ROZDĚLENÍ! Zpět k motivačnímu případu… •Bodový a intervalový odhad: –Statistiky – Základní statistiky – Popisné statistiky –Proměnné: Vše* * ve vašem případě může jít i o 1 sloupec Zpět k motivačnímu případu… •Bodový a intervalový odhad: –Nastavení modulu:* -> klikneme na Výpočet * ve cvičení máte 2 zadání a ne vždy musíte počítat všechno! Bodový odhad sm. odchylky Bodový odhad průměru Minimum a maximum Směrodatná chyba průměru Výpočet intervalu spolehlivosti průměru (zde na hladině spolehlivosti 95 %!!!!!!!!) Výpočet intervalu spolehlivosti sm. odchylky (zde na hladině spolehlivosti 95 %!!!!!!!!) Zpět k motivačnímu příkladu •Bodový a intervalový odhad Bodový odhad sm. odchylky Bodový odhad průměru Dolní hranice intervalu spolehlivosti průměru Horní hranice intervalu spolehlivosti průměru Dolní hranice intervalu spolehlivosti sm. odchylky Horní hranice intervalu spolehlivosti sm. odchylky Některé věci jsou logické, např. bodový odhad hodnoty je vždy mezi dolní a horní hranicí intervalu… Pokud to tak nemáte, něco bylo uděláno špatně. Zpět k motivačnímu příkladu •Tvorba spojnicového grafu pro bodový a intervalové odhady průměru Nejprve levým tlačítkem označit sloupce průměru a obou hranic intervalů spolehlivosti a kliknout pravým tlačítkem Zpět k motivačnímu příkladu > Křivka dole: dolní hranice intervalu, křivka uprostřed: bodový odhad průměru, křivka nahoře: horní hranice intervalu Legendu lze posouvat po kliknutí pravým tlačítkem: „Změnit na plovoucí text“ Název osy lze změnit kliknutím pravým tlačítkem: Možnosti grafu – Osa – Název Název lze odstranit označením a kliknutím na Delete Čeho si třeba všimnout do závěru: Nejnižší teplota byla v r. 2007, kdy byl také zjevně nejširší interval spolehlivosti. Tzn. v tomto roce je bodový odhad méně spolehlivý! Cvičení č. 6 •6.1. Zadání: Proveďte bodový a intervalový odhad průměru a směrodatné odchylky základního souboru pro 95% a 99% interval spolehlivosti. Jako výběrový soubor použijte řadu průměrných ročních teplot vzduchu na stanici Praha, Klementinum za období 120 let od ...… do …... (viz. cvičení 2). • •6.2. Zadání: Z průměrných měsíčních hodnot teploty vzduchu Vámi zpracovávané stanice (viz. cvičení 3) určete pro každý měsíc intervalový odhad průměru na hladině spolehlivosti 95 % a dále směrodatnou chybu průměru, [aritmetický průměr, minimum a maximum] . Hodnoty aritmetického průměru a intervalového odhadu vyneste do vhodného typu grafu, tak abyste mohli názorně prezentovat rozdíly mezi jednotlivými měsíci. V závěru porovnejte intervalový odhad pro jednotlivé měsíce a interpretujte - o čem vypovídá? Jak souvisí např. s variabilitou studované veličiny v daném měsíci? • Cvičení 6 •Požadovaný výstup cvičení: • •V zadání uvést Vaše období ze cv. 2 a Vaši stanici ze cv.3 • •6.1: Tabulka s odhady • •6.2: Tabulka s aritm. průměry, dolní a horní hranicí intervalů a sm. chybou průměru; spojnicový NEBO krabicový graf • • • • • •Závěr: –6.1: Všimněte si např. šířky intervalů pro 99% a 95% interval spolehlivosti – který je širší? –6.2: Všimněte si, jak se šířka intervalu měří v průběhu roku? Čím to může být způsobeno? • > Poznámka ke cvičení: Nastavení pro tvorbu krabicového grafu •Grafy – 2D grafy – Krabicové grafy •Proměnné: Závislé (označit všechny měsíce) •Karta Detaily I tento graf je třeba upravit (osy, názvy, legenda…) Zdroje •BRÁZDIL, Rudolf. Statistické metody v geografii :cvičení. 3. vyd. Brno: Vydavatelství Masarykovy univerzity, 1995. 177 s. ISBN 80-210-1260-9. • •BUDÍKOVÁ, Marie. Základní pojmy matematické statistiky (přednáška). Brno: Masarykova univerzita, 27.9. 2016. • •DOBROVOLNÝ, Petr. Z1069 Statistické metody a zpracování dat:IV. Odhady parametrů. Brno: Masarykova univerzita, 27.9.2016. • •KHAN ACADEMY. KhanAcademy. 27.9.2016. • •STATSOFT. Nápověda k programu STATISTICA. 27.9.2016. • •Část dat použitých v příkladu pochází z databáze READER .