Odhady parametrů základního souboru
•Cvičení 6
•Statistické metody a zpracování dat 1 (podzim 2016)
•Brno, říjen–listopad 2016
•Ambrožová Klára
Motivační příklad
•
•Mám průměrné roční teploty vzduchu
z 8 stanic v oblasti Antarktického
poloostrova z let 2005–2015.
•
•
AP_6stanic_3
Motivační příklad
•
•
•Výběrové průměry
a směrodatné odchylky:
•
•
•
•
•
•Výše uvedené statistiky platí pro náš výběr (tj. 8 míst,
na nichž se měří), ale platí i pro základní soubor
(celou oblast Antarktického poloostrova)?
Trocha teorie
•Můžeme počítat statistické charakteristiky pro náš výběr, např.
•
–Výběrový průměr
–
–Výběrový rozptyl
–
–Výběrová směrodatná odchylka
–
–a spousta dalších J
–
•
•
•V praxi ale potřebujeme znát statistické charakteristiky základního souboru, resp. jak moc se naše
výběrové stat. charakteristiky liší od stat. charakteristik základního souboru?
Odhady
•Odhad bodový:
–vyjádření jedním číslem
–nevýhoda: neznáme riziko, že dané číslo není skutečnou charakteristikou základního souboru!
–
–Odhad aritmetického průměru:
–
–Odhad rozptylu:
–
–Odhad směrodatné odchylky:
–
–
Pro tyto tři charakteristiky platí, že výběrové charakteristiky jsou nestranným odhadem
charakteristik základního souboru.
Záhada směrodatné odchylky
aneb proč bylo na přednášce, že směrodatná odchylka výběrového souboru není nezkresleným odhadem
směrodatné odchylky základního souboru?
•Popisná statistika:
–Zabývá se pouze popisem vlastností našeho výběru
–Definice směrodatné odchylky (výběrového souboru):
–
•Matematická statistika a statistika pravděpodobnosti:
–Uvědomuje si, že náš soubor je pouze výběr, a že bude třeba zobecňovat
–Definice směrodatné odchylky (výběrového souboru):
–
–
Tohle počítá program STATISTICA. Hodnotu jako ze vzorce (1) lze získat takto:
(1)
(2)
(1) = (2) * √(n-1) / n
Sm. odchylka ze vzorce (1) tedy není nezkresleným odhadem, hodnota ze vzorce (2) je nezkresleným
odhadem
Poznámka k bodovému odhadu průměru
•Směrodatná chyba průměru (Standard error of the mean):
–směrodatná odchylka výběrových průměrů, která závisí na směrodatné odchylce základního souboru (σ)
a velikosti výběrů (n)
–
–
–v praxi se používá výpočet na základě 1 náhodného výběru o velikosti n a směrodatné odchylce s
–
–
–Je zjevné, že čím větší je náš výběr n,tím je menší chyba (a menší riziko, že jsme se v odhadu
zmýlili)
Provedeme-li např. 1000 výběrů z tohoto souboru o velikosti n=16, jejich průměry lze vykreslit ve
vedlejším grafu
Intuitivně by všechny výběrové průměry měly být rovny průměru základního souboru, prakticky tomu
tak není. Soubor složený z těchto výběrových průměrů má svou variabilitu, která bude tím menší, čím
větší je n.
Odhady
•Odhad intervalový
–Odhad intervalem hodnot
–známe riziko, s nímž se reálná hodnota v tomto intervalu nenachází
–
–Existují tři typy intervalů:
1.Oboustranný interval spolehlivosti
•Odhadovaná charakteristika se v intervalu (D,H) nachází s pravděpodobností 1-α
2.Pravostranný interval spolehlivosti
•Odhadovaná charakteristika je menší než H s pravděpodobností 1-α
3.Levostranný interval spolehlivosti
•Odhadovaná charakteristika je větší než D s pravděpodobností 1-α
–
–
–
α – hladina významnosti (riziko). Zvolíme-li α=0.05, pak bude odhad. charakteristika v daném
intervalu
s pravděpodobností 95 % (0.95).
Intervalové odhady
–
–Intervalový odhad aritmetického průměru (n>30):
–
–
–Intervalový odhad rozptylu:
–
–Intervalový odhad směrodatné odchylky: meze získáme odmocněním hodnot D a H
–
α = 0.05 -> z=1.96
α = 0.01 -> z=2.576
χ2 potřeba nalézt v tabulkách, protože závisí na n
D
H
PŘEDPOKLAD NORMÁLNÍHO ROZDĚLENÍ!
Zpět k motivačnímu případu…
•Bodový a intervalový odhad:
–Statistiky – Základní statistiky – Popisné statistiky
–Proměnné: Vše*
* ve vašem případě může jít i o 1 sloupec
Zpět k motivačnímu případu…
•Bodový a intervalový odhad:
–Nastavení modulu:* -> klikneme na Výpočet
* ve cvičení máte 2 zadání a ne vždy musíte počítat všechno!
Bodový odhad sm. odchylky
Bodový odhad průměru
Minimum
a maximum
Směrodatná chyba průměru
Výpočet intervalu spolehlivosti průměru
(zde na hladině spolehlivosti 95 %!!!!!!!!)
Výpočet intervalu spolehlivosti sm. odchylky
(zde na hladině spolehlivosti 95 %!!!!!!!!)
Zpět k motivačnímu příkladu
•Bodový a intervalový odhad
Bodový odhad sm. odchylky
Bodový odhad průměru
Dolní hranice intervalu spolehlivosti průměru
Horní hranice intervalu spolehlivosti průměru
Dolní hranice intervalu spolehlivosti sm. odchylky
Horní hranice intervalu spolehlivosti sm. odchylky
Některé věci jsou logické, např. bodový odhad hodnoty je vždy mezi dolní
a horní hranicí intervalu… Pokud to tak nemáte, něco bylo uděláno špatně.
Zpět k motivačnímu příkladu
•Tvorba spojnicového grafu pro bodový a intervalové odhady průměru
Nejprve levým tlačítkem označit sloupce průměru
a obou hranic intervalů spolehlivosti a kliknout pravým tlačítkem
Zpět k motivačnímu příkladu
>
Křivka dole: dolní hranice intervalu, křivka uprostřed: bodový odhad průměru, křivka nahoře: horní
hranice intervalu
Legendu lze posouvat po kliknutí pravým tlačítkem: „Změnit na plovoucí text“
Název osy lze změnit kliknutím pravým tlačítkem: Možnosti grafu – Osa – Název
Název lze odstranit označením a kliknutím na Delete
Čeho si třeba všimnout do závěru: Nejnižší teplota byla v r. 2007, kdy byl také zjevně nejširší
interval spolehlivosti. Tzn. v tomto roce je bodový odhad méně spolehlivý!
Cvičení č. 6
•6.1. Zadání: Proveďte bodový a intervalový odhad průměru a směrodatné odchylky základního souboru
pro 95% a 99% interval spolehlivosti. Jako výběrový soubor použijte řadu průměrných ročních teplot
vzduchu na stanici Praha, Klementinum za období 120 let od ...… do …... (viz. cvičení 2).
•
•6.2. Zadání: Z průměrných měsíčních hodnot teploty vzduchu Vámi zpracovávané stanice (viz. cvičení
3) určete pro každý měsíc intervalový odhad průměru na hladině spolehlivosti 95 % a dále
směrodatnou chybu průměru, [aritmetický průměr, minimum a maximum] . Hodnoty aritmetického průměru
a intervalového odhadu vyneste do vhodného typu grafu, tak abyste mohli názorně prezentovat rozdíly
mezi jednotlivými měsíci. V závěru porovnejte intervalový odhad pro jednotlivé měsíce a
interpretujte - o čem vypovídá? Jak souvisí např. s variabilitou studované veličiny v daném měsíci?
•
Cvičení 6
•Požadovaný výstup cvičení:
•
•V zadání uvést Vaše období ze cv. 2 a Vaši stanici ze cv.3
•
•6.1: Tabulka s odhady
•
•6.2: Tabulka s aritm. průměry, dolní a horní hranicí intervalů a sm. chybou průměru; spojnicový
NEBO krabicový graf
•
•
•
•
•
•Závěr:
–6.1: Všimněte si např. šířky intervalů
pro 99% a 95% interval spolehlivosti – který je širší?
–6.2: Všimněte si, jak se šířka intervalu
měří v průběhu roku? Čím to může být způsobeno?
•
>
Poznámka ke cvičení: Nastavení pro tvorbu krabicového grafu
•Grafy – 2D grafy – Krabicové grafy
•Proměnné: Závislé (označit všechny měsíce)
•Karta Detaily
I tento graf je třeba upravit (osy, názvy, legenda…)
Zdroje
•BRÁZDIL, Rudolf. Statistické metody v geografii :cvičení. 3. vyd. Brno: Vydavatelství Masarykovy
univerzity, 1995. 177 s. ISBN 80-210-1260-9.
•
•BUDÍKOVÁ, Marie. Základní pojmy matematické statistiky (přednáška). Brno: Masarykova univerzita,
27.9. 2016.
•
•DOBROVOLNÝ, Petr. Z1069 Statistické metody a zpracování dat:IV. Odhady parametrů. Brno:
Masarykova univerzita, 27.9.2016.
•
•KHAN ACADEMY. KhanAcademy. 27.9.2016.
•
•STATSOFT. Nápověda k programu STATISTICA. 27.9.2016.
•
•Část dat použitých v příkladu pochází z databáze READER .