Statistické metody a zpracování dat 1 (podzim 2015) Brno 19., 24. a 25.11. 2015 Ambrožová Klára Cvičení 7: Testování statistických hypotéz Aplikace F-testu a t-testu pro nezávisle proměnné Úvod do problematiky •Pepík a Toník se rozhodli porovnat hustotu sněhu v Jeseníkách a Beskydech. • •Jednoho jasného lednového dne se tedy Pepík vydal Praděd a Toník na Lysou horu. Oba šli po západním svahu a měřili přibližně každých 100 m výškových metrů, přičemž s prvním měřením začali v deset hodin ráno. • •Ve 12:00 dorazila do Hrubého Jeseníku teplá fronta, která znemožnila Pepíkovi provést všechna měření. Do Beskyd dorazila až o 2 hodiny později, takže Toník všechna měření dokončil. • •Z Beskyd teď mají 10 měření a z Jeseníku jen 8. Co s tím? Bylo celé měření k ničemu? • • • • Priklad1 Pepík: Z Koutů na Praděd skoro 10 km, výškově od 604 do 1491 m n. m., udělal 10 měření. Toník: Z Ostravice pouhých 6,5 km z 414 na 1323 m n. m, takže udělal taky 10 měření.  Jednotky kg/m3. Trocha teorie •Testovat je možno odlišnost i u souborů, které nemají stejný počet prvků • •Aplikujeme F-test a poté t-test • •Jak postupujeme? 1.Určíme, zda máme normální rozdělení (známe z přechozích cvičení) 2.Stanovíme si hladinu významnosti –Obvykle se stanovuje 5 % nebo 1 %, popř. 10 % –V případě, že stanovíme hladinu významnosti 1 %, pak budeme p-hodnotu porovnávat s 0,01 3.Určíme shodu rozptylů pomocí F-testu 1. 4. • Priklad2 F-test •umožní nám určit, zda se liší rozptyly testovaných souborů •nulová hypotéza – rozptyly obou souborů se neliší • H0: • •alternativní hypotéza – liší se dle toho, co chceme testovat, ale v tomto případě chceme použít oboustranný test! • • H1: (pro oboustranný test) – – H1: nebo (pro jednostranný test) – •výpočet: podíl odhadů rozptylů základních souborů • • F-test •Vypočtenou hodnotu porovnáme s kritickou hodnotou (lze určit ze statistických tabulek na základě stupňů volnosti) NEBO nám software spočte p-hodnotu, kterou porovnáme s námi zvolenou hladinou významnosti • • • • •Jak postupovat dál? – p > 0.01 → platí H0, hodnotíme t-test (ve stejné tabulce) – p < 0.01 → platí H1 (chceme-li dále pokračovat ve výpočtu, tak je v softwaru STATISTICA nutno zaškrtnout volbu „Test se samostat. odhady rozptylů“ na kartě „Možnosti“) – 4.t-test • Priklad3 t-test •lze použít např. pro testování rozdílů dvou výběrových průměrů •výpočet se liší podle toho, zda jsou či nejsou shodné rozptyly! –rozptyly jsou shodné – – – –rozptyly se liší • • •nulová hypotéza – výběrové průměry obou souborů se neliší • H0: • •alternativní hypotéza – liší se dle toho, co chceme testovat, ale v tomto případě chceme použít oboustranný test! • • H1: (pro oboustranný test) – – H1: nebo (pro jednostranný test) • Priklad5 t-test •hodnocení t-testu: –p > 0.01 → platí H0, nebyl prokázán rozdíl mezi výběrovými průměry –p < 0.01 → platí H1, tedy bylo zjištěno, že mezi průměry souborů existuje statisticky významný rozdíl Priklad3 Co z toho vyplývá? (aneb co napíšou Pepík a Toník do závěru…) •Pepík a Toník si zvolili hladinu významnosti 1 %, no a vyšlo jim, že rozptyly hustot sněhu na Pradědu a Lysé hoře se statisticky významně neliší, a výběrové průměry také ne • •Toník se podíval na krabicový graf a konstatoval, že průměry obou souborů se liší o téměř 80 kg/m3 a také minimální a maximální hodnota jsou zřetelně odlišné, a že se mu to nějak nezdá… • •Pepík po chvíli přemýšlení řekl, že i jemu ty soubory připadají dost odlišné, a že by mohli do závěru napsat, že měření byla pravděpodobně ovlivněna tím, že z vrcholových částí Jeseníků nebylo k dispozici žádné měření, a že by tudíž asi bylo vhodnější zvolit jinou hladinu významnosti (tedy 5 %) nebo provést pokus ještě alespoň jednou • • Zdroje •BRÁZDIL, Rudolf. Statistické metody v geografii :cvičení. 3. vyd. Brno: Vydavatelství Masarykovy univerzity, 1995. 177 s. ISBN 80-210-1260-9. • •BUDÍKOVÁ, Marie. Parametrické úlohy o dvou nezávislých náhodných výběrech z normálních rozložení (přednáška). Brno: Masarykova univerzita,17.11.. 2015. • •DOBROVOLNÝ, Petr. Z1069 Statistické metody a zpracování dat: V. Testování statistických hypotéz (přednáška) Brno: Masarykova univerzita,17.11.. 2015. • Dodatek 1 : Co je co ve výsledných tabulkách? •Nebyl prokázán statisticky významný rozdíl mezi rozptyly: (pozor, tabulka je rozpůlená) shodne_rozptyly 1) F-poměr: hodnota spočteného testovacího kritéria, p-rozptyly: p-hodnota příslušející tomuto F-testu (zde je větší než 0,05 nebyl prokázán rozdíl mezi rozptyly 2) Hodnota t: hodnota spočteného testovacího kritéria pro t-test, p: p-hodnota příslušející t-testu (menší než 0,05, takže byl prokázá rozdíl mezi střední hodnotou souborů!) Tohle jsou průměry souborů ze Strážnice a z Klementina Sv: stupně volnosti, zde spočtené jako (30+120)-2 Počet členů v souboru ze Strážnice a z Klementina Směrodatné odchylky obou souborů Dodatek 1 : Co je co ve výsledných tabulkách? •Byl prokázá statisticky významný rozdíl mezi rozptyly zde je tabulka po spočtení znovu se zakliknutým „t-test se samost. Odhady rozptylů“(pozor, tabulka je rozpůlená) odlisny_rozptyl Ve střední části tabulky přibyla část pro interpretaci, kde „t samost. Odh. Rozp.“ je hodnota testovacího kritéria t-testu, a „p oboustr.“ je příslušná p-hodnota Dodatek 2: Proč se mohou soubory z cv7 lišit? a)U klimatologických dat hodně záleží na geografické poloze (zeměpisná šířka a délka, nadmořská výška) → je třeba se podívat, zda se poloha mého města (Aš, Bylnice…) neliší od polohy Klementina b) b)Data mohou pocházet z jiného období – zatímco období 1961–1990 bylo v ČR velmi teplé, tak třeba období 1830–1930 patřilo v ČR spíše k chladnějším obdobím (i když tohle je hodně zjednodušené) → jak moc se mi liší období z Klementina od období 1961–1990 c) c)Soubor, který obsahuje více prvků, je reprezentativnější a data z Klementina jsou v tomto případě 4x delší než dat z druhého místa, je tedy možné, že v Klementinu bylo zachyceno více extrémních situací d) d)Určitě na něco přijdete sami… e) e)