1 Konstrukce křivky teoretického rozdělení cvičení ze statistických metod č. 4 Zadání: 1) Sestrojte křivku normálního rozdělení průměrných ročních teplot vzduchu na stanici Praha, Klementinum za období 120 let od ...… do …... (data viz. cvičení 2). 2) Použijte 2 χ test a Kolmogorovův – Smirnovův test (K-S test) ke zhodnocení, zda existuje statisticky významný rozdíl mezi empirickými a teoretickými četnostmi průměrných ročních teplot vzduchu. 3) Vhodnost použití normálního rozdělení otestujte dále pomocí tzv. pravděpodobnostního grafu. 4) Ujistěte se, že pro řadu sum celkové výšky sněhové pokrývky na Milešovce za období 1925-1993 je použití normálního rozdělení nevhodné a z nabídky programu STATISTIKA zvolte jiný vhodnější typ teoretického rozdělení. Jeho vhodnost opět dokumentujte výsledkem 2 χ testu, K-S testu a pravděpodobnostním grafem. 5) Výsledky zpracování pro oba statistické soubory prezentujte dvěma typy grafů podle dodaného vzoru. Podkladová data: Soubory Klementinum_cv2.XLS a Mil_snih.XLS ve složce V:\Statistika\Cviceni_04 Poznámky ke zpracování: 1) Spusťte program STATISTIKA 2) Proveďte import výše uvedeného souboru Klementinum.XLS: Soubor – Otevřít, zvolit Typ souboru *.XLS a najít složku se jmenovaným souborem. Zatrhnout volbu „Importovat vybraný list do tabulky“. V dalším okénku zatrhněte „1. řádek jako názvy proměnných“, 3) Z celkového souboru vyberte vašich 120 hodnot (proměnných): Ve druhém pruhu nástrojů (ikon) vpravo klikněte Proměnné – Vytvořit podmnožinu/náhodné vzorkování. V políčku Proměnné vyberte Rok i I-XII. Dále klikněte na Případy. Do políčka „Zahrnout případy konkrétní/vybrané výrazem“ zadejte podmínku, např.: Rok > 1780 AND Rok < 1901 Pozor – všechna ostatní políčka musejí být prázdná! (Tato podmínka vybere ze souboru 120 hodnot počínaje rokem 1781) – viz. obr. 1 Pomocí správce jmen případů převeďte proměnou „ROK“ na jména případů a tuto proměnou odstraňte. 4) Sestrojení křivky normálního rozdělení: Zvolte „Statistika – Prokládání rozdělení – Normální“. V dalším okně klikněte na Proměnná a zvolte I-XII a klikněte OK. Pro výpočet K-S testu je nutné zatrhnout příslušnou položku v záložce Možnosti (Kolmogorov – Smirnovův test – Ano (spojitý) – viz.obr.2. Dále zvolte „Graf pozorovaného a očekávaného rozdělení“ 5) Upravte jednotlivé prvky grafu podle dodaného vzoru (poklepáním a jednotlivé prvky grafu – osy, popisky, čáry,… je lze změnit). Dále vyberte graf příkazy Zobrazit – Umístění grafu. Zkopírujte graf do schránky příkazem Úpravy – Kopírovat. Vložte graf do dokumentu. V programu WORD zadejte: Úpravy – Vložit jinak – obrázek. 6) Vytvoření pravděpodobnostního grafu. V programu STATISTIKA zvolte: Grafy – 2D grafy – Grafy typu P-P. V dalším okně klikněte na Proměnné a zvolte I-XII a klikněte OK. Jako typ rozdělení je vybráno Normální. Upravte jednotlivé prvky grafu (osy x, y 2 budou mít rozsah 0-1, úprava rozsahu os popsána v „úvodu do programu Statistica, viz. obr. 3) a vložte ho výše popsaným způsobem do dokumentu v programu WORD. 7) Proveďte import souboru Mil_snih.XLS a to stejnými kroky jako v případě předchozího souboru (viz bod 2). 8) Sestrojte křivku normálního rozdělení podle instrukcí v bodu 4. Z jakého důvodu je aplikace normálního rozdělení pro tento soubor nevhodná? 9) Na liště ve spodní části obrazovky otevřete opět okno „Proložení spojitých rozdělení“. Otestujte jiná spojitá rozložení nabízená programem a jedno z nich vyberte. Vaši volbu ověřte sestrojením P-P grafu podle instrukcí v bodě 6. 10) Oba grafy pro soubor Mil_snih.XLS upravte a zkopírujte do dokumentu v programu WORD Poznámka k interpretaci 2 χ testu: Tímto testem se testuje shoda empirického a teoretického rozdělení. Testování je založeno na stanovení nulové hypotézy o existenci shody obou rozdělení. Pro interpretaci výsledků testu v programu STATISTIKA je vedle hodnoty testovacího kritéria rozhodující vypočtená hodnota hladiny významnosti p. Obecně používaná hladina významnosti testu je p=0,05. Vychází-li tedy p-hodnota podstatě větší než 0,05, potom nemůžeme zamítnout nulovou hypotézu a můžeme prohlásit, že mezi empirickými a teoretickými četnostmi není statisticky významný rozdíl. Jinými slovy – použití normálního rozdělení je vhodné. Poznámka k interpretaci K-S testu: Tento test lze použít pro testování významnosti shody teoretického a empirického rozložení i v případech, kdy nelze použít 2 χ testu. Hodnota testovacího kritéria u K-S testu však vychází pouze z jedné hodnoty – z maximálního rozdílu empirických kumulovaných četností. Proto není tak spolehlivým testem. Vhodnost či nevhodnost testovaného rozdělení posuzujte opět podle p hodnoty jako v případě 2 χ testu. Zkratka n.s. značí nevýznamný výsledek. Poznámka k interpretaci pravděpodobnostního grafu (P-P grafu): V tzv. P-P grafu jsou vyneseny na ose y pravděpodobnosti výskytu empirických (původních, měřených) kumulativních hodnot studovaného znaku, na ose x potom pravděpodobnosti teoretických (vypočtených) kumulativních hodnot znaku. Pokud lze body grafu proložit přímku, potom můžeme tvrdit, že uvažované teoretické rozdělení dobře aproximuje hodnoty studovaného souboru. Pokud přímku netvoří, zvolené teoretické rozdělení není vhodné a je třeba hledat jiné. 3 Obr. 1. Filtr pro výběr množství případů Obr. 2. Proložení spojitých rozdělení 4 Obr. 3. Úprava rozmezí os x,y u P-P grafu 5 Normální rozdělení Chí-kvadrát test = 2,80353, sv = 5 (uprav.) , p = 0,73024 6,5 7,0 7,5 8,0 8,5 9,0 9,5 10,0 10,5 11,0 11,5 12,0 t [°C] 0 5 10 15 20 25 30 ni Obr. 4 Křivka normálního rozdělení průměrných ročních teplot vzduchu v Praze, Klementinu v období 1781-1900 P-P graf Rozdělení: Normální(9,33833, 0,978009) 0,0 0,2 0,4 0,6 0,8 1,0 Teoretické kumulativní rozdělení 0,0 0,2 0,4 0,6 0,8 1,0 Empirickékumulativnírozdělení Obr. 5 Pravděpodobnostní graf (P-P graf) normálního rozdělení průměrných ročních teplot vzduchu v Praze, Klementinu v období 1781-1900 6 Vhodný typ rozdělení Chí-kvadrát test = 14,71775, sv = 17, p = 0,61580 0 1000 2000 3000 4000 50 00 6000 7000 8000 9000 H [cm] 0 2 4 6 8 10 12 14 16 18 20 ni Obr. 6 Křivka vhodného teoretického rozdělení celkové výšky sněhové pokrývky na Milešovce v období 1925 – 1993 P-P graf 0,0 0,2 0,4 0,6 0,8 1,0 Teoretické kumulativní rozdělení 0,0 0,2 0,4 0,6 0,8 1,0 Empirickékumulativnírozdělení Obr. 7 Pravděpodobnostní graf (P-P graf) vhodného teoretického rozdělení celkové výšky sněhové pokrývky na Milešovce v období 1925 – 1993