Statistické metody II, cvičení č. 5 Analýza trendu (odhad lineárního trendu a klouzavé průměry) Brno, 11.4.2016 Klára Ambrožová Motivační příklad Úvod • Rodina Mráčkova by si ráda postavila rodinný domek. • Velmi se jim zalíbily Dluhonice, část města Přerov. • Tímto územím však protéká řeka Bečva a rodina se obává výskytu povodní. • Řeší tedy otázku: Jak často se v Dluhonicích vyskytují povodně v současné době a co lze očekávat do budoucna? Data • Dosažení 2. či vyššího SPA na stanici Dluhonice podle Hydrologických ročenek ČHMÚ (http://voda.chmi.cz/roc/index.html) • Průměrný počet dosažení v období 1999–2015: 0,82 Pozn. Data byla z didaktických důvodů upravena, nejde o reálné hodnoty Mění se počet povodní? • Nalézt funkci závislosti počtu dosažení 2. SPA na čase yt … počet dosažení t … čas v letech • Možnosti: – Model konstanty yt = b0 (~ průměr) – Lineární model yt = b0 + b1*t – Exponenciální model yt = b0 * b1 t … yt = f (t) 1) Grafické znázornění • Subjektivně pohledem zhodnotit, který trend by byl vhodný • Trend je obtížné odhadnout → nejlépe začít s nejjednoduším Pozn. Tento krok je při vypracování cvičení vynechán. 2) Proložení lineárním trendem • Nalezení vhodné lineární funkce metodou nejmenších čtverců • Interpretace: Získali jsme rovnici lineárního trendu, kde koeficient b1 je kladný (0,0637), v Dluhonicích tedy dochází k nárůstu počtu dosažení a překročení 2. SPA yt = 0,25 + 0,0637*x 3) Je lineární model vhodný? 1. Informativní test: 1. diference přibližně konstantní Interpretace: 1. diference nejsou konstantní, ale není patrný ani zřetelný nárůst či pokles → nelze vyloučit vhodnost modelu Rozdíl mezi hodnotou v daném a předchozím roce yt – yt-1 Pozn. Tento krok je při vypracování cvičení vynechán. 3) Je lineární model vhodný? 2. Hodnocení pomocí objektivních kritérií Vydělíme-li počtem hodnot (n), vznikne střední čtvercová chyba odhadu Koeficient determinace (rxy 2; uvádí, jak velkou část rozptylu vysvětluje model) Koeficient korelace – těsnost lineárního vztahu (ve vzorci x odpovídá t a y odpovídá yt) Interpretace: Model vysvětluje pouze 15,8 % celkového rozptylu; střední čtvercová chyba odhadu (8,81/17=0,51) je relativně nízká; pro daný počet stupňů volnosti (n – 2=15) na hladině významnosti α = 0,05 platí kritická hodnota rkrit = 0,44 > 0,398 → vztah je tedy statisticky nevýznamný. 3. Analýza rozptylu – aproximuje lineární model data lépe než model konstanty (~ průměr)? H0: Model konstanty je dostačující 3) Je lineární model vhodný? Testová statistika F: Interpretace: Hodnota testovacího kritéria je 11,22, čemuž odpovídá p-hodnota 0,001 → zamítáme hypotézu, že dostačující je model konstanty. 4. Testování významnosti regresních parametrů – jsou v rovnici potřeba všechny členy (neboli nestačil by model yt=a nebo yt=b*t)? 3) Je lineární model vhodný? Testovací kritérium t-testu pro absolutní člen (a) a směrnici (b) vč. odpovídající p-hodnoty Odhad absolutního členu Odhad směrnice Interpretace: Výsledná rovnice by měla tvar yt = 0,25 + 0,064*t. V daném případě však není ani jeden z regresních parametrů statisticky významný (p-hodnoty jsou větší než 0,05), takže by bylo třeba zvolit jiný model. ZÁVĚR: Počet dosažených a překročených 2. SPA se s časem mění, nikoliv však lineárně – lineární model proto v tomto případě není vhodný. Analýza reziduí • Následně se provádí ještě analýza reziduí • Rezidua by měla mít následující vlastnosti: – normálně rozložená (karta Rezidua – Normál.pravd.graf reziduí – body by měly ležet na přímce) – mít konstantní rozptyl (karta Rezidua – Rezidua vs. Předpovědi – rozmístění kolem nuly by mělo být náhodné) – mít nulovou střední hodnotu (lze určit pomocí t-testu pro samostatný vzorek – testujeme hypotézu, že se rezidua stat. Významně neliší od nuly) – být nezávislá (provádí se přes modul Vícenásobná regrese pomocí DurbinWatsonovy statistiky, která by měla být přibližně v intervalu od 1,4 do 2,6) ZÁVĚR: Pokud rezidua splňují výše uvedená kritéria, je model vhodný. Motivační příklad – pokračování • Lineární trend nevhodný pro aproximaci počtu dosažení a překročení 2. SPA na stanici Dluhonice x počet není v čase konstantní! • Zjištění období nárůstu a poklesu počtu hodnot = metoda klouzavých průměrů – prosté – vážené Metoda klouzavých průměrů Pozn. Ve cvičení se používá 11-letý klouzavý průměr. Od r. 2006 docházelo k nárůstu počtu dosažení a 2010–2013 bylo období nejvyšších dosažených hodnot za dobu sledování V období 2005– 2006 docházelo k poklesu počtu dosažení ZÁVĚR: Přestože lineární trend nebyl vhodným modelem pro danou problematiku, z analýzy klouzavých průměrů lze zjistit, že v poslední době (od r. 2006) se počet dosažení 2. SPA v Dluhonicích zvyšuje. Zdroje: • BUDÍKOVÁ, Marie. Jednoduchá lineární regrese (přednáška). Brno: Masarykova univerzita,8.4. 2016. • DOBROVOLNÝ, Petr. Z2069 Statistické metody a zpracování dat II: Analýza časových řad (přednáška) Brno: Masarykova univerzita,8.4. 2016. Poznámka: • Pro problém z motivačního příkladu by bylo vhodnější se podívat na záplavová oblastí města Přerov a hodnotit riziko pro konkrétní lokalitu (http://www.prerov.eu/cs/ magistrat/mapove-centrum-gis/ mapy-zaplavovych-oblasti.html) Poznámka ke cvičení • Cvičení bude obsahovat: 1) Graf časové řady s lineárním trendem vč. rovnice, 2) Tabulku s koeficienty rovnice (a, b), F-hodnotu analýzy rozptylu, střední čtvercovou chybou odhadu, koeficienty korelace a determinace – vč. p-hodnot tam, kde jsou k dispozici, 3) NP-graf pro rezidua a obrázek Rezidua vs. Předpovědi, 4) Graf časové řady s lineárním trendem a 11-letým klouzavým průměrem • Závěr bude obsahovat: – Hodnocení vhodnosti proložení časové řady lineárním trendem – Interpretace lineárního trendu – růst či pokles hodnot v studovaném období? – Hodnocení klouzavých průměrů – období výskytu minimálních resp. maximálních teplot a také období největšího růstu (resp. poklesu) teplot ve studovaném období • Všechny kroky v programu Statistica nutné k vypracování jsou uvedeny v popisu cvičení