E4221-Modelování a intepretace environmentálních dat Klára Komprdová Přehled přednášek a cvičení • Úvod do statistického modelování, experimentální design, nejistoty modelů • Prostorové modelyI- prostorová autokorelace • Prostorové modelyII – interpolační techniky • Hodnocení časových řad • Vícerozměrné metody pro identifikaci a klasifikaci znečištění Environmentální informace, data a studie Jak na to, když nás zajímá třeba… Výskyt a hladiny látek v životním prostředí Osud látek v prostředí (např. transport a distribuce) Monitoring časových a prostorových trendů různých jevů a skutečností Srovnání modelů s měřenými daty Rozhodování v oblasti životního prostředí, analýza nákladů a přínosů ? Metodický postup u environmentálních studií Experimentálnídesign Environmentálníinformace Environmentální data Laboratorními experimenty a terénními studiemi získáváme environmentální data. Jsou to zaznamenané údaje o určitých skutečnostech životního prostředí. • primární • agregovaná • indikátory (ukazatele) životního prostředí – kvalitativní indikátory – kvantitativní indikátory Hřebíček a Kubásek, 2011 Environmentální informace Environmentální informace jsou jakékoli informace v písemné, obrazové, zvukové, elektronické nebo jiné podobě o: • stavu složek životního prostředí • faktorech, které ovlivňují nebo mohou ovlivnit stav složek prostředí • opatřeních, které ovlivňují nebo mohou ovlivnit složky a faktory • zprávách o provádění právních předpisů o životním prostředí • analýzách nákladů a přínosů použitých v rámci aplikace opatření • stavu lidského zdraví a bezpečnosti Environmentální informační systémy Existují různé environmentální informační systémy (EIS), které zpracovávají, vyhledávají a prezentují environmentální data. EIS jsou budovány: • veřejnou správou na národní úrovni • veřejnou správou na mezinárodní úrovni • vědeckými institucemi • nevládními organizacemi • podnikatelskou sférou Příklad environmentální databáze a informačního systému Global Environmental Assessment Information System (GENASIS) http://www.genasis.cz GENASIS poskytuje informace o persistentních organických polutantech Jak hledat informace o životním prostředí v ČR? Příkladem webového portálu nevládní organizace, která seznamuje se základními informačními zdroji o životním prostředí v ČR, je: http://arnika.org/jak-a-kde-najit-informace-o-zivotnim-prostredi-cr Experimentální design laboratorní studie a experimenty Pokud jsme nenašli požadovaná data a informace, musíme je sami vytvořit experimenty a odběry vzorků v terénu kombinací obého Experimentální design • dostatečně velký – tj. měl by obsahovat množství vzorků dostatečné pro popis situace, statistické vyhodnocení, spolehlivé modelování apod. • nezávislý – tj. design • reprezentativní – tj. měl by pokrývat celou oblast našeho zájmu; celý rozsah možností, které zkoumáme by měl být objektivní a nic nepreferovat • získaný konzistentní metodologií – tj. měl by zaručit odběr/analýzu vzorků stejnou metodikou nebo srovnatelnými metodikami • se signifikantní přesností – tj. měla by být získána takovými metodami, které jsou výrazně přesnější než variabilita souboru Datový soubor, který hodnotíme, by měl být: Hengl (2007) PROBLÉM: v reálu tomu tak často není PROTO je nutné vše dobře plánovat!  Experimentální design – příklad Zavádění nové analytické metody v laboratoři pro stanovení různých koncentrací vybraného polutantu v několika environmentálních matricích. Soubor dat by měl splňovat tyto podmínky: • dostatečně velký – soubor různých naspikeovaných koncentrací polutantu v matricích musí dostatečně pokrýt gradient znečištění • reprezentativní – metodu je třeba vyzkoušet na všech matricích, které budou v budoucnu studovány • nezávislý – existuje-li podezření, že metoda má horší výsledky u nízkých koncentrací polutantu, není možné je do studie nezahrnout • získaný konzistentní metodologií – celý analytický postup musí být stále stejný, jak u zavádění metody, tak u její následné rutinní aplikace na reálné vzorky • se signifikantní přesností – limity detekce a kvantifikace musí odpovídat reálným hladinám polutantu v prostředí Rozdělení modelů Popisuje budoucí stav systému nebo jeho podmínek? ANO dynamické modely - závislé na čase - spojité, diskrétní NE statické modely - nezávislé na čase Popisují prostorovou strukturu? ANO prostorově heterogenní - diskrétní, spojité NE prostorově homogenní modely Zahrnuje náhodnou složku? ANO stochastické modely NE deterministické modely Podle čeho vybírat model? • povaha problému, hypotézy, řešené otázky • měřítko – např. velikost zkoumaného území • povaha dat, které jsou k dispozici – např. odlehlé hodnoty • velikost datového souboru, který je k dispozici - metody vhodné pro malé/velké soubory • přesnost modelu • interpretovatelnost modelu • a řadu dalších Výběr modelu záleží na zkoumaném problému. Je třeba brát v potaz tyto aspekty: Proces modelování • design vzorkování a zpracování dat (z literatury, předešlých experimentů) • terénní sběr dat a laboratorní analýzy • analýza datového souboru a tvorba modelu • kalibrace a validace modelu • interpretace modelu, jeho srovnání s realitou • použití modelu Proces modelování Typy dat • kvalitativní (kategoriální): lze pouze určit, zda jsou dvě „hodnoty“ stejné nebo se liší ̶ např. typ půdy • semikvantitativní (ordinální): lze určit rovněž pořadí hodnot ̶ např. teplota po stupních • kvantitativní (spojité): lze provádět všechny matematické operace, mohou mít intervalovou nebo poměrovou podobu ̶ např. koncentrace látek • binární: lze je považovat za kvantitativní, semikvantitativní i kvalitativní proměnnou ̶ výskyt/ nevýskyt látky (informace typu ANO/NE) Různé typy dat rozlišujeme podle toho, jakých hodnot může daná skupina dat nabývat nebo jaké operace s nimi lze provádět. Nejistoty modelů • nejistoty proměnných (plynoucí z chyb při odběru vzorků a analýze v laboratoři, agregace dat, odečítání hodnot z map, designu experimentu apod…), které do modelu vstupují • nejistoty modelů samotných (konstrukce modelů, zjednodušující předpoklady…) Nejistoty, se kterými se při modelování potýkáme, s nimiž je třeba počítat a které musíme znát, jsou zejména dvou typů: Prostorové modelování - Jak jsou data rozložená v prostoru? Prostorová analýza :  Hledá a popisuje různé vzory v geografickém prostoru  Snaží se porozumět prostorovým jevům  Využití geografických informačních systémů Prostorové modelování Co nás zajímá? • Jak se pozorování mění v prostoru? • Co způsobuje tuto změnu v prostoru? • Kolik pozorování (např. lokalit) potřebujeme, abychom dokázali popsat prostorovou variabilitu? • Jaká bude hodnota proměnné na novém místě? • Jaká je nejistota našeho odhadu (predikce)? T. Hengl (2007) A Practical Guide to Geostatistical Mapping of Environmental Variables Co všechno můžeme modelovat v prostoru? • konkrétní hodnoty – (koncentrace, početnosti…) • pravděpodobnosti – (pst překročení limitu…) • presence/absence – (přítomnost/nepřítomnost polutantu… ) • nejvíce pravděpodobná entita – (typy půdy, převažující typ znečištění, využití krajiny…) Koncentrace kadmia na území ČR s využitím metody IDW Koncentrační mapa Mapa zásob DDT (kg/km2) Pravděpodobnost překročení limitní hodnoty 100 Bq/m2 u 241Americia v půdě v oblasti severně od Černobylu v roce 1992 (Krivoruchko 1999) Pravděpodobnostní mapa I Pravděpodobnostní mapa II Mykomapa - předpovídá pravděpodobnost růstu hub na území ČR a současně informuje o možném riziku nakažení nemocemi přenášenými klíšťaty Mapa krajinného pokryvu Guisan & Zimmermann, 2000 Modelování vegetace a) pravděpodobnosti b) abundanční skóre c) výskyt/nevýskyt d) vegetační typy www.esri.com, GIS in Africa http://www.gfdl.noaa.gov/global-warming-and-hurricanes-figures Prostorová distribuce a plán vzorkování (sampling design) Náhodný typ distribuce pro 3 typy prvků: body, linie, areály Shlukový typ distribuce pro 3 typy prvků: body, linie, areály Pravidelný typ distribuce pro 3 typy prvků: body, linie, areály Kvalitní datový soubor • dostatečně velký • reprezentativní • získán konzistentní metodologií • se signifikantní přesností • nezávislý • Vzorkování • jednoduchý náhodný výběr • systematický výběr • stratifikovaný náhodný výběr • preferenční sběr Testování prostorové distribuce Komponenty vzorkování (Legendre & Legendre, 1998) • velikost zrna (grain size) je velikost základní vzorkovací jednotky, může být vyjádřena jako průměr, plocha či objem • interval (sampling interval) je průměrná vzdálenost mezi sousedícími vzorkovacími jednotkami • rozsah (extent) – celková délka, plocha nebo objem zahrnutý do studie Interpolace x Extrapolace Interpolace – pro „známé“ území (oblast o které máme informace) • nejsou potřeba žádné další informace o podmínkách daného území • parametry modelu jsou voleny libovolně či empiricky • neodhaduje se predikční chyba • většinou nejsou kladeny žádné statistické předpoklady Extrapolace – použití modelu na nové území • potřebujeme další informace o podmínkách daného území • složitější modely • odhad chyby predikce • statistické předpoklady • sada parametrických i neparametrických metod F. Ježek (2006) Interpolace funkcí Interpolace, aproximace, extrapolace Interpolace x Extrapolace Interpolace – nerovnoměrné vzorkováníInterpolace – rovnoměrné vzorkování ? Extrapolace – prediktivní modelování Interpolační metody Rozdělení metod: • Deterministické (MECHANICAL/EMPIRICAL MODELS ) – (IDW – Inverse distance interpolation, Regression on coordinates, Splines …) ̶ parametry modelu jsou voleny libovolně či empiricky ̶ neodhaduje se predikční chyba ̶ většinou nejsou kladeny žádné statistické předpoklady • Geostatistické (STATISTICAL (PROBABILITY) MODELS) – využívají prostorovou strukturu celého pole, pro celé pole lze spočítat chybu interpolace (různé typy krigingu–obyčejný, univerzální, blokový, cokriging, Bayesian Maximum Entropy) ̶ odhad parametrů v modelu objektivně-teorie pravděpodobnosti ̶ odhad chyby predikce ̶ statistické přepoklady • Metody prediktivního modelování ̶ Sada parametrických i neparametrických metod Pokročilejší modelovací přístupy Y X Přímá ordinace Ordinace, interpolace X y Xynebo Klasifikace • Metody založené na stromech • Lineární dikriminační analýza • Neuronové sítě • Metoda podpůrných vektorů • Logistická regrese • Bayesovský klasifikátor … Regrese • Klasický lineání model • Lineární zobecněné a aditivní modely • Nelineární regrese • Na stromech založené techniky • Neuronové sítě • Metoda podpůrných vektorů • Na stromech založené techniky … “everything is related to everything else, but near things are more related than distant things” Waldo Tobler Prostorová autokorelace Negativní Náhodná Pozitivní Prostorová autokorelace • existence autokorelace prostorových dat je obvyklá • způsobuje selhávání některých základních předpokladů statistické analýzy, zejména: ̶ nezávislosti jednotlivých pozorování ̶ nedostatku předpokladů, týkajících se chyb a reziduí v regresní analýze • nevhodné použití klasických metod korelační a regresní analýzy u dat, která nesou prostorovou informaci • byly vyvinuty prostorové modely a metody zohledňující autokorelaci • řada způsobů pro testování existence prostorové autokorelace Prostorová autokorelace Měření prostorové autokorelace • existence autokorelace prostorových dat je obvyklá • před výpočtem prostorových autokorelačních koeficientů je potřeba spočítat matici geografických vzdáleností [Dhi] mezi lokalitami • autokorelační koeficienty jsou spočítány pro jednotlivé vzdálenostní třídy d • váhy whi (Kronecker deltas) kde: whi = 1 - lokalita h a i jsou ve vzdálenosti d whi = 0 jinak • pouze páry lokalit (h,i) ve vzdálenostní třídě d jsou použity pro výpočet příslušného koeficientu • W je suma všech vah whi pro danou vzdálenostní třídu (počet párů použitých k vypočítání koeficientu) Měření prostorové autokorelace Statistické měření pro zjištění prostorové autokorelace Moranův index (I) Gearyho index (C) ( )( ) ( )  = == − −− = n i i n i ihhi n h yy n yyyyw W dI 1 2 11 1 1 )( ( ) ( ) ( )  = == − − − = n i i n i ihhi n h yy n yyw W dc 1 2 1 2 1 1 1 2 1 )( yh a yi jsou hodnoty pozorované na místě h a i, w jsou váhy a y je průměr hodnot Moranův index – podobný Pearsonovu korelačnímu koeficientu (-1,1) Gearyho index – vzdálenostního typu (0, > 1) Prostorový korelogram – autokorelační hodnoty x vzdálenosti pozorování X matice vzdáleností mezi pozorováními vzdálenost Početpárů 1 2 3 4 5 6 7 8 9 Prostorový korelogram Výpočet indexů pro jednotlivé vzdálenosti Vzdálenost d = 1 d = 2 d = 3 atd. malé N! Legendre, 2003 Prostorový korelogram Legendre, 2003 Prostorový korelogram II Legendre, 2003 Moranův index (I)-testování • nulová hodnota znamená náhodnou prostorovou distribuci • pro testování hypotézy se hodnoty Moranova indexu transformuhí na z-skóre (hodnoty větší než 1.96 nebo menší než -1.96 → prostorová autokorelace je významná na hladině významnosti 5% • x je skóre, které chceme standardizovat a σ je směrodatná odchylka  xx z − = Interpolační metody IDW, Kriging, Trendová analýza • Nejjednodušší neparametrická technika • Interpolační prostor (povrch) by měl být ovlivněn spíše bližšími body než vzdálenými • Interpolační prostor je váženým průměrem rozložení bodů a váha přiřazená každému bodu se zmenšuje se vzrůstající vzdáleností od interpolovaného bodu IDW - Inverse distance weighted – inverzní vážená vzdálenost Příklad použití metody IDWkoncentrace SO2 IDW - Inverse distance weighted – inverzní vážená vzdálenost Velikost příspěvku je přímo úměrná velikosti hodnoty a na druhé straně nepřímo úměrná vzdálenosti. M. Klimánek, Prostorová interpolace dat „Mi“je známá hodnota v i-tém místě, „ri“ vzdálenost i-tého místa od místa X, „k“ je vhodná mocnina vzdálenosti (např. 1 nebo 2) a n je počet bodů. Kriging Francouzský matematik Georges Matheron odvodil matematický popis krigingu na základě práce důlního inženýra Daniela Gerharduse Kriga, po němž tuto metodu také roku 1962 nazval ̶ při hledání zlatých dolů v jižní Africe! Daniel Gerhardus Krige 26 August 1919 Kriging • Sofistikovanější IDW – jak odhadnout váhy jednotlivých bodů? ̶ odhadnout váhy které odrážejí skutečnou prostorovou autokorelační strukturu ̶ Semivariance – rozdíly mezi nejbližšími body → teoretický variogram Spherical model Exponential model Gaussian model range sill h (h) • sumarizuje sílu asociace mezi pozorováními jako funkci vzdálenosti • experimentální variogram je graf, který ukazuje jak se ½ mocninného rozdílu mezi dvěma hodnotami (semivariance) mění se vzdáleností mezi pozorováními • očekáváme menší semivarianci v menších vzdálenostech a stabilní semivarianci mezi hodně vzdálenými pozorováními Variogram T. Hengl (2007) A Practical Guide to Geostatistical Mapping of Environmental Variables Exponenciální model semivariogramu vzdálenost (h) semivariance(γ) Exponenciální model nugget = 8,8 práh = 44,8 rozsah = 93 nugget práh rozsah Modely variogramu Isotropní – v každém směru stejný variogram Anisotropní – v různém směru různý variogram Isotropní x anisotropní variogram Isotropní x anisotropní variogram Trend surface analysis – Trendová analýza • metoda pro vytváření vyhlazených (smoothed) map • odhady proměnných v daných lokalitách jsou získány regresním modelem kalibrované přes celou studovanou plochu • Vyjádříme proměnnou y (odpověď) jako nelineární funkci geografických souřadnic X a Y jednotlivých ploch, kde byly proměnné sledovány • trend surface analysis je aplikace polynomiální regerese k prostorově uspořádaným datům • Postup: vycentrujeme (na průměr ) y, Y, X (intercept = 0); vybereme stupeň polynomu; vyřadíme nesignifikantní členy (backward elimination), dokud všechny členy polynomiální rovnice nebudou signifikantní; vypočítáme nové odhady y Model jednoduché lineární regrese -opakování  ++= XY Závisle proměnná Odpověď Dependent v., response Intercept Sklon, též regresní koeficient Slope Nezávisle proměnná, prediktor, Independent v. Náhodná variabilita Polynomiální regrese • polynomiální regrese - libovolnou funkci lze nahradit (v omezeném rozsahu hodnot prediktoru) polynomem • mám představu (třeba z nějaké teorie), jak má závislost vypadat, a věřím, že residuály budou náhodně kolem predikované hodnoty • tradiční názvy kvadratická regrese, kubická regrese Polynomiální regrese • mnohonásobná lineární regrese, kde prediktory jsou X, X2, X3 atd. se počítá stejně (tj. opět kriterium nejmenšího součtu residuálních čtverců, které má opět (normálně) jedno minimum). • do modelu jsou přidávány pouze proměnné, které snižují residuální chybu modelu: dopředný výběr (forward elimination) – začínáme s konstantou (interceptem) a postupně se přidávají jednotlivé členy zpětný výběr (backward elimination) – začínáme se všemi členy, postupně se odebírají ty, které přispívají k nejmenšímu snížení residuální chyby • obdobný význam má i R2  ++++++= m mXXXXY 3 3 2 21 kvadratická regrese může být vysoce průkazná, i když lineární regrese průkazná není průkaznost kvadratického členu můžeme chápat jako důkaz nelinearity vztahu Y= -6.3+7.2015*x-0.6288*x^2; 0.95 Conf.Int. 0 2 4 6 8 10 12 X -2 0 2 4 6 8 10 12 14 16 18 Y Polynomiální regrese Se zvyšujícím se stupněm polynomu stoupá “flexibilita” 1 2 5 43 Pozor! Zvyšující se složitost nemusí znamenat lepší predikční schopnost Zpět k trendové analýze... • většinou polynom max. 3. stupně • zkoumáme závislost proměnné na prostorové struktuře • máme představu (z teorie), jak má závislost vypadat • proměnnou můžeme rozdělit na dvě komponenty – trend a odchylky od trendu (residua) ̶ trend je celkový (globální) „pattern“ (lineární –klesající, stoupající; kvadratický, kubický) ̶ residua reprezentují lokální „pattern“ y = a + β0x + β1y + β2x2 + β3xy + β4y2 Globální trend Lineární Kvadratický Kubický Příklad Globální gradient + lokální změny http://www.kgs.ku.edu 1. stupeň polynomu → gradient od východu na západ residua → lokální změny Příklad – koncentrace aerobních bakterií 20 vzorkovacích míst Legendre, 2003 Příklad – koncentrace aerobních bakterií II • Začínáme s rovnicí 3. řádu • Rovnice 1. řádu (X, Y, X*Y) R2 = 0.02 (p = 0.52) - není významný lineární trend • Rovnice 2. řádu (X2, Y2,…) R2 = 0.39 (p = 0.21) – stále nevýznamný trend • Rovnice 3. řádu (X3, Y3,…) R2 = 0.87 pro všechny členy- významný trend– některé členy můžeme odstranit – zpětné odstranění • Finální rovnice: y = 8.13 – 0.16XY - 0.09Y2 + 0.04X2Y + 0.14XY2 + 0.10Y3 (R2 = 0.81, p = 0.0001) • Používáme pouze je-li viditelná jednoduchá závislost! Shrnutí • tři techniky pro prostorovou interpolaci: ̶ IDW – nejjednodušší, vhodný pro velký počet bodů k „vyhlazení“ plochy → váženo pouze vzdáleností ̶ Kriging – několik druhů; není potřeba pravidelné vzorkování; váhy odrážejí prostorovou strukturu → semivariogram – pozor na stat. předpoklady! ̶ Trend surface analysis – využívá polynomiální regrese; k odhadu prostorové závislosti využívá souřadnice; pozor na stat. předpoklady! • Tyto metody se v environm. vědách používají nejčastěji → existují další interpolační metody- někdy příště ☺ • Prostorovou distribuci můžeme předem otestovat pomocí Moranova korelačního indexu (I) a Gearyho vzdálenostního indexu (C); v ArcGIS dostupný pouze Moranův ̶ Distribuce: náhodná, shluková, negativní Časová řada Co je to časová řada řada hodnot věcně a prostorově vymezeného ukazatele, která je uspořádaná v čase yt = f(t) t = 1, 2, …, n Např. Teplota vody měřená každý den ve stanovenou dobu Dekompozice časové řady • Každá časová řada obsahuje tři základní komponenty, které je potřeba odlišit a identifikovat (tzv. dekompozice časové řady): • Trend (deterministický/stochastický) • Periodická složka - Sezónní vlivy (seasonals) • Šum (noise) • Metody: vyhlazování, regrese, ARMA, ARIMA,sezónní rozklad (...) Typologie časových řad • možnost predikce ̶ stochastické (obsahují prvek náhody) ̶ deterministické (lze přesně předpovědět vývoj) • interval sledování ̶ krátkodobé (kratší než 1 rok – měsíční, kvartální) ̶ dlouhodobé (standardně roční) • podle sledované veličiny ̶ intervalové (popisují tokovou veličinu) ̶ okamžikové (popisují stavovou veličinu) ̶ absolutní (původní získané hodnoty) ̶ odvozená (transformované hodnoty, např. indexy) Problémy při analýze časových řad • problémy s délkou řady a volbou intervalu pozorování ̶ krátký interval (dlouhá řada) vede k zbytečné redundanci informace ̶ dlouhý interval (krátká řada) znamená riziko ztráty informace • problémy s kalendářem ̶ různé délky let a měsíců (standardní měsíc 30 nebo 365/12) ̶ různé počty pracovních dní v měsíci (vyrovnání) ̶ pohyblivé svátky (Velikonoce) • Stacionární x nestacionární časové řady Grafy časových řad grafické vyjádření časové řady: spojnicový graf 0 100 200 300 400 500 600 700 800 900 1.11.1977 20.10.1978 7.10.1979 24.9.1980 11.9.1981 30.8.1982 17.8.1983 10.8.1984 9.8.1985 8.8.1986 7.8.1987 5.8.1988 4.8.1989 3.8.1990 2.8.1991 31.7.1992 30.7.1993 29.7.1994 28.7.1995 26.7.1996 25.7.1997 24.7.1998 23.7.1999 21.7.2000 20.7.2001 19.7.2002 18.7.2003 -20 -15 -10 -5 0 5 10 15 20 25 30Qa w ater temperature Stacionární řada • Časovou řadu považujeme za stacionární, pokud splňuje následující podmínky: ̶ má konstantní průměr ̶ má konstantní variabilitu • Stacionarita je jednou z nutných podmínek řady metod analýzy časové řady • Stacionarity lze docílit transformací na řadu diferencí či odečtením trendu Stacionární časová řada řada bez zjevného trendu → hodnoty kolísají kolem konstanty 1955 1956 1957 1958 1959 1960 1961 1962 1963 1964 1965 1966 1967 1968 1969 1970 1971 1972 1973 1974 1975 1976 1977 1978 1979 1980 1981 1982 1983 1984 1985 1986 1987 Date 52000,00 54000,00 56000,00 58000,00 60000,00 62000,00 stacionar Teplota voda - měsíční mediány Nov-1977 May-1978 Nov-1978 May-1979 Nov-1979 May-1980 Nov-1980 May-1981 Nov-1981 May-1982 Nov-1982 May-1983 Nov-1983 May-1984 Nov-1984 May-1985 Nov-1985 May-1986 Nov-1986 May-1987 Nov-1987 May-1988 Nov-1988 May-1989 Nov-1989 May-1990 Nov-1990 May-1991 Nov-1991 May-1992 Nov-1992 May-1993 Nov-1993 May-1994 Nov-1994 May-1995 Nov-1995 May-1996 Nov-1996 May-1997 Nov-1997 May-1998 Nov-1998 May-1999 Nov-1999 May-2000 Nov-2000 May-2001 Nov-2001 May-2002 water temperature median -5 0 5 10 15 20 25 watertemperaturemedian: -5 0 5 10 15 20 25 Základy analýzy časových řad Hlavní cíle analýzy časových řad 1. odhalení zákonitostí a příčin dosavadního vývoje 2. prognóza chování časových řad Každá řada může obsahovat čtyři základní složky: • trend (Tt) • periodická (sezónní) složka (St) • cyklická složka (Ct) • náhodná složka (εt) První tři složky tvoří systematickou část řady. Trendová složka časové řady Trend je obecná tendence vývoje zkoumaného jevu za dlouhé období. • je výsledkem dlouhodobých a stálých procesů (v měřítku posuzované délky časové řady) • trend může být lineární či nelineární • trend může být rostoucí, klesající nebo může existovat řada bez trendu Časové řady bez trendu se označují jako stacionární. Časová řada s trendem řada má rostoucí nebo klesající trend 1961 1962 1963 1964 1965 1966 1967 1968 1969 1970 1971 1972 1973 1974 1975 1976 1977 1978 1979 1980 1981 1982 1983 1984 1985 1986 1987 1988 1989 1990 1991 1992 1993 Date 8000,00 10000,00 12000,00 14000,00 16000,00 18000,00 trend Periodická složka časové řady Periodická složka je pravidelně se opakující odchylka od trendové složky s pevnou délkou periody T • perioda této složky je menší než celková velikost sledovaného období • typickým případem jsou sezónní kolísání a nebo řady denních, měsíčních, čtvrtletních ukazatelů • příčiny sezónnosti jsou různé, většinou však dobře definovatelné Teplota voda - měsíční mediány Nov-1977 May-1978 Nov-1978 May-1979 Nov-1979 May-1980 Nov-1980 May-1981 Nov-1981 May-1982 Nov-1982 May-1983 Nov-1983 May-1984 Nov-1984 May-1985 Nov-1985 May-1986 Nov-1986 May-1987 Nov-1987 May-1988 Nov-1988 May-1989 Nov-1989 May-1990 Nov-1990 May-1991 Nov-1991 May-1992 Nov-1992 May-1993 Nov-1993 May-1994 Nov-1994 May-1995 Nov-1995 May-1996 Nov-1996 May-1997 Nov-1997 May-1998 Nov-1998 May-1999 Nov-1999 May-2000 Nov-2000 May-2001 Nov-2001 May-2002 water temperature median -5 0 5 10 15 20 25 watertemperaturemedian: -5 0 5 10 15 20 25 Cyklická složka Cyklická složka udává kolísání okolo trendu v důsledku dlouhodobého cyklického vývoje • cyklická složka může vykazovat změny v délce a amplitudě cyklu • délka cyklu je tedy většinou neznámá (př. demografický trend, kolísání teploty vzduchu) • délka cyklu je delší než 1 rok, v některých případech se označuje jako „střednědobý trend“ • bývá typickou součástí časových řad meteorologických prvků (př. problém globálního oteplování) či hydrologických jevů Časová řada se sezónností řada má opakující se charakter v rámci jednotlivých sezón JAN1991 MAR1991 MAY1991 JUL1991 SEP1991 NOV1991 JAN1992 MAR1992 MAY1992 JUL1992 SEP1992 NOV1992 JAN1993 MAR1993 MAY1993 JUL1993 SEP1993 NOV1993 JAN1994 MAR1994 MAY1994 JUL1994 SEP1994 NOV1994 JAN1995 MAR1995 MAY1995 JUL1995 SEP1995 NOV1995 Date 400,00 600,00 800,00 1000,00 1200,00 1400,00 1600,00 1800,00 2000,00 2200,00 season Náhodná složka časové řady Náhodná (stochastická) složka se nedá popsat žádnou funkcí času • „zbývá" po vyloučení trendu, sezónní a cyklické složky • jejím zdrojem jsou v jednotlivostech nepostižitelné jevy • lze ji však popsat pravděpodobnostně Transformace časové řady Transformace časové řady Jedná se o úpravu původní časové řady, tak aby 1. splňovala podmínky pro následnou analýzu (např. linearizace, stacionarita atd.) 2. zvýrazňovala dále analyzovanou složku ̶ přidání konstanty y = y + C ̶ linearizace řady y = ln(y) ̶ odečtení průměru ̶ standardizace ̶ odečtení hodnot trendové funkce (…stacionarita) Transformace časové řady yt → ut vytvoření nové časové řady s lepšími parametry pro analýzu diference ut = yt (1) = yt – yt-1 ut = DIFF(yt, 1) 1950 1951 1952 1953 1954 1955 1956 1957 1958 1959 1960 1961 1962 1963 1964 1965 1966 1967 1968 1969 1970 1971 1972 1973 1974 1975 1976 1977 1978 1979 1980 1981 1982 1983 1984 1985 1986 1987 1988 1989 1990 1991 1992 1993 1994 1995 1996 1997 1998 1999 2000 2001 2002 Date 80000 100000 120000 140000 160000 180000 200000 narozeni 1951 1952 1953 1954 1955 1956 1957 1958 1959 1960 1961 1962 1963 1964 1965 1966 1967 1968 1969 1970 1971 1972 1973 1974 1975 1976 1977 1978 1979 1980 1981 1982 1983 1984 1985 1986 1987 1988 1989 1990 1991 1992 1993 1994 1995 1996 1997 1998 1999 2000 2001 2002 Date -20000 -10000 0 10000 20000 narozeni Transforms: difference(1) lineární trend časové řady se mění na stacionární trendový filtr – zbaví časovou řadu trendové složky Diference vyšších řádů 1. diference yt (1) = yt – yt-1 DIFF(yt, 1) lineární trend → konstantní (stacionární) kvadratický trend → lineární … 2. diference yt (2) = yt (1) – yt-1 (1) DIFF(yt, 2) n. diference yt (n) = yt (n-1) – yt-1 (n-1) DIFF(yt, n) exponenciální trend → exponenciální (odolný proti diferencování) Sezónní diference sezónní diference (délka sezóny = k) ut = yt (s1) = yt – yt-k ut = SDIFF(yt, 1) snižuje nebo odstraňuje vliv sezónnosti sezónní filtr – zbaví časovou řadu sezónnosti Q 1 1993 Q 2 1993 Q 3 1993 Q 4 1993 Q 1 1994 Q 2 1994 Q 3 1994 Q 4 1994 Q 1 1995 Q 2 1995 Q 3 1995 Q 4 1995 Q 1 1996 Q 2 1996 Q 3 1996 Q 4 1996 Q 1 1997 Q 2 1997 Q 3 1997 Q 4 1997 Q 1 1998 Q 2 1998 Q 3 1998 Q 4 1998 Q 1 1999 Q 2 1999 Q 3 1999 Q 4 1999 Q 1 2000 Q 2 2000 Q 3 2000 Q 4 2000 Q 1 2001 Q 2 2001 Q 3 2001 Q 4 2001 Q 1 2002 Q 2 2002 Q 3 2002 Q 4 2002 Q 1 2003 Q 2 2003 Q 3 2003 Date 300,00 350,00 400,00 450,00 hdp Q 1 1994Q 2 1994Q 3 1994Q 4 1994Q 1 1995Q 2 1995Q 3 1995Q 4 1995 Q 1 1996 Q 2 1996Q 3 1996Q 4 1996 Q 1 1997 Q 2 1997Q 3 1997 Q 4 1997 Q 1 1998Q 2 1998Q 3 1998 Q 4 1998 Q 1 1999Q 2 1999Q 3 1999Q 4 1999Q 1 2000Q 2 2000Q 3 2000Q 4 2000Q 1 2001 Q 2 2001 Q 3 2001Q 4 2001Q 1 2002 Q 2 2002 Q 3 2002Q 4 2002 Q 1 2003 Q 2 2003Q 3 2003 Date -10,00 0,00 10,00 20,00 30,00 40,00 50,00 hdp Transforms: seasonal difference(1, period 4) Logaritmická transformace ut = ln yt exponenciální trend → lineární logaritmická diference: ut = ln yt - ln yt-1 = ln (yt / yt-1) exponenciální trend → stacionární 1960 1961 1962 1963 1964 1965 1966 1967 1968 1969 1970 1971 1972 1973 1974 1975 1976 1977 1978 1979 1980 1981 1982 1983 1984 1985 1986 1987 1988 1989 1990 1991 1992 1993 1994 1995 1996 1997 Date 40 50 60 70 80 90 100 110 hdp_vb 1960 1961 1962 1963 1964 1965 1966 1967 1968 1969 1970 1971 1972 1973 1974 1975 1976 1977 1978 1979 1980 1981 1982 1983 1984 1985 1986 1987 1988 1989 1990 1991 1992 1993 1994 1995 1996 1997 Date 3,8 4,0 4,2 4,4 4,6 4,8 hdp_vb Transforms: natural log 1961 1962 1963 1964 1965 1966 1967 1968 1969 1970 1971 1972 1973 1974 1975 1976 1977 1978 1979 1980 1981 1982 1983 1984 1985 1986 1987 1988 1989 1990 1991 1992 1993 1994 1995 1996 1997 Date -0,050 -0,025 0,000 0,025 0,050 0,075 0,100 hdp_vb Transforms: natural log, difference(1) Doplnění chybějících hodnot pro další zpracování časové řady je třeba chybějící hodnoty nahradit jejich odhady globální odhady: ̶ SMEAN (series mean) – průměr celé řady ̶ TREND (linear trend at point) – lineární trend celé řady lokální odhady: ̶ MEAN (mean of nearby points) – průměr okolních hodnot ̶ MEDIAN (median of nearby points) – medián z okolních hodnot ̶ LINT (linear interpolation) – lin. interpolace z okolních bodů Autokorelace U stacionární časové řady -korelace dvou časově posunutých pozorování (autokorelace), závisí na délce posunu Autocorrelation Function water temperature median (Standard errors are white-noise estimates) Conf. Limit-1.0 -0.5 0.0 0.5 1.0 0 24 +.870 .0542 23 +.747 .0543 22 +.429 .0544 21 -.001 .0545 20 -.437 .0546 19 -.756 .0547 18 -.878 .0548 17 -.757 .0549 16 -.431 .0550 15 +.015 .0551 14 +.454 .0552 13 +.788 .0552 12 +.912 .0553 11 +.779 .0554 10 +.447 .0555 9 -.004 .0556 8 -.456 .0557 7 -.787 .0558 6 -.914 .0559 5 -.787 .0560 4 -.453 .0561 3 +.015 .0562 2 +.479 .0563 1 +.829 .0563 Lag Corr. S.E. 0 3164. 0.000 2906. 0.000 2717. 0.000 2654. 0.000 2654. 0.000 2590. 0.000 2399. 0.000 2142. 0.000 1952. 0.000 1891. 0.000 1891. 0.000 1823. 0.000 1619. 0.000 1348. 0.000 1150. 0.000 1086. 0.000 1086. 0.000 1019. 0.000 819.5 0.000 552.0 0.000 354.4 0.000 289.2 0.000 289.1 0.000 216.5 0.000 Q p yt Klasický model časové řady popis forem (časového) pohybu Tt – trendová složka Ct – cyklická složka St – sezónní složka et – reziduální (náhodná) složka Tt Ct St – deterministické složky (lze modelovat) et – stochastická složka (nelze předvídat) Aditivní a multiplikativní model aditivní model multiplikativní model t t t t ty T C S = + + + t t t t ty T C S =    trend – vyjádřen regresní funkcí cyklická a sezónní složka – přírůstky k trendu trend – vyjádřen regresní funkcí cyklická a sezónní složka – indexy Klasický nesezónní model s konstantními parametry hlavní úkol – volba trendové funkce Tt lineární funkce kvadratická funkce exponenciální funkce ( )t t t ty T C = + + tTt 10  += 2 210 ttTt  ++= t tT 10  = cyklická složka – projevuje se až u dlouhodobých řad, obvykle ji neuvažujeme konstantní 1. diference konstantní 2. diference konstantní diference logaritmů Klasický x adaptivní přístup ̶ klasický přístup model má stále stejné parametry nevyvíjí se v čase ̶ adaptivní přístup model má proměnné parametry reaguje na strukturální změny v čase Modely analýzy časových řad Časová řada – hodnota ukazatele je funkcí času a náhodné složky K analýze a popisu časových řad se používá několika základních modelů: A. Klasický (formální) model B. Box-Jenkinsova metodologie C. Lineární dynamické a regresní modely D. Spektrální analýza ARIMA Komplexní lineární model, složený ze tří dílčích částí (nemusí se vždy vyskytovat všechny tři): • AR (Autoregresive) – autoregresivní proces lineární kombinace vlivů minulých hodnot • I (Integrative) - náhodná procházka odfiltrování nestacionární složky dat • MA (Moving Average) – metoda klouzavých průměrů lineární kombinace vlivů minulých chyb (šoků) Vlastnosti modelů ARIMA • Mimořádně flexibilní • Relativně náročné pro výpočet a pro pochopení výsledků (obtížná interpretace parametrů) • Náročné na kvalitu a počet naměřených dat • Předpoklad: alespoň 50 měření