11. Úvod do časových řad Pojem časové řady: Časovou řadou rozumíme řadu hodnot určitého ukazatele uspořádanou podle přirozené časové posloupnosti t[1] < ... < t[n]. Jsou-li časové intervaly (t[1], t[2]), ..., (t[n-1], t[n]) stejně dlouhé (ekvidistantní), zjednodušeně zapisujeme časovou řadu jako y[1], ..., y[n]. Přitom ukazatel je veličina, která charakterizuje nějaký sociálně ekonomický jev v určitém prostoru a v určitém čase (okamžiku či intervalu). Druhy časových řad a) Časová řada okamžiková: příslušný ukazatel udává, kolik jevů existuje v daném časovém okamžiku (např. počet obyvatelstva k určitému dnu). b) Časová řada intervalová: příslušný ukazatel udává, kolik jevů vzniklo či zaniklo v určitém časovém intervalu (např. počet sňatků během roku). Nejsou-li jednotlivé časové intervaly ekvidistantní, musíme provést očištění časové řady od důsledků kalendářních variací. Příklad: Máme k dispozici údaje o tržbě obchodní organizace (v tis. Kč) v jednotlivých měsících roku 1995: 2400, 2134, 2407, 2445, 2894, 3354, 3515, 3515, 3225, 3063, 2694, 2600. Vypočtěte očištěné údaje. Řešení: Průměrná délka měsíce je 365/12 dne. Očištěná hodnota pro leden je tedy , pro únor . Pro ostatní měsíce analogicky dostaneme 2361,71; 2478,96; 2839,54; 3400,58, 3448,86; 3448,86; 3269,79; 3005,36; 2731,42; 2551,08. Výpočet pomocí systému STATISTICA: Vytvoříme nový datový soubor o třech proměnných: trzba, dm (délky jednotlivých měsíců) a ot (očištěná tržba) a 12 případech. Do proměnné trzba zapíšeme zjištěné hodnoty. Do proměnné dm vložíme délky jednotlivých měsíců, tj. 31, 28, 30, …, 31. Do Dlouhého jména proměnné ot napíšeme =trzba*365/(12*dm). Grafické znázornění časové řady a) Okamžikovou časovou řadu graficky znázorňujeme pomocí spojnicového diagramu. Na vodorovnou osu vynášíme časové okamžiky t[1], ..., t[n], na svislou osu odpovídající hodnoty y[1], ..., y[n]. Dvojice bodů (t[i], y[i]), i = 1, ..., n spojíme úsečkami. Příklad: Časová řada obsahuje údaje o počtu zaměstnanců určité akciové společnosti v letech 1989 – 1996 vždy k 31.12. 1989 1990 1991 1992 1993 1994 1995 1996 622 627 631 635 641 641 632 625 Znázorněte tuto časovou řadu graficky. Řešení pomocí systému STATISTICA: Vytvoříme datový soubor o dvou proměnných nazvaných rok a pocet a 8 případech. Grafy – Bodové grafy – odškrtneme Lineární proložení – Proměnné X – rok, Y – počet – OK – OK. 2x klikneme na pozadí grafu – vybereme Graf: obecné – zaškrtneme Spojnice – OK. b) Intervalovou časovou řadu nejčastěji znázorňujeme sloupkovým diagramem. Je to soustava obdélníků, kde šířka obdélníku je rovna délce intervalu a výška odpovídá hodnotě ukazatele v daném intervalu. Ke znázornění intervalové časové řady lze použít i spojnicový diagram, přičemž na vodorovnou osu vynášíme středy příslušných intervalů. Příklad: Máme k dispozici údaje o produkci určitého podniku (v tisících výrobků) v letech 1991-1996. 1991 1992 1993 1994 1995 1996 114 106 107 102 116 137 Znázorněte tuto časovou řadu graficky. Řešení pomocí systému STATISTICA: Vytvoříme datový soubor o dvou proměnných nazvaných rok a produkce a 6 případech. Grafy – Bodové grafy – odškrtneme Lineární proložení – Proměnné X – rok, Y – produkce – OK – OK. 2x klikneme na pozadí grafu – vybereme Graf: obecné – zaškrtneme Spojnice – Přidat nový graf – typ Sloupcový graf – OK. Do sloupců označených jako Nový1, Nový2 okopírujeme hodnoty proměnných rok a produkce. Ve Všech možnostech: Sloupce upravíme šířku sloupce na 1. Popisné charakteristiky časových řad Průměr okamžikové časové řady Nejprve vypočteme průměry pro jednotlivé dílčí intervaly (t[1], t[2]), (t[2], t[3]), ..., (t[n-1], t[n]): . Jsou-li všechny tyto intervaly stejně dlouhé, vypočteme prostý chronologický průměr okamžikové časové řady: . Nemají-li intervaly stejnou délku, vypočteme d[i] = t[i] – t[i-1], i = 2, ..., n a použijeme vážený chronologický průměr okamžikové časové řady: . Příklad: Časová řada vyjadřuje počet obyvatelstva ČSSR (v tisících) v letech 1965 až 1974 vždy ke dni 31.12. Rok 1965 1966 1967 1968 1969 1970 1971 1972 1973 1974 počet 14194 14271 14333 14387 14443 14345 14419 14576 14631 14738 Charakterizujte tuto časovou řadu chronologickým průměrem. Řešení: . Výpočet pomocí systému STATISTICA: Vytvoříme datový soubor o 11 proměnných a jednom případu. Do prvních 10 proměnných vložíme zjištěné hodnoty, do Dlouhého jména poslední proměnné napíšeme =(v1/2+sum(v2:v9)+v10/2)/9 Dostaneme výsledek 14430,11. Průměr intervalové časové řady . Příklad: Vypočtěte průměrnou hodnotu roční časové řady HDP ČR (v miliardách Kč) v letech 1994 až 2000. 1994 1995 1996 1997 1998 1999 2000 1303,6 1381,1 1447,7 1432,8 1401,3 1390,6 1433,8 Řešení: . Výpočet pomocí systému STATISTICA: Použijeme Popisné statsitiky z nabídky Základní statistiky/tabulky. Dynamické charakteristiky časových řad Absolutní přírůstky 1. diference: 2. diference: atd. (Diferencování má velký význam při odhadu trendu časové řady regresními metodami.) Průměrný absolutní přírůstek: Relativní přírůstek (Relativní přírůstek po vynásobení 100 udává, o kolik procent se změnila hodnota v čase t[i] oproti času t[i-1].) Koeficient růstu (tempo růstu) (Koeficient růstu po vynásobení 100 udává, na kolik procent hodnoty v čase t[i-1 ]vzrostla či poklesla hodnota v čase t[i].) Průměrný koeficient růstu Průměrný relativní přírůstek Příklad: Pro časovou řadu HDP ČR v letech 1994 až 2000 (v miliardách Kč) vypočtěte základní charakteristiky dynamiky a graficky znázorněte relativní přírůstky a koeficienty růstu. Řešení: rok HDP Δy[i] k[i] δ[i] 1994 1303,6 x x x 1995 1381,1 1381,1-1303,6=77,5 1381,1/1303,6=1,059 77,5/1303,6=0,059 1996 1447,7 1447,7-1381,1=66,6 1447,7/1381,1=1,048 66,6/1381,10,048 1997 1432,8 1432,8-1447,7=-14,7 1432,8/1447,7=0,990 -14,7/1447,7=-0,010 1998 1401,3 1401,3-1432,8=-31,5 1401,3/1432,8=0,978 -31,5/1432,8=-0,022 1999 1390,6 1390,6-1401,3=-10,7 1390,6/1401,3=0,992 -10,7/1401,3=-0,008 2000 1433,8 1433,8-1390,6=43,2 1433,8/1390,6=1,031 43,2/1390,6=0,031 Průměrný absolutní přírůstek: , tzn., že v období 1994 – 2000 rostl HDP průměrně o 21,7 miliard Kč ročně. Průměrný koeficient růstu: , tzn., že v období 1994 – 2000 rostl HDP průměrně o 1,6% ročně. Výpočet pomocí systému STATISTICA: Vytvoříme nový datový soubor o dvou proměnných a sedmi případech. První proměnnou nazveme ROK, druhou HDP. Výpočet 1. diferencí: pro i = 2,...,n Statistiky – Pokročilé lineární/nelineární modely – Časové řady/predikce – Proměnné Y – OK – OK (transformace, autokorelace, kříž. korelace, grafy) – Oddělit-sloučit - OK (transformovat vybrané řady) – vykreslí se graf. Vrátíme se do Transformace proměnných – Uložit proměnné. Otevře se nové datové okno, kde v proměnné HDP_1 jsou uloženy 1. diference. HDP HDP_1 1 1303,600 2 1381,100 77,500 3 1447,700 66,600 4 1432,800 -14,900 5 1401,300 -31,500 6 1390,600 -10,700 7 1433,800 43,200 Výpočet relativních přírůstků: pro i = 2,...,n Vrátíme se do Transformace proměnných – označíme proměnnou, kterou chceme transformovat (HDP) – vybereme Posun – OK, (Transformovat vybrané řady) – vykreslí se graf. Vrátíme se do Transformace proměnných – Uložit proměnné. Tato transformovaná veličina se uloží do tabulky pod názvem HDP_1 (proměnná s 1. diferencemi se přejmenuje na HDP_2). Přidáme novou proměnnou RP a do jejího Dlouhého jména napíšeme vzorec =HDP_2/HDP_1. Výpočet koeficientů růstu: pro i = 2,...,n Do tabulky přidáme proměnnou KR a do jejího Dlouhého jména napíšeme vzorec =HDP/HDP_1. Získáme tabulku HDP HDP_2 HDP_1 RP KR 1 1303,600 2 1381,100 77,500 1303,600 0,059451 1,059451 3 1447,700 66,600 1381,100 0,048222 1,048222 4 1432,800 -14,900 1447,700 -0,010292 0,989708 5 1401,300 -31,500 1432,800 -0,02198 0,978015 6 1390,600 -10,700 1401,300 -0,00764 0,992364 7 1433,800 43,200 1390,600 0,031066 1,031066 8 1433,800 Pomocí Grafy - 2D Grafy – Spojnicové grafy (Proměnné) vykreslíme průběh relativních přírůstků a koeficientů růstu. Graf relativních přírůstků Graf koeficientů růstu Průměrný absolutní přírůstek a průměrný koeficient růstu vypočteme na kalkulačce pomocí vzorců a . Aditivní model časové řady Předpokládejme, že pro časovou řadu y[1], ..., y[n] platí model y[t] = f(t) + ε[t], t = 1, ..., n, kde f(t) je neznámá trendová funkce (trend), kterou považujeme za systematickou (deterministickou) složku časové řady (popisuje hlavní tendenci dlouhodobého vývoje časové řady), ε[t] je náhodná složka časové řady zahrnující odchylky od trendu. Náhodná složka splňuje předpoklady E(ε[t]) = 0, D(ε[t]) = σ^2, C(ε[t], ε[t+h]) = 0, ε[t] ~ N(0, σ^2) (říkáme, že ε[t] je bílý šum). Cíl regresní analýzy trendu Regresní analýza trendu má objasnit vztah mezi závisle proměnnou veličinou Y[ ]a časem t. Předpokládáme, že trend f(t) závisí (lineárně či nelineárně) na neznámých parametrech β[0], β[1], ..., β[k] a známých funkcích φ[0](t), φ[1](t), ...., φ[k](t), které již neobsahují žádné neznámé parametry, tj. f(t) = g(β[0], β[1], ..., β[k]; φ[0](t), φ[1](t), ...., φ[k](t)). Odhady b[0], b[1], ..., b[k] neznámých parametrů β[0], β[1], ..., β[k] lze získat např. metodou nejmenších čtverců a pak vyjádřit odhad neznámého trendu v bodě t pomocí odhadů b[0], b[1], ..., b[k] a funkcí φ[0](t), φ[1](t), ...., φ[k](t), tj. = g(b[0], b[1], ..., b[k]; φ[0](t), φ[1](t), ...., φ[k](t)). Nejdůležitější typy trendových funkcí Volba typu trendové funkce se provádí - na základě teoretických znalostí a zkušeností se zkoumanou veličinou Y[t] - pomocí grafu časové řady - pomocí informativních testů založených na jednoduchých charakteristikách časové řady a) Lineární trend Analytické vyjádření: Informativní test: 1. diference jsou přibližně konstantní. Příklad lineárního trendu: b) Kvadratický trend Analytické vyjádření: Informativní test: 1. diference mají přibližně lineární trend, 2. diference jsou přibližně konstantní. Příklad kvadratického trendu: c) Exponenciální trend Analytické vyjádření: . Model lze linearizovat logaritmickou transformací: Informativní test: koeficienty růstu jsou přibližně konstantní. Příklad exponenciálního trendu: d) Modifikovaný exponenciální trend Analytické vyjádření: . Informativní test: řada podílů sousedních 1. diferencí je přibližně konstantní. Příklad modifikovaného exponenciálního trendu e) Logistický trend Analytické vyjádření: Informativní test: průběh 1. diferencí je podobný Gaussově křivce a podíly jsou přibližně konstantní. Příklad logistického trendu: f) Gompertzova křivka Analytické vyjádření: Informativní test: podíly jsou přibližně konstantní. Příklad Gompertzovy křivky Modely (a), (b), (c) jsou lineární nebo se dají linearizovat a odhady parametrů získáme metodou nejmenších čtverců. Modely (d), (e), (f) jsou nelineární a odhady parametrů se získávají speciálními numerickými metodami. Orientační ověřování kvality modelu - Index determinace (tj. podíl vysvětlené a celkové variability závisle proměnné veličiny) by měl být blízký 1. - Body grafu , t = 1, 2, ..., n by se měly řadit do přímky se směrnicí 1. Příklad: Časová řada 112, 149, 238, 354, 580, 867 udává zisk (v tisících dolarů) jisté společnosti v prvních šesti letech její existence. a) Graficky znázorněte průběh této časové řady. b) Vypočtěte koeficienty růstu a graficky je znázorněte. c) Z grafu časové řady a chování koeficientů růstu lze usoudit, že časová řada má exponenciální trend . Odhadněte jeho parametry. d) Najděte odhad zisku společnosti v 7. a 8. roce její existence. e) Zjistěte index determinace a sestrojte graf t = 1, ..., 6. Řešení pomocí systému STATISTICA: Vytvoříme datový soubor se dvěma proměnnými čas a Y a 6 případy. ad a) Graficky znázorníme průběh této časové řady: Grafy – Bodové grafy – Proměnné čas, Y – OK – vypneme proložení – OK. ad b) Výpočet koeficientů růstu: Statistiky – Pokročilé lineární/nelineární modely – Časové řady/predikce – Proměnné Y – OK – OK (transformace, autokorelace, kříž. korelace, grafy) – Posun – Posun řad vzad - OK (transformovat vybrané řady) – návrat do transformace proměnných – Uložit proměnné. Ve výstupní tabulce máme proměnné Y a Y_1: Za proměnnou Y_1 přidáme proměnnou KR a do jejího Dlouhého jména napíšeme =v2/v1. Vytvoření grafu koeficientů růstu: Klikneme pravým tlačítkem na název proměnné KR – Grafy bloku dat – Spojnicový graf: celé sloupce Vidíme, že koeficienty růstu jsou přibližně konstantní. ad c) Model linearizujeme a metodou nejmenších čtverců získáme odhady ln b[0], ln b[1]. Odlogaritmováním dostaneme b[0] = 68,57875, b[1] = 1,522265. K datovému souboru přidáme proměnnou ln Y. Do jejího Dlouhého jména napíšeme =log(Y). Provedeme regresní analýzu se závisle proměnnou ln Y a nezávisle proměnnou čas. Vidíme, že ln b[0] = 4, 227983, ln b[1] = 0,420199. K této tabulce přidáme proměnnou expB a do jejího Dlouhého jména napíšeme =exp(B). Získáme odhady b[0] = 68,57875, b[1] = 1,522265. ad d) Odhad zisku společnosti v 7. roce existence: Pro výpočet predikované hodnoty zvolíme Rezidua/předpoklady/předpovědi - Předpovědi závisle proměnné čas: 7 - OK. Ve výstupní tabulce je hledaná hodnota označena jako Předpověď: 7,169377. K výstupní tabulce přidáme novou proměnnou a do jejího Dlouhého jména napíšeme =exp(v3). Předpověď zisku v 7. roce existence společnosti je tedy 1299,035 tisíc dolarů. Analogicky pro 8. rok zjistíme, že predikce zisku je 1977,47567 ad e) Index determinace je ID^2[ ] = 0,996, jak je uvedeno v záhlaví výstupní tabulky regresní analýzy. Graf závislosti predikovaných hodnot na hodnotách časové řady vytvoříme tak, že uložíme předpovězené hodnoty. K datovému souboru s předpovězenými hodnotami přidáme novou proměnnou predikce a do jejího Dlouhého jména napíšeme =exp(v3). Pak pomocí Bodového grafu vykreslíme závislost predikce na Y. Jak index determinace, tak graf svědčí o tom, že model byl zvolen správně. Odhad trendu časové řady pomocí klouzavých průměrů Podstata klouzavých průměrů Předpokládáme, že časová řada se řídí aditivním modelem y[t] = f(t) + ε[t], t = 1, ..., n. Odhad trendu v bodě t získáme určitým zprůměrováním původních pozorování z jistého okolí uvažovaného časového okamžiku t. Můžeme si představit, že podél dané časové řady klouže okénko, v jehož rámci se průměruje. Nechť toto okénko zahrnuje d členů nalevo od bodu t a d členů napravo od bodu t. Hovoříme pak o vyhlazovacím okénku šířky h = 2d + 1. Prvních a posledních d hodnot trendu neodhadujeme, protože pro není vyhlazovací okénko symetrické. Odhad trendu ve středu vyhlazovacího okénka je dán vztahem: , t = d+1, ..., n-d. Šířka vyhlazovacího okénka Velmi důležitou otázkou je stanovení šířky vyhlazovacího okénka. Je-li okénko příliš široké, bude se odhad trendu blížit přímce (říkáme, že je přehlazen) a zároveň se ztratí velký počet členů na začátku a na konci časové řady. Je-li naopak okénko úzké, bude se odhad trendu blížit původním hodnotám (říkáme, že odhad je podhlazen). Nejčastěji se volí šířka okénka h = 3, 5, 7. Příklad: Časová řada 215, 219, 222, 235, 202, 207, 187, 204, 174, 172, 201, 272 udává roční objemy vývozu piva (v miliónech litrů) z Československa v letech 1980 až 1991. a) Odhadněte trend této časové řady pomocí klouzavých průměrů s vyhlazovacím okénkem šířky 3 a poté 5. b) Graficky znázorněte průběh časové řady s odhadnutým trendem. Řešení pomocí systému STATISTICA: Vytvoříme datový soubor export_piva.sta o dvou proměnných ROK a VYVOZ a dvanácti případech. Statistiky – Pokročilé lineární/nelineární modely – Časové řady/predikce – Proměnné Y – OK– OK (transformace, autokorelace, kříž. korelace, grafy) – Vyhlazování – zaškrtneme N-bod. klouzavý průměr, N = 3 – OK (Transformovat vybrané řady) – vykreslí se graf, vrátíme se do Transformace proměnných – Uložit proměnné. Otevře se nový spreadsheet, kde v proměnné VYVOZ_1 jsou uloženy klouzavé průměry pro N = 3. Totéž uděláme pro případ N = 5. Ve spreadsheetu se proměnná VYVOZ_1 přepíše na VYVOZ_2 a nová proměnná se uloží jako VYVOZ_1. Nově vzniklé proměnné nazveme KP3 a KP5. K datovému souboru přidáme proměnnou ROK, do jejíhož Dlouhého jména napíšeme =1979+v0. Grafické znázornění časové řady s odhadnutým trendem provedeme pomocí vícenásobných bodových grafů.