Statistika v ekonomii 243 5 CASOVERADY V předchozích kapitolách jsme se zabývali analýzami dat, která jsou věcně a prostorově vymezena a která lze, s určitým zjednodušením, označit jako statická. V ekonomické oblasti však toto vymezení nestačí, neboť ekonomická data jsou často, kromě věcného a prostorového vymezení, uspořádána i v čase. Tato data se potom analyzují ve formě tzv. časových řad a označujeme je jako dynamická. A právě analýza dynamiky časových řad je jedním z důležitých úkolů statistické analýzy dat. Časovou řadou budeme rozumět řadu hodnot určitého věcně a prostorově vymezeného ukazatele, která je uspořádána v čase směrem od minulosti do přítomnosti, a budeme ji označovat jako yt, kde t= 1,2, T. 5.1 Klasifikace a popis Časové řady lze klasifikovat podle různých hledisek. Zde uvedeme tři nej důležitější: ■ podle rozhodného časového období, ■ podle periodicity sledování ukazatele, ■ podle druhu ukazatele. Pokud třídíme podle rozhodného časového období, rozdělujeme časové řady na intervalové a okamžikové. Intervalová časová řada je řadou ukazatele, jehož hodnoty se shrnují (agregují) součtem hodnot za kratší časové období, velikost jeho hodnot tak závisí na délce časového intervalu sledování. Typickými intervalovými ukazateli jsou ukazatele vyjadřující rozsah, množství, počet nebo objem sledovaného jevu; označujeme je také jako tokové ukazatele. Příkladem intervalového ukazatele může být např. hrubý domácí produkt, počet živě narozených dětí nebo hodnota stavebních zakázek. Z definice intervalových časových řad plyne, že pro srovnatelnost jejich hodnot je vhodné, aby se vztahovaly ke stejně dlouhým časovým intervalům. Délka časového intervalu sledování naopak nemá význam v případě hodnot okamžikových časových řad, protože tyto časové řady jsou řadami ukazatelů, jejichž hodnoty se vztahují k jistým časovým okamžikům. Vyjadřují tak stav daného ukazatele v daném časovém okamžiku a označujeme je proto také jako stavové ukazatele. Příkladem okamžikového ukazatele je např. počet evidovaných uchazečů o zaměstnání k poslednímu dni sledovaného období. Pro okamžikové ukazatele je charakteristické, že je není možné shrnovat součtem. Klasifikaci časových řad lze provést také podle periodicity sledování hodnot ukazatele, tj. jak často se hodnoty časových řad sledují. U dlouhodobých časových řad máme pouze jednu hodnotu sledovaného ukazatele za kalendářní rok, hodnoty krátkodobých časových řad se sledují v kalendářním roce častěji, např. 4x za rok v případě čtvrtletních časových řad nebo 12x za rok v případě měsíčních časových řad, 244 Časové řady u vysokofrekvenčních časových řad se hodnoty sledují každý den (tyto časové řad} mají velmi specifické vlastnosti a nebudou v této knize již dále uvažovány). Pokud budeme třídit podle druhu ukazatele, uvažujeme časové řady ukazatelů vyjádřených v absolutních hodnotách nebo v odvozených charakteristikách. Jako příklad lze uvést počet nezaměstnaných osob a obecnou míru nezaměstnanosti v % (vypočítanou jako podíl počtu nezaměstnaných osob a pracovní síly). Na obrázku 5.1 jsou uvedeny grafy časových řad počtu evidovaných nezaměstnaných ke konci roku (vlevo) a ke konci měsíce (vpravo) v letech 1993-2016. Z těchto údajů vyplývá, že jde o okamžikové časové řady, jelikož v tomto případě nelze kumulovat jejich hodnoty. Na obou obrázcích jde o tentýž ukazatel, který je na prvním obrázku zobrazen v roční frekvenci, tj. ve formě dlouhodobé časové řady, na druhém v měsíční frekvenci, tj. jako krátkodobá časová řada. Obě časové řady jsou v počtech osob, tzn. že jsou vyjádřeny v absolutních hodnotách. 700 700 řft m r-. oje flft e* » o o o o o 5N íS: fNI: ŕM N N: ^ťNÍ f\i ^fN Obr. 5.1 Počet evidovaných nezaměstnaných ke konci roku (vlevo) a ke konci měsíce (vpravo) v letech 1993-2016 v tis. osob Zdroj: www.mpsv.cz Příklad 5.1 Převeďme měsíční časovou řady počtu sňatků v České republice v letech 2012-2016 z tabulky 5.1 na časovou řadu čtvrtletních hodnot. Řešeni Měsíční časová řada počtu sňatků je intervalovou časovou řadou, protože její hodnoty jsou dány kumulací počtu sňatků v jednotlivých dnech daného měsíce. Převedení (agregaci) intervalové měsíční časové řady na čtvrtletní časovou řadu proto provedeme sečtením měsíčních hodnot v daném čtvrtletí, viz tabulka 5.2. Statistika v ekonomii 245 Tab. 5.1 Počet sňatků v ČR v jednotlivých měsících let 2012-2016 Měsíc 2012 2013 2014 2015 2016 leden 915 704 981 932 958 únor 1 127 980 1 333 1 145 1 202 březen 1 689 1 661 1 628 1 565 1 341 duben 3 479 3 264 3 477 3 444 4 089 květen 2 286 2 464 2 872 3 644 3 099 červen 9 103 8 320 8 504 8 379 9 165 červenec 6 045 5 990 5 861 6 731 8 137 srpen 6 837 7 797 8 766 8 814 7 587 září 7 804 6 786 6 686 7 069 8 441 říjen 2 706 2 761 2 794 3 583 3 838 listopad 1 507 1 632 1 565 1 572 1 720 prosinec 1 708 1 140 1 108 1 313 1 191 Zdroj: www.czso.cz Tab. 5.2 Počet sňatků v ČR v jednotlivých čtvrtletích let 2012-2016 Čtvrtletí 2012 2013 2014 2015 2016 I 3 731 3 345 3 942 3 642 3 501 II 14 868 14 048 14 853 15 467 16 353 III 20 686 20 573 21 313 22 614 24 165 IV 5 921 5 533 5 467 6 468 6 749 Stejným způsobem postupujeme, pokud chceme z měsíční, resp. čtvrtletní intervalové řady získat časovou řadu roční. Na obrázku 5.2 jsou pro srovnání uvedeny obě časové řady, podíváme-li se pozorně na obě osy y, zjistíme, že se časové řady výrazně liší svou úrovní. Tato skutečnost vyplývá z definice intervalových časových řad, kdy je agregace hodnot založena na součtu hodnot časové řady. 10 000 n 25 000 9 000 8 000 -1 ( i, li i n \l -■- ooo 7000 6 000 -j ' ' í I 5 000 4000 - j | 3 000 2000 -| 1000 0 2012 2013 2014 2015 2016 2017 2012 2013 Obr. 5.2 Měsíční a čtvrtletní počet sňatků v letech 2012-2016 |l|l|l|l|l|l|l|l|l|l|l|l|l|l|l|l|l|l|l|l|l|IU|l|l|lí!!l|l!IMI :i ni i: in ii inrrrr...........ri 2014 2015 2016 2017 246 Časové řady Příklad 5.2 Převeďme měsíční časovou řady počtu evidovaných nezaměstnaných v ČR ke konci měsíce od ledna 2012 do prosince 2016 (tabulka 5.3) nadčasovou řadu čtvrtletních hodnot. Tab. 5.3 Počet evidovaných nezaměstnaných ke konci měsíce v letech 2012-2016 (v tis, osob) Měsíc (den) 2012 2013 2014 2015 2016 leden (31.1.) 534,1 585,8 629,3 556,2 467,4 únor (28V29.2.) 541,7 593,7 625,4 548,1 461,3 březen (31.3.) 525,2 587,8 608,3 525,3 443,1 duben (30.4.) 497,3 565,2 574,9 491,6 415,0 květen (31.5.) 482,1 547,5 550,0 465,7 394,8 červen (30.6.) 474,6 540,5 537,2 451,4 384,3 červenec (31.7.) 485,6 551,1 541,4 456,3 392,7 srpen (31.8.) 486,7 551,7 535,2 450,7 388,5 září (30.9.) 493,2 557,1 529,1 441,9 378,3 říjen (31.10.) 496,8 556,7 519,6 430,4 366,2 listopad (30.11.) 508,5 565,3 517,5 431,4 362,8 prosinec (31.12.) 545,3 596,8 541,9 453,1 381,4 Zdroj: www.mpsv.cz Měsíční časová řada počtu evidovaných nezaměstnaných je okamžikovou časovou řadou, její hodnoty jsou zjišťovány ke konci měsíce, tj. vždy k poslednímu dni daného měsíce. Převedení této měsíční okamžikové časové řady na čtvrtletní časovou řadu provedeme tak, že z časové řady vybereme hodnoty odpovídající poslednímu měsíci vdaných čtvrtletích, tj. hodnoty, vztahující se k datům 31.3., 30.6., 30.9. a 31.12. Výsledná časová řada v tabulce 5.4 je opět okamžiková. Tab. 5.4 Počet evidovaných nezaměstnaných ke konci čtvrtletí v letech 2012-2016 (v tis, osob) Čtvrtletí (den) 2012 2013 2014 2015 2016 1(31.3.) 525,2 587,8 608,3 525,3 443,1 II (30.6.) 474,6 540,5 537,2 451,4 384,3 III (30.9.) 493,2 557,1 529,1 441,9 378,3 IV (31.12.) 545,3 596,8 541,9 453,1 381,4 Stejným způsobem postupujeme, chceme-li z této měsíční resp. čtvrtletní okamžikové řady získat časovou řadu roční. Hodnoty, které nás zajímají, jsou vždy vztaženy k poslednímu dni roku, tj. k 31.12. Stejně jako u předchozího příkladu jsou pro srovnám na obrázku 5.3 zakresleny obě časové řady. V tomto případě se časové řady svou úrovní neliší, protože u obou Statistika v ekonomii 247 5.1.1 Základní charakteristiky Stejně jako u průřezových dat, je i u časových řad užitečné získat pomocí jedné nebo několika charakteristik souhrnné informace, které jsou v datech obsažené. Při výpočtu průměrné hodnoty však musíme postupovat obezřetně vzhledem k typu ukazatele. Protože se u intervalových časových řad provádí shrnování pomocí součtů, lze průměrnou hodnotu časové řady vypočítat pomocí aritmetického průměru y=lpiyt> t=\,2,...,T. (5.i) * í=i U okamžikových časových řad takto postupovat nelze, proto se pro řady tohoto typu používá tzv. chronologický průměr. S ohledem na vzdálenosti mezi jednotlivými rozhodnými okamžiky používáme v případě stejných časových vzdáleností mezi hodnotami časové řady prostý chronologický průměr >i+Ji+^±Ji+...+ JV-4+>V \yx^tyAyT y = -2-2-2— = l-«-?_. (5.2) T-l T-l V případě různých časových vzdáleností mezi hodnotami časové řady (např. v případě měsíčních a čtvrtletních časových řad) použijeme vážený chronologický průměr y^dx+^±* ^+...+-*-i+*- 0 od bodu t=T do budoucnosti. Na horizontu předpovědi je závislá očekávaná přesnost předpovědí. Pokud se zvolí krátký horizont, budou předpovědi přesnější než při volbě dlouhého horizontu. V případě lineárních modeluje optimální předpovědí předpověď s tzv. minimální střední čtvercovou chybou MSE(yT(h)) = E(YT+h -yT{h)f -> min. (5.21) Z Arit, Aritová (2009) vyplývá, že předpověď hodnoty v čase T+ h s minimální střední čtvercovou chybou je podmíněná střední hodnota náhodné veličiny YT+h yT(h) = E(YT+h\yT,yT_l, y{), (5.22) tj. očekávaná hodnota budoucnosti YT+h, je podmíněna minulými hodnotami časové řadyyT,yT_u ...,yu dostupnými v čase T. Při předpovídání se lze dopustit chyby sT{h)=YT+h~yT{h), h>0. (5.23) V souladu s induktivním předpokladem, že časová řada je realizací stochastického procesu, definovaným na začátku této kapitoly, je třeba nyní ukázat důsledky z toho plynoucí. Z hlediska induktivní statistiky je odhad budoucích hodnot časové řady odhadem budoucí hodnoty trendu časové řady a trendem jsou v tomto případě střední hodnoty náhodných veličin stochastického procesu, z kterého je generována daná časová řada. V induktivní statistice jsou kladeny požadavky na bodové odhady, tj. odhad Statistika v ekonomii 259 by měl být nezkreslený a konzistentní (viz kapitola 3.3). Stejné požadavky bychom měli klást i na předpovědi, tj. bodová předpověď by měla být nezkresleným odhadem budoucí střední hodnoty stochastického procesu, protože E[ir(h)]=E[Yr+lt-ýT(h)] = 0, a rozptyl chyby předpovědi by měl být minimální, tj. D[iT(h)]= E[(YT+h -yT(A))2]^ min. Pokud je empirický model správný a budoucí vývoj časové řady je stejný jako minulý vývoj, potom použijeme-li k odhadu parametrů modelu metodu nejmenších čtverců, budou bodové předpovědi nezkreslenými odhady středních hodnot budoucích náhodných veličin. Tyto odhady jsou charakteristické minimálním rozptylem. Intervalová předpověď je intervalovým odhadem YT+h, tj. stejně jako u bodového odhadu jde o intervalové odhady podmíněných středních hodnot budoucích náhodných veličin. V souladu s kapitolou 3.3 můžeme zde normovanou statistiku (3.21) zapsat ve tvaru u=YT+h-yT(h) ^ h>^ (524) kde U je náhodná veličina, která má normované normální rozdělení, tj. Č7~N(0, 1) a a£ je směrodatná chyba předpovědi. Potom je možné 100(1 - a)% predpovední interval vyjádřit ze vztahu P tj. YT+h-yT(h) Ul-a/2 < < U\~al2 l-a, (5.25) P(yT(h)-u^a/2a£' = #> (5.31) a intervalovou předpověď (5.32) kde tUaj2 je kvantil t rozdělení s T - 1 stupni volnosti a sR je reziduálni směrodatná odchylka konstantního trendu daná vztahem 1 lo>,-?)! / -i T-l (5.33) Lineární trendová funkce Zde předpokládáme, že trend časové řady lze popsat lineární funkcí času, tj. Tt = pQ + /3xt, t=\,2,...,T. (5.34) Parametry /?0, /?, této funkce také odhadujeme metodou nejmenších čtverců, postup viz kapitola 4.3.1, tj. k=y^PJ, A=^=ř- (5-35) t -t Odhad lineárního trendu je Ťt=yt=&+fo (5-36) Bodová předpověď se vypočte jako Statistika v ekonomii 261 .29) 1.35) 5.36) jV(*)=Ä+A(r+Ä) a intervalová předpověď jako i (T+h-tý t ľ(r-i)/i2 » Jr(A) + ři-a/2^J1 + - + 1 (T + h-t) T T(T~Í)/U (5.37) , (5.38) kde /i_a/2 je kvantil ř rozdělení s ľ-2 stupni volnosti a sÄ je reziduálni směrodatná odchylka lineárního trendu, daná vztahem r-2 (5.39) Kvadratická trendová funkce Trend časové řady, která má kvadratický (parabolický) vývoj, lze popsat funkcí (5.40) parametry /?0, /?, a /?2 odhadujeme metodou nejmenších čtverců, postup viz kapitola 4.3.3. Vzorce pro jejich odhad získáme řešením soustavy normálních rovnic; jsou to f T T \ í T T \ J30=y-J3lt-J32t2 t=\ J t=\ j Pi T T E*3-'Z' f T T \f T T \ í T T \f T T \ Yyf-yY*2 Y/^Yj - YyJ-yY' Yf3-JYt2 \t=i t=i j\t=] ;=i j \t=i_t=i j\i=i_t=i j í t i—\i\f t Y<4-[?2) V, i=l v ' J T \ f T T Ý Yf-^YJ - ž>3-^2>2 \t=\ t=\ J V ŕ=l t=\ J (5.41) Odhad kvadratického trendu potom je Bodová předpověď je ve tvaru yr(h) = A)+fi(T + h) + Č2(T + h)2 a intervalová předpověď je y t (h) - h^al2sR Ji+{],(T+h),(T+h)2}(x'xyl{UT+h),(T+hýy, y t (*) + h_al2sR ^ + {UT + h),(T + h)2}(x'xyl{UT + h\(T + hf}'), (5.42) (5.43) (5.44) 262 Časové řady kde tUa,2 je kvantil t rozdělení s T- 3 stupni volnosti a sR je reziduálni směrodatná odchylka kvadratického trendu, daná vztahem 1, 1 i -2 T-3 X 1, i, r, r (5.45) Další typy trendových funkcí Exponenciální trendová funkce má tvar Tt = /30j31t, t =1,2,..., T. (5.46) I když je tato funkce nelineární v parametrech, parametry (J3Q, f3x > 0) lze také odhadnout metodou nej menších čtverců, ale až po linearizující transformaci, kterou provedeme zlogaritmováním, tj. ]nTt = lnJ30 + tlnj3u (5.47) a dále se postupuje stejným způsobem jako v případě přímky. Více o exponenciální funkci viz kapitola 4.3.4. Stručně zmiňme další trendové funkce, např. modifikovanou exponenciální trendovou funkci, která je ve formě Tt=y+M. (5.48) Tato trendová funkce není lineární v parametrech a není ji možné linearizovat žádnou transformací, proto k odhadu parametrů není možné použít metodu nej menších čtverců. Existuje však několik jiných metod, např. Gaussova-Newtonova iterativní metoda, metoda částečných součtů, nebo metoda vybraných bodů. Dále zmiňme logistickou trendovou funkci T.=---, (5.49) která patří do skupiny S-křivek a je charakteristická nezápornou asymptotou a jedním inflexním bodem. Také pro odhad jejích parametrů nelze použít metodu nejmenších čtverců, lze ale použít např. metodu částečných součtů. Výběr a ověřování vhodnosti trendové funkce Výběr trendové funkce je při modelování trendu časových řad velmi obtížným úkolem, protože neexistuje objektivní způsob jejího výběru. Nejjednodušší a nejčastěji používaný způsob je subjektivní volba trendové funkce na základě grafu analyzované časové řady. Velmi jednoduchým způsobem výběru vhodného typu trendové funkce je analýza diferencí a koeficientů růstu dané časové řady. Statistika v ekonomii 263 Analýza diferencí se používá pro výběr trendové funkce polynomiálního typu. Vychází se ze skutečnosti, že první diference určitého polynomu snižuje jeho řád o jeden stupeň, což v případě konstanty znamená, že první diference, j e rovna nule (Tt - Tt-,i = Pq -ft0 = 0), v případě přímky je první diference rovna konstantě (Tt - I*ř_i =/?Q + pxt - Pq- Pi(t - 1) = Pi), a v případě paraboly je první diference přímka ('/', - Tt = (/?, ~p2) + Pit)- Analýza koeficientů růstu se hodí pro výběr funkce exponenciálního typu. Koeficient růstu exponenciální funkce (TJTt-x = pxpx'/'PoPi 1 = pi) je konstanta. Z výše uvedeného byla odvozena pravidla pro výběr typu trendových funkcí. Pokud: ■ řada prvních diferencí analyzované časové řady, tj. Ayt = yt-yt-X, t = 2, 3, T, osciluje okolo nuly, vybereme konstantní trend, ■ řada prvních diferencí kolísá okolo nenulové konstanty, volíme lineární trend, ■ řada prvních diferencí má přibližně lineární trend a řada druhých diferencí, tj. A2yt = Ayt - Ayríi t = 3,4, T, má přibližně konstanta! trend, vybereme kvadratický trend, ■ řada koeficientů růstu, tj. kt = y/yt-x, t = 2, 3,Trnebo řada prvních diferencí zlogaritmované časové řady, tj. Alríyt = \nyt-\nyM), kolísá okolo nenulové konstanty, volí se jednoduchý exponenciální trend, ■ řada podílů prvních diferencí, tj. Ay/Ayf-X> t = 3, 4,T, kolísá okolo nenulové konstanty, volíme modifikovaný exponenciální trend. Pokud výše uvedený způsob volby trendové funkce nevede k jednoznačnému výsledku, vybere se několik trendových funkcí a jejich vhodnost se ověřuje až po odhadnutí jejich parametrů. Používají se potom dva druhy kritérií - interpolační a extrapo-lační. Mezi interpolační kritéria zařazujeme průměrné reziduálni charakteristiky, r-testy o parametrech modelu, celkový F-test, index determinace a upravený index determinace. Zvláštní skupinu tvoří testy diagnostické kontroly modelu. Mezi extrapolační kritéria potom patří míry a testy přesnosti předpovědí ex post. Interpolační kritéria Po odhadu parametrů modelu trendu časové řady, stejně jako v regresi, zjišťujeme, jak přesně odhadnutý model vystihuje časovou řadu, tj. zkoumáme charakter rozdílů skutečných hodnot yt a vyrovnaných %, resp. odhadnutých hodnot trendu Ťt. Rozdíly yt-yí=yí-Tt=ét (5.50) označujeme jako rezidua a jsou odhadem nesystematické složky st, v čase t. Rezidua lze chápat také jako chybu modelu. Obecně platí, že se volí takový model, který mini- 264 Časové řady malizuje hodnoty vybraného kritéria. Tímto kritériem je nejčastěji součet čtverců odchylek empirických hodnot od hodnot vyrovnaných, tj. reziduálni součet čtverců sR=í(yt-yt)2=Í^. ' (5.51) Přesnost vyrovnání časové řady měříme průměrnými reziduálními charakteristikami, které lze zobecnit pro libovolný model časové řady (nejen pro trendové funkce). Průměrná chyba je vyjádřena vzorcem T T Z (y* -&) ME- —- = J^, (5.52) T T přičemž vychází ME = 0, protože se odchylky vyrovnaných hodnot od skutečných navzájem vykompenzují. Pokud je ME> 0, znamená to, že model systematicky podhodnocuje skutečnost, a v případě ME < 0 model skutečnost nadhodnocuje. Pokud vybíráme z více odhadnutých modelů časové řady, je vhodné použít následující charakteristiky: průměrnou čtvercovou chybu T T MSE=^-= — = (5.53) T T T průměrnou absolutní chybu MAE-—-= ^-, (5.54) T T průměrnou absolutní procentuální chybu MAPE = -Tj^ ^'-100 = -y^-100 (5.55) T «=i yt T i=i y, a průměrnou procentuální chybu MP£ = ÍvZlzA.ioo= ay^moo. (5.56) t m y, t ;=1 „r, Volíme ten model, který minimalizuje hodnoty uvedených charakteristik. K těmto kritériím je však třeba přistupovat obezřetně, protože jejich velikost je stejně jako u indexu determinace ovlivněna počtem parametrů v modelu (např. MSE lineárního trendu je vždy vyšší než MSE kvadratického trendu pro stejnou časovou řadu). Stejným způsobem jako v regresi se i v časových řadách používají dílčí /-testy o parametrech modelu a celkový F-test. Pro výběr mezi dvěma vhodnými modely trendu lze využít i upravený index determinace. Problematika výše uvedeného byla popsána v kapitole 4.3.5. Statistika v ekonomii 265 Diagnostická kontrola modelu Diagnostická kontrola odhadnutého modelu spočívá v ověřování, že nesystematická složka modelu st, má, jak již bylo popsáno v minulých kapitolách, vlastnosti procesu bílého šumu. Zkoumá se, zda st~N{Q, 07) a cov(et, st-k) = 0, tj. zda jde o náhodné kolísání hodnot těchto normálně rozdělených náhodných veličin okolo nuly v určitých konstantních mezích. Nesystematická složka, splňující všechny výše uvedené podmínky, je znázorněna na obrázku 5.8. Obr. 5.8 Nesystematická složka s vlastnostmi procesu bílého šumu Pro účely této kapitoly se nyní zaměřme pouze na testy vzájemné lineární nezávislosti, tj. cov(£-ř, St-k) = 0. Porušení ostatních předpokladů budeme dokumentovat pouze na grafech. Nepřítomnost autokorelace nesystematické složky se testuje pomocí Durbinova-Watsonova testu (D W test). Testovaná hypotéza je Ho: /?, = 0 a alternativní Hi: px 0, testové kritérium má tvar T 2 YXĚt-«t-\) DW = ^—T-, £>JFe<0;4>, (5.57) í=i kde st jsou rezidua v čase t a ět_v v čase t - 1, tj. ve zpoždění 1. K rozhodnutí o nezamítnutí nebo zamítnutí testované hypotézy je třeba určit kritické hodnoty dd a dh, které jsou tabelovány pro různé hladiny významnosti, pro různé délky časových řad i pro různé počty parametrů odhadnuté trendové funkce. Abychom eliminovali pracné vyhledávání v tabulkách, lze orientačně použít následující postup: pokud je hodnota testového kritéria blízká 2, potom testovanou hypotézu, že nesystematická složka modelu není ve zpoždění jedna autokorelovaná, nezamítáme. V případě, že je blízká 0 nebo 4, potom testovanou hypotézu zamítáme. 266 Časové řady Z DW testu získáme informaci o autokorelaci pouze ve zpoždění jedna, což je v případě časových řad informace nedostatečná. Proto se používá reziduálni autoko-relační funkce (označuje se jako ACF), která prostřednictvím reziduálních autokore-lačních koeficientů T Pk = '~-k+lT ' - , ÁM-l;l)i=U,... (5.58) t=\ poskytne informace o autokorelaci ve zpoždění k. Pokud hodnoty reziduálni ACF nepřekračují kritické meze dané ±2/\fľ , je možné předpokládat, že nesystematická složka modelu není autokorelovaná. Nevýhodou takto konstruovaných kritických mezí je to, že jejich šířka je dána délkou časové řady, což znamená, že pro krátké časové řady jsou tyto meze široké a pro dlouhé časové řady naopak úzké. Reziduálni autokorelační funkce se zobrazuje graficky, ve formě korelogramu. Vzhledem k tomu, že se v praxi setkáváme s nesplněním podmínek kladených na nesystematickou složku u modelů reálných časových řad velmi často, ukažme si některé případy na následujících grafech. Obr. 5.9 Nesplnění předpokladu E(st) = 0, kladeného na nesystematickou složku Grafy na obrázku 5.9 ukazují nesplnění předpokladu E(st) = 0; nesystematická složka modelu na těchto obrázcích nemá nulovou střední hodnotu. Modely v tomto případě dobře nevystihují charakter časové řady, odhady parametrů metodou nejmen-ších čtverců jsou zkreslené. Řešením je nová specifikace modelu. Grafy na obrázku 5.10 ukazují nesplnění předpokladu D(st) = o2; na těchto grafech nemá nesystematická složka modelu konstantní rozptyl (říkáme také, že je podmíněně heteroskedastická). V prvním grafu rozptyl klesá s rostoucím časem, ve druhém se v průběhu času mění, modely proto dobře nevystihují charakter časové řady. Odhady parametrů jsou v tomto případě sice nezkreslené, protože E(st) = 0, ale nejsou vydatné, protože D(et) # o2. Řešením může být např. nová specifikace modelu nebo logaritmická transformace hodnot analyzované časové řady. Statistika v ekonomii 267 • • • • • • * • • -'.jí oK^--• •V • ••••• Obr. 5.10 Nesplnění předpokladu D{st) = 0, model skutečnost v průměru podhodnocuje, a v případě ME < 0 model skutečnost v průměru nadhodnocuje. Jedním z možných testuje Chowův test předpovědí, kterým se testuje rozdíl mezi modelem odhadnutým na celé délce časové řady, tj. v období t= 1, 2, T, a mode- Statistika v ekonomii 269 lem odhadnutým pro zkrácenou časovou řadu, tj. v období t = 1,2, T\. Testuje se hypotéza H0: /?0,r = Po,n, P\j = Pi,n> ■ ■ ■■> Pk,r = Pm vyjadřující shodu parametrů obou modelů, oproti alternativní hypotéze Hi: non Ho, která vyjadřuje, že se alespoň jedna dvojice parametrů liší. Nezamítnutí hypotézy Ho lze tak zároveň interpretovat tak, že model je vhodný pro předpovídání. Používá se testové kritérium F ve tvaru 'R,T F F~F(T2, Ti-p), (5.60) 'R,T, 'P kde SRT]e reziduálni součet čtverců modelu odhadnutého pro celou délku časové řady, tj. v období t — 1, 2,T, SRiTl je reziduálni součet čtverců modelu odhadnutého pro zkrácenou časovou řadu, tj. v období t= 1, 2,Tu a. p je počet parametrů tohoto modelu. Je-li hodnota F > F^X^i, T -p), zamítáme na hladině významnosti atestovanou hypotézu a usuzujeme, že model trendu není vhodný pro předpovídání. Příklad 5.7 Časovou řadu střední délky života žen v letech 1993-2016 z příkladu 5.5 (tabulka 5.6) modelujme lineární trendovou funkcí, ověřme kvalitu modelu interpolačními a extra-polačními kritérii a vypočtěme bodové předpovědi do roku 2021. Řešení Řešení tohoto příkladu rozdělíme do tří částí. V první části ukážeme, jakým způsobem lze zvolit vhodný model trendu, odhadneme jeho parametry a vypočteme nej důležitější interpolační charakteristiky. V druhé části statistickými testy zvolený model trendu verifikujeme. Ve třetí části vypočteme předpovědi a ověříme jejich kvalitu. 83 82 81 80 - 79 78 77 76 1993 1995 1997 1999 2001 2003 2005 2007 2009 2011 2013 2015 2017 Obr. 5.13 Střední délka života žen v letech 1993-2016 Zdroj: www.czso.cz 270 Časové řady Časová řada střední délky života žen, zobrazená na obrázku 5.13, je v analyzovaných letech charakteristická rostoucím, zřejmě lineárním trendem. Výběr lineárního trendu, si lze ověřit výpočtem absolutních přírůstků (viz příklad 5.5, tabulka 5.7) a jejich zakreslením do grafu. Na obrázku 5.14 jsou zakresleny absolutní přírůstky (první diference) časové řady střední délky života žen. Hodnoty této časové řady oscilují okolo nenulové konstanty (konkrétně okolo hodnoty 0,245, což je v příkladu 5.5 vypočtená hodnota průměrného absolutního přírůstku), proto lze trend této časové řady považovat za lineární. 1993 1995 1997 1999 20012003 2005 2007 2009 2011 2013 2015 2017 Obr. 5.14 První diference střední délky života žen Pro získání odhadů parametrů přímky 0O a 0X dosadíme do vzorců (5.35), potřebné výpočty jsou uvedeny v tabulce 5.10: T 24 033,630 _ 1001,401, Z* 1900,89 = 79,204, A T 24 ty-t-y _ 1001,401-12,500-79,204 T T M T ■■ 0,237, t =• ť 300 24 12,500, 4900 24 : 204,167, t2-J2 204,167-12,500z p()=y-ftj = 19,204 - 0,237 • 12,500 = 76,242. Odhadnutý model trendu potom je yt = ft +fllt = 76,242 + 0,237ŕ. Odhadnutý parametr 0X lineárni trendové funkce interpretujeme tak, že střední délka života žen v letech 1993-2016 každý rok vzrostla v průměru o 0,237 roku. Statistika v ekonomii 271 Tab. 5.10 Střední délka života žen: odhad a ověření lineární trendové funkce Rok yt / t2 ty, y, í, (t-tf (y-y.f 1993 76,41 1 1 76,41 76,479 0.069 0,005 132,25 7,426 7,805 1994 76,58 2 4 153,16 76,716 -0,136 0,018 110,25 6,191 0,004 6,884 1995 76,63 3 9 229,89 76,953 -0,323 0,104 90,25 5,068 0,035 6,624 1996 77,27 4 16 309,08 77,190 0,080 0,006 72,25 4,057 0,162 3,739 1997 77,49 5 25 387,45 77,427 0,063 0,004 56,25 3,158 0,000 2,937 1998 78,06 6 36 468,36 77,664 0,396 0,157 42,25 2,372 0,111 1,308 1999 78,13 7 49 546,91 77,900 0,230 0,053 30,25 1,699 0,028 1,153 2000 78,35 8 64 626,80 78,137 0,213 0,045 20,25 1,137 0,000 0,729 2001 78,41 9 81 705,69 78,374 0,036 0,001 12,25 0,688 0,031 0,630 2002 78,54 10 100 785,40 78,611 -0,071 0,005 6,25 0,351 0,011 0,441 2003 78,51 11 121 863,61 78,848 -0,338 0.114 2,25 0,126 0,071 0,481 2004 79,04 12 144 948,48 79,085 -0,045 0,002 0,25 0,014 0,086 0,027 2005 79,10 13 169 1 028,30 79,322 -0,222 0,049 0,25 0,014 0,031 0,011 2006 79,67 14 196 1 115,38 79,559 0,111 0,012 2,25 0,126 0,111 0,217 2007 79,90 15 225 1 198,50 79,796 0,104 0.011 6,25 0,351 0,000 0,485 2008 80,13 16 256 1 282,08 80,033 0,097 0,009 12,25 0,688 0,000 0,858 2009 80,13 17 289 1 362,21 80,270 -0,140 0,020 20,25 1,137 0,056 0,858 2010 80,60 18 324 1 450,80 80,507 0,093 0,009 30,25 1,699 0.054 1,950 2011 80,74 19 361 1 534,06 80,744 -0,004 0,000 42,25 2,372 0,009 2,360 2012 80,88 20 400 1 617,60 80,981 -0,101 0,010 56,25 3,158 0,009 2,810 2013 81,13 21 441 1 703,73 81,218 -0.088 0,008 72,25 4,057 0,000 3,710 2014 81,69 22 484 1 797,18 81,455 0,235 0,055 90,25 5,068 0,104 6,181 2015 81,45 23 529 1 873,35 81,692 -0,242 0,058 110,25 6,191 0,227 5,046 2016 82,05 24 576 1 969.20 81,929 0,121 0,015 132,25 7,426 0,132 8.101 Součet 1900,89 300 4900 24 033.63 1900,890 0,000 0,772 1150,00 64,573 1.277 65,345 Pro verifikaci modelu použijeme nejprve interpolační kritéria, která jsou založena na reziduích (5.50) odhadnutého modelu. Dosazením za t = 1,2, 24 do odhadnuté rovnice lineárního trendu dostaneme vyrovnané hodnoty ý, = T, z 6. sloupce tabulky 5.10. Vyrovnané hodnoty a rezidua jsou na obrázku 5.15. 82 n 81 80 -79 -78 77 - 76 CTi Ol CTI CTI O CTI CT> CTI CTI O rH tH r-f rH rsl Obr. 5.15 Střední délka života žen: původní a vyrovnané hodnoty (vlevo), rezidua (vpravo) Výpočet průměrných reziduálních charakteristik zde uvedeme jen na ukázku, protože jsou užitečné jen při porovnávání více alternativních modelů a nemají věcnou interpretaci. Průměrná chyba je T E*. ME-- --2--0. 24 272 Časové řady a průměrná čtvercová chyba T IX MSE = —-= ^-^ = 0,032. T 24 Vypočteme-li koeficient determinace, dostaneme , t(y,-y)2 «2=^ = ^-= ^^ = 0,988. S. _o 65,345 • L(yt-y) t=\ Modifikovaný koeficient determinace je potom ^=l-(l-Ä2)^i = l-(l-0,988)§ = 0,9876. T - p 22 V první části tohoto příkladu jsme odhadli model lineárního trendu a vypočetli některé důležité interpolační charakteristiky, které bychom mohli použít pro porovnání tohoto modelu s jiným modelem. Nyní přistoupíme ke statistické verifikaci získaných výsledků. Provedeme testy diagnostické kontroly modelu, ŕ-testy o parametrech modelu a celkový F-test. K základním diagnostickým testům odhadnutého modelu patří testování autokore-lace nesystematické složky modelu. Použij eme-li Durbinův-Watsonův test, budeme testovat hypotézu Ho: Pi = 0 oproti Hi: p, ^ 0, tj. že nesystematická složka modelu ve zpoždění jedna není autokorelovaná, prostřednictvím testového kritéria (5.57). Potřebné výpočty najdeme v tabulce 5.10. Výsledkem je I(4-*m)2 1277 DW='-^—T-= Mil = 1,653. tě; °'772 t = \ Hodnota testového kritéria je blízká hodnotě 2, můžeme proto předpokládat, že nesystematická složka modelu není ve zpoždění jedna autokorelovaná. Vzhledem k tomu, že z DW testu nezískáme o autokorelaci dostatečnou informaci, použijeme pro její rozšíření reziduálni autokorelační funkci. Vypočteme jednotlivé reziduálni autokorelační koeficienty z (5.58); postup si ukážeme pro k= 1,2, ..., 4. Tabulka 5.11 je rozdělena do dvou částí. První sloupec první části obsahuje odhadnutá rezidua ze 7. sloupce tabulky 5.10, v 2.-5. sloupci jsou tato rezidua ve zpoždění k= 1, 2, 4, tj. j sou posunuta oproti předchozímu sloupci vždy o j eden rok. Ve druhé části jsou výpočty čitatele vzorce (5.58) pro jednotlivá k. Abychom mohli reziduálni autokorelační funkci pro dané k vypočítat, použijeme ve jmenovateli reziduálni součet čtverců z 8. sloupce tabulky 5.10. Statistika v ekonomii 273 Tab. 5.11 Střední délka života žen: výpočet reziduální autokorelační funkce Rok £t-\ &1-2 Ět-4 ĚlĚl-2 ĚlĚl-3 Ěl£t-4 1993 -0,069 1994 -0,136 -0,069 0,0093 * 1995 -0,323 -0,136 -0,069 0,0438 0,0222 1996 0,080 -0,323 -0,136 -0,069 -0,0259 -0,0109 -0,0055 1997 0,063 0,080 -0,323 -0,136 -0,069 0,0051 -0,0205 -0,0086 -0,0044 1998 0,396 0,063 0,080 -0,323 -0,136 0,0252 0,0319 -0,1279 -0,0538 1999 0,230 0,396 0,063 0,080 -0,323 0,0910 0,0146 0,0185 -0,0741 2000 0,213 0,230 0,396 0,063 0,080 0,0488 0,0843 0,0135 0,0171 2001 0,036 0,213 0,230 0,396 0,063 0,0076 0,0082 0,0141 0,0023 2002 -0,071 0,036 0,213 0,230 0,396 -0,0025 -0,0152 -0,0164 -0,0283 2003 -0,338 -0,071 0,036 0,213 0,230 0,0241 -0,0120 -0,0719 -0,0777 2004 -0,045 -0,338 -0,071 0,036 0,213 0,0153 0,0032 -0,0016 -0,0096 2005 -0,222 -0,045 -0,338 -0,071 0,036 0,0101 0,0752 0,0159 -0,0079 2006 0,111 -0,222 -0,045 -0,338 -0,071 -0,0246 -0,0050 -0,0375 -0,0079 2007 0,104 0,111 -0,222 -0,045 -0,338 0,0115 -0,0231 -0,0047 -0,0351 2008 0,097 0,104 0,111 -0,222 -0,045 0,0101 0,0107 -0,0215 -0,0044 2009 -0,140 0,097 0,104 0,111 -0,222 -0,0136 -0,0145 -0,0155 0,0311 2010 0,093 -0,140 0,097 0,104 0,111 -0,0130 0,0090 0,0097 0,0103 2011 -0,004 0,093 -0,140 0,097 0,104 -0,0004 0,0006 -0,0004 -0,0004 2012 -0,101 -0,004 0,093 -0,140 0,097 0,0004 -0,0094 0,0141 -0,0098 2013 -0,088 -0,101 -0,004 0,093 -0,140 0,0089 0,0004 -0,0082 0,0123 2014 0,235 -0,088 -0,101 -0,004 0,093 -0,0207 -0,0237 -0,0009 0,0219 2015 -0,242 0,235 -0,088 -0,101 -0,004 -0,0569 0,0213 0,0244 0,0010 2016 0,121 -0,242 0,235 -0,088 -0,101 -0,0293 0,0285 -0,0107 -0,0122 Součet X X X X X 0,1242 0,1755 -0,2212 -0,2296 Výsledkem jsou hodnoty 24 24 £*'*M 0,1242 _ . VA~2 0,1755 -= ^^ = 0,1608, P2=Ľ^i-= ^lirr = 0 2273 1 f,„2 0,772 f"2 °'772 t=\ t=\ 24 24 „ -0,2212 „ ^f'£,-A -0,2296 p,=—r,-=-= -0,2865, p4=—rA-=-= -0,2974. 3 Äa2 0,772 0,772 t=\ t=\ Vypočtené hodnoty reziduálních autokorelačních koeficientů a kritické meze, dané +2/V24 = ±0,4082, zakreslíme do korelogramu (obrázek 5.16) a vzájemně porovnáme. Vzhledem k tomu, že první reziduální autokorelační koeficient nepřekračuje kritické meze, je možné předpokládat, že nesystematická složka modelu není autokorelovaná. 274 Časové řady 1,0 -, 0,8 -0,6 - -0,4 - -0,6 - -0,8 - -1,0 - Obr. 5.16 Korelogram reziduí lineární trendové funkce Uveďme ještě do vzájemné souvislosti výsledky získané z DW testu a z reziduálni autokorelační funkce. Výsledek D W testu a první reziduálni autokorelační koeficient podávají o autokorelaci tutéž informaci. V případě /-testu testujeme statistickou významnost každého z odhadnutých parametrů zvlášť pomocí hypotéz Ho: /?, = 0 a H]: /?, ^ 0, i = 0, 1. Pro výpočet hodnot testového kritéria vypočítáme nejprve odhady směrodatných chyb odhadů obou parametrů (potřebné mezivýpočty jsou v tabulce 5.10) I* T-2 0,772 22 = 0,187, T T T2 0,187 J— + 2 V24 1 12,500" 1150 = 0,079. ř=i : 0,187 2>-ô2 1150 : 0,006. t=i Hodnoty testových kritérií ř-testů potom budou A 76,242 0,079 965,856 a tf A 0,237 0,006 =42,893. {t; \t\ > ti-an} je vymezen 100(1 - al2)% kvantilem t rozdělení Kritický obor Wc s T-p stupni volnosti, kde 7je délka časové řady a. p je počet parametrů v modelu, tj p = k+l. Tento kvantil je např. pro a= 0,05, T= 24 a p = 2 roven t0,915(22) = 2,074 Porovnáním vypočtených hodnot testových kritérií s tímto kvantilem, tj. t p =965,856>ŕ0975(22) = 2,074 a t„ =42,893 > tojm (22) = 2,074, Statistika v ekonomii 275 zjišťujeme, že v obou případech je hodnota testového kritéria prvkem kritického oboru a můžeme tak na 5% hladině významnosti zamítnout testovanou hypotézu Ho. Celkovým F-testem testujeme hypotézu Ho: J3tl = c, /?, = 0 oproti Hi: non Ho. Vypočteme hodnotu testového kritéria F = ■i -ytf ř=l r-p a vymezíme kritický obor Wa kvantil F rozdělení s p - 1 64,573 1 0,772 22 = 1839,828 Fm{\;22) ■ {F; F>Fj_a}, kde kritickou hodnotou je 100(1 - a)% a T - p stupni volnosti, např. pro a = 0,05 bude 4,301. Porovnáním hodnot testového kritéria a kvantilu zjišťujeme, že na 5% hladině významnosti zamítáme testovanou hypotézu Ho. Lineární trendová funkce je vhodná pro vystižení trendu této časové řady. Diagnostická kontrola modelu, /-testy o parametrech modelu a celkový F-test indikují, že lineární trendová funkce dobře vystihuje tvar trendu časové řady střední délky života žen. Na závěr je třeba uvést i běžný výstup z této analýzy získaný z Excelu (viz tabulky 5.12a-c). Drobné rozdíly ve výsledcích jsou dány zaokrouhlením. Tab. 5.12 Střední délka života žen: odhad lineární trendové funkce, výstup z Excelu Stupně volnosti Součet čtverců Průměrný čtverec Statistika F p-hodnota Regrese 1 64,5670 64,5670 1836,954 0,0000 Rezidua 22 0,7733 0,0351 Celkem 23 65,3403 Parametry Směrodatná chyba Statistika t ^-hodnota Konstanta 76,2420 0,0790 965,1498 0,0000 Stř. délka 0,2369 0.0055 42,8597 0,0000 c) charakteristiky r 0,9941 R2 0,9882 R2ADJ 0,9876 H 0,1875 T 24 276 Časové řady Skutečnost, že trendová funkce dobře vystihuje tvar trendu časové řady, však nic neznamená pro konstrukci předpovědí. Trendová funkce, která je vhodná z interpolač-ního hlediska, nemusí zajistit kvalitní předpovědi. Pomocí Chowova testu předpovědí otestujeme, zdaje odhadnutý model trendu vhodný i pro předpovídání. Časovou řadu rozdělíme na dvě části (viz obrázek 5.7), první část bude mít / = 1,2, .... 7'] hodnot; tuto část budeme interpolovat stejným typem trendové funkce, která byla použita pro původní časovou řadu, tj. v našem případě použijeme lineární trendovou funkci. Druhá část původní časové řady, tj. v období / T\ : 1. .... 7'. má 7\ hodnot. Vzhledem k tomu, že budeme předpovědi ex ante počítat pro h = 5, provedeme zkrácení také o 5 hodnot, tj. T2 = 5, což znamená, že interpolace bude provedena pro období 1993-2011 (T} = 19) a test předpovědí bude pro období 2012-2016. Jelikož postup odhadu lineární trendové funkce známe, využijeme pro test předpovědí výstup z MS Excel. Než přistoupíme k samotnému testu, odhadneme lineární trendovou funkci pro zkrácenou časovou řadu, viz tabulky 5.13a-b). Tab. 5.13 Střední délka života žen: odhad lineární trendové funkce 1993-2011 a) analýza rozptylu Stupně volnosti Součet čtverců Průměrný čtverec Statistika F /5-hodnota Regrese Rezidua 1 17 32,2918 0,6248 32,2918 0,0368 878,57 0,0000 Celkem 18 32,9167 b) odhad parametrů a individuální testy o parametrech Parametry Směrodatná chyba Statistika t jp-hodnota Konstanta 76,2351 0,0916 832,6509 0,0000 Stř. délka 0,2380 0,0080 29,6407 0,0000 Testujeme lineární trendovou funkci, proto testovaná hypotéza bude ve tvaru Ho: Po,t-fio,n, P\,t = P\,t\\ do testového kritéria (5.60) dosazujeme reziduálni součty čtverců z tabulek 5.12 a 5.13, tj. S*-r ~ jgjj 0,7733-0,6248 f°^— - 0í48 '°-8077-T,-P 19-2 přičemž kritický obor je pro a= 0,05 vymezen kvantilem F0>g5(5;17) = 2,810. Porovnáním hodnoty testového kritéria a kvantilu zjišťujeme, že na 5% hladině významnosti nezamítáme testovanou hypotézu Ho, a proto je lineární trendová funkce vhodná pro předpovídání. Statistika v ekonomii 277 Nyní přistoupíme ke konstrukci předpovědí ex ante. Pro časovou řadu střední délky života žen na základě lineární trendové funkce vypočteme předpovědi do roku 2021. Výpočet bodových předpovědí na základě trendových funkcí je vejmi jednoduchý a spočívá v dosazení hodnot časové proměnné v časech T+1, T+2,T+h do odhadnuté rovnice lineárního trendu (5.37). Jelikož časová řada má 24 pozorování, a předpovědi mají být do roku 2021, tj. h = 1, 2, 5, dosadíme do rovnice ý, =76,242 + 0,237? postupně za t hodnoty 25,26, ...,29. Vypočtené předpovědi zobrazuje tabulka 5.14 a obrázek 5.17. Tab. 5.14 Střední délka života žen: předpovědi na základě lineární trendové funkce h T+h M*) 1 25 82,1658 2 26 82,4027 3 27 82,6397 4 28 82,8766 5 29 83,1136 84 n 76 i—i—i—i—i—i—i—i—i—i—i—i—i—i—i—i—i—i—i—i—i—i—i—i—i—i—i—i—i 1993 1995 1997 1999 2001 2003 2005 2007 2009 2011 2013 2015 2017 2019 2021 Obr. 5.17 Časová řada střední délky života žen s bodovými předpověďmi ■ Příklad 5.8 Rozhodněme, zdaje vhodnější interpolovat trend časové řady státního dluhu ČR v letech 1993-2012 z tabulky 5.15 lineární nebo kvadratickou trendovou funkcí. Tab. 5.15 Časová řada státního dluhu České republiky v letech 1993-2012 (v mld. Kč) Rok 1993 1994 1995 1996 1997 1998 1999 2000 2001 2002 y> 158,8 157.3 154,4 155,2 173,1 194,7 228,4 289,3 345,0 395,9 Rok 2003 2004 2005 2006 2007 2008 2009 2010 2011 2012 y 493,2 592,9 691,2 802,5 892,3 999,8 1 178,2 1 344.1 1 499,4 1 667,6 Zdroj: www.czso.cz 278 Časové řady Řešení Časová řada státního dluhu ČR má výrazný rostoucí trend, viz obrázek 5.18. Subj ektiv-ním posouzením grafu lze usuzovat, že vhodnější trendovou funkcí bude zřejmě kvadratická trendová funkce. 1800 1600 1400 1200 1000 800 600 400 200 0 1993 1995 1997 1999 2001 2003 2005 2007 2009 2011 2013 Obr. 5.18 Státní dluh České republiky v letech 1993-2012 (v mld. Kč) Zdroj: www.czso.cz Tento předpoklad o tvaru trendové funkce je třeba v dalším kroku analýzy ověřit. Odhadneme proto v Excelu oba uvažované modely trendu. Odhad lineární trendové funkce obsahují tabulky 5.16a-c). Tab. 5.16 Státní dluh: odhad lineární trendové funkce a) analýza rozptylu Stupně volnosti Součet čtverců Průměrný čtverec Statistika F p-hodnota Regrese 1 4 134 339,7 4 134 339,7 156,778 0,0000 Rezidua 18 474 672,6 26 370,7 Celkem 19 4 609 012,3 b) odhad parametrů a individuální testy o parametrech Parametry Směrodatná chyba Statistika t p-hodnota Konstanta -207,2430 75,4355 -2,7473 0,0132 t 78,8483 6,2972 12,5211 0,0000 c) charakteristiky R 0,9471 R2 0,8970 R2ADJ 0,8913 H 162,3906 T 20 Statistika v ekonomii 279 Odhad kvadratické trendové funkce obsahují tabulky 5.17. Tab. 5.17 Státní dluh: odhad kvadratické trendové funkce a) analýza rozptylu Stupně volnosti Součet čtverců Průměrný čtverec Statistika F jD-hodnota Regrese 2 4 605 959 2 302 980 12 823,19 0,0000 Rezidua 17 3 053,113 179,5949 Celkem 19 4 609 012 b) odhad parametrů a individuální testy o parametrech Parametry Směrodatná chyba Statistika t /7-hodnota Konstanta 191,8497 9,9703 19,2421 0,0000 t -29,9952 2,1866 -13,7174 0,0000 t2 5,1830 0,1011 51,2447 0,0000 c) charakteristiky T 0,9997 0,9993 0,9993 13,4013 20 Budeme-li analyzovat výsledky odhadnutých modelů z tabulek 5.16 a 5.17, vidíme, že z hlediska r-testů, F-testu a vypočtených charakteristik se oba modely zdají jako vhodné pro vystižení trendu. Pokud bychom se na základě těchto výsledků měli rozhodovat, který z modelů vybrat, s přihlédnutím k vyšší hodnotě modifikovaného indexu determinace bychom dali přednost kvadratické trendové funkci. Pro doplnění vypočteme ještě MSE podle (5.53) MSE"" = 4 746 6?2'6 =23 733,63, MSE* = = 152,66 , 20 20 které upřednostnění kvadratické trendové funkce potvrzuje, protože Mffi*v je výrazně nižší než MSÉin. Avšak výběr trendové funkce jen na základě výsledků z tabulek 5.16 a 5.17 nestačí, protože výstup z MS Excelu neobsahuje diagnostické testy autokorelace. Dopočtěme proto pro oba modely hodnoty testových kritérií DW testu a hodnoty reziduálních auto-korelačních funkcí. K tomuto účelu si nejprve pro oba modely dopočteme vyrovnané hodnoty a následně i rezidua. V případě lineární trendové funkce budeme dosazovat v rovnici piin =_207,243 + 78,848/ za t = 1,2, ..., 20, pro kvadratickou trendovou funkci použijeme j/f =191,8497 - 29,9952/ + 5,183/2. 280 Časové řady Výsledky a další potřebné výpočty obsahuje tabulka 5.18. Tab. 5.18 Státní dluh: analýza reziduí lineární a kvadratické trendové funkce Rok ř2 Lineární trendová funkce Kvadratická trendová funkce y< t ýľ" (Ě, -£,_,)2 yŤ fikv 1993 158,8 1 1 -128,39 287,19 167,04 -8,24 1994 157,3 2 4 -49,55 206,85 6 455,85 152,59 4,71 167,60 1995 154,4 3 9 29,30 125,10 6 682,78 148,51 5,89 1,39 1996 155,2 4 16 108,15 47,05 6 091,53 154,80 0,40 30,10 1997 173,1 5 25 187,00 -13,90 3 714,69 171,45 1,65 1,56 1998 194,7 6 36 265,85 -71,15 3 277,37 198,47 -3,77 29,36 1999 228,4 7 49 344,70 -116,30 2 038,37 235,85 -7,45 13,57 2000 289,3 8 64 423,54 -134,24 322,14 283,60 5,70 172,92 2001 345,0 9 81 502,39 -157,39 535,84 341,72 3,28 5,84 2002 395,9 10 100 581,24 -185,34 781,11 410.20 -14,30 309,14 2003 493,2 11 121 660,09 -166,89 340,47 489,05 4,15 340,47 2004 592,9 12 144 738,94 -146,04 434,79 578,26 14,64 109,95 2005 691,2 13 169 817,78 -126,58 378,37 677,84 13,36 1,64 2006 802,5 14 196 896,63 -94,13 1 053,11 787,79 14,71 1,83 2007 892,3 15 225 975,48 -83,18 119,94 908,10 -15,80 931,01 2008 999,8 16 256 1 054,33 -54,52 821,49 1 038,78 -38,97 536,78 2009 1 178,2 17 289 1 133,18 45,06 9 916,52 1 179,83 -1,59 1 397,67 2010 1 344,1 18 324 1 212,03 132,03 7 564,08 1 331,24 12,82 207,63 2011 1 499,4 19 361 1 290,87 208,50 5 846,39 1 493,01 6,36 41,82 2012 1 667,6 20 400 1 369,72 297,88 7 989,09 1 665,15 2,45 15,31 Součet X X X 12 413,3 0,00 64 363.94 12 413,3 0,00 4315.57 Zobrazíme-li pro oba modely grafy původních a vyrovnaných hodnot časové řady (obrázek 5.19), získáme jasnější představu o vyrovnání časové řady danou trendovou funkcí. Rezidua obou modelů jsou na obrázku 5.20. Statistika v ekonomii 281 Obr. 5.20 Státní dluh: rezidua lineární (vlevo) a kvadratické (vpravo) trendové funkce Výše uvedené grafy indikují, že použití lineární trendové funkce zřejmě nebude vůbec možné. Lineární trendová funkce nedokáže vystihnout dynamiku časové řady a rezidua tohoto modelu na první pohled popírají jeden z požadavků kladených na nesystematickou složku modelu s„ a to vzájemnou lineární nezávislost náhodných veličin (C0V(£„ £^k) = 0). Potřebné výpočty pro dosazení do testového kritéria DW testu (5.57) obsahují tabulky 5.16 až 5.18. Testujeme hypotézu Ho: P\ = 0 oproti Hi: p\ ^ 0, po dosazení do vzorce pro testové kritérium dostaneme DWnn = 64363,94 ^ = 4315,57 474 672,6 3053,113 V případě lineární trendové funkce je hodnota testového kritéria DW1'" = 0,1356, což jednoznačně nelze považovat za hodnotu blízkou 2, a můžeme předpokládat, že nesystematická složka modelu jev prvním zpoždění autokorelovaná. V případě kvadratické trendové funkce DW*^ = 1,4135 si z hodnoty testového kritéria nelze jednoznačnou představu udělat, protože není zřejmé, jestli je hodnota testového kritéria blízká 2. Tab. 5.19 Státní dluh: hodnoty reziduálni ACF lineární a kvadratické trendové funkce k Lineární Kvadratická Pk IZšA-k Pk 1 356 884,78 0,7519 858,41 0,2812 2 236 570,73 0,4984 -1 340,82 -0,4392 3 121 322,96 0,2556 -1 204,79 -0,3946 4 22 311,85 0,0470 -791,97 -0,2594 5 -48 628,17 -0,1024 274,07 0,0898 282 Časové řady Dopočteme ještě hodnoty reziduálni autokorelační funkce. Potřebné výpočty obsahují tabulky 5.16, 5.17 a 5.19, kde jsou uvedeny i vypočtené reziduálni autokorelační koeficienty. Určíme kritické meze ±2/420 = ±0,4472 a zobrazíme korelogramy rezi duálních autokorelačních koeficientů. -1,0 J -1,0 J Obr. 5.21 Státní dluh: korelogramy reziduí lineární (vlevo) a kvadratické (vpravo) funkce Z korelogramu získaného na základě reziduí lineární trendové funkce (obrázek 5.21 vlevo) je zřejmé, že kritické meze přesahují reziduálni autokorelační koeficienty ve zpoždění k = 1 a 2, a nesystematická složka tohoto modeluje proto autokorelovaná a lineární trendovou funkci nelze pro interpolaci trendu časové řady státního dluhu ČR použít. V případě kvadratické trendové funkce (obrázek 5.21 vpravo) se díky tomu, že je první výběrový autokorelační koeficient uvnitř kritických mezí (uvnitř kritických mezí jsou všechny vypočtené výběrové autokorelační koeficienty), naopak ukázalo, že nesystematická složka tohoto modelu není autokorelovaná a kvadratickou trendovou funkci je možné pro interpolaci trendu časové řady státního dluhu ČR použít. Závěrem z této analýzy je, že máme-li vybírat pro časovou řadu státního dluhu České republiky v letech 1993-2012 mezi lineární trendovou funkcí a kvadratickou trendovou funkcí, dáme na základě všech provedených testů přednost kvadratické trendové funkci. Z výše uvedené analýzy vyplývá, jak moc důležité je provedení diagnostických testů (včetně grafické analýzy reziduí) odhadnutého modelu. Kdybychom je nepoužili, mohli bychom odhad lineární trendové funkce považovat za vhodný (i když o trochu horší než v případě kvadratické trendové funkce). Je třeba si uvědomit, že pokud není splněna podmínka vzájemné lineární nezávislosti nesystematické složky, mohou být odhadnuté parametry modelu sice nezkreslené a konzistentní, ale nejsou vydatné. Z toho důvodu nejsou testy založené na odhadu jejich rozptylu validní a nelze je proto použít. Není tak možné použít např. /-testy, na základě kterých jsme mohli z tabulek 5.16 usuzovat, že model lineárního trendu je pro interpolaci vhodný. ■ Statistika v ekonomii 283 5.3.3 Klouzavé průměry Při použití deterministických trendových funkcí jsme předpokládali, že trend má charakter určité funkce časové proměnné s neměnnými parametry, tj. že lze časovou řadu v celé délce vyrovnat jednou trendovou funkcí. V této souvislosti se používá pojem ceteris paribus, tj. „budoucí naváže na minulé za jinak nezměněných okolností", kdy při konstrukci předpovědí předpokládáme, že nedojde ani v budoucnosti ke změnám v generujícím procesu dané časové řady. Prakticky je ale, zejména v ekonomické oblasti, předpoklad o neměnnosti analytického tvaru modelu splněn velmi zřídka. Proto budeme od tohoto místa předpokládat, že trend lze modelovat pomocí funkce časové proměnné s neměnnými parametry pouze v krátkých časových úsecích. Nemusíme tak předpokládat stabilitu analytického tvaru trendové funkce ani jejích parametrů, a podmínkou není ani spojitost trendové funkce, jak tomu bylo v předchozí kapitole. V této souvislosti se metody založené na tomto principu označují jako adaptivní metody. Metoda klouzavých průměrů je založena na představě, že trend v časové řadě je možné modelovat pomocí matematických funkcí (polynomů) času pouze v krátkých úsecích časové řady. Spočívá v tom, že časovou řadu vyrovnáme řadou průměrů vypočtených z hodnot časové řady. Tyto průměry potom chápeme jako aproximaci trendu časové řady. Postup konstrukce klouzavých průměrů je následující. Pomocí vhodného polynomu trendu se vyrovná (interpoluje) prvních m = 2p + 1 hodnot časové řady a takto interpolovaná (p + l)-ní hodnota bude odhadnutou hodnotou trendu fp+\. Odhad Ťp+2 se získá tak, že se z prvních m hodnot vypustí první hodnota a přibere se hodnota následující hodnotu poslední. Pro těchto nových m hodnot se opět odhadují parametry daného polynomu a interpoluje se tentokrát (p + 2)-há hodnota. Tímto způsobem se postupuje až do konce původní časové řady. Jak uvidíme dále, jedná se o vytváření lineárních kombinací hodnot původní časové řady s pevnými váhami, které jsou dány zvoleným typem trendové funkce a délkou klouzavých úseků. Rozlišujeme tři typy klouzavých průměrů: jednoduché klouzavé průměry, vážené klouzavé průměry a centrované klouzavé průměry. Volba délky klouzavé části je u časových řad bez sezónní složky subjektivní, čím hladší vyrovnání časové řady požadujeme, tím volíme delší klouzavou část. Použití klouzavých průměrů má několik zásadních nevýhod. Největší z nich je, že prvních a posledních p hodnot časové řady zůstane nevyrovnáno, proto se klouzavé průměry nehodí k odhadům budoucího vývoje. Mezi další nevýhody patří, že trend získaný pomocí klouzavých průměrů je pouze aproximací trendu. Dále: klouzavé průměry jsou určeny pomocí aritmetických průměrů, které jsou velmi citlivé na případné odlehlé hodnoty v analyzované časové řadě; určení počtu hodnot časové řady, zahrnutých do klouzavého průměru, záleží na rozhodnutí toho, kdo průměry počítá, a podléhá tedy subjektivnímu rozhodnutí. 284 Časové řady Jednoduché klouzavé průměry Předpokládejme, že budeme vyrovnávat m = 2p + 1 (kde m je liché) hodnot časové řady pomocí polynomu prvního stupně, tj. přímkou. Vyrovnávané hodnoty lze označit jako yt+h kde / = —p, ...,-1,0, 1, ..., p. Parametry přímky se odhadnou pomocí metody nejmenších čtverců tak, že bude minimalizován reziduálni součet čtverců, tj. É0V/-Ar-/V)2^min, / = "/>, ...,-1,0, 1, ...,p. (5.61) i=-p Dostaneme normální rovnice p ^ p Z yt+i= mh +At Zl> P (5-62) Z^+/=Á>,Z/+ÁZ/2- /=-p I=-p l=-p Protože YJi=-pl= 0, je vyrovnanou hodnotou, tj. odhadem hodnoty trendu časové řady v čase t, odhad parametru 0$, tj. t ň - 1 v yt-P + -+yt+-+yl+p t, = Po, = >'ŕ = - Z y v* = —--• (5 -63) m i=_p m Vzhledem ke stejným váhám jednotlivých pozorování se jedná o tzv. prostý, resp. jednoduchý klouzavý průměr, kde v čitateli je klouzavý úhrn a ve jmenovateli délka klouzavého části. Příklad 5.9 Časovou řadu počtu evidovaných nezaměstnaných v České republice ke konci roku v letech 1993-2016 v tisících osob z tabulky 5.20 vyrovnejme jednoduchými klouzavými průměry délky m = 3 a m = 5. Tab. 5.20 Počet evidovaných nezaměstnaných v letech 1993-2016 (v tis, osob) Rok 1993 1994 1995 1996 1997 1998 1999 2000 y, 185,2 166,5 153 186,3 268,9 386,9 487,6 457,4 Rok 2001 2002 2003 2004 2005 2006 2007 2008 Vt 461,9 514,4 542,4 541,7 510,4 448,5 354,9 352,2 Rok 2009 2010 2011 2012 2013 2014 2015 2016 y, 539,1 561,5 508,5 545,3 596,8 541,9 453,1 381,4 Zdroj: www.mpsv.cz Statistika v ekonomii 285 Řešení Výpočty jsou v tabulce 5.21. Nejdříve jsme pro výpočet klouzavého průměru délky 3 vypočetli první klouzavý úhrn a vydělili jej třemi, tj. Každý další postupný krok výpočtu potom spočívá v tom, že se z klouzavého úhrnu vypustí první hodnota a přidá se hodnota následující, takže pro rok 1995 získáme f3 =ys = * + * + * = lfo5 + 153,0 + 186,3 =168>6 atd. Výsledná časová řada jednoduchých klouzavých průměrů je o dvě hodnoty kratší než původní časová řada, protože její první a poslední hodnota zůstávají nevyrovnané. Tab. 5.21 Počet evidovaných nezaměstnaných: výpočet klouzavých p růměrů Rok yt m = 3 m = 5 1993 185,2 1994 166,5 168,2 1995 153,0 168,6 192,0 1996 186,3 202,7 232,3 1997 268,9 280,7 296,5 1998 386,9 381,1 357,4 1999 487,6 444,0 412,5 2000 457,4 469,0 461,6 2001 461,9 477,9 492,7 2002 514,4 506,2 503,6 2003 542,4 532,8 514,2 2004 541,7 531,5 511,5 2005 510,4 500,2 479,6 2006 448,5 437,9 441,5 2007 354,9 385,2 441,0 2008 352,2 415,4 451,2 2009 539,1 484,3 463,2 2010 561,5 536,4 501,3 2011 508,5 538,4 550,2 2012 545,3 550,2 550,8 2013 596,8 561,3 529,1 2014 541,9 530,6 503,7 2015 453,1 458,8 2016 381,4 Stejným způsobem postupujeme i pro délku klouzavého průměru m = 5, tj. 286 Časové řady ŕ_Ä _- _.v, +y2 + v3 + v4 + y5 _ 185,2 + 166,5 + 153,0 + 186,3 + 268,9 _1fV, n 7 3— Poj ~~ y^ ~ <- — ^ — _- _ ^2+^3+^4 + ^+^6 _ 166,5 + 153,0 + 186,3 + 268,9+386,9 *4 ~~ A), 4 ~~ "^4 _ ^ ~ <- -ZJZ,J atd. V tomto připadaje časová řada jednoduchých klouzavých průměrů o čtyři hodnoty kratší než původní časová řada, nevyrovnané zůstávají první a poslední dvě hodnoty. Grafy na obrázku 5.22 zobrazují původní časovou řadu a vypočítané klouzavé průměry. Vážené klouzavé průměry Pokud budeme uvažovat, že budeme vyrovnávat m = 2p + 1 hodnot časové řady pomocí polynomu druhého stupně (parabolou), tj. klouzavým průměrem 2. řádu, bude postup analogický. Ukažme si situaci, kdy m = 5, t}, p = 2, Parametry paraboly odhadneme pomocí metody nejmenších čtverců tak, že budeme minimalizovat reziduálni součet čtverců, tj. í>ř+/-/4-/V-A/)2^min, / = -2, -1,0, 1,2. (5.64) /=-2 Určí se normální rovnice /=-2 l=-2 l=-2 tiyt+l = Atl+ Atr+^h\ (5-65) l=-2 l=-2 l=-2 /=-2 l=-2 l=-2 l=-2 l=-2 Vzhledem k tomu, že součet lichých mocnin časové proměnné / je roven nule, potom Statistika v ekonomii 287 ř=-2 ř=-2 ř=-2 /=-2 Z/2^-ÁZ/2+ÁZ^ /=-2 /=-2 fe=-2 Vyrovnanou hodnotou, tj. odhadem trendu časové řady v čase ř, je odhad parametru 0o, který se získá řešením soustavy normálních rovnic !=-2 takže ;=-2 Á=^fi7Z^-5Z/2^ = •"V /=-2 /=-2 y = ^(-3^-2+12^, + 17yř +12yŕ+1 -3yn2). (5.66) Tato lineární kombinace hodnot časové řady se nazývá klouzavý průměr délky 5 (m - 5) a řádu 2 (řád použitého polynomu). Z tohoto vztahu vyplývá, že odhad trendu časové řady v čase / se rovná váženému klouzavému průměru pěti hodnot s uvedenými váhami. Dále vidíme, že váhy jsou symetrické kolem prostřední hodnoty a jejich součet se rovná jedné (a lze je zapsat ve zkrácené formě l/35(-3, 12, 17, 12, -3)). Stejným způsobem je možné odvodit váhy pro klouzavé průměry různých délek pro libovolný polynomický trend řádu r. Vzhledem k tomu, že platí itp 12 tP 240 ' ' dostaneme odhad parametru /?„ a také odhad vyrovnané hodnoty časové řady v čase t Ä=^ = Ž ' (5-68) i=-P kde w,=- \ (3m2-7-20/2), l = -p, ...,-1,0,1,..., p. (5.69) 4m(m -4) Vztah (5.68) se označuje jako vážený klouzavý průměr. Váhy těchto průměrů 2. a 3. řádku jsou uvedeny v tabulce 5.22. 288 Časové řady Pokud je řád polynomu r sudé číslo, potom jsou klouzavé průměry řádu r a řádu r + 1 identické (mají stejné váhy). Odhad parametru ft0 se mění v závislosti na hodnotách časové řady, použitých pro výpočet klouzavého průměru. Metodu klouzavých průměrů lze proto také chápat jako zobecnění trendové analýzy pro případ polynomických trendových funkcí s časově měnlivými parametry. Tab. 5.22 Váhy klouzavých průměrů 2. a 3. řádu, délky m m Váhy 3 (0, 1,0) 5 l/35(-3, 12, 17, ...) 7 1/21 (-2, 3, 6, 7,...) 9 1/231(-21, 14,39, 54,59,...) 11 l/429(-36, 9, 44, 69, 84, 89, ...) 13 1 I43( 11.0, 9, 16,21,24, 25, ...) 15 1/1 105(-78. -13, 42, 87, 122, 147, 162, 167, ...) 17 l/323(-21, -6, 7, 18, 27, 34, 39, 42, 43,...) 19 1/2 261 (136, -51, 24, 89, 144, 189, 224, 249, 264, 269,...) 21 1/3 059(-171, -76, 9, 84, 149, 204, 249, 284, 309, 324, 329, ...) Centrované klouzavé průměry Až dosud jsme uvažovali, že m je liché číslo. Velmi často je ale potřeba volit m jako sudé číslo. Bývá to nejčastěji v případě, kdy analyzujeme čtvrtletní nebo měsíční časové řady, které často obsahují sezónní složku. Zvolíme-li totiž klouzavý průměr s délkou odpovídající délce sezóny, tj. počtu hodnot časové řady za kalendářní rok (v případě čtvrtletní m = 4, v případě měsíční m = 12), odfiltrují vypočítané klouzavé průměry z časové řady sezónní složku a můžeme je opět chápat jako odhad trendu. Při výpočtu postupujeme stejně jako u jednoduchých klouzavých průměrů s tím, že se vypočtený klouzavý průměr (vyrovnaná hodnota) bude nacházet vždy mezi dvěma prostředními hodnotami daného úseku původní časové řady, takže nemá žádnou věcnou interpretaci. V tomto případě je třeba provést centrování klouzavých průměrů tak, že se vždy ze dvou sousedních klouzavých průměrů vypočte jejich prostý aritmetický průměr. Tyto průměry se proto potom nazývají centrované klouzavé průměry. Tab. 5.23 Váhy jednoduchých a vážených centrovaných klouzavých průměrů délky 4 a 12 jednoduché centrované klouzavé průměry vážené centrované klouzavé průměry 4 1/8(1,2,2,2,1) 12 1/24(1,2,2, 2,2,2, 2, 2, 2, 2,2,2, 1) l/32(-l,8, 18, 8,-1) l/224(-9, -8, 10, 24, 34, 40, 42, ...) Centrované klouzavé průměry vypočteme jednodušeji, pokud na hodnoty časové řady aplikujeme systém vah z tabulky 5.23. První jednoduchý centrovaný klouzavý průměr pro m = 4 potom bude y!+2y,+2>'3+2y4 + y5 Statistika v ekonomii 289 Nevýhodnou tohoto typu klouzavých průměrů je, že zůstane nevyrovnáno prvních a posledních m/2 hodnot, tzn. že vyrovnaných hodnot bude o jeden kalendářní rok méně, než bylo kalendářních let v původní časové řadě. Příklad 5.10 Pro čtvrtletní časovou řadu průměrné hrubé nominální měsíční mzdy v České republice v letech 2012-2016 z příkladu 5.6, uvedenou v tabulce 5.8, vypočteme centrované klouzavé průměry délky 4. Řešení Časovou řadu průměrné hrubé nominální měsíční mzdy máme k dispozici ve čtvrtletní frekvenci, délka sezónnosti je tak rovna 4 (tj. máme 4 hodnoty za kalendářní rok), a proto volíme délku klouzavého průměru m = A. Protože m je sudé číslo, musíme vypočtené klouzavé průměry v dalším kroku ještě vycentrovat (vypočítat průměry vždy ze dvou po sobě jdoucích hodnot). Výsledky jsou uvedeny v tabulce 5.24. a na obrázku 5.23. Tab. 5.24 Průměrná hrubá nominální mzda: centrované klouzavé průměry Rok čtvrtletí yt 20121 24 131 201211 24 627 2012 III 24 439 2012 IV 27 055 20131 23 985 2013 II 24 877 2013 III 24 735 2013 IV 26 525 20141 24 931 201411 25 569 2014 III 25 279 2014 IV 27 261 2015 I 25 497 2015 II 26 408 2015 III 26 163 2015IV 28 258 20161 26 475 2016 II 27 272 2016 III 27 210 2016 IV 29 309 Klouzavý průměr délky 4 Centrovaný klouzavý průměr délky 4_ 25 063,0 25 026,5 25 089,0 25 163,0 25 030,5 25 267,0 25 440,0 25 576,0 25 760,0 25 901,5 26 111,3 26 332,3 26 581,5 26 826,0 27 042,0 27 303,8 27 566,5 25 044,8 25 057,8 25 126,0 25 096,8 25 148,8 25 353,5 25 508,0 25 668,0 25 830,8 26 006,4 26 221,8 26 456,9 26 703,8 26 934,0 27 172,9 27 435,1 290 Časové řady První klouzavý průměr délky 4 vypočteme jako podíl klouzavého úhrnu prvních čtyř hodnot časové řady a délky klouzavého průměru 7t + 72 + 73 + 74 = 24131 + 24 627 + 24 439 + 27 055 = 25 m Q - 4 4 druhý klouzavý průměr délky 4 jako 72+7i+74+75 24 627 + 24 439 + 27 055 + 23 985 ——-1—J-=-—^ =-= 25 026,5 . 4 4 Výsledky výpočtu těchto klouzavých průměrů nelze v tabulce 5.24 přiřadit ke konkrétním hodnotám původní časové řady, protože leží mezi dvěma prostředními hodnotami z (původních) hodnot, z nichž je průměr počítán, tj. mezi 2. a 3. čtvrtletím, resp. 3. a 4. čtvrtletím, roku 2012. Postupným zprůměrováním vždy dvou po sobě následujících výsledků získáme centrovaný klouzavý průměr, tj. např. pro 3. čtvrtletí roku 2012 f _ 25 063,0 + 25 026,5 -v3 = 73 =-2-= ' Analogicky pokračujeme při výpočtu ostatních centrovaných klouzavých průměrů. Výpočet centrovaných klouzavých průměrů lze provést i přímo s využitím systému vah z tabulky 5.23, ukažme si tento postup pro první dva centrované klouzavé průměry - _ 24131 + 2-24627 + 2-24439 + 2-27055 + 23985 T3=y3 =- ~-= 25044,8, 8 - _ 24627 + 2-24439 + 2-27 055 + 2-23985 + 24877 „řft„0 T4 = y4 =---= 25 057,8 . Obr. 5.23 Průměrná hrubá nominální mzda: centrované klouzavé průměry délky 4 Statistika v ekonomii 291 5.3.4 Exponenciální vyrovnávání Při modelování časových řad se často setkáváme s tím, že se během analyzovaného období mění tvar časové řady. Tato skutečnost znamená, že není možné-jedinou trendovou funkcí odhadnout trend celé časové řady. Metoda exponenciálního vyrovnávání je metoda modelování trendu prostřednictvím funkcí časové proměnné s parametry, které se v čase mění, tj. použijeme vybranou trendovou funkci opakovaně v krátkých úsecích (vždy mezi dvěma pozorováními) časové řady a odhadujeme v nich tzv. lokální trendy. Tyto lokální trendy se budou v každém úseku lišit svými parametry. Metoda díky tomu dokáže rychle reagovat na změny v časových řadách a díky tomu patří také do skupiny adaptivních metod. Používá se pro konstrukci předpovědí, kdy je velmi účelná zejména v případě relativně krátkých nebo variabilních časových řad. Metoda je založena na myšlence, že při analýze a předpovídání časové řady mají novější hodnoty časové řady větší váhu než hodnoty starší. Postupuje se tak, že se aplikuje metoda vážených nejmenších čtverců na všechny dostupné hodnoty časové řady s tím, že se váhy jednotlivých hodnot směrem do minulosti exponenciálně zmenšují. Minimalizuje se výraz ěow-jw)2/**=(yt-ytf+-Kifp+ 0v2-s^Ýr+-. (5.71) /£=() kde yt jsou vyrovnané hodnoty, P je předem zvolená diskontní konstanta, pro kterou platí 0 < p< 1 a k interpretujeme jako stáří pozorování. Při vysvětlení následujících typů exponenciálního vyrovnávání budeme předpokládat, že máme časovou řadu, která ze systematických složek obsahuje pouze trendovou složku, tj. yt=T( + st. Brownovo jednoduché exponenciální vyrovnávání Při tomto typu exponenciálního vyrovnávání předpokládáme, že trend časové řady lze v krátkých úsecích považovat za konstantní Tt = Po, (5.72) odhad Pq se však bude v různých časech lišit. Při odhadu v časovém bodě / se vychází z minimalizace výrazu Í(y^-p0fPk> (5-73) fc = 0 kde p je zvolená diskontní konstanta, pro kterou platí 0M , (5.75) kde a = 1 - J3,0 < a< 1, je tzv. vyrovnávací konstanta a volí se buď fixně (na základě věcné úvahy), nebo simulačně tak, aby minimalizovala reziduálni součet čtverců. Vyrovnaná hodnota v čase / je tak váženým aritmetickým průměrem hodnoty časové řady v čase / a vyrovnané hodnoty v čase t — 1. Bodová předpověď yT(h) vychází z (5.72), je vždy konstantní a je rovna vyrovnané hodnotě posledního pozorování, takže yT(h) = yT. (5.76) Počáteční hodnota ý0 se nejčastěji volí jako průměr z prvních 772 hodnot časové řady v případě sudého počtu hodnot, resp. (T+ l)/2 hodnot v případě lichého počtu hodnot, nebo jako první pozorovaná hodnota časové řady yl. Příklad 5.11 Časovou řadu spotřeby piva v litrech na jednoho obyvatele České republiky v letech 1993-2015, uvedenou v tabulce 5.25, vyrovnáme Brownovým jednoduchým exponenciálním vyrovnáváním s hodnotou vyrovnávací konstanty a = 0,999 a určíme předpovědi na roky 2016-2018. Tab. 5.25 Spotřeba piva v litrech na jednoho obyvatele České republiky v letech 1993-2015 Rok 1993 1994 1995 1996 1997 1998 1999 2000 2001 2002 2003 2004 }'t 153,6 156.7 156,9 157,3 161,4 161,1 159.8 159,9 156,9 159,9 161,7 160,5 Rok 2005 2006 2007 2008 2009 2010 2011 2012 2013 2014 2015 V< 163,5 159,1 159,1 156,6 150,7 144,4 142,5 148,6 147 147 146,6 Zdroj: www.czso.cz Řešení Analyzovaná časová řada je charakteristická výraznou změnou úrovně po roce 2009, viz obrázek 5.24. Do roku 2009 hodnoty spotřeby piva oscilují okolo 160 1/obyv., po roce 2009 se spotřeba sníží a pohybuje se okolo 146 1/obyv., v obou částech tak lze pozorovat přibližně konstantní vývoj. Statistika v ekonomii 293 165 -, 140 I..............i—i—i—i—i—r—i—r—i 1993 1995 1997 1999 2001 2003 2005 2007 2009 2011 2013 2015 Obr. 5.24 Spotřeba piva v litrech na jednoho obyvatele ČR Z výše uvedených důvodů je vhodné na tuto časovou řadu aplikovat Brownovo jednoduché exponenciálního vyrovnávání. Vyrovnávací konstanta a = 0,999 byla zvolena simulačně s ohledem na požadavek minimalizace reziduálního součtu čtverců. Tab. 5.26 Spotřeba piva: exponenciální vyrovnávání Rok / y< ý, 0 158,81 1993 1 153,6 153,61 1994 2 156,7 156,70 1995 3 156,9 156,90 1996 4 157,3 157,30 1997 5 161,4 161,40 1998 6 161,1 161,10 1999 7 159,8 159,80 2000 8 159,9 159,90 2001 9 156,9 156,90 2002 10 159,9 159,90 2003 11 161,7 161,70 2004 12 160,5 160,50 2005 13 163,5 163,50 2006 14 159,1 159,10 2007 15 159,1 159,10 2008 16 156,6 156,57 2009 17 150,7 150,69 2010 18 144,4 144,44 2011 19 142,5 142,47 2012 20 148,6 148,59 2013 21 147,0 147,02 2014 22 147,0 147,01 2015 23 146,6 146,61 294 Časové řady Výpočty jsou uvedeny v tabulce 5.26. V prvním kroku určíme počáteční hodnotu ý0 jako průměr z prvních (T + l)/2 = (23 + l)/2 = 12 hodnot, tj. . 153,6 + 156,7 + 156,9 + ... + 156,9 + 159,9 + 161,7 + 160,5 * >o--—---158,81, ostatní vyrovnané hodnoty získáme po dosazení do vzorce (5.75), tzn. ý\ =ayl +(l-a)% =0,999 • 153,6 + (1 - 0,999) • 158,81 = 153,61, y2 = ay2 + (1 -a)yx= 0,999 • 156,7 + (1 - 0,999) • 153,61 = 156,70, y23 = ay23 + (1 - a)y22 = 0,999 • 146,6 + (1 - 0,999) • 147,01 = 146,61. Předpovědi na roky 2016-2018 jsou potom podle vzorce (5.76) rovny poslední vyrovnané hodnotě, tzn. y23 C1) = j>23 (2) = (3) = 723 = 146,61. Vyrovnané hodnoty a předpovědi jsou znázorněny na obrázku 5.25. 165 -, 160 -155 -150 -145 -140 - 1993 1998 2003 2008 2013 2018 Obr. 5.25 Spotřeba piva v litrech na jednoho obyvatele ČR: vyrovnané hodnoty Brownovým exponenciálním vyrovnáváním a předpovědi ■ Brownovo (dvojité) lineární exponenciální vyrovnávání U tohoto typu exponenciálního vyrovnávání předpokládáme, že trend lze v krátkých úsecích považovat za lineární, tj. r,=A + A*. (5.77) Na časovou řadu s lokálně se měnícím lineárním trendem bylo použito jednoduché exponenciální vyrovnávání (ve tvaru (5.75)) a zjistilo se, že řada prvních exponenciálních průměrů podhodnocuje očekávanou střední hodnotu. Proto bylo opětovně aplikováno jednoduché exponenciální vyrovnávání na časovou řadu prvních jednoduchých exponenciálních průměrů (vyrovnaných hodnot) a byla získána řada exponenciálních průměrů druhého stupně Statistika v ekonomii 295 jf =ajf+ (l-«)j>g, (5.78) kde j>,(2) je dvojitý exponenciální průměr v čase t, j>ř(1) jednoduchý exponenciální průměr v čase t a yf_{ je dvojitý exponenciální průměr v čase t - 1. Odhad parametrů /\, a ft]t v čase tíze získat váženou metodou nejmenších čtverců za podmínky oo ZOw - Ä -AOV* =>min, (5.79) kde /3je zvolená diskontní konstanta, pro kterou platí 0 < /? < 1. Po převedení na rekurentní vztah dostaneme &t=2fi?>-y™ a /\f=^L(jf-^)), (5.80) 1 —ar kde or = 1 -/?, 0 < a< 1. Vyrovnaná hodnota časové řady v čase t, je rovna odhadu parametru /3b,<, tj. Í>r=4(=27f'-j>f. ' ' ' (5.81) Bodové předpovědi vypočteme ze vztahu yT (h) = PQJ + piTh = (lyf - yf]) + (jf - y?)\h = 1" a J (5.82) ah yf f ah ^ 1 +- v l-a y(r\ h>0, l-a, jsou lineární, s konstantou 0OT a směrnicí /\r . Vyrovnávací konstanta a se volí stejným způsobem jako u jednoduchého exponenciálního vyrovnávání minimalizací reziduálního součtu čtverců. Přístupů k určení počáteční hodnoty je několik, zde uvedeme dvě. Hodnoty $p, j>o2) lze určit ze vzorců pro /\r a fiXt, do nichž dosadíme za /\0 a p\t regresní odhady parametrů přímky proložené počátečním úsekem (který je obvykle tvořen 772 resp. (T+ l)/2 hodnotami) časové řady >f = A,o -—Ao a = Á.o -^^Ao- (5-83) a a Lze je také volit rovné první hodnotě časové řady, tj. a tedy A. = * » A.^'"**'**- (5-85) 296 Časové řady Příklad 5.12 Minimalizací reziduálního součtu čtverců bylo pro časovou řadu střední délky života žen v letech 1993-2016 z příkladů 5.5 a 5.7 (tabulka 5.6, obrázek 5.13) určeno, že na tuto časovou řadu lze aplikovat Brownovo lineární exponenciální vyrovnávání s vyrovnávací konstantou a = 0,5983. Vypočtěme vyrovnané hodnoty a bodové předpovědi nároky 2017-2020. Řešení Časová řada střední délky života žen má v analyzovaném období rostoucí lineární trend, je proto vhodné vyrovnat tuto časovou řadu Brownovým lineárním exponenciálním vyrovnáváním. Hodnota vyrovnávací konstanty a= 0,5983 byla zvolena simulačně tak, aby minimalizovala reziduálni součet čtverců. Tabulka 5.27 obsahuje hodnoty časové řady a potřebné výpočty. Tab. 5.27 Střední délka života žen: Brownovo lineární exponenciální vyrovnávání Rok t yt jf fP kt kt yt 0 76,41 76,41 76,41 0,41 1993 1 76,41 76,41 76,41 76,41 0,00 76,41 1994 2 76,58 76,51 76,47 76,55 0,06 76,55 1995 3 76,63 76,58 76,54 76,63 0.07 76,63 1996 4 77,27 76,99 76,81 77,18 0,27 77,18 1997 5 77,49 77,29 77,10 77,48 0,29 77,48 1998 6 78,06 77,75 77,49 78,01 0,39 78,01 1999 7 78,13 77,98 77,78 78,17 0,29 78,17 2000 8 78,35 78,20 78,03 78,37 0,25 78,37 2001 9 78,41 78,33 78,21 78,44 0,18 78,44 2002 10 78,54 78,45 78,36 78,55 0,15 78,55 2003 11 78,51 78,49 78,43 78,54 0,08 78,54 2004 12 79,04 78,82 78,66 78,97 0,23 78,97 2005 13 79,10 78,99 78,86 79,12 0,19 79,12 2006 14 79,67 79,40 79,18 79,61 0,32 79,61 2007 15 79,90 79,70 79,49 79,91 0,31 79,91 2008 16 80,13 79,96 79,77 80,14 0,28 80,14 2009 17 80,13 80,06 79,94 80,18 0,17 80,18 2010 18 80,60 80,38 80,21 80,56 0,26 80,56 2011 19 80,74 80,60 80,44 80,75 0,23 80,75 2012 20 80,88 80,77 80,64 80,90 0,20 80,90 2013 21 81,13 80,98 80,84 81,12 0,21 81,12 2014 22 81,69 81,41 81,18 81,63 0,34 81,63 2015 23 81,45 81,43 81,33 81,53 0,15 81,53 2016 24 82,05 81,80 81,61 81,99 0,28 81,99 nearni riciál-;imu-e hod- Statistika v ekonomii 297 V prvním kroku podle (5.84) a (5.85) určíme počáteční hodnoty Í>ľ)=Í>cf=Ä,o=>'1=76,41, (y2 -ViJy* ~y3) (76,58-76,41)(77,27~76,63) = 0,41. 2 2 Následně vypočteme ostatní hodnoty. Nejprve řadu prvních exponenciálních průměrů podle (5.75), kde «=0,5983: j>!(1) = ayl + (1 - á)yf = 0,5983 • 76,41 + (1 - 0,5983) • 76,41 = 76,41, yfp = 0,5983 • 76,58 + (1 - 0,5983) • 76,41 = 76,51, y$ = 0,5983 • 82,05 + (1 - 0,5983) ■ 81,43 = 81,80 a dále řadu exponenciálních průměrů druhého stupně podle (5.78) y[2) = aýp + (1 - a)y{(;] = 0,5983 • 76,41 + (1 -0,5983) -76,41 = 76,41, yf = 0,5983 • 76,51 + (1 - 0,5983) • 76,41 = 76,47 , y$ = 0,5983 • 81,80 + (1 - 0,5983) -81,33 = 81,61. Ve druhém kroku vypočítáme podle (5.80) lokální parametry úrovně JOqj Áu =2j,(1) ~y{2) = 2-76,41 - 76,41 = 76,41, 0O2= 2-76,51 - 76,47 = 76,55, /?024 = 2-81,80 - 81,61 = 81,99 a směrnice lineárního trendu p\t b\i =7-^-(Ä(1) -7i(2)) = : °'5983 1-a 1-0,5983 (76,41-76,41) = 0,00, 0 5983 k = ' (76,51-76,47) = 0,06. u 1-0,5983 0 5983 ÄM =—' (81,80-81,61) = 0,28. ' 1-0,5983 298 Časové řady Ve třetím kroku podle (5.81) určíme vyrovnané hodnoty Í)2 = Ä.2=76'55' V24 = Ä,24 = 81,99. Předpovědi na roky 2017-2020 získáme tak, že do vzorce (5.82) dosadíme za J3{ hodnotu /50j24= 81,99, za p\24(2) = Ái24+Á,24 -2 = 81,99 + 0,28 • 2 = 82,55, J24(3) = Ä,24+Ä.24-3 = 81,99 + 0,28 • 3 = 82,84, i>24(4) = Ä.24+Ä.24-4 = 81,99 + 0,28 • 4 = 83,12. Předpovědi s původními a vyrovnanými hodnotami jsou na obrázku 5.26. 85 -i 83 -81 -79 -77 - 75 H—i—i—i—i—i—i—i—i—i—i—i—i—i—i—i—i—i—i—i—i—i—i—i—i—i—i—i 1993 1996 1999 2002 2005 2008 2011 2014 2017 2020 Obr. 5.26 Střední délka života žen: vyrovnané hodnoty Brownovým dvojitým exponenciálním vyrovnáváním a předpovědi ■ Brownovo trojité exponenciální vyrovnávání Tento typ exponenciálního vyrovnávání předpokládá, že trend lze v krátkých úsecích považovat za kvadratický T^fo + ftt + fct2. (5.86) Postup při výpočtu předpovědí je analogický jako v předchozích případech. Statistika v ekonomii 299 Holtovo lineární exponenciální vyrovnávání Tento typ exponenciálního vyrovnávání je podobný Brownovu dvojitému lineárnímu vyrovnávání. Používá se také pro časové řady s lineárním trendem, tj ."vychází se ze vztahu (5.77), používá však dvě vyrovnávací konstanty. Pokud v čase / označíme odhad úrovně jako /% a odhad směrnice lineárního trendu j ako p\it, potom „ . - (5.87) Úroveň v čase / je počítána jako vážený aritmetický průměr hodnoty časové řady v čase/a úrovně časové řady, počítané jako součet odhadu úrovně v čase /-la odhadu směrnice trendu v čase / - 1. Odhad směrnice trendu v čase / je pak počítán jako vážený aritmetický průměr odhadu směrnice trendu v čase /, počítaného na základě odhadů úrovní (/?,, /?„ tA) a směrnice trendu v čase /- 1, a e (0,1) je vyrov- návací konstanta úrovně, /3 e (0, 1) je vyrovnávací konstanta směrnice lineárního trendu. Volíme je stejně jako au jednoduchého exponenciálního vyrovnávání. Vyrovnaná hodnota v čase / je úrovní v čase / 91 = A,, ■ (5-88) Bodová předpověď se vypočte ze vztahu ýr(h) = fit)l +f\rh, (5.89) počáteční hodnoty určíme podle Á,o =yi a A,o =y2-yi- (5-90) Příklad 5.13 Na časovou řadu střední délky života žen v letech 1993-2016 z příkladu 5.12 (data viz tabulka 5.6) budeme aplikovat Holtovo lineární exponenciální vyrovnávání s vyrovnávacími konstantami a = 0,2297 a/? = 0,1151, které byly určeny minimalizací reziduál-ního součtu čtverců. Vypočtěme vyrovnané hodnoty a bodové předpovědi na roky 2017-2020. Řešení Holtovo lineární exponenciální vyrovnávání je variantou Brownova dvojitého exponenciálního vyrovnávání s dvěma vyrovnávacími konstantami. Tabulka 5.28 obsahuje potřebné výpočty. 300 Časové řady Tab. 5.28 Střední délka života žen: Holtovo lineární exp, vyrovnávání Rok t }'t k,t ht 0 76,41 0,17 - 1993 1 76,41 76,54 0,17 76,54 1994 2 76,58 76,68 0,16 76,68 1995 3 76,63 76,79 0,16 76,79 1996 4 77,27 77,02 0,17 77,02 1997 5 77,49 77,26 0,17 ! 77,26 1998 6 78,06 77,57 ; 0,19 i 77,57 1999 7 78,13 77,85 0,20 77,85 2000 8 78,35 78,12 ! 0,21 78,12 2001 1 9 78,41 78,34 0,21 78,34 2002 10 78,54 78,55 0,21 78,55 2003 11 78,51 78,70 0,20 78,70 2004 , 12 79,04 78,94 0,21 78,94 2005 | 13 79,10 79,13 0,21 79,13 2006 14 79,67 79,41 0,21 79,41 2007 15 79,90 79,69 0,22 79,69 2008 16 80,13 79,96 0,23 79,96 2009 17 80,13 80,18 0,23 80,18 2010 18 80,60 80,45 0,23 80,45 2011 19 80,74 80,69 0,23 J 80,69 2012 20 80,88 80,91 0,23 | 80,91 2013 21 81,13 81,14 0,23 81,14 2014 22 81,69 81,45 0,24 i 81,45 2015 23 81,45 81,63 0,23 81,63 2016 24 82,05 81,91 0,24 81,91 Nejprve podle (5.90) určíme počáteční hodnoty úrovně a směrnice, tj. KřV = 76'41 a #,0=^-^1 = 76,58-76,41 =0,17, další hodnoty vypočteme ze vzorců (5.87), dosadíme-li za a= 0,2297 a/?= 0,1151 4, = ay] + (l-a)(Á,o+Á,o) = 0,2297-76,41 + (1-0,2297)(76,41 + 0,17) = 76,54, fa= 0,2297-76,58 + (1 - 0,2297)(76,54 + 0,17) = 76,68, /J0 24 = 0,2297-82,05 + (1 - 0,2297)(81,63 + 0,23) = 81,91, a A. = A Á,i - Á,o)+(1 -P) Á.o = 0.1151 '(76,54-76,41) + (1-0,1151 )-0,17 = 0,17, fi\a = 0,1151 (76,68 - 76,54) + (1 - 0,1151)-0,17 = 0,16, j3t 24 = 0,1151 -(81,92 - 81,63) + (1 - 0,1151)0,23 = 0,24. Statistika v ekonomii 301 Dále vypočteme vyrovnané hodnoty podle (5.88) yi = Au =76,54, h = fioa = 76'68> A: 81,91 a podle (5.89) dopočteme předpovědi na roky 2017-2020: ý24(l) = Ä,24+Á,24-l=81>91 +0,24-1 = 82,14, y24 (2) = /30>24 +Á,24 -2 = 81,91 + 0,24-2 = 82,38, 5>m(3) = Ä.24 +Ä.24 -3= 81,91 + 0,24-3 = 82,62, y24 (4) = Ä,24 +Ä.24 -4= 81,91 + 0,24-4 = 82,86. Z toho vyplývá, že předpovědi jsou lineárně rostoucí s úrovní 0i)T = 81,91 a směrnicí Pí,t = 0,24. Předpovědi s původními a vyrovnanými hodnotami jsou znázorněny na obrázku 5.27. 84 83 82 81 80 79 78 77 76 /XT 1993 1996 1999 2002 2005 7008 2011 2014 2017 2020 Obr. 5.27 Střední délka života žen: vyrovnané hodnoty Holtovým lineárním exponenciálním vyrovnáváním a předpovědi 302 Časové řady 5.4 Modelování sezónní složky Sezónní složka se v časové řadě projevuje jako pravidelné periodické kolísání hodnot okolo trendu časové řady, které způsobují určité faktory. Tyto faktory můžeme rozdělit do tří skupin: ■ počasí, tj. pravidelné střídání ročních období a s tím spoj ené změny teplot, délky slunečního svitu atd., ■ pravidelně či nepravidelně se opakující institucializované lidské zvyky, jako jsou náboženské a světské svátky, např. Vánoce, Velikonoce, oslavy významných společenských událostí atd., ■ načasovaná administrativní či legislativní rozhodnutí, např. úředně stanovené školní prázdniny, daňová a zúčtovací období, odměny zaměstnancům v pololetí a na konci roku atd. Z toho je zřejmé, že sezónní pohyb v časových řadách vzniká kombinací mnoha vnějších vlivů, působících na sledovaný ukazatel. Zobrazíme-li si graficky časovou řadu, je většinou na první pohled vidět, zda časová řada sezónní složku obsahuje. Pokud její přítomnost není z průběhu časové řady zřejmá, je možné otestovat, zda časová řada sezónní složku obsahuje. Zjistíme-li, že časová řada obsahuje významné sezónní kolísání, je užitečné toto kolísání kvantifikovat a modelovat. Často je třeba také provést sezónní očištění, tj. odstranit sezónní složku z časové řady, protože její přítomnost zakrývá dynamiku ekonomických jevů (charakter trendu), znesnadňuje interpretaci hodnot časové řady a konstrukci předpovědí. 5.4.1 Identifikace a testování sezónnosti V této části bude vhodné využívat k popisu časových řad nejen dosud uplatňovaný přístup založený na analýze časové řady v tzv. časové doméně, tj. proces měnící své hodnoty v závislosti na čase t, ale i základní princip analýzy časových řad ve spektrální doméně. Při analýze časových řad ve spektrální doméně se vychází z představy, že časová řada je tvořena velkým počtem vzájemně se prolínajících goniometrických křivek o různých frekvencích, které se ve svých účincích navzájem doplňují nebo eliminují. Proto nyní uvedeme některé základní pojmy i z této koncepce analýzy časových řad. Předpokládejme aditivní dekompozici a situaci, kdy časová řada obsahuje všechny složky, tj. yt = Tt+Ct + St + st, dále předpokládejme, že trendová složka je konstantní, tj. hodnoty časové řady oscilují okolo střední hodnoty pi0, sezónní výkyvy se pravidelně opakují a časová řada může obsahovat i viditelný cyklus. Model takové časové řady lze potom zapsat jako Statistika v ekonomii 303 yt =n(í+YJ(aj coscojt + Pj úncůjt) + st , j = (), 1, k, (5.91) 7=0 kde k = 772 pro T sudé, k = (T- l)/2 pro 7 liché; «, a /?7 jsou parametry, které se odhadují metodou nejmenších čtverců, tj. 2 T 2 T Mo=yt, áj = ~^ytcoscoJt, /?/=sin6y ' (53T> 1 t=\ 1 t=\ a (y; jsou frekvence. Udávají se v radiánech za jednotku času, kterou je časový interval mezi dvěma sousedními pozorováními časové řady, např. frekvence 2ti (ti je Ludolfovo číslo) udává, že se za časovou jednotku (např. měsíc nebo čtvrtletí) uskuteční právě jeden cyklus. Frekvence časové řady můžeme vypočíst podle vzorce (Oj=^-, y = 0,1, (5.93) Převrácená hodnota 2tt T Tj= — = - (5.94) (Oj J je Fourierova perioda, neboli délka cyklu, která udává dobu (počet časových jednotek), v níž se uskuteční jeden cyklus. Dokumentujme si výše uvedené matematicky na příkladu čtvrtletní časové řady. V tomto případě máme čtyři pozorování za kalendářní rok, tj. s = 4. Dosadíme do vzorce (5.93) za T= s = 4 a vypočteme frekvence (o,, uvedené v tabulce 5.29. Tab. 5.29 Frekvence čtvrtletní časové řady j Frekvence Délka cyklu Počet cyklů C0j V za rok 0 0 1 1,571 = tc/2 4 1 2 3,142 = n 2 2 3 4,712 = 3/2ji 1,333 3 4 6,283 = 2ti 1 4 Z tabulky vyplývá, že u čtvrtletní časové řady je možné identifikovat 5 frekvencí, jednu nesezónní coq = 0 a čtyři sezónní 4 = 2tt znamená, že proběhnou čtyři cykly za kalendářní rok. Pokud jednotlivé frekvence zakreslíme do grafu (obrázek 5.28), zjistíme, že frekvence íb, = ti/2 a 0% = 3/2%, 304 Časové řady stejně tak i = ji a (y4 = 2n nelze odlišit, protože jejich identifikační body v jednotlivých čtvrtletích splývají. Tato situace se označuje jako nerozlišitelnost frekvencí (aliasing). Praktickým řešením tohoto problému je, že se uvažují pouze frekvence a>i = k/2 a a>2 = ji, tj. ve vzorci (5.93) se používá j = 0, 1,k = s/2. Stejné omezení platí i v případě měsíčních časových řad. Z dvanácti sezónních frekvencí je tak rozlišitelných pouze šest: ve frekvencích ji/6 (jeden cyklus za rok, tj. jeden sezónní cyklus se uskuteční během dvanácti měsíců), ji/3 (dva cykly za rok, tj. jeden sezónní cyklus se uskuteční během šesti měsíců), ji/2 (tři cykly za rok, tj. jeden sezónní cyklus se uskuteční během čtyř měsíců), 2/3ji (čtyři cykly za rok, tj. jeden sezónní cyklus se uskuteční během tří měsíců), 5/6ji (pět cyklů za rok, tj .jeden sezónní cyklus se uskuteční během 2,4 měsíců) a ji (šest cyklů za rok, tj. jeden sezónní cyklus se uskuteční během dvou měsíců); ostatní 7/6ji, 4/3ji, 3/2ti, 5/3ji, 1 1/6ji a 2ji jsou nerozlišitelné. Frekvence a periody v časové řadě obvykle neznáme, a pokud potřebujeme znát charakter sezónnosti, je nezbytné je určit. Jedním z nástrojů, kterým můžeme tyto frekvence identifikovat, je periodogram. Periodogram slouží k nalezení všech významných periodických složek různých frekvencí v časové řadě. Jelikož za periodické složky povazujeme sezónní a cyklickou složku, můžeme pomocí periodogramu při dostatečně dlouhé časové řadě získat informace nejen o přítomnosti sezónní složky v časové řadě, ale i složky cyklické. Možností pro výpočet hodnot periodogramu je více. Obecný vzorec je dán vztahem I(o>j) = T- (áj+fi), (5.95) Statistika v ekonomii 305 který je však problematický z hlediska velmi vysokých hodnot, jichž I(mj) nabývá. Dochází proto k různým modifikacím, které tuto nevýhodu potlačují. Ve statistických softwarových programových systémech se často používá vzorec ve tvaru I(a>j) = Jtf+%, (5.96) kde ô-2 a se počítá podle vzorců (5.92). Vysoká hodnota periodogramu v určité frekvenci indikuje významnou periodu. Délka periody (doba, v níž se uskuteční jeden cyklus) je dána vztahem (5.94). Periodogram indikuje všech £ period (k= 772 nebo k= (T— l)/2), ale jen některé z nich jsou významné. Příklad 5.14 Pro čtvrtletní časovou řadu průměrné hrubé nominální měsíční mzdy v České republice (v Kč) v letech 2012-2016 z příkladů 5.6 a 5.10 (viz obrázek 5.29) identifikujme periodické složky této časové řady. 30OOO -, 29 000 -28 000 -27 000 -26 000 -25 000 -24 000 -• 23 000 - 2012 2013 2014 2015 2016 2017 Obr. 5.29 Průměrná hrubá nominální mzda Řešení Z obrázku 5.29 je zřejmé, že časová řada obsahuje rostoucí, zřejmě lineární nebo parabolický trend a výraznou sezónní složku. Protože máme hodnoty časové řady jen v krátkém časovém úseku, můžeme zkonstatovat, že v této části neobsahuje cyklickou složku (je příliš krátká, aby se cyklická složka mohla v datech projevit). Toto subjektivní posouzení charakteru časové řady je velmi důležité, protože v mnoha ohledech ulehčuje práci při analýze. U analýzy časové řady na základě periodogramu předpokládáme, že časová řada má konstantní trend. Pokud časová řada obsahuje výrazný trend, je jej tak třeba nejprve z časové řady odfiltrovat (odfiltrováním trendu ze vztahu (5.13) získáme model časové řady ve tvaru y, - C, + S, + st, který obsahuje obě periodické složky, tj. složku cyklic- 306 Časové řady kou C, a sezónní St, a složku nesystematickou st), což umožní lépe modelovat periodické složky, protože jejich výkyvy jsou potom výraznější. V našem případě byl na základě trendové analýzy odhadnut model lineárního trendu ve tvaru Ť, =24 033,75 + 187,29/ a byly vypočteny odhady vyrovnaných hodnot, které byly dále odečteny od hodnot a časové řady y„ čímž jsme získali odhad sezónní a nesystematické složky Sst (obrázek 5.30). Složku cyklickou již uvažovat nemusíme (viz výše). Výpočty viz tabulka 5.30. 2 500 -t 2000 ■ 1500 ■ 1000 ■ 500 ■ -1000 2012 2013 2014 2015 2016 2017 Obr. 5.30 Průměrná hrubá nominální mzda po odfiltrování trendu Tab. 5.30 Průměrná hrubá nominální mzda: periodogram Rok t y> a yt-T, =Sst j (ůj jIT v áj Pj /(«*) 2012 I 1 24 131 24 221,04 -90,0 0 0 0 0 0 2012 11 2 24 627 24 408,33 218,7 1 0,314 0,05 20,00 306,17 173,69 352,01 2012 III 3 24 439 24 595,62 -156,6 2 0,628 0,10 10,00 17,66 132,45 133,63 2012 IV 4 27 055 24 782,91 2 272,1 3 0,942 0,15 6,67 -79,23 60,81 99,88 2013 I 5 23 985 24 970,20 -985,2 4 1,257 0,20 5,00 14,49 -140,94 141,68 2013 II 6 24 877 25 157,49 -280,5 5 1,571 0,25 4,00 778,21 -93,41 783,80 2013 III 7 24 735 25 344,78 -609,8 6 1,885 0,30 3,33 74,46 189,25 203,38 2013IV 8 26 525 25 532,07 992,9 7 2,199 0,35 2,86 -82,47 110,37 137,77 20141 9 24 931 25 719,36 -788,4 8 2,513 0,40 2,50 -132,87 -58,56 145,20 2014 II 10 25 569 25 906,65 -337,7 9 2,827 0,45 2,22 10,87 -61,65 62,60 2014 III 11 25 279 26 093,95 -814,9 10 3,142 0,50 2,00 1 244,31 0,00 1 244,31 2014IV 12 27 261 26 281,24 979,8 2015 I 13 25 497 26 468,53 -971,5 2015 II 14 26 408 26 655,82 -247,8 2015 III 15 26 163 26 843,11 -680,1 2015 IV 16 28 258 27 030,40 1 227,6 2016 I 17 26 475 27 217,69 -742,7 2016 II 18 27 272 27 404,98 -133,0 2016 III 19 27 210 27 592,27 -382,3 2016 IV 20 29 309 27 779,56 1 529,4 Statistika v ekonomii 307 Nyní již lze přistoupit k výpočtu periodogramu, pro který potřebujeme odhadnout parametry «; a fij, a vypočíst frekvence. Pro výpočet frekvencí co,, kde j = 0,1,k, podle vztahu (5.93), nejprve určíme k = 20/2 = 10, tj. budeme počítat frekvence pro 7 = 0, 1,2, 10 (výsledky výpočtů jsou v 7. sloupci tabulky 5.30) 2ti0 „ 2iú „ „, . 2jtl0 „ , „„ con =-= 0, co, =-= 0,314,oin =-= 3,142. 0 20 20 20 Pro odhad parametrů q a fij použijeme vzorec (5.92); výpočty jsou obsaženy v 10. a 11. sloupci tabulky 5.30, potřebné mezivýpočty pak v tabulkách 5.31 a 5.32, takže pro7 = 0, 1,10 dostaneme 2 20 2 2 20 2 «o—&coS^ = -.0 = 0, &Sin^ = --0 = 0, a, = — -3061,7 = 306,17, Ä = — -1736,9 = 173,69, 1 20 1 20 ó, „ = — -12443,1 = 1244,31, Ä0 =—0 = 0. 10 20 20 Tab. 5.31 Periodogram: mezivýpočty w-cosft}? pro odhad parametru <ž í v 0 1 2 3 4 5 6 7 8 9 10 1 -90,0 85.6 -72,8 -52,9 -27,8 0,0 27,8 52,9 72,8 85,6 90,0 2 218,7 176,9 67,6 -67,6 -176,9 -218,7 -176,9 -67,6 67,6 176,9 218,7 3 -156,6 -92,1 48,4 149,0 126,7 0,0 -126,7 -149,0 -48,4 92,1 156,6 4 2 272,1 702,1 -1 838,2 -1 838,2 702,1 2 272,1 702,1 -1 838,2 -1 838,2 702,1 2 272,1 5 -985,2 0.0 985,2 0,0 -985,2 0,0 985,2 0,0 -985,2 0,0 985,2 6 -280,5 86,7 226,9 -226,9 -86,7 280,5 -86,7 -226,9 226,9 86,7 -280,5 7 -609,8 358,4 188,4 -579,9 493,3 0,0 -493,3 579,9 -188,4 -358,4 609,8 8 992,9 -803,3 306,8 306,8 -803,3 992,9 -803,3 306,8 306,8 -803,3 992,9 9 -788,4 749,8 -637,8 463,4 -243,6 0,0 243,6 -463,4 637,8 -749,8 788,4 10 -337,7 337,7 -337,7 337,7 -337,7 337,7 -337,7 337,7 -337,7 337,7 -337,7 11 -814,9 775,1 -659,3 479,0 -251,8 0,0 251,8 -479,0 659,3 -775,1 814,9 12 979,8 -792,6 302,8 302,8 -792,6 979,8 -792,6 302,8 302,8 -792,6 979,8 13 -971,5 571,0 300,2 -924,0 786,0 0,0 -786.0 924,0 -300,2 -571,0 971,5 14 -247,8 76,6 200,5 -200,5 -76,6 247,8 -76,6 -200,5 200,5 76,6 -247,8 15 -680,1 0,0 680,1 0,0 -680,1 0,0 680,1 0,0 -680,1 0,0 680,1 16 1 227,6 379,4 -993,2 -993,2 379,4 1 227,6 379,4 -993,2 -993,2 379,4 1 227,6 17 -742,7 -436,5 229,5 706,3 600,8 0,0 -600,8 -706,3 -229,5 436,5 742,7 18 -133,0 -107,6 -41,1 41,1 107,6 133,0 107,6 41,1 -41,1 -107,6 -133,0 19 -382,3 -363,6 -309,3 -224,7 -118,1 0,0 118.1 224,7 309,3 363,6 382,3 20 1 529,4 1 529,4 1 529,4 1 529,4 1 529.4 1 529,4 1 529,4 1 529,4 1 529,4 529,4 1 529.4 Souč. 0,0 3 061,7 176,6 -792,3 144,9 7 782,1 744,6 -824,7 -1 328,7 108.7 1 2443,1 308 Časové řady Tab. 5.32 Periodogram: mezivýpočty yfSinW/t pro odhad parametrů /?,■ t\i 0 1 2 3 4 5 6 7 8 9 10 1 0,0 -27,8 -52,9 -72,8 -85,6 -90,0 -85,6 -72,8 -52,9 . -27,8 0,0 2 0,0 128,5 208,0 208,0 128,5 0,0 -128,5 -208,0 -208,0 -128,5 0,0 3 0,0 -126,7 -149,0 -48,4 92,1 156,6 92,1 -48,4 -149,0 -126,7 0,0 4 0,0 2 160,9 1 335,5 -1 335,5 -2 160,9 0,0 2 160,9 1 335,5 -1 335,5 -2 160,9 0,0 5 0,0 -985,2 0,0 985,2 0,0 -985,2 0,0 985,2 0,0 -985,2 0,0 6 0,0 -266,8 164,9 164,9 -266,8 0,0 266,8 -164,9 -164,9 266,8 0.0 7 0,0 -493,3 579,9 -188,4 -358,4 609,8 -358,4 -188,4 579,9 -493,3 0,0 8 0,0 583,6 -944,3 944,3 -583,6 0,0 583,6 -944,3 944,3 -583,6 0,0 9 0,0 -243,6 463,4 -637,8 749,8 -788,4 749,8 -637,8 463,4 -243,6 0,0 10 0,0 0,0 0,0 0,0 0,0 0,0 0,0 0,0 0,0 0,0 0,0 11 0,0 251,8 -479,0 659,3 -775,1 814,9 -775,1 659.3 -479,0 251,8 0,0 12 0,0 -575,9 931,8 -931,8 575,9 0,0 -575,9 931,8 -931,8 575,9 0,0 13 0,0 786,0 -924,0 300,2 571,0 -971,5 571,0 300.2 -924,0 786,0 0,0 14 0,0 235,7 -145,7 -145,7 235,7 0,0 -235,7 145,7 145,7 -235,7 0,0 15 0,0 680,1 0,0 -680,1 0,0 680,1 0,0 -680,1 0,0 680,1 0,0 16 0,0 -1 167,5 -721,6 721,6 1 167,5 0,0 -1 167,5 -721,6 721,6 1 167,5 0,0 17 0,0 600,8 706,3 229,5 -436,5 -742,7 -436,5 229,5 706.3 600,8 0,0 18 0,0 78,2 126,5 126,5 78,2 0,0 -78,2 -126,5 -126,5 -78,2 0,0 19 0,0 118,1 224,7 309,3 363,6 382,3 363,6 309,3 224,7 118,1 0,0 20 0,0 0,0 0,0 0,0 0,0 0,0 0,0 0,0 0,0 0,0 0,0 Souč. 0.0 1 736,9 1 324.5 608,1 -704,7 -934,1 946,3 1 103,7 -585.6 -616,5 0,0 Hodnoty periodogramu vypočteme dosazením odhadu ô, a do vzorce (5.96) (výsledky obsahuje poslední sloupec tabulky 5.30): = o, 7(ía1) = V/306,172 +173,692 =352,01, = ^1244,312 + O2 = 1244,31. Periodogram na obrázku 5.31 má dva vrcholy, jeden ve frekvenci oj5 = 1,571 = n/2 a druhý ve frekvenci &>10 = 3,142 = n. Délka cyklů (v obou případech se jedná o sezónní cyklus) odpovídá podle vzorce (5.94) pro j = 5 jednomu sezónnímu cyklu za čtyři čtvrtletí, tj. za kalendářní rok proběhne jeden sezónní cyklus. Pro / = 10 odpovídá jednomu sezónnímu cyklu za dvě čtvrtletí, tj. za kalendářní rok proběhnou dva sezónní cykly (což odpovídá půlročnímu sezónnímu cyklu). Periodogra sazeny. Ne zení zkoum klad v naš čtvrtletní s dvě čtvrtlét u čtvrtletník Pro tes sezónnosti tabulka 5.3 vyjadřující sezónách s alespoň j ec testové kri kde Sy.m/(s způsobena Tab. 5.33 F Zdroj vari á Mezi sezón Uvnitř sezó (reziduálni Celkem Statistika v ekonomii 309 1400 1000 800 600 400 200 O O 0,25 Obr. 5.31 Průměrná měsíční mzda: periodogram j/T 0,5 Periodogram slouží k nalezení všech periodických složek, které jsou v časové řadě obsaženy. Ne všechny však musí být významné. Proto se přistupuje k věcnému posouzení zkoumaného ukazatele ohledně výběru délky sezónnosti pro další analýzu. Například v našem případě je zřejmé, že identifikovaný půlroční cyklus je dán průběhem čtvrtletní sezónnosti, kdy se v časové řadě (obrázek 5.30) pravidelně opakuje každé dvě čtvrtletí stejný sezónní výkyv. Význam sezónního cyklu této délky tak můžeme u čtvrtletních časových řad považovat za zanedbatelný. Pro testování, zda je v časové řadě přítomna sezónní složka, se používají testy sezónnosti. Z nich nejčastěji F-test sezónnosti, založený na analýze rozptylu (viz tabulka 5.33). Testuje se nulová hypotéza Ho: ^ = /j2 = ■ ■ • = A (kde s je délka sezóny), vyjadřující, že střední hodnoty generujícího procesu časové řady jsou ve všech sezónách stejné, tj. že časová řada neobsahuje sezónní složku, oproti Hi: non Ho, tj. že alespoň jedna střední hodnota je jiná a časová řada tak sezónní složku obsahuje. Jako testové kritérium použijeme testové kritérium F z analýzy rozptylu ve tvaru F. = s-l i. T-s F~F(s-l, T-s), (5.97) kde Sy.„J(s - 1) je mezisezónní (tj. např. meziměsíční nebo mezičtvrtletní) variabilita způsobená sezónními výkyvy, SyJ(T- s) je reziduálni variabilita. Tab. 5.33 F-test sezónnosti Zdroj variability Součet čtverců Stupně volnosti Průměrný čtverec Statistika F Mezi sezónami s- 1 Sy.J(S - 1) S SyJ(T-s) Uvnitř sezón (reziduálni) Sy.V T-s S}J(T-S) Celkem Sy T- 1 310 Časové řady Základními předpoklady použití analýzy rozptylu je nezávislost náhodných výběrů a homoskedasticita. V případě časových řad a odhadu sezónní a nesystematické složky pro jednotlivé sezóny však jde o závislé výběry, kde často nebývá splněn ani předpoklad homoskedasticity, protože se velikost sezónních výkyvů v ekonomických časových řadách obvykle v čase mění. To ovlivňuje chování F statistiky a tento test tak lze považovat pouze za orientační. Např. McDonald-Johnson (2006) doporučuje použít místo kritické hodnoty Fj_a hodnotu 7, čímž modifikuje kritický obor do tvaru Wa= {F;F>1}. Příklad 5.15 Pro čtvrtletní časovou řadu průměrné hrubé nominální mzdy v České republice v letech 2012-2016 z příkladu 5.14 otestujme, zda obsahuje statisticky významnou sezónní složku. Řešení Časová řada průměrné hrubé nominální mzdy v České republice v letech 2012-2016 je zobrazena na obrázku 5.29. Na první pohled je patrné, že obsahuje výraznou sezónní složku, což znamená, že provedeným testem sezónnosti jen potvrdíme skutečnost, která je z grafu zřejmá. V předchozím příkladu jsme periodogramem identifikovali, že časová řada průměrné hrubé nominální měsíční mzdy obsahuje dva sezónní cykly. Vzhledem k tomu, že nás při analýze krátkodobých sezónních časových řad zajímá pouze sezónní cyklus odpovídající svou délkou délce sezóny, budeme testovat pouze přítomnost sezónního cyklu r5 = s = 4. Počáteční kroky při testu sezónnosti jsou stejné jako u periodogramu, proto zde využijeme výsledky z tabulky 5.30. V minulém příkladu jsme zjistili, že časová řada obsahuje trend, který i zde musíme z časové řady nejprve odfiltrovat. Použijeme lineární trendovou funkci (Ťt =24 033,75+ 187,29/) a odhadneme hodnoty trendové složky Ťt, které odečteme od hodnot časové řady y,, čímž získáme odhad sezónní a ne- A systematické složky Se, (4. sloupec tabulky 5.30). Tab. 5.34 Průměrná hrubá nominální mzda: F-test sezónnosti: odhad sezónní a nesystematické složky__^_ Rok\čtvrtletí I II III IV 2012 -90,04 218,67 -156,62 2 272,09 2013 -985,20 -280,49 -609,78 992,93 2014 -788,36 -337,65 -814,95 979,76 2015 -971,53 -247,82 -680,11 1 227,60 2016 -742,69 -132,98 -382,27 1 529,44 Statistika v ekonomii 311 Nyní lze přikročit k samotnému testu sezónnosti. Na časovou řadu odhadů sezónní A a nesystematické složky Set aplikujeme analýzu rozptylu, přičemž hodnoty časové řady budeme třídit podle čtvrtletí, jemuž odpovídá daná hodnota této složky (tabulka 5.34). Testujeme hypotézu Ho: [X\= ju2 = = /žj, tj. časová řada neobsahuje sezónní složku, oproti Hi: non Ho, že časová řada alespoň v jednom čtvrtletí významnou sezónní složku obsahuje. Tab. 5.35 Průměrná hrubá nominální mzda: analýza rozptylu Zdroj variability Součet čtverců Stupně volnosti Průměrný čtverec Statistika F ^-hodnota Mezi sezónami 13 884 892 3 4 628 297 34,379 0,000 Reziduálni 2 154 003 16 134 625,2 Celkem 16 038 895 19 I Výsledky analýzy rozptylu obsahuje tabulka 5.35, kde je uvedena hodnota F statistiky a p-hodnota. Z výsledků vyplývá, že na 5% hladině významnosti byla zamítnuta testovaná hypotéza, časová řada tak obsahuje statisticky významnou sezónní složku. Pokud vyhodnotíme test s použitím modifikace kritické hodnoty rovné 7, dojdeme ke stejnému závěru, protože 34,379 > 7. Obr. 5.32 Průměrná hrubá měsíční mzda: grafy sezónnosti Zajímavý pohled na charakter sezónnosti poskytují grafy na obrázku 5.32. První z nich ukazuje, jak se mění úroveň jednotlivých čtvrtletí v jednotlivých letech, druhý potom bodové odhady středních hodnot (ve formě podmíněných průměrů) jednotli- A vých čtvrtletí (spojené čárou) a hodnoty Sst v jednotlivých čtvrtletích. 312 Časové řady 5.4.2 Regresní metoda modelování sezónní složky Při tomto přístupu k modelování časové řady se sezónní složkou vycházíme z aditivní dekompozice časové řady ve tvaru y, = Tt + St+ s„ trendovou složku vyjadřujeme určitou funkcí časové proměnné (nejčastěji konstantou, přímkou nebo parabolou), sezónní složku zastupují binární nula-jedničkové proměnné (označované také jako sezónní dummy (umělé) proměnné). Pro ně platí Djt = 1 v případě, že čas t odpovídáy-tému období v roce, jinak Djt = 0 (viz tabulka 5.36), a st je nesystematická složka s vlastnostmi procesu bílého šumu. Tab. 5.36 Umělé proměnné pro čtvrtletní časovou řadu Čtvrtletí Du D2I D3t D4l I 1 0 0 0 II 0 1 0 0 III 0 0 1 0 IV 0 0 0 1 I 1 0 0 0 II 0 1 0 0 III 0 0 1 0 IV 0 0 0 1 Jde tak o regresní model, kde odhadujeme všechny parametry modelu (trendové i sezónní) současně. Pro odhad parametrů se používá metoda nejmenších čtverců a musí platit standardní podmínky klasického lineárního regresního modelu. Kromě deterministického trendu je nutné předpokládat i deterministický charakter sezónní složky, tzn. že se sezónní výkyvy v jednotlivých letech pravidelně opakují, jejich velikost se nemění a během kalendářního roku se vzájemně vykompenzují, tj. 1^=0. (5.98) 7=1 Vzhledem k tomu, že je model založen na aditivní dekompozici, označují se tyto sezónní výkyvy jako sezónní odchylky a interpretujeme je ve stejných měrných jednotkách jako hodnoty původní časové řady. Ověření vhodnosti modelu se provádí stejným způsobem jako v případě trendové funkce, používají se diagnostické testy, /-testy o parametrech a celkovýF-test. Předpovědi se konstruují rovněž obdobným způsobem. Z výpočetního hlediska je nutné do regresního modelu vkládat obvykle jen s - 1 umělých proměnných a chybějící sezónní odchylku je potom nutné dopočítat. Všech s umělých proměnných se do modelu vkládá pouze v případě, pokud platí /?0 = 0. Statistika v ekonomii 313 Dopočítání chybějící sezónní odchylky si dokumentujme na příkladu čtvrtletní časové řady, tj. pro s = 4, s lineárním trendem. Model takové časové řady lze zapsat ve tvaru y, = /?„ + pxt + ľíDu + y2D2t + ftD3t + y4D4, + st, (5.99) je-li v modelu konstanta Po, musíme pro výpočet zredukovat počet umělých proměnných o jednu, přičemž obvykle do modelu nezahrneme proměnnou D a. Model potom odhadujeme ve tvaru yt* = p: + Px*t+YCDu+y2*D2t+n'D3t+e„ (5.100) což znamená, že odhadujeme pouze tři sezónní parametry. Abychom z tohoto modelu získali informaci o velikosti sezónních odchylek, vypočteme nejprve součet odhadů všech sezónních parametrů a vydělíme jej počtem sezón, tj. šJllÄlK. (5.101) 4 Aby platila podmínka (5.98), je nutné odhadnuté sezónní parametry přepočítat š.=9.=f.-š, j=1,2,3, (5.102) čímž získáme odhady sezónních odchylek pro 1.-3. čtvrtletí. Záporná hodnota průměru sezónních parametrů je odhadem sezónní odchylky ve 4. čtvrtletí, tj. Š4=y4=-Š. (5.103) Tím, že jsme v předchozím kroku snížili úroveň sezónní složky o s, je nyní nutné pro zápis modelu se všemi čtyřmi umělými proměnnými toto snížení vykompenzovat zvýšením úrovně trendové složky o stejnou hodnotu, a to tak, že k odhadu konstanty přičteme š, tj. J30 = /3; + 3. (5.104) Parametr 01 se neupravuje. Odhad trendu potom má tvar Ť,=(Pl+s) + Plt. (5.105) Rovnice odhadnutého modelu časové řady potom bude yt =p0 + fít + ŠlDlt+Š2D2í + Š3Dit+Š4DAt. (5.106) Tzv. sezónně očištěnou časovou řadu (tj. časovou řadu s odstraněnou sezónní složkou) získáme odečtením příslušných sezónních odchylek od odpovídajících hodnot původní časové řady. Příklad 5.16 V minulých příkladech této kapitoly jsme u čtvrtletní časové řady průměrné hrubé nominální měsíční mzdy v České republice v Kč v letech 2012-2016 identifikovali významnou sezónní složku. Modelujme nyní tuto časovou řadu regresní metodou, kvantifikujme sezónní odchylky a vypočtěme bodové předpovědi na rok 2017. 314 Časové řady Řešení V minulých příkladech jsme zjistili, že časová řada průměrné hrubé nominální měsíční mzdy má ve sledovaném období rostoucí lineární trend a výraznou, statisticky významnou, pravidelnou sezónnost. Regresní metoda se proto jeví jako vhodná pro modelování této časové řady. Tab. 5.37 Průměrná hrubá nominální mzda: regresní metoda Rok y< t Di, D2l D3t ýt st 20121 24 131 1 1 0 0 23 692,2 439 2012 II 24 627 2 0 1 0 24 439,0 188 2012 III 24 439 3 0 0 1 24 253,6 185 2012 IV 27 055 4 0 0 0 26 370,0 685 2013 I 23 985 5 1 0 0 24 348,0 -363 2013 II 24 877 6 0 1 0 25 094,8 -218 2013 III 24 735 7 0 0 1 24 909,4 -174 2013 IV 26 525 8 0 0 0 27 025,8 -501 20141 24 931 9 1 0 0 25 003,8 -73 2014 II 25 569 10 0 1 0 25 750,6 -182 2014 III 25 279 11 0 0 1 25 565,2 -286 2014IV 27 261 12 0 0 0 27 681,6 -421 20151 25 497 13 1 0 0 25 659,6 -163 2015 II 26 408 14 0 1 0 26 406,4 2 2015 III 26 163 15 0 0 1 26 221,0 -58 2015IV 28 258 16 0 0 0 28 337,4 -79 20161 26 475 17 1 0 0 26 315,4 160 2016 II 27 272 18 0 1 0 27 062,2 210 2016 III 27 210 19 0 0 1 26 876,8 333 2016 IV 29 309 20 0 0 0 28 993,2 316 Tabulka 5.37 obsahuje hodnoty časové řady a v dalších sloupcích časovou proměnnou t pro modelování trendu a tři sezónní umělé proměnné Djt pro modelování sezónní složky. Budeme odhadovat model ve tvaru (5.100). Tab. 5.38 Průměrná hrubá nominální mzda: odhad modelu regresní metodou modelování sezónní složky_ Odhad parametru Směrodatná chyba Statistika t /j-hodnota Konstanta 2 5714,20 226,17 113,70 0,0000 t 163,95 13,71 11,96 0,0000 Du -2 185,95 223,24 -9,79 0,0000 D2t -1 603,10 221,12 -7,25 0,0000 D3t -1 952,45 219,84 -8,88 0,0000 Statistika v ekonomii 315 Korelogram reziduí na obrázku 5.33 má všechny sloupečky, tj. všechny reziduálni autokorelační koeficienty, vypočtené podle vzorce (5.58), uvnitř tolerančních mezí ±21V20 = ±0,447, proto nezamítáme hypotézu, že nesystematická složka modelu není autokorelovaná. Můžeme proto přistoupit k testům o parametrech. 1,0 - 0,5 - 0,0 - -0,5 - -1,0 - Obr. 5.33 Korelogram reziduí: regresní metoda Z tabulky 5.38 vidíme, že ř-testy indikují, že oba parametry lineárního trendu a všechny sezónní čtvrtletní výkyvy jsou statisticky významné na 5% hladině významnosti. Tato situace je ideální, není však zcela běžná. U sezónních časových řad může nastat situace, kdy jeden nebo více sezónních parametrů jsou v modelu statisticky nevýznamné. V odhadu modelu tyto nevýznamné parametry však nehrají výraznou roli, z praktického hlediska to znamená pouze to, že sezónní výkyv není v daném období (měsíci či čtvrtletí) statisticky významně odlišný od trendu časové řady, a tyto sezónní proměnné (na rozdíl od proměnných vícenásobné regrese) v modelu ponecháváme. Abychom mohli sezónní složku považovat za významnou, stačí tedy, aby byl v modelu statisticky významný alespoň jeden ze sezónních parametrů. Z hlediska odhadu trendu je však třeba, aby odhady trendových parametrů byly v modelu statisticky významné. Pokud nejsou, volíme jiný model trendu. Pro posouzení kvality odhadu regresního modelu využijeme výstup analýzy rozptylu v tabulce 5.39. Z celkového F-testu vyplývá, že na 5% hladině významnosti zamítáme testovanou hypotézu a model je tak v pořádku. Tab. 5.39 Průměrná hrabá nominální mzda: analýza roz otylu Stupně volnosti Součet čtverců Průměrný čtverec Statistika F jD-hodnota Regrese Rezidua 4 15 37 560 166 1 805 352 9 390 041,5 120 356,8 78,02 0,0000 Celkem 19 39 365 518 316 Časové řady Jelikož jsme v tabulce 5.38 odhadli model ve tvaru (5.100), musíme odhady parametrů přepočíst tak, aby odpovídaly modelu (5.99). Aby byl splněn požadavek, že součet sezónních odchylek je roven nule, je třeba provést následující úpravy. Vypočteme hodnotu . -2185,95-1603,10-1952,45 , S —-— —14jj,Jo , 4 kterou odečteme od odhadnutých sezónních parametrů z tabulky 5.38, tj. Šj =fi =-2185,95-(-1435,38) = -750,58, Š2 =y2 = -1603,10 - (-1435,38) = -167,73, 4 = r3 = -1952,45 - ( -1435,3 8) = -517,08, a poslední sezónní odchylku dopočítáme jako Š4 = y4 = -(-1435,38) = 1435,38. Obdobně upravíme i konstantu v odhadnuté trendové funkci podle vztahu (5.105) fi0 = 25714,20 + (-143 5,3 8) = 24 278,83 a upravený odhad modelu trendu potom bude Ťt =24 278,83 + 163,95/. Výsledný upravený odhad modelu (5.99) bude ve tvaru yt = 24 278,83 + 163,95/ - 750,58A, - 167,73£>2r - 517,08/;,,. + 1 435,38D4ř. Z výsledků můžeme konstatovat, že v letech 2012-2016 byla v prvním až třetím čtvrtletí průměrná hrubá nominální měsíční mzda v průměru o 750,58 Kč, 167,73 Kč a 517,08 Kč pod lineárním trendem časové řady, ve čtvrtém čtvrtletí byla naopak v průměru o 1435,38 Kč vyšší. Pro výpočet bodových předpovědí na rok 2017 dosadíme do výsledného modelu postupně za / hodnoty časové proměnné 21, 22, 23 a 24, za umělé proměnné Du, D2l, Dit a D4t takovou kombinaci nul a jedničky, která odpovídá prvnímu až čtvrtému čtvrtletí roku, takže pro L—IV. čtvrtletí roku 2017 dostaneme j>20(l)=24278,83 +163,95-21-750,58-1-167,73-0-517,08-0 +1435,38-0=26971,2, j>20 (2)=24 278,83 +163,95-22-750,58-0-167,73-1-517,08-0+1435,38-0=27718,0, y2Q (3)=24 278,83 +163,95-23-750,58-0-167,73-0-517,08-1 + 1435,38-0=27532,6, j)20 (4)=24 278,83 +163,95-24-750,58-0-167,73-0-517,08-0+1435,38-1=29649,0. Graf původních hodnot a předpovědí na rok 2017 obsahuje obrázek 5.34. Statistika v ekonomii 317 23O0O 2012 2013 2014 2015 2016 2017 2018 Obr. 5.34 Průměrná hrabá nominální mzda s bodovými předpověďmi 5.4.3 Model proporcionální sezónnosti V předchozí kapitole jsme u regresní metody modelování sezónní složky předpokládali, že se velikost sezónních výkyvů v čase nemění. Tento předpoklad však bývá, zejména u ekonomických časových řad, často nereálný, a proto se uvažuje model multiplikativní, tj. yt=TrSrs, (5.107) V tomto případě se předpokládá, že se sezónní výkyvy mění přímo úměrně dosažené úrovni trendové složky (velikost sezónního výkyvu roste s rostoucím trendem a snižuje se s klesajícím trendem). Označují se jako sezónní indexy, interpretují se v procentech a platí pro ně podmínka ŽŠJ=S> (resp. n^=1)- 7=1 7=1 (5.108) Model proporcionální sezónnosti je jednou z nejjednodušších metod odhadu sezónních výkyvů při multiplikativní dekompozici. Odhad jednotlivých složek časové řady se provádí postupně, podle následujícího postupu. V prvním kroku se pomocí klouzavých průměrů délky s (označme je jako ) provede odhad trendové složky Ťt=yf. (5.109) V případě, že jde o čtvrtletní nebo měsíční časové řady, použijeme centrované klouzavé průměry délky m = s = 4 resp. 12, v případě lichých délek sezóny, např. u denních časových řad, kde m = s = l, volíme jednoduché klouzavé průměry. Při použití centrovaných klouzavých průměrů je třeba mít na paměti, že v případě klouzavého průměru délky 4 má odhad trendu o 4 hodnoty méně (o 2 na začátku a 2 na konci), než má původní časová řada (v případě klouzavého průměru délky 12 o 6 na začátku i na kon- 318 Časové řady ci). Bude proto od této chvíle účelné používat značení, které bude lépe odkazovat na hodnoty v konkrétním roce a v konkrétní sezóně (index / pro rok, a j pro období). Dále budeme pro zjednodušení předpokládat, že m = s je sudé číslo. V dalším kroku se vydělí hodnoty časové řady odpovídajícím odhadem trendové složky a získá se tak odhad sezónní a nesystematické složky v roce i a sezóně / SSy=^, (5.110) ij kde i = 1, ..., r je počet let a j = 1,s počet sezón. Zprůměrováním odhadů sezónní a nesystematické složky za jednotlivé sezóny (pro /-tou sezónu jako průměr hodnot v /-té sezóně) získáme průměrné sezónní indexy tí ^ ^■=^ir. (5-111) A Vzhledem k použití centrovaných klouzavých průměrů je hodnot Ss;j pouze r - 1. Abychom získali sezónní indexy splňující podmínku (5.108), musí se provést úprava průměrných sezónních indexů, tj. S j = -7-— Š j. (5.112) 7=1 Pomocí sezónních indexuje také možné konstruovat bodové předpovědi. Jak však víme, odhad trendu získaný výpočtem centrovaných klouzavých průměrů není vhodný pro předpovídání, protože je kratší o s/2 posledních hodnot. Můžeme proto postupovat tak, že trendovou složku časové řady předpovídáme na základě sezónně očištěné časové řady, kterou vypočítáme tak, že hodnoty časové řady vydělíme příslušnými sezónními indexy. Tuto sezónně očištěnou časovou řadu potom extrapolujeme pomocí vhodné trendové funkce nebo exponenciálního vyrovnávání. Takto získané bodové předpovědi se poté vynásobí příslušnými sezónními indexy. Pozn. Místo centrovaných klouzavých průměrů ve vzorci (5.109) je možné použít trendovou funkci nebo exponenciální vyrovnávání, a dále se postupuje stejným způsobem. Odpadne tak problém s chybějícími hodnotami sezónní a nesystematické složky. Vzorec (5.111) potom musí být upraven do tvaru É4 Statistika v ekonomii 319 Obdobný postup bychom použili, pokud by se místo (5.107) předpokládal aditivní model dekompozice časové řady. V prvním kroku se pomocí centrovaných klouzavých průměrů délky s odhadne trendová složka, která se ve druhém kroku odečte od hodnot časové řady (y y - Ťy), čímž se získají odhady sezónní a nesystematické složky v roce i a sezóně j. Dále se tyto odhady v jednotlivých sezónách zprůměrují, a získají se tzv. průměrné sezónní odchylky. Aby byla splněna podmínka (5.98), je třeba nejprve všechny průměrné sezónní odchylky sečíst, tento součet vydělit s a následně tento podíl odečíst od každé z nich. Tento postup bývá označován jako model konstantní sezónnosti. Příklad 5.17 Pro čtvrtletní časovou řadu průměrné spotřebitelské ceny citronů (v Kč/kg) v České republice v letech 2012-2016, uvedené v tabulce 5.40, vypočtěme sezónní indexy. Tab. 5.40 Průměrná spotřebitelská cena citronů (Kč/kg) v České republice CtvrtletíVok 2012 2013 2014 2015 2016 I 25,14 34,32 34,03 35,77 48,03 II 35,23 45,58 44,21 49,23 80,07 III 47,19 55,58 85,89 72,64 84,41 IV 34,47 35,81 36,55 46,65 43,97 Zdroj: www.czso.cz Řešení Časová řada průměrné spotřebitelské ceny citronů má v analyzovaných letech rostoucí trend a výraznou, v čase se měnící sezónní složku (v tomto případě sezónní složka roste úměrně rostoucímu trendu časové řady), viz obrázek 5.35. Proto je na tuto časovou řadu vhodné aplikovat model proporcionální sezónnosti. 90 -, 2012 2013 2014 2015 2016 2017 Obr. 5.35 Průměrná spotřebitelská cena citronů (v Kč/kg) v ČR 320 Časové řady Výpočet sezónních indexů začneme výpočtem centrovaných klouzavých průměrů délky 4 stejně jako v příkladu 5.10. Vypočtené hodnoty obsahuje tabulka 5.41. Tab. 5.41 Průměrná spotřebitelská cena citronů: výpočty Rok \ čtvrtletí t i j yt A Se, 20121 1 1 1 25,14 2012 II 2 1 2 35,23 2012 III 3 1 3 47,19 36,655 1,287 2012IV 4 1 4 34,47 39,096 0,882 2013 I 5 2 1 34,32 41,439 0,828 2013 II 6 2 2 45,58 42,655 1,069 2013 III 7 2 3 55,58 42,786 1,299 2013 IV 8 2 4 35,81 42,579 0,841 2014 I 9 3 1 34,03 46,196 0,737 2014 II 10 3 2 44,21 50,078 0,883 2014 III 11 3 3 85,89 50,388 1,705 2014IV 12 3 4 36,55 51,233 0,713 2015 I 13 4 1 35,77 50,204 0,712 2015 II 14 4 2 49,23 49,810 0,988 2015 III 15 4 3 72,64 52,605 1,381 2015IV 16 4 4 46,65 57,993 0,804 20161 17 5 1 48,03 63,319 0,759 2016 II 18 5 2 80,07 64,455 1,242 2016 III 19 5 3 84,41 2016IV 20 5 4 43,97 V dalším kroku vydělíme hodnoty časové řady odpovídajícím centrovaným klouzavým průměrem (odhadem hodnoty trendové složky) (5.110) a dostaneme odhad se- A zónní a nesystematické složky Set. Zprůměrováním odhadů sezónní a nesystematické složky za jednotlivá čtvrtletí (5.111) získáme průměrné sezónní indexy ^ _ 0,828 + 0,737 + 0,712 + 0,759 _A 1 4 - 1,069 + 0,883 + 0,988 + 1,242 S7 =----—---= 1,046, 2 4 - = 1,287 + 1,299 + 1,705 + 1,381 =] 41g 3 4 - 0,882 + 0,841 + 0,713 + 0,804 AQ1A S4 =---= 0,810, Statistika v ekonomii 321 jejichž součet je však roven 4,033. Aby platila podmínka (5.108), provedeme jejich standardizaci podle (5.112) tak, že vynásobíme každý průměrný sezónní index hodnotou 4/4,033 = 0,992 a dostaneme sezónní indexy Št =0,753, Š2 =1,037, 4^1406 a Š4 =0,804. Graf sezónních indexuje znázorněn na obrázku 5.36. Z vypočtených sezónních indexů vyplývá, že v letech 2012-2016 v prvním a čtvrtém čtvrtletí byla průměrná spotřebitelská cena 1 kg citronů v průměru na 75,3 % resp. 80,4 % ročního průměru, ve druhém a třetím čtvrtletí naopak v průměru na 103,7 % resp. 140,6 % ročního průměru. 12 3 4 Obr. 5.36 Průměrná spotřebitelská cena citronů: sezónní indexy 5.4.4 Holtovo-Wintersovo sezónní exponenciální vyrovnávání Holtova-Wintersova metoda sezónního exponenciálního vyrovnávání vychází z rozšíření Holtova exponenciálního vyrovnávání s lineárním trendem z kapitoly 5.3.4 o aditivní nebo multiplikativní sezónnost. Tato metoda proto také patří do skupiny adaptivních metod. V souladu s Arit, Arltová, Rublíková (2002) předpokládáme, že časovou řadu lze rozložit na lokální lineární trendy s aditivní sezónností ve tvaru yt = (Po + pxt) + St+ et, (5.113) nebo multiplikativní sezónností ve tvaru yt = (fi0 + P,f)-Srst, (5.114) kde /?0 je parametr úrovně lineárního trendu, px parametr vyjadřující směrnici lineárního trendu, ŕ je časová proměnná, .V, sezónní odchylka nebo sezónní index v čase t, pro které platí podmínky (5.98) nebo (5.108). 322 Časové řady Rekurentní vztahy exponenciálního vyrovnávání lineárního trendu a aditivní nebo multiplikativní sezónnosti získáme tak, že k rovnicím (5.87) přidáme vztah pro adaptivní vyrovnávání sezónních výkyvů s vyrovnávací konstantou y g (0, 1). Aditivní Holtovo-Wintersovo sezónní exponenciální vyrovnávání Holtovo-Wintersovo exponenciální vyrovnávání s aditivní sezónností je dáno rekurentními vztahy Ä, = «(7, - š,_s) + (i - «)(Á,-i + ) K = 0(Äj -Á,-i)+(i-Mm (5-115) Š,=r(y1-P{),) + (\-Y)Št_s, kde ft0t je odhad úrovně lineárního trendu v čase t, p\t odhad směrnice lineárního trendu v čase t, š, odhad sezónního výkyvu v čase t, 0Ot_i odhad úrovně lineárního trendu v čase t - 1, p\4_i odhad směrnice lineárního trendu v čase t - 1, St_s odhad sezónního výkyvu v čase t- s, s je délka sezóny, a g (0, 1) je vyrovnávací konstanta úrovně, f5 g (0, 1) vyrovnávací konstanta směrnice lineárního trendu aye (0, 1) je vyrovnávací konstanta sezónních výkyvů. Odhad úrovně lineárního trendu v čase t (p\,t) se získá jako vážený aritmetický průměr aktuální hodnoty časové řady očištěné o nej aktuálnější hodnotu odhadnutého sezónního výkyvu z předchozí sezóny, tj. (yt-S(_s), a úrovně časové řady, počítané jako součet odhadu úrovně v čase t -1 a odhadu směrnice trendu v čase t — 1. Protože nové pozorování yt obsahuje sezónnost, odstraníme ji odečtením resp. vydělením (v případě multiplikativního modelu) hodnoty y, hodnotou St_s, tj. v čase t posledním dostupným odhadem sezónního výkyvu. Odhad směrnice lineárního trendu v čase / (0U) je váženým aritmetickým průměrem přibližného odhadu směrnice trendu v čase t (p\4 « ft0,t - Av-i) a odhadu směrnice lineárního trendu v čase t - 1. Odhad sezónní složky v čase t určíme jako vážený aritmetický průměr aktuální hodnoty y, očištěné o odhad úrovně lineárního trendu v čase t a odhadu sezónní složky v čase t — s (použijeme hodnotu z předchozí odpovídající sezóny). Vyrovnaná hodnota je rovna součtu odhadů úrovně a sezónní složky v čase t, tj. yt = K, + št. (5.116) Předpověď v čase posledního pozorování se vypočte ze vztahu JV (A) = (A,r + Ájh) + ŠT+h_s. (5.117) Abychom mohli tuto metodu aplikovat na data, je nutné zvolit hodnoty vyrovnávacích konstant a počáteční hodnoty. Vyrovnávací konstanty lze volit buď fixně, kdy Statistika v ekonomii 323 např. Cipra (2008) volí a = y= 0,4 a /?= 0,1, nebo simulačně, kdy se hledá taková kombinace hodnot vyrovnávacích konstant, která minimalizuje reziduálni součet čtverců. Možností pro volbu počátečních hodnot /300, fi1Q, Š_s+i, Š_s+2, SQ je mnoho a každý software si výpočet těchto hodnot modifikuje. V Cipra (2008) je doporučeno získat tyto hodnoty z odhadů parametrů z rovnice (5.100) regresní metody modelování sezónní složky tak, že Á.o = Ä. A,o = #, S_s+] = fi, Š_s+2 = y2, Š_s+S = Š0 = 0. (5.118) Jednodušší možnost nabízejí např. Hyndman, Athanasopoulos (2017), kteří volí Ä.o =-(y\ +-+ys)> s (5.119) /}10=l(^A + ^~^+... + ^-^), s s s s Šj.o = yj-A.o> 7 = 1,2, s. (5.120) Počáteční hodnota úrovně se odhadne jako aritmetický průměr hodnot prvního roku časové řady, počáteční hodnota směrnice lineárního trendu jako aritmetický průměr směrnic pro každé období v prvních dvou letech a počáteční sezónní odchylky jako rozdíl hodnot časové řady vy-té sezóně prvního roku časové řady a odhadnuté počáteční hodnoty úrovně. Příklad 5.18 Vyrovnejme čtvrtletní časovou řadu průměrné hrubé nominální měsíční mzdy (v Kč) v České republice v letech 2012-2016 z předchozích příkladů aditivním Holtovým-Wintersovým sezónním exponenciálním vyrovnáváním s vyrovnávacími konstantami a - 0,4, p= 0,69 a y= 0,47 (hodnoty byly získány simulačně). Vypočtěme vyrovnané hodnoty a bodové předpovědi na roky 2017. Řešení V minulých příkladech jsme zjistili, že časová řada průměrné hrubé nominální měsíční mzdy má rostoucí lineární trend a výraznou pravidelnou sezónní složku, proto můžeme na časovou řadu aplikovat aditivní Holtovo-Wintersovo sezónní exponenciální vyrovnávání. Výpočty obsahuje tabulka 5.42. 324 Časové řady Tab. 5.42 Průměrná hrubá nominální mzda: Holtovo-Wintersovo sezónní exponenciální vyrovnávání_ Rok \ čtvrtletí t j }'t k sj,t 1 -932,00 2 -436,00 3 -624,00 0 4 25 063,00 -8,13 1992,00 20121 1 1 24 131 25 058,13 -5,88 -929,71 24 128,42 201211 2 2 24 627 25 056,55 -2,91 -432,97 24 623,58 2012 III 3 3 24 439 25 057,38 -0,33 -621,36 24 436,02 2012IV 4 4 27 055 25 059,43 1,31 1993,68 27 053,11 2013 I 5 1 23 985 25 002,33 -38,99 -970,89 24 031,44 2013 II 6 2 24 877 25 101,99 56,68 -335,22 24 766,77 2013 III 7 3 24 735 25 237,74 111,24 -565,61 24 672,13 2013 IV 8 4 26 525 25 021,92 -114,43 1 763,10 27 053,11 20141 9 1 24 931 25 305,25 160,02 -690,47 24 614,78 2014 II 10 2 25 569 25 640,85 281,17 -211,43 25 429,41 2014 III 11 3 25 279 25 891,06 259,81 -587,44 25 303,62 2014 IV 12 4 27 261 25 889,68 79,59 1 578,96 27 468,64 2015 I 13 1 25 497 26 056,55 139,81 -628,94 25 427,61 2015 II 14 2 26 408 26 365,59 256,58 -92,13 26 273,46 2015 III 15 3 26 163 26 673,48 291,98 -551,27 26 122,21 2015IV 16 4 28 258 26 850,89 212,93 1 498,19 28 349,08 20161 17 1 26 475 27 079,87 224,00 -617,62 26 462,24 201611 18 2 27 272 27 327,97 240,63 -75,13 27 252,84 2016 III 19 3 27 210 27 645,67 293,81 -496,94 27 148,73 2016 IV 20 4 29 309 27 888,01 258,30 1 461,91 29 349,92 Postup výpočtu je podobný jako v případě Holtova lineárního exponenciálního vyrovnávání. Nejprve podle vzorců (5.119) a (5.120) vypočteme počáteční hodnoty úrovně, trendu a sezónních odchylek, které se počítají z hodnot prvního kalendářního roku sledované časové řady, tzn. a 24131 + 24627 + 24439 + 27 055 „„„ Po.o =---= 25 063 , ~ 1 f 23 985-24131 24877-24627 24 735-24439 26 525-27 055^ A o =- -+-+-+- = -8,13 1,0 4{ 4 4 4 4 ) ŠU) = 24 131 - 25 063 = -932, $20 = 24 627 - 25 063 = -436, Šxo = 24 439 - 25 063 = -624, š = 27 055 - 25 063 = 1992. _Statistika v ekonomii 325 V dalším kroku budeme dosazovat do (5.115), tj. /?01 = 0,4-(24 131 - (-932)) + (1 - 0,4)(25 063 + (-8,13)) = 25 058,13, = 0,69-(25 058,13 - 25 063) + (1 - 0,69)(-8,13) = -5,88, Š]A = 0,47-(24 131 -25 058,13) + (1 - 0,47)(-932) = -929,71. Vyrovnaná hodnota je potom dána vztahem (5.116), tj. j>, =25 058,13 +(-929,71) = 24 128,42. Analogicky postupujeme pro časy / = 2, 3, ..., 20. Předpovědi vypočteme podle (5.117) s využitím odhadů /\2o = 27 888,01, A20 =258,30, Sll7 =-617,62, S2,u =-75,13, Šug =-496,94 a £4,20 =1461,91 tímto způsobem j>20(l) = (27 888,01 + 258,30-1) + (-617,62) = 27 528,68, y20 (2) = (27 888,01 + 258,30-2) + (-75,13) = 28 329,47, j>20(3) = (27 888,01 + 258,30-3) + (-496,94) = 28 165,96, y20(4) = (27 888,01 + 258,30-4) + 1 461,91 = 30 383,10. Původní hodnoty časové řady, vyrovnané hodnoty (přerušovaná čára) a předpovědi (plná čára) jsou znázorněny na obrázku 5.37. 31000 n 30 000 -29 000 -28 000 -27 000 -26 000 -25 000 -24 000 - 23 000 I..........1............. 2012 2013 2014 2015 2016 2017 2018 Obr. 5.37 Průměrná hrubá nominální mzda: Holtovo-Wintersovo sezónní exponenciální vyrovnávání 326 Časové řady Multiplikativní Holtovo-Wintersovo sezónní exponenciální vyrovnávání V případě multiplikativní sezónnosti jsou rekurentní vztahy ve tvaru K = a(yt 1 Št-S) + O " + h-\)> K =M^-Á^-i)+a-M,í-i» (5-121) vyrovnaná hodnota je yt = A,A (5-122) a předpovědi se vypočtou ze vztahu yT(l>) = (A,T + A,rh)ŠT+h_s. (5.123) Pro odhad počátečních hodnot není v tomto případě možné využít regresní metodu, používá se tak např. postup popsaný ve vztahu (5.119) a pro odhad počátečních sezónních indexů volíme ŠJfi=yj/Afi> j=l,2,...,s. (5.124) Příklad 5.19 Vyrovnejme hodnoty čtvrtletní časové řady průměrné spotřebitelské ceny citronů (v Kč/kg) v České republice v letech 2012-2016 z příkladu 5.17 (tabulka 5.40) multiplikativním Holtovým-Wintersovým sezónním exponenciálním vyrovnáváním s vyrovnávacími konstantami a - 0,02, /?= 0,81 a y = 0,26 (hodnoty byly získány simulačně). Vypočtěme vyrovnané hodnoty a bodové předpovědi na rok 2017. Řešení Časová řada průměrné spotřebitelské ceny citronů (v Kč/kg) má rostoucí lineární trend a výraznou nepravidelnou sezónní složku, je proto vhodné na časovou řadu aplikovat multiplikativní Holtovo-Wintersovo sezónní exponenciální vyrovnávání. Výpočty obsahuje tabulka 5.43. Výpočty se oproti příkladu 5.18 liší jen v typu dekompozice. Nejprve podle (5.119) a (5.124) vypočteme počáteční hodnoty úrovně, trendu a sezónních indexů, které se počítají z hodnot prvního kalendářního roku sledované časové řady. Pro ukázku výpočtu uvedeme podrobněji jen ty, které se liší od výpočtů aditivní metody: /iM = 35551, A,o=1>83> Š1>0 = 25,14/35,51 =0,71, Š20= 35,23/35,51 = 0,99, 5*3 0 = 47,19/35,51 = 1,33, Š40= 34,47/35,51 = 0,97. Statistika v ekonomii 327 Tab. 5.43 Průměrná cena citronů: Holtovo-Wintersovo sezónní exponenciální vyrovnávání Rok čtvrtletí t i yt Kt h> 5>t 1 0,71 2 0,99 3 1,33 0 4 35,51 1,83 0,97 20121 1 1 25,14 37,30 1,80 0,70 26,08 2012 II 2 2 35,23 39,03 1,74 0,97 37,81 2012 III 3 3 47,19 40,66 1,66 1,29 52,26 2012IV 4 4 34,47 42,18 1,55 0,93 39,26 20131 5 1 34,32 43,83 1,63 0,72 31,60 2013 II 6 2 45,58 45,50 1,66 0,98 44,47 2013 III 7 3 55,58 47,08 1,59 1,26 59,22 2013IV 8 4 35,81 48,47 1,43 0,88 42,70 20141 9 1 34,03 49,84 1,39 0,71 35,44 2014 II 10 2 44,21 51,11 1,29 0,95 48,46 2014 III 11 3 85,89 52,71 1,55 1,35 71,40 2014IV 12 4 36,55 54,00 1,34 0,83 44,71 20151 13 1 35,77 55,24 1,26 0,69 38,37 2015 II 14 2 49,23 56,41 1,18 0,93 52,38 2015 III 15 3 72,64 57,51 1,12 1,33 76,53 2015IV 16 4 46,65 58,58 1,08 0,82 48,02 20161 17 1 48,03 59,86 1,24 0,72 43,25 2016 II 18 2 80,07 61,59 1,64 1,03 63,14 2016 III 19 3 84,41 63,24 1,65 1,33 84,22 2016IV 20 4 43,97 64,66 1,46 0,78 50,65 V dalším kroku budeme dosazovat do (5.121) a dostaneme /30i = 0,02-(25,14/0,71) + (1 - 0,02)(35,51 + 1,83) = 37,30, 4j != 0,81-(37,30-35,51) + (1 -0,81)4,83 = 1,80, 5M = 0,26-(25,14/37,30) + (1 - 0,26)-0,71 = 0,70. Vyrovnaná hodnota je dána vztahem (5.122), tj. j>, = 37,30-0,70 = 26,08. Analogicky postupujeme pro časy / = 2, 3, ..., 20. Předpovědi na rok 2017 vypočteme podle vzorce (5.123), kde použijeme odhady A,2o =64,66, A,2o = 1,46, ŠIX1 =0,72, £2,18 = 1,03, Sw = 1,33 a Š4,2o =0,78. 328 Časové řady Výsledkem jsou hodnoty y20 (1) = (64,66 + 1,46-1) • 0,72 = 47,78, y20 (2) = (64,66 + 1,46-2) • 1,03 = 69,29, j>20 (3) = (64,66 + 1,46-3) • 1,33 = 91,96, y20 (4) = (64,66 + 1,46-4) • 0,78 = 55,24. Původní hodnoty časové řady, vyrovnané hodnoty (přerušovaná čára) a bodové předpovědi (tučná čára) jsou znázorněny na obrázku 5.38. 100 -| 20 2012 2013 2014 2015 2016 2017 2018 Obr. 5.38 Průměrná spotřebitelská cena citronů: Holtovo-Wintersovo sezónní exponenciální vyrovnávání ■ 5.4.5 Sezónní očišťování V úvodu kapitoly o modelování sezónní složky jsme uvedli, že se sezónní složka v časové řadě projevuje jako pravidelné periodické kolísání hodnot v rámci kalendářního roku. Toto kolísání však může komplikovat pohled na časovou řadu a její analýzu. Proto je v mnoha případech užitečné časovou řadu sezónně očistit. Sezónním očišťováním se rozumí odstranění sezónní složky, takže časová řada potom obsahuje pouze trendovou, cyklickou (vyskytuj e-li se) a nesystematickou složku. Sezónně očištěné řady se obecně používají proto, že umožňují snadno srovnávat hodnoty v měsících či ve čtvrtletích, neboť nejsou zatíženy specifickými podmínkami těchto časových úseků. Máme-li například časovou řadu spotřeby elektrické energie v jednotlivých měsících, je velmi obtížné srovnávat hodnoty neočistené řady např. v červenci a v lednu vzhledem k tomu, že spotřeba elektrické energie je v zimních měsících vždy větší než v měsících letních. Při konstrukci komplikovaných ekonometrických modelů je také velmi užitečné vycházet ze sezónně očištěných časových řad, protože na jejich základě je jednodušší Statistika v ekonomii 329 zkoumat vztahy mezi ekonomickými veličinami. Odhadnuté modely mají při použití sezónně očištěných časových řad méně parametrů a i interpretace takto získaných výsledků je jasnější. Metod sezónního očišťování je mnoho, od těch nejjednodušších až po velmi komplikované. K jednodušším patří např. metody zmíněné v této kapitole, kdy po odhadnutí sezónních odchylek, v případě aditivního modelu časové řady, odečteme tyto odchylky od původních hodnot časové řady a v případě multiplikativního modelu sezónními indexy původní časovou řadu vydělíme. Lze také použít klouzavé průměry, kdy volíme m = s. Jejich použití je sice jednoduché, ale je zatížené ztrátou prvních s/2 a posledních s/2 hodnot. Dnes nejpoužívanější metodou sezónního očišťování je metoda, která patří k nej-komplikovanějším, označuje se jako X-13ARIMA-SEATS. Tato metoda je implementována v mnoha statistických programech a je možné se s ní seznámit např. v Census Bureau(2017). 5.5 Uvod do modelování vztahů mezi časovými řadami V předchozích kapitolách jsme se zaměřili na analýzu a modelování individuálních časových řad, aniž bychom se zabývali jejich vztahem k jiným časovým řadám. V ekonomické oblasti, a nejen v té, je charakteristické, že časové řady bývají vzájemně provázané, tj. že mezi nimi existují takové vztahy a souvislosti, které umožňují vysvětlit změny v jedné časové řadě změnami ve druhé časové řadě, popř. v několika dalších řadách. Také předpovědi konstruované na základě modelů charakterizujících vztahy mezi více časovými řadami mohou být přesnější než předpovědi založené na modelu jedné časové řady. V této souvislosti se hovoří o vícerozměrných časových řadách. Analýza vztahů mezi časovými řadami svou komplikovaností, kterou způsobují specifické vlastnosti časových řad ve formě trendu a sezónnosti, značně přesahuje obsah základních statistických kurzů, pro které je tato kniha určena. Protože však víme, že se k analýze těchto vztahů často přistupuje, pokusíme se zde zjednodušeným způsobem alespoň nastínit danou problematiku a upozorníme na nejčastější obtíže s touto analýzou spojené. Budeme zde vycházet z práce Arit, Arltová (2009), kde je problematika podrobně popsána a dokumentována na příkladech. Při modelování vícerozměrných ekonomických časových řad se rozlišuje mezi krátkodobými a dlouhodobými vztahy. Krátkodobé vztahy mezi časovými řadami existují pouze v relativně krátkém období a časem mizí. Např. náhlé extrémní projevy počasí mohou dočasně snížit dodávky zemědělské produkce, a tak zvýšit její ceny, časem se však dodávky obnoví a ceny klesnou. Dlouhodobé vztahy mají dlouhodobé trvání, s postupujícím časem nemizí. V této souvislosti se hovoří o ekvilibriu, neboli o rovnovážném stavu mezi časovými řadami, které se v čase nemění. Jde o stav, ke kterému je systém časových řad neustále přitahován. Avšak tím, že je systém vystaven 330 Časové řady neustálým šokům, není nikdy v ekvilibriu, nicméně může být v tzv. dlouhodobém ekvilibriu, tedy ve stavu, který k rovnovážnému stavu konverguje v čase. V kapitole 5.1 jsme uvedli tři způsoby klasifikace časových řad. Abychom porozuměli obsahu této části, je nutné ji dále doplnit o klasifikaci, ve které časové řady rozlišujeme na časové řady s krátkou a dlouhou pamětí (zde se vychází z tzv. ARIMA modelů, tj. z Boxovy-Jenkinsovy metodologie). U časových řad s krátkou pamětí se vliv „šoku", způsobený určitým faktorem v jednom nebo několika málo obdobích minulosti, z časové řady postupně vytrácí. U řad s dlouhou pamětí je tomu jinak, vliv šoku z minulosti se v jejich hodnotách stále projevuje. V kapitole 5.2 jsme definovali stochastický proces jako v čase uspořádanou posloupnost náhodných veličin {Y,} a časovou řadu yt jako jeho realizaci (v každém čase daná náhodná veličina stochastického procesu nabude právě jedné hodnoty y\,y2, ■ ••jjr)- Vlastnosti časových řad jsou závislé na středních hodnotách, rozptylech a korelacích náhodných veličin generujících stochastických procesů {Yt}. Pokud jsou tyto parametry ve stochastickém procesu v čase neměnné, tj. platí-li, že střední hodnoty /u, a rozptyly a} jsou konstantní pro všechna t (/u, = //, a} = o2) a kovarianční a korelační funkce, zachycující lineární vztahy mezi náhodnými veličinami, závisí pouze na časové vzdálenosti náhodných veličin, potom se tento stochastický proces označuje jako stacionární. Stacionární procesy se označují také jako integrované procesy řádu nula, tj. 1(0) a jimi generované časové řady jako řady typu 1(0). Stacionární procesy jsou procesy s krátkou pamětí. Proces náhodné procházky Yt = Yt^ + st je nestacionárním procesem. Označuje se jako integrovaný proces řádu jedna, tj. 1(1). Po první diferenci se transfonnuje na stacionární proces 1(0). Pro bližší vysvětlení, stacionární procesy 1(0) a nestacionární procesy 1(1) typu náhodné procházky se odlišují v nepodmíněných rozptylech a autokorelačních funkcích. Zatímco stacionární procesy mají konečné nepodmíněné rozptyly, rozptyly nestacionárních procesů rostou neomezeně s t —> co. Hodnoty autokorelační funkce stacionárních procesů jsou nezávislé na čase a s rostoucí časovou vzdáleností náhodných veličin se exponenciálně zmenšují (tzn., že vliv šolců, které se udály v minulosti, postupně časem slábne). Hodnoty autokorelační funkce nestacionárních procesů typu náhodné procházky s t —> co konvergují k jedné. Vlastnosti stacionárních a nestacionárních procesů se projevují ve tvaru jimi generovaných časových řad. Např. časové řady generované stochastickým procesem typu 1(0) mají větší variabilitu, než časové řady generované stochastickým procesem typu 1(1). Hodnoty časových řad typu 1(0) se vracejí k nepodmíněné střední hodnotě generujícího procesu velmi často, jako by jí byly přitahovány. Hodnoty časových řad typu 1(1) se ke konstantní hodnotě nevracejí. Pro testování stacionarity se používají tzv. testy jednotkových kořenů, nej používanějším z nich je rozšířený Dickeyho-Fullerův test (ADF test), kde testovanou hypotézou je nestacionarita, alternativní hypotézou je stacionarita. Statistika v ekonomii 331 Pro modelování vztahů mezi časovými řadami se používají jednorovnicové nebo vícerovnicové modely časových řad. V této souvislosti je důležité specifikovat endogenní a exogénni procesy. Na jednorozměrné generující procesy mohou z vnějšku působit jiné stochastické nebo deterministické (proměnné deterministického charakteru jsou například časové proměnné nebo sezónní umělé proměnné) procesy, tyto procesy se označují jako exogénni. Procesy určené uvnitř systému se označují jako endogenní. Lineární regresní model předpokládá, že vysvětlující proměnná má pevný, nesto-chastický charakter, což znamená, že není korelovaná s nesystematickou složkou modelu. Odhad regresního parametru /J metodou nejmenších čtvercuje potom nestranný a konzistentní. Komplikovanější situace je, když vysvětlující proměnná v modelu Yt = j3Xt + £t ' (5.125) má stochastický charakter. Jestliže cov(X„ et) = 0, tj. veličiny X a jsou nekorelované, je také v této situaci odhad parametru j3 nestranný a konzistentní. V tomto případě je vývoj procesu {Yt} podmíněn vývojem procesu \Xt) a ne naopak. Proces {Xt} tak má exogénni charakter a proces {Yt} má endogenní charakter. Kdyby ale podmínka cov(X„ st) = 0 neplatila, nebyl by odhad parametru j5 nestranný a konzistentní a nebyla by zaručena j ednosměrnost vztahu mezi procesy. Pro modelování vztahů časových řad generovaných těmito procesy by potom bylo třeba použít dvojrovnicový model resp. sdružený regresní model, ve kterém by byl zachycen také opačný vztah. V souvislosti s výše uvedeným nyní předpokládejme, že časová řada x„ generovaná stochastickým procesem {Xt}, má exogénni charakter a časová řada yt, generovaná stochastickým procesem {ľ,}, má endogenní charakter, použijeme proto pro modelování jejich vztahu jednorovnicový regresní model ve tvaru (5.125). Při tomto modelování může nastat několik situací, které si dále popíšeme. 1) Při modelování vztahu dvou časových řad typu 1(0) může být použit model statické regrese ve tvaru y, = c + 0x, + ^ l 1,2, .... /'. (5.126) a mohou nastat dvě situace: a) Nesystematická složka modelu et má charakter bílého šumu, potom lze použít přímo model (5.126) a odhadnout metodou nejmenších čtverců jeho parametry. b) Nesystematická složka modelu st je autokorelovaná, což způsobí, že odhady parametrů mohou mít menší směrodatnou chybu, než ve skutečnosti je, což v případě testování hypotéz vede k tendenci zamítnout testovanou hypotézu, i když platí. V tomto případě model statické regrese v podobě (5.126) nelze použít. Problém však lze vyřešit pomocí dynamické regrese. Dynamizace statické regrese se provede přidáním časově zpožděných proměnných (vysvětlované i vysvětlující) do modelu (5.126). Tyto modely se označují jako modely rozložených zpožděných proměnných (ADL - autoregressive distributed lag models). 332 Časové řady Vzhledem k tomu, že jde o vztah mezi dvěma stacionárními časovými řadami, tj. časovými řadami s krátkou pamětí, může být identifikovaný vztah v obou případech pouze vztahem krátkodobým. 2) Vztah dvou časových řad, kdy jedna z nich je typu 1(0) a druhá typu 1(1), nemá smysl analyzovat. Stacionární časová řada typu 1(0) nemůže v regresním modelu postihnout dynamiku, obsaženou v nestacionární časové řadě typu 1(1). Vztah mezi těmito časovými řadami není a tato situace se označuje jako nesmyslná regrese. Tuto situaci nelze vyřešit, bývá sice snaha pomocí nějaké stacionarizující operace (nejčastěji první diferencí) odstranit nestacionaritu z časové řady 1(1) a model odhadovat ve tvaru Ay, = c + fix, + s„ jde však o nepřípustnou konstrukci modelu, protože aby měly výsledky smysl, musí do modelu vstupovat obě časové řady po stejných transformačních operacích (na časovou řadu typu 1(0) nelze první diferenci aplikovat, neboť neobsahuje zdroj nestacionarity a došlo by tak k jejímu přediferencování). 3) Použije-li se pro modelování vztahu dvou časových řad typu 1(1) statický regresní model ve tvaru (5.126), nastane nej složitější situace. Mohou opět nastat dvě možnosti: a) Odhadnutý model se na první pohled, na základě vysoké hodnoty koeficientu determinace, statisticky významných /-testů a F-testu, jeví jako vhodný pro vystižení vztahu mezi časovými řadami, avšak rezidua £t vykazují nestacionaritu, tj. je typu 1(1). Tato situace se označuje jako zdánlivá regrese, a je charakteristická tím, že statistické testy ukazují možnost použití modelu (5.126) i v případě, kdy časové řady spolu nemají žádný vztah, model statické regrese tak nelze použít. Protože však zdánlivá regrese nemůže vzniknout při použití stacionárních časových řad typu 1(0), nabízí se možnost model odhadnout ve tvaru Áy, = c + PAx, + £„ (5.127) tj. na základě diferencovaných časových řad. Další postup při odhadu tohoto modeluje analogický s postupem ad 1). b) Výsledky statistických testů ukazují, že odhadnutý model je stejně jako v případě 3a) vhodný pro vystižení vztahu mezi časovými řadami, ale rezidua st jsou stacionární, tj. je typu 1(0). Tato situace je případem pravé, neboli kointegrační regrese. I v tomto případě však může dojít ke dvěma situacím: ba) Reziduálni složka Ět z modelu (5.126) má charakter bílého šumu, potom je použití modelu statické regrese možné, protože časové řady jsou kointegro-vané. Parametiy modelu lze odhadnout a testovat standardním způsobem, přičemž parametr /3 je tzv. dlouhodobým multiplikátorem, určujícím dlouhodobý rovnovážný vztah mezi časovými řadami; bb) Reziduálni složka et v modelu (5.126) vykazuje autokorelaci; tento problém se řeší dynamizací modelu, tj. modelem ADL. Krátkodobé a dlouhodobé vztahy mezi časovými řadami lze odlišit modelem korekce chyby (ECM - error correction model), odvozeným z modelu ADL. Statistika v ekonomii 333 Příklad 5.20 Na ukázku identifikace zdánlivé regrese jsme vybrali analýzu závislosti časové řady vývozu České republiky v mil. EUR v běžných cenách na* měnovém kurzu CZK/EUR, obě časové řady jsou čtvrtletní od 11/1998 do 11/2017 a jsou znázorněny na obrázku 5.39. Časová řada vývozu byla před analýzou sezónně očištěna, neboť z F-testu sezónnosti vyplývá (F= 29,52 > 7), že obsahuje významnou sezónní složku. Dále nebyla u obou časových řad testem jednotkového kořene, na 5% hladině významnosti, zamítnuta testovaná hypotéza o přítomnosti jednotkového kořene (vývoz: tADF=— 3, 084, p-hodnota = 0,1174, CZK/EUR: tADF = -1,869, p-hodnota = 0,344 7) a obě časové řady tak lze považovat za nestacionární. 40 000 35 000 30 000 25 000 -20 000 15 000 -10 000 5 000 11111111111111111111111111111111111111111111 n i n 111111111111111111111 oOCTiOTHfNro^-LDUDr^ooaio^HrMro-ví-u-jvDr^ 0101OOOOOOOOOO 7, vývoz: F = 35,517 > 7), že obsahují významnou sezónní složku. Dále bylo testem jednotkového kořene otestováno, že na 5% hladině významnosti obě časové řady obsahují jednotkový kořen (dovoz: í4DF = -2,455, /7-hodnota = 0,349 2; vývoz: tADF = -2,305, /7-hodnota = 0,426 4) a jsou nestacionární. Odhad modelu provedeme ze vztahu (5.125), výsledný odhadnutý model, vybrané charakteristiky a testy diagnostické kontroly modelu obsahuje tabulka 5.45. Tab. 5.45 Dovoz a vývoz: odhad modelu Odhad parametru Směrodatná chyba Statistika t p-hodnota Konstanta 41990,85 2328,18 18,04 0,0000 Vývoz 0,8780 0,0039 221,48 0,0000 R2 0,9982 F-test 49055,53 0,0000 R2ADJ 0,9982 D W test 0,7180 Výsledky odhadu modelu vypadají podobně jako u předchozího příkladu, Městy i F-test jsou statisticky významné a koeficient determinace je vysoký, DW test také ukazuje na autokorelaci v nesystematické složce. Pokud ale zobrazíme rezidua (obrázek 5.42) a provedeme na jejich základě test jednotkového kořene (tADF = -4,434, /?-hodnota = 0,000) usuzujeme, že nesystematická složka e, je stacionární, tj. je typu 1(0), a jde tak o ko integrační regresi. Další postup odhadu modeluje naznačen v části 3bb). 1995 1997 1999 2001 2003 2005 2007 2009 2011 2013 2015 2017 Obr. 5.42 Dovoz a vývoz: rezidua Statistika v ekonomii 337 6 METODY STATISTICKÉHO SROVNÁVANÍ Popisem a analýzou ekonomických jevů a procesů pomocí hodnot ukazatelů se zabývá speciální oblast statistiky - hospodářská statistika. Jejím cílem je nalézt způsoby kvantifikace ekonomických jevů a procesů ve formě ukazatelů a způsoby hodnocení vývoje jejich hodnot. Důležitost takové činnosti je nezpochybnitelná - bez odhadu míry inflace, dynamiky průmyslové či stavební produkce, vývoje kurzů cenných papírů a mnoha jiných jevů nelze učinit vůbec žádná hospodářská rozhodnutí - ani v podniku, ani v celé společnosti. Ukazatele jsou proměnné, se kterými se setkáváme denně - v tisku, v rozhlase, v televizi. Seznamujeme se s takovými pojmy jako hrubý domácí produkt, dovoz, vývoz, produktivita práce, průměrná mzda apod., které jsou vždy doprovázeny čísly, charakterizujícími velikost odpovídajícího ekonomického jevu, popř. vývoj daného jevu. Dozvídáme se, že např. hrubý domácí produkt vzrostl o 2,8 %, spotřeba domácností přesahuje 2200 mld. Kč, vývoz zboží a služeb představuje více než 82 % hrubého domácího produktu, průměrná roční míra inflace byla 2,4 %, a zároveň se zpravidla seznamujeme s tím, zda tyto hodnoty lze hodnotit kladně či záporně, v jakých souvislostech a za jakých podmínek. Všechna tato čísla, hodnocení a předpoklady budoucího vývoje jsou výsledkem práce statistiků v oblasti hospodářství. 6.1 Ukazatel jako statistická proměnná Ukazatel je statistickou proměnnou, popisující určitou sociálně ekonomickou skutečnost. Každý ukazatel má tedy svůj věcný obsah a zároveň svoji formálně logickou konstrukci, která ho řadí mezi statistické proměnné. Chceme-li ukazatel definovat, musíme se zaměřit na jeho předmětnou, ale i formálně logickou definici. Podíváme-li se na ukazatele z předmětného (obsahového) hlediska, je zřejmé, že se jedná o pojmy, které často používá i ekonomická teorie. Ekonomická teorie definuje své kategorie a jejich vztahy verbálně, často bez ohledu na to, zda jsou tyto pojmy a vztahy kvantifikovatelné či nikoliv. Statistika ale naopak potřebuje reálně existující ekonomické jevy a procesy kvantifikovat, vyjádřit jejich velikost či intenzitu pomocí číselných charakteristik - ukazatelů. Pojmům ekonomické teorie je tedy nutné přiřadit jejich číselné charakteristiky tak, aby ukazatel co nejlépe odrážel skutečnost, popisovanou daným pojmem. Při konstrukci ukazatelů je tedy třeba mít na zřeteli, aby vypovídací schopnost ukazatelů odpovídala obsahu pojmů ekonomické teorie. Logický postup „pojem —» ukazatel" není však v praxi vždy uplatňován. Často se můžeme setkat s opačným postupem, kdy uměle vytvořenému ukazateli se přiřadí název a vypovídací schopnost, která ne vždy odpovídá podstatě měřeného pojmu. Využití takového ukazatele v praxi je velmi problematické, neboť dezorientuje uživatele, který zpravidla nezkoumá konstrukci ukazatele, ale podle názvu usuzuje na jeho vypo- 338 Metody statistického srovnávání vídací schopnost. Kvalita vztahu pojmu ekonomické teorie a statistického ukazatele zároveň předpokládá, že ekonomická teorie se bude zamýšlet i nad možnostmi kvantifikace pojmů, které definuje. Je zřejmé, že v praxi popisu a sledování ekonomických jevů a procesů nevystačíme s pojmy, které nám nabízí ekonomická teorie, neboť v řadě případů je nezbytné kvantifikovat jevy specifické, detailní. Vždy je však třeba dbát na to, aby existoval soulad názvu a vypovídací schopnosti ukazatele, a aby tudíž konstrukce ukazatele byla smysluplná. Formálně logická definice ukazatele nás dovede k problému vztahu základních statistických pojmů, jako jsou statistická jednotka, statistický znak, statistický soubor, a pojmu ukazatele. Je zřejmé, že tyto pojmy spolu souvisejí, ale jejich vzájemný vztah není zřetelný. Statistický ukazatel je statistickou charakteristikou, je tedy funkcí hodnot znaku definovaných na statistických jednotkách, popř. je funkcí těchto charakteristik. Statistický ukazatel je ale specifickým typem statistických charakteristik, neboť využívá jen omezený počet funkčních předpisů (nejčastěji úhrn), statistických jednotek a statistických znaků, a to těch, které mají sociálně ekonomický charakter. To ostatně plyne ze specifického postavení pojmu „ukazatel" v české terminologii. Ukazatelem se v tomto smyslu vždy rozumí proměnná, vypovídající o nějaké sociálně ekonomické hromadné skutečnosti. V ostatních disciplínách se pojem ukazatel používá spíše okrajově. Z toho, co jsme uvedli o podstatě ukazatele jako statistické charakteristiky, plyne, že ukazatel je proměnnou. Zároveň víme, že o ukazatelích se vždy hovoří v souvislosti s číselnými hodnotami. Vzniká tedy otázka, jak z ukazatele jako proměnné získáme číslo, tj. konkrétní hodnotu ukazatele neboli údaj. Definice statistického ukazatele jako statistické charakteristiky předpokládá, že statistický soubor je obecně prostorově a časově vymezen. Vezmeme-li např. ukazatel „odpracovaná doba", pak tento ukazatel jev metodických předpisech vymezen jako úhrn doby odpracované pracovníky (popř. dělníky) podniku (popř. závodu) v měsíci (popř. čtvrtletí, roce). Jde tedy o popis ukazatele, kde je obecně definován čas (např. měsíc) a prostor (např. podnik). Jestliže přesně definujeme tento čas a prostor (např. prosinec 2018, podnik Alfa), dostaneme konkrétní hodnotu ukazatele, tj. údaj. Ukazatel je tedy proměnná a hodnota ukazatele (údaj) je hodnotou této proměnné, která vzniká konkrétním vymezením času a prostoru. Ukazatele samy o sobě vypovídají o nějaké skutečnosti, ale nehodnotí ji; v této souvislosti hovoříme o tzv. pravých ukazatelích. Indexy, absolutní rozdíly a další míry rozdílnosti hodnot ukazatelů, které jsou nástroji srovnávání a analýzy výsledků srovnávání, se považují za tzv. nepravé ukazatele. Statistika v ekonomii 339 6.2 Typy a vlastnosti ukazatelů Vraťme se ještě k definici ukazatele. Uvedli jsme, že ukazatel je funkcí hodnot znaku definovaných na statistických jednotkách, popř. funkcí těchto charakteristik. Tyto dvě části definice jsou významné pro základní členění ukazatelů na primární (prvotní) a sekundární (odvozené). Primární ukazatele jsou ukazatele přímo zjišťované, neodvozené, např. tržby, odpracovaná doba, počet pracovníků k určitému datu, stav zásob apod. Jedná se o ukazatele, kde lze jednoznačně určit typ charakteristiky, statistické jednotky i statistického znaku. Druhým typem ukazatelů jsou ukazatele sekundární, odvozené, které mohou vznikat trojím způsobem: ■ jako funkce (zpravidla rozdíl nebo podíl) různých primárních ukazatelů; např. zisk, přidaná hodnota, doba obratu zásob apod., ■ jako funkce různých hodnot téhož primárního ukazatele; zde je možné jmenovat všechny časové průměry a ukazatele struktury, ■ jako funkce dvou primárních ukazatelů, kde alespoň u jednoho pracujeme s více hodnotami, resp. jako funkce více než dvou primárních ukazatelů (tj. kombinací předchozích postupů); jako příklad lze uvést relativní ukazatele, kde alespoň jeden je časovým průměrem (např. produktivita práce na pracovníka jako podíl produkce a průměrného stavu pracovníků), resp. funkcí více primárních ukazatelů (ziskovost produkce jako podíl zisku a produkce, podíl přidané hodnoty na celkové produkci apod.). Vedle třídění ukazatelů na primární a sekundární je důležité i členění ukazatelů na absolutní a relativní. Absolutní ukazatele vyjadřují velikost určitého jevu bez vztahu k jinému jevu. Do této skupiny patří všechny ukazatele primární (resp. ty, které jsou úhrnem hodnot znaku, např. produkce, tržby, stav zásob, stav pohledávek apod.), ale i některé ukazatele sekundární (např. časové průměry a rozdílové ukazatele jako zisk, přidaná hodnota apod.). Relativní ukazatele vyjadřují velikost jednoho jevu na měrnou jednotku jiného jevu (např. cena, produktivita práce, ziskovost produkce, rentabilita apod.). Relativní ukazatele jsou vždy sekundární (odvozené), neboť vznikají jako podíl absolutních (primárních i sekundárních) ukazatelů. Jestliže členění ukazatelů na primární a sekundární, resp. na absolutní a relativní je vyčerpávající, pak členění ukazatelů na extenzitní a intenzitní opomíjí skupinu tzv. strukturních ukazatelů. Extenzitní ukazatele (ukazatele množství) jsou ukazatele absolutní, intenzitní ukazatele (ukazatele úrovně) však nepokrývají celou skupinu relativních ukazatelů, ale pouze jen ty, které vyjadřují intenzitu určitého jevu. Vyčerpávající popis ukazatelů tedy získáme, připoj íme-li k extenzitním a intenzitním ukazatelům ještě ukazatele struktury. Členění ukazatelů na extenzitní a intenzitní je důležité především v indexní teorii. 340 Metody statistického srovnávání Ukazatele se třídí rovněž na okamžikové a intervalové; toto členění již definuje vlastnost ukazatele a předurčuje způsob jeho shrnování v čase. Intervalový ukazatel je takový, jehož hodnota se s prodlužováním časového intervalu mění (roste). Pro okamžikový ukazatel platí, že jeho hodnota se s prodlužováním časového intervalu nemění (např. počet zaměstnanců k 31. 12. je hodnotou měsíční, čtvrtletní i roční). Hodnoty intervalového ukazatele shrnujeme aritmetickým průměrem, hodnoty intervalového ukazatele pak chronologickým průměrem (viz kapitola 5.1.1). Třídění ukazatelů na okamžikové a intervalové není vyčerpávající, týká se jednoznačně pouze absolutních ukazatelů (např. tržby, náklady, stav pohledávek, počet zaměstnanců). U relativních ukazatelů nelze definovat, zda daný ukazatel je okamžikový či intervalový; lze pouze určit jeho chování v čase, tzn., zda se s prodlužováním časového intervalu bude jeho hodnota měnit (růst nebo klesat) či nikoliv. To záleží na chování v čase absolutních ukazatelů, z nichž je příslušný relativní ukazatel složen; např. hodnota ukazatele doby obratu zásob s prodlužováním časového intervalu klesá, neboť tento ukazatel je definován jako podíl průměrného stavu zásob (jehož hodnota se s prodlužováním časového intervalu nemění) a nákladů (jejichž hodnota s prodlužováním časového intervalu roste). Jiným příkladem může být ukazatel ziskovosti produkce (podíl dvou intervalových ukazatelů - zisku a produkce), jehož hodnota se s prodlužováním časového intervalu nemění. Výše uvedené členění ukazatelů z hlediska jejich chování v čase bývá již spíše považováno za popis vlastnosti ukazatele, neboť skutečnost, zda ukazatel je okamžikový či intervalový, je důležitá pro operace s hodnotami ukazatelů. Za typickou vlastnost ukazatelů je však uváděna jejich stejnorodost, srovnatelnost a shrnovatelnost. Stejnorodost statistických ukazatelů je vlastnost, kterou zdůrazňujeme především v indexní teorii, aleje zřejmé, že má širší význam, neboť je první a výchozí podmínkou možnosti shrnování dílčích hodnot určitého ukazatele. Stejnorodost statistických ukazatelů je dána povahou statistických jednotek; kritériem stejnorodosti je pak statistický znak, který na daných jednotkách sledujeme. Stejnorodost statistických ukazatelů je relativní a závisí na způsobu vymezení souboru jednotek pro daný účel zkoumání. To, co se v jedné situaci jeví jako soubor homogenních jednotek, je v jiné situaci souborem nestejnorodých jednotek. Obecně je možné říci, že absolutní ukazatel je stejnorodý tehdy, jestliže má věcný smysl shrnovat jeho dílčí hodnoty součtem (např. produkce různých výrobků vyjádřená v Kč je stejnorodým ukazatelem, ale produkce různých výrobků vyjádřená v naturálních jednotkách je nestejnorodým ukazatelem). Relativní ukazatel je stejnorodý jenom tehdy, když jsou stejnorodé oba absolutní ukazatele, z nichž se skládá, resp. lze-li dílčí hodnoty relativního ukazatele shrnovat průměrem; pokud toto neplatí, je ukazatel nestejnorodý (např. cena určitého výrobku vyjádřená v Kč/kus prodávaného na různých trzích je stejnorodým ukazatelem, ale cena různých výrobků vyjádřená v Kč/kus je nestejnorodým ukazatelem). Statistika v ekonomii 341 Srovnatelnost statistických ukazatelů je vlastnost, která má vazbu na tvorbu relativních ukazatelů a indexů. Za srovnatelné považujeme takové ukazatele, jejichž srovnáním, resp. srovnáním jejich hodnot získáme smysluplný relativní ukazatel, resp. index (např. ukazatel produktivity práce, strukturní ukazatele, časové, prostorové a druhové indexy apod.). Za nesrovnatelné tedy považujeme takové ukazatele, jejichž srovnání, resp. srovnání jejich hodnot nemá smysl z hlediska rozdílného časového, prostorového či druhového vymezení statistických jednotek (např. nemá smysl konstruovat relativní ukazatel srovnávající počet narozených a obrat zahraničního obchodu, srovnávat cenu dvou naprosto rozdílných výrobků, srovnávat hrubý domácí produkt Francie a národní důchod Belgie apod.). Shrnovatelnost je poslední, ale neméně důležitou vlastností ukazatelů; bezprostředně souvisí se stejnorodostí, jež je základním předpokladem smysluplnosti shrnování dílčích hodnot určitého ukazatele. Shrnovatelnost vyjadřuje schopnost ukazatele určit jeho celkovou hodnotu na základě jeho dílčích hodnot. Z tohoto hlediska potom rozlišujeme ukazatele přímo shrnovatelné, nepřímo shrnovatelné a neshrnovatelné. Přímo shrnovatelné jsou takové ukazatele, jejichž souhrnnou hodnotu můžeme určit výlučně z dílčích hodnot daného ukazatele (např. odpracovanou dobu za rok určíme jednoznačně na základě znalosti měsíčních hodnot stejného ukazatele). Nepřímo shrnovatelnými rozumíme takové ukazatele, kde k určení souhrnné hodnoty daného ukazatele musíme znát nejen dílčí hodnoty tohoto ukazatele, ale i dílčí hodnoty jiného ukazatele (typické pro všechny relativní ukazatele, jejichž hodnoty shrnujeme průměrem; např. k určení průměrné ceny určitého výrobku potřebujeme znát nejen za kolik Kč se daný výrobek prodával v každé ze sledovaných prodejen, ale také jaké množství tohoto výrobku se prodalo či jaké byly tržby za daný výrobek v každé z prodejen). Za neshrnovatelné považujeme takové ukazatele, kde souhrnnou hodnotu daného ukazatele nelze určit ani při znalosti dílčích hodnot daného ukazatele, ale ani dalších ukazatelů. Souhrnnou hodnotu ukazatele můžeme určit výlučně na základě znalosti individuálních dat (jedná se o malou skupinu ukazatelů, kdejako charakteristika vystupuje např. medián). Z podstaty časového, prostorového a druhového vymezení ukazatele, resp. jeho hodnoty plyne, že rozlišujeme časové, prostorové a druhové shrnování hodnot ukazatelů. Zároveň platí, že neexistuje obecný princip shrnování hodnot určitého ukazatele, ale že dílčí hodnoty se mohou shrnovat rozdílně v čase, v prostoru či druhově (např. okamžikové ukazatele se v čase shrnují průměrem, v prostoru součtem). 6.3 Indexy a absolutní rozdíly jako nástroj srovnání Proměnná, která kvantitativně popisuje určitou sociálně ekonomickou skutečnost, je nazývána ukazatelem (viz kapitola 6.1). V praxi však zpravidla nepracujeme s jednotlivými izolovanými hodnotami určitého ukazatele, ale snažíme se zjistit, zda hodnotou 342 Metody statistického srovnávání ukazatele vyjádřená ekonomická skutečnost znamená určitou změnu oproti téže skutečnosti v minulém období či v jiné územní či organizační jednotce. To znamená, že nás nezajímá jenom jedna hodnota daného ukazatele, ale i její relativní, resp. absolutní velikost ve vztahu k hodnotě téhož ukazatele v jiné situaci. Zajímá nás tedy, kolikrát, resp. o kolik je hodnota určitého ukazatele v dané situaci větší (menší) než hodnota téhož ukazatele v jiné situaci. Chceme-li vědět, kolikrát (o kolik %) je jedna hodnota ukazatele větší (menší) než jiná, budeme obě hodnoty srovnávat podílem, budeme-li chtít vědět, o kolik jednotek je jedna hodnota ukazatele větší (menší) než druhá, budeme srovnávat rozdílem. Podílem dvou hodnot téhož ukazatele získáme index, rozdílem pak absolutní rozdíl (absolutní přírůstek). Obě tyto míry rozdílnosti jsou rovnocenné a nezastupitelné, ale vzájemně se doplňují. Index, který je relativní mírou rozdílnosti, je bezrozměrné číslo, udávající, kolikrát je hodnota v čitateli větší (menší) než hodnota ve jmenovateli. Absolutní přírůstek potom udává, o kolik měrných jednotek je hodnota menšence větší (menší) než hodnota menšitele. Například jestliže zisk podniku Alfa v roce 2017 činil 180 mil. Kč a v roce 2018 pak 200 mil. Kč, víme, že zisk podniku Alfa vzrostl 1,11 krát, neboli o 11 %, tj. o 20 mil. Kč. Vzhledem k tomu, že hodnota ukazatele vzniká jeho konkrétním časovým, prostorovým, popř. druhovým vymezením, je index podílem dvou hodnot téhož ukazatele, které se liší pouze buď časovým, nebo prostorovým, nebo druhovým vymezením a z ostatních dvou hledisek jsou vždy vymezeny stejně. V této souvislosti pak hovoříme o časovém, prostorovém nebo druhovém indexu, při srovnání rozdílem pak o časovém, prostorovém či druhovém absolutním rozdílu. Budeme-li srovnávat zisk podniku Alfa v roce 2018 a v roce 2017, konstruujeme časový index; budeme-li srovnávat zisk podniku Alfa v roce 2018 se ziskem podniku Beta v tomtéž roce, sestrojíme prostorový index; budeme-li srovnávat zisk dosažený při výrobě výrobku X a výrobku Y v podniku Alfa v roce 2018, získáme druhový index. Analogické úvahy platí i pro absolutní rozdíly. Vzhledem k převažujícímu použití indexů a absolutních rozdílů pro hodnocení dynamiky ekonomických jevů v čase budeme celý výklad metod srovnání a na něj navazujících analýz ilustrovat na příkladech časového srovnávání. Vše, co bude v dalším výkladu prezentováno, platí však také pro prostorové a druhové srovnávání. Výše uvedený příklad srovnání dvou hodnot téhož ukazatele podílem, resp. rozdílem je jednoduchým příkladem srovnávání nevyvolávajícím diskusi o smysluplnosti konstrukce takové míry rozdílnosti. Problémy s konstrukcí vhodného indexu nastávají v okamžiku, kdy chceme hodnotit dynamiku určitého jevu při nutnosti shrnovat jeho dílčí hodnoty, tj. v okamžiku, kdy chceme hodnotit, jak se změnila průměrná cena určitého výrobku, úroveň cen různých výrobků, vyrobené množství rozdílných výrobků apod. Odpověď na tyto otázky by nám měly přinést následující odstavce. Klíčem Statistika v ekonomii 343 k jejich pochopení je základní klasifikace indexů, která nám umožní nejenom lépe se orientovat v celé škále různých typů indexů, ale zároveň nám umožní zvolit při řešení konkrétní úlohy vždy ten správný index. Klasifikaci indexů přibližuje schéma 6.1. Schéma 6.1 Klasifikace indexů jednoduché jednoduché Členění indexů v první linii na indexy množství a indexy úrovně je členěním na indexy extenzitních a intenzitních ukazatelů; vychází tedy jednoznačně z typu ukazatele, jehož dynamiku máme charakterizovat. Ve druhém stupni dělíme indexy na individuální a souhrnné; kritériem členění je stejnorodost či nestejnorodost ukazatele, jehož dynamiku chceme měřit. Individuální indexy jsou indexy stejnorodých (extenzitních i intenzitních) ukazatelů, souhrnné indexy jsou indexy nestejnorodých (extenzitních i intenzitních) ukazatelů. Indexy stejnorodých i nestejnorodých ukazatelů třídíme dále na indexy jednoduché a složené, i když pojetí těchto pojmů není u individuálních a souhrnných indexů stejné. Jednoduché individuální indexy jsou takové indexy, v nichž v rámci konstrukce indexu neprovádíme shrnování (problém stejnorodosti či nestejnorodosti je tudíž v tomto případě irelevantní); složené individuální indexy jsou indexy stejnorodého (extenzitního či intenzitního) ukazatele, kde v rámci konstrukce indexu shrnujeme dílčí hodnoty sledovaného ukazatele (součtem či průměrem). Jednoduché souhrnné indexy jsou takové indexy, kde v rámci konstrukce indexu shrnujeme dílčí hodnoty indexů (zde individuálních jednoduchých indexů) a třídění hodnot je jen v jednom stupni (zpravidla jsou hodnoty tříděny jen prostorově). Složené souhrnné indexy jsou takové indexy, kde v rámci konstrukce indexu shrnujeme dílčí hodnoty indexů (zde individuálních složených indexů) a třídění hodnot je ve dvou stupních (hodnoty jsou tříděny prostorově a druhově). Indexní teorie používá pro obecné označení ukazatelů, s nimiž pracuje, standardní symboly, které jasně rozlišují extenzitní a intenzitní ukazatel. Obecnejšou definovány 344 Metody statistického srovnávání tři ukazatele, dva extenzitní, označené symboly q a Q, a jeden intenzitní p, pro které platí vzájemný vztah q Toto značení je tradiční a vychází ze vztahů mezi cenou, hodnotou (produkce, prodeje) a množstvím (vyrobeným, prodaným), pro které byla původně indexní teorie odvozena. Vztah (6.1) nás bude provázet celou indexní teorií. I když se obecně může jednat i o jiné ukazatele splňující tento vztah, je praktické využití indexní teorie pro jiné ukazatele než cena, hodnota a množství, jen okrajové. 6.3.1 Individuální indexy Individuální indexy jsou vždy indexy stejnorodého ukazatele, extenzitního (např. tržby v Kč, zisk v Kč, přidaná hodnota v Kč, odpracovaná doba v hod.) či intenzitního (cena jednoho výrobku, ziskovost produkce, produktivita práce). Individuální indexy jednoduché Jednoduché individuální indexy bezprostředně srovnávají dvě hodnoty téhož ukazatele. Tyto hodnoty nejsou nijak podrobněji tříděny ani shrnovány. Budeme-li srovnávat hodnotu intenzitního ukazatele p v situaci 1 (v časovém srovnávání nazývanou běžným obdobím) a v situaci 0 (v časovém srovnávání nazývanou základním obdobím), dostaneme lp = ^. (6.2) Po Analogicky můžeme konstruovat jednoduché indexy i pro extenzitní ukazatele Q a q, tzn., že platí /<2=Q (6.3) Iq = &. (6.4) % Ze vztahu (6.1) zároveň plyne, že IQ = IqIp. (6.5) Odpovídající absolutní přírůstky pak budou určeny jako Ap =pi -p0, (6.6) AQ = Ql-Qo, (6.7) Aq = q\- qo. (6.8) Individuální jednoduché indexy (zde výlučně časové) se často vyskytují sdružené do delších časových řad. V takovém případě mohou být příslušné indexy počítané vždy ke stejnému základu (např. k nej starší hodnotě v časové řadě původních pozorování), nebo k proměnlivému základu (k bezprostředně předcházejícímu pozorování v časové Statistika v ekonomii 345 řadě původních hodnot). V prvním případě, kdy základ srovnání je vždy stejný, hovoříme o tzv. bazických indexech, ve druhém případě, kdy srovnáváme vždy dvě za sebou jdoucí hodnoty v časové řadě, konstruujeme tzv. řetězové indexy, Mějme hodnoty libovolného ukazatele, např. extenzitního ukazatele q v časové řadě pro období 0, 1, T. Zvolíme-li si za základ srovnání hodnotu ukazatele q v situaci 0, tj.qa, pak můžeme konstruovat řadu bazických indexů ve tvaru fi_ #2_ 3500 23,33 Z<7o 150 Tržby za jablka vzrostly v dubnu proti březnu o 28,1 %, tj. o 985 Kč: V Q 4485 !m = = 77^ = !'281 > = 4485 " 3500 = 985 Kč. Z uvedených vztahů zároveň plyne, že IZQ =Ip- IZq = 1,098 • 1,167= 1,281, což znamená, že růst celkových tržeb o 28,1 % byl výsledkem růstu průměrné ceny o 9,8 % a růstu prodeje celkem o 16,7 %. ■ Index proměnlivého složení je podílem dvou hodnot průměru, kde v každém proměřujeme obsahově stejnou, ale časově (příp. prostorově či druhově) jinak vymezenou proměnnou a jako váhy používáme opět obsahově stejné, ale časově (příp. prostorově či druhově) jinak vymezené struktury extenzitního ukazatele. Hodnota indexu proměnlivého složení se tedy bude měnit nejenom vlivem změn dílčích hodnot intenzitního ukazatele, ale i vlivem změn vah, tj. proměnlivé struktury vah, tj. proměnlivého složení vah (odtud i název index proměnlivého složení). Statistika v ekonomii 351 V této situaci je přirozené, že nás bude zajímat nejenom hodnota samotného indexu proměnlivého složení, ale zároveň i hodnota, která bude vypovídat o vlivu výše uvedených dvou činitelů na změnu, vyjádřenou indexem proměnlivého složení. Jedním činitelem tedy jsou změny dílčích hodnot intenzitního ukazatele (např. změny cen jablek v různých prodejnách), druhým pak změny ve struktuře extenzitního ukazatele q (např. změny ve struktuře prodeje), vycházíme-li z tvaru indexu proměnlivého složení ve formě podílu dvou aritmetických průměrů, resp. změny ve struktuře extenzitního ukazatele Q (např. změny ve struktuře tržeb), vycházíme-li z tvaru indexu proměnlivého složení ve formě podílu dvou harmonických průměrů. Vyjdeme-li z předpokladu, že chceme zjistit vliv samotných změn dílčích hodnot intenzitního ukazatele na změnu vyjádřenou indexem proměnlivého složení (např. vliv samotných změn cen jablek v jednotlivých prodejnách), pak je zřejmé, že budeme konstruovat index, ve kterém se budou měnit jen tyto dílčí hodnoty intenzitního ukazatele a struktura (složení) vah bude stálá. Tento index pak nazveme indexem stálého složení. Vzhledem k tomu, že váhy můžeme fixovat na úrovni základního období nebo běžného období, dostaneme dva významově ekvivalentní indexy stálého složení. První s váhami ze základního obdobi (obecně ze situace 0) ve tvaru ;=i 4ť=^-= Jf-=r- - Z Polo 1=1 ;=i druhý s váhami z běžného období (obecně ze situace 1), zapsaný jako 1=1 1=1__ J=i_ n n ;=i i=i Z/v/. ■ ( ' E?U i=l V případě, že chceme vyjádřit pouze vliv změn ve struktuře extenzitního ukazatele q, budeme konstruovat index, který nazveme indexem struktury. V něm se mění jen struktura vah a dílčí hodnoty intenzitního ukazatele zůstávají naopak stálé. Můžeme je fixovat na úrovni základního období (obecně situace 0), tj. 352 Metody statistického srovnávání a Z p^i 2str ~ » - v1 _ „ ' (6.20) i=j_ Z^o nebo na úrovni běžného období (obecně situace 1), tj. n Za,,?!,, <=i 2, Ago Z^o 1=1 Em? Zr/i Z^o,/ i=l Abychom vysvětlili změnu vyjádřenou indexem proměnlivého složení výše uvedenými indexy stálého složení a struktury, musí platit, že součinem těchto indexů získáme vždy index proměnlivého složení. To platí zřejmě v případě, kdy spojíme index stálého složení s váhami qo (6.18) s indexem struktury (6.21), tj. Ip = I^)-I(s^ , (6.22) nebo index stálého složení s váhami q\ (6.19) s indexem struktury (6.20), tj. Ip = lM-lM. (6.23) Vztahy (6.22) a (6.23) představují rozklad indexu proměnlivého složení na dva analytické indexy a jsou významově rovnocenné, tj. neexistují objektivní důvody pro preferenci jednoho z nich. V praxi přirozeně pracujeme vždy jen s jednou z těchto forem analytických indexů. Existence dvou možností rozkladu, a tudíž dvou různých výsledků, souvisí s tzv. metodou postupných změn, které se obecně budeme věnovat v části 6.4. Příklad 6.4 K ilustraci rozkladu indexu proměnlivého složení na dva analytické indexy a interpretaci jeho výsledků vyjděme z údajů v tabulce 6.5. Z výpočtů provedených pod tabulkou víme, že celková průměrná cena 1 kg jablek vzrostla o 9,8 %, tj. o 2,30 Kč/kg. K naplnění vztahu (6.22), resp. (6.23) potřebujeme další pomocné výpočty, které jsou uvedeny v tabulce 6.6. Statistika v ekonomii 353 Tab. 6.6 Výpočtová tabulka k příkladu 6.4 Prodejna po qo Pili P\ qo Po q\ A 2 000 3 000 2 500 2 400 B 1 500 1 485 1 350 1 650 Celkem 3 500 4 485 3 850 4 050 Dosazením do vztahu (6.22) získáme Z™ ^ |^.^ = 3850 Í75_ = U0Q.0?998 = 1,098, Z>o y„a 4485 /^^ = ^-^^--^ = U06-0s993 = l,098 Po yO, Za 135,6 3500 Pi y a 135>6 Pl Statistika v ekonomii 355 Výsledek nám říká, že průměrná cena 1 kg jablek vzrostla v důsledku samotných změn cen v jednotlivých prodejnách o 10,6 % a naopak poklesla v důsledku samotných změn v prostorové struktuře tržeb o 0,7 %. Použijeme-li vztahu (6.25), bude platit, že IQ y§L y^Ql i485 ^^K^^L.P^J^A.^A .1,140-0,963 = 1,098. Po yQ Za 175,0 3500 Pi yi 150,0 ^P0 Podle tohoto vztahu platí, že průměrná cena 1 kg jablek vzrostla v důsledku samotných změn cen v jednotlivých prodejnách o 14,0 % a naopak poklesla v důsledku samotných změn v prostorové struktuře tržeb o 3,7 %. 6.3.2 Souhrnné indexy Souhrnné indexy představují velice širokou paletu různých měr, jejichž úkolem je charakterizovat změnu (dynamiku) nestejnorodého extenzitního či intenzitního ukazatele (např. změnu objemu různorodé produkce, celkovou změnu cen různých výrobků, celkovou změnu produktivity práce při výrobě různých výrobků apod.). Základní problém koncepce souhrnných indexů tedy spočívá v tom, jak vyjádřit souhrnnou změnu hodnoty ukazatele, jehož dílčí hodnoty nelze shrnovat (součtem, resp. průměrem), a to z důvodu věcné rozdílnosti těchto dílčích hodnot. Např. nelze shrnovat produkci vyjádřenou v naturálních jednotkách dvou či více výrobků, jsou-li tyto výrobky svou podstatou odlišné, resp. jsou-li vyjádřeny v různých měrných jednotkách (např. nelze shrnovat objem prodeje vajec v kusech, mléka v litrech a chleba v kg). Analogicky nelze určit průměrnou cenu skupiny různých výrobků (nelze určit průměrnou cenu „potraviny", budeme-li sledovat vývoj cen chleba, vajec a mléka). Shrneme-li, pak při konstrukci souhrnných indexů hledáme alternativní řešení v situaci, kdy nelze dynamiku sledovaného ukazatele charakterizovat složenými individuálními indexy, tj. v situaci, kdy nelze sestrojit individuální složené indexy extenzitních ukazatelů (6.11) a (6.12), resp. index proměnlivého složení (6.15) z důvodu nemožnosti stanovit X, I Pu o harmonický průměr V 1 V1 poj í=i [Pi Ži Pu popř. o geometrický průměr jednoduchých indexů //)=id_ = 2ž±^; (6.26) ip{3}=Afiip = >m— > (6-28) kde n je počet různých výrobků, jejichž ceny se zjišťují. Indexy v těchto prostých tvarech nenašly v praxi širší uplatnění právě pro samotnou věcnou problematičnost vypovídací schopnosti prostých průměrů, neboť ■ u relativních veličin (jakými jsou jednoduché indexy) je těžko odůvodnitelný jejich součet, ■ použití prostých průměrů abstrahuje od závažnosti změny vyjádřené jednoduchým indexem. V případě cenových indexuje např. pro spotřebitele podstatně závažnější, jestliže vzroste cena masa o 50 % a cena čokolády o 10 % (při nezměněných cenách ostatních výrobků), než opačný případ - růst ceny masa o 10 % a ceny čokolády o 50 %. Prosté průměry cenových indexů však v těchto případech vykáží stejné výsledky. Výše uvedený nedostatek první generace indexů, tj. nerespektování závažnosti změny vyjádřené jednoduchým indexem, se snaží řešit druhá generace souhrnných indexů, opírající se především o vážené průměry jednoduchých indexů, kde ve funkci vah vystupuje struktura extenzitního ukazatele Q, a to buď v základním období Statistika v ekonomii 357 pro / = 1,2,n, (6.29) Qoj Po,i%,i 5n i =-=- n n í=i í=i nebo v běžném období, tj. Q\,i Pljlu • 1 i í£. ir\\ Si,i=-^—= „ > pro i= 1,2,...,«. (6.30) Zfiu Z/; .'/i.' Souhrnné indexy mají potom tvar váženého aritmetického průměru individuálních jednoduchých indexů s váhami so,i zapsaného jako Z"-í/?o,í?o,í Za,/4o,; 1=1 (=1 váženého harmonického průměru s váhami sy, tj. n n 7n(5)=—— = -i=í-= - (6.32) ;=i 7a ;=i a.; »=1 Poj nebo váženého geometrického průměru individuálních jednoduchých indexů s váhami sojzapsaného jako IP{6) = WPí T = WPí = ^Jfl(lPi , (6.33) i=i ;=i V í=i resp. s vahami s\ti ve tvaru ipil]=ň(*, r = Wpí )á£=■ i=] m V 1=1 V praxi našly nejširší uplatnění indexy (6.31) a (6.32) známé podle jmen jejich autorů jako Laspeyresův index (6.31) a Paascheho index (6.32), kterým se budeme podrobněji věnovat v dalším výkladu. Indexy (6.33) a (6.34) se v praxi nepoužívají. Zjevným nedostatkem souhrnných indexů druhé generace je závislost hodnoty indexu na volbě vah, neboť je zřejmé, že indexy (6.31) a (6.32) či (6.33) a (6.34) nám poskytují vždy dva různé, ale stejně hodnotné výsledky. 358 Metody statistického srovnávání Tento problém závislosti na volbě vah se snaží řešit třetí generace souhrnných indexů, a to jednak průměrováním vah, průměrováním indexů s různými váhami či volbou vah z jiného období, než jsou obě srovnávaná, popř. jiným postupem. Na průměrování vah je založen tzv. Edgeworthův-Marshallův index ve tvaru E^(?u+íon) n ^(8)=-T-"-, (6-35) na průměrování souhrnných indexů s různými váhami pak Fisherův index, tj. //»=V//)-//). (6.36) Váhy z hypotetického období (označme ho např. symbolem k) využívá Loweho index n Ip(m = ~ (6.37) Do třetí generace souhrnných indexů řadíme i Montgomeryho index, na jehož základě byla odvozena tzv. logaritmická metoda rozkladu (podrobněji viz kapitola 6.4.2), ve tvaru áqp //') = IQ^Q , kde AQD = t ÁQ . (6.38) p t^in/a Tato třetí generace souhrnných indexů nenašla proti očekávání odpovídající odezvu v praxi, a to z důvodů obtížné interpretovatelnosti indexů (6.35) a (6.36), problémů při volbě hypotetických (neutrálních) vah v indexu (6.37) a nakonec i z důvodů jisté výpočetní složitosti indexu (6.38). Výhodou Loweho indexu proti ostatním souhrnným indexům je jeho řetězitelnost, která znamená možnost výpočtu indexu srovnávajícího situaci Ta situaci 0 na základě řetězení (násobení) indexů srovnávajících vždy dvě za sebou následující situace, to znamená situaci 1 a 0, situaci 2 a 1, situaci Ta T-1. Širší prezentace jednotlivých koncepcí a škol, které se postupně objevovaly v in-dexní teorii ve snaze nalézt ideální souhrnný index, přesahuje rámec tohoto textu. V dalším výkladu se proto zaměříme na bližší představení pouze těch souhrnných indexů, které se ve statistické praxi využívají a jsou všeobecně uznávány za souhrnné indexy s nejlepší vypovídací schopností, ačkoliv nevyhovují některým formálně logickým zkouškám, jimiž zpravidla popisujeme vlastnosti indexů. Statistika v ekonomii 359 Souhrnné indexy jednoduché Souhrnnými indexy jednoduchými rozumíme obecně souhrnné indexy libovolného nestejnorodého intenzitního (souhrnné indexy úrovně) nebo extenzitn-ího ukazatele (souhrnné indexy množství). Cílem konstrukce těchto indexuje charakterizovat např. vývoj cen různých druhů zboží prodávaných na jednom místě (v jedné prodejně) či změny objemu prodeje různých druhů zboží prodávaných na jednom místě (v jedné prodejně). Vzhledem k tomu, že se z historického hlediska jako první objevily souhrnné indexy úrovně (resp. souhrnné cenové indexy), začneme výklad této problematiky právě u nich. Souhrnné indexy úrovně - jednoduché Souhrnné indexy úrovně jsou indexy nestejnorodého intenzitního ukazatele (ceny různorodé produkce, pracnost různorodé produkce, nákladovost různorodé produkce apod.). V dalším textu se soustředíme především na nejčastěji používané souhrnné cenové indexy. Toto „omezení" přispěje k lepší srozumitelnosti výkladu s tím, že zde uvedené závěry jsou platné pro libovolný jiný nestejnorodý intenzitní ukazatel (nákladovost různorodé produkce apod.), mající stejné vlastnosti jako cena. Základem koncepce v praxi používaných souhrnných indexuje myšlenka (váženého) průměrování změn (vyjádřených jednoduchými individuálními indexy) dílčích hodnot sledovaného ukazatele. V případě cenových indexů se zřejmě jedná o průměrování indexů cen jednotlivých výrobků s tím, že ve funkci vah vystupuje hodnota produkce ze základního období (ze situace 0) nebo z běžného období (ze situace 1). Jednou z možností, kterou nabízí druhá generace souhrnných indexů, je použití váženého aritmetického průměru individuálních jednoduchých indexů cen, kde jako váhy použijeme strukturu produkce ze základního období. Dostaneme pak průměrový tvar Laspeyresova cenového indexu (6.31), který vyjadřuje průměrnou změnu cen různých výrobků, tj. kde sq,í vyjadřuje strukturu hodnoty produkce (tržeb) v základním období, viz (6.29). Laspeyresův cenový index v průměrovém tvaru (6.39) můžeme po úpravě převést do tzv. agregátního tvaru, z něhož vyplývá další vypovídací schopnost Laspeyresova indexu. V agregátním tvaru Laspeyresova cenového indexu ve formě i=i Poj }1 (6.39) UPajloj n (6.40) 360 Metody statistického srovnávání srovnáváme dvě cenové hladiny stejného souboru výrobků. Ve jmenovateli vztahu (6.40) je objem zboží sledovaný v základním období oceněn cenami ze stejného období; jedná se tedy o reálnou veličinu. V čitateli tohoto vztahu je naopak.hypotetická veličina, ve které je tentýž objem zboží oceněn cenami platnými v běžném období. Index (6.40) pak srovnává dva stejné objemy zboží oceněné různými cenami, resp. srovnává dvě cenové hladiny. Převedeme-li si toto konstatování do praxe každodenního života, pak lze říci, že Laspeyresův index srovnává částky, které bychom za stejný objem zboží pořízeného v základním období vydali v běžném a v základním období. Jestliže Laspeyresův cenový index používá k průměrování individuálních jednoduchých indexů cen váhy ze základního období (6.29), pak je přirozené, že další možností je využít vah z běžného období (6.30). Index pak nebude mít tvar váženého aritmetického, ale váženého harmonického průměru individuálních jednoduchých cenových indexů. Tento index se podle svého tvůrce nazývá Paascheho cenový index. Podle výše uvedeného lze Paascheho index (6.32) v průměrovém tvaru interpretovat opět jako průměrnou změnu cen různých výrobků a zapsat jako 1> ..- 2) situací. Vzhledem k tomu, že Laspeyresův, Paascheho ani Fisherův index nevyhovují této zkoušce okružnosti, nelze je považovat za řetězitelné. Přes tuto negativní vlastnost jsou Laspeyresův a Paascheho cenové indexy v praxi nejvíce používány. Důvodem je jejich jasná interpretovatelnost ve smyslu průměrné změny cen, resp. změny cenové hladiny. Ilustrujme si prezentované indexy na jednoduchém příkladu. Příklad 6.6 V tabulce 6.8 máme uvedeny údaje o objemu prodeje vajec, chleba a mléka a jejich cenách v jedné prodejně v červnu 2018 a červnu 2017. Úkolem je charakterizovat vývoj cen potravin (předpokládáme, že tyto tři produkty z jedné prodejny reprezentují skupinu „potraviny" při sledování vývoje cen). 362 Metody statistického srovnávání Tab. 6.8 Vývoj prodeje a cen vybraných potravin Druh zboží Objem prodeje (v naturálních jednotkách) Cena (Kč/naturální jednotku) červen 2017 červen 2018 červen 2017 červen 2018 qo qt Po Pí Vejce (ks) 250 280 4,00 4,20 Chleba (kg) 2 000 2 500 25,00 24,00 Mléko (1) 1 000 800 15,00 20,00 Celkem X X X X Chceme-li v tomto případě charakterizovat celkovou změnu cen potravin, musíme použít souhrnný cenový index, neboť v situaci, kdy se jedná o tři rozdílné výrobky, nelze určit průměrnou cenu. K vyjádření souhrnné změny cen můžeme použít Las-peyresův cenový index (6.40), Paascheho cenový index (6.42), popř. Fisherův cenový index (6.43). Pomocné výpočty jsou v tabulce 6.9 . Tab. 6.9 Výpočtová tabulka k příkladu 6.6 Druh zboží poqo p\q\ poqi p\qo Vejce Chleba Mléko 1 000 50 000 15 000 1 176 60 000 16 000 1 120 62 500 12 000 1 050 48 000 20 000 Celkem 66 000 77 176 75 620 69 050 ^^I^=1'046; IpiP)= WĚ = !'021; Ip(F)= ^046-1,021 = 1,033. S využitím Laspeyresova indexu (6.40) určíme, že ceny potravin vzrostly o 4,6 %, použijeme-li Paascheho index (6.42), zjistíme, že celková změna cen činila 2,1 %. Fisherův index (6.43) informuje o 3,3% změně cen. Vzhledem k tomu, že prakticky nikdy nepočítáme všechny tři indexy, ale vždy jen jeden, uveďme si zde ke každému indexu odpovídající interpretaci. Laspeyresův index: Uvažujeme4i objem prodeje na úrovni základního období, potom ceny potravin vzrostly v červnu 2018 proti červnu 2017 o 4,6 %. Tato změna znamená, že zákazníci museli v běžném období za stejné množství zboží jako v základním období vydat o 3050 Kč více (tj. 69 050 - 66 000). Paascheho index: Vezmeme-li v úvahu neměnnost objemu prodeje běžného období, ceny potravin vzrostly v červnu 2018 proti červnu 2017 o 2,1 %. Tato změna znamená, že kupující museli při nákupu stejného množství zboží vydat v běžném období o 1556 Kč více (tj. 77 176 - 75 620). Fisherův index: Průměrná změna cen vyjádřená Fisherovým indexem činila 3,3 % (absolutní přírůstek odpovídající tomuto indexu nelze konstruovat). ■ Statistika v ekonomii 363 Příklad 6.7 O meziročním vývoji cen (září 2018 proti září 2017) a struktuře tržeb za drogistické zboží v jedné prodejně v září 2018 máme k dispozici údaje v tabulce 6.10. Na jejich základě bychom měli charakterizovat vývoj cen drogistického zboží v této prodejně. Tab. 6.10 Vývoj cen a struktury tržeb Druh zboží Meziroční růst Struktura tržeb cen (v %) v září 2018 (v %) Prací prášek 8,2 73,0 Šampon 5,6 18,0 Deodorant 1,3 9,0 Celkem X 100,0 Při řešení této úlohy musíme vycházet z typu údajů v zadání. V tabulce 6.10 jsou meziroční tempa růstu cen vybraných druhů drogistického zboží a struktura tržeb v běžném období. Je zřejmé, že k charakterizování vývoje cen drogistického zboží použijeme Paascheho cenový index v průměrovém tvaru (váhy jsou z běžného období, známe individuální jednoduché cenové indexy). Výpočet je proveden v tabulce 6.11. Tab. 6.11 Výpočtová tabulka k příkladu 6.7 Druh zboží Individuální jednoduchý cenový index lpi Struktura tržeb v běžném období s\,i \i lPi Prací prášek 1,082 0,73 0,675 Šampon 1,056 0,18 0,170 Deodorant 1,013 0,09 0,089 Celkem X 1,00 0,934 Paascheho cenový index pak podle (6.41) bude mít hodnotu 1,071, 1 Ur, 0,934 což znamená, že ceny drogistického zboží meziročně vzrostly o 7,1 %. Souhrnné indexy množství - jednoduché Souhrnné indexy množství (souhrnné objemové indexy) jednoduché jsou indexy nestejnorodého extenzitního ukazatele q. Jestliže u souhrnných indexů úrovně jsme uvedli, že souhrnné cenové indexy tvoří jen jednu (byť nej významnější skupinu) těchto indexů, pak v případě souhrnných indexů množství se jedná výlučně o indexy, jejichž 364 Metody statistického srovnávání úkolem je charakterizovat změny objemu vytvořené nebo prodané různorodé produkce za předpokladu, že nelze z důvodu věcné rozdílnosti určit veličinu 'Lq-,. Indexy, používané pro charakterizování dynamiky objemu různorodá produkce, vycházejí ze stejné myšlenky jako souhrnné cenové indexy, tzn., nelze-li změnu objemu produkce charakterizovat individuálním složeným indexem (6.12), můžeme k vyjádření celkové změny objemu různorodé produkce využít průměru individuálních jednoduchých indexů, vyjadřujících změnu objemu (produkce, prodeje) pro jednotlivé věcně rozdílné komodity. V praxi používané souhrnné indexy množství nesou opět jména významných statistiků a jsou konstruovány analogicky jako souhrnné indexy úrovně. Použijeme-li k výpočtu průměrné změny množství váhy ze základního období, dostaneme Laspey-resův objemový index lq i) _i=l_ n (6.44) který po úpravě lze převést do tzv. agregátního tvaru, z něhož jednoznačně vyplývá vypovídací schopnost Laspeyresova indexu. V agregátním tvaru tohoto indexu (6.45) i=i srovnáváme dva objemy produkce vyjádřené ve stejných cenách, v tomto případě v cenách základního období. Laspeyresův objemový index tedy vyjadřuje reálnou změnu objemu produkce, neuvažující vývoj cen. Často se v této souvislosti hovoří o změně fyzického objemu produkce, čímž se rozumí změna objemu produkce ve stálých (srovnatelných) cenách. V této souvislosti si je třeba uvědomit, že pokud je produkce různorodá, nelze charakterizovat celkovou změnu jejího objemu jinak, než s pomocí srovnatelných cen. Je přirozené, že další možností je použít jako váhy strukturu hodnoty produkce z běžného období. Tím se dostaneme k Paascheho objemovému indexu ve tvaru váženého harmonického průměru Iq (p) iq, (6.46) který lze po úpravě převést do tvaru agregátního, z něhož je zřetelnější vypovídací schopnost tohoto indexu. V agregátním tvaru Paascheho indexu ve formě srovnáváme č ■ nými v běžnen jako v případ: dva fyzické oř Podobně a změny objemu běžného obdob resp. určit priu:: novanéhojako s ve tvaru Příklad 6.8 Ukažme si pov._ kladu s tím, že úkolem však m potravin. Na základě -. (L) = 75 620 66 000 Interpretace těcl dex říká, žc o: o 14,6%,Paascl běžného obdob: deje (růst) o 15. Statistika v ekonomii 365 4«.M--2*L . (6.47) (=1 srovnáváme dva objemy produkce oceněné stejnými cenami, tentokrát cenami platnými v běžném období. Vypovídací schopnost Paascheho indexuje tedy analogická jako v případě Laspeyresova objemového indexu jen s tím rozdílem, že srovnáváme dva fyzické objemy produkce, vyjádřené v cenách běžného období. Podobně jako v případě souhrnných cenových indexů lze pro vyjádření celkové změny objemu použít ceny neutrální (hypotetické), tj. ceny z jiného než základního či běžného období (označme ho k) a konstruovat tak Loweho objemový index ve tvaru n -.4«, (6.48) resp. určit průměrnou změnu objemu na základě Fisherova objemového indexu definovaného jako geometrický průměr Laspeyresova a Paascheho objemového indexu, tj. ve tvaru = yllqM.IqW = l^L.^M. . (6.49) Příklad 6.8 Ukažme si použití Laspeyresova, Paascheho a Fisherova objemového indexu na příkladu s tím, že vyjdeme ze zadání úlohy v tabulce 6.8 a z výpočtů v tabulce 6.9. Naším úkolem však není charakterizovat změnu cen, ale celkovou změnu objemu prodeje potravin. Na základě výpočtů v tabulce 6.9 dostaneme tyto hodnoty indexů L iL) = 75620 /M = 77176= (F) = j = 66 000 69 050 V Interpretace těchto indexů vychází jednoznačně z jejich konstrukce. Laspeyresův index říká, že objem prodeje ve srovnatelných cenách základního období vzrostl o 14,6 %, Paascheho index pak vyjadřuje růst objemu prodeje ve srovnatelných cenách běžného období o 11,8 % a Fisherův index vyjadřuje průměrnou změnu objemu prodeje (růst) o 13,2 %. 366 Metody statistického srovnávání Pozorný čtenář si jistě povšiml, že součinem Laspeyresova cenového indexu (6.40) a Paascheho objemového indexu (6.47), resp. Laspeyresova objemového indexu (6.45) a Paascheho cenového indexu (6.42) dostaneme index vyjadřující změnu hodnoty produkce (stručně hodnotový index, jenž je individuálním složeným indexem), tj. index vyjadřující jak změnu objemu, tak i změnu cen, tj. index (6.11) ve tvaru j (Ľ) j (P) j (P) j (L) ZjPlIl ZjQ[ V tomto smyslu pak můžeme Laspeyresův a Paascheho cenový index interpretovat zároveň jako index vyjadřující vliv změn cen na změnu hodnoty produkce, resp. Laspeyresův a Paascheho objemový index jako index vyjadřující vliv změn množství na změnu hodnoty produkce. Jedná se o problém rozkladu hodnotového indexu na index cenový a objemový při použití tzv. metody postupných změn, tj. o problém analogický rozkladu indexu proměnlivého složení na index stálého složení a struktury. Tím se již posouváme od indexů jako nástroje srovnání k indexům jako nástroji analýzy. Metodám rozkladu se budeme věnovat podrobněji v kapitole 6.4. Příklad 6.9 Při hodnocení změny objemu a cen průmyslové produkce jsme získali tyto hodnoty Laspeyresova cenového a objemového indexu a Fisherova cenového indexu: Ip(L)= 1,058; IqiL) = 0,921; 7/^= 1,043. Na jejich základě bychom měli určit, jak se změnila hodnota průmyslové produkce. Při řešení vyjdeme ze vztahu pro Fisherův cenový index (6.43), z něhož po úpravách plyne, že ¥P> =^77T = -7^777" = 1.028 Ip(F)1 _ 1,0432 Ip(L) ~ 1,058 Z toho potom pro hodnotový index platí, že Ixq = Iq(L) ■ Ip(P) = 0,921 ■ 1,028 = 0,947, což znamená, že hodnota průmyslové produkce poklesla o 5,3 %. Souhrnné indexy složené V případě jednoduchých souhrnných indexů jsme řešili situaci, kdy chceme vyjádřit vývoj cen různých výrobků, které se prodávají na jednom místě (viz příklad 6.6) či změnu objemu prodeje různých výrobků, prodávaných opět jen na jednom místě (viz příklad 6.8). Souhrnné složené indexy jsou indexy nestejnorodého intenzitního či extenzitního ukazatele, jejichž cílem je vyjádřit změnu ceny různorodé produkce či objemu různorodé produkce v případě, že dané výrobky se prodávají (vyrábějí) na více místech. Statistika v ekonomii 367 Souhrnné indexy úrovně - složené Problém vyjádření vývoje cen různých výrobků prodávaných po celém území státu či kraje je obvyklou úlohou státní statistické služby při sledování vývoje cen a publikování hodnot příslušných cenových indexů (ke konkrétní praxi cenových indexů viz kapitola 6.5). Při konstrukci souhrnného složeného indexu úrovně musíme vycházet z dosud známých poznatků o individuálních složených indexech a jednoduchých souhrnných indexech. Individuální složený index úrovně (index proměnlivého složení) (6.15) vyjadřuje vývoj průměrné ceny jednoho výrobku, prodávaného na více místech. Takových výrobků je mnoho, ale platí, že pro každý z nich můžeme index proměnlivého složení spočítat. Ve druhém kroku řešíme problém vyjádření cenového vývoje různých výrobků, což je problém, který řeší jednoduché souhrnné indexy zprůměrováním změny cen (jednoduché cenové indexy) jednotlivých výrobků, viz (6.39), resp. (6.41). Nyní však v souhrnném složeném cenovém indexu nebudeme průměrovat jednoduché individuální cenové indexy, ale složené individuální cenové indexy (indexy proměnlivého složení). Laspeyresův souhrnný složený index pak bude ve tvaru ^ p\,i Ip^=^-= 1^0,, (6-51) kde Ipj je index proměnlivého složení, vyjadřující změnu průměrné ceny i-tého výrobku a so j vyjadřuje komoditní strukturu tržeb v základním období. Analogicky je lze konstruovat i souhrnný složený Paascheho cenový index ve tvaru n UpiAí , jp(p)=±ú-= __L_5 (6.52) Poj kde lpi je index proměnlivého složení, vyjadřující změnu průměrné ceny z-tého výrobku a sij vyjadřuje komoditní strukturu tržeb v běžném období. Oba souhrnné složené indexy úrovně (6.51) a (6.52) se ve statistické praxi používají k výpočtu cenových indexů, sledujících vývoj cen na celém území státu (viz kapitola 6.5). Příklad 6.10 V tabulce 6.12 jsou údaje o vývoji cen, prodeje (v měrných jednotkách - mj) a tržeb za vybrané druhy potravin v září a v říjnu ve dvou prodejnách. Úkolem je charakterizovat vývoj cen potravin za obě prodejny celkem. 368 Metody statistického srovnávání Tab. 6.12 Vývoj cen a prodeje potravin Zboží Prodejna Cena (v Kč/mj) Prodej (v mj) Tržby (v Kč] i září říjen září říjen září říjen Po Pí go . (/x - l)x0 = x0 ln Ial lim ——— = x0 ln Iai b-^i ' ix^fi bi/x ln/x ln/x a pro analytický index v případě součtové vazby pak můžeme psát M.ínIx Aa- -mix Ml limZx, = lim/xAl = limeAl = limejru{& " =limex° {hA) =ex° . ' lx-+l &-»] &->l Využití logaritmické metody rozkladu přírůstku a indexu v praktických aplikacích si ukážeme na příkladu rozkladu změny rentability, kterou lze koncipovat jako funkci většího počtu ukazatelů, mezi nimiž platí hierarchicky uspořádané součtové a součinové vazby. Logaritmická metoda rozkladu je proto v tomto případě jedinou použitelnou metodou rozkladu. Příklad 6.14 Podnik Datte se rozhodl provést analýzu vývoje ekonomické rentability. Cílem těchto analýz je mimo jiné zjistit, jak se na změnách ekonomické rentability podílel vývoj doby obratu materiálu a doby obratu ostatních zásob (tj. především zásob nedokončené výroby a hotových výrobků). Oddělení ekonomických analýz poskytlo dílčí výsledky, uvedené v tabulce 6.17. Tab. 6.17 Faktory ekonomické rentability Ukazatel Hodnota ukazatele v roce 2017 2018 Nákladovost produkce (a) 0,87 0,86 Obratovost stálých aktiv (b) 0,75 0,80 Relativní materiálová spotřeba (c) 0,55 0,50 Doba obratu materiálu (d) 0,30 0,20 Doba obratu ostatních zásob (e) 0,20 0,15 Pro ekonomickou rentabilitu r platí \-a r =-, b + cd + ea což umožní určit, že v roce 2017 byla ekonomická rentabilita 0,119 38 (tj. 11,94 %) a v roce 2018 pak 0,136 05 (tj. 13,61 %). Celkově tedy ekonomická rentabilita vzrostla o 13,97 %,tj. o 0,016 68. Statistika v ekonomii 379 K určení přínosu doby obratu zásob materiálu a doby obratu ostatních zásob k růstu ekonomické rentability použijeme vzhledem ke složitosti modelu logaritmickou metodu. Rozklad absolutního přírůstku neprovedeme celý, ale budeme postupovat účelově jen tak, abychom zjistili vliv sledovaných dob obratu. Pro zjednodušení zápisu si označme veličinu ve jmenovateli (b + cd+ ea) symbolem v. Rozklad absolutního přírůstku ekonomické rentability na části připsané změnám doby obratu zásob materiálu a doby obratu ostatních zásob provedeme po krocích respektujících vazby mezi analytickými ukazateli v modelu. Pro vliv změny doby obratu zásob materiálu (ukazatele d) bude platit, že Ard =^^- — -^-z1r = 0,433 34-1,083 33-0,809 68-0,016 68 = 0,006 34, ln/r zly la led a pro vliv změny doby obratu ostatních zásob (ukazatele é) platí, že Are = • — -^-Ar = 0,433 34 • 0,750 00 • 0,961 37 • 0,016 68 = 0,005 21. In Ir Ay ln Iea V návaznosti na tyto výsledky pak určíme analytické indexy vyjadřující vliv změn sledovaných dob obratu na změnu ekonomické rentability 0,006 34 0,005 21 lrd =1,139 720-01668 =1,05097, Ire =1,139 720-01668 =1,041 71. Z výsledků plyne, že vývoj doby obratu materiálu a doby obratu ostatních zásob měl pozitivní vliv na změnu ekonomické rentability. V důsledku zkrácení doby obratu materiálu vzrostla ekonomická rentabilita o 0,00634, tj. o 5,1 % a vlivem zkrácení doby obratu ostatních zásob pak ekonomická rentabilita vzrostla o 0,00521, tj. o 4,2 %. Metodu postupných změn i logaritmickou metodu můžeme použít také k rozkladu složených individuálních indexů, konkrétně k rozkladu hodnotového indexu a indexu proměnlivého složení. Při použití metody postupných změn v případě rozkladu hodnotového indexu dojdeme ke vztahu (6.50) a v případě indexu proměnlivého složení ke vztahům (6.22) a (6.23), resp. (6.24) a (6.25). Při použití logaritmické metody na rozklad hodnotového indexu dostaneme Montgomeryho cenový index (6.38) a odpovídající objemový index. Jakjsme již uvedli v kapitole 6.3.2, je použití Montgomeryho cenového a objemového indexu v praxi výjimečné. 6.5 Index spotřebitelských cen a měření inflace V kapitole 6.3.2 jsme uvedli, že cenové indexy patří k nejstarším indexům, sledovaným oficiální statistikou. Nutnost zachycení vývoje cen (a to jak spotřebitelských, tak cen průmyslových či zemědělských výrobků, cen stavebních prací apod.) vedla postupně k vytvoření rozsáhlé oblasti tzv. cenové statistiky, jejímž úkolem je vypracovat 380 Metody statistického srovnávání a realizovat systém sledování cen různých výrobků a činností. Indexy cen, tj. charakteristiky změn cenové hladiny, jsou využitelné zejména ■ pro přímou výpověď o vývoji cen, protože vývoj cen je důležitým ukazatelem změn v národním hospodářství a na světových trzích, ■ jako nepřímý nástroj měření reálného vývoje hodnot vybraných makroagregátů, neboť cenové indexy slouží jako deflátory, tj. jako nástroje přepočtu agregátů, vyjádřených v běžných cenách do srovnatelných cen, ■ k valorizaci důchodů, sociálních dávek, nájemného apod. V celé široké škále v praxi sledovaných cenových indexů lze definovat dvě cenově rozdílné oblasti, tj. oblast spotřeby a oblast výroby, to znamená, že lze odlišit indexy cen spotřeby a indexy cen ve výrobní sféře. V této kapitole se zaměříme na index spotřebitelských cen, který je vedle indexu životních nákladů jedním ze dvou základních indexů v oblasti sledování pohybu cen spotřeby, na jehož základě počítáme i důležité ukazatele míry inflace. Na příkladu indexu spotřebitelských cen přitom můžeme sledovat i řešení obecnějších problémů, které se vyskytují v cenové statistice. 6.5.1 Index spotřebitelských cen Při konstrukci indexu spotřebitelských cen (stejně jako při konstrukci dalších, zde neuvedených cenových indexů) je třeba se vyrovnat s řadou závažných problémů, obecně se dotýkajících oblasti zjišťování cenových změn. Mezi tyto problémy patří zejména výběr vhodného typu indexu, jeho vymezení z hlediska obsahu, rozsahu a času, stanovení váhového systému a způsob šetření cen. Výběr typu indexu Podstata řešeného problému, tj. zachycení vývoje cen rozdílných druhů výrobků či činností, vede k jednoznačné volbě souhrnného cenového indexu jako základní míry rozdílnosti nestejnorodého ukazatele úrovně. Z řady teoreticky rozpracovaných formulí těchto indexů pak praxe dává přednost Laspeyresovu vzorci, v němž se vývoj cen měří při respektování množství zboží ze základního období. Jak již víme z kapitoly 6.3.2, můžeme jej zapsat ve tvaru váženého aritmetického průměru individuálních složených indexů cen (6.51). Praktickou výhodou Laspeyresova indexu oproti Paascheho indexuje právě skutečnost, že váhy (např. struktura spotřeby domácností v indexu spotřebitelských cen) jsou stálé po celou dobu platnosti těchto vah a jsou tedy známé v době zjišťování jednotlivých cenových změn. Při použití Paascheho indexu, jehož váhy pocházejí z běžného období, by bylo nutné při každém zjišťování sestavovat nový váhový systém. Statistika v ekonomii 381 Vymezení indexu, stanovení váhového systému a šetření cen Sledování vývoje cen zboží a služeb (produktů) přirozeně naráží na základní problém obsahového a prostorového vymezení souboru těchto produktů. Setření cenového vývoje se týká pohybu cen velkého množství produktů, které lze sledovat v celé řadě prostorových (organizačních) jednotek. Kombinací počtu produktů a počtu prostorových jednotek by vznikly statisíce položek, jejichž úplné a vyčerpávající prošetření není pochopitelně reálné. Dalším hlediskem je čas, neboť cenové změny nelze zkoumat spojitě, aleje třeba šetření provádět v diskrétních časových okamžicích. Z tohoto důvodu je třeba uvedený soubor položek vymezit z hlediska: * produktů, jejichž změnu cen budeme šetřit, ■ jednotek, v nichž se změna cen stanovených výrobků bude šetřit, ■ časových okamžiků šetření. Jinak řečeno, je třeba: ■ sestavit omezený soubor produktů, tzv. reprezentantů, ■ vybrat soubor tzv. zpravodajských jednotek, ■ stanovit periodicitu zjišťování. Výběr souboru reprezentantů je výběrem těch položek (produktů), jejichž cenu budeme v pravidelných intervalech zjišťovat. Přitom cenový vývoj těchto produktů -reprezentantů musí dobře vystihovat cenový vývoj skupiny produktů, která je tímto vybraným produktem zastoupena. Přestože ve statistice reprezentativnost zajišťujeme náhodným výběrem, v daném případě tato technika není vhodná (kromě toho je též obtížně realizovatelná), a to zejména z důvodu nestejného vlivu vývoje ceny každého reprezentanta na cenovou hladinu (jak si později ukážeme, každému reprezentantovi je přisouzena určitá váha). Při sestavování souboru reprezentantů nejprve definujeme relativně homogenní skupiny produktů (např. potraviny, bydlení apod.) a v rámci každé skupiny pak vybereme produkt, který v dané skupině považujeme za typický. Zároveň u něj předpokládáme stabilitu cenového vývoje (tedy neočekáváme náhlé cenové výkyvy) i to, že se nepřestane brzy vyrábět a prodávat. Máme-li sestavený soubor reprezentantů, přidělíme každému reprezentantovi váhu celé skupiny produktů, které zastupuje. Sestavíme tak váhový systém indexu spotřebitelských cen. Index spotřebitelských cen se v současné době v ČR počítá na základě zjišťování cen u cca 700 reprezentantů. Podíváme-li se na trend počtu reprezentantů v čase, můžeme si všimnout téměř trvalého poklesu (např. před rokem 1990 obsahoval soubor 1350 reprezentantů, do roku 1994 jich bylo 1 060; od druhé poloviny 90. let 20. století se počet reprezentantů pohyboval mezi 700-800). Váhy jednotlivých reprezentantů jsou odvozeny ze struktury výdajů domácností zaměstnanců, zemědělců, podnikatelů, osob samostatně výdělečně činných a důchodců, zjištěných na základě statistiky rodin- 382 Metody statistického srovnávání ných účtů a doplňkových šetření. V současné době je využíván váhový systém, vycházející ze struktury spotřeby domácností v roce 2014. Tab. 6.18 Spotřební koš ČR 2018 Skupina produktů Počet reprezentantů Váhy v% 1999 2005 2010 2012 2014 2016 Potraviny, nealko-nápoje 159 19,8 16,3 15,0 17,1 18,1 17,7 Alkoholické nápoje, tabák 23 7,9 8,2 9,6 9,5 9,3 9,2 Odívání, obuv 65 5,7 5,2 3,6 3,3 3,9 4,2 Bydlení, voda, energie, palivo 41 23,6 24,8 28,0 26,5 25,1 25,7 Zařízení domácnosti, opravy 79 6,8 5,8 5,8 6,1 5,8 5,8 Zdraví 18 1,4 1,8 2,3 2,4 2,3 2,5 Doprava osobní a veřejná 87 10,1 11,4 10,5 10,1 10,1 10,2 Pošty a telekomunikace 8 2,3 3,9 3,6 3,1 3,1 2,9 Rekreace a kultura 108 9,6 9,9 9,0 8,8 9,0 8,6 Vzdělání 12 0,4 0,6 0,8 0,7 0,6 0,6 Stravování a ubytování 42 7,4 5,8 4,9 5,6 5,8 5,9 Ostatní zboží a služby 50 5,0 6,3 6,9 6,8 6,9 6,7 Celkem 692 100,0 100,0 100,0 100,0 100,0 100,0 Zdroj: www.czso.cz Soubor reprezentantů a váhový systém indexu spotřebitelských cen nazýváme spotřebním košem. Váhový systém se stanoví na základě údajů vztahujících se k základnímu období. Vývoj struktury spotřeby si nicméně vynucuje úpravy reprezentantů i váhového systému. Tyto změny se tradičně prováděly jednou za delší období (přibližně 5 let) s tím, že při průběžných změnách by cenové indexy ztrácely vypovídací schopnost a vzájemnou srovnatelnost. Ve vyspělých zemích se revize souboru reprezentantů a váhového systému prováděly pravidelně přibližně každých pět let. Poslední revize českého indexu spotřebitelských cen proběhla v roce 2015 s tím, že předchozí „generace" cenových indexů v ČR byly platné v letech 1995-2000, 2001-2006, 2007-2011, 2012-2015. Přechod z jedné generace cenových indexů na novou s sebou přirozeně nesl nutnost přepočtu „starých" indexů na „nové". To se provádělo pomocí oficiálních převodních můstků, které každý statistický úřad publikoval. Přepočtem starých indexů na nové byla pak zajištěna časová řada srovnatelných hodnot indexu spotřebitelských cen. Od roku 2015 se spotřební koš v ČR aktualizuje pravidelně v kratších intervalech, váhový systém každé dva roky a soubor reprezentantů každý rok. V roce 2018 obsahoval soubor reprezentantů celkem 692 produktů a váhový systém pocházel z šetření v roce 2016 (viz tabulka 6.18). Srovnatelnost indexů spotřebitelských cen se zajišťuje metodou řetězení na průměr roku 2015. Dalším problémem, který je třeba vyřešit, je určení místa zjišťování každého reprezentanta, tzn. určení sítě zpravodajských jednotek. Za zpravodajskou jednotku Statistika v ekonomii 383 považujeme organizační jednotku, v níž šetříme cenu reprezentantů. Tuto síť vybíráme, stejně jako soubor reprezentantů, metodou záměrného výběru. Důvodem je, kromě neexistence opory výběru, tj. seznamu všech v úvahu připadajících jednotek, zejména skutečnost, že ceny jsou ovlivněny celou řadou faktorů (polohou obce, velikostí obce, druhem vlastnictví zpravodajské jednotky, velikostí zpravodajské jednotky, šíří sortimentu prodávaného zpravodajskou jednotkou, způsobem prodeje apod.). Soubor proto volíme tak, aby v něm byly zastoupeny všechny typy jednotek. Zjišťování provádějí speciálně školení pracovníci statistické služby v okresech České republiky; na kvalitě pracovníků provádějících šetření závisí do značné míry kvalita výsledného cenového indexu. Ceny centrálně regulované a ceny celostátně jednotné (ceny pošt a poštovních služeb, rozhlasový a televizní poplatek) se zjišťují přímo v příslušných organizacích. Zodpovězení otázky, jak často se má provádět cenové šetření, tj. určení periodicity zjišťování, záleží na rychlosti vývoje cen a na finančních prostředcích, které jsou pro příslušné šetření k dispozici. Čím vyšší je tempo růstu cen, tím častěji by šetření mělo probíhat. Při stabilním cenovém vývoji postačí měsíční šetření, při hyperinflaci je třeba šetřit cenové změny každý den. V České republice probíhá šetření jedenkrát měsíčně, vždy kolem 15. dne v měsíci, přičemž rychle se měnící ceny jsou šetřeny třikrát měsíčně (což se týká například ovoce a zeleniny). Institucí, odpovědnou za metodiku cenových indexů, sledování vývoje cen a publikování odpovídajících údajů, je v každé zemí centrální statistický úřad (v ČR Český statistický úřad). V souvislosti s růstem cen ve sféře spotřeby se často mluví i o indexu životních nákladů. Indexy životních nákladů jsou variantou indexu spotřebitelských cen pro různé skupiny domácností. Liší se tedy především strukturou vah; v úvahu však mohou připadat i zdůvodněné změny v souboru reprezentantů. V ČR se v současné době sestavují indexy životních nákladů ■ pro domácnosti důchodců, kde struktura vah je odvozena od struktury výdajů domácností důchodců, ■ pro domácnosti žijící v Praze, kde váhové schéma je odvozeno od struktury výdajů domácností žijících v Praze. Rozdíly ve struktuře vah mezi jednotlivými skupinami domácností vyplývají z rozdílných ekonomických a životních podmínek, které se následně odrážejí v rozdílné struktuře spotřebních výdajů těchto skupin domácností. 6.5.2 Měření inflace Na výpočet indexu spotřebitelských cen bezprostředně navazuje ukazatel nazývaný míra inflace. Mírou inflace se rozumí úhrnná změna cenové hladiny, vyjádřená relativním přírůstkem (v %) odpovídajícím indexu spotřebitelských cen. Změnu cenové hladiny posuzujeme ve srovnání s určitým dřívějším obdobím. Český statistický úřad každý měsíc publikuje údaj, vyjadřující 384 Metody statistického srovnávání ■ měsíční míru inflace, ■ meziroční (měsíční) míru inflace, ■ průměrnou roční míru inflace. K výpočtu míry inflace za různá časová období se využívají bazické indexy spotřebitelských cen (bází je nyní průměr roku 2015) za domácnosti celkem. Měsíční míra inflace Měsíční míra inflace vypovídá o procentní změně cenové hladiny ve sledovaném měsíci oproti měsíci bezprostředně předcházejícímu. Konstruujeme ji podle vztahu / M, - 1 I t Wi j •100, (6.63) kde /(je bazický index spotřebitelských cen ve sledovaném měsíci / a je bazický index spotřebitelských cen v měsíci předcházejícím; báze je v obou případech stejná (konkrétně průměr roku 2015). Meziroční (měsíční) míra inflace Obdobně přistupujeme ke konstrukci meziroční (měsíční) míry inflace. Tento ukazatel vypovídá o procentní změně cenové hladiny ve sledovaném měsíci ve srovnání s týmž měsícem předchozího roku. Konstruujeme jej podle vztahu M. = 100, (6.64) kde L je bazický index spotřebitelských cen ve sledovaném měsíci a It-u je bazický index spotřebitelských cen ve stejném měsíci předcházejícího roku; báze je v obou případech stejná (konkrétně průměr roku 2015). Takto konstruovaná míra inflace je využívána k valorizaci okamžikových ukazatelů (hodnoty majetku a závazků) a při propočtech reálné úrokové míry. Průměrná roční míra inflace Ukazatel meziroční (měsíční) míry inflace (6.64) nezohledňuje, zda k cenovým změnám docházelo rovnoměrně během sledovaného dvanáctiměsíčního období, nebo zda došlo ke skokové změně na počátku či naopak na konci tohoto období. Přitom je zřejmé, že při stejné hodnotě meziroční (měsíční) míry inflace má každá ze situací odlišný dopad na spotřebitele (například při skokovém růstu cenové hladiny na počátku období nakupuje spotřebitel za vyšší ceny po celé období). Proto se konstruuje a každý měsíc zveřejňuje ukazatel roční míry inflace jako podíl prostého (aritmetického) průměai, resp. součtu bazických indexů v posledních 12 měsících a prostého (aritmetického) průměru, resp. součtu bazických indexů v předcházejících 12 měsících podle vztahu Stati štika v ekonomii 385 í ' \ j = t-u t-12 1 \ j='-23 ; •100, (6.65) kde Ij jsou opět příslušné bazické indexy spotřebitelských cen a t vyjadřuje měsíc, ve kterém průměrnou roční inflaci počítáme. Průměrná roční míra inflace je hodnotou ukazatele podle (6.65) vždy v prosinci každého roku. Průměrná roční míra inflace je využívána při valorizaci intervalových ukazatelů (mezd, důchodů, sociálních dávek, nájemného apod.). Příklad 6.15 V tabulce 6.19 jsou uvedeny hodnoty indexu spotřebitelských cen v ČR srovnávající úroveň cen v každém z uvedených měsíců k průměrné úrovni cen v roce 2015. Na základě těchto údajů můžeme za prosinec 2017 určit: a) měsíční míru inflace, b) meziroční (měsíční) míru inflace, c) průměrnou roční míru inflace za rok 2017 a porovnat ji s hodnotou meziroční měsíční míry inflace za prosinec 2017. Tab. 6.19 Bazické indexy spotřebitelských cen ČR (průměr roku 2015 _ 100) Rok Měsíc Průměr roku 1 2 3 4 5 6 7 8 9 10 11 12 2015 2016 2017 99,5 100,1 102,3 99,7 100,2 102,7 99,8 100,1 102,7 100,1 100,7 102,7 100.4 100.5 102,9 100.5 100.6 102,9 100,4 100,9 103,4 100.2 100,8 103.3 100,0 100,5 103,2 100,0 100,8 103,7 99,6 101,2 103,8 99,5 101,5 103,9 100.0 100,7 103.1 Zdroj: www.czso.cz Měsíční míra inflace, vyjadřující změnu cenové hladiny v prosinci 2017 proti předchozímu měsíci, je dle (6.63) rovna relativnímu přírůstku podílu bazického indexu v prosinci 2017 a v listopadu 2017, tj. Ml2a = 1,039 1,038 1 -100 = 0,1% a ukazuje, že ceny spotřeby vzrostly v prosinci 2017 proti listopadu 2017 o 0,1 %. Meziroční míra inflace, vyjadřující změnu cenové hladiny v prosinci 2017 proti stejnému období předchozího roku, je dle (6.64) rovna relativnímu přírůstku podílu bazického indexu v prosinci 2017 a v prosinci 2016, tj. 1,039 M, 12* 1,015 -1 -100 = 2,4%, 386 Metody statistického srovnávání a vyjadřuje, že v prosinci 2017 byly ceny spotřeby o 2,4 % vyšší než v prosinci 2016. Průměrná roční míra inflace je dle (6.65) rovna podílu průměru, resp. součtu bazických indexů za prosinec 2017 až leden 2017 a průměru, resp. součtu bazických indexů za prosinec 2016 až leden 2016, tj. f 1,039 +1,038 +1,037 +... +1,027 +1,023 ^ 1,015+ 1,012 +1,008+ ... + 1,002+ 1,001 •100 = 2,5%. Průměrná roční míra inflace v roce 2017 byla tedy 2,5 %. Tento výpočet zároveň ukazuje, že míra inflace za celý uplynulý rok je známa v okamžiku, kdy je k dispozici index spotřebitelských cen za prosinec daného roku, tj. již na začátku ledna roku následujícího. I když se odlišnost těchto hodnot v roce 2017 může jevit jako málo významná, nelze hodnotu meziroční měsíční inflace (zde 2,4 %) zaměňovat s hodnotou průměrné roční míry inflace (zde 2,5 %). Meziroční měsíční míra inflace v prosinci vyjadřuje změnu cen jen v prosinci daného roku oproti prosinci předcházejícího roku a není možné ji tedy považovat za průměrnou roční míru inflace zohledňující vývoje cen během celého roku. Tato skutečnost zvláště vynikne, pokud si analogické hodnoty určíme za rok 2016 a prosinec 2016. Průměrná roční míra inflace za rok 2016 činila 0,7 % a meziroční měsíční míra inflace v prosinci 2016 pak 2,0 %. ■ Zveřejňování údajů o míře inflace Míra inflace patří mezi tzv. citlivé informace, jejichž zveřejnění může mít značný dopad na chování ekonomických subjektů. Proto je na dlouhou dobu dopředu stanoven kalendář jejich zveřejňování. Hodnoty míry inflace zveřejňuje Český statistický úřad vždy šestý pracovní den po skončení sledovaného měsíce, tzn., že průměrná roční míra inflace za daný rok je známa již šestý pracovní den po skončení tohoto roku. Statistika v ekonomii 387 LITERATURA Anděl, J. (1978). Matematická statistika. Praha: SNTL. Anděl, J. (2013). Statistické metody, 4. vyd. Matfyzpress. Arit, J., Arltová, M. (2009). Ekonomické časové řady. Praha: Professional Publishing. Arit, J., Arltová, M., Rublíková, E. (2002). Analýza ekonomických časových řad s příklady. Praha: Oeconomica. Bolstad, W. M., Curran, J. M. (2017). Introduction to Bayesian Statistics, 3rd Edition. Wiley. Census Bureau. (2017). X-13ARIMA-SEATS Reference manual. U. S. Census Bureau . Cipra, T. (2008). Finanční ekonometrie. Praha: Ekopress. Hebák, P., Hustopecký, J., Malá, I, (2005). Vícerozměrné statistické metody (2). Praha: Informatorium. Hebák, P., Jarošová, E., Pecáková, L, Plašil, M., Řezanková, H., Vilikus, O., Vlach, P. (2013). Statistické myslení a nástroje analýzy dat. Praha: Informatorium. Hebák, P., Kahounová, J. (1983). Počet pravděpodobnosti v příkladech. Informatorium. Hyndman, R. J., & Athanasopoulos, G. (2017). Forecasting: Principles and Practice. OTexts, http://otexts.org/fpp2. Malá, I. (2013). Statistické úsudky. Praha: Professional Publishing. Malá, I. (2016). Vybrané kapitoly z teorie pravděpodobnosti a matematické statistiky. Praha: Oeconomica. Marek, L. (2012). Pravděpodobnost. Praha: Professional Publishing. Marek, L., Malá, L, Pecáková, L, Vrabec, M., Löster, T., Čabla, A. (2015). Statistika v příkladech. Praha: Professional Publishing. McDonald-Johnson, K., Monsell, B., Fescina, R., Feldpausch, R., Hood, C, & Wroblewski, M. (2006). Seasonal Adjustment Diagnostics: Census Bureau Guideline. Washington, DC: U.S. Census Bureau, U.S. Department of Commerce. Pecáková, I. (2011). Statistika v terénních průzkumech. Praha: Professional Publishing. Rao C. R. (1978). Lineární metody statistické indukce a jejich aplikace. Praha, Academia. Renyi A. (1972). Teorie pravděpodobnosti. Praha, Academia. Weiss, N. A. (2012). Elementary Statistics. Boston: Addison-Wesley. Statistika v ekonomii 389 REJSTŘÍK A ANOVA, 156, 179 Antimodus, 26 Aproximace, 88 Axiom pravděpodobnosti, 60 B Bayesova věta, 63 Č Časová řada, 243 dlouhodobá, 243 intervalová, 243 krátkodobá, 243 okamžiková, 243 s dlouhou pamětí, 330 s krátkou pamětí, 330 vysokofrekvenční, 244 Četnost, 21 absolutní, 22 absolutní kumulativní, 22 absolutní sdružená, 171 relativní, 22 relativní kumulativní, 22 relativní okrajová (marginální), 171 relativní podmíněná, 172 relativní sdružená, 171 relativní výběrová, 118 D Definice pravděpodobnosti geometrická, 59 klasická, 59 statistická, 59 Dekompozice, 253 aditivní, 255 multiplikativní, 255 Délka cyklu, 303 Diference druhá, 249 první, 249 sezónní, 250 Distribuční funkce, 64 marginální, 80 sdružená, 77 E Entropie, 50 normalizovaná, 51 Exponenciální vyrovnávání, 257, 291 Brownovo dvojité lineární, 294 Brownovo jednoduché, 291 Brownovo trojité, 298 Holtovo lineární, 299 Holtovo-Wintersovo sezónní, 321 Holtovo-Wintersovo sezónní aditivní, 322 Holtovo-Wintersovo sezónní multiplikativní, 326 Extrapolace, 210, 257 F Fourierova perioda, 303 Frekvence, 303 nerozlišitelnost, 304 Funkce regresní, 184 regresní exponenciální, 198 regresní hyperbolická, 197 regresní logaritmická, 197 regresní mocninná, 201 regresní polynomická, 194 reziduálni autokorelační, 266 390 Rejstřík G Graf bodový, 28 krabičkový, 29 sloupcový, 27 spojnicový, 25 výsečový, 28 H Histogram četností, 27 Hladina významnosti, 138 minimální, 139 Hromadný jev, 14 Hustota pravděpodobnosti, 67 marginální, 81 sdružená, 79 Hypotéza alternativní, 137 nulová (testovaná), 137 statistická, 136 výzkumná, 136 Ch Charakteristika výběrová, 116 základní, 115 Chyba druhého druhu, 138 průměrná, 264 průměrná absolutní, 264 průměrná absolutní procentuální, 264 průměrná čtvercová, 264 průměrná procentuální, 264 průměrná předpovědí ex post, 268 prvního druhu, 138 přípustná, 128 směrodatná, 122 střední čtvercová, 122 I Index, 342 analytický, 371 bazický, 345 časový, 342 determinace, 208 determinace upravený, 222 druhový, 342 Edgeworthův-Marshallův, 358 Fisherův, 358 Fisherův cenový, 361 Fisherův objemový, 365 hodnotový, 348 individuální jednoduchý, 344 individuální složený, 347 Laspeyresův, 357 Laspeyresův cenový, 359 Laspeyresův objemový, 364 Loweho, 358 Loweho cenový, 361 Loweho objemový, 365 Montgomeryho, 358 Paascheho, 357 Paascheho cenový, 360 Paascheho objemový, 364 proměnlivého složení, 348 prostorový, 342 řetězový, 345 sezónní, 317 souhrnný jednoduchý, 359 souhrnný složený, 366 spotřebitelských cen, 380 životních nákladů, 383 Interakce, 234 Interpolace, 210 Interval spolehlivosti, 120 spolehlivosti jednostranný, 124 spolehlivosti levostranný, 124 Statistika v ekonomii 3 91 spolehlivosti oboustranný, 124 spolehlivosti pravostranný, 124 J Jednotka statistická, 15 zpravodajská, 18 K Koeficient Cramérův, 175 diferenciace poměrový, 46 kontingence Pearsonův, 175 korelační, 82, 190 korelační dílčí, 192, 238 korelační párový, 235 korelační Spearmanův, 193 korelační vícenásobný, 239 regresní dílčí, 218 růstu, 249 růstu meziroční, 250 růstu průměrný, 249 spolehlivosti, 123 variační, 44 Koš spotřební, 382 Kovariance, 41, 82 Kritérium extrapolační, 268 interpolační, 263 testové, 137 Kritická hodnota, 139 Kvantily, 29 decily, 30 kvartily, 30 percentily, 30 L Limitní věta, 104 Bernoulliova, 106 centrální limitní, 105, 107 Čebyševova, 106 Lindebergova - Lévyho, 107 Moivreova - Laplaceova4108 zákon velkých čísel, 105 M Matice korelační, 83 korelační výběrová, 228 regresní, 195 Medián, 30 Metoda adaptivní, 283, 291 logaritmická, 375 nejmenších čtverců, 185 postupných změn, 372 výběru kroková, 231 Míra inflace, 383 Míry dynamiky, 249 Model ADL, 332 dynamické regrese, 331 empirický, 257 konstantní sezónnosti, 319 korekce chyby, 332 regresní klasický, 204 statické regrese, 331 teoretický, 256 Modus, 26 Multikolinearita, 228 N Náhodná veličina, 63 diskrétní (nespojitá), 65 kovariance, 71 kvantily, 73 medián, 74 modus, 74 momenty, 72 392 Rejstřík momenty centrální, 72 momenty obecné, 72 nezávislost, 83 pravděpodobnostní funkce sdružená, 78 p-rozměrná, 77 rozptyl, 70, 81 spojitá, 67 střední hodnota, 69, 81 šikmost, 75 špičatost, 76 Náhodný jev, 54 disjunktní (neslučitelný), 55 doplňkový, 54 elementární, 56 implikace, 56 jistý, 54 nemožný, 54 nezávislý, 61 průnik, 55 rozdíl, 55 sjednocení, 54 Náhodný pokus, 53 Náhodný vektor, 77 diskrétní, 78 hustota pravděpodobnosti, 79 kovarianční matice, 81 pravděpodobnostní funkce, 78 spojitý, 79 střední hodnota, 81 středních hodnot, 81 Non-response, 114 Normální rovnice, 186 O Obor kritický, 137 přijetí, 137 Odhad, 119 asymptoticky nezkreslený, 123 bodový, 120 intervalový, 120 konzistentní, 122 nezkreslený, 121 vydatný, 123 Odchylka decilová, 43 kvartilová, 43 kvartilová relativní, 45 percentilová, 43 sezónní, 312 směrodatná reziduálni, 208 Opora výběru, 18 P Panel, 19 Periodogram, 304 p-hodnota, 139 Polygon četností, 25 Poměr determinace, 181 variační, 50 Populace cílová, 16 základní, 109 Pravděpodobnost, 58 podmíněná, 61 úplná, 61 Pravděpodobnostní funkce, 65 marginální, 80 sdružená, 80 Proměnná dummy, 232 kategoriální, 170 sezónní umělá, 312 statistická, 16 vysvětlovaná, 184 vysvětlující, 184 Prostor elementárních jevů, 56 Průměr, 31 Statistika v ekonomii 393 aritmetický, 31, 247 aritmetický prostý, 32 aritmetický vážený, 32 geometrický, 35 geometrický prostý, 35 geometrický vážený, 35 harmonický, 34 harmonický prostý, 34 harmonický vážený, 34 chronologický, 247 chronologický prostý, 247 chronologický vážený, 247 klouzavý, 257, 283 klouzavý centrovaný, 288 klouzavý jednoduchý, 284 klouzavý vážený, 286 kvadratický, 36 kvadratický prostý, 36 kvadratický vážený, 36 skupinový, 41 Předpověď, 257 bodová, 257 ex ante, 258 ex post, 258, 268 horizont předpovědi, 258 intervalová, 257, 259 práh predikce, 258 s minimální střední čtvercovou chybou, 258 Přímka posunutí, 184 regresní sdružená, 189 směrnice, 184 Přírůstek absolutní, 249 meziroční absolutní, 250 průměrný absolutní, 249 průměrný relativní, 249 relativní, 249 R Regrese kointegrační, 332 nesmyslná, 332 pravá, 332 zdánlivá, 332 Rezidua, 263 Reziduum, 186, 205 Rozdělení alternativní, 85 binomické, 85 četností, 21 četností intervalové, 24 diskrétní rovnoměrné, 66 exponenciální, 97 Fisherovo - Snedecorovo, 103 hypergeometrické, 90 chí-kvadrát, 99 logaritmicko - normální, 96 marginální, 80 normální, 92 normované normální, 94 podmíněné, 84 Poissonovo, 87 pravděpodobnosti, 63 pravděpodobnosti sdružené, 77 rovnoměrné diskrétní, 89 rovnoměrné spojité, 91 spojité symetrické, 76 Studentovo ŕ, 101 Rozpětí decilové, 44 kvartilově, 43 percentilové, 44 variační, 24, 38 Rozptyl, 38, 72 nominální, 50 nominální normalizovaný, 51 ordinální, 48 394 Rejstřík ordinální normalizovaný, 49 reziduálni, 208 rozklad, 42 skupinový, 41 výběrový, 123 výpočtový, 38 S Sezónní očištění, 302, 328 Síla testu, 138 Složka cyklická, 253 náhodná, 204 nesystematická, 253, 257 sezónní, 253, 302 trendová, 253 Směrodatná odchylka, 39 náhodné veličiny, 70 výběrového souboru, 117 základního souboru, 117 Soubor reprezentantů, 381 statistický, 16 statistický výběrový, 16 statistický základní, 16 výběrový, 110 základní, 109 Součet čtverců celkový, 156 mezi skupinami, 156 reziduálni, 264 uvnitř skupin, 156 Spolehlivost, 123 Stabilita relativních četností, 58,105 Statistika, 116 testová, 137 Stochastický proces, 256, 330 bílého šumu, 257 endogenní, 331 exogénni, 331 integrovaný řádu jedna, 1(1), 330 integrovaný řádu nula, 1(0), 330 náhodné procházky, 33Q nestacionární, 330 stacionární, 330 T Tabulka kontingenční, 171 korelační, 171 rozdělení četností, 21 Tempo růstu, 249 průměrné, 249 Test autokorelace Durbinův-Watsonův, 265 Bartlettův, 160 diagnostické kontroly modelu, 265 dobré shody, 161 F-test, 151 hypotéz, 119 chí-kvadrát nezávislosti, 177 o korelačním koeficientu, 239 o regresním modelu, 210 o regresním parametru, 209 předpovědí Chowův, 268 sezónnosti F, 309 t-test dvouvýběrový, 148 t-test jednovýběrový, 142 t-test párový, 150 Transformace linearizující, 197, 262 Trendová funkce, 259 exponenciální, 262 exponenciální modifikovaná, 262 konstantní, 260 kvadratická, 261 lineární, 260 logistická, 262 Třídění, 21 dvourozměrné, 171 Statistika v ekonomii 395 U Úhrn výběrový, 118 Ukazatel, 337 absolutní, 339 extenzitní, 339 intenzitní, 339 intervalový, 340 okamžikový, 340 primární, 339 relativní, 339 sekundární, 339 shrnovatelnost, 341 srovnatelnost, 341 stejnorodost, 340 syntetický, 371 V Váhový systém, 381 Variabilita, 37 kategoriálního znaku, 50 mezisezónní, 309 meziskupinová, 41 míry absolutní, 37 míry relativní, 44 reziduálni, 309 vnitroskupinová, 42 Věta o úplné pravděpodobnosti, 62 Výběr dvoustupňový, 113 kvótní, 19, 114 náhodný, 18,110 náhodný nezávislý, 148 náhodný závislý, 148 nepravděpodobnostní, 19 opora, 112 pravděpodobnostní, 18 prostý náhodný, 110 s vracením, 115 skupin, 113 systematický, 112 typický, 113 úsudkový, 113 Výzkum kvantitativní, 112 Vzorek, 110 reprezentativní, 18 Z Závislost deterministická, 169 jednostranná, 184 volná, 169 Zjišťování výběrové, 109 vyčerpávající, 109 Zkouška okružnosti, 361 Znak alternativní, 15 diskrétní, 16 kategoriální, 15 kvalitativní, 15 kvantitativní, 15 měřitelný, 15 množný, 15 nespojitý, 16 pořadový, 15 spojitý, 16 statistický, 15