Téma č. 12: Úvod do analýzy časových řad Příklad 1.: Časová řada vyjadřuje počet obyvatelstva ČSSR (v tisících) v letech 1965 až 1974 vždy ke dni 31.12. Rok 1965 1966 1967 1968 1969 1970 1971 1972 1973 1974 počet 14194 14271 14333 14387 14443 14345 14419 14576 14631 14738 Charakterizujte tuto časovou řadu chronologickým průměrem. Řešení: Načteme datový soubor obyvatele_CSSR.sta o 11 proměnných a jednom případu. Do Dlouhého jména poslední proměnné napíšeme =(v1/2+sum(v2:v9)+v10/2)/9 Dostaneme výsledek 14430,11. Příklad 2.: Pro časovou řadu HDP ČR v letech 1994 až 2000 (v miliardách Kč) vypočtěte základní charakteristiky dynamiky a graficky znázorněte relativní přírůstky a koeficienty růstu. Řešení: Načteme datový soubor HDP. sta. Výpočet 1. diferencí: pro i = 2,...,n Statistiky – Pokročilé lineární/nelineární modely – Časové řady/predikce – Proměnné Y – OK – OK (transformace, autokorelace, kříž. korelace, grafy) – Oddělit-sloučit - OK (transformovat vybrané řady) – vykreslí se graf. Vrátíme se do Transformace proměnných – Uložit proměnné. Otevře se nové datové okno, kde v proměnné HDP_1 jsou uloženy 1. diference. HDP HDP_1 1 1303,600 2 1381,100 77,500 3 1447,700 66,600 4 1432,800 -14,900 5 1401,300 -31,500 6 1390,600 -10,700 7 1433,800 43,200 Výpočet relativních přírůstků: pro i = 2,...,n Vrátíme se do Transformace proměnných – označíme proměnnou, kterou chceme transformovat (HDP) – vybereme Posun – OK, (Transformovat vybrané řady) – vykreslí se graf. Vrátíme se do Transformace proměnných – Uložit proměnné. Tato transformovaná veličina se uloží do tabulky pod názvem HDP_1 (proměnná s 1. diferencemi se přejmenuje na HDP_2). Přidáme novou proměnnou RP a do jejího Dlouhého jména napíšeme vzorec =HDP_2/HDP_1. Výpočet koeficientů růstu: pro i = 2,...,n Do tabulky přidáme proměnnou KR a do jejího Dlouhého jména napíšeme vzorec =HDP/HDP_1. Získáme tabulku HDP HDP_2 HDP_1 RP KR 1 1303,600 2 1381,100 77,500 1303,600 0,059451 1,059451 3 1447,700 66,600 1381,100 0,048222 1,048222 4 1432,800 -14,900 1447,700 -0,010292 0,989708 5 1401,300 -31,500 1432,800 -0,02198 0,978015 6 1390,600 -10,700 1401,300 -0,00764 0,992364 7 1433,800 43,200 1390,600 0,031066 1,031066 8 1433,800 Pomocí Grafy - 2D Grafy – Spojnicové grafy (Proměnné) vykreslíme průběh relativních přírůstků a koeficientů růstu. Graf relativních přírůstků Graf koeficientů růstu Průměrný absolutní přírůstek a průměrný koeficient růstu vypočteme na kalkulačce pomocí vzorců a . Příklad 3.: Je dána časová řada potratů (v tisících) v ČR v letech 1986 až 1996: 99,5 126,7 129,3 126,5 126,1 120,1 109,3 85,4 67,4 61,6 60. Předpokládejte, že tato časová řada má kvadratický trend. Odhadněte parametry trendové funkce. Vypočtěte index determinace ID^2. Proveďte celkový F-test. (Popis celkového F- testu: Na hladině významnosti α testujeme H[0]: proti H[1]: , přičemž p je počet odhadovaných regresních parametrů (bez parametru β[0]) (Nulová hypotéza říká, že dostačující je model konstanty.) Testová statistika má rozložení F(p, n-p-1), pokud H[0] platí. Přitom je reziduální součet čtverců a je regresní součet čtverců, kde . Kritický obor: . H[0] zamítáme na hladině významnosti α. Proveďte dílčí t-testy. (Popis dílčích t-testů: Na hladině významnosti α pro j = 0,1, ..., p testujeme hypotézu H[0]: β[j] = 0 proti H[1]: βj ≠ 0. Testová statistika: [j] má rozložení t(n-p-1), pokud H[0] platí. Přitom je směrodatná chyba odhadu b[j]. Kritický obor: . H[0] zamítáme na hladině významnosti α.) Ověřte normalitu reziduí. Sestrojte 95% intervaly spolehlivosti pro parametry trendové funkce. (Vzorec pro meze 100(1- α)% intervalu spolehlivosti pro β[j]: ) Stanovte střední absolutní procentuální chybu predikce (MAPE). MAPE se počítá podle vzorce . Graficky znázorněte průběh časové řady s odhadnutým trendem, 95% pásem spolehlivosti a 95% predikčním pásem. Řešení: Načteme datový soubor potraty.sta. Pro lepší orientaci znázorníme časovou řadu graficky. Grafy – Bodové grafy – Proměnné X ROK, Y POCET – OK – vypneme Lineární proložení– OK. Formát – Všechny možnosti – Graf: Obecné – zaškrtneme Spojnice – OK. Vznikne spojnicový diagram. Trendová funkce Odhady parametrů: Statistiky – Vícenásobná regrese – Proměnné Závislé, Nezávislé t, tkv - OK Odhadnutá trendová funkce má tedy tvar: , kde t = 1, …, 11. Index determinace je 0,884, tedy kvadratická trendová funkce vysvětluje variabilitu dané časové řady z 88,4%. Testová statistika celkového F-testu je 30,449, p-hodnota je blízká 0, tedy na hladině významnosti 0,05 zamítáme hypotézu o nevýznamnosti modelu jako celku. Všechny tři dílčí t-testy mají p-hodnoty menší než 0,05, tedy na hladině významnosti 0,05 zamítáme hypotézy o nulovosti parametrů β[0], β[1], β[2]. Ověření normality reziduí: Na záložce Rezidua/předpoklady/předpovědi zvolíme Reziduální analýza – Uložit – Uložit rezidua & předpovědi. Sestrojíme N-P plot reziduí a současně provedeme S-W test: S-W test poskytuje p-hodnotu 0,333, tedy na hladině významnosti 0,05 nezamítáme hypotézu o normalitě reziduí. Sestrojení 95% intervalů spolehlivosti pro parametry trendu: Ve výstupní tabulce výsledků regrese přidáme za proměnnou Úroveň p dvě nové proměnné dm (pro dolní meze 95% intervalů spolehlivosti) a hm (pro horní meze 95% intervalů spolehlivosti). Do Dlouhého jména proměnné dm resp. hm napíšeme: =v3-v4*VStudent(0,975;8) resp. =v3+v4*VStudent(0,975;8) Vidíme, že 76,32 < β[0] < 130,16 s pravděpodobností aspoň 0,95, 0,64 < β[1] < 21,26 a -2,31< β[2] < -0,64 s pravděpodobností aspoň 0,95. Výpočet MAPE: Ve výsledcích Vícenásobné regrese zvolíme záložku Rezidua / předpoklady / předpovědi – Reziduální analýza – Uložit – Uložit rezidua a předpovědi – Vybrat vše – OK. Ve vzniklé tabulce odstraníme proměnné 7 – 12, přidáme proměnnou chyby a do jejího Dlouhého jména napíšeme =100*abs(v6/v2). Pak spočteme průměr této proměnné a zjistíme, že MAPE = 9,21%. Graf časové řady s proloženým kvadratickým trendem získáme takto: Grafy – Bodové grafy – Proměnné X ROK, Y POCET – OK – Detaily Proložení Polynomiální. Ve vytvořeném grafu 2x klikneme na pozadí, vybereme Graf: Regresní pásy – Přidat nový pár pásů – Typ Spolehlivostní – OK. Totéž provedeme ještě jednou a nyní zaškrtneme Typ Predikční. Příklad 4.: Máme k dispozici údaje o počtu bytů předaných do užívání v Československu v letech 1960 až 1970: 73 766 86 032 85 221 82 189 77 301 77 818 75 576 79 297 86 571 85 656 112 135. Odhadněte trend této časové řady pomocí klouzavých průměrů s vyhlazovacím okénkem šířky 5 a graficky znázorněte. Řešení: Načteme datový soubor byty.sta o dvou proměnných ROK a POCET a jedenácti případech. Statistiky – Pokročilé lineární/nelineární modely – Časové řady/predikce – Proměnné POCET – OK– OK (transformace, autokorelace, kříž. korelace, grafy) – Vyhlazování – zaškrtneme N-bod. klouzavý průměr, N = 5 – OK (Transformovat vybrané řady) – vykreslí se graf, vrátíme se do Transformace proměnných – Uložit proměnné. Otevře se nový spreadsheet, kde v proměnné POCET_1 jsou uloženy klouzavé průměry pro N = 5. Proměnnou POČET_1 okopírujeme do původního datového souboru do nové proměnné KP5 (pozor – roky 1960, 1961, 1969 a 1970 nemají přiřazený odhad). Pomocí Grafy – Bodové grafy – Vícenásobný graf vytvoříme graf časové řady počtu bytů s odhadnutým trendem.