Stochastické modely časových řad RNDr. Marie Forbelská, Ph.D. Ústav matematiky a statistiky Přírodovědecká fakulta Masarykovy univerzity Brno Podzimní semestr šk. roku 2011/2012 KAPITOLA 1 Teoretické základy náhodných procesů 1. Úvod V praktickém životě se setkáváme s velkým množstvím náhodných jevů, které se uskutečňují v čase. Matematickým modelem těchto jevů mohou být náhodné procesy. Obrázek 1. Ilustrativní obrázek Pojem náhodného procesu je zobecněním pojmu náhodné veličiny. Zatímco náhodná veličina je reálná funkce jedné proměnné – elementárního jevu, je náhodný proces reálnou funkcí dvou proměnných – elementárního jevu a jedné reálné proměnné. Tou obvykle bývá čas. K nejstarším záznamům ve tvaru časových řad patří astronomická pozorování. Grafická znázornění časových řad v podobě, na kterou jsme zvyklí teď, se začala objevovat na počátku 19. století (např. záznamy zemědělské produkce - známá Beveridgeova řada popisující cenový index pšenice v západní Evropě v letech 1500-1869). V praktických situacích se setkáváme s mnoha náhodnými procesy. Například ve fyzikálních a technických vědách: seismický záznam v geofyzice, řada nejvyšších denních teplot v meterologii, průběh výstupního signálu určitého elektrického přístroje, tenzometrické měření povrchového napětí v provozu namáhané strojní součástky, změny v tloušťce drátu v průběhu jeho délky, změny v počtu výzev na určité telefonní lince, atd.; v biologických vědách: sledování různých parametrů znečištění ovzduší, EEG, EKG záznamy v medicině, procesy množení (např. bakterií), apod. ve společenských vědách: změny v počtu obyvatelstva, procesy mortality a invalidity obyvatelstva, aj.; vekonomice změny poptávky po určitém výrobku, analýza vývoje kursu akcií na burze, 1 2 M5201 Stochastické modely časových řad objem zemědělské produkce, počet čekajících v letecké dopravě, atd. Tyto procesy, napohled rozmanité, lze jednotně popsat matematickým pojmem náhodného (stochastického) procesu. Ta část matematické statistiky, která se zmíněnými procesy zabývá, se také nazývá statistickou dynamikou. Cílem analýzy náhodných procesů je konstrukce odpovídajícího modelu, což umožní porozumět mechanismu, na jehož základě jsou generovány sledované údaje. Znalost modelu dále umožňuje předpovídat budoucí vývoj a je-li možné řídit a optimalizovat činnost příslušného systému (vhodnou volbou vstupních parametrů a počátečních podmínek). 2. Definice náhodného procesu Definice 2.1. Nechť je dán pravděpodobnostní prostor (Ω,A,P), indexová množina T ⊆ R a reálná funkce X Ω × T → R definovaná pro ∀ω ∈ Ω a ∀t ∈ T. Jestliže pro ∀t ∈ T je X(ω,t) borelovsky měřitelná funkce vzhledem k A (tj. pro ∀B ∈ B,∀t ∈ T platí X−1(B) = {ω ∈ Ω X(ω,t) ∈ B} ∈ A, kde B je σ-algebra borelovských podmnožin), pak tuto funkci nazýváme (n-rozměrným) náhodným procesem. Náhodný proces X(ω,t) při pevném ω ∈ Ω se nazývá realizace (trajektorie) procesu. Pravděpodobnostní míru PX(B) = P(X−1(B)) nazýváme rozdělení pravděpodobností náhodného procesu X(ω,t). Poznámka 2.2. Obdobně jako u náhodných veličin, kdy místo X(ω),ω ∈ Ω píšeme pouze X, u náhodných procesů místo {X(ω,t),ω ∈ Ω,t ∈ T} píšeme {Xt,t ∈ T}. Definice 2.3. Pokud indexová množina T = Z = {0,±1,±2,...} nebo T ⊂ Z, mluvíme o procesu s diskrétním časem nebo o časové řadě či náhodné posloupnosti. Pokud indexová množina T = ⟨t1,t2⟩, kde −∞ ≤ t1 < t2 ≤ +∞, říkáme, že {Xt,t ∈ T} je náhodný proces se spojitým časem. Dvojice (S,S), kde S je množina hodnot náhodných veličin Xt a S je σ-algebra podmnožin S, se nazývá stavový prostor procesu {Xt,t ∈ T}. Pokud náhodné veličiny Xt nabývají pouze diskrétních hodnot, říkáme, že jde o proces s diskrétními stavy. Nabývá-li hodnot z nějakého intervalu, mluvíme o procesu se spojitými stavy. Rozdělení pravděpodobností PX náhodného procesu {Xt,t ∈ T} jednoznačně definuje rozdělení každého n-rozměrného náhodného vektoru X = (Xt1 ,...,Xtn )′, kde t1,...,tn jsou libovolné body z množiny T. Definice 2.4. Nechť Tn je množina všech vektorů Tn = {t = (t1,...,tn)′ t1 ≤ t2 ≤ ⋯ ≤ tn;ti ∈ T;i = 1,...,n}. Pak (konečně dimenzionální) distribuční funkcí náhodného procesu rozumíme funkci Ft(x) = Ft1,...,tn (x1,...,xn) = P(Xt1 ≤ x1,...,Xtn ≤ xn) = PXt ((−∞,x1 >,...,(−∞,xn >) pro ∀t = (t1,...,tn)′ ∈ Tn a ∀x = (x1,...,xn)′ ∈ Rn. Pro různá n a pro různé hodnoty t1,...,tn dostáváme celý systém distribučních funkcí, označme jej F, který nemůže být úplně libovolný, ale zřejmě musí splňovat tzv. Kolmogorovy podmínky konzistence (K1) Podmínka symetrie: pro libovolnou permutaci i1,...,in čísel 1,...,n platí Fti1 ,...,tin (xi1 ,...,xin ) = Ft1,...,tn (x1,...,xn). (K2) Podmínka konzistence: Ft1,...,tn,tn+1 (x1,...,xn,∞) = Ft1,...,tn (x1,...,xn). RNDr. Marie Forbelská, Ph.D. 3 Každému náhodnému procesu lze tedy přiřadit konzistentní systém distribučních funkcí. K danému konzistentnímu systému distribučních funkcí existuje vždy takový náhodný proces, že jeho systém distribučních funkcí je totožný se zadaným systémem, což říká následující věta, kterou uvedeme bez důkazu (lze najít v knize Neubrunn, Riečan, 1981, [41]). Věta 2.5. Kolmogorova věta K systému distribučních funkcí, které splňují Kolmogorovy podmínky konzistence, existuje pravděpodobnostní prostor (Ω,A,P) a náhodný proces {Xt,t ∈ T} tak, že F je jeho systémem distribučních funkcí. 3. Stochastické procesy druhého řádu 3.1. Striktní a slabá stacionarita. Definice 3.1. Řekneme, že náhodný proces {Xt,t ∈ T} je striktně stacionární, jestliže pro ∀t = (t1,...,tn) ∈ Tn a pro ∀τ = (t1 + h,...,tn + h) ∈ Tn platí Ft(x) = Ft1,...,tn (x1,...,xn) = Fτ1,...,τn (x1,...,xn) = Fτ (x). Rovnost lze interpretovat tak, že základní pravděpodobnostní charakteristiky procesu se nemění při posunutí v čase. Definice 3.2. Existuje-li pro ∀t ∈ T střední hodnota EXt, pak nazýváme funkci µt = EXt střední hodnotu náhodného procesu. Definice 3.3. Náhodný proces {Xt,t ∈ T} nazýváme procesem druhého řádu, jestliže pro ∀t ∈ T platí EX2 t < ∞ a říkáme, že náhodný proces má konečné druhé momenty. Poznámka 3.4. Pokud EX2 t < ∞, pak ze Schwarzovy nerovnosti plyne E Xt ≤ (E 1 2 ⋅ E Xt 2) 1 2 = (E Xt 2) 1 2 < ∞, tj. existuje střední hodnota EXt = µt a rozptyl DXt = EX2 t − (EXt)2 = σ2 t . Definice 3.5. Uvažujme náhodný proces {Xt,t ∈ T}, který má konečné druhé momenty. Pak funkci γ(s,t) = C(Xs,Xt) = E(Xs − EXs)(Xt − EXt) nazveme autokovarianční funkcí a funkci ρ(s,t) = C(Xs,Xt) √ DXsDXt = γ(s,t) √ γ(s,s)γ(t,t) nazveme autokorelační funkcí. Poznámka 3.6. Tyto reálné funkce dvou proměnných dávají informaci o lineárním vztahu mezi jakoukoliv dvojicí náhodných veličin Xs a Xt. Autokavariační funkce nabývá hodnoty od mínus do plus nekonečna a její velikost závisí na měrných jednotkách náhodných veličin. Naproti tomu autokorelační funkce je normovanou autokovariancí, nabývá hodnot od mínus jedné do jedné a není závislá na měrných jednotkách. Definice 3.7. Náhodný proces {Xt,t ∈ T} nazýváme stacionární ve střední hodnotě, pokud pro ∀t ∈ T je střední hodnota konstantní, tj. EXt = µ. Pokud EXt = 0, náhodný proces nazýváme centrovaným. Náhodný proces {Xt,t ∈ T} se nazývá kovariančně stacionární, pokud pro ∀t,s ∈ T platí γ(s,t) = γ(0, s − t ) což budeme také psát ve formě γ(s,t) = γ(s − t), tj. autokovarianční funkce závisí na svých argumentech pouze prostřednictvím jejich rozdílů. 4 M5201 Stochastické modely časových řad Náhodný proces {Xt,t ∈ T} se nazývá (slabě) stacionární, je-li stacionární ve střední hodnotě a kovariančně stacionární. Poznámka 3.8. Bez újmy na obecnosti můžeme pracovat s centrovanými náhodnými procesy, neboť pro libovolná reálná čísla a,b ∈ R platí C(Xs + a,Xt + b) = E[(Xs + a) − E(Xs + a)][(Xt + b) − E(Xt + b)] = E(Xs − EXs)(Xt − EXt) = C(Xs,Xt) = γ(s,t) Poznámka 3.9. Protože C(Xs,Xt) = C(Xt,Xs), pak pro kovariančně stacionární procesy platí γ(−t) = γ(t) a všechny náhodné veličiny Xt mají tentýž konečný rozptyl DXt = C(Xt,Xt) = γ(t − t) = γ(0). Ze Schwarzovy nerovnosti dále plyne γ(t) = C(X0,Xt) ≤ √ DX0DXt = γ(0). Poznámka 3.10. Přívlastek slabě se většinou vynechává. Lze snadno ukázat, že je-li proces striktně stacionární, je také stacionární. Opačná implikace však neplatí. Poznámka 3.11. Nechť náhodný proces {Xt,t ∈ T} je stacionární. Označme γ(0) = σ2 , pak autokorelační funkce stacionárního náhodného procesu bude mít tvar (t) = γ(t) σ2 = γ(t) γ(0) . Definujme nyní náhodné procesy, které budou hrát důležitou roli v aplikacích. Definice 3.12. Řekneme, že náhodný proces {εt,t ∈ T} je bílým šumem (White Noise), jestliže εt jsou nekorelované náhodné veličiny s nulovou střední hodnotou, tj. Eεt = 0, Dεt = σ2 , C(εt,εs) = 0 (s ≠ t), značíme εt ∼ WN(0,σ2 ). Pokud jsou navíc nejen nekolerované, ale i nezávislé, značíme je symbolem IID (independent identical defined), píšeme εt ∼ IID(0,σ2 ). Věta 3.13. Náhodné procesy εt ∼ WN(0,σ2) a εt ∼ IID(0,σ2) jsou stacionárními náhodnými procesy. Důkaz. Zřejmý. Definice 3.14. Náhodný proces {Xt,t ∈ T} se nazývá gaussovským (normálním), jestliže pro každé přirozené n a libovolná čísla tj ∈ T, j = 1,...,n, je jeho n-rozměrná distribuční funkce Ft1,...,tn (x1,...,xn) distribuční funkcí n-rozměrného normálního rozdělení. Věta 3.15. Gaussův náhodný proces {Xt,t ∈ T} je stacionární, právě když je striktně stacionární. Důkaz. Je triviální a plyne z vlastností normálního rozdělení. Definice 3.16. Řekneme, že náhodný proces {Xt,t ∈ T} splňuje lineární regresní model, pokud pro jeho střední hodnotu platí ∀t ∈ T EXt = µt = m ∑ j=0 βjfj(t), kde f0,...,fm jsou známé funkce definované na T, β = (β0,...,βm)′ je neznámý vektor regresních koeficientů. RNDr. Marie Forbelská, Ph.D. 5 4. Vlastnosti autokovariační funkce Třebaže v praktických situacích máme co činit jen s reálnými náhodnými veličinami, v teorii bývá výhodné pracovat někdy s komplexními náhodnými veličinami. Komplexní veličinou rozumíme veličinu X = Y + iZ, kde Y a Z jsou reálné náhodné veličiny. Komplexním náhodným procesem nazveme systém komplexních náhodných veličin {Xt,t ∈ T}. Mnoho dalších úvah se bude týkat právě komplexních procesů. Slovo „komplexní“ se bude vynechávat, když bude zřejmé ze souvislosti. Existují-li střední hodnoty EY a EZ, definuje se střední hodnota komplexní náhodné veličiny X = Y + iZ EX = EY + iEZ. Budeme se nyní zabývat základními vlastnostmi autokovarianční funkce γ(s,t) = C(Xs,Xt) = E(Xs − EXs)(Xt − EXt). Přitom se samozřejmě předpokládá, že jde o proces s konečnými druhými momenty. Jelikož autokovarianční funkce procesu zůstává stejná při změně střední hodnoty, budeme také pro jednoduchost předpokládat, že střední hodnota procesu je rovna nule, tj. že proces je centro- ván. Věta 4.1. Nechť {Xt,t ∈ T} je centrovaný proces s autokovarianční funkcí γ(s,t). Pak platí: (1) Autokovarianční funkce γ(s,t) je pozitivně semidefinitní funkce. (2) Autokovarianční funkce γ(s,t) je hermitovsky symetrická, tj. pro s,t ∈ T platí γ(s,t) = γ(t,s) (3) Je-li funkce γ(s,t) pozitivně semidefinitní a hermitovsky symetrická, existuje takový náhodný proces (dokonce normální), že γ(s,t) je jeho autokovarianční funkcí. (4) Pro autokovarianční funkci γ(s,t) platí nerovnosti γ(s,s) ≥ 0 a γ(s,t) ≤ √ γ(s,s) √ γ(t,t). (5) Součet dvou autokovariačních funkcí je opět autokovarianční funkcí. (6) Reálná část autokovarianční funkce je též autokovarianční funkcí. Imaginární část je autokovarianční funkcí jen tehdy, je-li rovna identicky nule. Důkaz. Postupně dokazujme jednotlivá tvrzení. (1) Nejprve připomeneme definici tzv. pozitivně semidefinitní funkce. Nechť f(s,t) je funkce dvou proměnných definovaná na T × T. Říkáme, že f je pozitivně semidefinitní, platí-li pro jakékoli přirozené číslo n, pro libovolná komplexní čísla c1,...,cn a libovolné body t1,...,tn ∈ T vztah n ∑ j=1 n ∑ k=1 f(tj,tk)cj ¯ck ≥ 0. (1) Funkce jedné proměnné g(t), t ∈ T se nazývá pozitivně semidefinitní, platí-li pro každné přirozené n, libovolná komplexní čísla c1,...,cn a libovolné body t1,...,tn ∈ T a tj − tk ∈ T pro j,k = 1,...,n vztah n ∑ j=1 n ∑ k=1 g(tj − tk)cj ¯ck ≥ 0. (2) Nechť {Xt,t ∈ T} je centrovaný proces s autokovarianční funkcí γ(s,t). Pak zřejmě platí 0 ≤ E n ∑ j=1 cjXtj 2 = E [ n ∑ j=1 cjXtj n ∑ k=1 ¯ck ¯Xtk ] = n ∑ j=1 n ∑ k=1 cj ¯ckE(Xtj ¯Xtk ) = n ∑ j=1 n ∑ k=1 cj ¯ckγ(tj,tk). 6 M5201 Stochastické modely časových řad (2) Platí γ(s,t) = E(Xs ¯Xt) = E(Xt ¯Xs) = γ(t,s), takže autokovarianční funkce je hermitovsky symet- rická. (3) Důkaz třetího tvrzení lze najít například v knize Doob (1953, [23]). (4) První nerovnost γ(s,s) ≥ 0 plyne z definice autokovarianční funkce a druhá γ(s,t) ≤ √ γ(s,s) √ γ(t,t) je důsledkem Schwarzovy nerovnosti. (5) Abychom mohli dokázat páté tvrzení, připomeňme si, že součet dvou pozitivně semidefinitních hermitovsky symetrických funkcí je opět funkce pozitivně semidefinitní a hermitovsky symetrická. Nechť f1(s,t) a f2(s,t) jsou pozitivně semidefinitní. Položme f(s,t) = f1(s,t) + f2(s,t). Pro libovolná komplexní čísla c1,...,cn platí n ∑ j=1 n ∑ k=1 cj ¯ckf(tj,tk) = n ∑ j=1 n ∑ k=1 cj ¯ckf1(tj,tk) + n ∑ j=1 n ∑ k=1 cj ¯ckf2(tj,tk). Každý z obou výrazů na pravé straně je nezáporný. Musí být tudíž nezáporný i výraz vlevo, čímž je zaručena pozitivní semidefinitnost funkce f. Odtud plyne páté tvrzení věty. (6) Nechť {Zt,t ∈ T} je komplexní náhodný proces s autokovariační funkcí γ(s,t) = C(Zs,Zt) = E(Zs − EZs)(Zt − EZt). Bez újmy na obecnosti budeme předpokládat, že náhodný proces má nulovou střední hodnotu, tj. 0 = EZt = E(Xt + iYt) = EXt + iEYt, což implikuje, že EXt = EYt = 0. Počítejme γZ(s,t) = EZs ¯Zt = E(Xs + iYs)(Xt − iYt) = EXsXt + EYsYt + i(EYsXt − EXsYt) Reálná část γZ(s,t) je rovna Re(γZ(s,t)) = EXsXt + EYsYt = γX(s,t) + γY (s,t). Je tedy rovna součtu autokovariační funkce procesu {Xt,t ∈ T} a autokovariační funkce procesu {Yt,t ∈ T} a je podle pátého tvrzení autokovarianční funkcí. Imaginární část γZ(s,t) je rovna Im(γZ(s,t)) = EYsXt − EXsYt. Připomeňme, že pro libovolnou autokovarianční funkce γ(s,t) musí platit: (i) γ(s,s) ≥ 0 (ii) 0 ≤ γ(s,t) ≤ √ γ(s,s) √ γ(t,t). V bodech s = t dostaneme Im(γZ(s,s)) = EYsXs − EXsYs = 0. Druhá nerovnost však je splněna jen tehdy, je-li stále rovna nule. Na druhé straně funkce identicky rovná nule je autokovariační funkcí např. procesu, který je stále roven nule. RNDr. Marie Forbelská, Ph.D. 7 5. Spojitost a derivace náhodného procesu 5.1. Spojitost náhodného procesu. Pokud se zajímáme o spojitost procesu {Xt,t ∈ T} v bodě t0 ∈ T, budeme studovat chování náhodných veličin Xt při t → t0. Jestliže Xt konvergují v nějakém smyslu k Xt0 , je možno mluvit o spojitosti procesu Xt v bodě t0. Z různých typů konvergencí se ukazuje v tomto případě jako nejužitečnější konvergence podle kvadratického středu. Definice 5.1. Řekneme, že náhodný proces {Xt,t ∈ T} je spojitý podle středu v bodě t0 ∈ T , jestliže při t → t0 konvergují Xt k Xt0 podle kvadratického středu, tj. když E Xt − Xt0 2 → 0 pro t → t0. V tom případě píšeme Xt0 = l.i.m. t→t0 Xt (zkratka z anglického "limit in the mean"). Je-li proces {Xt,t ∈ T} spojitý v každém bodě množiny T , říkáme stručně, že je spojitý. Poznámka 5.2. Z teorie pravděpodobnosti je známo, že konvergence podle kvadratického středu implikuje konvergenci podle pravděpodobnosti. Věta 5.3 (kritérium spojitosti procesu). Proces {Xt,t ∈ T} je spojitý právě tehdy, když je jeho autokovarianční funkce γ(s,t) spojitá v bodech (s,t), pro něž s = t. Důkaz. Bez újmy na obecnosti můžeme předpokládat, že proces je centrovaný. ⇒ Je-li proces {Xt,t ∈ T} spojitý, pak platí pro ∀s,t,s0,t0 ∈ T 0 ≤ γ(s,t) − γ(s0,t0) = EXs ¯Xt − EXs0 ¯Xt0 = E(Xs − Xs0 )( ¯Xt − ¯Xt0 ) (1) +EXs0 ( ¯Xt − ¯Xt0 ) (2) +E(Xs − Xs0 ) ¯Xt0 (3) trojúhel.ner. ≤ E(Xs − Xs0 )( ¯Xt − ¯Xt0 ) + EXs0 ( ¯Xt − ¯Xt0 ) + E(Xs − Xs0 ) ¯Xt0 Schwarz.ner. ≤ ⎛ ⎜ ⎝ E Xs−Xs0 2 E ¯Xt− ¯Xt0 2 →0 ⎞ ⎟ ⎠ 1 2 + ⎛ ⎜ ⎝ E Xs0 2 E ¯Xt− ¯Xt0 2 →0 ⎞ ⎟ ⎠ 1 2 + ⎛ ⎜ ⎝ E Xs−Xs0 2 E ¯Xt0 2 →0 ⎞ ⎟ ⎠ 1 2 pro s → s0, t → t0 (využili jsme vlastnosti spojitosti skalárního součinu). Funkce γ(s,t,) je tudíž spojitá všude, a tedy také na diagonále s = t. ⇐ Předpokládejme nyní, že γ(s,t,) je spojitá na diagonále s = t. Máme E Xs − Xt 2 = E(Xs − Xt)( ¯Xs − ¯Xt) = EXs ¯Xs − EXs ¯Xt − EXt ¯Xs + EXt ¯Xt = γ(s,s) − γ(s,t) − γ(t,s) + γ(t,t) Při pevném t a při s → t z našeho předpokladu vyplývá γ(s,s) → γ(t,t), γ(s,t) → γ(t,t), γ(t,s) → γ(t,t), takže E Xs − Xt 2 → 0 pro s → t, tj. konverguje podle kvadratického středu. 8 M5201 Stochastické modely časových řad 5.2. Derivace náhodného procesu. Derivaci náhodného procesu budeme definovat obdobně, jako se definuje derivace funkce. Definice 5.4. Řekneme, že náhodný proces {Xt,t ∈ T} má v bodě t0 ∈ T derivaci X′ t0 , jestliže platí l.i.m. h→0 Xt0+h − Xt0 h = X′ t0 pro t0 + h ∈ T. Má-li náhodný proces {Xt,t ∈ T} derivaci ve všech bodech t ∈ T, říkáme stručně, že má derivaci. Věty, které dávají nutnou a postačující podmínku pro existenci derivace náhodného procesu, lze najít v knize Anděl, J.: Statistická analýza časových řad. Praha. SNTL 1976 6. Spektrální rozklad autokovariančních funkcí stacionárních procesů 6.1. Herglotzova a Bochnerova věta. V celém odstavci budeme předpokládat, že náhodný proces {Xt,t ∈ T} je stacionární, centrovaný a druhého řádu (tj. s konečnými druhými momenty). Významnou vlastností stacionárních náhodných procesů je vlastnost, že jeho autokovariační funkci lze vyjádřit jako (nespočetný) součet harmonických funkcí s různými frekvencemi a amplitudami. Věta 6.1 (Herglotzova věta). Je-li {Xt,t ∈ Z} stacionární posloupnost, pak se její autokovarianční funkce γ(t) dá vyjádřit ve tvaru γ(t) = ∫ π −π eitλ dF(λ), kde F(λ) je neklesající, zprava spojitá funkce taková, že F(−π) = 0 a F(π) = γ(0). Přitom F(λ) je jediná. Důkaz. Lze najít například v Forbelská (2009). Věta 6.2 (Bochnerova věta). Je-li {Xt,t ∈ R} stacionární proces spojitý podle středu, pak se jeho autokovarianční funkce γ(t) dá vyjádřit ve tvaru γ(t) = ∫ ∞ −∞ eitλ dF(λ), kde F(λ) je taková neklesající, zprava spojitá funkce, že F(−∞) = 0 a F(∞) = γ(0). Přitom F(λ) je jediná. Důkaz. Lze najít například v Forbelská (2009). Vzorci γ(t) = ∫ π −π eitλ dF(λ) resp. γ(t) = ∫ ∞ −∞ eitλ dF(λ) se říká spektrální rozklad kovarianční funkce. Funkce F(λ) se nazývá spektrální distribuční funkce. Je-li F(λ) absolutně spojitá, pak existuje taková funkce f(λ), že pro náhodné stacionární posloupnosti, resp. pro stacionární náhodné procesy platí F(λ) = ∫ λ −π f(x)dx resp. F(λ) = ∫ λ −∞ f(x)dx. (3) Jelikož F(λ) je neklesající, je f(λ) skoro všude nezáporná. Je-li třeba, pozměníme ji na množině míry nula tak, aby byla všude nezáporná. Tím se integrál (3) nezmění. Funkce f(λ) se nazývá spektrální hustota. Existuje-li spektrální hustota, pak můžeme psát γ(t) = ∫ π −π eitλ f(λ)dλ resp. γ(t) = ∫ ∞ −∞ eitλ f(λ)dλ. (4) RNDr. Marie Forbelská, Ph.D. 9 Všimněme si ještě, zda a jak se dá na základě nějaké jednoduché vlastnosti kovarianční funkce γ(t) poznat, zda vůbec spektrální hustota existuje. Věta 6.3. K existenci spektrální hustoty stacionární náhodné posloupnosti stačí, aby pro její kovarianční funkci platilo ∞ ∑ t=−∞ γ(t) < ∞ K existenci spektrální hustoty spojitého stacionární náhodného procesu stačí, aby pro její kovarianční funkci platilo ∫ ∞ −∞ γ(t) dt < ∞. Důkaz. Lze najít například v publikaci autorů Gichman a Skorochod (1971, viz [27]). V následujících dvou větách je zodpovězena otázka, jak vypočítat spektrální hustotu z kovarianční funkce. Věta 6.4. Existuje-li spektrální hustota f(λ) stacionární posloupnosti a má-li variaci konečnou na ⟨−π,π⟩, pak platí f(λ) = 1 2π ∞ ∑ t=−∞ e−itλ γ(t) (5) ve všech bodech spojitosti funkce f(λ), což je skoro všude vzhledem k Lebesgueově míře. Důkaz. Ze vzorce (4) na straně 8 vidíme, že až na normující konstantu 1 2π jsou γ(t) Fourierovy koeficienty funkce f(λ) vzhledem k ortogonálnímu systému funkcí {e−itλ}. Zbytek tvrzení plyne z faktu, že funkce s konečnou variací má nejvýše spočetně bodů nespojitosti (variace je difinována takto b ⋁ a (f) = sup Dn n ∑ k=1 f(xk) − f(xk−1) , kde Dn = {a = x0 < x1 < ⋯ < xn = b} je dělení intervalu ⟨a,b⟩.) Věta 6.5. Existuje-li spektrální hustota f(λ) spojitého stacionárního procesu a je-li autokovarianční funkce absolutně integrovatelná, tj. ∫ ∞ −∞ γ(t) dt < ∞, pak f(λ) = 1 2π ∫ ∞ −∞ e−itλ γ(t) dt. (6) Důkaz. Ze vzorce (4) na straně 8 vidíme, že až na normující konstantu 1 2π je mezi γ(t) a f(λ) stejný vztah jako mezi charakteristickou funkcí a hustotou rozdělení. Proto lze přímo převzít vzorec pro výpočet hustoty z charakteristické funkce. Věta 6.6. Spektrální hustota f(λ) reálného spojitého stacionárního procesu nebo reálné stacionární posloupnosti je sudá funkce v tom smyslu, že pro ni platí f(λ) = f(−λ) (7) skoro všude vzhledem k Lebesgueově míře. Důkaz. Nechť {Xt,t ∈ T} je spojitý stacionární proces. Jelikož je reálný, platí pro každé t ∈ T, že γ(t) = γ(−t). Proto vzhledem k (4) γ(t) = ∫ ∞ −∞ eitλf(λ)dλ = ∫ ∞ −∞ e−itλf(λ)dλ = γ(−t). Substitucí se snadno zjistí, že pravá strana je rovna ∫ ∞ −∞ eitλf(−λ)dλ takže ∫ ∞ −∞ eitλ f(λ)dλ = ∫ ∞ −∞ eitλ f(−λ)dλ. (8) Je-li f(λ) = 0 skoro všude, je tvrzení věty zřejmé. Předpokládejme tedy, že ∫ ∞ −∞ f(λ)dλ = C > 0. 10 M5201 Stochastické modely časových řad Bez újmy na obecnosti můžeme položit C = 1 (jinak stačí místo f(λ) uvažovat f(λ) C ). Pak vzorec (8) ukazuje, že charakteristické funkce příslušející hustotám f(λ) a f(−λ) jsou totožné. Vzhledem k vzájemně jednoznačnému vztahu mezi rozdělením pravděpodobnosti a charakteristickou funkcí odtud vyplývá tvrzení věty. Pro stacionární posloupnosti je důkaz obdobný. 7. Odhady středních hodnot a autokovariancí Stochastický proces je matematickým modelem reálného děje náhodného charakteru, který probíhá nepřetržitě v čase. Můžeme jej však pozorovat jen v konečných časových intervalech a na základě těchto pozorování určit odhady hodnot charakteristik tohoto procesu - střední hodnoty, rozptylu, autokovarianční funkce, atd. Jestliže máme k dispozici dostatečný počet pozorování realizací náhodného procesu, můžeme (1) Přibližně určit charakteristiky každé realizace náhodného procesu. (2) Přibližné celkové charakteristiky lze získat zprůměrováním předchozích. Tato metoda zpracování je však poměrně složitá a vzniká otázka, či by nebylo možné pro stacionární náhodný proces zaměnit tento složitý přístup za mnohem jednodušší, který se zakládá na předpokladu, že střední hodnota nezávisí na čase a korelační funkce na začátku výpočtu. Kromě toho vzniká otázka, zda při zpracování pozorování stacionárního náhodného procesu je třeba disponovat několika jejich realizacemi. Protože náhodný proces je stacionární a homogenní v čase, je přirozené předpokládat, že jedna jediná realizace s dostatečnou délkou je postačujícím materiálem na získání charakteristik náhodného procesu. Při podrobnějším zkoumání této otázky se ukázalo, že existuje takováto možnost, ale ne pro všechny stacionární náhodné procesy. Tedy jestliže jediná realizace náhodného procesu pozorovaná v dostatečně dlouhém čase může být považovaná za určitého reprezentanta všech možných realizací, říkáme, že takovéto stacionární stochastické procesy mají ergodickou vlastnost. Jestliže určitý náhodný proces nemá tuto vlastnost ergodičnosti, i když je stacionární, potom jeho různé realizace, které se vyskytují s určitými pravděpodobnostmi, mají různý charakter průběhů. V tomto duchu, jako by šlo o realizace různých jednodušších stacionárních procesů, které mají svoje individuální charakteristiky. V některých případech na neergodičnost stacionárního procesu může působit už jen výskyt jediného náhodného sčítance (tj. náhodné proměnné nezávislé na čase). Poznámka 7.1. Nechť {Y (t) = X(t) + Z,t ∈ R} je náhodný proces, kde {X(t),t ∈ R} je ergodický stacionární proces definovaný na pravděpodobnostním prostoru (Ω,A,P) a Z náhodná veličina definovaná na témže pravděpodobnostním prostoru se střední hodnotou µZ, rozptylem σ2 Z a pro niž pro každé t ∈ R platí C(X(t),Z) = 0. Potom µY (t) = µX + µZ γY (t) = C(Y (s),Y (s + t)) = C(X(s) + Z,X(s + t) + Z) = = C(X(s),X(s + t)) γX (t) +C(X(s + t),Z) =0 +C(Z,X(s + t)) =0 +C(Z,Z) σ2 Z = γX(t) + σ2 Z. RNDr. Marie Forbelská, Ph.D. 11 Tedy náhodný proces {Y (t),t ∈ R} je stacionární proces, ale nemůžeme ho považovat za ergodický, neboť se dá očekávat, že každá jeho realizace se bude charakterem svého průběhu lišit od jiných - v závislosti od toho jakou hodnotu při dané realizaci nabyla náhodná veličina Z. Autokovarianční funkce stacionárního procesu Y (t),t ∈ R se od autokovarianční funkce stacionárního ergodického procesu {X(t),t ∈ R} liší o kladnou složku σ2 Z. Takže pro t → ∞ se hodnoty γY (t) nezmenšují k nule, ale od určitého času tm zůstávají konstantní (= σ2 Z). Nyní budeme definovat ergodičnost stacionárních procesů přesněji matematicky v souvislosti s konstrukcí odhadů některých charakteristik stacionárních procesů. 7.1. Odhady střední hodnoty. Nechť {Y (t),t ∈ R} je stochastický proces 2. řádu, který pozorujeme v časovém intervalu ⟨0,T⟩. Nechť jeho konstantní střední hodnota µ je neznámá a je třeba ji odhadnout. Definice 7.2. Odhad střední hodnoty ˆµ stacionárního náhodného procesu {Y (t),t ∈ ⟨0,T⟩} pomocí metody nejmenších čtverců (MNČ) je definován vztahem: ˆµ = arg min µ∈R ∫ T 0 (Y (t) − µ) 2 dt. Poznámka 7.3. Stále budeme předpokládat, že integrály vystupující v jednotlivých vztazích existují a dají se v nich zaměnit pořadí integrování a střední hodnoty. Snadno lze odvodit, že odhad střední hodnoty pomocí MNČ je roven ˆµ = 1 T ∫ T 0 Y (t)dt (9) neboť 0 = d dµ ∫ T 0 (Y (t)2 − 2µY (t) + µ2 ) dt = −2∫ T 0 Y (t)dt + 2µ∫ T 0 dt =T = 2Tµ − 2∫ T 0 Y (t) dt. Věta 7.4. Odhad střední hodnoty pomocí metody nejmenších čtverců je nestranný a jeho střední kvadratická chyba je rovna MSE(ˆµ) = 2 T ∫ T 0 (1 − u T )γY (u) du. (10) Důkaz. Nestrannost: Eˆµ = E ( 1 T ∫ T 0 Y (t)dt) = 1 T ∫ T 0 EY (t) =µ(stac.) dt = µ 1 T ∫ T 0 dt =T = µ. Střední kvadratická chyba v případě nestranného odhadu je rozptylem tohoto odhadu MSE(ˆµ) = E [(ˆµ − µ)2 ] = E [(ˆµ − Eˆµ)2 ] = D(ˆµ). 12 M5201 Stochastické modely časových řad Počítejme MSE(ˆµ) = E [(ˆµ − µ)2 ] = E {[ 1 T ∫ T 0 Y (t) dt − µ] 2 } = E {[ 1 T ∫ T 0 (Y (t) − µ) dt] 2 } = 1 T2 E {∫ T 0 ∫ T 0 (Y (s) − µ)(Y (t) − µ) ds dt} = 1 T2 ∫ T 0 ∫ T 0 E [(Y (s) − µ)(Y (t) − µ)] γY (t−s)(stac.) ds = 1 T2 ∫ T 0 ∫ T 0 γY (t − s) ds dt Uvažujme transformaci u = t − s v = t s Jakobiánem J = 1. Protože s,t ∈ ⟨0,T⟩, pak platí −T ≤ u ≤ T 0 ≤ v = t ≤ T a tudíž u ≤ v = s + u ≤ T + u, tedy max{0,u} ≤ v ≤ min{T,T + u}. Tak dostaneme MSE(ˆµ) = 1 T2 ∫ T −T ⎛ ⎜ ⎝ min{T,T+u} ∫ max{0,u} γY (u) dv ⎞ ⎟ ⎠ du = 1 T2 [∫ 0 −T (γY (u)∫ T+u 0 dv) du + ∫ T 0 (γY (u)∫ T u dv)du] = 1 T2 [∫ 0 −T γY (u)(T + u) du + ∫ T 0 γY (u)(T − u) du] = 1 T2 ∫ T −T γY (u)(T − u ) du = 2 T2 ∫ T 0 (T − u)γY (u) du = 2 T ∫ T 0 (1 − u T )γY (u) du = D(ˆµ) = D [ 1 T ∫ T 0 Y (t) dt]. Pro další studium ergodických procesů je vhodné vyslovit následující definici: Definice 7.5. Řekneme, že stacionární proces {Y (t),t ∈ R} je ergodický ve střední hodnotě, pokud platí lim T→∞ D [ 1 T ∫ T 0 Y (t) dt] = 0. (11) Věta 7.6. Nechť pro stacionární proces {Y (t),t ∈ R} s autokovarianční funkcí γY (t) platí lim t→∞ 1 T ∫ T 0 (1 − u T ) γY (u) du = 0. Potom je náhodný proces {Y (t),t ∈ R} ergodický ve střední hodnotě. RNDr. Marie Forbelská, Ph.D. 13 Důkaz. Tvrzení věty plyne ze vztahů (10), (11) a nerovnosti T ∫ 0 (1 − u T )γY (u)du ≤ ∫ T 0 (1 − u T ) γY (u) du. Důsledek 7.7. Nechť lim t→∞ γY (t) = 0. Pak stacionární proces s autokovarianční funkcí γY (t) je ergodický ve střední hodnotě. Důkaz. Jestliže lim t→∞ γY (t) = 0, pak také lim t→∞ γY (t) = 0. Pak pro libovolně malé ε > 0 existují dostatečné velká T,T0 ∈ R (T0 < T) taková, že pro každé t > T0, platí γY (t) < ε. Pak lim T→∞ D [ 1 T ∫ T 0 Y (t) dt] = lim T→∞ 2 T ∫ T 0 (1 − u T )γY (u) du ≤ lim T→∞ 2 T ∫ T 0 (1 − u T ) γY (u) du ≤ lim T→∞ 2 T ∫ T 0 γY (u) du = lim T→∞ 2 T ⎡ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎣ ∫ T0 0 γY (u) ≤ γY (0) du + ∫ T T0 γY (u) < ε du ⎤ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎦ ≤ lim T→∞ 2[ T0 T γY (0) + (1 − T0 T )ε] = 0 ergodicita ve střední hodnotě. Poznamenejme, že jestliže platí lim t→∞ γY (t) = 0, pak také pro autokorelační funkci platí lim t→∞ ρY (t) = lim t→∞ γY (t) γY (0) = 0, což znamená, že síla lineárních vazeb mezi jednotlivými náhodnými veličinami, které tvoří daný stacionární proces {Y (t),t ∈ R}, jakmile se tyto od sebe neustále vzdalují, postupně slábne, tj. jejich korelační koeficient → 0. 7.1.1. DISKRÉTNÍ NÁHODNÉ PROCESY. Při pozorování stacionárních procesů {Y (t),t ∈ R} druhého řadu se spojitým časem nejčastěji pozorujeme jen určitou jejich konečnou diskrétní část, tj. pro n ∈ N v diskrétních časových okamžicích t1,...,tn ∈ R pozorujeme jen náhodný vektor Y = (Yt1 ,...,Ytn ) ′ = (Y1,...,Yn) ′ , který nazýváme diskrétním pozorováním náhodného procesu {Y (t),t ∈ R} (anebo diskretizací náhodného procesu {Y (t),t ∈ R} se spojitým časem), kde jsme položili ti = i, i = 1,...,n. 14 M5201 Stochastické modely časových řad Pak lze snadno ukázat, že obdobným diskrétním ekvivalentem odhadu střední hodnoty je odhad ¯Y = 1 T n ∑ i=1 Yti ⋅ T n ≈∫ ti+∆t/2 ti−∆t/2 Y (t)dt = 1 n n ∑ t=1 Yt, kde ∆t = T n . 7.2. Odhady autokovarianční a autokorelační funkce. Odhad autokovarianční funkce lze analogicky jako v případě střední hodnoty nalézt ve tvaru ˆγY (τ) = 1 T − τ ∫ T−τ 0 [(Y (t) − ˆµ)(Y (t + τ) − ˆµ)]dt. Podobně jak jsme výše definovali ergodičnost ve střední hodnotě pro stacionární proces {Y (t),t ∈ R}, můžeme definovat i jeho ergodičnost v rozptylu, pokud platí lim T→∞ D [ 1 T ∫ T 0 (Y (t) − µ) 2 dt] = 0 a jeho ergodičnost v autokovarianční funkci, jestliže platí lim T→∞ D [ 1 T ∫ T−τ 0 (Y (τ + t) − µ)(Y (t) − µ)dt] = 0. Snadno lze ukázat, že obdobnými diskrétními ekvivalenty jsou následující odhady: Odhad autokovarianční funkce: ck = 1 n − k n−k ∑ t=1 (Yt − ¯Y )(Yt+k − ¯Y ) pro k = 0,1,...,n − 1. Odhad autokorelační funkce ACF: rk = ck c0 pro k = 0,1,...,n − 1. Aby tyto odhady měly praktický význam, požaduje se obvykle n > 50 a k < n 4 , neboť odhady {ck} n−1 k=0 resp. {rk} n−1 k=0 nejsou lineárně nezávislé a s rostoucím k roste i jejich rozptyl. 8. Odhady spektrální hustoty 8.1. Úvod. Pojem spektra se vyskytuje nejen v teorii náhodných procesů, ale také v matematice, fyzice a technice. Jestliže nějaký proces vlnění je součtem harmonických vlnění (tzv. harmonik), tak spektrum procesu vlnění se nazývá funkce, která popisuje rozdělení amplitud podle jednotlivých frekvencí. Spektrum ukazuje, která vlnění převládají v daném procesu a jaká je jeho vnitřní struktura. Spektrum v případě stacionárního náhodného procesu dává rozdělení rozptylů náhodných amplitud podle různých frekvencí vlnění. V celém tomto odstavci proto budeme předpokládat, že náhodný proces {Yt,t ∈ T} je stacionární, centrovaný a druhého řádu (tj. s konečnými druhými momenty). RNDr. Marie Forbelská, Ph.D. 15 8.2. Periodogram. V dalším budeme předpokládat, že {Yt,t ∈ Z} je centrovaná stacionární náhodná posloupnost. Definice 8.1. Nechť Y1,...,Yn jsou pozorování náhodné posloupnosti {Yt,t ∈ Z}. Pak periodogram definujeme vztahem In(ω) = 1 2πn n ∑ t=1 Yte−itω 2 ω ∈ ⟨−π,π⟩. Lemma 8.2. Položme An(ω) = √ 2 n n ∑ t=1 Yt costω Bn(ω) = √ 2 n n ∑ t=1 Yt sintω, pak platí In(ω) = 1 4π [A2 n(ω) + B2 n(ω)]. Důkaz. In(ω) = 1 2πn n ∑ t=1 Yte−itω 2 = 1 2πn n ∑ t=1 Yt costω − i n ∑ t=1 Yt sintω 2 = = 1 2πn ⎡ ⎢ ⎢ ⎢ ⎢ ⎣ ( n ∑ t=1 Yt costω) 2 + ( n ∑ t=1 Yt sintω) 2⎤ ⎥ ⎥ ⎥ ⎥ ⎦ = 1 4π [A2 n(ω) + B2 n(ω)]. Poznámka 8.3. Někteří autoři definují periodogram poněkud jinak: I∗ n(ω) = 2 n n ∑ t=1 Yte−itω 2 = [A2 n(ω) + B2 n(ω)] = 4πIn(ω). Lemma 8.4. Pokud označíme pro k = 0,1,...,n − 1 Ck = 1 n − k n−k ∑ t=1 YtYt+k C∗ k = 1 n n−k ∑ t=1 YtYt+k pak platí In(ω) = 1 2π [C0 + 2 n−1 ∑ k=1 (1 − k n )Ck coskω] = 1 2π [C∗ 0 + 2 n−1 ∑ k=1 C∗ k coskω]. Důkaz. In(ω) = 1 2πn ⎡ ⎢ ⎢ ⎢ ⎢ ⎣ ( n ∑ t=1 Yt costω) 2 + ( n ∑ t=1 Yt sintω) 2⎤ ⎥ ⎥ ⎥ ⎥ ⎦ = 1 2πn [( n ∑ t=1 Yt costω)( n ∑ s=1 Ys cossω) + ( n ∑ t=1 Yt sintω)( n ∑ s=1 Ys sinsω)] = 1 2πn n ∑ t=1 n ∑ s=1 YtYs (costω cossω + sintω sinsω) = 1 2πn n ∑ t=1 n ∑ s=1 YtYs cosω(s − t) 16 M5201 Stochastické modely časových řad Zavedeme-li dále substituci k = s − t , pak −n + 1 ≤ k ≤ n − 1 a 1 ≤ t ≤ n 1 ≤ s=t+k ≤ n 1−k ≤ t ≤ n−k ⇒ týká se kladných k max(1, 1−k ) ≤ t ≤ min(n, n−k ). týká se záporných k a pak platí In(ω) = 1 2πn n−1 ∑ k=−n+1 coskω min(n,n−k) ∑ t=max(1,1−k) YtYt+k. Nyní vezměme zvlášť případy, kdy k = 0 a ostatní, přičemž využijme faktu, že funkce cos je sudou funkcí. Dostaneme proto In(ω) = 1 2π 1 n n ∑ t=1 Y 2 t C0 + 1 2π −1 ∑ k=−n+1 n − k n coskω 1 n − k n ∑ t=1−k YtYt+k C−k=Ck + 1 2π n−1 ∑ k=1 n − k n coskω 1 n − k n−k ∑ t=1 YtYt+k Ck = = 1 2π n−1 ∑ k=−(n−1) (1 − k n )Ck coskω = 1 2π [C0 + 2 n−1 ∑ k=1 (1 − k n )Ck coskω] In(ω) = 1 2π 1 n n ∑ t=1 Y 2 t C∗ 0 + 1 2π −1 ∑ k=−n+1 coskω 1 n n ∑ t=1−k YtYt+k C∗ −k =C∗ k + 1 2π n−1 ∑ k=1 coskω 1 n n−k ∑ t=1 YtYt+k C∗ k = 1 2π (C∗ 0 + 2 n−1 ∑ k=1 C∗ k coskω). Poznámka 8.5. K numerickému výpočtu hodnot periodogramu se často používají právě předchozí vzorce. Poznámka 8.6. Pro teoretické účely bývá výhodnější tato varianta In(ω) = 1 2π n−1 ∑ k=−(n−1) (1 − k n )Ck coskω = 1 2π n−1 ∑ k=−(n−1) C∗ k coskω. Pro náhodnou posloupnost {Yt,t ∈ T ⊆ Z} platí f(ω) = 1 2π ∞ ∑ t=−∞ γ(t)costω. Veličiny (1 − k n )Ck, (resp. C∗ k ) můžeme považovat za jakýsi odhad γ(k) a periodogram se tudíž dá považovat za empirický odhad spektrální hustoty. Vlastnosti tohoto odhadu udává následující věta. Věta 8.7. Jestliže {Yt,t ∈ T ⊆ Z} je stacionární náhodná posloupnost s nulovou střední hodnotou a se spojitou spektrální hustotou f(ω), pak má periodogram In(ω) následující vlastnosti: lim n→∞ EIn(ω) = f(ω) ω ∈ ⟨−π,π⟩. lim n→∞ DIn(ω) = { f2(ω) ω ≠ 0,ω ∈ (−π,π), 2f2(ω) ω = 0,±π. RNDr. Marie Forbelská, Ph.D. 17 Důkaz. viz Forbelská(2009). Z předchozí věty vyplývá (1) Periodogram In(ω) je asymptoticky nestranným odhadem spektrální hustoty. (2) Periodogram In(ω) není konzistentním odhadem spektrální hustoty, neboť jeho rozptyl nekonverguje k nule, vzrůstá-li neomezeně délka posloupnosti n. 8.3. Neparametrické odhady spektrální hustoty (Window Spectral Estimation). Neparametrické odhady spektrální hustoty centrované stacionární náhodné posloupnosti {Yt,t ∈ Z} jsou založeny na zlepšení vlastností periodogramu. Periodogram je empirickým odhadem spektrální hustoty, který je asymptoticky nestranný, avšak nekonzistentní. Připomeňme, že platí (viz lemma 8.4) In(ω) = 1 2πn n ∑ t=1 Yte−itω 2 = 1 2π [C∗ 0 + 2 n−1 ∑ k=1 C∗ k coskω]. Využijme dále vztahů C∗ k = C∗ −k, kde C∗ k = 1 n n−k ∑ t=1 YtYt+k pro k = 0,±1,±2,...,±(n − 1) a coskω = 1 2 (eikω + e−ikω). Upravujme postupně In(ω) = 1 2π [C∗ 0 + n−1 ∑ k=1 C∗ k eikω + n−1 ∑ k=1 C∗ k e−ikω] = 1 2π [C∗ 0 + −1 ∑ s=−(n−1) C∗ −se−isω + n−1 ∑ k=1 C∗ k e−ikω] = 1 2π n−1 ∑ k=−(n−1) C∗ k e−ikω. Periodogram (jakožto odhad spektrální hustoty) je založen na všech možných odhadech autokovariační funkce v bodech k=0,±1,±2,...,±(n−1), tj. C∗ 0 = 1 n (Y 2 1 + ⋯ + Y 2 n ) n členů C∗ 1 = C∗ −1 = 1 n (Y1Y2 + ⋯ + Yn−1Yn + Y3Yn) n−1 členů C∗ n−3 = C∗ −(n−3) = 1 n (Y1Yn−2 + Y2Yn−1 + Y3Yn) 3 členy C∗ n−2 = C∗ −(n−2) = 1 n (Y1Yn−1 + Y2Yn) 2 členy C∗ n−1 = C∗ −(n−1) = 1 n Y1Yn 1 člen a tedy je založen i na velmi málo kvalitních odhadech. K určitému zlepšení jistě dojde, pokud budeme používat jen m ≪ n nejkvalitnějších odhadů. Mluvíme pak o prostém useknutém periodogramu ˆfn(ω) = 1 2π m ∑ k=−m C∗ k coskω = 1 2π m ∑ k=−m C∗ k e−ikω, což lze také zapsat takto ˆfn(ω) = 1 2π n−1 ∑ k=−(n−1) w(k)C∗ k coskω = 1 2π n−1 ∑ k=−(n−1) w(k)C∗ k e−ikω, kde w(k) = { 1 k ≤ m 0 k > m . Označme Fourierovu transformaci funkce w(k) 18 M5201 Stochastické modely časových řad W(ω) = 1 2π ∞ ∑ k=−∞ w(k)e−ikω = 1 2π m ∑ k=−m e−ikω a řadu přeindexujeme tak, aby indexy šly od 1 do 2m + 1, tj. položme s = k + m + 1, pak k = s − m − 1 a (a) pro ω ≠ 2kπ je W(ω) = 1 2π 2m+1 ∑ s=1 e−i(s−m−1)ω = 1 2π ei(m+1)ω 2m+1 ∑ s=1 e−isω = 1 2π eimω 1−e−i(2m+1)ω 1−e−iω = 1 2π eimω e −i 2m+1 2 ω⎛ ⎝ e i 2m+1 2 ω −e −i 2m+1 2 ω⎞ ⎠ e −i 1 2ω⎛ ⎝ e i 1 2ω −e −i 1 2ω⎞ ⎠ = 1 2π sin(m+ 1 2)ω sin 1 2ω = Dm(ω), kde Dm(ω) je tzv. Dirichletovo jádro, (b) pro ω = 2kπ je W(ω) = 2m + 1. Vzhledem k tomu, že lze psát In(ω) = 1 2π n−1 ∑ k=−(n−1) C∗ k e−ikω, vidíme, že In(ω) je Fourierovou transformací C∗ k , takže naopak lze pomocí inverzní Fourierovy transformace psát C∗ k = π ∫ −π In(θ)eikθd θ. Počítejme postupně ˆfn(ω) = 1 2π n−1 ∑ k=−(n−1) w(k)C∗ k e−ikω = 1 2π n−1 ∑ k=−(n−1) w(k) π ∫ −π In(θ)eikθd θe−ikω = π ∫ −π In(θ) 1 2π n−1 ∑ k=−(n−1) w(k)e−ik(ω−θ) W(ω−θ) d θ = π ∫ −π In(θ)W(ω − θ)d θ. Jde o tzv. vyhlazený periodogram (smoothed periodogram). Funkce W(ω) se nazývá spektrální okénko (spectral window). Tato funkce má do jisté míry aproximovat Diracovu δ funkci a platí pro ni π ∫ −π W(ω)dω = 1. Takto počítat odhad spektrální hustoty by však bylo (vzhledem k málo hladkému průběhu periodogramu) nepohodlné, proto se obvykle odhad počítá podle vzorce ˆfn(ω) = 1 2π n−1 ∑ k=−(n−1) w(k)C∗ k e−ikω, přičemž inverzní Fourierova transformace w(k) = π ∫ −π W(θ)eikθdθ, k = 0,±1,±2,... ± (n − 1) se nazývá korelační okénko (covariance lag window, nebo time-domaing window). Typickými korelačními okénky jsou tzv. useknutá okénka, pro která existuje takové přirozené číslo m (bod useknutí, truncation point) tak, že w(k)=0 pro k >m (m se obvykle volí v rozmezí od n 6 do n 5 ). RNDr. Marie Forbelská, Ph.D. 19 Příklady korelačních a spektrálních okének Prostý useknutý odhad: w(k) = { 1 0 < k ≤ m 0 k > m W(ω) = 1 2π sin(m+ 1 2)ω sin 1 2ω −6 −4 −2 0 2 4 6 −0.2 0 0.2 0.4 0.6 0.8 1 Lag window w(k) −2 0 2 −0.2 0 0.2 0.4 0.6 0.8 1 Spectral window W(ω)−Dirichlet kernel −6π/7 −4π/7 −2π/7 0 2π/7 4π/7 6π/7 Obrázek 2. Korelační a spektrální okénko pro prostý useknutý odhad. Bartletovo okénko: w(k) = ⎧⎪⎪ ⎨ ⎪⎪⎩ (1 − k m ) 0 < k ≤ m 0 k > m W(ω) = 1 2πm sin2 m ω 2 sin2 ω 2 = Fm(ω) W(ω) je v tomto případě Fejérovým jádrem. −10 −5 0 5 10 0 0.2 0.4 0.6 0.8 1 Lag window w(k) −4 −2 0 2 4 0 0.2 0.4 0.6 0.8 Spectral window W(ω)−Fejer kernel Obrázek 3. Bartletovo korelační a spektrální okénko. 20 M5201 Stochastické modely časových řad Parzenovo okénko: w(k) = ⎧⎪⎪⎪⎪⎪⎪ ⎨ ⎪⎪⎪⎪⎪⎪⎩ 1 − 6( k m ) 2 + 6( k m ) 3 k < m 2 2(1 − k m ) 3 m 2 < k ≤ m 0 k > m W(ω) = 3 8πm3 ( sin m ω 4 1 2 sin ω 2 ) 4 (1 − 2 3 sin2 ω 2 ) kde m je nějaké sudé číslo. −10 −5 0 5 10 0 0.2 0.4 0.6 0.8 1 Lag window w(k) −4 −2 0 2 4 0 2 4 6 8 10 12 Spectral window W(ω) Obrázek 4. Parzenovo korelační a spektrální okénko. Obecné Tukeovo okénko: w(k) = { 1 − 2a + 2acos πk m k ≤ m 0 k > m W(ω) = aDm (ω − π m ) + (1 − 2a)Dm(ω) + aDm (ω + π m ) kde a ∈ (0, 1 4⟩. Pokud a = 1 4, pak se nazývá Tukey-Hanningovo okénko. −10 −5 0 5 10 0 0.2 0.4 0.6 0.8 1 Lag window w(k) −4 −2 0 2 4 0 0.2 0.4 0.6 0.8 Spectral window W(ω) Obrázek 5. Tukey-Hanningovo korelační a spektrální okénko. RNDr. Marie Forbelská, Ph.D. 21 Tukey-Hammingovo okénko: w(k) = { 0.54 + 0.46cos πk m k ≤ m 0 k > m W(ω) = 0.23Dm (ω − π m ) + 0.54Dm(ω) + 0.23Dm (ω + π m ) −10 −5 0 5 10 0 0.2 0.4 0.6 0.8 1 Lag window w(k) −4 −2 0 2 4 0 0.2 0.4 0.6 0.8 Spectral window W(ω) Obrázek 6. Tukey-Hammingovo korelační a spektrální okénko. Daniellovo okénko: Na závěr ještě uvedeme jedno neuseknuté korelační okénko. Mějme pro δ ∈ (0,π) následující spektrální okénko W(ω) = { 1 2δ ω < δ 0 ω > δ , které je vlastně hustotou náhodné veličiny s rovnoměrně spojitým rozdělením na intervalu (−δ,δ). Pro k = ±1,±2,... ± (n − 1) počítejme nejprve odpovídající korelační okénko: w(k) = π ∫ −π W(ω)eikω dω = δ ∫ −δ 1 2δ eikω dω = 1 2δ [ eikω ik ] δ −δ = 1 kδ 1 2i (eikδ − e−ikδ ) sin kδ = sinkδ kδ . Pro k = 0 je zřejmě rovno jedné, celkově tedy wk = ⎧⎪⎪⎪ ⎨ ⎪⎪⎪⎩ 1 k = 0 sin kδ kδ k = ±1,±2,... . −10 −5 0 5 10 −0.2 0 0.2 0.4 0.6 0.8 1 Lag window w(k) −4 −2 0 2 4 0 0.05 0.1 0.15 0.2 0.25 Spectral window W(ω) Obrázek 7. Daniellovo korelační a spektrální okénko. KAPITOLA 2 Predikce v časových řadách Budoucí vývoj sledované veličiny je možné odhadovat různými predikčními metodami. Většinou vycházejí ze skutečnosti, že pokud známe časový průběh hodnot veličiny v minulosti (hodnotu v minulém kroku, ale častěji posloupnost historických vzorků z řady minulých kroků), můžeme s větší či menší přesností předvídat její vývoj v budoucnosti. Abychom mohli matematicky predikci zavést, budeme potřebovat definovat Hilbertův prostor. Je to úplný normovaný lineární prostor, v němž je norma definována pomocí tzv. skalárního součinu. Proto v něm můžeme využívat všech poznatků z metrických prostorů nebo normovaných lineárních prostorů. Skalární součin umožnuje zavést v prostoru se skalárním součinem navíc kolmost (ortogonalitu) prvků. D. Hilbert (1862–1943) položil základy studia této struktury. Vznik teorie abstraktního Hilbertova prostoru se však klade až do roku 1927 a je spojen se jménem J. von Neumann (1903–1957). Látka o Hilberově prostoru patří do tzv. funkcionální analýzy. 1. Základní metrické a topologické pojmy Připomeňme následující pojmy a vlastnosti: UNITÁRNÍ PROSTORY: Komplexní lineární prostor H se nazývá unitární, jestliže pro každé dva prvky x a y z H existuje komplexní číslo ⟨x,y⟩, nazývané skalární či vnitřní součin, tak že pro každé x,y,z ∈ H a α ∈ C platí (a) ⟨x,y⟩ = ⟨y,x⟩; (b) ⟨x + y,z⟩ = ⟨x,z⟩ + ⟨y,z⟩; (c) ⟨αx,y⟩ = α⟨x,y⟩; (d) ⟨x,x⟩ ≥ 0; (e) ⟨x,x⟩ = 0 ⇔ x = 0. NORMA: V unitárním prostoru H definujeme normu vztahem x = √ ⟨x,x⟩. CAUCHY-SCHWARZOVA NEROVNOST: v unitárním prostoru platí: ⟨x,y⟩ ≤ x y a ⟨x,y⟩ = x y ⇔ x = ⟨x,y⟩ ⟨y,y⟩ y. ORTOGONALITA: řekneme, že x a y z unitárního prostoru H jsou ortogonální, pokud platí ⟨x,y⟩ = 0 a značíme x y. ORTOGONÁLNÍ A ORTONORMÁLNÍ MNOŽINY: řekneme, že množina M ⊆ H je ortogonální, jestliže pro každé různé prvky x,y ∈ M platí x y. Jestliže navíc pro ∀x ∈ M platí x = 1, pak množina M se nazývá ortonormální. Poznámka: Je-li M ortogonální množina, pak množina {x x x ∈ M} je ortonormální. VLASTNOSTI NORMY: mějme unitární prostor H s normou definovanou vztahem x =√ ⟨x,x⟩. Pak pro každé x,y ∈ H a pro každé α ∈ C platí (a) x + y 2 = x 2 + y 2 + ⟨x,y⟩ + ⟨y,x⟩; (b) x + y ≤ x + y (tzv. trojúhelníková nerovnost); (c) αx = α x ; (d) x ≥ 0; (e) x = 0 ⇔ x = 0; (f) x + y 2 + x − y 2 = 2 x 2 + 2 y 2 (tzv. rovnoběžníková rovnost); 23 24 M5201 Stochastické modely časových řad KONVERGENCE PODLE NORMY: řekneme že posloupnost prvků {xn} z unitárního prostoru H konverguje podle normy k x ∈ H, jestliže xn − x → 0 pro n → ∞. SPOJITOST SKALÁRNÍHO SOUČINU: jestliže {xn} a {yn} jsou prvky z unitárního prostoru H takové, že xn − x → 0 a yn − y → 0 pro n → ∞, pak platí (a) xn → x (b) ⟨xn,yn⟩ → ⟨x,y⟩ pro n → ∞. CAUCHYOVSKÁ POSLOUPNOST: řekneme, že posloupnost prvků {xn} z unitárního prostoru H je cauchyovská, pokud xn − xm → 0 pro n,m → ∞. HILBERTOVY PROSTORY: Hilbertův prostor je úplný unitární prostor, tj. takový, ve kterém každá cauchyovská posloupnost {xn} konverguje podle normy k nějakému prvku x ∈ H, tj. xn − xm → n,m→∞ 0 ⇒ ∃x ∈ H xn − x → n→∞ 0. UZAVŘENÝ PODPROSTOR: řekneme, že lineární podprostor M Hilbertova prostoru H je uzavřeným podprostorem H, jestliže M obsahuje všechny limitní body, tj. jestliže platí, že xn − x → 0, pak x ∈ M. ORTOGONÁLNÍ KOMPLEMENT: ortogonální komplement množiny M je množina M všech prvků H, které jsou ortogonální ke každému prvku z M. Tedy ortogonální komplement je tvaru M = {y ∈ H ⟨x,y⟩ = 0, tj. x y, x ∈ M}. PROJEKČNÍ VĚTA: jestliže M je uzavřený podprostor Hilbertova prostoru a x ∈ H, pak (a) existuje jediný prvek ˆx ∈ M takový, že x − ˆx = inf y∈M x − y (b) ˆx ∈ M a x − ˆx = inf y∈M x − y ⇔ ˆx ∈ M a (x − ˆx) ∈ M . Prvek ˆx se nazývá ortogonální projekcí prvku x z H do M a značíme ˆx = PM(x) a zobrazení PM H → M se nazývá projekcí H do M. VLASTNOSTI PROJEKCE: nechť H je Hilbertův prostor a PM je projekcí H do M. Pak pro každé x,y,xn ∈ H a pro každé α,β ∈ C platí (a) Každý prvek x ∈ H má jedinou reprezentaci jako součet prvku z M a prvku z M , tj. x = PM(x) + (I − PM)(x), kde I značí identické zobrazení (b) PM(αx + βy) = αPM(x) + βPM(y) (c) x 2 = PM(x) 2 + (I − PM)(x) 2 (d) xn − x → n→∞ 0 ⇒ PM(xn) → n→∞ PM(x) (e) x ∈ M ⇔ PM(x) = x (f) x ∈ M ⇔ PM(x) = 0 (g) jestliže M1 a M2 jsou dva podprostory H takové, že M1 ⊆ M2, pak PM1 (PM2 (x)) = PM1 (x). UZÁVĚR: nechť M je podprostor Hilbertova prostoru H. Uzávěrem M (také budeme značit sp(M), anglicky „closed span“) množiny M nazveme nejmenší uzavřenou množinu obsahující M. Poznámka: Platí M=sp(M)={x∈H xn−x → n→∞ 0,xn ∈L(M)}, kde L(M) je množina všech lineárních kombinací prvků množiny M, tzv. lineární obal množiny M. PROJEKCE NA KONEČNÉ ORTONORMÁLNÍ MNOŽINĚ: jestliže {e1,...,en} je ortonormální podmnožina Hilbertova prostoru H a M = sp{e1,...,en}, pak pro každé x ∈ H platí (a) PM(x) = ∑ n i=1⟨x,ei⟩ei (b) PM(x) 2 = ∑ n i=1 ⟨x,ei⟩ 2 (c) x − ∑ n i=1⟨x,ei⟩ei 2 ≤ x − ∑ n i=1 αiei 2 pro ∀α1,...,αn ∈ C (d) x − ∑ n i=1⟨x,ei⟩ei 2 = x − ∑ n i=1 αiei 2 ⇔ αi = ⟨x,ei⟩ pro i = 1,...,n (e) ∑ n i=1 ⟨x,ei⟩ 2 ≤ x (tzv. Besselova nerovnost) Poznámka: koeficienty αi = ⟨x,ei⟩ se nazývají Fourierovy koeficienty vzhledem k množině {e1,...,en}. RNDr. Marie Forbelská, Ph.D. 25 SEPARABILITA: Hilbertův prostor H nazveme separabilním, právě když H = sp{et,t ∈ T}, kde T je spočetná indexová množina. ORTONORMÁLNÍ REPREZENTACE V SEPARABILNÍM: HILBERTOVĚ PROS Nechť H = sp{e1,e2,...} je separabilní Hilbertův prostor, kde {ei}∞ i=1 je ortonormální množina. Pak pro každé x,y ∈ H platí (a) Množina všech konečných lineárních kombinací {e1,...,en} je hustá, tj. pro ∀x ∈ H a ∀ε > 0 ∃n ∈ N a α1,...,αn ∈ C taková, že platí x − ∑ n i=1 αiei < ε. (b) x = ∑ ∞ i=1⟨x,ei⟩ei pro ∀x ∈ H, tj. x − ∑ n i=1⟨x,ei⟩ei → n→∞ 0 (c) x 2 = ∑ ∞ i=1 ⟨x,ei⟩ 2 (tzv. Parsevalova identita) (d) ⟨x,y⟩ = ∑ ∞ i=1⟨x,ei⟩⟨ei,y⟩ (e) x = 0 ⇔ ⟨x,ei⟩ = 0 i = 1,2,... 2. Hilbertův prostor náhodných veličin druhého řádu Zaveďme následující prostory náhodných veličin: Označme L2(Ω,A,P), resp. L2 C(Ω,A,P) množinu všech reálných, resp. komplexních náhodných veličin definovaných nad týmž pravděpodobnostním prostorem (Ω,A,P), které mají konečné druhé momenty, tj. platí EX2 < ∞, resp. E X 2 < ∞. Do tohoto prostoru zahrnujeme také všechny konstanty z R, resp. z C, které považujeme za náhodné veličiny s nulovým rozptylem. V tomto prostoru vytvoříme třídy ekvivalentních náhodných veličin takto: řekneme, že dvě náhodné veličiny jsou ekvivalentní, pokud se liší jen na množině míry nula. Zřejmě X a Y jsou ekvivalentní právě tehdy, platí-li E X − Y 2 = 0. V takto definovaném prostoru tříd ekvivalentních náhodných veličin definujeme pro každé X,Y ∈ L2(Ω,A,P), resp. X,Y ∈ L2 C(Ω,A,P), skalární součin předpisem ⟨X,Y ⟩ = E(XY ) resp. ⟨X,Y ⟩ = E(X ¯Y ) a odpovídající normu X = √ ⟨X,X⟩= √ EX2, resp. X = √ ⟨X,X⟩= √ E(X ¯X)= √ E X 2. Přechod ke třídám je nutný proto, abychom zaručili platnost požadavku ⟨x,x⟩ = 0 ⇔ x = 0. Věta 2.1. Prostory L2(Ω,A,P) a L2 C(Ω,A,P) jsou Hilbertovy prostory. Důkaz. Lze najít například v publikaci autorů Brockwell a Davis, 1991, [15]. Již dříve jsme definovali pojem spojitosti podle středu v bodě t0 ∈ T takto E Xt − Xt0 2 → 0 pro t → t0. což jsme značili Xt0 = l.i.m. t→t0 Xt (zkratka z anglického limit in the mean) a je-li proces {Xt,t ∈ T} spojitý v každém bodě množiny T, říkali jsme stručně, že je spojitý. Tutéž spojitost můžeme definovat i pomocí výše uvedené normy takto Xt − Xt0 2 = E Xt − Xt0 2 → 0 pro t → t0 a pro každý uzavřený podprostor M ⊆ L2 C(Ω,A,P) díky projekční větě můžeme definovat nejlepší střední kvadratickou predikci prvku Y ∈L2 C(Ω,A,P) pomocí M. 26 M5201 Stochastické modely časových řad Definice 2.2. Jestliže M je uzavřený podprostor H, kde H = L2(Ω,A,P), resp. H = L2 C(Ω,A,P), pak nejlepší střední kvadratická predikce Y ∈ H v M je prvek ˆY ∈ M takový, že Y − ˆY 2 = inf Z∈M Y − Z 2 = inf Z∈M E Y − Z 2 tj. ˆY = PM(Y ). Nyní se vrátíme k teoretických základům regresní analýzy. Hlavní úlohou regresní analýzy je provést predikci nějaké závisle proměnné náhodné veličiny Y na základě informace, kterou poskytují měření nějakých jiných náhodných veličin, řekněme X1,...,Xn. Predikce spočívá v nalezení nějaké funkce g(X1,...,Xn), která vhodně aproximuje (predikuje) náhodnou veličinu Y . Kvalitu predikce posoudíme pomocí střední kvadratické chyby predikce E[Y − g(X1,...,Xn)]2. Za optimální budeme považovat takovou volbu predikční funkce g, která uvedenou střední kvadratickou chybu minimalizuje. Připomeňme nejprve tvrzení: Věta 2.3. Nechť Y,X1,...,Xn jsou náhodné veličiny. Označme X = (X1,...,Xn)′ a nechť platí EY 2 < ∞. Pak pro každou měřitelnou funkci g Rk → R platí E(Y − g(X))2 ≥ E[Y − E(Y X)]2 a rovnost v uvedené nerovnosti nastává právě když P(g(X) = E(Y X)) = 1. Důkaz. Musíme uvážit dva případy. (a) Předpokládejme nejprve, že E(g(X)) = ∞. Pak totiž, pokud dokážeme že E(Y −g(X))2 = ∞, potom tvrzení věty je zřejmé. Potřebné tvrzení dokážeme sporem. Jestliže platí, že E(Y −g(X))2 < ∞, pak vzhledem k požadavku EY 2 < ∞ by musela být střední hodnota kvadrátu lineární kombinace [Y − g(X)] − Y = g(X) dvou náhodných veličin Y − g(X) a Y (s konečnými druhými momenty) také konečná, což je ve sporu s předpokladem, E(g(X)) = ∞ (neboť jestliže E(g(X)) = ∞, tím spíše E(g(X))2 = ∞). (b) Nyní budeme předpokládat, že E(g(X)) < ∞. Potom po jednoduchých úpravách dostaneme E(Y−g(X))2 = E {[Y−E(Y X)] − [g(X)−E(Y X)]} 2 = E[Y−E(Y X)]2 − 2E[Y−E(Y X)][g(X)−E(Y X)] + E[g(X)−E(Y X)]2 V dalších využijeme vlastností podmíněných středních hodnot, a to E [E(Z X)] = EZ a E [H(X)G(X,Y ) X] = H(X)E(G(X,Y ) X)). E [Y−E(Y X)][g(X)−E(Y X)] =Z = E ⎧⎪⎪⎪ ⎨ ⎪⎪⎪⎩ E ⎡ ⎢ ⎢ ⎢ ⎢ ⎢ ⎣ (Y−E(Y X))(g(X)−E(Y X)) =Z X ⎤ ⎥ ⎥ ⎥ ⎥ ⎥ ⎦ ⎫⎪⎪⎪ ⎬ ⎪⎪⎪⎭ = E ⎧⎪⎪⎪⎪ ⎨ ⎪⎪⎪⎪⎩ [g(X)−E(Y X)] =H(X) E [Y−E(Y X) X] ⎫⎪⎪⎪⎪ ⎬ ⎪⎪⎪⎪⎭ = E ⎧⎪⎪⎪ ⎨ ⎪⎪⎪⎩ [g(X)−E(Y X)][E(Y X) − E(Y X)] =0 ⎫⎪⎪⎪ ⎬ ⎪⎪⎪⎭ = 0 Protože prostřední člen je nulový a E[g(X)−E(Y X)]2 ≥ 0, důkaz nerovnosti je jasný. Rovnost ve zkoumané nerovnosti nastane právě tehdy, když E[g(X)−E(Y X)]2 = 0, RNDr. Marie Forbelská, Ph.D. 27 což je právě když P(g(X)−E(Y X) = 0) = 1. Z tvrzení věty plyne, že nejlepší predikci náhodné veličiny Y pomocí náhodných veličin X1,...,Xn, která minimalizuje střední kvadratickou chybu E(Y − g(X))2, dostaneme, když položíme g(X) = E(Y X). V této souvislosti potom nejlepší prediktor g(X) = E(Y X) nazýváme regresní funkcí náhodné veličiny Y na náhodných veličinách X1,...,Xn. Z předchozích úvah a z faktu, že v Hilbertově prostoru H = L2(Ω,A,P), resp. H = L2 C(Ω,A,P) (tvořeném náhodnými veličinami s konečnými druhými momenty) je kvadrát normy X − Y 2 = E X − Y 2 střední kvadratickou chybou, vyplývá, že projekcemi jsou podmíněné střední hodnoty. Proto vyslovíme následující dvě definice. Definice 2.4. Jestliže M je uzavřený podprostor H, kde H = L2(Ω,A,P), resp. H = L2 C(Ω,A,P), a X ∈ H, pak definujme podmíněnou střední hodnotu při dané M předpisem EMX = E(X Y ∈ M) = PM(X). Dále definujme Definice 2.5. Nechť X,Z1,...,Zn ∈ H, kde H = L2(Ω,A,P), resp. H = L2 C(Ω,A,P). Pak podmíněná střední hodnota X při daném náhodném vektoru Z = (Z1,...,Zn)′ je dána vztahem E(X Z) = EM(Z)X = E(X Y ∈ M(Z)), kde M(Z) je uzavřený podprostor všech náhodných veličin φ(Z) z H, které jsou borelovskou funkcí náhodného vektoru Z, tj. φ Rn → C, resp. φ Cn → R. Na základě předchozích výsledků můžeme tedy říci, že úloha predikce je teoreticky vyřešena tak, že za nejlepší prediktor stačí zvolit podmíněnou střední hodnotu E(X Z). Ovšem výpočet podmíněné střední hodnoty E(X Z) vyžaduje znalost sdruženého rozdělení náhodného vektoru W = (X,Z1,...,Zn)′, což činí hlavní potíž při praktickém využití předchozích výsledků. V aplikacích nebývá sdružené rozdělení vektoru W = (X,Z1,...,Zk)′ známé, proto se, pokud to praktická situace dovolí, uvažují pouze lineární modely typu g(Z) = α0 + α1Z1 + ⋯ + αnZn, tj. omezíme se na podprostor M = sp{1,Z1,...,Zn} = {1,Z1,...,Zn}. Připomeňme nejprve důležitou vlastnost predikce ˆx ∈ M prvku x ∈ H. Platí tožiž ˆx = PM(x) ∈ M ⇔ ˆx ∈ M ∧ (x − ˆx) ∈ M tj. pro každé y ∈ M platí ⟨x − ˆx,y⟩ = ⟨x,y⟩ − ⟨ˆx,y⟩ = 0 a odtud dostaneme tzv. projekční rovnice ⟨ˆx,y⟩ = ⟨x,y⟩. Dále již uvažujme Hilbertův prostor H = L2 (Ω,A,P) a jeho podprostor M = sp{1,Z1,...,Zn} = {1,Z1,...,Zn}, 28 M5201 Stochastické modely časových řad kde Z1,...,Zn ∈ L2(Ω,A,P). Pak projekce je dána vztahem X = PM(X) = EMX = arg inf Y ∈M X − Y 2 = arg inf Y ∈M E(X − Y )2 a projekční rovnice jsou tvaru E (Y ⋅ EMX) = E(Y ⋅ X). Pro každý prvek z M (tedy i pro 1,Z1,...,Zn) platí tyto rovnice, tj. pro Y = 1 máme E(1 ⋅ EMX) = E(1 ⋅ X) E(1 ⋅ n ∑ i=0 αiZi) = EX n ∑ i=0 αiEZi = EX a pro Y = Zj,j = 1,...,n dostaneme E(Zj ⋅ EMX) = E(Zj ⋅ X) E(Zj ⋅ n ∑ i=0 αiZi) = E(ZjX) n ∑ i=0 αiE(ZiZj) = E(ZjX) Celkem dostáváme systém n + 1 rovnic. Definujme proto nyní nejlepší lineární predikci pomocí obecnějších systémů náhodných veličin druhého řádu {Zt,t ∈ T}. Definice 2.6. Nechť X ∈ H a pro každé t ∈ T také Zt ∈ H, kde T je indexová množina, H = L2(Ω,A,P), resp. H = L2 C(Ω,A,P). Pak nejlepší lineární predikcí náhodné veličiny X pomocí {Zt,t ∈ T} rozumíme Psp{Zt,t∈T}(X). Uvědomíme–li si, že C(Zi,Zj) = E(ZiZj)−EZiEZj, vidíme, že při hledání nejlepší lineární predikce vystačíme se znalostí kovarianční funkce a není třeba znát ani momenty vyšších řádů. 3. Predikce v případě normálně rozdělených náhodných veličin. Je-li sdružené rozdělení náhodných veličin X,Z1,...,Zn normální, tj. (X,Z1,...,Zn)′ ∼ Nn+1(µ,Σ), kde µ = ⎛ ⎜ ⎜ ⎜ ⎜ ⎜ ⎝ µX µZ1 µZ2 µZn ⎞ ⎟ ⎟ ⎟ ⎟ ⎟ ⎠ = ( µX µZ ) a Σ = ⎛ ⎜ ⎜ ⎜ ⎜ ⎜ ⎝ σ2 X σXZ1 σXZ2 ⋯ σXZn σXZ1 σ2 Z1 σZ1Z2 ⋯ σZ1Zn σXZ2 σZ1Z2 σ2 Z2 ⋯ σZ2Zn ⋱ σXZn ⋯ ⋯ ⋯ σ2 Zn ⎞ ⎟ ⎟ ⎟ ⎟ ⎟ ⎠ = ( σ2 X Σ′ XZ ΣXZ ΣZZ ). Pak rozdělení náhodné veličiny X při daném Z má opět normální rozdělení X Z ∼ N (µX Z,σ2 X Z), RNDr. Marie Forbelská, Ph.D. 29 kde µX Z = µX + Σ′ XZΣ−1 ZZ(Z − µZ) a σ2 X Z = σ2 X + Σ′ XZΣ−1 ZZΣZX Odtud vidíme, že podmíněná střední hodnota je lineární funkcí náhodného vektoru Z = (Z1,...,Zn)′ . To znamená, že v případě vícerozměrného normálního rozdělení je nejlepší lineární predikce totožná s optimální predikcí (ve smyslu minimální střední kvadratické chyby) založené na podmíněných středních hodnotách. KAPITOLA 3 Jednorozměrné stacionární procesy 1. Základní pojmy V dalším budeme uvažovat centrované stacionární náhodné posloupnosti {Yt,t ∈ Z}, kde Yt ∈ L2(Ω,A,P), což je Hilbertův prostor reálných náhodných veličin s konečnými druhými momenty, ve kterém dvě náhodné veličiny X a Y považujeme za ekvivalentní, pokud P(X = Y ) = 1. 1.1. Operátor zpětného posunutí. Definice 1.1. Nechť {Yt,t ∈ Z} je posloupnost náhodných veličin. Operátor zpětného posunutí je definován pomocí výrazu BYt = Yt−1 , přičemž jej lze aplikovat několikanásobně jako Bj Yt = Yt−j. 1.2. Lineární proces. Než zavedeme pojem lineárního procesu, vyslovme větu, která zabezpečuje jeho korektnost. Věta 1.2. Nechť {εt,t ∈ Z} ∼ WN(0,σ2 ε ) je bílým šumem, dále mějme posloupnost reálných čísel {ψj}∞ j=0 takovou, že ∞ ∑ j=0 ψ2 j < ∞. Pak řada ∞ ∑ j=0 ψjεj konverguje podle kvadratického středu, tj. existuje náhodná veličina Y ∈ L2(Ω,A,P) a platí Y = l.i.m. N→∞ N ∑ j=0 ψjεj. Důkaz. Víme, že bílý šum εt ∈ L2(Ω,A,P). Pro libovolná přirozená čísla k,N ∈ N platí N+k ∑ j=0 ψjεj − N ∑ t=0 ψtεt 2 = E N+k ∑ j=0 ψjεj − N ∑ t=0 ψtεt 2 = E N+k ∑ j=N+1 ψjεj 2 = E ( N+k ∑ j=N+1 ψjεj)( N+k ∑ h=N+1 ψhεh) = N+k ∑ j=N+1 N+k ∑ h=N+1 ψjψh E εjεh nekorel. = σ2 ε N+k ∑ j=N+1 ψ2 j → N→∞ 0 Posloupnost částečných součtů je tedy cauchyovská, tj. existuje k ní limita Y = l.i.m. N→∞ N ∑ j=0 ψjεj. Definice 1.3. Mějme {εt,t ∈ Z} ∼ WN(0,σ2 ε ) a posloupnost reálných čísel {ψj}∞ j=0 takovou, že ∞ ∑ j=0 ψ2 j < ∞, pak lineární proces je definován vztahem Yt = ∞ ∑ j=0 ψjεt−j . 31 32 M5201 Stochastické modely časových řad Počítejme postupně střední hodnotu, rozptyl a autokovarianční funkci lineárního procesu a přesvědčeme se, že lineární proces je stacionární. EYt = E ( ∞ ∑ j=0 ψjεt−j) = ∞ ∑ j=0 ψj Eεt−j =0 = 0 DYt = D ( ∞ ∑ j=0 ψjεt−j) nekorel. = ∞ ∑ j=0 ψ2 j Dεt−j =σ2 ε = σ2 ε ∞ ∑ j=0 ψ2 j = σ2 Y γ(t) = C(Ys,Ys+t) = EYsYs+t = E ( ∞ ∑ j=0 ψjεs−j)( ∞ ∑ h=0 ψhεs+t−h) = ∞ ∑ j=0 ∞ ∑ h=0 ψjψhE εs−jεs+t−h nekorel. = s − j = s + t − h h = j + t = σ2 ε ∞ ∑ j=0 ψjψj+t. Ze Schwarzovy nerovnosti dostaneme γ(t) = C(Ys,Ys+t) = σ2 ε ∞ ∑ j=0 ψjψj+t ≤ √ DYsDYs+t = γ(0) = σ2 ε ∞ ∑ j=0 ψ2 j < ∞. Podmínka stacionarity je tedy podmínka ∞ ∑ j=0 ψ2 j < ∞. Pokud zavedeme funkci Ψ(z) = ∞ ∑ j=0 ψjzj , pak podmínka ∞ ∑ j=0 ψ2 j < ∞ implikuje, že funkce Ψ(z) je holomorfní uvnitř kružnice z < 1. Takže podmínku stacionarity lze vyslovit i pomocí podmínky Ψ(z) je holomorfní pro z < 1, přičemž ∞ ∑ j=0 ψ2 j < ∞. Oba požadavky budou splněny, pokud bude platit Ψ(z) je holomorfní uvnitř a na jednotkové kružnici. RNDr. Marie Forbelská, Ph.D. 33 Lineární proces lze ještě zobecnit takto: Definice 1.4. Mějme {εt,t ∈ Z} ∼ WN(0,σ2 ε ) a posloupnost reálných čísel {ψj}∞ j=−∞ takovou, že ∞ ∑ j=−∞ ψ2 j < ∞, pak zobecněný lineární proces je definován vztahem Yt = ∞ ∑ j=−∞ ψjεt−j . Pro takto definovaný zobecněný lineární proces dokážeme obdobným způsobem jak pro obyčejný lineární proces spočítat EYt = 0, DYt = σ2 ε ∞ ∑ j=−∞ ψ2 j a γ(t) = σ2 ε ∞ ∑ j=−∞ ψjψj+t. Na závěr tohoto odstavce počítejme ještě spektrální hustotu zobecněného lineárního procesu. Nejprve odvodíme spektrální hustotu bílého šumu, a to pomocí jeho autokovarianční funkce γε(t) fε(ω) = 1 2π ∞ ∑ t=−∞ e−itω γε(t) = 1 2π ∞ ∑ t=−∞ e−itω σ2 ε δ(t) = ⎧⎪⎪ ⎨ ⎪⎪⎩ σ2 ε 2π ω ∈ ⟨−π,π⟩, 0 jinak kde δ(t) = { 1 t = 0, 0 jinak. Pak pomocí autokovarianční funkce zobecněného lineárního procesu počítáme spektrální hustotu pro ω ∈ ⟨−π,π⟩ fY (ω) = 1 2π ∞ ∑ t=−∞ e−itω γ(t) = 1 2π ∞ ∑ t=−∞ e−itω (σ2 ε ∞ ∑ j=−∞ ψjψj+t) = σ2 ε 2π fε(ω) ∞ ∑ j=−∞ ψj ∞ ∑ t=−∞ ψj+te−itω = fε(ω) ∞ ∑ j=−∞ ψjeijω ∞ ∑ t=−∞ ψj+te−i(j+t)ω = fε(ω) ∞ ∑ t=−∞ ψje−itω 2 = fε(ω) ∞ ∑ t=−∞ ψjeitω 2 neboť z 2 = z ⋅ ¯z Pokud položíme Ψ(z) = ∞ ∑ j=−∞ ψjzj, pak můžeme psát fY (ω) = fε(ω) Ψ(e−iω ) 2 = σ2 ε 2π Ψ(e−iω ) 2 (= σ2 ε 2π Ψ(eiω ) 2 ). 1.3. Lineární filtry. Věta 1.5. Nechť {Xt,t ∈ Z} je (centrovaná) stacionární náhodná posloupnost a {ψj}∞ j=−∞ je absolutně konvergentní posloupnost reálných čísel (tj. ∞ ∑ j=−∞ ψj < ∞). Pak platí Yt = ∞ ∑ j=−∞ ψjXt−j ∈ L2 (Ω,A,P) tj. {Yt,t ∈ Z} je stacionární náhodná posloupnost. Důkaz. Je zřejmé, že stačí dokázat existenci náhodných veličin Y (1) t = −1 ∑ j=−∞ ψjXt−j a Y (2) t = ∞ ∑ j=0 ψjXt−j, protože pak bude platit Yt = Y (1) t + Y (2) t . Označme γX(h) = EXtEXt+ h a γX(0) = σ2 X > 0. 34 M5201 Stochastické modely časových řad Pak pro libovolná přirozená čísla k,N ∈ N platí N+k ∑ j=0 ψjXt−j− N ∑ h=0 ψhXt−h 2 = E N+k ∑ j=0 ψjXt−j − N ∑ h=0 ψhXt−h 2 = E N+k ∑ j=N+1 ψjXt−j 2 = E ( N+k ∑ j=N+1 ψjXt−j)( N+k ∑ h=N+1 ψhXt−h) = N+k ∑ j=N+1 N+k ∑ h=N+1 ψjψh EXt−jXt−h γ(j−h) ≤γX (0)=σ2 X ≤ σ2 X N+k ∑ j=N+1 N+k ∑ h=N+1 ψj ψh = σ2 X <∞ ⎛ ⎜ ⎜ ⎜ ⎜ ⎜ ⎝ N+k ∑ j=N+1 ψj →0 ⎞ ⎟ ⎟ ⎟ ⎟ ⎟ ⎠ 2 → N→∞ 0. Posloupnost částečných součtů je tedy cauchyovská (podle kvadratického středu), tj. existuje k ní limita Y (1) t = l.i.m. N→∞ N ∑ j=0 ψjXt−j, Y (1) t ∈ L2 (Ω,A,P), tj. Y (1) t má nulovou střední hodnotu a konečný rozptyl a je tedy stacionární. Podobně se dokáže i existence stacionární náhodné posloupnosti Y (2) t . Definice 1.6. Nechť {Xt,t ∈ Z} je stacionární náhodná posloupnost a {ψj}∞ j=−∞ je absolutně konvergentní posloupnost reálných čísel (tj. ∞ ∑ j=−∞ ψj < ∞). Pak Yt = ∞ ∑ j=−∞ ψjXt−j nazveme lineárním filtrem procesu {Xt,t ∈ Z}. Věta 1.7. Mějme centrovanou stacionární náhodnou posloupnost {Xt,t ∈ Z} se spektrální hustotou fX(ω). Nechť {ψj}∞ j=−∞ je absolutně konvergentní posloupnost reálných čísel (tj. ∞ ∑ j=−∞ ψj < ∞). Pak náhodná posloupnost Yt = ∞ ∑ j=−∞ ψjXt−j je stacionární se spektrální hustotou fY (ω) = fX(ω) Ψ(e−iω ) 2 , kde Ψ(z) = ∞ ∑ j=−∞ ψjzj z ≤ 1 se nazývá generující funkce filtru a ψ(ω) = Ψ(e−iω ) přenosová funkce filtru. Důkaz. Stacionaritu jsme dokázali v předchozí větě. Nyní počítejme autokovarianční funkci. γY (t) = C(Ys,Ys+t) = C ( ∞ ∑ j=−∞ ψjXs−j, ∞ ∑ h=−∞ ψhXs+t−h) = ∞ ∑ j=−∞ ∞ ∑ h=−∞ ψjψhC(Xs−j,Xs+t−h) = ∞ ∑ j=−∞ ∞ ∑ h=−∞ ψjψhγX(t + j − h) = ∞ ∑ j=−∞ ∞ ∑ h=−∞ ψjψh π ∫ −π ei(t+j−h)ωfX(ω)dω = π ∫ −π eitω ( ∞ ∑ j=−∞ ψjeijω)( ∞ ∑ h=−∞ ψhe−ihω)fX(ω)dω = π ∫ −π eitω ∞ ∑ j=−∞ ψjeijω 2 fX(ω)dω = π ∫ −π eitω ∞ ∑ h=−∞ ψje−ihω 2 fX(ω)dω. RNDr. Marie Forbelská, Ph.D. 35 Označme Ψ(z) = ∞ ∑ j=−∞ ψjzj pro z ≤ 1. Pak, protože platí γY (t) = ∫ π −π eitω fY (ω)dω, dostaneme fY (ω) = fX(ω) Ψ(e−iω ) 2 = fX(ω) Ψ(eiω ) 2 . 1.4. Definice ARMA procesu. Definice 1.8. ARMA proces řádu p,q je definován vztahem Yt − ϕ1Yt−1 − ⋯ − ϕpYt−p = εt + θ1εt−1 + ⋯ + θqεt−q , kde εt ∼ WN(0,σ2 ε ), přičemž pomocí operátoru zpětného chodu lze psát Yt ∼ ARMA(p,q) Φ(B)Yt = Θ(B)εt, kde Φ(B) = 1 − ϕ1B − ⋯ − ϕpBp (ϕ0 ≡ 1) a Θ(B) = 1 + θ1B + ⋯ + θqBq (θ0 ≡ 1). Řekneme, že {Yt,t ∈ Z} je ARMA(p,q) se střední hodnotou µ, jestliže {Yt −µ} je ARMA(p,q) proces. Speciální případy ARMA procesů nazýváme: Autoregresní proces (AR proces): Yt ∼ AR(p) ∼ ARMA(p,0), tj. q = 0 Proces klouzavých součtů (MA proces): Yt ∼ MA(q) ∼ ARMA(0,q), tj. p = 0 1.5. Kauzalita. Dříve než zavedeme pojem kauzality, všimněme si blíže AR(1) procesu. Yt = 0.5Yt−1 + εt, εt ∼ N(0,1) 0 50 100 150 200 250 300 −4 −3 −2 −1 0 1 2 3 4 Yt = −0.5Yt−1 + εt, εt ∼ N(0,1) 36 M5201 Stochastické modely časových řad 0 50 100 150 200 250 300 −4 −3 −2 −1 0 1 2 3 4 Yt = 0.85Yt−1 + εt, εt ∼ N(0,1) 0 50 100 150 200 250 300 −6 −4 −2 0 2 4 6 Yt = −0.25Yt−1 + εt, εt ∼ N(0,1) 0 50 100 150 200 250 300 −3 −2 −1 0 1 2 3 4 Obrázek 1. Ukázky autoregresních procesů 1. řádu Pro autoregresní proces prvního řádu Yt − ϕ1Yt−1 = εt postupně v k krocích upravujme Yt = ϕ1Yt−1 + εt = ϕ1 (ϕ1Yt−2 + εt−1) + εt = ϕ2 1Yt−2 + ϕ1εt−1 + εt = ϕ2 1 (ϕ1Yt−3 + εt−2) + ϕ1εt−1 + εt = ϕ3 1Yt−3 + ϕ2 1εt−2 + ϕ1εt−1 + εt = ϕk 1 (ϕ1Yt−k−1+εt−k)+ k−1 ∑ j=0 ϕj 1εt−j = ϕk+1 1 Yt−k−1 + k ∑ j=0 ϕj 1εt−j (1) Uvažujme nejprve případ, kdy ϕ1 < 1 a {Yt,t ∈ Z} je stacionární, tj. Yt ∈ L2(Ω,A,P) a EY 2 t < ∞, pak Yt− k ∑ j=0 ϕj 1εt−j 2 = ϕk+1 1 Yt−k−1 2 =E ϕk+1 1 Yt−k−1 2 = ϕ2k+2 1 →0 E Yt−k−1 2 =σ2 Y <∞ → k→∞ 0 RNDr. Marie Forbelská, Ph.D. 37 tj. ∞ ∑ j=0 ϕj 1εt−j konverguje podle kvadratického středu k Yt a můžeme psát Yt = ∞ ∑ j=0 ϕj 1εt−j. Pak dokážeme spočítat EYt = E ∞ ∑ j=0 ϕj 1εt−j = ∞ ∑ j=0 ϕj 1Eεt−j = 0 DYt = D ∞ ∑ j=0 ϕj 1εt−j nekorel. = ∞ ∑ j=0 ϕ2j 1 Dεt−j = σ2 ε ∞ ∑ j=0 ϕ2j 1 = σ2 ε 1−ϕ2 1 γ(t) = C(Ys,Ys+ t ) = E(Ys ⋅ Ys+ t ) = E ( ∞ ∑ j=0 ϕj 1εs−j)( ∞ ∑ h=0 ϕh 1εs+ t −h) = ∞ ∑ j=0 ∞ ∑ h=0 ϕj 1ϕh 1E εs−jεs+ t −h nekorel. = s − j = s + t − h h = j + t = σ2 ε ∞ ∑ j=0 ϕj 1ϕ j+ t 1 = ϕ t 1 1−ϕ2 1 σ2 ε . Autokorelační funkce (ACF) je pak tvaru ρ(t) = γ(t) γ(0) = ϕ t 1 . ACF pro Yt = 0.5Yt−1 + εt −10 −8 −6 −4 −2 0 2 4 6 8 10 0 0.2 0.4 0.6 0.8 1 ACF pro Yt = −0.5Yt−1 + εt −10 −8 −6 −4 −2 0 2 4 6 8 10 −0.6 −0.4 −0.2 0 0.2 0.4 0.6 0.8 1 Obrázek 2. Ukázky autokorelačních funkcí 38 M5201 Stochastické modely časových řad Pomocí generující funkce filtru ΨAR(1)(z) = ∞ ∑ j=0 ϕj 1zj = 1 1 − ϕ1z pro z < 1 a ϕ1 < 1 dokážeme snadno spočítat i spektrální hustotu fAR(1)(ω) = σ2 ε 2π ΨAR(1) (e−iω ) 2 = σ2 ε 2π 1 1 − ϕ1e−iω 2 = σ2 ε 2π 1 e−iω(eiω − ϕ1) 2 = σ2 ε 2π 1 eiω − ϕ1 2 . fAR(1)(ω) pro Yt = 0.5Yt−1 + εt −3 −2 −1 0 1 2 3 0.1 0.2 0.3 0.4 0.5 0.6 fAR(1)(ω) pro Yt = −0.5Yt−1 + εt −3 −2 −1 0 1 2 3 0.1 0.2 0.3 0.4 0.5 0.6 Obrázek 3. Ukázky spektrálních hustot (2) Dále řešme případ, kdy ϕ1 > 1. Použijeme-li vztah Yt−1 = 1 ϕ1 Yt − 1 ϕ1 εt a postupně v k krocích budeme upravovat Yt = 1 ϕ1 Yt+1− 1 ϕ1 εt+1 = 1 ϕ1 ( 1 ϕ1 Yt+2− 1 ϕ1 εt+2)− 1 ϕ1 εt+1 = 1 ϕ2 1 Yt+2− 1 ϕ2 1 εt+2− 1 ϕ1 εt+1 = 1 ϕ2 1 ( 1 ϕ1 Yt+3− 1 ϕ1 εt+3)− 1 ϕ2 1 εt+2− 1 ϕ1 εt+1 = 1 ϕ3 1 Yt+3 − 1 ϕ3 1 εt+3 − 1 ϕ2 1 εt+2 − 1 ϕ1 εt+1 = 1 ϕk+1 1 Yt+k+1 − k ∑ j=0 1 ϕk+1−j 1 εt−j, stejně jako v předchozím případu −∑ ∞ j=0 1 ϕj 1 εt−j konverguje podle kvadratického středu k Yt. Avšak vidíme, že Yt zde vyjadřujeme pomocí budoucích hodnot {εs,s > t}. Tím porušujeme přirozenou podmínku, že Yt je na budoucnosti nezávislá a říkáme, že není kauzální. (3) V případě, že platí ϕ1 = 1, pak AR(1) není stacionární, jde o tzv. náhodnou procházku. Nyní již můžeme zavést pojem kauzality. Definice 1.9. ARMA proces Yt ∼ ARMA(p,q) se nazývá kauzální, jestliže existuje absolutně konvergentní posloupnost reálných čísel Ψ = {ψj}∞ j=0, (tj. ∑ ∞ j=0 ψj < ∞) tak, že Yt = ∞ ∑ j=0 ψjεt−j, tj. zkráceně Yt ∼ MA(∞) Yt = Ψ(B)εt. RNDr. Marie Forbelská, Ph.D. 39 Poznámka 1.10. Protože platí ∞ ∑ j=0 ψ2 j ≤ ( ∞ ∑ j=0 ψj ) 2 < ∞, pak kauzální proces Yt = ∞ ∑ j=0 ψjεt−j je lineárním procesem. Protože lineární proces je stacionárním procesem, je kauzální ARMA proces Yt ∼ ARMA(p,q), kde ∑ ∞ j=0 ψj < ∞, také stacionárním procesem. Autoregresní proces p –tého řádu: AR(p) Φ(B)Yt = εt Mějme polynom Φ(z) = ϕ0 − ϕ1z − ⋯ − ϕpzp a nechť 1 λj jsou jeho kořeny, tj. Φ( 1 λj ) = 0. Pak platí ϕ0 − ϕ1z − ⋯ − ϕpzp = ϕp ∏ j (z − 1 λj ) = ϕ0 ∏ j (1 − λjz), v našem případě ϕ0 = 1 a ϕp ≠ 0. Proveďme tedy rozklad polynomu Φ(z) na součin kořenových činitelů Φ(z) = (1 − λ1z)p1 ...(1 − λkz)pk , kde z01 = 1 λ1 ,...,z0k = 1 λk jsou rozdílné (reálné či komplexní) kořeny polynomu Φ(z), p1,...,pk je jejich násobnost (přičemž platí p1 + ⋯ + pk = p). Budeme hledat takovou absolutně konvergentní posloupnost čísel Ψ = {ψj}∞ j=0 tak, aby Yt = ∞ ∑ j=0 ψjεt−j = Ψ(B)εt byl kauzální proces. Takže postupně odvozujme εt = Φ(B) Yt =Ψ(B)εt = Φ(B)Ψ(B)εt, tj. Φ(B)Ψ(B) = 1 nebo Φ(z)Ψ(z) = 1 čili Ψ(z) = 1 Φ(z) . Z věty o rozkladu na částečné zlomky dostáváme (pokud pro názornost předpokládáme, že všechny kořeny jsou jednoduché) 1 Φ(z) = 1 (1 − λ1z)...(1 − λpz) = c1 1 − λ1z + ⋯ + cp 1 − λpz pro vhodná c1,...,cp. Pokud pro k = 1,...,p platí λkz < 1, můžeme psát ck 1 − λkz = ck ∞ ∑ j=0 (λkz)j a dokázali jsme najít konvergentní řadu Ψ(z) = ∞ ∑ j=0 ψjzj = p ∑ k=1 ck ∞ ∑ j=0 λj kzj = ∞ ∑ j=0 (c1λj 1 + ⋯ + cpλj p)zj , 40 M5201 Stochastické modely časových řad přičemž ψj = c1λj 1 + ⋯ + cpλj p, neboť Ψ(z) = 1 Φ(z) je holomorfní pro z ≤ 1 pouze když λ1 < 1,..., λp < 1 ⇔ 1 λ1 > 1 z01 >1 ,..., 1 λp > 1 z0p >1 , tedy všechny kořeny polynomu Φ(z) musí ležet vně jednotkové kružnice. Tím jsme ukázali, že existuje řešení Yt = ∞ ∑ j=0 ψjεt−j tzv. stochastické diferenční rovnice Yt − ϕ1Yt−1 − ... − ϕpYt−p = εt εt ∼ WN(0,σ2 ε ) (12) a tímto řešením je kauzální autoregresní posloupnost řádu p. Protože Yt je lineární proces, je toto řešení stacionární. Podmínka týkající se kořenů polynomu Φ(z) je podstatná. Lze ukázat, že v případě, kdy alespoň jeden kořen polynomu Φ(z) leží uvnitř nebo na hranici jednotkové kružnice, neexistuje kauzální posloupnost {Yt,t ∈ Z} splňující stochastickou diferenční rovnici (12). Snadno se dá ukázat, že toto řešení je jediné. Střední hodnota, rozptyl, autokovariance a autokorelace AR(p) Pro kauzální AR(p) procesy počítejme nejprve EYt = E ∞ ∑ j=0 ψjεt−j = ∞ ∑ j=0 ψjEεt−j = 0. Abychom mohli spočítat rozptyl kauzálního AR(p) procesu, nejprve rovnici Yt = ϕ1Yt−1 + ⋯ + ϕpYt−p + εt vynásobíme výrazem Yt a spočítáme střední hodnoty obou stran, tj. EY 2 t = ϕ1EYt−1Yt + ⋯ + ϕpEYt−pYt + EεtYt. (A1) Protože EYt = 0, pak autokovarianční funkce je rovna γ(j) = C(Yt,Yt−j) = E(Yt − EYt)(Yt−j − EYt−j) = EYtYt−j a rozptyl γ(0) = EY 2 t = DYt. Dále spočtěme EYtεt = E ( ∞ ∑ j=0 ψjεt−j)εt = ∞ ∑ j=0 ψjEεt−jεt = ∞ ∑ j=0 ψjσ2 ε δ(j) = σ2 ε , kde δ(j) = { 1 j = 0, 0 jinak. Vraťme se k rovnici (A1), pak po dosazení EYtεt = σ2 ε a γ(0) = EY 2 t dostaneme γ(0) = ϕ1γ(1) + ⋯ + ϕpγ(p) + σ2 ε . (A2) Podělme obě strany rovnice (A2) výrazem γ(0) > 0 a protože pro autokorelaci platí ρ(k) = γ(k) γ(0) , dosta- neme ρ(0) =1 = ϕ1ρ(1) + ⋯ + ϕpρ(p) + σ2 ε γ(0) RNDr. Marie Forbelská, Ph.D. 41 a odtud již plyne, že DYt = γ(0) = σ2 ε 1−ϕ1ρ(1)−⋯−ϕpρ(p). Při výpočtu autokovariance (nebo autokorelace ACF) budeme předpokládat, že k > 0, neboť γ(0) = DYt již jsme spočítali. Rovnici Yt = ϕ1Yt−1 + ⋯ + ϕpYt−p + εt vynásobíme výrazem Yt−k a spočítáme střední hodnoty obou stran, tj. EYtYt−k = ϕ1EYt−1Yt−k + ⋯ + ϕpEYt−pYt−k + EεtYt−k. (A3) Připomeňme, že s využitím vztahu EYt = 0, je γ(k) = C(Yt,Yt−k) = E(Yt − EYt)(Yt−k − EYt−k) = EYtYt−k. Spočtěme EYt−kεt = E ( ∞ ∑ j=0 ψjεt−j−k)εt = ∞ ∑ j=0 ψjEεt−j−kεt = ∞ ∑ j=0 ψjσ2 δj+k =0 = 0. Vraťme se k rovnici (A3), pak po dosazení EYtεt = 0 a γ(k) = EYtYt−k dostaneme γ(k) = ϕ1γ(k − 1) + ⋯ + ϕpγ(k − p) (A4) Podělme obě strany rovnice (A4) výrazem γ(0) a protože ρ(k) = γ(k) γ(0) , dostaneme tzv. YuleovyWalkerovy rovnice. ρ(k) = ϕ1ρ(k − 1) + ⋯ + ϕpρ(k − p) k ≥ 1 (A5) Explicitní vyjádření autokorelační funkce procesu AR(p) Při explicitním vyjádření autokorelační funkce procesu vyjdeme z Yuleo-Walkerových rovnic ρ(k) = ϕ1ρ(k − 1) + ⋯ + ϕpρ(k − p) k ≥ 1. Označme Bρ(k) = ρ(k − 1), přičemž ρ(0) = 1 a ρ(−j) = ρ(j) a hledejme řešení tzv. homogenní diferenční rovnice ρ(k) − ϕ1ρ(k − 1) − ⋯ − ϕpρ(k − p) = 0 k ≥ 1 tj. Φ(B)ρ(k) = 0 . Poznámka: Řešení homogenní diferenční rovnice Mějme polynom Φ(z) = ϕ0 − ϕ1z − ⋯ − ϕpzp a nechť 1 λj jsou jeho kořeny, tj. Φ( 1 λj ) = 0. Pak platí ϕ0 − ϕ1z − ⋯ − ϕpzp = ϕp ∏ j (z − 1 λj ) = ϕ0 ∏ j (1 − λjz), v našem případě ϕ0 = 1 a ϕp ≠ 0. (1) Nechť 1 λj je kořen polynomu Φ(z), pak λk j je řešením Φ(B)ρ(k) = 0. Důkaz: Φ(B)λk j = (1 − ϕ1B − ⋯ − ϕpBp )λk j = λk j − ϕ1λk−1 j − ⋯ − ϕpλk−p j = λk j (1 − ϕ1 1 λj − ⋯ − ϕp 1 λp j ) = Φ( 1 λj )λk j = 0. nebo ekvivalentně: jestliže uvažujeme faktorizaci Φ(B) = ϕ0 ∏i(1 − λiB), tak mezi faktory je i člen (1 − λjB) a platí (1 − λjB)λk j = λk j − λjB(λk j ) = λk j − λj ⋅ λk−1 j = 0. 42 M5201 Stochastické modely časových řad (2) Nechť 1 λ1 ,..., 1 λp jsou různé jednoduché kořeny, pak c1λk 1 + ⋯ + cpλk p jsou řešením homogenní diferenční rovnice a c1,...,cp jsou konstanty, které jsou určeny počátečními podmínkami. (3) Je-li kořen 1 λj dvojnásobný kořen, pak λk j a kλk j jsou řešeními Φ(B)ρ(k) = 0. Důkaz: Díky faktorizaci můžeme psát Φ(B) = (1 − λjB)2 ∏k≠j(1 − λkB). Pak (1 − λjB)2 λk j = (1 − 2λjB + λ2 j B2 )λk j = λk j − 2λjλk−1 j + λ2 j λk−2 j = 0 (1 − λjB)2 kλk j = (1 − 2λjB + λ2 j B2 )kλk j = kλk j − 2λj(k − 1)λk−1 j + λ2 j (k − 2)λk−2 j = kλk j − 2tλk j + kλk j + 2λk j − 2λk j t = 0. (4) Analogicky dostaneme: je-li kořen 1 λj r-tého řádu, pak λk j , kλk j ,...,kr−1 λk j jsou řešeními Φ(B)ρ(k) = 0. Shrneme-li tedy předchozí, za předpokladu, že 1 λ1 ,..., 1 λm jsou různé kořeny s násobnostmi p1,...,pm, přičemž p = p1 + ⋯ + pm, pak řešení homogenní diferenční rovnice Φ(B)ρ(k) = 0 je tvaru ρ(k) = m ∑ j=1 ( pj−1 ∑ s=0 cjsks )λk j , kde cjs jsou konstanty, které jsou určeny počátečními podmínkami. Dále položme λj = rjeiθj . Pak máme ρ(k) = m ∑ j=1 ( pj−1 ∑ s=0 cjsks )rk j eikθj , Vzhledem k tomu, že platí λj = rj < 1, dostáváme odtud, že ρ(k) klesá pro k → ∞ exponenciálně k nule, tj. ρ(k) → k→∞ 0, což je velmi důležitá identifikační vlastnost autoregresních AR(p) procesů. RNDr. Marie Forbelská, Ph.D. 43 1.6. Invertibilita. Víme, že kauzální autoregresní proces konečného řádu p lze vyjádřit pomocí MA procesu nekonečného řádu, tj. AR(p) ≡ MA(∞). Zajímá nás, za jakých podmínek můžeme MA proces konečného řádu vyjádřit pomocí autoregresního procesu nekonečného řádu, tj. MA(q) ≡ AR(∞). Nejprve si všimneme jednoduchého případu, a to MA(1) procesu. Yt = εt + 0.5εt−1, εt ∼ N(0,1) 0 50 100 150 200 250 300 −3 −2 −1 0 1 2 3 Yt = εt − 0.5εt−1, εt ∼ N(0,1) 0 50 100 150 200 250 300 −4 −3 −2 −1 0 1 2 3 Yt = εt + 0.85εt−1, εt ∼ N(0,1) 0 50 100 150 200 250 300 −4 −3 −2 −1 0 1 2 3 Yt = εt − 0.25εt−1, εt ∼ N(0,1) 0 50 100 150 200 250 300 −3 −2 −1 0 1 2 3 4 Obrázek 4. Ukázky MA procesů prvního řádu 44 M5201 Stochastické modely časových řad MA proces prvního řádu: Yt ∼ MA(1) Yt = εt + θ1εt−1, εt ∼ WN(0,σ2 ε ) . (a) Nejprve předpokládejme, že θ1 ozn. = θ < 1 . Využijeme-li vztahu Yt = εt + θεt−1 ⇒ εt = Yt + θεt−1, můžeme postupně upravovat εt = Yt + θεt−1 = Yt + θ (Yt−1 + θεt−2) = Yt + θYt−1 + θ2 εt−2 = k ∑ j=0 θj Yt−j + θk+1 εt−k−1 a εt − k ∑ j=0 θj Yt−j 2 = E εt − k ∑ j=0 θj Yt−j 2 = E θk+1 εt−k−1 2 = θ2(k+1) σ2 ε → k→∞ 0, tedy εt = ∞ ∑ j=0 θj Yt−j pro θ < 1. (b) Za předpokladu, že platí θ1 ozn. = θ > 1 a s využitím vztahu εt−1 = 1 θ Yt − 1 θ εt můžeme opět postupně upravovat εt = 1 θ Yt+1+1 θ εt+1 = 1 θ Yt+1+1 θ (1 θ Yt+2+1 θ εt+2) = k+1 ∑ j=1 1 θj Yt+j + 1 θk+1 εt+k+1. I když posloupnost N ∑ j=1 1 θj Yt+j konverguje pro N → ∞ také k εt, tento rozvoj nemá praktický smysl, neboť εt je vyjadřena pomocí budoucích hodnot {Ys,s > t}. RNDr. Marie Forbelská, Ph.D. 45 (c) Nakonec si všimněme dalšího důležitého faktu, a to že pokud platí θ > 1 , a uvažujeme-li dva procesy (1) Yt = εt + θεt−1 εt ∼ WN(0,σ2), (2) Xt = ηt + 1 θ ηt−1 ηt ∼ WN(0,θ2σ2), pak oba dva procesy mají stejné první a druhé momenty, neboť EYt = E (εt + θεt−1) = Eεt + θEεt−1 = 0, EXt = E (ηt + 1 θ ηt−1) = Eηt + 1 θ Eηt−1 = 0, a také autokovarianční funkce obou procesů se rovnají γY (k) = EYtYt+k = E (εt + θεt−1)(εt+k + θεt+k−1) = Eεtεt+k + θEεtεt+k−1 + θEεt−1εt+k + θ2 Eεt−1εt+k−1 = pokud: t = t + k t = t + k − 1 t − 1 = t + k t − 1 = t + k − 1 pak: k = 0 k = 1 k = −1 k = 0 = ⎧⎪⎪⎪⎪ ⎨ ⎪⎪⎪⎪⎩ σ2 + θ2σ2 = σ2(1 + θ2) k = 0 θσ2 k = ±1 0 jinak γX(k) = EXtXt+k = E (ηt + 1 θ ηt−1)(ηt+k + 1 θ ηt+k−1) = Eηtηt+k + 1 θ Eηtηt+k−1 + 1 θ Eηt−1ηt+k + 1 θ2 Eηt−1ηt+k−1 = ⎧⎪⎪⎪⎪ ⎨ ⎪⎪⎪⎪⎩ θ2σ2 + 1 θ2 θ2σ2 = σ2(1 + θ2) k = 0 1 θ θ2σ2 = θσ2 k = ±1 0 jinak. I když obě invertibilní i neinvertibilní MA reprezentace generují procesy se stejnými momenty prvního a druhého řádu, z praktických důvodů dáváme přednost procesu invertibilnímu, neboť nepozorovatelné veličiny εt můžeme odhadnout pomocí přítomných a minulých hodnot pozorovatelných veličin {Xs,s < t}, kdežto u neinvertibilních MA reprezentací nepozorovatelné veličiny εt neodhadneme, neboť nemáme ještě k dispozici budoucí hodnoty {Ys,s > t}. Nyní již můžeme podat definici invertibility. Definice 1.11. ARMA proces Yt ∼ ARMA(p,q) se nazývá invertibilní, jestliže existuje absolutně konvergentní posloupnost reálných čísel π = {πj}∞ j=0 (tj. ∑ ∞ j=0 πj < ∞,) tak, že εt = ∞ ∑ j=0 πjYt−j, tj. zkráceně Yt ∼ AR(∞) εt = π(B)Yt. Dále vyšetřeme, za jakých podmínek je invertibilní MA proces řádu q. 46 M5201 Stochastické modely časových řad MA proces řádu q: Yt ∼ MA(q) Yt = εt + θ1εt−1 + ⋯ + θqεt−q εt ∼ WN(0,σ2 ε ) . Naprosto analogickým postupem jako v případě kauzálního AR(p) procesu, lze ukázat, že všechny kořeny Θ(z) musí ležet vně jednotkového kruhu. Proveďme tedy nejprve rozklad polynomu Θ(z) = 1 + θ1z + ⋯ + θqzq na součin kořenových činitelů Θ(z) = (1 − λ1z)r1 ...(1 − λkz)rk , kde z01 = 1 λ1 ,...,z0k = 1 λk jsou rozdílné (reálné či komplexní) kořeny polynomu Θ(z), r1,...,rk je jejich násobnost (přičemž platí r1 + ⋯ + rk = q). Nyní budeme hledat taková absolutně konvergentní π = {πj}∞ j=0(tj. ∑ ∞ j=0 πj < ∞), aby εt = ∞ ∑ j=0 ψjYt−j byl invertibilní proces. Pokud použijeme operátor zpětného chodu, můžeme psát: Θ(B)Yt = εt, přitom hledáme π(B) takové, aby platilo π(B)Θ(B) = 1 nebo π(z)Θ(z) = 1 čili π(z) = 1 Θ(z) . Z věty o rozkladu na částečné zlomky dostáváme (pokud pro názornost předpokládáme, že všechny kořeny jsou jednoduché) 1 Θ(z) = 1 (1 − λ1z)...(1 − λpz) = c1 1 − λ1z + ⋯ + cp 1 − λpz pro vhodná c1,...,cp. Pokud pro k = 1,...,p platí λkz < 1 , můžeme psát ck 1 − λkz = ck ∞ ∑ j=0 (λkz)j a dokázali jsme najít konvergentní řadu π(z) = ∞ ∑ j=0 πjzj = p ∑ k=1 ck ∞ ∑ j=0 λj kzj = ∞ ∑ j=0 (c1λj 1 + ⋯ + cpλj p)zj , přičemž πj = c1λj 1 + ⋯ + cpλj p, neboť π(z) = 1 Θ(z) je holomorfní pro z ≤ 1 právě když λ1 < 1,..., λp < 1 ⇔ 1 λ1 > 1 z01 >1 ,..., 1 λp > 1 z0p >1 , tedy všechny kořeny polynomu Θ(z) musí ležet vně jednotkového kruhu. Na závěr tohoto odstavce ještě spočítejme střední hodnotu, rozptyl, autokovarianční funkci a také spektrální hustotu MA(q) procesu. Protože MA(q) proces je lineárním procesem, je vždy slabě stacionární, proto můžeme počítat EYt = E(εt + θ1εt−1 + ⋯ + θqεt−q) = 0 DYt = D(εt + θ1εt−1 + ⋯ + θqεt−q) = σ2 ε (1 + θ2 1 + ⋯ + θ2 q ) γ(t) = C(Ys,Ys+t) = EYsYs+t = q ∑ j=0 q ∑ h=0 θjθsEεs−jεs+t−h = s − j = s + t − h h = j + t = σ2 ε q ∑ j=0 θjθj+t RNDr. Marie Forbelská, Ph.D. 47 Protože θ0 = 1 a θj = 0 pro j > q, dostáváme γ(t) = ⎧⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪ ⎨ ⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎩ σ2 ε (1 + θ2 1 +⋯+ θ2 q−2 + θ2 q−1 + θ2 q ) pro t=0 σ2 ε (θ1 + θ1θ2 +⋯+ θq−2θq−1 + θq−1θq) t=1 σ2 ε (θ2 + θ1θ3 +⋯+ θq−2θq) t=2 σ2 ε (θq−1 + θ1θq) t=q−1 σ2 ε θq t=q 0 jinak Autokorelační funkce je pak rovna ρ(t) = ⎧⎪⎪⎪⎪ ⎨ ⎪⎪⎪⎪⎩ 1 t = 0 1 1+θ2 1+⋯+θ2 q ∑ q−t j=0 θjθj+t 1 ≤ t ≤ q, θ0 ≡ 1 0 jinak tedy, pro t > q je autokorelační funkce nulová, což je velmi důležitá identifikační vlastnost MA(q) procesů. Díky tomu, že MA(q) proces je lineárním procesem, spektrální hustota je rovna fY (ω) = σ2 ε 2π Θ(e−iω ) 2 . Autokorelační funkce ρ(t) pro Yt = εt − 0.4εt−1 + 0.2εt−2 − 0.3εt−3 −5 −4 −3 −2 −1 0 1 2 3 4 5 −0.5 0 0.5 1 Spektrální hustota fMA(3)(ω) pro Yt = εt − 0.4εt−1 + 0.2εt−2 − 0.3εt−3 −3 −2 −1 0 1 2 3 0.1 0.2 0.3 0.4 0.5 Autokorelační funkce ρ(t) pro Yt = εt − 0.2εt−1 + 0.1εt−2 + 0.3εt−3 −5 −4 −3 −2 −1 0 1 2 3 4 5 −0.2 0 0.2 0.4 0.6 0.8 1 1.2 Spektrální hustota fMA(3)(ω) pro Yt = εt − 0.2εt−1 + 0.1εt−2 + 0.3εt−3 −3 −2 −1 0 1 2 3 0.05 0.1 0.15 0.2 0.25 0.3 Obrázek 5. Ukázky autokorelačních funkcí a spektrálních hustot pro MA(3) procesy. 48 M5201 Stochastické modely časových řad 1.7. Vícenásobná reprezentace MA(q) procesů. Mějme MA proces řádu q: Yt ∼ MA(q) Yt = εt + θ1εt−1 + ⋯ + θqεt−q εt ∼ WN(0,σ2 ε ). Proveďme tedy rozklad polynomu Θ(z) = 1 + θ1z + ⋯ + θqzq na součin kořenových činitelů Φ(z) = ∏ j (1 − λjz), Pak (protože MA(q) proces je lineárním procesem) autokovarianční generující funkce je rovna GY (z) = Θ(z)Θ(z−1 )σ2 ε . Dále platí (1 − λjz)(1 − λjz−1 ) = 1 − λjz − λjz−1 + λ2 j = λ2 j (λ−2 j − λ−1 j z − λ−1 j z−1 + 1) = λ2 j (1 − 1 λj z)(1 − 1 λj z−1 ) Tudíž GY (z) = σ2 ε Θ(z)Θ(z−1 ) = σ2 ε ∏ j (1 − λjz)∏ j (1 − λjz−1 ) = σ2 ε ∏ j λ2 j σ2 ∗ ∏ j (1 − 1 λj z) Θ∗(z) ∏ j (1 − 1 λj z−1 ) Θ∗(z−1) = σ2 ∗Θ∗(z)Θ∗(z−1 ) Takže proces Y ∗ t ∼ MA(q) Yt = ε∗ t + θ∗ 1 ε∗ t−1 + ⋯ + θ∗ q ε∗ t−q ε∗ t ∼ WN(0,σ2 ∗) má stejnou autokovarianční generující funkcí GY (z) = σ2 ∗Θ∗(z)Θ∗(z−1 ) a jsou proto z hlediska prvních dvou momentů nerozlišitelné. Obecně můžeme dostat 2q různých procesů s funkcí Φ∗s(z) = q ∏ j=1 (1 − λ±1 j z) s = 1,...,2q Mezi všemi těmito procesy pouze jediný je invertibilní, a to ten, pro kterého platí λinvert j = { λj λj < 1, λ−1 j λj ≥ 1. Takže podmínka invertibility zajišťuje identifikovatelnost MA(q) procesu z hlediska prvních dvou momentů. Dříve než uvedeme nutnou a postačující podmínku pro kauzalitu a invertibilitu ARMA(p,q) procesů, vyšetřeme problematiku společných kořenů Φ(z) a Θ(z). 1.8. Společné kořeny polynomů Φ(z) a Θ(z). Mějme Yt ∼ ARMA(p,q) Yt − ϕ1Yt−1 − ⋯ − ϕpYt−p = εt + θ1εt−1 + ⋯ + ⋯θqεt−q, kde εt ∼ WN(0,σ2 ε ) a předpokládejme že Φ(z) a Θ(z) mají společný kořen 1 λ. Pak můžeme psát Φ(z) = (1 − λz)(1 − ϕ∗ 1z − ⋯ − ϕ∗ p−1zp−1 ) = (1 − λz)Φ∗ (z) Θ(z) = (1 − λz)(1 + θ∗ 1 z + ⋯ + θ∗ q−1zq−1 ) = (1 − λz)Θ∗ (z) tj. (1 − λB)Φ∗ (B)Yt = (1 − λB)Θ∗ (B)εt. Pokud obě strany rovnice vydělíme výrazem (1 − λB), dostaneme Yt ∼ ARMA(p − 1,q − 1) Φ∗ (B)Yt = Θ∗ (B)εt. RNDr. Marie Forbelská, Ph.D. 49 Takže podmínka, že Φ(z) a Θ(z) nemají společné kořeny zajišťuje, že řády ARMA procesů nelze již snižovat. 1.9. Nutná a postačující podmínka kauzality a invertibility ARMA procesu. V předchozích odstavcích jsme ukázali, že platí Yt ∼ AR(p) Φ(B)Yt =εt, Φ(z) ≠ 0 pro ∀z ∈ C ∧ z ≤ 1 ⇔ AR(p) je kauzální Yt ∼ MA(q) Yt =Θ(B)εt, Θ(z)≠0 pro ∀z ∈ C ∧ z ≤ 1 ⇔ MA(q) je invertibilní. Naprosto analogickým způsobem lze dokázat obecnější tvrzení: Věta 1.12. Nechť Φ(B) a Θ(B) nemají společné kořeny. Pak (i) Yt ∼ ARMA(p,q) Φ(B)Yt = Θ(B)εt je kauzální ⇔ Φ(z) ≠ 0 pro ∀z ∈ C ∧ z ≤ 1. (ii) Yt ∼ ARMA(p,q) Φ(z)Yt = Θ(B)εt je invertibilní ⇔ Θ(z) ≠ 0 pro ∀z ∈ C ∧ z ≤ 1. Znamená to tedy, že Yt ∼ ARMA(p,q) je kauzálním a invertibilním ARMA procesem, jestliže všechny kořeny polynomů Φ(z) a Θ(z) leží vně jednotkového kruhu a koeficienty ψj a πj jsou určeny ze vztahů Ψ(z) = ∞ ∑ j=0 ψjzj = Φ(z) Θ(z) pro z ≤ 1 π(z) = ∞ ∑ j=0 πjzj = Θ(z) Φ(z) pro z ≤ 1. V dalším budeme uvažovat pouze takové Yt ∼ ARMA(p,q) Φ(B)Yt = Θ(B)εt procesy, které splňují následující podmínky (P1) Φ(B) a Θ(B) nemají společné kořeny. (P2) Yt ∼ ARMA(p,q) je kauzální. (P3) Yt ∼ ARMA(p,q) je invertibilní. 1.10. Střední hodnota, rozptyl, autokovarianční a autokorelační funkce procesů ARMA(p,q). Střední hodnota Vzhledem ke kauzalitě ARMA(p,q) procesu můžeme počítat EYt = E ∞ ∑ j=0 ψjεt−j = ∞ ∑ j=0 ψjEεt−j = 0 Rozptyl Při odvození rozptylu nejprve rovnici Yt = ϕ1Yt−1 + ⋯ + ϕpYt−p + εt + θ1εt−1 + ⋯ + θqεt−q vynásobme výrazem Yt a spočtěme střední hodnoty obou stran, tj. EY 2 t = ϕ1EYt−1Yt + ⋯ + ϕpEYt−pYt + EεtYt + θ1Eεt−1Yt + ⋯ + θqEεt−qYt. (A6) Spočtěme pro i = 0,1,...,q Eεt−iYt = Eεt−i ( ∞ ∑ j=0 ψjεt−j) = ∞ ∑ j=0 ψjEεt−iεt−j = ψiσ2 ε (přičemž ψ0 = 1). Po dosazení do rovnice (A6) dostaneme γ(0) − ϕ1γ(1) − ⋯ − ϕpγ(p) = σ2 ε (1 + θ1ψ1 + ... + θqψq) (A7). Podělme obě strany rovnice (A7) výrazem γ(0). Vzhledem k tomu, že ρ(k) = γ(k) γ(0) , dostaneme 1 − ϕ1ρ(1) − ⋯ − ϕpρ(p) = σ2 ε (1 + θ1ψ1 + ... + θqψq) γ(0) 50 M5201 Stochastické modely časových řad takže DYt = γ(0) = σ2 ε (1 + θ1ψ1 + ... + θqψq) 1 − ϕ1ρ(1) − ⋯ − ϕpρ(p) . Autokovarianční a autokorelační funkce (ACF) Při výpočtu autokovariance rovnici Yt − ϕ1Yt−1 − ⋯ − ϕpYt−p = εt + θ1εt−1 + ⋯ + θqεt−q vynásobíme výrazem Yt−k a spočítáme střední hodnoty obou stran, takže dostaneme γ(k) − ϕ1γ(k − 1) − ⋯ − ϕpγ(k − p) = EYt−kεt + θ1EYt−kεt−1 + ⋯ + θqEYt−kεt−q (A8). Nejprve je třeba si uvědomit, že pro s ≥ 0 platí EεtYt−s = E (εt ∞ ∑ j=0 ψjεt−s−j) = ∞ ∑ j=0 ψjEεtεt−s−j = 0. Spočtěme pro i = 0,1,...,q Eεt−iYt−k = Eεt−i ( ∞ ∑ j=0 ψjεt−j−k) = ∞ ∑ j=0 ψjEεt−iεt−j−k = t − i = t − j − k j = i − k = { σ2 ε ψi−k k ≤ i přičemž ψ0 = 1 ⇒ k ≤ q 0 k > i neboť ψj = 0 pro j < 0 Uvážíme-li, že ψj = 0 pro j < 0, potom pro 0 ≤ k ≤ max(p,q + 1) platí γ(k) − ϕ1γ(k − 1) − ⋯ − ϕpγ(k − p) = σ2 ε (θk + θk+1ψ1 + ⋯ + θqψq−k) (A9) a pro k > max(p,q + 1) platí γ(k) − ϕ1γ(k − 1) − ⋯ − ϕpγ(k − p) = 0 . Podělme obě strany rovnice (A9) výrazem γ(0). Dostaneme ρ(k) − ϕ1ρ(k − 1) − ⋯ − ϕpρ(k − p) = σ2 ε (θk + θk+1ψ1 + ⋯ + θqψq−k) γ(0) resp. ρ(k) − ϕ1ρ(k − 1) − ⋯ − ϕpρ(k − p) = 0. Nechť např. q + 1 > p. Pak máme více rovnic pro určení počátečních p podmínek. V tomto případě prvních q − p + 1 autokovariančních koeficientů jsou určeny z prvních q − p + 1 podmínek. Obecné řešení homogenní diferenční rovnice ρ(k) − ϕ1ρ(k − 1) − ⋯ − ϕpρ(k − p) = 0 tj. Φ(B)ρ(k) = 0 je tvaru ρ(k) = m ∑ j=1 ( pj−1 ∑ s=0 cjsks )λk j , kde 1 λ1 ,..., 1 λm jsou různé kořeny s násobnostmi p1,...,pm, přičemž p = p1 + ⋯ + pm a cjs je právě p konstant, které jsou určeny počátečními podmínkami. RNDr. Marie Forbelská, Ph.D. 51 1.11. Spektrální hustota ARMA(p,q) procesů. Věta 1.13 (Spektrální hustota ARMA(p,q) procesů). Nechť Φ(B)Yt = Θ(B)εt je kauzální a invertibilní ARMA(p,q) proces, přičemž Φ(z) a Θ(z) nemají společné kořeny. Pak spektrální hustota ARMA(p,q) procesu je rovna fY (ω) = σ2 ε 2π Θ(e−iω) 2 Φ(e−iω) 2 pro ω ∈ ⟨−π,π⟩. Důkaz. Kauzalita značí, že existuje absolutně konvergentní posloupnost reálných čísel ψ = {ψj}∞ j=0 (tj. ∑ ∞ j=0 ψj < ∞) taková, že platí Yt = ∞ ∑ j=0 ψjεt−j kde εt ∼ WN(0,σ2 ε ). Víme, že spektrální hustota bílého šumu je rovna fε(ω) = σ2 ε 2π kde ω ∈ ⟨−π,π⟩. Protože Yt je lineárním procesem, víme, že má spektrální hustotu fY (ω) = Ψ(e−iω ) 2 fε(ω) = Ψ(e−iω ) 2 σ2 ε 2π kde ω ∈ ⟨−π,π⟩. Také Θ(B)εt jakožto lineární proces má spektrální hustotu tvaru Θ(e−iω ) 2 σ2 ε 2π pro ω ∈ ⟨−π,π⟩. Rovněž Φ(B)Yt jakožto lineární filtr má také spektrální hustotu, a ta je rovna Φ(e−iω ) 2 fY (ω) pro ω ∈ ⟨−π,π⟩. Protože platí Φ(B)Yt = Θ(B)εt, musí také platit Φ(e−iω ) 2 fY (ω) = Θ(e−iω ) 2 σ2 ε 2π pro ω ∈ ⟨−π,π⟩. Odtud již dostáváme tvrzení věty fY (ω) = σ2 ε 2π Θ(e−iω) 2 Φ(e−iω) 2 pro ω ∈ ⟨−π,π⟩. Na závěr tohoto odstavce jsou vykresleny příklady tří realizací AR, MA a ARMA procesů spolu s jejich teoretickými spektrálními hustotami. AR(2) Yt = 0.5Yt−1 + 0.2Yt−2 + εt, εt ∼ N(0,1) 52 M5201 Stochastické modely časových řad 0 50 100 150 200 250 300 −4 −2 0 2 4 MA(2) Yt = εt − 0.5εt−1 − 0.2εt−1, εt ∼ N(0,1) 0 50 100 150 200 250 300 −4 −2 0 2 4 ARMA(2,2) Yt = 0.5Yt−1 + 0.2Yt−2 + εt − 0.4εt−1 + 0.3εt−1, εt ∼ N(0,1) 0 50 100 150 200 250 300 −4 −2 0 2 4 6 Obrázek 6. Ukázky realizací AR, MA a ARMA procesů fAR(ω) = σ2 ε 2π 1 Φ(e−iω) 2 −3 −2 −1 0 1 2 3 0.2 0.4 0.6 0.8 1 1.2 1.4 1.6 fMA(ω) = σ2 ε 2π Θ(e−iω) 2 −3 −2 −1 0 1 2 3 0.05 0.1 0.15 0.2 0.25 0.3 fARMA(ω) = σ2 ε 2π Θ(e−iω) 2 Φ(e−iω) 2 −3 −2 −1 0 1 2 3 0.2 0.4 0.6 0.8 1 1.2 1.4 pro ω ∈ ⟨−π,π⟩. Obrázek 7. Ukázky spektrálních hustot AR, MA a ARMA procesů. RNDr. Marie Forbelská, Ph.D. 53 2. Nejlepší lineární predikce ve stacionárních ARMA procesech Nechť {Yt,t ∈ Z} ∈ L2(Ω,A,P) je stacionární proces se střední hodnotou µY a autokovarianční funkcí γY (t). Pak náhodný proces {Yt − µY ,t ∈ Z} má nulovou střední hodnotu (tj. je centrován) a má stejnou autokovarianční funkci γY (t). Uvažujme nejlepší lineární predikci Yt pomocí Yt−1,...,Yt−n, n ≥ 1 (viz definice 2.6 v odstavci 2), která je ortogonální projekcí Yt = Psp{1,Yt−1,...,Yt−n}(Yt). Lze snadno ukázat,že platí Yt = Psp{1,Yt−1,...,Yt−n}(Yt) = µY + Psp{Yt−1,...,Yt−n}(Yt). Takže bez újmy na obecnosti můžeme dále uvažovat pouze centrované stacionární procesy {Yt,t ∈ Z}, pro které platí Yt = Psp{1,Yt−1,...,Yt−n}(Yt) = Psp{Yt−1,...,Yt−n}(Yt). Nejprve definujme jednokrokovou predikci. Definice 2.1. Nechť {Yt,t ∈ Z} ∈ L2(Ω,A,P) je centrovaný stacionární proces. Označme pro n ≥ 1 Mn = sp{Y1,...,Yn}. Pak jednokroková (lineární) predikce je definována vztahem Yn+1 = Yn+1 n = { 0 (= µY ) n = 0, Psp{Y1,...,Yn}(Yn+1) = PMn (Yn+1) n ≥ 1. Protože pro n ≥ 1 Yn+1 ∈ Mn, pak platí Yn+1 = φn,1Yn + ⋯ + φn,nY1 a φn,1,...,φn,n minimalizují Yn+1 − Yn+1 2 = E Yn+1 − Yn+1 2 . Podle projekční věty pro každé X ∈ L2(Ω,A,P) a pro každé Y ∈ Mn platí ⟨X − X,Y ⟩ = ⟨X,Y ⟩ − ⟨X,Y ⟩ = 0 ⇒ ⟨X,Y ⟩ = ⟨X,Y ⟩ což je EXY = EXY , takže jestliže pro j = 1,...,n položíme X = Yn+1 a Y = Yn+1−j, pak musí platit EYn+1Yn+1−j = EYn+1Yn+1−j γ(j) = E (Yn+1−j n ∑ i=1 φn,iYn+1−i) = n ∑ i=1 φn,iEYn+1−iYn+1−j = n ∑ i=1 φn,iγ(i − j) což lze maticově zapsat takto ⎛ ⎜ ⎜ ⎜ ⎝ γ(1) γ(2) γ(n) ⎞ ⎟ ⎟ ⎟ ⎠ = ⎛ ⎜ ⎜ ⎜ ⎝ γ(0) γ(1) ⋯ γ(n − 1) γ(1) γ(0) ⋯ γ(n − 2) ⋱ γ(n − 1) γ(n − 2) ⋯ γ(0) ⎞ ⎟ ⎟ ⎟ ⎠ ⎛ ⎜ ⎜ ⎜ ⎝ φn,1 φn,2 φn,n ⎞ ⎟ ⎟ ⎟ ⎠ tj. γn = Γn φn. Projekční věta zaručuje existenci právě jednoho řešení Yn+1 ∈ Mn pro nějaké φn ∈ Rn (kterých obecně může být více, jejich výsledkem je však pouze jediné Yn+1). Jestliže Γn je regulární, máme právě jediné φn ∈ Rn a platí φn = Γ−1 n γn . Následující věta dává postačující podmínku k tomu, aby pro každé n ∈ N byla Γn regulární maticí. 54 M5201 Stochastické modely časových řad Věta 2.2. Jestliže platí γ(0) > 0 a γ(h) → h→∞ 0, pak kovarianční matice Γn = (γ(i − j)) n i,j=1 je regulární pro každé n ∈ N. Důkaz. Tento důkaz se provádí sporem, viz Brockwel, Davis (1987), str. 160-161. Důsledek 2.3. Označme Yn = (Yn,...,Y1)′ . Jestliže platí γ(0) > 0 a γ(h) → h→∞ 0, pak nejlepší lineární predikce Yn+1 náhodné veličiny Yn+1 je tvaru Yn+1 =φn,1Yn+⋯+φn,nY1 tj. Yn+1 =φ′ nYn přičemž φn =Γ−1 n γn . Střední kvadratická chyba je rovna vn = MSE(Yn+1) = E(Yn+1 − Yn+1)2 = γ(0) − γ′ nΓ−1 n γn. (13) Důkaz. Tvrzení týkající se tvaru nejlepší lineární predikce a vektoru φn plynou z předchozích poznámek a předešlé věty. Zbývá vypočítat střední kvadratickou chybu. E(Yn+1 − Yn+1)2 = E(Yn+1 − φ′ nYn)2 = EY 2 n+1 − 2E (φ′ nYnYn+1) + E (φ′ nYn) 2 . Nejprve počítejme EYnYn+1 = (EYnYn+1,EYn−1Yn+1,...,EY1Yn+1)′ = (γ(1),γ(2),...,γ(n))′ = γn. Dále si všimněme, že lze psát (φ′ nYn) 2 = φ′ nYnY′ nφn a počítejme EYnY′ n = E ⎡ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎣ ⎛ ⎜ ⎜ ⎜ ⎝ Yn Yn−1 Y1 ⎞ ⎟ ⎟ ⎟ ⎠ (Yn,...,Y1) ⎤ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎦ = ⎛ ⎜ ⎜ ⎜ ⎜ ⎜ ⎝ EY 2 n EYnYn−1 ⋯ EYnY1 EYn−1Yn EY 2 n−1 ⋯ EYn−1Y1 ⋱ EY1Yn EY1Yn−1 ⋯ EY 2 1 ⎞ ⎟ ⎟ ⎟ ⎟ ⎟ ⎠ = ⎛ ⎜ ⎜ ⎜ ⎝ γ(0) γ(1) ⋯ γ(n − 1) γ(1) γ(0) ⋯ γ(n − 2) ⋱ γ(n − 1) γ(n − 2) ⋯ γ(0) ⎞ ⎟ ⎟ ⎟ ⎠ = Γn Takže můžeme pokračovat ve výpočtu střední kvadratické chyby E(Yn+1 − Yn+1)2 = EY 2 n+1 − 2φ′ nEYnYn+1 + φ′ nEYnY′ nφn = γ(0) − 2φ′ nγn + φ′ nΓnφn = γ(0) − 2γ′ nΓ−1 n γn + γ′ nΓ−1 n ΓnΓ−1 n γn = γ(0) − γ′ nΓ−1 n γn. Nyní definujme h-krokovou (lineární) predikci. Definice 2.4. Nechť {Yt,t ∈ Z} ∈ L2(Ω,A,P) je centrovaný stacionární proces. Označme pro n ≥ 1 Mn = sp{Y1,...,Yn}. Pak h-kroková predikce je definována vztahem Yn+h = Yn+h n = { 0 (= µY ) n,h = 0, Psp{Y1,...,Yn}(Yn+h) = PMn (Yn+h) n,h ≥ 1. RNDr. Marie Forbelská, Ph.D. 55 Obdobným způsobem jako u jednokrokové predikce můžeme odvodit, že jestliže platí γ(0) > 0 a γ(h) → h→∞ 0, pak nejlepší lineární h-kroková predikce Yn+h náhodné veličiny Yn+h je tvaru Yn+h = φ (h) n,1Yn + ⋯ + φ (h) n,nY1 tj. Yn+h = (φ(h) n ) ′ Yn přičemž φ(h) n = Γ−1 n γ (h) n a γ (h) n = (γ(h),γ(h + 1),...,γ(h + n − 1)) ′ . Střední kvadratická chyba je rovna v (h) n = MSE(Yn+h) = E(Yn+1 − Yn+1)2 = γ(0) − (φ(h) n ) ′ Γ−1 n φ(h) n . V následujících odstavcích se především zaměříme na dvě rekurentní metody výpočtu nejlepší lineární predikce. 2.1. Durbin-Levinsův algoritmus. Věta 2.5 (Durbin-Levinsův algoritmus). Nechť {Yt,t ∈ Z} ∈ L2(Ω,A,P) je centrovaný stacionární proces s autokovarianční funkcí γ(h) takovou, že γ(0) > 0 a γ(h) → h→∞ 0. Jestliže Yn+1 = Psp{Y1,...,Yn}(Yn+1) = φn,1Yn +⋯+φn,nY1 je nejlepší lineární predikce, pak pro koeficienty φn,j (j = 1,...,n) a střední kvadratické chyby vn = E (Yn+1 − Yn+1) 2 platí následující vztahy φ1,1 = γ(1) γ(0) = ρ(1) v0 = γ(0) (14) φn,n = [γ(n) − φ′ n−1γn−1]/vn−1 (15) φ(1) n = φn−1 − φn,nφ∗ n−1 vn = vn−1 (1 − φ2 n,n) (16) kde φn−1 = (φn−1,1,...,φn−1,n−1)′ φ∗ n−1 = (φn−1,n−1,...,φn−1,1)′ φn = (φn,1,...,φn,n−1,φn,n)′ φ(1) n = (φn,1,...,φn,n−1)′ Důkaz. Pro získání výše popsaného rekurentního výpočtu pro všechny složky predikce autor algoritmu vyšel z myšlenky rozložit projekci na součet dvou ortogonálních projekcí Yn+1 = PMn (Yn+1) = PMn−1 (Yn+1) + PM⊥ n−1 (Yn+1), kde Mn = sp{Y1,...,Yn} Mn−1 = sp{Y2,...,Yn} a M⊥ n−1 = sp{Y1 − PMn−1 (Y1)}. Vidíme, že M⊥ n−1 je ortogonální komplement Mn−1 v Mn. Podrobný důkaz lze najít například v publikaci Forbelská(2009). 2.2. Důsledek Durbin-Levinsonova algoritmu. Důsledek 2.6. Nechť {Yt,t ∈ Z} ∈ L2(Ω,A,P) je centrovaný stacionární proces s autokovarianční funkcí γ(h), pro kterou platí γ(0) > 0 a γ(h) → h→∞ 0. Označme Mn = sp{Y1,...,Yn} Mn−1 = sp{Y2,...,Yn} a nejlepší lineární predikci Yn+1 = PMn (Yn+1) = φn,nY1 + φn,n−1Y2 + ⋯ + φn,1Yn, 56 M5201 Stochastické modely časových řad pak platí φn,n = R (Yn+1 − PMn−1 (Yn+1),Y1 − PMn−1 (Y1)) . (17) Důkaz. Podrobný důkaz lze najít v publikaci Forbelská(2009). 2.3. Parciální autokorelační funkce (PACF). Definice 2.7. Nechť {Yt,t ∈ Z} ∈ L2(Ω,A,P) je stacionární proces. Pak parciální autokorelační funkce je definována vztahem α(1) = R(Yt,Yt+1) α(k) = R(Yt − Yt,Yt−k − Yt−k) pro k > 1 kde Yt, resp. Yt−k jsou nejlepší lineární predikce Yt (resp. Yt−k) pomocí Yt−k+1,...,Yt−1. Nejlepší lineární predikce Yt a Yt−k jsou projekce Yt = PMk−1 (Yt) a Yt−k = PMk−1 (Yt−k), kde Mk−1 = sp{Yt−k+1,...,Yt−1}. Přitom existují taková φk−1 = (φk−1,1,...,φk−1,k−1)′ , že platí Yt = φk−1,1Yt−1 + ⋯ + φk−1,k−1Yt−k+1 a také taková ψk−1 = (ψk−1,1,...,ψk−1,k−1)′, že platí Yt−k = ψk−1,1Yt−k+1 + ⋯ + ψk−1,k−1Yt−1, která minimalizují E(Yt − Yt)2 resp. E(Yt−k − Yt−k)2 , přičemž (jak již víme z důkazu Durbin-Levinsonova algoritmu) platí φk−1,1 = ψk−1,1,...,φk−1,k−1 = ψk−1,k−1 tj. φk−1 = ψk−1. Celkově tedy, označíme-li Y∗ k−1 = (Yt−k+1,...,Yt−1)′ Yk−1 = (Yt−1,...,Yt−k+1)′ tak dostaneme PMn−1 (Yt−k) = φ′ k−1Y∗ k−1 PMn−1 (Yt) = φ′ k−1Yk−1 Víme, že pokud pro autokovarianční funkci γ(h) platí γ(0) > 0 a γ(h) → h→∞ 0, pak matice Γk−1 je regulární a neznámé složky vektoru φk−1 jsou rovny φk−1 = Γ−1 k−1γk−1. Avšak podle důsledku 2.6 Durbin-Levinsonova algoritmu není třeba počítat inverzní matici Γ−1 k−1, odtud φk−1, následně Yt−k = PMn−1 (Yt−k) a Yt = PMn−1 (Yt) a nakonec korelační koeficient α(k) = R(Yt −Yt,Yt−k − Yt−k), neboť platí α(k) = φk,k = R (Yt − PMk−1 (Yt),Yt−k − PMk−1 (Yt−k)) . RNDr. Marie Forbelská, Ph.D. 57 2.4. Inovační algoritmus. Základní myšlenkou Durbin-Levinsonova algoritmu je rozdělení Mn = sp{Yn,...,Y1} na dva ortogonální podprostory Mn−1 = sp{Yn,...,Y2} a M⊥ n−1 = sp{Y1 − PMn−1 (Y1)}. Následující rekurentní algoritmus spočívá v dekompozici Mn na n ortogonálních Hilbertových podprostorů pomocí Gram-Schmidtova algoritmu. Rekurentní algoritmus lze aplikovat nejen na stacionární procesy, ale obecně na procesy s konečnými druhými momenty. Pro jednoduchost předpokládejme, že jsou centrované. Nejprve zaveďme následujicí značení: γ(i,j) = EXiXj. Stejně označme Mn = sp{Yn,...,Y1} vn = Yn+1 − Yn+1 2 . Pokud označíme Yn = { 0 (= µY ) pro n = 1 PMn−1 (Yn) pro n = 2,3,... pak zřejmě Mn = sp{Yn − Yn,...,Y1 − Y1} n ≥ 1. Definujme tzv. inovaci vztahem Un+1 = Yn+1 − Yn+1 = Yn+1 − n ∑ j=1 φn,jYn+1−j. Označme Un = (U1,...,Un)′ Yn = (Y1,...,Yn)′ Yn = (Y1,...,Yn)′ . Pak lze psát Un = AnYn, kde matice An je dolní trojúhelníkovou maticí An = ⎛ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎝ 1 0 ⋯ ⋯ ⋯ 0 −φ1,1 1 0 ⋯ ⋯ 0 −φ2,2 −φ2,1 1 0 ⋯ 0 ⋱ ⋱ ⋱ −φn−2,n−2 −φn−2,n−3 ⋯ −φn−2,1 1 0 −φn−1,n−1 −φn−1,n−2 ⋯ ⋯ −φn−1,1 1 ⎞ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎠ . Všimněme si, že determinant matice je roven 1, takže existuje inverzní matice Cn = A−1 n , která je také dolní trojúhelníkovou maticí. Upravujme postupně Yn = Yn − Un = A−1 n Un − Un = (A−1 n − In)Un = θnUn, 58 M5201 Stochastické modely časových řad kde θn = Cn − In = ⎛ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎝ 0 0 ⋯ ⋯ ⋯ 0 θ1,1 0 0 ⋯ ⋯ 0 θ2,2 θ2,1 0 0 ⋯ 0 ⋱ ⋱ ⋱ θn−2,n−2 θn−2,n−3 ⋯ −θn−2,1 0 0 θn−1,n−1 θn−1,n−2 ⋯ ⋯ θn−1,1 0 ⎞ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎠ . Protože Yn = θnUn = θn(Yn − Yn) a protože θn je dolní trojúhelníkovou maticí, můžeme psát Yn+1 = { 0 n = 0 ∑ n j=1 θn,j(Yn+1−j − Yn+1−j) n = 1,2,.... Věta 2.8. Nechť {Yt,t ∈ Z} je centrovaný náhodný proces s konečnými druhými momenty, přičemž kovarianční matice (EYiYj) n i,j=1 = (γ(i,j)) n i,j=1 je regulární pro každé n ∈ N. Pak pro jednokrokovou predikci platí následující rekurentní vztahy Yn+1 = ⎧⎪⎪⎪ ⎨ ⎪⎪⎪⎩ 0 n = 0 n ∑ j=1 θn,j (Yn+1−j − Yn+1−j) n = 1,2,... (18) v0 = γ(1,1) (19) θn,n−k = v−1 k [γ(n + 1,k + 1) − k−1 ∑ j=0 θk,k−jθn,n−jvj], k = 0,...,n − 1 (20) vn = γ(n + 1,n + 1) − n−1 ∑ j=0 θ2 n,n−jvj (21) Důkaz. Podrobný důkaz lze najít například v publikaci Forbelská (2009). Poznámka 2.9. Zatímco Durbin-Levinsův algoritmus dává koeficienty φn,j v reprezentaci Yn+1 = n ∑ j=1 φn,jYn+1−j = n−1 ∑ j=0 φn,n−jYj+1, inovační algoritmus dává koeficienty θn,j v ortogonálním rozvoji Yn+1 = n ∑ j=1 θn,j (Yn+1−j − Yn+1−j) = n−1 ∑ j=0 θn,n−j (Yj+1 − Yj+1). Poznámka 2.10. Inovační algoritmus dává „inovační reprezentaci“ samotných Yn+1, neboť platí Yn = Yn − Yn + Yn = (Yn − Yn) + (Cn − In)(Yn − Yn) = Cn(Yn − Yn). a položíme-li θn,0 = 1, můžeme psát Yn+1 = n ∑ j=0 θn,j (Yn+1−j − Yn+1−j) = n ∑ j=0 θn,n−j (Yj+1 − Yj+1). Tyto vztahy využijeme později při odvozování maximálně věrohodných odhadů neznámých parametrů θn,j. RNDr. Marie Forbelská, Ph.D. 59 2.5. Jednokroková nejlepší lineární predikce v AR(p). Nejprve si všimněme, jaké vlastnosti má predikce v případě autoregresních procesů řádu p. Věta 2.11. Nechť {Yt,t ∈ Z} ∈ L2(Ω,A,P) je centrovaný nedegenerovaný kauzální AR(p) proces Yt = ϕ1Yt−1 + ⋯ + ϕpYt−p + εt. Pak pro nejlepší lineární predikci platí Yn+1 = ⎧⎪⎪⎪⎪ ⎨ ⎪⎪⎪⎪⎩ 0 n = 0 min(n,p) ∑ j=1 ϕjYn+1−j n = 1,2,... . Důkaz. Vzhledem k tomu, že autokovarianční funkce γ(h) exponenciálně klesá k nule, stačí předpokládat, že proces není degenerovaný, tj. rozptyl γ(0) > 0. Nejlepší lineární predikce podle definice je rovna Yn+1 = Yn+1 n = { 0 (= µY ) n = 0, Psp{Y1,...,Yn}(Yn+1) = PMn (Yn+1) n ≥ 1. Předpokládejme tedy, že n ≥ p a postupně upravujme Yn+1 = Psp{Y1,...,Yn}(Yn+1) = Psp{Y1,...,Yn}(ϕ1Yn + ⋯ + ϕpYn+1−p + εn+1) = p ∑ j=1 ϕjPsp{Y1,...,Yn}(Yn+1−j) + Psp{Y1,...,Yn}(εn+1). Připomeňme, že pro projekci v případě j = 1,...,n platí Psp{Y1,...,Yn}(Yj) = Yj, neboť Yj ∈ sp{Y1,...,Yn}. Dále počítejme pro j = 1,...,n skalární součin ⟨εn+1,Yj⟩ kauzal. = ⟨εn+1, ∞ ∑ k=1 ψjεj−k⟩ = ∞ ∑ k=1 ψj E(εn+1εj−k) =0 = 0, tj. εn+1 ⊥ Y1,...,Yn, a Psp{Y1,...,Yn}(εn+1) = 0, takže Yn+1 = ϕ1Yn + ⋯ + ϕpYn+1−p jestliže n ≥ p, čímž dostáváme tvrzení věty. Tedy v případě AR(p) procesu Yt = ϕ1Yt−1 + ⋯ + ϕpYt−p + εt jsou koeficienty φn,1,...,φn,1 nejlepší lineární predikce pro n ≥ p rovny φn,1 = ϕ1 φn,p = ϕp φn,p+1 = 0 φn,n = 0 2.6. Vícekroková nejlepší lineární predikce v AR(p). Podle definice h-kroková predikce je definována vztahem Yn+h = Yn+h n = { 0 (= µY ) n,h = 0, Psp{Y1,...,Yn}(Yn+h) = PMn (Yn+h) n,h ≥ 1. 60 M5201 Stochastické modely časových řad Počítejme postupně Yn+2 n = Psp{Y1,...,Yn}(Yn+2) = Psp{Y1,...,Yn}(ϕ1Yn+1 + ⋯ + ϕpYn+2−p + εn+2) = p ∑ j=1 ϕjPsp{Y1,...,Yn}(Yn+2−j) + Psp{Y1,...,Yn}(εn+2) =0(viz předchozí důkaz) = ϕ1Psp{Y1,...,Yn}(Yn+1) + p ∑ j=2 ϕj Psp{Y1,...,Yn}(Yn+2−j) =Yn+2−j = ϕ1Yn+1 n + ϕ2Yn + ⋯ + ϕpYn+2−p Yn+p n = Psp{Y1,...,Yn}(Yn+p) = Psp{Y1,...,Yn}(ϕ1Yn+p−1 + ⋯ + ϕpYn + εn+p) = ϕ1Yn+p−1 n + ⋯ + ϕp−1Yn+1 n + ϕpYn pro s > p Yn+s n = Psp{Y1,...,Yn}(Yn+s) = Psp{Y1,...,Yn}(ϕ1Yn+s−1 + ⋯ + ϕpYn+s−p + εn+s) = ϕ1Yn+s−1 n + ⋯ + ϕpYn+s−p n 2.7. PACF pro AR(p), MA(q) a ARMA(p,q). Věta 2.12. Nechť {Yt,t ∈ Z} ∈ L2(Ω,A,P) je centrovaný nedegenerovaný kauzální AR(p) proces Yt = ϕ1Yt−1 + ⋯ + ϕpYt−p + εt. Pak platí (1) α(p) = ϕp (2) α(k) = 0 pro k > p. Důkaz. Již dříve jsme ukázali, že v případě AR(p) procesu Yt = ϕ1Yt−1 + ⋯ + ϕpYt−p + εt jsou koeficienty φn,1,...,φn,1 nejlepší lineární predikce pro n ≥ p rovny φn,1 = ϕ1 φn,p = ϕp φn,p+1 = 0 φn,n = 0 Tedy pokud přímo n = p, tak podle důsledku Durbin–Lewinsonova algoritmu platí α(p) = φp,p = ϕp. Jestliže k > p, pak je parciální autokorelační funkce nulová α(k) = 0, což je velmi důležitá identifikační vlastnost AR(p) procesů. Poznámka 2.13. Parciální autokorelační koeficienty α(1),...,α(p−1) lze určit jako φ1,1,...,φp−1,p−1 z Durbin–Levinsonova algoritmu. Důsledek 2.14. Nechť {Yt,t ∈ Z} ∈ L2(Ω,A,P) je centrovaný nedegenerovaný invertibilní MA(q) (resp. ARMA(p,q)) proces. Pak neexistuje takové k0 ∈ N, že pro k > k0 platí α(k) = 0. RNDr. Marie Forbelská, Ph.D. 61 Důkaz. Využijeme toho, že proces MA(q) (resp. ARMA(p,q)) je invertibilní. Pak existuje absolutně konvergentní posloupnost reálných čísel π = {πj}∞ j=0 (tj. ∑ ∞ j=0 πj < ∞) taková, že εt = ∞ ∑ j=0 πjYt−j, tj. zkráceně Yt ∼ AR(∞) εt = π(B)Yt, tj. p = ∞, takže podle předchozí věty nenajdeme k0 ∈ N takové, že pro k > k0 platí α(k) = 0. 2.8. Jednokroková nejlepší lineární predikce v MA(q). Pro jednokrokovou predikci v případě MA(q) procesů je velmi užitečný inovační algoritmus. Nejprve uvedeme podrobně rekurentní vzorce pro stacionární procesy, pro které platí γ(i,j) = γ(i − j). Predikci pomocí inovací lze vypočítat pomocí následujícího vzorce Yn+1 = { 0 n = 0 θn,1 (Yn−Yn)⋯ + ⋯θn,n (Y1−Y1) n = 1,2,... , přičemž pro n = 0 v0 = γ(0), dále θn,n = γ(n) v0 θn,n−1 = γ(n−1) v1 − θ1,1θn,n v0 v1 θn,n−2 = γ(n−2) v2 − θ2,2θn,n v0 v2 − θ2,1θn,n−1 v1 v2 θn,2 = γ(2) vn−2 − θn−2,n−2θn,n v0 vn−2 − ⋯ − θn−2,1θn,3 vn−3 vn−2 (n−2) členů θn,1 = γ(1) vn−1 − θn−1,n−1θn,n v0 vn−1 − θn−1,n−2θn,n−1 v1 vn−1 − ⋯ − θn−1,1θn,2 vn−2 vn−1 (n−1) členů a nakonec vn = γ(0) − θ2 n,nv0 − ⋯ − −θ2 n,1vn−1. Vzhledem k tomu, že MA(q) proces má autokovarianční funkci γ(k) = 0 pro k > q, pak v případě, že n > q jsou koeficienty θn,n = 0,...,θn,q+1 = 0 a teprve θn,q ≠ 0,...,θn,1 ≠ 0, takže nejlepší lineární predikce je tvaru Yn+1 = ⎧⎪⎪⎪⎪ ⎨ ⎪⎪⎪⎪⎩ 0 n = 0 min(n,q) ∑ j=1 θn,j (Yn+1−j − Yn+1−j) n = 1,2,... 2.9. Nejlepší lineární predikce v ARMA(p,q). Nechť {Yt,t ∈ Z} je kauzální a invertibilní ARMA proces {Yt,t ∈ Z} ∼ ARMA(p,q) Φ(B)Yt = Θ(B)εt εt ∼ WN(0,σ2 ε ). Z kauzality vyplývá, že existuje posloupnost {ψj}∞ j=0 taková, že ∑ ∞ j=0 ψj < ∞ a platí Yt = ∞ ∑ j=0 ψjεt−j, tj. Yt ∼ MA(∞), 62 M5201 Stochastické modely časových řad takže pro z ≤ 1 dostáváme Ψ(z) = Θ(z) Φ(z) ⇒ Φ(z)Ψ(z) = Θ(z). Koeficienty {ψj}∞ j=0 se určí ze vztahu (1−ϕ1z−ϕ2z2 −⋯−ϕpzp )(ψ0+ψ1z+ψ2z2 +⋯)=(1+θ1z+θ2z2 +⋯+θqzq ) porovnáním koeficientů u mocnin proměnné z , tj. z0 ψ0 = 1 ⇒ ψ0 = 1 z1 ψ1 − ϕ1 = θ1 ⇒ ψ1 = θ1 + ϕ1 z2 ψ2 − ϕ1ψ1 − ϕ2 = θ2 ⇒ ψ2 = θ2 + ϕ1ψ1 + ϕ2 z3 ψ3 − ϕ2ψ1 − ϕ1ψ2 − ϕ3 = θ3 ⇒ ψ3 = θ3 + ϕ2ψ1 + ϕ1ψ2 + ϕ3 Obecně, položíme-li θj = 0 ϕj = 0 pro j > q j > p a označíme-li m = max(p,q), dostaneme ψ0 = 1 ψj = θj + min(j,p) ∑ i=1 ϕiψj−i pro 1 ≤ j ≤ m ψj = p ∑ i=1 ϕiψj−i pro j > m a vidíme, že pro j > m se koeficienty θk neprosadí. Pokud bychom použili predikci pomocí inovací, bude vždy pro n > m platit Yn+1 = n ∑ j=1 θn,j (Yn+1−j − Yn+1−j) takže použijeme vždy n předchozích inovací a ztrácíme tak výhodu, která byla u MA procesu konečného řádu. Nechceme-li o tuto výhodu přijít, ukázalo se, že díky jednoduché transformaci využijeme jednak možnosti použít maximálně q předchozích inovací a také toho, že díky AR části je proces lineární kombinací předchozích p hodnot. Položme nejprve m = max(p,q) a definujme Wt = ⎧⎪⎪ ⎨ ⎪⎪⎩ σ−1 ε Yt 1 ≤ t ≤ m σ−1 ε Φ(B)Yt = σ−1 ε (Yt − ϕ1Yt−1 − ⋯ − ϕpYt−p) t > m tedy pro 1 ≤ t ≤ m jde o ARMA(p,q) proces s jednotkovým rozptylem a pro t > m jde o MA(q) proces (opět s jednotkovým rozptylem). Zkoumejme jednokrokovou predikci tohoto transformovaného procesu. Zřejmě Mn = sp{Y1,...,Yn} = sp{W1,...,Wn}, takže položíme-li W1 = 0 = µY = µW pro n = 1, pak pro 1 ≤ t ≤ m Wt = Psp{Y1,...,Yt−1}(σ−1 ε Yt) = σ−1 ε Yt RNDr. Marie Forbelská, Ph.D. 63 a pro t > m Wt = Psp{Y1,...,Yt−1}(σ−1 ε Φ(B)Yt) = σ−1 ε Psp{Y1,...,Yt−1} (Yt − ϕ1Yt−1 − ⋯ − ϕpYt−p) = σ−1 ε (Yt − ϕ1Yt−1 − ⋯ − ϕpYt−p). Z předchozího také plyne, že Wt − Wt = σ−1 ε (Yt − Yt). Použijeme-li inovační algoritmus na proces Wt, dostaneme Wn+1 = ⎧⎪⎪⎪⎪⎪ ⎨ ⎪⎪⎪⎪⎪⎩ n ∑ j=1 θn,j (Wn+1−j − Wn+1−j) 1 ≤ n ≤ m − 1, q ∑ j=1 θn,j (Wn+1−j − Wn+1−j) n ≥ m. Koeficienty θn,j se určí pomocí autokovarianční funkce procesu Wt (viz inovační algoritmus). Zpětnou transformací k původnímu procesu bude nejlepší lineární predikce o jeden krok dopředu rovna Yn+1 = ⎧⎪⎪⎪⎪⎪⎪⎪⎪ ⎨ ⎪⎪⎪⎪⎪⎪⎪⎪⎩ 0 n = 1 n ∑ j=1 θn,j (Yn+1−j − Yn+1−j) 1 ≤ n ≤ m − 1, p ∑ j=1 ϕjYn+1−j + q ∑ j=1 θn,j (Yn+1−j − Yn+1−j) n ≥ m. Při odvození predikce o h > 1 kroků dopředu opět vyjdeme z transformovaného procesu Wt Wn+h n = ⎧⎪⎪ ⎨ ⎪⎪⎩ Psp{Y1,...,Yn}(σ−1 ε Yn+h) n + h ≤ m, Psp{Y1,...,Yn} (σ−1 ε (Yn+h − ∑ p j=1 ϕjYn+h−j)) n + h > m. 2.10. Yuleovy-Walkerovy rovnice a odhad parametrů v AR(p). Nechť {Yt,t ∈ Z} je centrovaný kauzální autoregresní proces AR(p) Φ(B)Yt = εt εt ∼ WN(0,σ2 ε ). Vraťme se k Yuleovým-Walkerovým rovnicím ρ(0) =1 = ϕ1ρ(1) + ⋯ + ϕpρ(p) + σ2 ε γ(0) ⇒ σ2 ε = γ(0)[1 − ϕ1ρ(1) − ⋯ − ϕpρ(p)] ρ(k) = ϕ1ρ(k − 1) + ⋯ + ϕpρ(k − p) k ≥ 1 Označíme-li Rp = (ρ(i − j)) p i,j=1 ρp = (ρ(1),...,ρ(p)) ′ φp = (ϕ1,...,ϕp) ′ φp = (ϕ1,...,ϕp) ′ a v Yuleových-Walkerových rovnicích nahradíme ρ(k) odpovídajícími odhady ρ(k), pak (pokud γ(0) > 0) dostaneme tzv. Yuleovy-Walkerovy odhady: φp = R−1 p ρp σ2 ε = γ(0)(1 − ρ′ pR−1 p ρp) . Věta 2.15. Nechť {Yt,t ∈ Z} je centrovaný kauzální autoregresní proces AR(p) Φ(B)Yt = εt, kde εt ∼ IID(0,σ2 ε ) a φp je Yuleovův-Walkerův odhad φp = (ϕ1,...,ϕp) ′ , pak platí √ n(φp − φp) A ∼ Np (O,σ2 ε Γ−1 p ), kde Γp = (γ(i − j)) p i,j=1. Kromě toho platí σ2 ε P → σ2 ε . 64 M5201 Stochastické modely časových řad Důkaz. viz Brockwell, Davis (1991, [15], str. 255–257). Z předchozích tvrzení plyne, že odhady získané řešením Yuleových-Walkerových rovnic jsou asymptoticky nestranné a lze pro ně konstruovat asymptotické intervaly spolehlivosti. V praktických situacích však skutečný řád p autoregresního procesu neznáme. V tom případě se využijí tvrzení následující věty. Věta 2.16. Nechť {Yt,t ∈ Z} je centrovaný kauzální autoregresní proces AR(p) Φ(B)Yt = εt, kde εt ∼ IID(0,σ2 ε ) a φm = (φm,1,...,φm,m) ′ = R−1 m ρm, m > p, pak platí √ n(φm − φm) A ∼ Nm (O,σ2 ε Γ−1 m ), kde Γm = (γ(i − j)) m i,j=1, φm jsou koeficienty nejlepší lineární predikce φmYm = Psp{Ym,...,Y1}Ym+1, přičemž Ym = (Ym,...,Y1)′, tj. φm = R−1 m ρm, přičemž Rm = (ρ(i − j)) m ij=1. Speciálně pro m > p platí √ n φm,m A ∼ N(0,1). Důkaz. viz Brockwell, Davis (1991, [15], str. 255–257). 2.11. Předběžné odhady v AR(p) a Durbin-Levinsův algoritmus. Předpokládejme, že máme k dispozici pozorování y1,...,yn centrované stacionární posloupnosti {Yt,t ∈ Z} ∼ AR(m) Φ(B)Yt = εt εt ∼ WN(0,σ2 ε ). Za předpokladu, že γ(0) > 0, pak můžeme odhadnout neznámé parametry autoregresního modelu řádu m < n pomocí Yuleových-Walkerových rovnic. Odhadnutý AR(m) proces je tvaru Yt − φm,1Yt−1 − ⋯ − φm,mYt−m = εt εt ∼ WN(0,vm), kde φm = (φm,1,...,φm,m) ′ = R−1 m ρm vm = γ(0)(1 − ρ′ mR−1 m ρm). Jestliže γ(0) > 0, pak R1,R2,... nejsou singulární a můžeme využít Durbin-Levinsův algoritmus pro postupné odhady autoregresních koeficientů φ1,φ2 a odhady variability bílého šumu v1,v2,.... Věta 2.17 (Durbin-Levinsův algoritmus). Jestliže γ(0) > 0, pak parametry φm,1,...,φm,m a vm autoregresního modelu Yt − φm,1Yt−1 − ⋯ − φm,mYt−m = εt εt ∼ WN(0,vm), pro m = 1,...,n − 1 lze získat rekurzivně ze vztahů φ1,1 = γ(1) γ(0) = ρ(1) v0 = γ(0) (22) φm,m = [γ(m) − φ ′ m−1γm−1]/vm−1 (23) φ (1) m = φm−1 − φm,mφ ∗ m−1 vm = vm−1 (1 − φ2 m,m) (24) kde φm−1 = (φm−1,1,...,φm−1,m−1)′ φ ∗ m−1 = (φm−1,m−1,...,φm−1,1)′ φm = (φm,1,...,φm,m−1,φm,m)′ φ (1) m = (φm,1,...,φm,m−1)′ RNDr. Marie Forbelská, Ph.D. 65 2.12. Předběžné odhady v MA(q) a inovační algoritmus. Jestliže chceme na základě pozorování y1,...,yn centrované stacionární posloupnosti provést odhad MA(m) (m = 1,2,...,n − 1) ve tvaru Yt = εt + θm,1εt−1 + ⋯ + θm,mεt−m εt ∼ WN(0,vm), můžeme využít inovační algoritmus. Věta 2.18. Jestliže γ(0) > 0, pak odhady parametrů MA procesů lze provést pomocí následujících rekurentních vztahů v0 = γ(0) θm,m−k = v−1 k [γ(m − k) − k−1 ∑ j=0 θm,k−jθm,m−jvj] k = 0,...,m − 1 vm = γ(0) − m−1 ∑ j=0 θ2 m,m−jvj Označme θm = (θm,1,...,θm,m) ′ . Pak platí věta Věta 2.19. Nechť {Yt,t ∈ Z} je kauzální a invertibilní ARMA proces Φ(B)Yt = Θ(B)εt, εt ∼ IID(0,σ2 ε ), Eε4 t < ∞ a ψ(z) = ∑ ∞ j=0 Ψjzj = Θ(z) Φ(z) , z ≤ 1. Pak pro libovolnou posloupnost kladných celých čísel {m(n)}∞ n=1 takovou, že m < n, m → ∞ a m = o(n 1 3 ), když n → ∞, pro každé k platí √ n(θm,1 − ψ1,θm,2 − ψ2,...,θm,k − ψk,) ′ A ∼ Nk(0,A), kde A = (aij) k i,j=1 a aij = min(i,j) ∑ r=1 ψi−rψj−r. Kromě toho platí vm P → σ2 ε . Důkaz. viz Brockwell, Davis (1991, [15], str. 239). I když rekurentní odhady koeficientů MA procesů pomocí inovačního algoritmu jsou analogické jako rekurentní odhady koeficientů AR procesů pomocí Durbin-Levinsonova algoritmu, je mezi nimi přece jen jistý rozdíl. Pro odhady φp = (φp,1,...,φp,p)′ pomocí Durbin-Levinsonova algoritmu platí φp P → φp, avšak odhady θq = (θq,1,...,θq,q)′ nekonvergují podle pravděpodobnosti k θq. Ke konvergenci podle pravděpodobnosti je třeba odhad (θm,1,...,θm,q)′, kde posloupnost {m(n)}∞ n=1 splňuje podmínky předchozí věty. Výběr m (maximálně až do n 4 ) pro výběr pevné délky se volí tak, aby odhady (θm,1,...,θm,q)′ se stabilizovaly. 2.13. Předběžné odhady v ARMA(p,q) procesu. Nechť {Yt,t ∈ Z} je kauzální a invertibilní ARMA proces {Yt,t ∈ Z} ∼ ARMA(p,q) Φ(B)Yt = Θ(B)εt εt ∼ WN(0,σ2 ε ). Z kauzality vyplývá, že existuje posloupnost {ψj}∞ j=0 taková, že ∑ ∞ j=0 ψj < ∞ a platí Yt = ∑ ∞ j=0 ψjεt−j, tj. pro z ≤ 1 dostáváme Ψ(z) = Θ(z) Φ(z) ⇒ Φ(z)Ψ(z) = Θ(z). Koeficienty {ψj}∞ j=0 se určí ze vztahu 66 M5201 Stochastické modely časových řad (1−ϕ1z−ϕ1z2−⋯−ϕpzp)(ψ0+ψ1z+ψ2z2+⋯)=(1+θ1z+θ2z2+⋯+θqzq) porovnáním koeficientů u mocnin proměnné z , tj. z0 ψ0 = 1 ⇒ ψ0 = 1 z1 ψ1 − ϕ1 = θ1 ⇒ ψ1 = θ1 + ϕ1 z2 ψ2 − ϕ1ψ1 − ϕ2 = θ2 ⇒ ψ2 = θ2 + ϕ1ψ1 + ϕ2 z3 ψ3 − ϕ2ψ1 − ϕ1ψ2 − ϕ3 = θ3 ⇒ ψ3 = θ3 + ϕ2ψ1 + ϕ1ψ2 + ϕ3 Obecně, položíme-li θj = 0 pro j > q ϕj = 0 j > p dostaneme ψ0 = 1 ψj = θj + min(j,p) ∑ i=1 ϕiψj−i j = 1,2,... Za předběžné odhady ψ1,ψ2,...,ψp+q použijeme inovační odhady θm,1,...,θm,p+q, jejichž asymptotické vlastnosti dává předchozí věta. Takže dostáváme σ2 ε = vm a θm,j = θj + min(j,p) ∑ i=1 ϕiθm,j−i j = 1,2,...,p + q. Nejprve uvažujeme rovnice pro j = q + 1,...,p + q ⎛ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎝ θm,q+1 θm,q+2 θm,q+p−1 θm,q+p ⎞ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎠ = ⎛ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎝ θm,q θm,q−1 ⋯ ⋯ θm,q+1−p θm,q+1 θm,q θm,q−1 ⋯ θm,q+2−p ⋱ ⋱ ⋱ θm,q+p−2 ⋯ θm,q+1 θm,q θm,q−1 θm,q+p−1 ⋯ ⋯ θm,q+1 θm,q ⎞ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎠ ⎛ ⎜ ⎜ ⎜ ⎜ ⎜ ⎝ ϕ1 ϕ2 ϕp−1 ϕp ⎞ ⎟ ⎟ ⎟ ⎟ ⎟ ⎠ . Řešením těchto rovnic dostaneme odhady ϕ1,...,ϕp. Nakonec získáme odhady θ1,...,θq ze vztahů θj = θm,j − min(j,p) ∑ i=1 ϕiθm,j−i j = 1,...,q. Poznámka 2.20. Pro MA(q) platí θj = θm,j , neboť p = 0. 2.14. Maximálně věrohodné odhady. Předpokládejme, že {Yt,t ∈ Z} je Gaussovský proces s nulovou střední hodnotou a kovarianční funkcí γ(i,j) = EXiXj. Označme Yn = (Y1,...,Yn)′ a Γn = (γ(i,j)) n i,j=1 . Věrohodnostní funkce náhodného vektoru Yn je tvaru L(Γn) = (2π)− n 2 Γn − 1 2 exp{−1 2Y′ nΓ−1 n Yn}. Dále označme Mn = sp{Yn,...,Y1} a Yn = { 0 (= µY ) pro n = 1 PMn−1 (Yn) pro n = 2,3,... pak zřejmě Mn = sp{Yn − Yn,...,Y1 − Y1} n ≥ 1. RNDr. Marie Forbelská, Ph.D. 67 Pro nejlepší lineární predikce použijme inovační algoritmus, podle kterého Yn+1 = { 0 n = 0 ∑ n j=1 θn,j (Yn+1−j − Yn+1−j) n = 1,2,... přičemž střední kvadratickou chybu označme vn = Yn+1 − Yn+1 2 . Označíme-li Yn = (Y1,...,Yn)′ a Cn = ⎛ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎝ 1 0 ⋯ ⋯ ⋯ 0 θ1,1 1 0 ⋯ ⋯ 0 θ2,2 θ2,1 1 0 ⋯ 0 ⋱ ⋱ ⋱ θn−2,n−2 θn−2,n−3 ⋯ −θn−2,1 1 0 θn−1,n−1 θn−1,n−2 ⋯ ⋯ θn−1,1 1 ⎞ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎠ , pak můžeme psát Yn = (Cn − In)(Yn − Yn). Postupně upravujme Yn = Yn−Yn+Yn =(Yn−Yn)+(Cn−In)(Yn−Yn)=Cn(Yn−Yn). Tento výsledek použijme při vyjádření varianční matice Γn = EYnY′ n = E [Cn(Yn − Yn)(Yn − Yn)′ C′ n] = CnE [(Yn − Yn)(Yn − Yn)′ ]C′ n Nyní počítejme E[(Yn−Yn)(Yn−Yn)′] = ⎛ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎝ E(Y1−Y1)2 =v0 E(Y1−Y1)(Y2−Y2) =0 ⋯ E(Y1−Y1)(Yn−Yn) =0 E(Y2−Y2)(Y1−Y1) =0 E(Y2−Y2)2 =v1 ⋯ E(Y2−Y2)(Yn−Yn) =0 ⋱ ⋱ E(Yn−Yn)(Y1−Y1) =0 ⋯ E(Yn−Yn)(Yn−1−Yn−1) =0 E(Yn−Yn)2 =vn−1 ⎞ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎠ = diag{v0,...,vn−1} = Dn. Takže Γn = CnDnC′ n . Počítejme dále Y′ nΓ−1 n Yn = (Yn − Yn)′ C′ n [CnDnC′ n] −1 Cn(Yn − Yn) = (Yn − Yn)′ C′ n (C′ n) −1 D−1 n C−1 n Cn(Yn − Yn) = (Yn − Yn)′ D−1 n (Yn − Yn) = n ∑ j=1 (Yj − Yj)2 vj−1 . Dále zřejmě platí Γn = CnDnC′ n = Cn =1 Dn C′ n =1 = v0v1⋯vn−1 . 68 M5201 Stochastické modely časových řad Takže věrohodnostní funkce náhodného vektoru Yn je tvaru L(Γn) = (2π)− n 2 (v0v1⋯vn−1) − 1 2 exp{−1 2 n ∑ j=1 (Yj − Yj)2 vj−1 } . Nechť {Yt,t ∈ Z} je kauzální a invertibilní ARMA proces {Yt,t ∈ Z} ∼ ARMA(p,q) Φ(B)Yt = Θ(B)εt εt ∼ N(0,σ2 ε ). Ukazuje se (viz Brockwell, Davis, 1991, [15], str. 168–170), že k velkému zjednodušení jednokrokové predikce dojde, pokud inovační algoritmus aplikujeme ne na Yt, ale na následující transformovaný proces Wt = { σ−1 ε Yt t = 1,...,m; m = max(p,q) Φ(B)Yt t > m. Poznamenejme nejprve, že zřejmě sp{Y1,...,Yn} = sp{W1,...,Wn} n ≥ 1. Označme Wj+1 = { 0 = Y1 j = 0, Psp{W1,...,Wj}(Wj+1) j ≥ 1. Pak platí Wt = ⎧⎪⎪ ⎨ ⎪⎪⎩ σ−1 ε Yt t = 1,...,m; m = max(p,q), σ−1 ε [Yt − ϕ1Yt−1 − ⋯ − ϕpYt−p] t > m, takže Yt − Yt = σε(Wt − Wt). Při aplikaci inovačního algoritmu na Wt dostaneme θn,j a střední kvadratické chyby, které označme rj. Pak z předchozích vztahů vyplývá, že platí Yn+1 = ⎧⎪⎪ ⎨ ⎪⎪⎩ ∑ n j=1 θn,j(Yn+1−j − Yn+1−j) 1 ≤ n < m, ϕ1Yn + ⋯ + ϕpYn+1−p + ∑ q j=1 θn,j(Yn+1−j − Yn+1−j) n ≥ m. a vn = E(Yn+1 − Yn+1)2 = σ2 ε E(Wn+1 − Wn+1)2 = σ2 ε rn . Takže věrohodnostní funkce náhodného vektoru Yn je tvaru L(φ,θ,σ2 ε ) = (2πσ2 ε )− n 2 (r0r1⋯rn−1) − 1 2 exp{− 1 2σ2 ε n ∑ j=1 (Yj − Yj)2 rj−1 } . Pokud položíme ∂ lnL ∂σ2 ε = 0, a budeme předpokládat, že Yj a rj jsou nezávislé na σ2 ε , dostaneme σ2 ε = 1 n S(φ,θ) , kde S(φ,θ) = n ∑ j=1 (Yj − Yj)2 rj−1 a φ a θ jsou hodnoty, které minimalizují tzv. redukovaný logaritmus věrohodnostní funkce l(φ,θ) = ln(1 n S(φ,θ)) + 1 n n ∑ j=1 lnrj−1 . RNDr. Marie Forbelská, Ph.D. 69 Poznámka 2.21. Alternativou k maximalizaci L(φ,θ,σ2 ε ) je minimalizace váženého součtu čtverců S(φ,θ) = n ∑ j=1 (Yj − Yj)2 rj−1 , přičemž ˜σ2 ε = 1 n − p − q S(˜φ, ˜θ) a platí S(˜φ, ˜θ) ˜σ2 ε A ∼ χ2 (n − p − q). (viz Brockwell, Davis, 1991, [15], §8.9). Takto získané odhady se nazývají odhady metodou nejmenších čtverců. což vede k systému nelineárních rovnic. Pokud chceme zkoumat asymptotické vlastnosti maximálně věrohodných odhadů, musíme zesílit předpoklady: nechť {Yt,t ∈ Z} je kauzální a invertibilní ARMA proces {Yt,t ∈ Z} ∼ ARMA(p,q) Φ(B)Yt = Θ(B)εt εt ∼ IID(0,σ2 ε ) a nechť Φ(z) a Θ(z) nemají společné kořeny. Pak, označíme-li maximálně věrohodný odhad neznámých parametrů β = (φ′ ,θ′ ,σ2 ε )′ symbolem βMLE = (φ ′ ,θ ′ ,σ2 ε )′ , platí √ n(βMLE − β) A ∼ Nn+p+1(0,V (β)), kde V (β) = σ2 ε ( EUtU′ t EUtV′ t EVtU′ t EVtVt ) −1 , přičemž Ut = (Ut,...,Ut+1−p)′ Vt = (Vt,...,Vt+1−q)′ a {Ut,t ∈ Z} i {Vt,t ∈ Z} jsou autoregresní procesy Φ(B)Ut = εt Θ(B)Vt = εt (viz Brockwell, Davis, 1991, [15], §8.9). KAPITOLA 4 Nestacionární jednorozměrné náhodné procesy Až dosud jsme uvažovali pouze o procesech (slabě) stacionárních. V reálných situacích se však se stacionárními procesy setkáváme pouze zřídka. Obecně rozlišujeme dva druhy nestacionarity ve střední hodnotě, v rozptylu. 1. Procesy nestacionární ve střední hodnotě 1.1. Úvod. Nejprve je třeba vysvětlit a odlišit pojmy, a to deterministický a stochastický trend. Deterministický trend: pokud nestacionaritu ve střední hodnotě chápeme jako funkci času, pak k jeho modelování můžeme použít například polynomický trend: f(t) = β0 + β1t + ⋯ + βdtd, periodický trend: f(t) = µ + ∑ p j=1(αjcosλjt + βjsinλjt). Stochastický trend: U ARMA procesů jsem požadovali, aby všechny kořeny polynomu Φ(z) = 1 − ϕ1z − ⋯ − ϕpzp ležely vně jednotkové kružnice, tj. aby proces byl kauzální. Pokud však nějaký kořen leží na jednotkové kružnici, mluvíme o procesu nestacionárním se stochastickým trendem, uvnitř jednotkové kružnice, mluvíme o procesu nestacionárním explozivního typu. 1.2. Stacionární procesy kolem deterministického trendu. Jestliže pro náhodný proces platí vztah Yt = f(t) + ηt, kde ηt ∼ ARMA(p,q), pak odečtením deterministického trendu dostaneme stacionární proces Yt − f(t) = ηt, kde ηt ∼ ARMA(p,q). Jako příklad můžeme uvést týdenní časovou řadu s počty úmrtí na kardiovaskulární choroby s deterministickou funkcí ve tvaru f(t) = β0 + β1t + β2t2 + β3t3 trend +α1 cos(2πt/52) + α2 sin(2πt/52) sezónnost 71 72 M5201 Stochastické modely časových řad q q q q qq q q q q q q q q q q q q q q q q q q q q q qq q q q q q q q q q qq q q qq q q q q q q q q qq q q q q q q qq q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q qq q q q q q q q q q q q q q q qqq q q q q q q q qqq q q q q q q q q q q q q q q q q q q q q q qqq q q q q q q qq q qq q q q q q q q q q qq q qq qq q q q qq q q q q q q q q q q qqq q q q q q q q q q q q q q q q qq q q q q q q q q q q q q q q q q q q q q qq q q q qq q q q q q q q qq q q q q q q q q q qq q q q q q q q q q q qq q q qq q q q q q q q q q q q q q q qq q qq qq q q q q q q q q q qq q q q qq q q q qq q q q q q q qq q q qq q q q qq q q qq q q q q q q q q q q q q qq qq q qq q q q q qqqq q q q q qq q q qqq q q qq q q q q q qq q q q q q q q q q q q q q q q q q q q q q q q q q qq q q q q q q q q qq q q q q q q qq qq q q q qq q q q q qq qqq q q q q q qq q q q qq q q q q q q q qqq q q q q qq q q q q q q q q qqq q q q q q q q qq q qq q q q q q q q q q q q q Time mortality 1970 1972 1974 1976 1978 1980 708090100110120130 Obrázek 1. Ukázka stacionárního náhodného procesu kolem deterministického trendu. Této třídě náhodných procesů se také někdy říká integrované procesy řádu nula, popř. se nazývají trendově stacionární a píše se Yt ∼ I(0). Ihned vidíme, že ARMA(p,q) procesy jsou integrovanými procesy řádu nula, neboť v tom případě f(t) ≡ 0, pro centrované stacionární náhodné procesy, popřípadě f(t) ≡ µ < ∞ pro necentrované stacionární náhodné procesy. K modelování nestaconarity ve střední hodnotě chápané jako funkci času se využívají regresní modely, které vycházejí z rozkladu (dekompozice) časové řady na několik složek. Dekompozicí časové řady rozumíme rozklad časové řady na deterministickou a náhodnou složku, která má v případě aditivního modelu tvar Yt = Trt + Szt + εt, multiplikativního modelu Yt = Trt ⋅ Szt ⋅ εt. Jednotlivé složky Trt,Szt trend a sezónní složka mají deterministický charakter εt náhodné fluktuace mají stochastický charakter, přičemž {εt,t ∈ Z} je bílý šum s nulovou střední hodnotou Eεt = 0, který je nekorelovaný, tj. C(εt,εs) = Eεtεs = { 0 s ≠ t, Dεt = σ2 s = t. Značíme ε ∼ Ln(0,σ2 In), kde pro n ∈ N,t ∈ Z je n-rozměrný vektor ε tvaru ε=(εt,εt+1,...,εt+n−1)′, přičemž vždy Eε=0=(0,...,0)′ a varianční matice Dε = (C(εi,εj)) n i,j=1 = σ2In, kde In je jednotková matice. Pokud navíc budeme předpokládat normalitu, budeme značit εt ∼ N(0,σ2), popř. ε ∼ Nn(0,σ2In). RNDr. Marie Forbelská, Ph.D. 73 1.2.1. Obecné lineární regresní modely a metoda nejmenších čtverců. Mějme regresní model plné hodnosti: Y = Xβ + ε ∧ h(X) = h(X′ X) = p + 1 = k ∧ n > p + 1 ∧ ε ∼ Ln(0,σ2 In) s vektorem závisle proměnných Y = (Y1,...,Yn)′ maticí plánu X = (xij) i = 1,...,n; j = 0,...,p vektorem chyb ε = (ε1,...,εn)′,kde Eε = 0; Dε = σ2In. Tento model se také nazývá regresní model plné hodnosti s pevným plánem, neboť regresory xij (i = 1,...,n, j = 1,...,k) jsou nenáhodné, tj. pevně dané. Podmínka Dε = σ2In znamená, že náhodné veličiny Y1,...,Yn mají různé střední hodnoty (které jsou známou funkcí regresorů) a stejné rozptyly - mluvíme o homogenitě rozptylu. Odhad neznámých parametrů β provedený metodou nejmenších čtverců je řešením normálních rovnic X′ Xβ = X′ Y a platí: β = (X′ X) −1 X′ Y. Označme  Y = Xˆβ = X(X′X) −1 X′ H Y = HY  ˆε = Y − Y = (I − H M )Y = MY = M(Xβ + ε)) = MX =0 β + Mε = (I − H)ε  s2 = SSE n−p−1 = 1 n−p−1(Y−Y)′(Y−Y)= 1 n−p−1 ˆε′ ˆε= 1 n−p−1Y′(I−H)Y= 1 n−p−1ε′(I−H)ε Pak platí (viz např. Zvára, K.: Regresní analýza. Praha. Academia. 1989): w Eβ = β, w Es2 = E(SSE) n−p−1 = σ2, tj. s2 je nestranným odhadem rozptylu, Dβ = σ2(X′X)−1. Platí-li navíc ε ∼ Nn(0,σ2In) , pak w Y ∼ Nn(Xβ,σ2In) w ε ∼ Nn(O,σ2(I − H)) w β ∼ Np+1(β,σ2(X′X)−1) w SSE σ2 ∼ χ2(n − p − 1) w β a s2 jsou stochasticky nezávislé w Tj = ˆβj−βj √ s2vjj ∼ t(n − p − 1), kde (X′X)−1 = (vij)i,j=0,...,p w F = 1 qs2 (ˆβ2 − β2)′W−1(ˆβ2 − β2) ∼ F(q,n − p − 1), kde (X′X)−1 =( V U U W ), β=( β1 β2 ), ˆβ=( β1 β2 ) a h(W)=q w T = c′ ˆβ−c′β √ s2c′(X′X)−1c ∼ t(n − p − 1), kde c = (c0,c1,...,cp)′ a E(c′β) = c′β 74 M5201 Stochastické modely časových řad w Označme i-tý řádek matice plánu X jako x′ i = (xi0,...,xip), pak Yi = x′ iβ + εi ∼ N(x′ iβ,σ2 ), Yi = x′ iβ ∼ N(x′ iβ,σ2 x′ i(X′ X)−1 xi) Yi − Yi = x′ i(β − β) + εi ∼ N(0,σ2 (1 + x′ i(X′ X)−1 xi)). V následující tabulce uvádíme horní a dolní meze příslušných intervalů spolehlivosti: Intervaly spolehlivosti pro parametry βj dolní mez βj − t1−α 2 (n−p−1)s √ vjj (j = 0,...,p) horní mez βj + t1−α 2 (n−p−1)s √ vjj pro střední hodnotu predikce dolní mez x′ iβ − t1− α 2 (n−p−1)s √ x′ i(X′X)−1xi EYi =Ex′ iβ=x′ iβ (i = 1, . . . , n) horní mez x′ iβ + t1− α 2 (n−p−1)s √ x′ i(X′X)−1xi pro predikci dolní mez x′ iβ − t1− α 2 (n−p−1)s √ 1+x′ i(X′X)−1xi Yi = x′ iβ (i = 1, . . . , n) horní mez x′ iβ + t1− α 2 (n−p−1)s √ 1+x′ i(X′X)−1xi kde t1−α 2 (n−p−1) je 1−α 2 kvantil Studentova rozdělení o n−p−1 stupních volnosti Až doposud jsme uvažovali lineární regresní model plné hodnosti. V některých situacích je však vhodné použít model s neúplnou hodností, tj. h(X) = r < k ≤ n. V tom případě systém normálních rovnic má nekonečně mnoho řešení, takže žádný vektor středních hodnot EY = µ = Xβ neurčuje jednoznačně vektor β. Není však vyloučeno, že existují nějaké lineární kombinace vektoru β, jejichž hodnoty jsou vektorem středních hodnot µ ∈ M(X) určeny jednoznačně. Ukazuje se (viz Anděl, 1978), že těmito hledanými vektory jsou (nestranně lineárně) odhadnutelné parametrické funkce θ = c′β. Jejich důležitou vlastností je, že jsou to právě lineární kombinace řádků matice X, tj. c ∈ M(X′). Pokud máme vektor θ = (θ1,...,θm)′, m ∈ N, jehož složky jsou odhadnutelné, jde o odhadnutelný vektor parametrů. Dá se ukázat (viz Anděl, 1978), že nejlepším nestranným lineárním odhadem odhadnutelné parametrické funkce θ = c′β je ˆθ = c′β, kde β je libovolné řešení normálních rovnic. Odtud je ihned vidět, že vektor středních hodnot µ = EY = Xβ je vždy odhadnutelný a jeho nejlepší nestranný lineární odhad je tvaru µ = X(X′ X)- X′ Y = HY. Platí-li navíc Y ∼ Nn(Xβ,σ2In) , pak (viz Anděl, 1978) w Statistika Se/σ2 = 1 σ2 (Y−Xβ)′(Y−Xβ) = 1 σ2 Y′[In−H]Y ∼ χ2(n − r). w Statistika s2 = Se n−r je nestranným odhadem parametru σ2. w Vektor β = (X′X)-X′Y a s2 jsou nezávislé. w Statistika T = c′β−c′β s √ c′(X′X) -c ∼ t(n − r). Někdy musíme vzít současně se základním lineárním modelem v úvahu i několik speciálních případů tohoto modelu, kterým se říká podmodely nebo submodely. RNDr. Marie Forbelská, Ph.D. 75 Mějme náhodný vektor Y = (Y1,...,Yn)′ a předpokládejme, že platí model M a jsou dány další dva submodely M1 a M2, přičemž pro n≥k≥r≥r1 ≥r2 máme  M : Y ∼ Nn(Xβ,σ2In), X je typu n × k, h(X)=r, β je typu k × 1  M1 : Y ∼ Nn(Uβ1,σ2In), U je typu n × k1, h(U)=r1, β1 je typu k1 × 1  M2 : Y ∼ Nn(Tβ2,σ2In), T je typu n × k2, h(T)=r2, β2 je typu k2 × 1 Položme µ1 = U(U′U)-U′Y a µ2 = T(T′T)-T′Y, pak (viz Anděl, 1978) « platí-li model M1 ⇒ F1 = (µ −µ1)′(µ −µ1) r−r1 1 s2 ∼ F(r − r1,n − r), « platí-li model M2 ⇒ F2 = (µ1−µ2)′(µ1−µ2) r1−r2 1 s2 ∼ F(r1 − r2,n − r). Koeficient determinace Předpokládejme, že v regresním modelu M Y = Xβ + ε kde ε ∼ N(0,σ2 In) matice plánu X (typu n × (p + 1)) má v prvním sloupci vektor jedniček. Pak velmi důležitou roli v regresní analýza hraje tzv. nulový (minimální) model, což je model ve tvaru M0 Yi = β0 + i = µ + i, kde i ∼ iid N(0,σ2 ), tj. ∼ N(0,σ2 In). Označíme–li matici plánu nulového modelu symbolem X0 = 1n, kde 1n je jednotkový vektor, pak řešením normálních rovnic dostaneme X′ 0X0β0 = X0Y ⇒ 1′ n1nβ0 = 1nY ⇒ nβ0 = nY ⇒ β0 = µ = Y . Bývá zvykem v regresní analýze označovat SSE =(Y−Y)′(Y−Y)=(Y−Xβ)′(Y−Xβ)= n ∑ i=1 (Yi− ˆYi)2 Sum of Squares, Error SST =(Y−Y0)′(Y−Y0)=(Y−Y 1n)′(Y−Y 1n)= n ∑ i=1 (Yi−Y )2 Sum of Squares, Total SSR = (Y − Y 1n)′(Y − Y 1n) = n ∑ i=1 (ˆYi−Y )2 Sum of Squares, Regression Pak nestrannými odhady rozptylu σ2 v minimálním modelu M0 a σ2 ve výchozím modelu M jsou v tomto značení σ2 = SST n−1 a σ2 = SSE n−p−1. Protože minimální model M0 je podmodelem výchozího modelu M , tak lze dokázat, že platí SSR = SST − SSE ⇒ SST = SSR + SSE . Koeficient determinace R2 je vlastně výběrový korelační koeficient mezi Y a Y a ukazuje, jak velký díl výchozí variability hodnot závisle proměnné (charakterizované výrazem SST) se podařilo vysvětlit uvažovanou regresní závislostí. Nevysvětlená variabilita je dána reziduálním součtem čtverců SSE. 76 M5201 Stochastické modely časových řad S využitím vztahu n ∑ i=1 Yi = n ∑ i=1 Yi se dá ukázat, že R2 (Y,Y) = [∑ n i=1(Yi − Y )(Yi − Y )] 2 ∑ n i=1(Yi − Y )2 ∑ n i=1(Yi − Y )2 = [(Y − Y 1n)′(Y − Y 1n)] 2 (Y − Y 1n)′(Y − Y 1n)(Y − Y 1n)′(Y − Y 1n) = {[(Y − Y) + (Y − Y 1n)]′(Y − Y 1n)}2 (Y − Y 1n)′(Y − Y 1n)(Y − Y 1n)′(Y − Y 1n) = [(Y − Y 1n)′(Y − Y 1n)]2 (Y − Y 1n)′(Y − Y 1n)(Y − Y 1n)′(Y − Y 1n) = (Y − Y 1n)′(Y − Y 1n) (Y − Y 1n)′(Y − Y 1n) = SSR SST = 1 − SSE SST = R2 Označíme–li vychýlené varianty odhadů příslušných rozptylů symboly ̃σ2 = SST n a ̃σ2 = SSE n , pak můžeme psát R2 = 1 − SSE/n SST/n = 1 − ̃σ2 ̃σ2 . Nahradíme–li v tomto vzorci vychýlené odhady rozptylů nevychýlenými, dostaneme tzv. upravený (adjustovaný) koeficient determinace R2 adj = 1 − σ2 σ2 = 1 − n−1 n−p−1(1 − R2 ). S ohledem na rozklad celkové sumy SST na součet dvou složek SSR a SSE bývá zvykem jako výstup regresní analýzy nabízet tzv. ANOVA tabulku ve formě Source df SS MS F p-valule Total n − 1 SST Regression p SSR MSR = SSR p MSR MSE P (F > MSR MSE ) Residual n − p − 1 SSE MSE = SSE n−p−1 Statistika F má za platnosti nulové hypotézy (β1,...,βp)′ = (0,...,0)′ F– rozdělení o p a n − p − 1 stupních volnosti. Příklad 4.1. Regresní přímka v klasickém lineárním regresním modelu Klasickým speciálním případem lineárního modelu je jednoduchá lineární regrese, kdy předpokládáme, že nezávislé náhodné veličiny Yi (i = 1,...,n) mají normální rozdělení Yi ∼ N(µi = β0 + β1xi,σ2 ), kde xi jsou dané konstanty, které nejsou všechny stejné. Rozptyly Yi jsou stejné, kdežto střední hodnoty lze vyjádřit jako lineární funkci známých konstant xi pomocí neznámých parametrů β0,β1. V tomto případě Y = ⎛ ⎜ ⎝ Y1 Yn ⎞ ⎟ ⎠ , matice plánu: X = ⎛ ⎜ ⎝ 1 x1 1 xn ⎞ ⎟ ⎠ , ε = ⎛ ⎜ ⎝ ε1 εn ⎞ ⎟ ⎠ ∼ Nn(0,σ2 In). RNDr. Marie Forbelská, Ph.D. 77 −1 −0.5 0 0.5 1 1.5 −4 −2 0 2 4 6 X Y Obrázek 2. Ukázka klasického regresního modelu s homogenním rozptylem. 1.2.2. Rozšířený lineární regresní model a vážená metoda nejmenších čtverců. Následující věta ukazuje, jakým způsobem lze lineární regresní model rozšířit i na případ, kdy rozptyl není homogenní. Věta 1.1. Mějme regresní model, ve kterém Y = Xβ + ε, ε ∼ Ln(0,σ2V), V > 0, a hodnost matice h(X) = k (tj. V je pozitivně definitní), pak odhad pomocí metody nejmenších čtverců je roven β = (X′V−1X)−1X′V−1Y. Důkaz. Jelikož jsme předpokládali, že V > 0, tj. V je pozitivně definitní, takže existuje V− 1 2 , která je symetrická a regulární. Proto h(V−1 2 X) = h(X) = k = h(X′ V−1 X) = h(X′ V−1 2 V− 1 2 X) takže X′V−1X je regulární. Položme Z = V− 1 2 Y, F = V−1 2 X, η = V− 1 2 ε. Pak z Y = Xβ + ε plyne, že V− 1 2 Y = V− 1 2 Xβ + V− 1 2 ε, tj. Z = Fβ + η. Pak Eη = EV− 1 2 ε = V− 1 2 Eε =0 = 0 a Dη = D(V−1 2 ε) = σ2 V−1 2 VV−1 2 = σ2 V− 1 2 V 1 2 V 1 2 V− 1 2 = σ2 In a tento model již splňuje předpoklady klasického regresního modelu, ve kterém odhad vektoru neznámých parametrů metodou nejmenších čtverců je roven β = (F′ F)−1 F′ Z = (X′ V− 1 2 V−1 2 X)−1 X′ V− 1 2 V−1 2 Y = (X′ V−1 X)−1 X′ V−1 Y. Poznámka 1.2. Nejčastěji se matice V uvažuje ve tvaru V = diag{v1,...,vn}, tj. jde o diagonální matici. Položíme-li W = V−1 = diag{ 1 v1 ,..., 1 vn } = diag{w1,...,wn}, 78 M5201 Stochastické modely časových řad přičemž prvky w1,...,wn se nazývají váhami (tedy čím je rozptyl větší, tím je váha pozorování menší). Pak odhad neznámých parametrů metodou nejmenších čtverců: β = (X′ WX)−1 X′ WY se nazývá vážená metoda nejmenších čtverců. Polynomický a trigonometrický trend Z velkého okruhu trendových funkcí, které vedou k lineárnímu regresnímu modelu, se zaměříme na J polynomický trend: f(t) = β0 + β1t + ⋯ + βptp J trigonometrický trend: f(t) = µ + ∑ p j=1(αjcosλjt + βjsinλjt) V případě polynomického trendu, matice plánu je tvaru X = ⎛ ⎜ ⎝ 1 t1 t2 1 ⋯ tp 1 1 tn t2 n ⋯ tp n ⎞ ⎟ ⎠ . Kromě neznámých parametrů β = (β0,...,βp)′ zbývá určit vhodný stupeň polynomu p. Pro odhad stupně polynomu se nabízí 2 intuitivní metody (1) „od nejnižšího stupně k nejvyššímu“: začneme se stupněm p = 0, postupně stupeň zvyšujeme a testujeme hypotézu H0 βp = 0 proti alternativě H1 βp ≠ 0 pomocí statistiky (viz Anděl) Tp = ˆβp − βp √ s2 kvpp ∼ t(n − p − 1), kde (X′ X) −1 = (vij)p i,j=0. Jestliže H0 zamítneme ⇒ zvyšujeme stupeň polynomu. (2) „od maximálního stupně dolů“: zvolme p = pmax. Testujeme opět H0 βp = 0 proti alternativě H1 βp ≠ 0 pomocí Tp. Jestliže H0 nezamítneme ⇒ snižujeme stupeň polynomu. Obě metody nedávají uspokojivé výsledky (viz Anderson(1971)). Penalizační metoda odhadu počtu regresních koeficientů Předpokládejme, že k0 je skutečný počet regresních parametrů. Lze ukázat, že platí E(s2 k) > σ2 pro k < k0 E(s2 k) = σ2 k ≥ k0 Zůstává problém, jak z grafu hodnot s2 k určit právě tu hodnotu k0, od níž počínaje již graf dostává vodorovný charakter. Tento problém se řeší zavedením tzv. penalizační funkce a např. Anděl navrhuje místo hodnot s2 k použít její modifikaci Ak = s2 k(1 + kwn). Penalizační funkce wn ­ nesmí být příliš velká - aby nezkreslila klesající charakter s2 k pro k < k0; ­ nesmí být příliš malá - aby z hodnot s2 k oscilujících kolem σ2 vytvořila pro k ≥ 0 rostoucí posloupnost; Za odhad ˆk se bere hodnota k ∈ {0,1,...,kmax}, pro kterou Ak nabývá svého minima. Konstanta kmax je maximální počet parametrů, které jsme ochotni uvažovat a o němž jsme si jisti, že splňuje podmínku k0 ≤ kmax. RNDr. Marie Forbelská, Ph.D. 79 Za dosti obecných podmínek týkajících se rozumné volby hodnot ti lze ukázat (Geweke a Meese(1981), Anděl a kol.(1981)), že pokud wn > 0 ∧ wn → n→∞ 0 ∧ nwn → n→∞ ∞ ⇒ ˆk → k0 podle pravděpodobnosti. V praxi se osvědčilo volit wn = 1 4 √ n , tj. Ak = s2 k (1 + k 4 √ n ). Další kriteria pro určení počtu regresních koeficientů Akaikeovo infor. kritérium (1972) AICk = lns2 k + 2k n nadhodnocuje k0 Swarz (1978) a Rissanen (1978) SRk = lns2 k + k ln n n Hannan a Quinn (1979) HQk = lns2 k + 2kc ln ln n n c > 1; obvykle c = 2 nebo 3. Příklad 4.2. Průměrné roční průtoky vody v řece Nigeru v Coulicouro (Mali) v letech 1907 až 1957 (převzato z knihy Anděl, J.: Statistická analýza časových řad, Praha SNTL 1976) Na následujícím obrázku jsou znázorněna vstupní data, která vykazují výrazný trend. Prumerne rocni prutoky vody v rece Nigeru v Coulicoure (Mali) v letech 1907 az 1957 1910 1920 1930 1940 1950 304050607080 Obrázek 3. Vstupní data: Průměrné roční průtoky vody v řece Nigeru v Coulicouro (Mali) v letech 1907 až 1957. Data jsou uvedena v kubických stopách za sekundu (krát 10−3 ). Časovou řadu budeme chtít modelovat pomocí polynomického trendu, proto nejprve pomocí různých penalizačních kritérií odhadneme vhodný stupeň polynomu. 80 M5201 Stochastické modely časových řad q q q q q q q q q q 2 4 6 8 10 80100120140160 S_k (Mean Square Error) k 3 4 5 6 7 q opt = 7 q q q q q q q q q q 2 4 6 8 10 250300350400 A_k k q opt = 1 q q q q q q q q q q 2 4 6 8 10 4.74.84.95.05.15.2 AIC_k k q opt = 7 q q q q q q q q q q 2 4 6 8 10 4.95.05.15.25.3 SR_k q opt = 7 q q q q q q q q q q 2 4 6 8 10 5.25.35.45.5 HQ_k(c=2) q opt = 6 q q q q q q q q q q 2 4 6 8 10 5.45.65.86.0 HQ_k(c=3) q opt = 1 Obrázek 4. Penalizační kritéria pro výběr vhodného stupně polynomu pro průměrné roční průtoky vody v řece Nigeru v Coulicouro (Mali). Optimálním stupněm se jeví polynom šestého či sedmého řadu. Na dalším obrázku vykresleme trendové funkce reprezentované různými stupni polynomu. Prumerne rocni prutoky vody v rece Nigeru v Coulicoure (Mali) v letech 1907 az 1957 1910 1920 1930 1940 1950 304050607080 dgr = 1 dgr = 3 dgr = 6 dgr = 7 Obrázek 5. Polynomické trendy řádu jedna, tři, šest a sedm pro průměrné roční průtoky vody v řece Nigeru v Coulicouro (Mali). trigonometrický trend RNDr. Marie Forbelská, Ph.D. 81 Je-li f(t) periodická funkce s periodou T, pak frekvencí rozumíme veličinu λ = 2π T . Uvažujme model: Yi = f(ti) + εi Eεi = 0; Dεi = σ2 ; C(εi,εj) = 0; i ≠ j;i,j = 1,...,n kde (a) f(ti) = µ + ∑ p j=1(αjcosλjti + βjsinλjti) nebo (b) f(ti) = µ + ∑ p j=1 γjcos(λjti + ωj) γj = √ α2 j + β2 j , ωj = arctan βj αj . Jde o nelineární regresní model vzhledem k (3p + 1) neznámých parametrů: (a) α1,...,αp β1,...,βp µ λ1,...,λp (b) γ1,...,γp µ λ1,...,λp ω1,...,ωp Odhad vektoru neznámých parametrů pomocí metody nejmenších čtverců minimalizuje výraz (a) S(µ,α1,...,αp,β1,...,βp,λ1,...,λp) = ∑n i=1 (Yi − f(ti))2 (b) S(µ,γ1,...,γp,ω1,...,ωp,λ1,...,λp) = ∑n i=1 (Yi − f(ti))2 Numericky lze systém nelineárních rovnic řešit např. pomocí Gauss-Newtonovy metody. Lineární model pro známé frekvence Situace se zjednoduší, pokud frekvence λ1,...,λp jsou známé. Pak model (a) je lineární a matice plánu je tvaru: Xn×(2p+1) = ⎛ ⎜ ⎝ 1 c11 s12 ⋯ cp1 sp1 ⋱ 1 c1n s1n ⋯ cpn spn ⎞ ⎟ ⎠ , kde cji = cosλjti sji = sinλjti pro j = 1,...,p i = 1,...,n Pokud n = 2m + 1 ti = i λj = 2πj n pro některá j ∈ {1,...,m} počítejme postupně (1) Pro k = ±1,±2,... platí n ∑ t=1 eikλjt = n ∑ t=1 (coskλjt + isinkλjt) = eikλj (1 − eikλjn ) 1 − eikλj = eik 2πj n 1 − eik 2πj n (1 − ei2πkj =1 ) = 0 Protože tedy n ∑ t=1 coskλjt + i n ∑ t=1 sinkλjt = 0, pak platí n ∑ t=1 coskλjt = n ∑ t=1 cosk2πj n t = n ∑ t=1 sinkλjt = n ∑ t=1 sink2πj n t = 0 (k = ±1,±2,...) (25) (2) S využitím vztahu sinα cosα = 1 2 sin2α a (25) dostaneme n ∑ t=1 cjtsjt = n ∑ t=1 cosλjtsinλjt = 1 2 n ∑ t=1 sin2αjt = 0. (3) Protože cos2 α = 1 2(1 + cos2α), pak n ∑ t=1 c2 jt = n ∑ t=1 cos2 λjt = 1 2 n ∑ t=1 (1 + cos2α) = n 2 . (4) Obdobně, protože sin2 α = 1 2(1 − sin2α), pak n ∑ t=1 s2 jt = n ∑ t=1 sin2 λjt = 1 2 n ∑ t=1 (1 − sin2α) = n 2 . 82 M5201 Stochastické modely časových řad (5) Použijeme-li vztah 1 2(cos2α + cos2β) = cos(α + β)cos(α − β), pak pro n ∑ t=1 cjtcht = n ∑ t=1 cos 2πj n tcos 2πh n t nejprve vypočteme α a β ze vztahů α + β = 2πj n t α − β = 2πh n t ⇒ 2α = 2π(j+h) n t (sečtením rovnic) 2β = 2π(j−h) n t (odečtením rovnic) takže pro j ≠ h platí n ∑ t=1 cjtcht = 1 2 n ∑ t=1 cos 2π(j+h) n t =0 +1 2 n ∑ t=1 cos 2π(j−h) n t =0 = 0. (6) Protože 1 2(cos2α − cos2β) = sin(α + β)sin(β − α), pak pro n ∑ t=1 sjtsht = n ∑ t=1 sin 2πj n tsin 2πh n t nejprve vypočteme α a β ze vztahů α + β = 2πj n t β − α = 2πh n t ⇒ 2β = 2π(j+h) n t (sečtením rovnic) 2α = 2π(j−h) n t (odečtením rovnic) takže pro j ≠ h platí n ∑ t=1 sjtsht = 1 2 n ∑ t=1 cos 2π(j−h) n t =0 −1 2 n ∑ t=1 cos 2π(j+h) n t =0 = 0. (7) Analogicky, protože 1 2(sin2α + sin2β) = sin(α + β)cos(α − β), pak pro j ≠ h platí n ∑ t=1 sjtcht = 1 2 n ∑ t=1 sin 2π(j+h) n t =0 +1 2 n ∑ t=1 sin 2π(j−h) n t =0 = 0. Nyní, jestliže využijeme předchozích vztahů, můžeme spočítat matici X′ X(2p+1)×(2p+1) = ⎛ ⎜ ⎜ ⎜ ⎝ n 0 ⋯ 0 0 n 2 ⋱ 0 0 0 ⋯ n 2 ⎞ ⎟ ⎟ ⎟ ⎠ a odtud velmi snadno z normálních rovnic dostaneme odhady neznámých parametrů ve tvaru ˆµ = 1 n n ∑ t=1 Yt ˆαj = 2 n n ∑ t=1 Yt cosλjt j = 1,...,p. ˆβj = 2 n n ∑ t=1 Yt sinλjt Neznámé parametry modelu (b) získáme ze vztahů ˆγj = √ ˆα2 j + ˆβ2 j j = 1,...,p. ˆωj = arctan ˆβj ˆαj Pokud časová řada vykazuje (po odečtení např. lineárního trendu) přibližně periodické chování, je třeba rozhodnout, které frekvence se na tvorbě periodického trendu výrazně uplatňují. Pro nalezení významných period je výhodné užít metod spektrální analýzy časových řad. RNDr. Marie Forbelská, Ph.D. 83 Příklad 4.3. Průměrné roční průtoky vody v řece Nigeru v Coulicouro (Mali) v letech 1907 až 1957 (převzato z knihy Anděl, J.: Statistická analýza časových řad, Praha SNTL 1976) 1907 1917 1927 1937 1947 1957 20 30 40 50 60 70 80 90 Obrázek 6. Vstupní data spolu s lineárním a trigonomickým trendem (s periodou délky 25.5 roků). Data jsou uvedena v kubických stopách za sekundu (krát 10−3 ). Pro známou frekvenci (získanou pomocí metody skrytých period, viz skripta Forbelská, 2009) λ = 2π T = 2π 25.5 = 0.2464 budeme uvažovat regresní model tvaru Yt = a + bt + α cos(λt) + β sin(λt) + εt, εt ∼ N(0,σ2 ) nebo ekvivalentní model Yt = a + bt + γ cos(λt + ω) + εt, εt ∼ N(0,σ2 ) s maticí plánu X = ⎛ ⎜ ⎝ 1 t1 cos(λt1) sin(λt1) 1 tn cos(λtn) sin(λtn) ⎞ ⎟ ⎠ a vektorem neznámých parametrů β = ⎛ ⎜ ⎜ ⎜ ⎝ a b α β ⎞ ⎟ ⎟ ⎟ ⎠ . Pomocí metody nejmenších čtverců obdržíme odhady a = 54.2645 α = 9.0107 γ = 2.4084 b = 0.2101 β = −8.1678 ω = −1.277 , přitom první pozorování konané v roce 1907 odpovídá t = 1. 84 M5201 Stochastické modely časových řad 1.3. Diferenčně stacionární náhodné procesy. Nestacionární proces obsahující stochastický trend lze převést na stacionární diferencováním. Zaveďme proto tzv. diferenční operátor: ∆Yt = Yt − Yt−1 = (1 − B)Yt ∆2 Yt = ∆(∆Yt) = ∆(Yt − Yt−1) = (Yt − Yt−1) − (Yt−1 − Yt−2) = Yt − 2Yt−1 + Yt−2 = (1 − B)2 Yt ∆d Yt = (1 − B)d Yt. Nestacionární proces se stochastickým trendem nazýváme integrovaným smíšeným modelem a značíme ARIMA(p,d,q) . Formálně jej zapíšeme pomocí operátoru zpětného chodu takto: ARIMA(p,d,q) Φ(B)(1 − B)d Yt = Θ(B)εt a položíme-li Wt = (1 − B)d Yt, pak Wt je stacionární ARMA(p,q). Zvláštní případy ARIMA(p,d,q) p d q Zkratka Název 0 IMA(d,q) Integrovaný proces klouzavých součtů 0 0 MA(q) Proces klouzavých součtů 0 ARI(p,d) Integrovaný autoregresní proces 0 0 AR(p) Autoregresní proces 0 0 I(d) Integrovaný proces 0 1 0 I(1) Náhodná procházka (random walk) 1.3.1. Integrované procesy řádu jedna. Nejprve popišme různé varianty náhodné procházky. „Čistá“ náhodná procházka (pure random walk, random walk without drift): Yt = Yt−1 + εt kde εt ∼ V W(0,σ2 ε ) (26) Jestliže použijeme rekurentní vzorec (26) opakovaně, dostaneme Yt = ∞ ∑ s=1 εt−s (27) Proces „čisté“ náhodné procházky je limitním případem procesu AR(1), kde ϕ1 = 1, takže (a) hodnoty ACF = ρ(k) budou klesat velmi pomalu (lineárně), (b) hodnoty PACF = α(k) jsou logicky velmi podobné procesu AR(1). Protože jeden kořen polynomu leží na jednotkové kružnici, tak se také diferenčně stacionárním procesům říká procesy s jednotkovým kořenem. RNDr. Marie Forbelská, Ph.D. 85 0 50 100 150 200 −50510 Obrázek 7. Čistá náhodná procházka Yt = Yt−1 + εt, kde εt ∼ N(0,1). Nyní předpokládejme, že proces má počátek v čase t = 0 a Y0 = y0 je počáteční deterministická podmínka. Pak Yt = y0 + t−1 ∑ s=0 εt−s (28) (a) EYt = y0 (b) DYt = D (y0 + t−1 ∑ s=0 εt−s) = D ( t−1 ∑ s=0 εt−s) nekorel. = t−1 ∑ s=0 Dεt−s = tσ2 ε tj. rozptyl je funkcí času. Náhodná procházka s deterministickým trendem, (také se říká s posunutím, vychýlená) (Random Walk with Drift): V praxi se používá následující modifikace: Yt = β + Yt−1 + εt, β ∈ R. Potom, pokud budeme postupně upravovat, dostaneme Yt = β + Yt−1 + εt = Yt−2 + 2β + εt + εt−1 = ⋯ = z0 + β ⋅ t deterministický lineární trend + t−1 ∑ s=0 εt−s stochastický trend . Takto vytvořený náhodný proces obsahuje jak deterministický, tak stochastický trend. 86 M5201 Stochastické modely časových řad 0 50 100 150 200 01020304050 Obrázek 8. Vychýlená náhodná procházka Yt = β + Yt−1 + εt, kde εt ∼ N(0,1), β = 0.3 Čistá náhodná procházka a vychýlená náhodná procházka se od sebe výrazně liší. Čistá náhodná procházka mívá cyklický průběh, kdežto v náhodné procházce s posunutím převládá deterministický trend nad stochastickým trendem a není již přítomen specifický cyklický průběh. 0 50 100 150 200 10203040 I(0) I(1) det. trend Obrázek 9. Srovnání stochastického procesu kolem deterministického trendu (tj. proces I(0)) s procesem se stochastickým trendem (tj. proces I(1)). Deterministický trend: yt = α + βt (α = 5, β = 0.1), I(0) Yt = yt + ηt, kde ηt = ϕηt−1 + εt ∼ AR(1) (ϕ = 0.3), I(1) Yt = yt + ξt, kde ξt = ξt−1 + εt a εt ∼ N(0,1). RNDr. Marie Forbelská, Ph.D. 87 1.3.2. Integrované procesy řádu d. Operátor ν(B) = Φ(B)(1 − B)d se někdy nazývá zobecněný autoregresní operátor. Pokud ν(B) chápeme jako polynom v proměnné B, pak vzhledem ke kauzalitě modelu (1 − B)d Wt = Θ(B)εt má ν(B) právě p kořenů ležících vně jednotkového kruhu a d kořenů rovných 1. V praxi se nejprve diferencováním časové řady získá stacionární řada Wt a pro ni se vybuduje proces ARMA(p,q). Pokud jsme původně měli Y1,...,Yn, po diferencování zůstanou Wd+1,...,Wn. Poznámka 1.3. Tvary ACF = ρ(k) a PACF = α(k) procesů ARIMA(p,d,q) a náhodné procházky I(1) jsou prakticky totožné. Přítomnost jednotkových kořenů způsobuje „zakrytí“ téměř všech identifikačních detailů těchto funkcí. Poznámka 1.4. ARIMA(p,d,q) nemá smysl centrovat, neboť platí: ∆d (Yt − ¯Y ) = ∆d Yt. Poznámka 1.5. Kromě trendů vyžadujících stochastické modelování mohou ARIMA modely zachytit i čistě deterministické trendy, pokud provedeme takovéto zobecnění ARIMA(p,d,q) modelů: ARIMA(p,d,q) Φ(B)(1 − B)d Yt = β + Θ(B)εt β ∈ R;, Pak této definici vyhovují procesy tvaru: β0 + β1t + ⋯ + βdtd polynomický trend řádu d + Yt. s využitím poznatků o diferencování polynomů lze totiž psát: Φ(B)(1 − B)d (β0 + β1t + ⋯ + βdtd + Yt) = Φ(B)(d!βd) β=(1−ϕ1−⋯−ϕp)d!βd + Φ(B)(1 − B)d Yt = β + Θ(B)εt. 1.4. Modelování sezónnosti. Sezónnost je v Box-Jenkinsonově metodologii stejně jako trend modelována stochasticky. Nejprve zaveďme sezónní diferenční operátor o délce L > 0: ∆LYt = Yt − Yt−L = (1 − BL )Yt ∆2 LYt = ∆L(∆LYt) = ∆L(Yt−Yt−L) = (Yt−Yt−L)−(Yt−L−Yt−2L) = Yt−2Yt−L+Yt−2L = (1−BL )2 Yt ∆D L Yt = (1 − BL )D Yt Při konstrukci se uvažuje způsobem, který budeme demonstrovat pomocí následujícího příkladu: Nechť časová řada {Yt} vykazuje sezónnost o délce L = 12. (1) Zkonstruujeme nejprve ARIMA(P1,D1,Q1) model pro řadu lednových měření, tj. pro {S1 t = B12 Yt} π1(B12 )∆D1 12 Yt = Ψ1(B12 )η (1) t ∼ ARIMA(P1,D1,Q1) kde časový index t odpovídá lednovým obdobím a o ηt se budeme zajímat později. Přitom 88 M5201 Stochastické modely časových řad π1(B12 ) = 1 − π1,1B12 − ⋯ − π1,P1 B12⋅P1 je tzv. sezónní autoregresní operátor SAR(P1) Ψ1(B12 ) = 1 + ψ1,1B12 + ⋯ + ψ1,Q1 B12⋅Q1 je tzv. sezónní operátor klouzavých součtů SMA(Q1) ∆D1 12 = (1 − BL )D1 je tzv. sezónní diferenční operátor SI(D1) (2) Podobné modely zkonstruujeme pro ostatní měsíce: π2(B12 )∆D2 12 Yt = Ψ2(B12 )η (2) t ∼ ARIMA(P2,D2,Q2) π12(B12 )∆D12 12 Yt = Ψ12(B12 )η (12) t ∼ ARIMA(P12,D12,Q12) (3) Předpokládejme přitom, že tyto modely jsou pro jednotlivé měsíce přibližně stejné, tj. P1 ≈ ⋯ ≈ P12 ≈ P Q1 ≈ ⋯ ≈ Q12 ≈ Q D1 ≈ ⋯ ≈ D12 ≈ D π1(B12 ) ≈ ⋯ ≈ π12(B12 ) ≈ π(B12 ) Ψ1(B12 ) ≈ ⋯ ≈ Ψ12(B12 ) ≈ Ψ(B12 ) (4) Náhodné veličiny η (j) t (j = 1,...,12) by však v těchto modelech měly být pro různé měsíce mezi sebou korelované, neboť by měl existovat např. vztah mezi lednovými a únorovými hodnotami. Předpokládejme proto, že také řada ηt je popsána modelem ARIMA(p,d,q) tvaru Φ(B)∆d ηt = Θ(B)εt ∼ ARIMA(p,d,q) kde εt ∼ WN(0,σ2 ) je bílý šum. (5) Spojme předchozí dva modely do jediného tzv. multiplikativního sezónního modelu řádu(p,d,q)× (P,D,Q)L Φ(B)π(BL )∆d ∆D L Yt = Θ(B)Ψ(BL )εt ∼ SARIMA(p,d,q) × (P,D,Q)L L = 12. Příklad 4.4. Model SARIMA(0,1,1) × (0,1,1)12 má tvar: ∆∆12Yt = (1 − B)(1 − B12 )Yt = (1 + θ1B)(1 + ψ1B12 )εt, nebo ekvivalentně Yt − Yt−1 − Yt−12 + Yt−13 = εt + θ1εt−1 + ψ1εt−12 + θ1ψ1εt−13. Poznámka 1.6. Existují také aditivní sezónní modely, které se však používají jen zřídka. Jako příklad lze uvést model Yt = εt + θ1εt−1 + θ12εt−12 + θ13εt−13. 1.4.1. Výstavba sezónních modelů. Označme řád běžného diferencování na odstranění trendu jako d a D jako řád diferencování na odstranění sezónnosti. V praktických situacích většinou d = 0,1,2 a D = 0,1. Dále nechť L je délka sezóny. Výstavba sezónních modelů probíhá ve třech stejných fázích jako pro modely ARIMA. Všimněme si pouze FÁZE IDENTIFIKACE MODELU, neboť ostatní dvě fáze jsou totožné. (1) Odhad parametrů d,D (a) Provede se studium odhadnuté autokorelační funkce ACF = ˆγ(k), neboť identifikuje přítomnost trendu. Doporučuje se prozkoumat 4L hodnot ˆγ(k). ¾ Určení D Má-li funkce ˆρ(k) v bodech L,2L,3L... lokální maxima, pak (bez ohledu na její průběh mezi těmito časovými body) je nutné položit D = 1. To plyne z toho, že hodnoty ˆρ(L), ˆρ(2L), ˆρ(3L),... představují odhadnuté hodnoty autokorelační funkce pro řady {Sj t = BL Yt}, j = 1,...,L modelu π(BL )∆D L Yt = Ψ(BL )ηt ∼ ARIMA(P,D,Q), přičemž nestacionaritě tohoto ARIMA modelu odpovídá pomalý pokles autokorelační funkce ˆρ(L), ˆρ(2L), ˆρ(3L),..., tj. tuto řadu je nutno diferencovat (s krokem L) a pokládáme D = 1. RNDr. Marie Forbelská, Ph.D. 89 ¾ Určení d Jestliže funkce rk klesá mezi body jL a (j +1)L pouze přibližně lineárně, je třeba provést také běžné diferencování. (b) Čísla d,D se také někdy určují tak, že se hledá nejmenší číslo mezi odhadnutými hodnotami ˆσ2 Y , ˆσ2 ∆Yt , ˆσ∆LYt , ˆσ∆2 LYt ,... rozptylů dané řady a jejich diferencí. (2) Odhad parametrů p,P,q,Q Po určení řádu d a D zkonstruujeme řadu Wt = ∆d ∆D L Yt, pro kterou je nutné identifikovat model tvaru Φ(B)π(BL )Wt = Θ(B)Ψ(BL )εt ∼ SARIMA(p,0,q) × (P,0,Q)L. Pro tento účel se použije odhadnutá ACF = ˆρ(k) a PACF = ˆα(k) řady Wt. (a) MA–Homogenní modely « Jestliže ACF funkce ˆρ(k) je zhruba významně nenulová v bodech 1,...,q L − q,...,L + q 2L − q,...,2L + q QL − q,...,QL + q přičemž mezi těmito body se neodlišují významně od nuly « a funkce ˆα(k) v jednotlivých úsecích mezi body jL a (j + 1)L vždy v absolutní hodnotě klesá (geometricky nebo po sinusoidě s geometricky klesající amplitudou) a zároveň klesá, když ji sledujeme v bodech L,2L,3L,..., pak položíme p = 0 a P = 0, tj. budeme identifikovat odpovídající model pro řadu Wt jako Wt = Θ(B)Ψ(BL )εt ∼ SARIMA(0,0,q) × (0,0,Q)L a tedy model pro řadu Yt jako ∆d ∆D L Yt = Θ(B)Ψ(BL )εt ∼ SARIMA(0,d,q) × (0,D,Q)L. (b) AR–Homogenní modely « Jestliže naopak funkce ˆρ(k) klesá v absolutní hodnotě (geometricky nebo po sinusoidě s geometricky klesající amplitudou) v úsecích mezi body jL a (j + 1)L a zároveň klesá, když ji sledujeme v bodech L,2L,3L,... « a funkce ˆα(k) je zhruba významně nenulová v bodech 1,...,p L,...,L + p 2L,...,2L + p PL,...,PL + p přičemž mezi těmito body se neodlišují významně od nuly, pak položíme q = 0 a Q = 0, tj. budeme identifikovat odpovídající model pro řadu Wt jako Φ(B)π(BL )Wt = εt ∼ SARIMA(p,0,0) × (P,0,0)L a tedy model pro řadu Yt jako Φ(B)π(BL )∆d ∆D L Yt = εt ∼ SARIMA(p,d,0) × (P,D,0)L. 90 M5201 Stochastické modely časových řad (c) Nehomogenní modely typu SARIMA(p,d,0) × (0,D,Q)L nebo SARIMA(0,d,q) × (P,D,0)L se většinou nepoužívají, neboť obvykle vedou při srovnání s předchozími tzv. homogenní mo- dely SARIMA(0,d,q) × (0,D,Q)L nebo SARIMA(p,d,0) × (P,D,0)L k odhadu neúnosně velkého počtu parametrů. (d) Identifikace obecných modelů SARIMA(p,d,q) × (P,D,Q)L, v nichž čísla p,q,P a Q mohou být vesměs nenulová, je již dosti komplikovanou záležitostí a obvykle zde hodně záleží na zkušenostech statistika, který analýzu provádí. 1.5. Exponenciální vyrovnávání. Exponenciální vyrovnávání, které zavedl Brown, vychází z polynomiální lokální vážené metody nejmenších čtverců. Hlavní myšlenka lokální (vážené) metody nejmenších čtverců spočívá v tom, že provedeme odhad trendu Trt polynomem na lokálním intervalu ⟨t − s,t + s⟩ na rozdíl od klasické (vážené) metody nejmenších čtverců, kdy trend odhadujeme polynomem na celém intervalu možných hodnot parametru t, který označíme ⟨T1,T2⟩. Parametr s > 0 se nazývá šířka vyhlazovacího okénka, interval ⟨t − s,t + s⟩ vyhlazovací okénko. I když vyhlazovací funkce, se kterou pracujeme, není polynomická funkce, může být za předpokladu, že je lokálně hladká (tj. existují její spojité derivace až do nějakého vhodně zvoleného řádu), lokálně rozvedena do Taylorovy řady kolem bodu t. Proto může být dobře aproximována lokálním polynomem, což lze provést metodou nejmenších čtverců, případně váženou metodou nejmenších čtverců. Popsaná lokální (vážená) metoda nejmenších čtverců se někdy též nazývá klouzavá polynomická metoda, protože kolem bodu t, v němž má být trend odhadnut, je umístěno vyhlazovací okénko ⟨t − s,t + s⟩ a odhad trendu Trt se „pohybuje“ spolu s t. Zvolme tento přístup: uvnitř vyhlazovacího okénka ⟨t − s,t + s⟩ aproximujme neznámý trend polynomem stupně m ρ(x) = m ∑ j=0 βj(t) (x − t)j . Koeficienty βj(t) (j = 0,1,...,m) uvádíme jakožto funkci bodu t, (který je středem okénka ⟨t−s,t+s⟩), abychom zdůraznili, že tyto koeficienty budou pro každé t jiné. Neznámé koeficienty βj(t) polynomu ρ(x) odhadneme (váženou) metodou nejmenších čtverců, kde matice plánu X je tvořena prvky xij = (ti − t)j , přičemž j = 0,1,...,m a index i nabývá pouze těch hodnot, pro které platí ti − t ≤ s. Je zřejmé, že platí ρ(t) = β0(t). Volba šířky vyhlazovacího okénka RNDr. Marie Forbelská, Ph.D. 91 S rostoucím s pracujeme s větším počtem pozorování ve vyhlazovacím okénku ⟨t − s,t + s⟩, proto bude klesat rozptyl odhadu trendu, což však bude mít za následek nárůst jeho vychýlení od skutečné hodnoty. Vychýlení odhadu záleží na derivaci trendové funkce a projevuje se tak, že odhad Trt má tendenci podhodnocovat velikost lokálních extrémů trendové funkce, mluvíme o přehlazení. Pokud naopak budeme použivat úzké vyhlazovací okénko, odhad trendu bude méně vychýlen, ale na úkor velké variability odhadu. V tomto případě mluvíme o podhlazení trendové funkce. V dalším budeme předpokládat, že posloupnost časových okamžiků t1,t2,...,tn je ekvidistantní, tj. položímeli pro i = 1,...,n − 1 ∆ = ti+1 − ti, pak ti = t1 + (i − 1)∆ i = ti − t1 ∆ + 1 a položíme-li pro i = 1,...,n t∗ i = ti − t1 ∆ + 1, můžeme bez újmy na obecnosti uvažovat pouze o časových řadách, pro něž platí ti = i i = 1,...,n. V praxi se používají nejen symetrická vyhlazovací okénka typu ⟨t − s,t + s⟩, kde odhad v bodě t je proveden na základě s minulých a s budoucích pozorování (kde jednotlivá pozorování mají či nemají stejnou váhu), ale také asymetrická okénka, která berou pozorování pouze z minulosti. Exponenciální vyrovnávání, které zavedl Brown, vychází z polynomiální lokální vážené metody nejmenších čtverců, kde váhy jednotlivých čtverců uvnitř asymetrického okénka (tj. výřezu časové řady) se směrem do minulosti exponenciálně snižují – odtud název metody. Nejprve zaveďme substituci τ = x − t. Potom ρ(x) = ρ(t + τ) = m ∑ j=0 βj(−τ)j τ ∈ (−∞,t⟩ ⇒ ρ(t) = β0. Máme tedy pro každé t,τ = 0,1,... regresní model tvaru Yt−τ = m ∑ j=0 (−τ)j βj(t)+εt−τ , kde Eεt−τ =0, C(εq,εs)=Eεqεs =0 pro q ≠ s a Dεt−τ =α−τ σ2 pro α ∈ (0,1), tj. matice vah je rovna W = diag{w1,...,wn,...} = diag{α0 ,α1 ,...,ατ ...}. Odhad parametrů β metodou nejmenších vážených čtverců (neboť rozptyly nejsou konstantní) je dán vzorcem: ˆβ = (X′ WX)−1 X′ WY kde X′ WX= ⎛ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎝ ∞ ∑ τ=0 ατ ∞ ∑ τ=0 (−τ)1 ατ ⋯ ∞ ∑ τ=0 (−τ)m ατ ∞ ∑ τ=0 (−τ)1 ατ ∞ ∑ τ=0 (−τ)2 ατ ⋯ ∞ ∑ τ=0 (−τ)m+1 ατ ⋱ ∞ ∑ τ=0 (−τ)m ατ ∞ ∑ τ=0 (−τ)m+1 ατ ⋯ ∞ ∑ τ=0 (−τ)2m ατ ⎞ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎠ , X′ WY= ⎛ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎝ ∞ ∑ τ=0 ατ Yt−τ ∞ ∑ τ=0 (−τ)1 ατ Yt−τ ∞ ∑ τ=0 (−τ)m ατ Yt−τ ⎞ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎠ . 92 M5201 Stochastické modely časových řad Značení: Pro dobrou srozumitelnost zavedeme následující značení. Nechť {Yt,t ∈ Z} je náhodná posloupnost, její realizace v časových okamžicích t1,t2,...,tn označme y1,y2,...,yn. Symbolem ˆyt k označme odhad hodnoty Yt v čase t na základě hodnot do časového okamžiku k včetně.  Jestliže k < t, pak ˆyt k nazýváme predikcí,  k = t, ˆyt t filtrací  k = n > t, ˆyt n vyrovnáním (smoothing). Jednoduché exponenciální vyrovnávání Exponenciální vyrovnávání pro m = 0 se nazývá jednoduché exponenciální vyrovnávání. Použijeme–li označení ˆβ0(t) = b0(t) a uvážíme–li, že pro α ∈ (0,1) je ∞ ∑ τ=0 ατ = 1 1−α, dostaneme bo(t) ∞ ∑ τ=0 ατ = ∞ ∑ τ=0 ατ Yt−τ ⇒ b0(t) = ˆYt = (1 − α) ∞ ∑ τ=0 ατ Yt−τ Abychom získali rekurentní vztah, upravujme ˆYt = (1 − α)∑∞ τ=0 ατ Yt−τ = (1 − α)Yt + (1 − α)∑∞ τ=1 ατ Yt−τ = subst. k = τ − 1 = (1 − α)Yt + (1 − α)∑∞ k=0 αk+1 Yt−1−k = (1 − α)Yt + α (1 − α)∑∞ k=0 αk Yt−1−k ˆYt−1 = (1 − α)Yt + α ˆYt−1 Protože predikce o τ (τ > 0) kroků dopředu pro jednoduché exponenciální vyrovnávání je rovna ˆYt+τ t = ˆYt = b0(t), můžeme předchozí rekurentní vztah přepsat pro realizace a dále upravovat ˆyt+1 t = (1 − α)yt + αˆyt t−1 = (1 − α)yt + αˆyt t−1 + ˆyt t−1 − ˆyt t−1 = ˆyt t−1 + (1 − α) (yt − ˆyt t−1) chyba predikce ˆεt t−1 a o rekurentním vzorci s chybou predikce ˆεt t−1 se říká, že je ve formě korekce chyby předpovědi (error correction form). Ad hoc přístupy Holta a Winterse Pokud chceme na základě pozorování y1,...,yt sestrojit předpověď budoucí hodnoty yt+1 v čase t + 1, označme ji yt+1 t, pak nejjednodušším odhadem může být obyčejmý průměr. Tato předpověď je vhodná, pokud hodnoty časové řady náhodně kolísají kolem střední hodnoty, která se v čase nemění. Jako rozumější se však jeví použít pro predikci budoucí hodnoty ve větší míře pozorování, která jsou časově nejbliže. Pak se nabízejí vážené průměry yt+1 t = t−1 ∑ j=0 wj,tyt−j, (29) kde součet vah je roven jedné, tj. ∑n j=0 wj,t = 1. Exponenciální vyrovnávání je založeno na myšlence použití vah, které do minulosti klesají exponenciálně. S využitím vztahu t−1 ∑ j=0 αj = 1 − αt 1 − α , pro α ∈ (0,1), (30) chceme-li, aby součet vah, které exponenciálně klesají, byl roven jedné, položíme wj,t = 1 − α 1 − αt αj . (31) RNDr. Marie Forbelská, Ph.D. 93 Protože pro t → ∞ konvergují váhy wj,t → wj = (1 − α)αj , můžeme uvažovat jednokrokovou předpověď ze všech minulých pozorování ve tvaru yt+1 t = (1 − α) ∞ ∑ j=0 αj yt−j, pro α ∈ (0,1) . (32) Analogicky jako u Brownova přístupu odvodíme rekurentní vztahy yt+1 t = (1 − α)yt + (1 − α) ∞ ∑ j=1 αj yt−j = (1 − α)yt + α(1 − α) ∞ ∑ k=0 αk yt−1−k = (1 − α)yt + αyt t−1 Obdobně získáme i tvar využívající korekci chyby předpovědi yt+1 t = (1 − α)yt + αyt t−1 + yt t−1 − yt t−1 = yt t−1 + (1 − α)(yt − yt t−1) = yt t−1 + (1 − α)εt t−1 Na tomto ad-hoc přístupu se nám podařilo ukázat, že se v podstatě jedná o jednoduché exponenciální vyrovnávání, které přepokládá model Yt = β0(t) + εt s lokální hladinou β0(t). Použijeme-li značení obvyklá pro tento přístup, kdy váhy mají tvar wj = β(1 − β)j , (33) tj. α = 1 − β, místo β0(t), píšeme Lt (level). Odvozené vztahy v novém značení: yt+1 t = βyt + (1 − β)yt t−1 = yt t−1 + βεt t−1 (34) Lt+1 = Lt + βεt+1 t (35) Holtovo exponenciální vyrovnávání Oproti jednoduchému exponenciálnímu vyrovnávání Holtova metoda předpokládá lokálně lineární trend, jehož koeficienty β0(t) i β1(t) se v čase mění. Hodnota časové řady v okamžiku t je určena jednak její úrovní β0(t), jednak směrnicí β1(t). V Holtově metodě se úroveň v čase t značí symbolem Lt (zkratka pro level) a směrnice jako Tt (zkratka pro trend). Úroveň Lt je zároveň vyrovnanou hodnotou realizace yt v okamžiku t. Směrnice lokálně lineárního trendu Tt (někdy se mluvíme krátce o trendu) vyjadřuje očekávanou změnu úrovně časové řady při jednotkové časové změně. Pokud chceme pomocí Holtovy metody přepovídat hodnotu časové řady o h > 0 jednotek dopředu, položíme yt+h t = Lt + Tth . (36) Takže, je-li h = 1, dostaneme jednokrokovou předpověď jako yt+1 t = Lt + Tt . (37) Protože by přibližně mělo platit, že realizace yt+1 ≈ Lt+1, pak se jeví vhodné získat Lt+1, jako konvexní lineární kombinaci hodnot (Lt +Tt) a yt+1. V Holtově metodologii bývá zvykem místo α ∈ (0,1) používat β = 1−α, takže konvexní lineární kombinace bude mít tvar Lt+1 = (1 − β)(Lt + Tt) + βyt+1 . (38) Hodnota β se nazývá vyrovnávací konstanta pro úroveň řady. Analogickou úvahu použijeme i pro směrnici trendu Tt. Z přepokladu, že řada má lokálně lineární trend vyplývá, že by přibližně mělo platit Tt+1 ≈ Tt, 94 M5201 Stochastické modely časových řad ale zároveň má také smysl očekávat, že směrnice trendu je přibližně rozdílem sousedních úrovní, tj. Tt+1 ≈ Lt+1 − Lt . Novou hodnotu směrnice Tt+1 budeme uvažovat jako konvexní lineární kombinaci Tt+1 = (1 − γ)Tt + γ(Lt+1 − Lt), kde γ ∈ (0,1) (39) γ je tzv. vyrovnávací konstanta pro lineární růst (pro směrnici). Na závěr odstavce ještě ukážeme přepsání předchozích rekurentních vztahů do chybového tvaru. Lt+1 = (1 − β)(Lt + Tt) + βyt+1 = (1 − β)(Lt + Tt) + βyt+1 + βyt+1 t − βyt+1 t = β (yt+1 − yt+1 t) εt+1 t +(1 − β)(Lt + Tt) + β yt+1 t Lt+Tt = βεt+1 t + Lt + Tt Tt+1 = (1 − γ)Tt + γ(Lt+1 − Lt) = Tt − γTt + γ Lt+1 Lt+Tt+βεt+1 t −γLt = Tt − γTt + γ(Lt + Tt + βεt+1 t) − γLt = Tt + γβεt+1 t . Holtovo-Wintersovo exponenciální vyrovnávání V případě, kdy časová řada má sezonní charakter, nevystačíme se žádnou z předchozích metod. Rozšíření Holtovy metody na sezónní časové řady je známo jako Holtova–Wintersova metoda. Autorem je Holtův student Peter R. Winters. Holtova-Wintersova metoda je založena na třech vyrovnávacích konstantách. Jedna je pro hladinu, druhá pro trend a třetí pro sezónnost. Dle charakteru dat využívá aditivní nebo multiplikativní notaci. Uvažujme časovou řadu s lokálně lineárním trendem a sezónností s periodou p ≥ 2. Stejně jako u Holtovy metody označme symbolem Lt úroveň v čase t, symbolem Tt směrnici lokálně lineárního trendu a symbolem St sezónní výkyv čase t. Součet úrovně Lt s hodnotou sezónního výkyvu St představuje v okamžiku t vyrovnanou hodnotu realizace yt. Předpověď hodnoty časové řady o h > 0 jednotek dopředu je pak dána vztahem yt+h t = Lt + St−p+h + Tth, (40) takže v případě jednokrokové predikce platí yt+1 t = Lt + St+1−p + Tt (41) Protože by mělo přibližně platit yt+1 ≈ Lt+1 + St+1−p a Lt+1 ≈ Lt + Tt, má smysl získat úroveň Lt+1 jako konvexní lineární kombinaci hodnot (Lt + St) a (yt+1 − St+1−p), tj. Lt+1 = (1 − β)(Lt + Tt) + β(yt+1 − St+1−p). (42) Protože řada má lokálně lineární trend, mělo by přibližně platit Tt+1 ≈ Tt, ale zároveň lze směrnici lokálně lineárního trendu vyjádřit pomocí rozdílu sousedních hladin Tt+1 ≈ Lt+1 − Lt. Oba předchozí vztahy využijeme při konstrukci směrnice lokálně linárního trendu díky konvexní linární kombinaci Tt+1 = (1 − γ)Tt + γ(Lt+1 − Lt), RNDr. Marie Forbelská, Ph.D. 95 kde γ ∈ (0,1) se nazývá vyrovnávací konstanta pro směrnici trendu. Pro sezónní výkyvy musí platit vztah St+1 ≈ St+1−p , a také St+1 ≈ yt+1 − Lt+1 Tedy označíme-li symbolem δ ∈ (0,1) vyrovnávací konstantu pro sezónní výkyvy, pak St+1 = (1 − δ)St+1−p + δ(yt+1 − Lt+1) Na závěr odstavce odvodíme rekuretní vztahy v chybové formě. Tedy upravujme Lt+1 = (1 − β)(Lt + Tt)β(yt+1 − St+1−p) = (1 − β)(Lt + Tt) + β(yt+1 − St+1−p) + βyt+1 t − βyt+1 t = β(yt+1 − yt+1 t) + Lt + Tt − βLt + −βTt − βSt+1−p + β yt+1 t Lt+St+1−p+Tt = Lt + Tt + βεt+1 t Tt+1 = (1 − γ)Tt + γ(Lt+1 − Lt) = Tt − γTt + γ Lt+1 Lt+Tt+βεt+1 t −Lt = Tt − γTt + γ(Lt + Tt + βεt+1 t − γLt) = Tt + γβεt+1 t St+1 = (1 − δ)St+1−p + δ(yt+1 − Lt+1) = St+1−p − δ(St+1−p − yt+1) − δ(Lt + Tt + βεt+1 t) = St+1−p + δyt+1 − δ(Lt + Tt + St+1−p) − δβεt+1 t = St+1−p + δ(1 − β)εt+1 t. Příklad 4.5. Pro demonstraci exponenciálního vyrovnávání zvolíme měsíční časovou řadu s počty nezaměstnaných mladých žen ve věku od 16 do 19 let v USA od ledna 1961 do srpna 2002. 1960 1970 1980 1990 2000 300400500600700800900 Obrázek 10. Vstupní data pro časovou řadu: Počet nezaměstnaných mladých žen ve věku od 16 do 19 let v USA od ledna 1961 do srpna 2002 96 M5201 Stochastické modely časových řad Na načtená data vyzkoušíme Holtův–Wintersenův model se všemi komponentami, ve kterém odhady parametrů mají hodnoty β = 0.3568 γ = 0.0206 δ = 0.2020 Hodnoty sezónních složek vykreslíme do grafu. q q q q q q q q q q q q 2 4 6 8 10 12 0510 Obrázek 11. Hodnoty sezónních složek Výsledné exponenciální vyrovnáníní je znázorněno na následujícím grafu. Holt−Winters filtering 1970 1980 1990 2000 200400600800 Obrázek 12. Holtovo–Wintersonovo exponenciální vyrovnávání pro časovou řadu: Počet nezaměstnaných mladých žen ve věku od 16 do 19 let v USA od ledna 1961 do srpna 2002 2. PROCESY NESTACIONÁRNÍ V ROZPTYLU Není-li splněna podmínka neměnnosti rozptylu v čase, je proces nestacionární v rozptylu. Takovýto proces je ovšem třeba nejprve vhodně transformovat. Vysvětleme si stručně pojem transformace stabilizující rozptyl. Situace nestabilního rozptylu nastává především v případě, kdy náhodná veličina Yt má rozdělení, které závisí na jediném parametru ϑt, který obecně nemusí mít pro všechna t stejnou hodnotu. Předpokládejme, že tento parametr je zvolen tak, aby platilo Eµt Yt = µt. Ve většině případů (ne však u normálního rozdělení) na µt závisí i rozptyl veličiny Yt, takže můžeme psát Dµt Yt = σ2 (µt). RNDr. Marie Forbelská, Ph.D. 97 Přitom σ(µt) bývá obvykle hladká funkce proměnné µt. Protože µt může souviset s časem t, není splněna podmínka neměnnosti rozptylu v čase. Vzniká tedy otázka, zda lze najít netriviální funkci g tak, aby náhodná veličina Zt = g(Yt) měla rozptyl nezávisející na µt. (Požadavkem netriviality se vylučují konstantní funkce g, které by vedly k veličinám s nulovým rozptylem). Uvedená úloha v obecném případě nemá řešení. Používá se však určitých aproximací, které se ukázaly velmi užitečné. Pokud se zabýváme jen dostatečně hladkými funkcemi g, z Taylorova rozvoje dostaneme aproximaci g(Yt) ≈ g(µt) + g′ (µt)(Yt − µt). Potom střední hodnotu lze aproximovat takto Eµt g(Yt) ≈ E [g(µt) + g′ (µt)(Yt − µt)] = g(µt) a rozptyl Dµt [g(Yt)] ≈ [g′ (Yt)] 2 Dµt Yt = [g′ (µt)] 2 σ2 (µt). Chceme, aby po transformaci byl rozptyl konstantní a nezávisel na střední hodnotě, tj. c2 = Dµt [g(Yt)] = [g′ (µt)] 2 σ2 (µt) ⇒ g′ (µt) = c σ(µt) , kde c je nějaká konstanta. Odtud snadno dostaneme tvar transformace stabilizující rozptyl g(µt) = c∫ 1 σ(µt) dµt + K. Konstanty c a K se volí tak, aby funkce g vypočtená podle předchozího vzorce měla výhodný tvar. Ukázalo se, že funkce g vypočtená podle předchozího vzorce nejen výrazně stabilizuje rozptyl, takže rozptyl Dµt g(Yt) závisí na µt jen velmi málo, ale zároveň také rozdělení náhodné veličiny Zt = g(Yt) bývá již velmi blízké normálnímu, i když třeba samotné rozdělení veličiny Yt je výrazně nenormální. 2.0.1. Mocninné transformace. Pro přehlednost vynechejme index t a uvažujme kladnou náhodnou veličinu X z rozdělení, které závisí na parametru µ se střední hodnotou EµX = µ (pokud tomu tak není, provede se vhodná reparametrizace) a rozptylem DµX = σ2 (µ) = (σµϑ )2 , σ,ϑ ∈ R, tj. X ∼ L(µ,σ2 µ2ϑ ). Podle obecného vzorce se transformace stabilizující rozptyl vypočítá takto: g(µ) = ∫ cdµ σ(µ) + K = c σ ∫ dµ µϑ + K = ⎧⎪⎪ ⎨ ⎪⎪⎩ c σ ln µ + K ϑ = 1, c 1−ϑµ1−ϑ + K ϑ ≠ 1. . Položme v dalším λ = 1 − ϑ a tento parametr nazvěme transformačním parametrem pro mocninnou transformaci. Různou volbou c a K dostaneme následující často užívané transformace ¾ Box-Coxova mocninná transformace pro kladné náhodné veličiny při volbě c = σ a K = ⎧⎪⎪ ⎨ ⎪⎪⎩ 0 λ = 0 ⇒ ϑ = 1, −1 λ = − 1 1−θ λ ≠ 0 ⇒ ϑ ≠ 1, a odtud g(X) = X(λ) = ⎧⎪⎪ ⎨ ⎪⎪⎩ lnX λ = 0 (ϑ = 1), Xλ−1 λ λ ≠ 0 (ϑ ≠ 1). . 98 M5201 Stochastické modely časových řad ¾ Box-Coxova mocninná transformace s posunutím se použije v případě, že hodnoty náhodné veličiny nejsou kladné. Nalezneme proto takové reálné číslo a tak, aby pro všechny realizace platilo x + a > 0 a transformace bude mít tvar: g(X + a) = (X + a)(λ) = ⎧⎪⎪ ⎨ ⎪⎪⎩ ln(X + a) λ = 0 (ϑ = 1), (X+a)λ−1 λ λ ≠ 0 (ϑ ≠ 1). . ¾ Mocninná transformace se znaménkem lze opět použít v případě, že náhodné veličiny nejsou kladné: g(X) = sign(X) X (λ) = ⎧⎪⎪ ⎨ ⎪⎪⎩ sign(X)ln X λ = 0 (ϑ = 1), sign(X) X λ−1 λ λ ≠ 0 (ϑ ≠ 1). 2.0.2. Odhad transformačního parametru mocninné transformace. ¾ Parametrický přístup pomocí metody maximální věrohodnosti. Mějme nezávislé realizace náhodné veličiny X ∼ L(µX,σ2 Xµ2ϑ X ). Předpokládejme, že existuje takové λ = 1 − ϑ, že transformovaný náhodný vektor Y = (Y1 = g(X1),...,Yn = g(Xn))′ je výběr z normálního rozdělení se střední hodnotou µ a rozptylem σ2 . Označme y = (y1,...,yn)′ realizaci náhodného výběru. Hledejme maximum věrohodnostní funkce pro θ = (µ,σ2 )′ , tj. pro funkci L(µ,σ2 ) = n ∏ i=1 [− 1 √ 2πσ2 exp{ 1 2 ( yi − µ σ ) 2 }] = (2πσ2 )− n 2 exp{− 1 2 n ∑ i=1 ( yi − µ σ ) 2 }, což je stejná úloha jako hledat maximum logaritmu věrohodnostní funkce l(µ,σ2 ) = lnL(µ,σ2 ) = − n 2 ln(2π) − n 2 ln(σ2 ) − 1 2 n ∑ i=1 ( yi − µ σ ) 2 . Maxima nalezneme, položíme-li ∂l ∂µ = 0 a ∂l ∂σ2 = 0. 0 = ∂l ∂µ = 2 2σ2 n ∑ i=1 (yi − µ) 0 = ∂l ∂σ2 = − n 2σ2 + 1 2σ4 n ∑ i=1 (yi − µ)2 a odtud pak dostaneme ˆµ = 1 n n ∑ i=1 yi = ¯y, σ2 = 1 n n ∑ i=1 (yi − ¯y)2 = s2 . Upravme nyní logaritmus věrohodnostní funkce takto: l(µ,σ2 ) = − n 2 ln(2π) − n 2 ln(σ2 ) − 1 2σ2 n ∑ i=1 [(yi − ¯y) + (¯y − µ)]2 = − n 2 ln(2π) − n 2 ln(σ2 ) − 1 2σ2 { n ∑ i=1 (yi − ¯y)2 + n(¯y − µ)2 } = − n 2 ln(2π) − n 2 ln(σ2 ) − 1 2σ2 [ns2 + n(¯y − µ)2 ] Nyní dokažme, že funkce l(µ,σ2 ) nabývá v bodě (ˆµ, ˆσ2 ) = (¯y,s2 ) svého maxima. Platí l(¯y,s2 ) = − n 2 ln(2π) − n 2 ln(s2 ) − n 2 , RNDr. Marie Forbelská, Ph.D. 99 Ověřme, zda platí nerovnost l(µ,σ2 ) ? ≤ l(¯y,s2 ) −n 2 ln(2π) − n 2 ln(σ2 ) − ns2+n(¯y−µ)2 2σ2 ? ≤ −n 2 ln(2π) − n 2 ln(s2 ) − n 2 −1 2 ln(σ2 ) − s2 2σ2 − (¯y−µ)2 2σ2 ? ≤ −n 2 ln(s2 ) − 1 2 0 ? ≤ ⎡ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎣ ( s2 2σ2 − 1 2)−ln s σ 1. člen ⎤ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎦ + (¯y−µ)2 2σ2 ≥0 Protože pro všechna kladná x = s σ > 0 platí lnx < x2−1 2 , je první i druhý člen nezáporný a nerovnost platí. Celkově jsme tedy dostali, že max µ,σ2 l(µ,σ2 ) = l(¯y,s2 ) = − n 2 ln(2π) − n 2 ln(s2 ) − n 2 a max µ,σ2 L(µ,σ2 ) = L(¯y,s2 ) = (2πs2 ) − n 2 e− n 2 . Nyní toto maximum vyjádřeme v původních proměnných xi, kdy yi = g(xi) = ⎧⎪⎪ ⎨ ⎪⎪⎩ lnxi λ = 0, xλ i −1 λ λ ≠ 0. Nejprve vypočtěme jakobián této transformace: J = n ∏ i=1 dyi dxi = n ∏ i=1 λxλ−1 i λ = n ∏ i=1 xλ−1 i . Pak max µ,σ2 L(µ,σ2 ,λ) = (2πs2 (λ)) − n 2 e− n 2 J = (2πs2 (λ)) − n 2 e− n 2 n ∏ i=1 xλ−1 i = (2πs2 (λ)) − n 2 e− n 2 n ∏ i=1 e(λ−1) ln xi max µ,σ2 l(µ,σ2 ,λ) = − n 2 ln(2π) − n 2 ln(s2 (λ)) − n 2 + (λ − 1) n ∑ i=1 lnxi. Nyní hledejme maximum funkce l(ˆµ, ˆσ2 ,λ) = l(¯y,s2 ,λ) pro parametr λ. Protože maximum vzhledem k λ nezávisí na konstantách, budeme maximalizovat funkci l∗ (λ) = − n 2 ln(s2 (λ)) + (λ − 1) n ∑ i=1 lnxi. Teoretickým odvozením maximálně věrohodného odhadu parametru λ se zde již dále nebudeme zabývat, ale ukážeme si jednodušší přístup, který pro ekvidistantní hodnoty λ1 < λ2 < ⋯ < λm (pro dostatečně velké m) ze vhodně zvoleného intervalu (λ∗ 1,λ∗ 2), (kde λ∗ 1,λ∗ 2 ∈ R, λ∗ 1 < λ∗ 2) vypočítá hodnoty l∗ (λ) a hledá argument ˆλ maxima těchto hodnot. Ve své práci Box a Cox (1964) odvodili asymptotické rozdělení statistiky K = −2[l∗ (λ) − l∗ (ˆλ)] A ∼ χ2 (1), 100 M5201 Stochastické modely časových řad takže můžeme zkonstruovat jednostranný asymptotický interval spolehlivosti pro parametr λ 1 − α = P (K < χ2 1−α(1)) = P (−2[l∗ (λ) − l∗ (ˆλ)] < χ2 1−α(1)) = P ⎛ ⎜ ⎜ ⎜ ⎜ ⎝ l∗ (ˆλ) − 1 2 χ2 1−α(1) =Dα ≤ l∗ (λ) ⎞ ⎟ ⎟ ⎟ ⎟ ⎠ , tj. všechna λ splňující nerovnost l∗ (λ) ≥ Dα leží v intervalu spolehlivosti a jsou tedy přijatelná. Testování hypotéz typu H0 λ = λ0 proti alternativě H1 λ > λ0: (1) Budeme testovat hypotézu H1 0 λ = 1. Pokud hypotézu nezamítneme, tj. l∗ (1) ≥ Dα, nemusíme data transformovat. (2) Pokud předchozí hypotézu zamítneme, můžeme testovat další hypotézu H2 0 λ = 0. Pokud H2 0 nezamítneme, tj. l∗ (0) ≥ Dα ∧ l∗ (1) < Dα, transformace bude tvaru yi = lnxi. Pokud však se l∗ (0) < Dα ∧ l∗ (1) < Dα, provedeme transformaci yi = x ˆλ i − 1 ˆλ . ¾ Jednoduchý algoritmus v praktických úlohách (1) Algoritmus nejprve zkontroluje vstupní data tak, aby byla nezáporná, tj. případně přičte kladnou konstantu. (2) Upravený vektor dat rozdělí na krátké úseky o délce 4 až 12 údajů. (3) V každém úseku dat se provede pokud možno robustní odhad střední hodnoty ˆµi (průměr, medián) a robustní odhad variability ˆσ2 i (např. max-min, interkvartilové rozpětí). (4) Protože předpokládáme, že platí σ(µ) = σµϑ pak logaritmovanáním dostaneme vztah ln(σ(µ)) = lnσ a +ϑln(µ), takže neznámé ϑ můžeme odhadnout pomocí metody nejmenších čtverců díky hodnotám zi = ln(σi) a ui = ln ˆµi v regresním modelu zi = a + ϑui + εi εi ∼ WN(0,σ2 ε ). (5) Pro odhad ϑ = 1 − ˆλ pomocí t-statistiky zkonstruujeme interval spolehlivosti I(ϑ). – Pokud tento interval bude obsahovat nulu, tj. 0 ∈ I(ϑ) data se nebudou transformovat. – Pokud 0 ∉ I(ϑ) ∧ 1 ∈ I(ϑ), volí se logaritmická transformace yi = lnxi. – Jinak se volí mocninná transformace yi = x ˆλ i − 1 ˆλ . RNDr. Marie Forbelská, Ph.D. 101 Příklad 4.6. V Nové Anglii probíhalo na březích a na dnech jezer (zhruba před 12 600 roky po dobu asi 6000 let) během jarního tání ledovců ukládání vrstev písku a bahna do vrstviček zvaných varvy. Pomocí tloušťky ročních sedimentů se například odhaduje teplota. Na obrázku jsou znázorněny tloušťky ročních sedimentů v Massachusetts za 634 roků (před 11.834 roky). Paleoclimatic Glacial Varves Time varve 0 100 200 300 400 500 600 050100150 Obrázek 13. Časová řada ročních sedimentů v Massachusetts za 634 roků Vidíme, že rozdíly v tloušťkách se zvyšují v závislosti na jejich velikosti, takže vstupní data bude nutné transformovat. Pomocí metody maximální věrohodnosti provedeme odhad parametru λ. −2 −1 0 1 2 −4400−4200−4000−3800 λ log−Likelihood 95% Obrázek 14. Maximálně věrohodný odhad parametru λMLE = −0.1103, interval spolehlivosti (−0.2132,−0.0074) neobsahuje nulu. Na dalším grafu jsou znázorněna již transformovaná data pomocí parametru λMLE = −0.1103. 102 M5201 Stochastické modely časových řad Time transformedvarve 0 100 200 300 400 500 600 1.52.02.53.03.54.0 Obrázek 15. Boxova–Coxova transformace dat pro λMLE = −0.1103. Odhad neznámého parametru λ provedeme ještě pomocí jednoduchého algoritmu, který byl zmíněn na konci odstavce. q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q 2.5 3.0 3.5 4.0 1.01.52.02.53.03.54.0 logLocation logVariability b = 1.076656, lambda = −0.076656, CI = (−0.281182 , 0.127869) seglen = 8, location = median, variability = iqr LINEAR GROWTH OF VARIANCE (logarithmic transform): transx = log(x) Obrázek 16. Graf znázorňující odhad parametru λ pomocí jednoduchého regresního modelu. Vidíme, že výsledek jednoduchého algoritmu navrhuje logaritmickou transformaci dat. Z interpretačního hlediska je tato transformace vhodnější než transformace pomocí λMLE = −0.1103. Proto se podívejme, jak se data logaritmickou transformací změnila. RNDr. Marie Forbelská, Ph.D. 103 Time log(varve) 0 100 200 300 400 500 600 2345 Obrázek 17. Boxova–Coxova transformace dat pro λ = 0. KAPITOLA 5 Stacionární a nestacionární vícerozměrné náhodné procesy Analýza jedné časové řady vytržené ze souvislosti s ostatními časovými řadami není postačující. Sledujeme-li například výdaje domácnosti, tak jistě závisí nejen na výdajích za minulý měsíc, ale i na příjmu domácnosti, investicích, úrokové míře, atd. Proto je velmi důležitá analýza vícerozměrných časových řad. Rozšíření jednorozměrných náhodných procesů na vícerozměrné není nijak obtížně, pouze jednorozměrné náhodné veličiny Yt nahradíme vícerozměrnými náhodnými vektory Yt = (Y1,t,...,Ym,t)′ . Střední hodnotou náhodného procesu {Yt,t ∈ T} budeme rozumět vektor µt = (µ1,t,...,µm,t)′ = EYt = (EY1,t,...,EYm,t)′ , varianční matice bude definována vztahem Dt = DYt = E(Yt − EYt)(Yt − EYt)′ , autokovarianční matice bude matice Γs,t = C(Ys,Yt) = E(Ys − EYs)(Yt − EYt)′ . Pokud proces bude slabě stacionární, pak pro ∀t,s ∈ T musí platit EYt = µt a Γs,t = Γ0, s−t . Obdobně jako v jednorozměrném případě budeme psát Γs,t = Γs−t a Dt = DYt = Γ0. Pro vícerozměrný bílý šum {εt,t ∈ T} ∼ WN(0,Σε) musí platit Eεt = 0 Dεt = Eεtε′ t = Σε C(εs,εt) = Eεsε′ t = 0 s ≠ t 1. Vícerozměrné Box–Jenkinsonovy modely Forma, kterou popisujeme mnohorozměrné (vektorové) náhodné procesy, je analogická jednorozměrnému případu. Nejobecnějším modelem je vektorový sezónní smíšený model – V SARIMA(p,d,q,P,D,Q), který je tvaru Φ(B)π(BL )(I − IB)d (I − IBL )D Yt = Θ(B)Ψ(BL )εt ∼ V SARIMA(p,d,q) × (P,D,Q)L kde IBYt = Yt−1 IBL Yt = Yt−L (I − IB)Yt = Yt − Yt−1 (I − IBL )Yt = Yt − Yt−L a Φ(B) = I − Φ1B − Φ2B2 − ⋯ − ΦpBp Θ(B) = I + Θ1B + Θ2B2 + ⋯ + ΘqBq π(B) = I − π1BL − π2B2L − ⋯ − πP BPL Ψ(B) = I + Ψ1BL + Ψ2B2L + ⋯ + ΨQBQL Tak například rekurentní vztahy Y1,t = φ11Y1,t−1 + φ12Y2,t−1 + ε1,t Y2,t = φ21Y1,t−1 + φ22Y2,t−1 + ε2,t lze vyjádtřit maticově ( Y1,t Y2,t ) = ( φ11 φ12 φ21 φ22 )( Y1,t−1 Y2,t−1 ) + ( ε1,t ε2,t ) tj. Yt = Φ1Yt−1 + εt ∼ V AR(1) 105 106 M5201 Stochastické modely časových řad Podmínky kauzality a invertibility u V ARMA procesů lze vyslovit následujícím způsobem: Kritérium kauzality detΦ(z) ≠ 0 pro všechna z ∈ C tak, že z ≤ 1 Kritérium invertibility detΘ(z) ≠ 0 pro všechna z ∈ C tak, že z ≤ 1 Poznámka 1.1. Podmínku kauzality lze formulovat ekvivalentně také tak, že všechna vlastní čísla matice A = ⎛ ⎜ ⎜ ⎜ ⎜ ⎜ ⎝ Φ1 Φ2 ⋯ Φp−1 Φp Im 0 ⋯ 0 0 0 Im ⋯ 0 0 ⋱ 0 0 ⋯ Im 0 ⎞ ⎟ ⎟ ⎟ ⎟ ⎟ ⎠ mp×mp jsou v absolutní hodnotě menší než 1. Příklad 5.1. Uvažujme dvourozměrný náhodný proces typu V AR(2) Yt = Φ1Yt−1 + Φ2Yt−2 + εt, kde Φ1 = ( 0.5 0.2 −0.2 −0.5 ) a Φ2 = ( −0.3 −0.7 −0.1 0.3 ) Pro ilustraci znázorníme simulovaná data, která se řídí tímto modelem −3−2−10123 Y[1] −3−2−101234 0 50 100 150 200 Y[2] Obrázek 1. Simulovaná data V AR(2) modelu. RNDr. Marie Forbelská, Ph.D. 107 Simulovaná data naznačují, že jde o stacionární proces, což lze ověřit tak, že vypočítáme absolutní hodnoty vlastních čísel matice modelu A = ( Φ1 Φ2 I2 0 ) = ⎛ ⎜ ⎜ ⎜ ⎝ 0.5 0.2 −0.3 −0.7 −0.2 −0.5 −0.1 0.3 1 0 0 0 0 1 0 0 ⎞ ⎟ ⎟ ⎟ ⎠ . Získané hodnoty λ1 = 0.818 λ2 = 0.597 λ3 = 0.572 λ4 = 0.572 zajišťují, že jde o stacionární proces. 2. Modelování vícerozměrných časových řad pomocí kointegrace Při modelování vícerozměrných časových řad je účelné rozlišovat mezi ¾ krátkodobými vztahy mezi časovými řadami, které časem mizí, a ¾ dlouhodobými vztahy, které mají dlouhodobé trvání. Připomeňme dva typické příklady náhodných procesů nejprve s krátkou a pak s dlouhou pamětí. Kauzální AR(1) proces: (1 − ϕB)Yt = εt, kde ϕ < 1. Vzhledem k tomu, že uvažujeme kauzální proces, musí existovat taková posloupnost reálných čísel {ψj}∞ j=0 AR(1) = {ϕj } ∞ j=0 , že Yt = ∞ ∑ j=0 ϕj εt−j ∼ MA(∞), ve které se váhy ψj = ϕj bílého šumu exponenciálně snižují. Bílý šum se interpretuje jako posloupnost nekorelovaných (popř. nezávislých) „šoků“ a v tomto případě vidíme, že vliv „šoků“, které se udály v minulosti, velmi rychle slábne, takže jde o proces s krátkou pamětí. Poznamenejme, že tuto vlastnost krátké paměti mají všechny kauzální AR(p), invertibilní MA(q) a kauzální a invertibilní ARMA(p,q) procesy. Skutečnost, že jde o stacionární posloupnost, budeme zkráceně značit symbolem I(0) a řekneme, že jde o integrované procesy řádu nula. Náhodná procházka I(1): (1 − B)Yt = εt je limitním případem AR(1) procesu, kdy ϕ = 1, tj. Yt = Yt−1 + εt = ∞ ∑ j=0 εt−j, takže všechny „šoky“ mají stejnou váhu ψj = 1 a vliv minulých „šoků“ nemizí – mají dlouhou paměť. Totéž platí pro všechny integrované procesy, tj. pro takové procesy, které po diferencování se stanou stacionárními, což symbolicky označíme jako I(d). 108 M5201 Stochastické modely časových řad Všimněme si dále vztahů, které se týkají lineárních kombinací I(d) procesů. Platí (zřejmě) (1) {Xt} ∼ I(0) ⇒ {a + bXt} ∼ I(0) (2) {Xt} ∼ I(1) ⇒ {a + bXt} ∼ I(1) (3) {Xt} ∼ I(0) {Yt } ∼ I(0) } ⇒ {aXt + bYt} ∼ I(0) (4) {Xt} ∼ I(1) {Yt } ∼ I(0) } ⇒ {aXt + bYt} ∼ I(1) (5) {Xt} ∼ I(1) {Yt } ∼ I(1) } obecně ⇒ {aXt + bYt} ∼ I(1) Poslední vlastnost však pro některá {Xt} a {Yt} nemusí platit. Může totiž existovat jejich lineární kombinace, která je již stacionární, tj. {aXt + bYt} ∼ I(0). Proto Engle a Granger (1987) zavedli pojen kointegrace, která se týká dvou (či více) integrovaných procesů. Problematika dlouhodobých vztahů souvisí s pojmem rovnovážný stav (ekvilibrium), který chápeme jako stav, ke kterému je systém neustále přitahován. Při konstrukci modelů časových řad je logické vycházet z předpokladu, že vývoj jednotlivých řad spjatých teoreticky zdůvodněným vztahem se v dlouhodobém časovém horizontu nerozchází. Pokud odklon směrů vývoje časových řad je pouze krátkodobý, časem se vytrácí a existuje mez, za kterou nemůže jít, potom říkáme, že časové řady jsou v rovnovážném stavu (ekvilibriu). Příkladem může být cena podobných potravin v různých zemích, poptávka po penězích a hodnota peněz, krátkodobé a dlouhodobé úrokové míry apod. Obecně hledáme-li rovnovážný stav mezi proměnnými, které jsou složky m-rozměrného vektoru Yt = (Y1,t,...,Ym,t)′ , chceme najít vektor β takový, aby platilo β′ Yt = 0 v každém čase t. V praxi tolerujeme krátkodobé odchylky od rovnovážného stavu, které značíme v čase t jako Zt = β′ Yt. Hledáme tedy vektor β takový, že odchylky od rovnováhy {Zt,t ∈ Z} tvoří stacionární proces s nulovou střední hodnotou a konečným rozptylem. Ukazuje se, že tohoto dlouhodobě rovnovážného stavu lze dosáhnout i v případě, že jednotlivé veličiny jsou integrované. Kointegrace je vhodným nástrojem k analýze těchto vztahů. Tímto tématem se intenzivně zabýval nositel Nobelovy ceny z ekonomii Clive Granger. Základní myšlenky jsou shrnuty v článku Granger & Engle (1987), kde je i následující obecná definice pojmu kointegrace. Definice 2.1. Nechť b,d ∈ N a d ≥ b. Řekneme, že složky m–rozměrného náhodného procesu {Yt,t ∈ Z} jsou kointegrované řadu d, b, jestliže (i) všechny složky Yt jsou I(d) a (ii) existuje nenulový vektor β = (β1,...,βm)′ takový, že složky lineární kombinace Zt = β′ Yt jsou I(d − b). Vektor β se nazývá kointegrační vektor. Kointegraci budeme značit Yt ∼ CI(d,b). Je zřejmé, že kointegrační vektor není jednoznačný. Stačí jej vynásobit nenulovou konstantou a opět dostáváme kointegrační vektor. Pro dimenze m > 2 může obecně existovat více nezávislých kointegračních vektorů. Existuje-li r (r ≤ m − 1) takových nezávislých vektorů, pak se r se nazývá řád kointegrace. V dalším se seznámíme s různými modely kointegrovaných časových řad, z nichž některé umožňují modelovat pouze jeden kointegrační vektor (tzv. jednorovnicové modely). RNDr. Marie Forbelská, Ph.D. 109 Příklad 5.2. Uvažujme dvourozměrný náhodný proces {Yt = (Y1,t,Y2,t)′ ,t ∈ Z}, který je (pro λ ≠ 0) definovaný vztahy Y1,t = αY2,t + ε1,t Y2,t = Y2,t−1 + ε2,t tj. Y1,t − αY2,t = ε1,t Y2,t − Y2,t−1 = ε2,t což lze vyjádřit maticově takto ( 1 −α 0 1 )( Y1,t Y2,t ) − ( 0 0 0 1 )( Y1,t−1 Y2,t−1 ) = ( ε1,t ε2,t ), Všimněme si, že tento proces není v obvyklé (tzv. redukované) formě, kde Φ0 = Im, ale v tzv. strukturální VAR formě (SVAR model),tj. Φ0Yt − Φ∗ 1Yt−1 = εt ∼ SV AR(1). Podíváme-li se na jednorozměrný proces {Y2,t,t ∈ Z}, vidíme, že jde o náhodnou procházku, tj Y2,t ∼ I(1). Také je zřejmé (viz první rovnice), že i Y1,t ∼ I(1). Hned z první rovnice vidíme, jak bude vypadat kointegrační vektor, neboť Y1,t − αY2,t = ε1,t ∼ WN(0,σε1 2) ∼ I(0), takže vektor Yt = (Y1,t,Y2,t) je kointegrovaný řádu CI(1,1) s kointegračním vektorem β = (1,−α)′ . Pro názornost vykreslíme simulovaná data, která se řídí tímto modelem, a to pro dvě různé hodnoty parametru α. 0 20 40 60 80 100 0510152025 Obrázek 2. Simulovaná data CI(1,1) procesu pro dvě hodnoty α ∈ {0.5,0.85}. Tlustá čára se týká procesu {Y2,t,t ∈ Z}, proces {Y1,t,t ∈ Z} reprezentují dvě řady, čárkovaná čára se týká hodnoty α = 0.85 a tenká čára hodnoty α = 0.5. 110 M5201 Stochastické modely časových řad 2.1. Jednorovnicové modely. 2.1.1. Statický regresní model kointegrovaných veličin. Uvažujme nejprve obecně (m+1)–rozměrný náhodný proces {Zt = (Yt,X′ t)′ ,t ∈ Z}. Jedním z možných přístupů, jak modelovat vzájemný vztah mezi Yt a Xt, je použití tzv. statického regresního modelu Yt = c + βXt + εt εt ∼ WN(0,σ2 ε ). Tyto jednoduché modely jsou velmi oblíbené. Jejich konstrukci je však třeba provádět obezřetně, neboť jejich použití má smysl jedině v případě kointegrovaných procesů CI(1,1). Při použití nekointegrovaných nestacionárních časových řad může vzniknout situace, která se nazývá zdánlivá, resp. nesmyslná regrese (anglicky spurious regression). Uvažujme pro jednoduchost případ, kdy m = 2. Může se totiž stát, že i když {Xt} i {Yt} věcně nesouvisí, přesto v regresním modelu, kde jedna řada vystupuje v pozici nezávisle proměnné, druhá v pozici závisle proměnné, je index determinace R2 velmi vysoký, také F-test i všechny t-testy ukazují na vhodnost regresního modelu. Typický případ zdánlivé regrese budeme demonstrovat na následujícím příkladu. Příklad 5.3. Uvažujme dvourozměrný náhodný proces {Yt = (Y1,t,Y2,t)′ ,t ∈ Z}, který je definovaný vztahy Y1,t = α1 + Y1,t−1 + ε1,t Y2,t = α2 + Y2,t−1 + ε2,t takže jde o dvě náhodné procházky s posunutím, které spolu nijak nesouvisí. Pro názornost vykresleme simulovaná data. 0 50 100 150 200 050100150 Obrázek 3. Ukázka dvou nesouvisejících vychýlených náhodných procházek Yj,t = αj + Yj,t−1 + εj,t , kde εj,t ∼ N(0,1) (j = 1,2), α1 = 0.8 (černá čára), α1 = 0.6 (šedá čára) Pro simulovaná data uvažujme statickou regresi tvaru Y1,t = β0 + β1Y2,t + εt, kde εt ∼ WN(0,σ2 ε ). V následujících dvou tabulkách uvádíme výsledky statické regrese z hlediska odhadu parametrů a příslušných statistik. Tabulka t–statistik pro koeficienty β0,β1 Estimate Std. Error t value Pr(> t ) (Intercept) 7.7569 0.5280 14.69 0.0000 y2 1.0765 0.0067 161.16 0.0000 Tabulka s výsledky F–testu Df Sum Sq Mean Sq F value Pr(>F) y2 1 359465.55 359465.55 25973.43 0.0000 Residuals 198 2740.27 13.84 R2 = 0.992, R2 adj = 0.992 RNDr. Marie Forbelská, Ph.D. 111 Vidíme, že koeficienty β0,β1 se významně liší od nuly a také model se jeví jako velmi vhodný, neboť podle koeficientu determinace R2 časová řada {Y2,t} vysvětluje 99% variability časové řady {Y1,t}, přestože obě dvě časové řady spolu nesouvisí. Výsledky regrese potvrzuje i grafická interpretace statické regrese. qqqq qq q q qqqqq q qqqq qqq qqqqqqq qqqqq qqq q q qqq qqqqqqq qqqqq q qqqqqqqqqqq qqqqq qqqqqqqqqq qqqqqqqqqqq qqqqqq q qqq qqqq qqqq qqqqqqqq qqq qqqqqqqqqqqqqqqqq qqq qqq q qqqqqqq qqqq qq qqqqqqqqqqqqqq q qq qqqq qqqq qqq qqqqqqq qqqqqqqq 0 20 40 60 80 100 120 140 050100150 Y2 Y1 Obrázek 4. Statický regresní model Y1,t = β0 + β1Y2,t + εt pro simulovaná data dvou nesouvisejících vychýlených náhodných procházek. Jednotlivými body je proložena regresní přímka. Protože pro tyto dva náhodné procesy neexistuje kointegrační vektor, reziduální složka nebude bílým šumem. Pro testování autokorelace reziduí prvního řadu je používán Durbinův–Watsonův test. Durbinův–Watsonův test autokorelace reziduí 1. řádu Durbinova-Watsonova statistika je definována vztahem DW = n ∑ t=2 (rt − rt−1)2 n ∑ t=1 r2 t . Protože platí (a − b)2 ≤ 2a2 + 2b2 , dostáváme DW ≤ 2 n ∑ t=2 r2 t + 2 n ∑ t=2 r2 t−1 n ∑ t=1 r2 t ≤ 4 ⇒ 0 ≤ DW ≤ 4 . Vzhledem k tomu, že Er = 0, bude pro větší hodnoty n platit n ∑ t=2 r2 t ≐ n ∑ t=1 r2 t ≐ n−1 ∑ t=1 r2 t+1. Označme výběrový autokorelační koeficient: ˆρ(1) = E(rtrt+1) √ DrtDrt+1 = n−1 ∑ t=1 rt+1rt √ n−1 ∑ t=1 r2 t n−1 ∑ t=1 r2 t+1 ⇒ DW ≈ 2(1 − ˆρ1) nebo ˆρ(1) ≈ 1 − DW 2 . 112 M5201 Stochastické modely časových řad Pokud budou rezidua málo korelovaná, hodnota D se bude pohybovat kolem 2. Kladná korelace způsobí, že DW ∈ (0,2) a záporná korelace způsobí, že DW ∈ (2,4). Přesné rozdělení statistiky DW závisí na tvaru matice plánu X, proto jsou tabelovány intervaly dL a dU , ve kterých se nachází kritické hodnoty (pro různá n, k a α). Dolní a horní hranice Durbinova-Watsonova testu na 5% hladině významnosti k=1 k=2 k=3 k=4 k=5+ n dL dU dL dU dL dU dL dU dL dU 50 1.50 1.59 1.46 1.63 1.42 1.67 1.38 1.72 1.34 1.77 60 1.55 1.62 1.51 1.65 1.48 1.69 1.44 1.73 1.41 1.77 70 1.58 1.64 1.55 1.67 1.52 1.70 1.49 1.74 1.46 1.77 80 1.61 1.66 1.59 1.69 1.56 1.72 1.53 1.74 1.51 1.77 90 1.63 1.68 1.61 1.70 1.59 1.73 1.57 1.75 1.54 1.78 100+ 1.65 1.69 1.63 1.72 1.61 1.74 1.59 1.76 1.57 1.78 kde k je počet nezávisle proměnných v regresní rovnici. Pro rychlé posouzení autokorelace prvního řadu vystačíme s následující tabulkou: Pokud hodnota Durbinovy-Watsonovy statistiky DW bude v mezích 0 až dL dL až dU dU až (4 − dU ) (4 − dU ) až (4 − dL) (4 − dL) až 4 Zamítáme Ani Nezamítáme Ani Zamítáme H0 nezamítáme nezamítáme H0 kladná ani nulovou ani negativní autoko- nepřijímáme hypotézu nepřijímáme autorelace H0 H0 H0 korelace Pro rezidua našeho statického regresního modelu vykreleme bodový graf mezi rt−1 a rt a vypočítejme hodnotu Durbinovy–Watsonovy statistiky. q q q qq q q q q q qq q q q q q q q q q q q q q q q q q q q q q q q q q q q q q qq q qq q q q q q q q q q q q q qq q q q q q q q q q q q q q q q q q q q q q q q q q q q qq q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q qqq q q q q qq q q q q q qq q −5 0 5 10 −50510 rt−1 rt DW = 0.17 rho1 = 0.91 p−value = 0 Obrázek 5. Bodový graf mezi rt−1 a rt pro statický regresní model Y1,t = β0 + β1Y2,t + εt pro simulovaná data dvou nesouvisejících vychýlených náhodných procházek. Jednotlivými body je proložena regresní přímka. Vidíme, že rezidua vykazují významnou pozitivní autokorelaci. Navíc jsme prováděli regresi pro dvě časové řady, které spolu vůbec nesouvisí. RNDr. Marie Forbelská, Ph.D. 113 V literatuře (viz Arlt, 1997) je uveden empirický poznatek o souvislosti mezi vysokými hodnotami F–statistik modelů, jako i t–statistik regresních koeficientů a nízkými hodnotami Durbinovy-Watsonovy (DW) statistiky reziduí u zdánlivé regrese. Je to natolik charakteristická vlastnost zdánlivé regrese, že Granger a Newbold (1974) navrhli, aby splnění nerovnosti: R2 > DW tj. když koeficient determinace je větší než DW statistika, bylo určitým indikátorem nebezpečí existence zdánlivé regrese. Příklad 5.4. Vrátíme se k příkladu, kde vystupuje dvourozměrný kointegrovaný náhodný proces {Yt = (Y1,t,Y2,t)′ ,t ∈ Z} ∼ CI(1,1), který je (pro λ ≠ 0) definovaný vztahy Y1,t = αY2,t + ε1,t Y2,t = Y2,t−1 + ε2,t Pro simulovaná data uvažujme statickou regresi tvaru Y1,t = β0 + β1Y2,t + εt kde εt ∼ WN(0,σ2 ε ). V následujících tabulkách uvádíme výsledky statické regrese z hlediska odhadu parametrů a příslušných statistik, a to pro dvě různé hodnoty parametru α ∈ {0.85,0.5}. Tabulka t–statistik pro koeficienty β0,β1 pro α = 0.85 Estimate Std. Error t value Pr(> t ) (Intercept) 0.0570 0.1819 0.31 0.7547 y2 0.8684 0.0141 61.64 0.0000 Tabulka s výsledky F–testu pro α = 0.85 Df Sum Sq Mean Sq F value Pr(>F) y2 1 4688.54 4688.54 3800.08 0.0000 Residuals 98 120.91 1.23 R2 = 0.975, R2 adj = 0.975 Tabulka t–statistik pro koeficienty β0,β1 pro α = 0.5 Estimate Std. Error t value Pr(> t ) (Intercept) 0.0570 0.1819 0.31 0.7547 y2 0.5184 0.0141 36.80 0.0000 Tabulka s výsledky F–testu pro α = 0.5 Df Sum Sq Mean Sq F value Pr(>F) y2 1 1670.84 1670.84 1354.23 0.0000 Residuals 98 120.91 1.23 R2 = 0.933, R2 adj = 0.932 Vidíme, že koeficienty β1 se významně liší od nuly a také oba modely se jeví jako velmi vhodné, neboť podle koeficientu determinace R2 časová řada {Y2,t} vysvětluje 97.5% (pro λ = 0.85) a 93.2% (pro λ = 0.5) variability časové řady {Y1,t}. Dále si všimněme, jak byl pomocí statické regrese poměrně dobře odhadnut parametr α pomocí parametru β1. Na následujícím obrázku jsou vykresleny pro dvě různé hodnoty parametru α ∈ {0.85,0.5} výsledky statické regrese. 114 M5201 Stochastické modely časových řad q q q q q q q qq q q q q q q q qq q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q 0 5 10 15 20 25 0510152025 Y2 Y1 q q q q q q q qq q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q Obrázek 6. Statický regresní model pro simulovaná data CI(1,1) procesu pro dvě hodnoty α ∈ {0.5,0.85}. Černá kolečka reprezentují dvojice {Y2,t,Y1,t}100 t=1 pro hodnotu parametru α = 0.85 a šedá kolečka pro hodnotu parametru α = 0.5. Jednotlivými body je proložena regresní přímka. Pro první model byl odhad parametr β1 roven hodnotě 0.868, v druhém případě hodnotě 0.518. Pro rezidua obou statických regresních modelů vykreleme bodové grafy mezi rt−1 a rt a vypočítejme hodnoty Durbinovy–Watsonovy statistiky. q q q q q q qq q q q q q q q q q q q q q q qq q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q −2 −1 0 1 2 −2−1012 rt−1 rt DW = 2.05 rho1 = −0.02 p−value = 0.89824 q q q q q q qq q q q q q q q q q q q q q q qq q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q −2 −1 0 1 2 −2−1012 rt−1 rt DW = 2.05 rho1 = −0.02 p−value = 0.89824 Obrázek 7. Bodové grafy mezi rt−1 a rt pro oba statický regresní modely. Jednotlivými body je proložena regresní přímka. Vidíme, že zamítáme hypotézu o autokorelaci prvního řadu, neboť hodnota DW statistiky je velmi blízká ke dvojce. Výsledek testu odpovídá faktu, že jsme model navrhli tak, že platí Y1,t = αY2,t + ε1,t ε1,t ∼ WN(0,σ2 ). Kromě toho platí R2 < DW, což nesignalizuje vznik zdánlivé regrese. Tento regresní model je správný, statisticky korektní a existující. RNDr. Marie Forbelská, Ph.D. 115 Připomeňme, že zdánlivá regrese nemůže nastat v případě, kdy oba dva procesy jsou stacionární (tj. jde o procesy I(0)), nabízí se myšlenka nestacionární procesy I(d) s d ≥ 1 nejprve diferencovat a pak je použít ve statické regresi. Jenže touto cestou nelze postupovat, protože se tím ztrácí důležité informace o dlouhodobém vztahu {Xt} a {Yt}. Je vidět, že právě snaha konstruovat regresní model tak, aby ¾ respektoval jak krátkodobé, tak dlouhodobé vztahy ¾ a přitom se vyvarovat zdánlivé, nesmyslné (angl. spurious) regrese vedla k zavedení pojmu kointegrace a k závěru, že v regresi je třeba používat nediferencované časové řady, které však musí splnit určitou podmínku, a to aby byly kointegrované. Závěr. Uveďme tři důvody, proč lze považovat princip kointegrace za ústřední myšlenku modelování integrovaných časových řad. (1) Stacionární lineární kombinaci integrovaných (tj. nestacionárních) procesů (jde o jakýsi složený proces) lze chápat jako odhad ekvilibria, které spojuje uvažované procesy. Ekvilibrium je v tomto případě střední hodnota této lineární kombinace obou procesů. (2) Regrese obsahující integrované (tj. nestacionární) procesy má smysl pouze tehdy, pokud jsou procesy kointegrované (tj. jsou spjaté společným stochastickým trendem, jinak má každá časová řada jiný směr vývoje). Test kointegrace dvou náhodných procesů je zároveň metoda odlišení mezi pravou regresí a zdánlivou regresí. (3) Skupinu kointegrovaných procesů lze popsat (kromě jiných modelů) také pomocí tzv. errorcorrection modelu. Tento model obsahuje parametry, které charakterizují míru vychýlení systému od dlouhodobě se prosazujícího ekvilibria. 2.2. Dynamická regresse. Uvažujme nejprve, že {Xt},{Yt} ∼ I(0). Jejich vztah může být modelován pomocí regresního modelu Yt = c + βXt + ut, přičemž mohou nastat dva případy (a) ut ∼ WN(0,σ2 u) ⋯ jde o korektní regresní model (b) ut ∼ AR(p), tj. ut = ϕ1ut−1 + ⋯ + ϕput−p + εt, εt ∼ WN(0,σ2 ε ). Ad (b): pokud pro odhad parametrů c a β použijeme klasickou metodu nejmenších čtverců, tj. cOLS a βOLS, pak odhady sice budou nestranné, ale nebudou vydatné (nebudou mít nejmenší rozpyl). Pokud např. ut ∼ AR(1) tj. ut = ϕut−1 + εt, kde ϕ < 1 a ϕ > 0, pak nekorektní OLS nabízí směrodatné odchylky odhadů, které jsou menší než ve skutečnosti, což v tomto případě může vést k zamítnutí nulové hypotézy, i když tomu tak být nemá. Problém autokorelovaných reziduí lze řešit pomocí tzv. dynamické regrese. Vraťme se k jednoduchému příkladu Yt = c + βXt + ut (∗1) , kde ut = ϕut−1 + εt (∗2) , εt ∼ WN(0,σ2 ε ). Budeme se snažit dostat regresní rovnici, ve které bude místo chybového AR(1) procesu bílý šum. Proto postupně upravujme z rovnice (∗2) εt = ut − ϕut−1 (∗2b) z rovnice (∗1) ut = Yt − c − βXt (∗1b) Dosadíme-li vztah (∗1b) do vztahu (∗2b), dostaneme εt = Yt − c − βXt − ϕ(Yt−1 − c − βXt−1) a odtud pak Yt = c(1 − ϕ) + ϕYt−1 + βXt − ϕβXt−1 + εt, εt ∼ WN(0,σ2 ε ). 116 M5201 Stochastické modely časových řad Tento model se nazývá Autoregressive Distributed Lag Model (někdy se značí ADL, častěji ARDL) a píšeme Yt ∼ ARDL(p,q) ≡ ARDL(p,q;k) s p = 1,q = 1 a k = 1 (počet vysvětlujících proměnných) Pořád zůstává otázka, jak parametricky popsat dlouhodobě rovnovážný stav (tj. ekvilibrium) mezi endogenní (tj. závislou) a exogenní (tj. nezávislou, vysvětlující) proměnnou. Vraťme se k příkladu Yt = c + βXt + ut kde (a) ut ∼ WN(0,σ2 u) s Eut = 0, Dut = σ2 u. Pak EYt = c + βEXt, takže dlouhodobě se prosazující vztah je dán parametrem β , který se pak nazývá dlouhodobý multiplikátor (long-run multiplier). (b) v případě dynamické regrese, kdy např. ut = ϕut−1 + εt s εt ∼ WN(0,σ2 ε ) a Yt = c(1 − ϕ) + ϕYt−1 + βXt − ϕβXt−1 + εt přepišme předchozí vztah pomocí operátoru zpětného chodu (1 − ϕB)Yt = c(1 − ϕ) + β(1 − ϕB)Xt + εt. Protože předpokládáme, že EYt = EYt−l a EXt = EXt−l, dostaneme (1 − ϕ)EYt = c(1 − ϕ) + β(1 − ϕ)EXt, takže EYt = c (1 − ϕ) (1 − ϕ) + β (1 − ϕ) (1 − ϕ) EXt = c + βEXt a parametrem β je opět dlouhodobý multiplikátor (long-run multiplier). Přepišme nyní model Yt = c(1 − ϕ) + ϕYt−1 + βXt − ϕβXt−1 + εt trochu jinak. Proto upravujme Yt − Yt−1 = c(1 − ϕ) + (ϕ − 1)Yt−1 + β(Xt − Xt−1) − β(ϕ − 1)Xt−1 + εt ∆Yt = c(1 − ϕ) + β∆Xt modeluje krátkodobý vztah + (ϕ − 1)( error correction Yt−1 − βXt−1) modeluje dlouhodobý vztah +εt Vztah na posledním řádku se nazývá modelem korekce chyby (anglicky Error Correction Model, EC–model či ECM). Dlouhodobý vztah mezi časovými řadami je vyjádřen regresorem (Yt−1 −βXt−1), který obsahuje dlouhodobý multiplikátor β . Zbytek modelu popisuje krátkodobý vztah mezi časovými řadami. Parametr ϕ − 1 vyjadřuje míru odlišnosti krátkodobého vztahu od vztahu prosazujícího se dlouhodobě. Lze ho interpretovat jako rychlost, s jakou se krátkodobé vychýlení od rovnovážného stavu ztratí, nebo jakou silou se prosazuje rovnovážný vztah mezi časovými řadami. Nyní uvažujme obecný ARDL(p,q;k) model s k vysvětlujícími proměnnými ve tvaru: αp(B)Yt = c + k ∑ i=1 βiq(B)Xi,t + ut, RNDr. Marie Forbelská, Ph.D. 117 kde αp(B) = 1 − α1B − ⋯ − αpBp βiq(B) = 1 + βi,1B + ⋯ + βi,qBq pro i = 1,...,k. Tento model lze ve středních hodnotách vyjádřit následujícím způsobem: αp(1) EYt = c + k ∑ i=1 βiq(1) EXi,t EYt = c∗ + k ∑ i=1 β∗ i EXi,t kde c∗ = 1 αp(1), β∗ i = βiq(1) αp(1) . Budeme se nyní snažit i tento model vyjádřit v ECM formě. Všimněme si, že lze pro i = 1,...,k psát (za předpokladu, že položíme βi,0 = 1) βiq(B)Xit = q ∑ j=0 βi,jBj Xi,t = βi,0Xt+βi,1Xt +βi,2Xt +⋯+βi,q−2Xt +βi,q−1Xt +βi,qXt −βi,1Xt −βi,2Xt −⋯−βi,q−2Xt −βi,q−1Xt −βi,qXt +βi,1Xt−1+βi,2Xt−1+⋯+βi,q−2Xt−1 +βi,q−1Xt−1 +βi,qXt−1 −βi,2Xt−1−⋯+βi,q−2Xt−1 −βi,q−1Xt−1 −βi,qXt−1 ⋱ +βi,q−2Xt−q+2+βi,q−1Xt−q+2+βi,qXt−q+2 −βi,q−1Xt−q+2−βi,qXt−q+2 +βi,q−1Xt−q+1+βi,qXt−q+1 −βi,qXt−q+1 +βi,qXt−q Tedy můžeme psát βiq(B)Xit = q ∑ j=0 βi,jBj Xi,t = β∗ i,0Xt + q ∑ j=0 β∗ i,j∆Xt−j, kde β∗ i,0 = q ∑ j=0 βi,j = βiq(1) a pro h = 1,...,q β∗ i,h = − q ∑ j=h βi,j. Zcela analogicky provedeme αp(B)Yt = (1 − p ∑ j=1 αjBj )Yt = Yt − p ∑ j=1 αjBj Yt = Yt − p ∑ j=1 αjYt (1−∑ p j=1 αj)Yt + p ∑ j=1 αjYt − p ∑ j=1 αjYt−1 ∆Yt⋅∑ p j=1 αj + p ∑ j=2 αjYt−1 − p ∑ j=2 αjYt−2 ∆Yt−1⋅∑ p j=2 αj + p ∑ j=3 αjYt−2 + ⋯ − p ∑ j=p−1 αjYt−p+1 + αpYt−p+1 − αpYt−p αp∆Yt−p+1 = (1 − α∗ 0)Yt + p ∑ j=1 α∗ j ∆Yt+1−j kde (1 − α∗ 0) = 1 − p ∑ j=1 αj = αp(1), a αh∗ = p ∑ j=h αj (h = 1,...,p). 118 M5201 Stochastické modely časových řad Na základě předchozích vztahů a po dalších úpravách můžeme ARDL(p,q;k) proces vyjádřit v ECM formě takto ∆Yt = c + k ∑ i=1 q−1 ∑ j=0 βij(1)∆Xi,t−j + k ∑ i=1 βij(1) q−1 ∑ j=0 ∆Xi,t−j − p−1 ∑ j=0 αj(1)∆Yt−j − αp(1) q−1 ∑ j=p ∆Yt−j + γ(Yt−s − k ∑ i=1 β∗ i Xi,t−s) + vt, kde γ = αp(1), s = max(p,q). 3. Kointegrační analýza Koncept kointegrace by nebyl prakticky aplikovatelný bez statistické teorie testování kointegrace a odhadu parametrů kointegrovaných lineárních systémů. Tuto problematiku jako první zpracovali Granger a Engle (1987). Přišli s jednoduchým testem kointegrace založeným na testu stacionarity reziduí statické regrese pomocí testů jednotkových kořenů a zdůvodnili metodou dvoustupňového odhadu parametrů modelu EC, který spočívá v tom, že se nejprve odhadnou parametry kointegračních vektorů a potom ve druhém kroku se na jejich základě odhadnou ostatní parametry. Uvedený test kointegrace a metoda odhadu parametrů modelu korekce chyby byly základním krokem k rozšíření praktických aplikací kointegrační analýzy zejména ekonomických časových řad. Obecně lze říci, že kointegrační analýza může být uskutečněna více způsoby – buď korektně pomocí numerických testů a kointegrační regresní rovnice anebo přibližně, ale zato názorně, pomocí grafického znázornění. V dalším textu bude ukázán pouze základní způsob pomocí numerické kointegrační analýzy, kde její postup pozůstává ze dvou následujících kroků: (1) Testování integrovanosti veličin test I(1) = test tzv. jednotkových kořenů. (2) Testování výskytu kointegrace dvou veličin test CI(1,1). Prakticky to znamená, že kointegraci dvou (obecně m) veličin má význam testovat jen tehdy, pokud jsou obě veličiny nestacionární a tzv. integrované alespoň řádu 1. Tuto skutečnost lze zjistit právě pomocí testů jednotkových kořenů. 3.1. Testování jednotkových kořenů a kointegrace. Testování jednotkových kořenů slouží ke stanovení typu náhodné veličiny, tj. zda veličina je nestacionárním procesem typu I(1), tzn. integrovaným procesem 1. řádu. Časová řada je typu I(1), když jeho diference je obecná stacionární časová řada typu I(0) = ARMA(p,q), ve speciálním a nejjednodušším případě je to tzv. bílý šum WN = ARMA(0,0) = AR(0) = MA(0). Pokud uvažujeme jednoduchý stacionární AR(1) proces typu I(0): Φ(B)Yt = εt tj. Yt = Yt − ϕ1Yt−1 + εt a εt ∼ WN(0,σ2 ε ), pak se tento proces stane nestacionárním typu I(1), když polynom Φ(z) má jednotkový kořen, což u AR(1) znamená, že ϕ1 = 1. V tom případě jde o náhodnou procházku, která obsahuje tzv. stochastický (nedeterministický) trend a proces je nestacionární v rozptylu, přičemž rozptyl roste přímo úměrně s časem (délkou) časové řady, tj. DYt = tσ2 ε . Na testování (nulové) hypotézy H0 ϕ1 = 1 proti alternativě H1 ϕ1 < 1 (stacionarita) existuje několik parametrických a neparametrických testů: ¾ mezi parametrické testy patří základní Dickey-Fullerův (DF) test a rozšířený Dickey-Fullerův (ADF) test; ¾ mezi testy neparametrické lze zařadit test Phillipsův, testy Phillips-Perronovy, Newey-Westovy, Bierensovy, Bierens-Guovy a alternativní KPSS (Kwiatkowski Phillips Shmidt Shin) RNDr. Marie Forbelská, Ph.D. 119 Pro testování kointegrace existuje vícero testů: CRDW Durbinův–Watsonův, CRDF Dickeyův–Fullerův (se dvěma variantami), CRADF Augmented DF, Phillipsův, Johansenův, Engle-Grangerův a Bierensův. Uvedené testy jsou podrobně popsány v literatuře Hamilton (1994), Arlt (1999), Arlt & Arltová (2003), Neubauer (2005). Příklad 5.5. Uvažujme dvourozměrný kointegrovaný náhodný proces, který je definován následujícím způso- bem Y1,t = 0.5 Y2,t + ut kde ut = 0.6ut−1 − 0.2ut−2 + 0.1ut−3 + ε1,t a ε1,t ∼ N(0,0.52 ) Y2,t = Y1,t−1 + ε2,t ε2,t ∼ N(0,0.52 ) 0 50 100 150 200 250 0510 0 50 100 150 200 250 −1.5−1.0−0.50.00.51.01.5 ut Obrázek 8. Simulovaná data dvourozměrného kointegrovaného náhodného procesu jsou vykreslena v prvním panelu. Černá čára značí proces Y2,t a šedá Y1,t. Ve druhém panelu je znázorněn AR(3) proces ut. Kointegrační vektor je tvaru β = (1,β)′ = (1,−0.5)′ . Při odhadování neznámých parametrů využijeme dvoukrokový algoritmus navržený Grangerem a Englem. V prvním kroku získáme rezidua ze statického regresního modelu, který popisuje dlouhodobý vztah mezi dvěma časovými řadami. Y1,t = β0 + β1Y2,t + t Odhadem β1 obdržíme odhad dlouhodobého multiplikátoru, který popisuje dlouhodobý vztah mezi Y2,t a Y1,t. 120 M5201 Stochastické modely časových řad Y1,t = β0 + β1Y2,t + t q qq q q q qq q q q qq q q q qq qqq q q q q q qqq qq q q q q q q q q qq q q q q q qq q qq q q q q q q q q q q q q q q q q q q q qq q qqqq qq q q q q qq q q q q q q q q q q q q q q q q qq q qqq q q q q q q q q q q q q q q q q q q q q q q q q qq q q q q qq q q q q q q q q q q q q q q qq q q q q q q q q q q q q q q qq q qq q q q q q q q qq q q q qq q q qq q q q q q q qq q q q q q q q qqqq qq q q qq q q q q q q q qq q q q q q q q qq q q q q q qqq q q q q q qq 0 5 10 −20246 Obrázek 9. Regrese t 0 50 100 150 200 250 −1.5−1.0−0.50.00.51.01.5 Obrázek 10. Odhady reziduí Výsledky regrese jsou dány v následujících dvou tabulkách. Tabulka t–statistik pro koeficienty β0,β1 Estimate Std. Error t value Pr(> t ) (Intercept) 0.1914 0.0528 3.63 0.0003 y2 0.4822 0.0094 51.36 0.0000 Tabulka s výsledky F–testu Df Sum Sq Mean Sq F value Pr(>F) y2 1 975.95 975.95 2638.17 0.0000 Residuals 248 91.74 0.37 R2 = 0.9141, R2 adj = 0.9137 Na základě výsledků vidíme, že odhad dlouhodobého multiplikátoru se blíží hodnotě 0.5. Rezidua, která jsme získali v prvním kroku, použijeme do dalšího regresního modelu ∆Y1,t = b0 + b1 t + b2∆Y2,t−1 + b3∆Y1,t−1 + et Výsledky regrese v druhém kroku jsou dány v následujících dvou tabulkách. Tabulka t–statistik pro koeficienty β0,β1 Estimate Std. Error t value Pr(> t ) (Intercept) 0.01 0.04 0.17 0.86 ect -0.62 0.07 -8.58 0.00 DeltaY2.1 0.32 0.09 3.48 0.00 DeltaY1.1 -0.42 0.07 -6.03 0.00 Tabulka s výsledky F–testu Df Sum Sq Mean Sq F value Pr(>F) ect 1 14.02 14.02 40.12 0.0000 DeltaY2.1 1 0.26 0.26 0.73 0.3922 DeltaY1.1 1 12.69 12.69 36.32 0.0000 Residuals 244 85.25 0.35 R2 = 0.2403, R2 adj = 0.231 RNDr. Marie Forbelská, Ph.D. 121 4. Modelování heteroskedasticity Ve všech předchozích modelech chybové složky měly vždy konstantní, tj. homoskedastický rozptyl. V reálných situacích je však často tato podmínka nesplnitelná. Pak je možné ¾ buď provést transformaci stabilizující rozptyl, ¾ nebo použít modely, které s heteroskedasticitou počítají. Nejznámější jsou modely navržené Robertem Englem (nositelem Nobelovy ceny za ekonomii v r. 2003). V ekonometrii se pojmu variabilita říka volatilita (přelétavost) a mluví se o volatilitě měnící se v čase. 4.1. Autoregresivní podmíněná heteroskedasticita. Autoregresní modely s podmíněnou heteroskedasticitou (ARCH; AutoRe-gressive Conditional Heteroskedasticity) představují poměrně rozsáhlou třídu modelů, využívaných zejména při analýze finančních časových řad. Právě finanční časové řady (například vývoj cen akcií, derivátů, dluhopisů, úrokových měr nebo směnných kurzů) se vyznačují v čase proměnlivým rozptylem, a tuto vlastnost je možné zachytit pomocí podmíněné heteroskedasticity. Time 1992 1993 1994 1995 1996 1997 1998 150025003500 Daily Closing Prices of the France Stock Index CAC from 22 August, 1991 until 8 June, 1998 1992 1993 1994 1995 1996 1997 1998 −0.08−0.040.000.04 Log Returns: ∆(log(x)) Obrázek 11. Ukázka časových řad s proměnlivých rozptylem: vývoj denních zavíracích kurzů akcií a příslušné logaritmické výnosy. 122 M5201 Stochastické modely časových řad Mějme realizace časové řady xt, které vykazují poměrně malé, ale stálé procentní změny pt, tj. xt = (1 + pt)xt−1 ⇒ log xt = log(1 + pt) + log xt−1 ⇒ ∆log xt = log xt − log xt−1 = log(1 + pt). Dále si připomeňme, že pro dostatečně malá pt (v absolutní hodnotě - cca do 15%) platí pt ≈ 0 ⇒ log(1 + pt) ≈ pt ⇒ ∆log xt ≈ pt. Většina analýz časových řad pracuje ne přímo s původní časovou řadou, ale nějakou její transformací. V případě finančních časových řad jde třeba o výnosy - relativní přírůstky cen. Mějme například ceny akcií Xt, pak jednoduché (aritmetické) výnosy označme Yt = Xt − Xt−1 Xt−1 ⇒ Xt = (1 + Yt)Xt−1 ⇒ ∆log Xt ≈ Yt. A právě pro časové řady výnosů je charakteristická proměnlivost v rozptylu. 4.2. ARCH(1) modely. Nejjednoduššími modely, které počítají s variabilitou, která se v čase mění, jsou ARCH(1) modely. Tyto modely vycházejí z představy, že např. stacionární model AR(1) Yt = ϕYt−1 + εt, ( ϕ < 1) je vhodné z důvodu proměnlivého rozptylu (proměnlivé volatility) modifikovat tak, že {εt} je tzv. podmíněně heteroskedastický proces s konstantní podmíněnou střední hodnotou E(εt Ωt−1) = 0 a s podmíněným v čase se měnícím rozptylem D(εt Ωt−1) = E(ε2 t Ωt−1) = σ2 t , kde Ωt−1 je relevantní minulá informace až do času t − 1. Konkrétní modely proměnlivého rozptylu (tj. proměnlivé volatility) jsou potom dány specifickou formou podmíněného rozptylu σ2 t . Engle navrhl modely podmíněného rozptylu třídy ARCH (Autoregressive Conditional Heteroscedasticity). Nejjednodušším z nich je model ARCH(1), který má podmíněný rozptyl ve tvaru ARCH(1) σ2 t = α0 + α1ε2 t−1, model ARCH(p) lze vyjádřit jako ARCH(p) σ2 t = α0 + α1ε2 t−1 + ⋯ + αpε2 t−p. Engle vyvinul teorii odhadu modelů ARCH, stanovil podmínky konzistence a asymptotické normality maximálně věrohodných odhadů jejich parametrů a představil test hypotézy o nepřítomnosti ARCH efektu ve složce εt. Definice modelu ARCH se stala základem pro mnoho dalších typů lineárních a nelineárních modelů podmíněného rozptylu σ2 t . Tyto modely vycházejí především z empiricky pozorovaných vlastností konkrétních finančních a ekonomických časových řad. Bylo například zjištěno, že kvadráty logaritmů výnosů časových řad s vysokou frekvencí pozorování (denní nebo týdenní) jsou charakteristické relativně pomalu klesající autokorelační funkcí, což by vyžadovalo mnoho zpoždění v modelu ARCH, tj. vysokou hodnotu p. Engleho doktorský student Tim Bollerslev proto přišel s myšlenkou rozšířit model ARCH o zpožděný podmíněný rozptyl σ2 t . Tímto způsobem upravený model ARCH lze zobecnit na tzv. GARCH (angl. Generalized Autoregressive Conditional Heteroscedasticity) model, který má tvar GARCH(p,q) σ2 t = α0 + α1ε2 t−1 + ⋯ + αpε2 t−p + γ1σ2 t−1 + ⋯ + γqσ2 t−q. Model GARCH(1,1) se posléze stal nejpopulárnějším modelem volatility v empirické praxi. Poznamenejme ještě, že aby předchozí vztahy měly smysl, musí platit αi > 0, γj > 0 RNDr. Marie Forbelská, Ph.D. 123 a aby proces byl slabě stacionární, musí být p ∑ i=1 αi + q ∑ j=1 γj < 1. Pokud platí p ∑ i=1 αi + q ∑ j=1 γj = 1. model se nazývá IGARCH. Engle svou myšlenkou modelu ARCH a dalšími ideami inspiroval statistiky, ekonometry, finanční teoretiky a analytiky a prakticky i teoreticky orientované ekonomy po celém světě k publikování stovek teoretických a praktických prací zabývajících se danou problematikou. Modely ARCH a GARCH se staly jedním ze základů nové vědní disciplíny, která se označuje jako finanční ekonometrie. KAPITOLA 6 State–space modely Místo jednorozměrné náhodné posloupnosti {Yt,t ∈ Z} uvažujme posloupnost w-rozměrných náhodných vektorů {Yt,t ∈ Z}, Yt ∈ Rw , které splňují tzv. datové a stavové rovnice DATOVÁ ROVNICE: Yt = GtXt + Wt t = 1,2,3,... STAVOVÁ ROVNICE: Xt+1 = FtXt + Vt t = 1,2,3,... přičemž Xt ... je tzv. stavový v-rozměrný náhodný vektor Wt ... je šum měření Vt ... je šum procesu Gt ... je posloupnost matic typu w × v (popisují vztah pozorování ke stavu) Ft ... je posloupnost matic typu v × v (modelují dynamiku - tzv. matice přechodu) Dále platí EVt = 0 EWt = 0 D ( Wt Vt ) = ( Rt St S′ t Qt ) tj. EWtW′ t = Rt EVtV′ t = Qt EWtV′ t = St C(Xt,(W′ t,V′ t)′ ) = 0, tj. jsou nekorelované Všechny náhodné vektory mají konečné druhé momenty. Příklad 6.1. Náhodná procházka s deterministickým trendem (Random walk with drift) Mějme β ∈ R, šum procesu Vt ∼ WN(0,σ2 v), náhodné veličiny Trt, přičemž Tr0 = µ0 = 0. Dále nechť pro t = 1,2,... platí C(Trt,Vt) = 0 tj. Trt a Vt jsou nekorelované, což značíme Trt ⊥ Vt. Definujme Trt+1 = Trt + β + Vt a postupně upravujme Trt+1 = Trt + β + Vt = Trt−1 + β + Vt−1 + β + Vt = Trt−1 + 2β + Vt + Vt−1 = ⋯ po t krocích = Tr0 =µ0=0 +βt + t ∑ j=1 Vj Položme Xt = ( Trt β ) Vt = ( Vt 0 ) Ft = ( 1 1 0 1 ). 125 126 M5201 Stochastické modely časových řad Pak Xt+1 = ( Trt+1 β ) = ( 1 1 0 1 )( Trt β ) + ( Vt 0 ) = FtXt + Vt t = 1,2,.... Označme šum měření Wt ∼ WN(0,σ2 w) a položme Yt = (1 0) =Gt ( Trt β ) + Wt = GtXt + Wt t = 1,2,.... Jestliže X1 = ( Tr1 β ), V1,W1, V2,W2, ... jsou nekorelované, dostáváme stavově-prostorovou reprezentaci náhodné procházky, pro kterou platí EVt = 0 DVt = EVtV′ t = ( σ2 v 0 0 0 ) = Qt = Q EWt = EWt = 0 DWt = EWtW′ t = EW2 t = σ2 w = Rt = R EVtW′ t = ( 0 0 ) = St = S. Příklad 6.2. Sezónní řada se šumem Uvažujme sezónu délky d a sezónní komponenty s1,...,sd přičemž platí st+d = st a s1 + ⋯ + sd = 0. Vzhledem k tomu, že platí st+1 = st+1−d st+1 + st + st−1 + ⋯ + st+1−d+1 = 0, tak odtud získáme deterministickou rovnici st+1 = −st − st−1 − ⋯ − st+2−d. Přidejme šum procesu Vt ∼ WN(0,σ2 v) a dostaneme po přeznačení stochastickou rovnici Yt+1 = −Yt − Yt−1 − ⋯ − Yt+2−d + Vt. Položme Xt+1 = ⎛ ⎜ ⎜ ⎜ ⎜ ⎜ ⎝ Yt+1 Yt Yt−1 Yt+3−d ⎞ ⎟ ⎟ ⎟ ⎟ ⎟ ⎠ = ⎛ ⎜ ⎜ ⎜ ⎜ ⎜ ⎝ −1 −1 ⋯ −1 −1 1 0 ⋯ 0 0 0 ⋱ ⋱ ⋱ ⋱ 0 0 0 ⋯ 0 1 0 ⎞ ⎟ ⎟ ⎟ ⎟ ⎟ ⎠ =Ft ⎛ ⎜ ⎜ ⎜ ⎜ ⎜ ⎝ Yt Yt−1 Yt−2 Yt+2−d ⎞ ⎟ ⎟ ⎟ ⎟ ⎟ ⎠ =Xt + ⎛ ⎜ ⎜ ⎜ ⎜ ⎜ ⎝ Vt 0 0 0 ⎞ ⎟ ⎟ ⎟ ⎟ ⎟ ⎠ =Vt tj. stavově-prostorový model sezónní řady se šumem je roven Xt+1 = FXt + Vt Yt = (1 0 ⋯ 0 ) =Gt Xt RNDr. Marie Forbelská, Ph.D. 127 1. Stacionární stavově-prostorové (stace–space) modely Připomeňme definici stace–space modelů: DATOVÁ ROVNICE: Yt = GXt + Wt t = 1,2,3,... STAVOVÁ ROVNICE: Xt+1 = FXt + Vt t = 1,2,3,... přičemž Xt ... je tzv. stavový v-rozměrný náhodný vektor Wt ... je šum měření Vt ... je šum procesu G ... je matice typu w × v (popisují vztah pozorování ke stavu) F ... je matice typu v × v tzv. matice přechodu Dále platí EVt = 0 EWt = 0 D ( Wt Vt ) = ( Rt St S′ t Qt ) tj. EWtW′ t = Rt EVtV′ t = Qt EWtV′ t = St C(Xt,(W′ t,V′ t)′ = 0, tj. jsou nekorelované Všechny náhodné vektory mají konečné druhé momenty. Stavová rovnice se nazývá stabilní (také kauzální), právě když všechna vlastní čísla matice F leží uvnitř jednotkové kružnice, tj. det(I − Fz) ≠ 0 pro ∀ z < 1. Pokud je systém stabilní (kauzální), pak Xt+1 = ∞ ∑ j=0 Fj Vt−j Yt = Wt + G ∞ ∑ j=0 Fj Vt−1−j 128 M5201 Stochastické modely časových řad Příklad 6.3. Autoregresní proces řádu p AR(p) Yt = ϕ1Yt−1⋯ + ϕpYt−p + εt , kde εt ∼ WN(0,σ2 ε ), ⎛ ⎜ ⎜ ⎜ ⎜ ⎜ ⎝ Yt+1 Yt Yt−1 Yt+2−p ⎞ ⎟ ⎟ ⎟ ⎟ ⎟ ⎠ =Xt+1 = ⎛ ⎜ ⎜ ⎜ ⎜ ⎜ ⎝ ϕ1 ϕ2 ⋯ ϕp−1 ϕp 1 0 ⋯ 0 0 0 ⋱ ⋱ ⋱ ⋱ 0 0 0 ⋯ 0 1 0 ⎞ ⎟ ⎟ ⎟ ⎟ ⎟ ⎠ =F ⎛ ⎜ ⎜ ⎜ ⎜ ⎜ ⎝ Yt Yt−1 Yt−2 Yt+1−p ⎞ ⎟ ⎟ ⎟ ⎟ ⎟ ⎠ =Xt + ⎛ ⎜ ⎜ ⎜ ⎜ ⎜ ⎝ εt+1 0 0 0 ⎞ ⎟ ⎟ ⎟ ⎟ ⎟ ⎠ =Vt Yt = (1 0 ⋯ 0) =G Xt Příklad 6.4. MA proces řádu q MA(q) Yt = εt + θ1εt−1 + ⋯ + θqεt−q , kde εt ∼ WN(0,σ2 ε ), ⎛ ⎜ ⎜ ⎜ ⎜ ⎜ ⎝ εt εt−1 εt−2 εt+1−q ⎞ ⎟ ⎟ ⎟ ⎟ ⎟ ⎠ =Xt+1 = ⎛ ⎜ ⎜ ⎜ ⎜ ⎜ ⎝ 0 0 ⋯ 0 0 1 0 ⋯ 0 0 0 ⋱ ⋱ ⋱ ⋱ 0 0 0 ⋯ 0 1 0 ⎞ ⎟ ⎟ ⎟ ⎟ ⎟ ⎠ =F ⎛ ⎜ ⎜ ⎜ ⎜ ⎜ ⎝ εt−1 εt−2 εt−3 εt−q ⎞ ⎟ ⎟ ⎟ ⎟ ⎟ ⎠ =Xt + ⎛ ⎜ ⎜ ⎜ ⎜ ⎜ ⎝ εt 0 0 0 ⎞ ⎟ ⎟ ⎟ ⎟ ⎟ ⎠ =Vt Yt = (θ1 ⋯ θq) =G Xt + εt =Wt Příklad 6.5. ARMA proces řádu p,q ARMA(p,q) Yt = ϕ1Yt−1 + ⋯ + ϕpYt−p + εt + θ1εt−1 + ⋯ + θqεt−q , kde εt ∼ WN(0,σ2 ε ), ⎛ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎝ Yt Yt−1 Yt−2 Yt+1−p εt+1 εt εt+1−q ⎞ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎠ =Xt+1 = ⎛ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎝ ϕ1 ⋯ ϕp−1 ϕp 1 θ1 ⋯ θq−1 θq 1 0 ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ 0 0 ⋱ ⋱ ⋱ ⋱ ⋱ ⋱ 1 ⋱ ⋱ 0 ⋱ ⋱ 1 ⋱ ⋱ ⋱ ⋱ 0 ⋯ ⋯ ⋯ ⋯ ⋯ 0 1 0 ⎞ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎠ =F ⎛ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎝ Yt−1 Yt−2 Yt−3 Yt−p εt εt−1 εt−q ⎞ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎠ =Xt + ⎛ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎝ 0 0 0 0 εt+1 0 0 ⎞ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎠ =Vt Yt = (ϕ1 ⋯ ϕp 1 θ1 ⋯ θq) =G Xt RNDr. Marie Forbelská, Ph.D. 129 2. Nejlepší lineární predikce pomocí projekce náhodných vektorů druhého řádu Mějme pravděpodobnostní prostor (Ω,A,P). Pro pevně zvolené v ∈ N označme Lv 2 = {X = (X1,...,Xv)′ X1 ∈ L2 (Ω,A,P),...,Xv ∈ L2 (Ω,A,P)} a označme L∞ 2 = ∞ ⋃ v=1 Lv 2. Pak lze nad tímto prostorem definovat skalární součin pro X ∈ Lv 2 a Y ∈ Lw 2 (v,w ∈ N) předpisem ⟨X,Y⟩ = EXY′ za předpokladu, že existuje sdružené rozdělení náhodného vektoru Z = ( X Y ) a Z ∈ Lv+w 2 . Označme pro Y0,...,Yt ∈ Lw 2 Mt = sp{Y0,...,Yt} uzavřený podprostor generovaný všemi možnými lineárními kombinacemi typu C0Y0 + ⋯ + CtYt, kde C0,...,Ct jsou reálné matice. Pak uvažujme nad L∞ 2 projekci X ∈ Lv 2 do Mt PMt (X) = (PMt (X1),...,PMt (Xv))′ , kterou budeme značit různými způsoby, a to PMt (X) = ˆX = Pt(X) = Pt(X Y0,...,Yt). Připomeňme vlastnosti predikce, které v následujících důkazech využijeme (a) vždy existuje jediný vektor Pt(X) takový, že pro ∀Y ∈ Mt = sp{Y0,...,Yt} platí ⟨X − ˆX,Y⟩ = 0 ⇔ ⟨X,Y⟩ = ⟨ ˆX,Y⟩ ⇔ EXY′ = E ˆXY′ . Protože ˆX ∈ Mt, pak EX ˆX′ = E ˆX ˆX′ . (b) Jestliže X,Y1,...,Yt mají sdružené normální rozdělení, pak (pokud Y0 = 1 = (1,...,1)′ ) platí ˆX = Pt(X) = E(X Y1,...,Yt) t ≥ 1. (c) Predikce ˆX = Pt(X) je lineární v tom smyslu, že pro libovolnou matici A ∈ Rk+v a X,Z ∈ Lv 2 platí: Pt(AX) = APt(X) Pt(X + Z) = Pt(X) + Pt(Z) (d) Pokud X ∈ Lv 2 a Y ∈ Lw 2 ,pak Pt(X Y) = MY, kde M ∈ Rv+w , pro níž platí M = EXY′ [EYY′ ]− a A− značí pseudoinverzní matici k matici A, což je taková matice, pro níž A− = AA− A Každá matice má alespoň jednu pseudoinverzní matici. Pokud matice A je regulární, pak A− = A−1 . 130 M5201 Stochastické modely časových řad Připomeňme opět definici stavového modelu DATOVÁ ROVNICE: Yt = GtXt + Wt t = 1,2,3,... STAVOVÁ ROVNICE: Xt+1 = FtXt + Vt t = 1,2,3,... přičemž Xt ... je tzv. stavový v-rozměrný náhodný vektor Wt ... je šum měření Vt ... je šum procesu Gt ... je posloupnost matic typu w × v Ft ... je posloupnost matic typu v × v Dále platí EVt = 0 EWt = 0 D ( Wt Vt ) = E ( Wt Vt )(W′ t V′ t) = ( EWtW′ t EWtV′ t EVtW′ t EVtV′ t ) = ( Rt St S′ t Qt ) C(Xt,(W′ t,V′ t)′ = 0, tj. jsou nekorelované, což značíme Xt ⊥ (W′ t,V′ t)′ . Navíc předpokládáme, že všechny náhodné vektory mají konečné druhé momenty. Za předpokladu, že máme k dispozici náhodné procesy v čase 0 ≤ t ≤ n, budeme v dalším textu používat následující značení Xt k = Psp{Y0,...,Yk}(Xt) = P(Xt Y0,...,Yk) Ωt k = E(Xt − Xt k)(Xt − ˆXt k)′ Pokud k = t − 1 ... jde o tzv. problém (jednokrokové) predikce k = t ... jde o tzv. problém filtrace k = n > t ... jde o tzv. problém vyhlazení Přidejme předpoklady pro ∀ t Wt ⊥ {Y0,...,Yt−1}, tj. jsou nekorelované Vt ⊥ {Y0,...,Yt−1} St = 0 (tj. šumy procesu Vt a měření Wt jsou nekorelované) Za těchto předpokladů platí následující věta, která se týká predikce v rámci state space modelů. Věta 2.1. Jednokroková Kalmanova predikce Xt = Xt t−1 = Pt−1(Xt) = P(Xt Y0,...,Yt−1) = Psp{Y0,...,Yt−1}(Xt) a chybová predikční kovarianční matice Ωt t−1 = E(Xt − Xt)(Xt − Xt)′ = E(Xt − Xt t−1)(Xt − Xt t−1)′ jsou jednoznačně určeny (1) počátečními podmínkami: X1 = X1 0 = P(X1 Y0) = Psp{Y0}(X1) Ω1 0 = Ω1 = ΣX1X1 − ΣX1X1 kde ΣX1X1 = EX1X′ 1 ΣX1X1 = EX1X′ 1 RNDr. Marie Forbelská, Ph.D. 131 (2) a platí pro ně následující rekurentní vztahy: Xt+1 = Xt+1 t = FtXt t−1 + Kt+1 t(Yt − GtXt t−1), kde Kt+1 t je tzv. predikční Kalmanův zisk, pro nějž platí: Kt+1 t = ΣXt+1It Σ− ItIt přičemž ΣXt+1It = FtΩt t−1G′ t ΣItIt = GtΩt t−1G′ t + Rt a Ωt+1 t = ΣXt+1Xt+1 − ΣXt+1Xt+1 přičemž ΣXt+1Xt+1 = FtΣXtXt F′ t + Qt ΣXt+1Xt+1 = FtΣXtXt F′ t + Kt+1 tΣItIt K′ t+1 t a kde It jsou inovace pro Yt, tj. It = Yt − Yt = Yt − Psp{Y0,...,Yt−1}(Yt) Důkaz. Nejprve definujme inovaci pro Yt I0 = Y0 It = Yt − Yt = Yt − Psp{Y0,...,Yt−1}(Yt) = Yt − Pt−1(Yt) = Yt − Pt−1(GtXt + Wt) = Yt − GtPt−1(Xt) − Pt−1(Wt) Díky nezávislosti náhodných vektorů Wt ⊥ {Y0,...,Yt−1} platí Pt−1(Wt) = Psp{Y0,...,Yt−1}(Wt) = 0, takže dostaneme It = Yt − GtXt = GtXt + Wt − GtXt = Gt (Xt − Xt) + Wt. Je třeba si uvědomit, že inovace jsou ortogonální (tj. nekorelované) I0 ⊥ I1 ⊥ I2 ⊥ ... ⊥ It, takže pro libovolné X platí Pt(X) = P(X Y0,...,Yt) = P(X I0,...,It) = P(X I0,...,It−1) + P(X It) = Pt−1(X) + P(X It) = Pt−1(X) + MIt, kde M = EXI′ t[EItI′ t]− . Takže Xt+1 = Xt+1 t = Pt(Xt+1) = Pt−1(Xt+1) + P(Xt+1 It) = Pt−1(FtXt + Vt) + EXt+1I′ t[EItI′ t]− It 132 M5201 Stochastické modely časových řad a označíme-li ΣXt+1It = EXt+1I′ t ΣItIt = EItI′ t, pak Xt+1 = Ft Pt−1(Xt) =Xt t−1 +Pt−1(Vt) =0 +ΣXt+1It Σ− ItIt (Yt − GtXt) Vyjádřeme nyní ΣXt+1It = EXt+1I′ t = E(FtXt + Vt)[Gt(Xt − Xt) + Wt] ′ = E [Ft(Xt−Xt)+FtXt+Vt][Gt(Xt−Xt)+Wt] ′ = Ft E(Xt − Xt)(Xt − Xt)′ =Ωt t−1 G′ t + Ft E(Xt−Xt)W′ t =0(nekorel.) +Ft EXt(Xt − Xt)′ =0(nekorel.) + Ft EXtW′ t =0(nekorel.) +EVt(Xt − Xt)′ =0(nekorel.) G′ t + EVtW′ t =St=0 = FtΩt t−1G′ t Dále počítejme ΣItIt = EItI′ t = E [Gt(Xt − Xt) + Wt][Gt(Xt − Xt) + Wt] ′ = GtE(Xt − Xt)(Xt − Xt)′ G′ t + Gt E(Xt − Xt)W′ t =0(nekorel.) +EWt(Xt − Xt)′ =0(nekorel.) G′ t + EWtW′ t = GtΩt t−1G′ t + Rt Tedy celkově máme Xt+1 = Xt+1 t = FtXt t−1 + ΣXt+1It Σ− ItIt (Yt − GtXt) =It a Kt+1 t = ΣXt+1It Σ− ItIt je tzv. Kalmanův predikční zisk a můžeme tedy psát Xt+1 = FtXt t−1 + Kt+1 t(Yt − GtXt t−1) Zbývá najít rekurentní vztah pro Ωt+1 t. Přitom využijeme důležitý vztah, který vychází z vlastností ortogonální projekce, tj. že pro ∀Y ∈ Psp{Y0,...,Yt−1} platí ⟨Xt − Xt,Y⟩ = 0 ⟨Xt,Y⟩ = ⟨Xt,Y⟩ EXtY = EXtY a protože Xt ∈ Psp{Y0,...,Yt−1}, dostaneme EXtXt = EXtXt. Proto počítejme Ω1 0 = Ω1 = E(X1 − X1)(X1 − X1)′ = EX1X′ 1 − EX1X′ 1 =EX1X′ 1 −EX1X1 =EX1X′ 1 +EX1X′ 1 = EX1X′ 1 − EX1X′ 1 = ΣX1X1 − ΣX1X1 RNDr. Marie Forbelská, Ph.D. 133 Úplnou matematickou indukcí obdobně dokážeme, že pokud budeme předpokládat, že platí Ωt t−1 = ΣXtXt − ΣXtXt , pak Ωt+1 t = E(Xt+1 − Xt+1)(Xt+1 − Xt+1)′ = EXt+1X′ t+1 − EXt+1X′ t+1 =EXt+1X′ t+1 −EXt+1X′ t+1 =EXt+1X′ t+1 +EXt+1X′ t+1 = EXt+1X′ t+1 − EXt+1X′ t+1 = ΣXt+1Xt+1 − ΣXt+1Xt+1 ΣXt+1Xt+1 = EXt+1X′ t+1 = E(FtXt) + Wt)(FtXt) + Wt)′ = Ft EXtXt =ΣXtXt F′ t + Ft EXtW′ t =0(nekorel.) + EWtX′ t =0(nekorel.) F′ t + EVtV′ t = FtΣXtXt F′ t + Qt ΣXt+1Xt+1 = EXt+1X′ t+1 = E [FtXt + Kt+1 t(Yt − GtXt)][FtXt + Kt+1 t(Yt − GtXt)] ′ = Ft EXtX′ t ΣXtXt F′ t + Ft EXt =It (Yt − GtXt)′ =0(nekorel.) K′ t+1 t + Kt+1 t E(Yt−GtXt)Xt =0(nekorel.) F′ t + Kt+1 t E(Yt−GtXt)(Yt−GtXt)′ =ΣItIt K′ t+1 t = FtΣXtXt F′ t + Kt+1 tΣItIt K′ t+1 t Věta 2.2. Pro Kalmanovu filtraci Xt t = P(Xt Y0,...,Yt) a filtrovací chybovou kovarianční matici Ωt t = E(Xt − Xt t)(Xt − Xt t)′ pro ∀t ≥ 1 platí následující rekurentní vztahy Xt t = Xt t−1 + Kt t(Yt − GtXt t−1), kde Kt t je tzv. filtrační Kalmanův zisk, pro nějž platí Kt t = ΣXtIt Σ− ItIt , přičemž ΣXtIt = Ωt t−1G′ t ΣItIt = GtΩt t−1G′ t + Rt a Ωt t = (I − Kt tGt)Ωt t−1, kde I je jednotková matice řádu v × v. 134 M5201 Stochastické modely časových řad Důkaz. Využijme opět inovací I0 = Y0 It = Yt − Yt = Yt − Psp{Y0,...,Yt−1}(Yt) = Yt − Pt−1(Yt) = Yt − Pt−1(GtXt + Wt) = Yt − GtPt−1(Xt) − Pt−1(Wt = Yt − GtXt = Gt(Xt − Xt) + Wt které jsou navzájem kolmé (tj. nekolerované). Počítejme Xt t = P(Xt Y0,...,Yt) = P(Xt I0,...,It) = P(Xt I0,...,It−1) + P(Xt It) = Xt + MIt = Xt + EXtI′ t [EXtI′ t] − It = Xt + ΣXtIt Σ− ItIt (Yt − GtXt) přičemž ΣXtIt = EXtI′ t = EXt [Gt(Xt − Xt) + Wt] ′ = E [(Xt − Xt) + Xt][Gt(Xt − Xt) + Wt] ′ = E(Xt − Xt)(Xt − Xt)′ Gt + E(Xt − Xt)W′ t =0(nekorel.) + EXt(Xt − Xt)′ =0(nekorel.) G′ t + EXtWt =0(nekorel.) = Ωt t−1G′ t Takže celkově dostaneme Xt t = Xt + ΣXtIt Σ− ItIt ozn.Kt t (Yt − GtXt) =It , odtud Xt t − Xt = Kt tIt. Zbývá dopočítat Ωt t. Víme, že Ωt t−1 = E(Xt − Xt)(Xt − Xt)′ = E ⎡ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎣ (Xt − Xt t) + (Xt t − Xt t−1) =Kt tIt ⎤ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎦ ⎡ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎣ (Xt − Xt t) + (Xt t − Xt t−1) =Kt tIt ⎤ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎦ ′ = E(Xt − Xt t)(Xt − Xt t)′ Ωt t +E(Xt − Xt t)I′ t =0(nekorel.) K′ t t + Kt t EIt(Xt − Xt t)′ =0(nekorel.) +Kt t EItI′ t K′ t t = Ωt t + Kt tΣItIt K′ t t RNDr. Marie Forbelská, Ph.D. 135 Protože Kt t = ΣXtIt Σ− ItIt = Ωt t−1G′ tΣ− ItIt dostáváme Ωt t−1 = Ωt t + ΣXtIt Σ− ItIt ΣItIt Σ− ItIt Σ′ XtIt = Ωt t + ΣXtIt Σ− ItIt Σ′ XtIt = Ωt t + Ωt t−1G′ tΣ− ItIt =Kt t GtΩt t−1 Odtud Ωt t = Ωt t−1 − Kt tGtΩt t−1 = (I − Kt tGt)Ωt t−1. 3. Kalmanův iterační proces Shrňme předchozí výsledky Kalmanovy predikce a filtrace takto: 1) Protože Kt+1 t = ΣXt+1It Σ− ItIt = FtΩt t−1G′ tΣ− ItIt Kt t = ΣXtIt Σ− ItIt = Ωt t−1G′ tΣ− ItIt ⎫⎪⎪ ⎬ ⎪⎪⎭ ⇒ Kt+1 t = FtKt t. 2) Dále platí FtXt t = FtXt t−1 + FtKt t(Yt − GtXt) = FtXt t−1 + Kt+1 t(Yt − GtXt) = Xt+1 t. 3) Budeme se snažit nově vyjádřit Ωt+1 t . Protože Xt+1 − Xt+1 t = FtXt + Vt − FtXt t = Ft(Xt − Xt t) + Vt a vzhledem k tomu, že Vt ⊥ (Xt − Xt t), dostáváme Ωt+1 t = E(Xt+1 − Xt+1 t)(Xt+1 − Xt+1 t)′ = E [Ft(Xt − Xt t) + Vt][Ft(Xt − Xt t) + Vt] ′ = FtE(Xt − Xt t)(Xt − Xt t)′ F′ t + EVtV′ t = FtΩt tF′ t + Qt. Všechny předchozí mezivýsledky použijeme pro odvození velmi jednoduchého Kalmanova iteračního procesu, který je spojením filtrace a predikce. 136 M5201 Stochastické modely časových řad Kalmanův iterační proces (I) Počáteční podmínky X1 0 = X1 = EX1 při Y0 = 1 Ω1 0 = E(X1 − EX1)(X1 − EX1)′ = DX1 (II) Datový (filtrační) krok Kalmanova filtru Nejprve se spočítá tzv. Kalmanův zisk (nebo též Kalmanovo zesílení) Kt t = Ωt t−1G′ t(GtΩt t−1G′ t + Rt)− , pak Xt t = Xt t−1 + Kt t(Yt − GtXt t−1) a filtrační chybovou kovarianční matici Ωt t = (I − Kt tGt)Ωt t−1. (III) Časový (predikční) krok Kalmanova filtru Xt+1 t = FtXt t Ωt+1 t = FtΩt tF′ t + Qt. Závěrečné poznámky 1) Kalmanův filtr je rekurentní algoritmus, který postupně upravuje odhad neměřitelné stavové veličiny v závislosti na nových pozorováních související měřitelné veličiny. 2) Při znalosti počátečních hodnot je princip Kalmanova filtru založen na dvou základních fázích, a to na predikci a filtraci: na základě známých počátečních hodnot je budoucí stav nejprve odhadnut a po získání nových a aktuálních informací jsou tyto predikce upraveny (filtrovány) tak, aby odhad budoucího stavu byl co nejpřes- nější; po získání dalších dat jsou opět upraveny dosavadní predikce a cyklus se tak neustále opakuje. 3) Výhodou Kalmanova filtru je, že není nutné si pamatovat všechny předchozí dosažené hodnoty. 4) Při odvozování Kalmanova iteračního procesu jsme předpokládali, že varianční matice šumu měření Wt i šumu procesu Vt jsou známé, což však v praktických situacích je nereálné. Proto je třeba nejprve provést odhad příslušných variančních matic. Nejčastěji se používají maximálně věrohodné odhady, které samozřejmě předpokládají znalost rozdělení obou chybových složek. V tomto případě, kdy hledání maxima logaritmu věrohodnostní funkce provádíme pomocí algoritmů numerické optimalizace, je Kalmanův filtr značně citlivý na počáteční odhady. 5) Významnou výhodou Kalmanova filtru je možnost jej využít pro odhad parametrů proměnných v čase. Parametry se pak chápou jako nepozorovatelné stavy, jejichž vývoj je určen stavovou rovnicí. Tato technika predikce byla vyvinuta v 60. letech dvacátého století R. E. Kalmanem (Kalman 1960, viz [32]) a původně se převážně využívala k filtraci šumu v elektrických signálech. Později ale našla uplatnění v mnoha dalších oborech, především při řešení úloh z oblasti navigace a zpracování signálu, ve velké míře také v ekonometrických úlohách. Literatura [1] AKAIKE, H. Information theory and an extension of the maximum likelihood principle. Second International Symposium on Information Theory, 1973, 267–281. [2] ANDĚL, J. Statistická analýza časových řad. Praha. SNTL 1976. [3] ANDĚL, J. Matematická statistika. SNTL/ALFA Praha, 1978. [4] ANDĚL, J. Statistické metody. Matfyzpress Praha, 1993. [5] ANDĚL, J., PEREZ, M.G., NEGRAO, A. L. Estimating the dimension of a linear model. Kybernetika, ÚTIA, AV ČR, Prague, 1981. 514–525. [6] ANDERSON, T.W. The Statistical Analysis of Time Series. John Wiley & Sons Inc. 1971. [7] ANTOCH, J. Critical values of Fisher’s and Siegel’s test. Kybernetika 31, 1995, 385–393. [8] ARLT, J. Regresní analýza nestacionárních ekonomických časových řad. Politická ekonomie 45 (2), VŠE Praha, 1997, s. 281-289. [9] ARLT, J. Moderní metody modelování ekonomických časových řad. 1.vyd. Praha: Grada Publishing, s.r.o., 1999. 312 s. [10] ARLT, J., ARLTOVÁ, M. Finanční časové řady. 1. vyd. Praha : Grada Publishing, a.s., 2003, 220 s. [11] BEKLOVÁ, M., NĚMCOVÁ, M., PIKULA, J. Longsterm trends in fluctuation of the population level of the chosen game species in the ČSSR. Proceedings of a XVI. International Congres of game biologists 25.9.-2.10.1983, High Tatras, ČSSR, 1983. [12] BOWERMAN, B.L., O´CONNELL, R.T. Time series and forecasting. North Scituate, Massachusetts, Duxbury Press. 1979. [13] BOX, G.E.P, COX, D.R.: Analysis of Transformations. Journals of the Royal Statistical Society, Biometrika 26, 1964, 211–252. [14] BOX, G., JENKINS, G. Time series analysis - forecasting and control. Holden-Day 1976. [15] BROCKWELL, P.J., DAVIS, R.A. Time Series: Theory and Methods. Springer–Verlag, New York, 1991. [16] BROCKWELL, P.J., DAVIS, R.A. Introduction to time series and forecasting. Springer-Verlag, New York, 2002. [17] BROWN, R.G. Statistical forecasting for inventory control. New York. McGraw-Hill. 1959. [18] CHIU, S.T. Detecting Periodic Components in a White Gaussian Time Series. Journals of the Royal Statistical Society, Series B, 51, No. 2, 1989, 249–259. [19] CIPRA, T. Analýza časových řad s aplikacemi v ekonomii. SNTL, Praha, 1986. [20] ČERNOHLÁVKOVÁ, P. CHKO Moravský kras (management chráněné oblasti). Bakalářská práce. Masarykova univerzita. Brno 2002. [21] DAMSLETH, E., SPJØTVOLL, E. Estimation of Trigonometric Components in Time Series, J. Amer. Statistics, Assoc. 77. 1982, pp. 382–387. [22] DANIELS, H.E. Rank correlation and population models. Journals of the Royal Statistical Society, B, 12 1950. 171–181. [23] DOOB, J.L. Stochastic processes. New York, Wiley 1953. [24] FISHER, R.A. Tests of significance in harmonic analysis. Proc. Royal Soc. A 125, 1929, 54–59. [25] FORBELSKÁ, M. Detekce periodicity v hydrologických datech. In XIII. letní škola bometriky, Biometrické metody a modely v současné vědě a výzkumu. 1. vyd. Brno: ÚKZÚZ Brno, 1998. s. 173–178. [26] GEWEKE, J.F., MEESE, R. Estimating Regression Models of Finite but Unknown Order. International Economic Review, 22, 1981. 55–70. [27] GICHMAN, I.I., SKOROCHOD, A.V. Teorija slučajnych processov. Moskva. Nauka 1971. [28] GRANGER, C.W.J., ANDERSEN, A. An introduction to bilinear time series models . Vandenhoeck and Ruprecht, Göttingen 1978. [29] HAMILTON, J.D. Time Series Analysis. Princeton University Press. 1994. [30] HANNAN, E.J., QUINN, B. G. The Determination of the Order of an Autoregression, Journal of the Royal Statistical Society, Series B, 41, No.2, 1979, 190–195. [31] HOLT, C.C. Forecasting seasonal and trends by exponentially weighted moving averages. Office of Naval Research, Research Memorandum No. 52. 1957. [32] KALMAN, R. A new approach to linear filtering and prediction problems. Trans. ASME J. Basic Eng. D 82 (1960), 34–45. 137 138 M5201 Stochastické modely časových řad [33] KUBÁČKOVÁ, L., KUBÁČEK, L., KUKUČA, J. Pravdepodobnostť a štatistika v geodézii a geofyzike. Veda, Bratislava, 1982. [34] LJUNG, G. M., BOX, G. E. P. On a measure of lack of fit in time series models. Biometrika 65. 1978, 553–564. [35] MAKRIDAKIS, S.G., WHEELWRIGHT, S.C., HYNDMAN R.J. Forecasting: methods and applications. John Wiley & Sons. New York. [36] MANN, H.B.: Non-parametric tests against trend, Econometrica, 13, 1945. 245–259. [37] MICHÁLEK, J., BUDÍKOVÁ, M., BRÁZDIL, R. Metody odhadu trendu časové řady na příkladu středoevropských teplotních řad. 1. vyd. Praha : Český hydrometeorologický ústav, 1993, 53 s. [38] MOORE, G.H., WALLIS, W.A. A Significance Test for Time Series Analysis, Journal of the American Statistical Association, Vol. 36, Issue 215, Sep., 1941, 401–409. [39] MOORE, G.H., WALLIS, W.A. Time Series Significance Tests Based on Signs of Differences, Journal of the American Statistical Association, Vol. 38, Issue 222, Jun., 1943, 153–164. [40] NEUBAUER, J. Vybrané metody statistické analýzy náhodných procesů a jejich aplikace. Disertační práce. Ostrava: Ostravská univerzita, Přírodovědecká fakulta, katedra matematiky, 2005. [41] NEUBRUNN, T., RIEČAN, B. Miera a integrál. Bratislava. Veda 1981. [42] PRIESTLEY, M. Spectral analysis and time series. Academic Press 1989. [43] RAO, R.C. Lineární metody statistické indukce a jejich aplikace. ACADEMIA Praha, 1978. [44] RISSANEN, J. Modeling By Shortest Data Description. Automatica, 1978, 465-471. [45] SCHWARZ, G. Estimating the Dimension of a Model. The Annals of Statistics. 6, 1978, 461–464. [46] SIEGEL, A.F. Testing for periodicity in a time series. Journal of the American Statistical Association. 75, 1980, 345–348. [47] STUART, A. The Power of Two Difference-Sign Tests, Journal of the American Statistical Association. Vol. 47, Issue 259, Sep. 1952, 416–424. [48] ŠTULAJTER, F. Odhady v náhodných procesoch. Alfa. Bratislava. 1989. [49] VESELÝ, V. Knihovna programů TSA-M pro analýzu časových řad. Ed. P.Fľak. In XIV. letná škola biometriky, Biometrické metódy a modely v pôdohospodárskej vede, výskume a výuke. Nitra: Agentúra Slovenskej akadémie pôdohospodárskych vied, 2000. s. 239–248. [50] VESELÝ, V. Úvod do časových řad. In Proceedings ANALÝZA DAT’2003/II. Pardubice (Czech Rep.): Trilobyte, Ltd., 2004. od s. 7–31. [51] WHITTLE, P. Tests of fit in time series. Biometrika 39, 1952, 309–318. [52] WHITTLE, P. The statistical analysis of a seiche record. Sears Fdn J. Mst. Res., 13, 1954, 76–100. [53] WINTERS, P.R. Forecasting sales by exponentially weighted moving averages Management Science. 6. 1960, 324— 342. [54] ZVÁRA, K. Regresní analýza Praha. Academia. 1989.