ČASOVÉ ŘADY VÍTĚZSLAV VESELÝ PODPORA VÝUKY NA POČÍTAČOVÉ SÍTI http://www.math.muni.cz/~vesely Algoritmy pro časové řady v MATLABu: d = veselý ( 'cas_rady') . . . připojení a výpis obsahu knihovny d . . . výstup=úplná cesta do adresáře knihovny. 1. ÜVOD 1.1. Ukázky časových řad. Časová řada = soubor pozorování nějaké veličiny {xt,t E T}, kde t je zpravidla čas a T C IR. Obr. 1.1: Měření proudu procházejícího odporem r v obvodu se střídavým napětím, v(t) = a cos(vt + 0), tj. xt = — cos(vt + 0). Obr. 1.2 (MATLAB: getdata( 'brockwell.dat/uspop.dat')): Růst populace v USA v létech 1790-1980 sledovaný v desetiletých intervalech. Obr. 1.3 (MATLAB: getdata( 'brockwell.dat/strikes .dat')): Počet stávek v USA v létech 1951-1980. Obr. 1.4: Výsledky Národní a Americké ligy v baseballu v létech 1933-1980. Obr. 1.5 (MATLAB: getdata('brockwell.dat/sunspots.dat')): Počty slunečních skvrn v létech 1770-1869. Obr. 1.6 (MATLAB: getdata('brockwell.dat/deaths .dat')): Počet úmrtí při nehodách v USA v létech 1973-1978. 1.2. Oblasti uplatnění metod analýzy časových řad. fyzika, technika: • seismický záznam v geofyzice. • řada nejvyšších denních teplot v meteorologii. • průběh výstupního signálu určitého elektrického přístroje. • tenzometrické měření povrchového napětí v provozu namáhané strojní součástky. biologie, ekologie: sledování různých parametrů znečištění ovzduší. medicína: záznam EKG nebo EEG. společenské vědy: změny v počtu a složení obyvatelstva. sociologie: vývoj rozvodovosti. EKONOMIE: Teorie časových řad = jedna z nejdůležitějších kvantitativních metod pro analýzu ekonomických dat, např.: • analýza poptávky po určitém výrobku • analýza objemu zemědělské produkce • analýza počtu cestujících v letecké dopravě • analýza vývoje kurzu akcií na burze Date: 25. října 2001. 1 2 VÍTĚZSLAV VESELÝ 1.3. Cíl analýzy. Porozumění mechanismu, jímž se generují sledované údaje. Znalost modelu tohoto mechanismu =>• znalost algoritmu, jímž můžeme chování tohoto mechanismu simulovat na počítači =>• schopnost popsat s jistou přesností jeho chování: • mezi časovými okamžiky měření (interpolace) • v budoucnosti (extrapolace, prognóza) • s cílem řídit a optimalizovat činnost určitého systému vhodnou volbou vstupních a počátečních podmínek (regulace), např. regulace složitých technologických procesů. 1.4. Některé specifické problémy analýzy časových řad. a) Volba okamžiků pozorování: • jsou přímo diskrétní svou povahou, např. úroda obilí za jednotlivé roky. • vznikají diskretizací spojité časové řady, např. teplota v danou denní dobu na daném místě. • vznikají akumulací (agregací) hodnot za určité období, např. denní množství srážek, roční výroba závodu. Místo akumulace se někdy provádí průměrování. Je-li dána možnost volby, je třeba jí věnovat pozornost: • málo bodů =>• unikne charakteristický rys řady. • mnoho bodů =>• zvýší se výpočetní náročnost. • ekvidistantní diskretizace zpravidla usnadní numerické zpracování, ale neumožňuje adaptivně měnit hustotu diskretizace v závislosti na lokálním charakteru řady. • při agregaci se mohou porušit vlastnosti původní řady. b) Problémy s kalendářem: • různá délka kalendářních měsíců. • 4 nebo 5 víkendů v měsíci. • různý počet pracovních dnů v měsíci. • pohyblivé svátky: např. svátek na začátku měsíce sníží prodej potravin za tento měsíc, ale zvýší jej za předchozí v důsledku efektu predzásobení. Příklad 'očištění' časové řady např. od proměnlivé délky měsíce: zavedeme 'standardní' měsíc o délce 30 dnů a pak údaj třebas o produkci za leden přenáso- bíme korekčním faktorem |^. c) Problémy s nekompatibilitou jednotlivých měření: Příklad: hodnota nějakého ukazatele se jeden rok týká např. 85 podniků, další rok jen 82 apod. d) Problémy s délkou časových řad: • zvětšení počtu měření (např. půlením časových intervalů mezi body) nemusí vždy znamenat zvětšení množství informace. • někdy se mohou objevit protichůdné tendence: metoda zpracování vyžaduje delší řadu, ale na druhé straně řada vzniklá dlouhodobým sledováním může měnit charakteristiky svého modelu v čase =>• obtíže s konstrukcí modelu. 1.5. Označení a základy matematické statistiky. s := v, resp. v =: s . . . označení výrazu v symbolem s. Číselné obory: N . . . množina všech přirozených čísel No = N U {0} . . . množina všech nezáporných celých čísel TL . . . množina všech celých čísel R . . . množina všech reálných čísel M+ . . . množina všech nezáporných reálných čísel C . . . množina všech komplexních čísel (•) + : R —> M+ . . . zobrazení definované předpisem (x)+ = max(0, x) (a,b) ... otevřený interval ČASOVÉ ŘADY 3 [a, b] ... uzavřený interval "J (a, b) = {x | min(a, 6) < x < max(a, &)} 3[a, b] = {x | min(a, 6) < a; < max(a, &)}. Vektory: a; = (a?i, . . ., xn)T £(C™ ... zpravidla sloupcové x + h = (x\ + h, . . ., xn + h)T, AgC t= (t1,...,tk)T £ Iŕ, ti £ {í,...,n} pro i = í,..., k, k < n => xt := (xtl, . . ., xt k)T G Ck í• x (i) = (xi, . ..,aľj_i, xi+i, .. .,xn)T f (x) = f(xi, .. .,i„), dx = dxi . . .dxn 0, 0nxi ... nulový sloupcový vektor délky n. Matice: A,Amxn = [ciij] = [A(i,j)] . . . matice rozměru m x n 01(A) = {y | y = Ax} . . . obor hodnot operátoru A J^(A) = {x | Ax = 0} ... jádro operátoru A AT = [dji] . . . transponovaná matice A* = [äji] . . . hermitovsky sdružená matice i", In = Inxn = [ôij] . . . jednotková matice řádu n \A\ ... determinant čtvercové matice A 0, 0mXn = [0] ... nulová matice rozměru m x n ~ xx 0 ... 0 0 x2 ... 0 diag(aj) diagonálni matice 0 0 ... xn A(i, :) = (au, . . ., aín) =: r8- ... i-tý řádek matice A ve stylu MATLAB A(:,j) = (aij, . . ., amj)T =: Sj ... j-tý sloupec matice A ve stylu MATLAB A = [7*1; ...; rm] = [si, . . ., sn] . . . blokový zápis matice A ve stylu MATLAB A > 0 (resp. A > 0) ... pozitivně (semi)definitní matice. Norma a skalární součin vektorů: {x, y) = YJi=i xi Vi =y*x, speciálně: y = A*x <=> yj = (x,A(:,i)) pro i = 1,2, . . .,n \\x\\ = \/{x, x) = \/Y^i=i \xi\2 ■ ■ ■ Euklidovská norma. Schwarzova nerovnost: |(a;,y}| < ||a;||||y||, kde rovnost nastane právě když vektory x a y jsou lineárně závislé. Pravděpodobnostní prostor (SI, A, P): íl . . . základní prostor elementárních jevů A C 2n ... (T-algebra náhodných jevů P . . . pravděpodobnostní míra na A Všechny náhodné veličiny budeme vždy uvažovat nad týmž pravděpodobnostním prostorem. Komplexní náhodnou veličinou budeme rozumět veličinu X = Xr + iXi, kde Xr a Xi jsou reálné náhodné veličiny představující po řadě reálnou a imaginární část X X = (X\, . . ., Xn)T . . . (komplexní) náhodný vektor tvořený (komplexními) náhod, veličinami Xi. Střední hodnota: H = nx = EX . . . střední hodnota náhodné veličiny X fi = £tx = EX = (EXi, . . ., EXn)T . . . střední hodnota náhodného vektoru X. Rozptyl a kovariance náhodných veličin: 'x E\X - EAľ|2 = E|Aľ|2 - (EAT!2 > O ... rozptyl X axY = cov(Aľ, Y) = E(X - EX)(Y - EY) = EAľY - (EX)(EY) . . . kovariance X a Y cov(Aľ, X) = varAľ, cov(Y, X) = cov(X,Y) cov(Xľr Xr, Xľs ^s) = Xľr Xľs cov(Xr, Ys) a odtud speciálně: var(Aľ + Y) = varAľ + cov(Aľ, Y) + cov(Y, X) + varY = varAľ + 2Re cov(Aľ, Y) + varY. Varianční a kovarianční matice náhodných vektorů: Ex = varX = [cov(Xi,Xj)] = E(X - EX)(X- EX)* = EXX* - (EX)(EX)* . . . varianční matice X SXY= cov(X,Y) = [cov(Xi,Yj)] = E(X- EX)(Y- EY)* = EXY* - (EX)(EY)* ... . . . kovarianční matice X a Y 4 VÍTĚZSLAV VESELÝ cov(X,X) = varX, cov(Y,X) = cov(X, Y)* => varX = (varX)* . . . . . . varianční matice X je hermitovská. Pro konstantní komplexní vektory a a c a matice B a D odpovídajících rozměrů platí: cov(a + 5X, c + DY) = cov(5X, £>Y) = B cov(X, Y) D*. JJ-X = Y var(a + 5X) = cov(a + 5X, a + 5X) = cov(5X, 5X) = B var(X) 5*. \)-b* = B 0 < var(6*X) = 6*varX6=>- varX > 0 . . . varianční matice je pozitivně semidefinitní. Sx je tedy celkem hermitovská a pozitivně semidefinitní a má proto reálná nezáporná vlastní čísla A8- 1 1 11 Zřejmě existuje matice £|-, jejíž vlastní čísla jsou A? a přitom platí: Sx = S|- £|-. Dále platí cov(Xľr ^r; Xľs ^») = Xľr Xľs cov(^r, Ys) a odtud speciálně: var(X + Y) = varX + cov(X, Y) + cov(Y, X) + varY = varX + 2Re cov(X, Y) + varY. 1.6. Normální rozdělení a rozdělení z něj odvozená. 1. Normální rozdělení: X ~ N(n, a2), fi = EX, a2 = varX . . . . . . reálná náhodná veličina s normálním (gaussovským) rozdělením; i — \2 f(x) = (V2Ťrcr)_1e_ 2"2 ... hustota náhodné veličiny X; $(í) := Eeltx = eUß~~a * ... charakteristická funkce náhodné veličiny X; U ~ N(0, 1) . . . standardizované normální rozdělení náhodné veličiny U; ua = F~1{a) . . . a-kvantil pro U, kde F(x) = j_ f(t) dt značí distribuční funkci U; X ~ Nn(fi, V), n = EX, V = varX ... . . . reálný náhodný vektor s n-rozměrným normálním rozdělením; f(x) = (^/(27r)n |Vr|)_1e~ ~(x_ř1) v (x-í1) ... n-rozměrná hustota náhodného vektoru X; $n(ť) := Eelt x = elt >í~~t vt . . . charakteristická funkce náhodného vektoru X; U ~ Nn(0, In) . . . standardizované normální rozdělení náhodného vektoru U. Platí X~N(ii,a2) => a + bX ~ N(a + bii,b2a2) pro a,Í£l; X~Nn(fj,,V) => a + BX~ Nm(a + Bfj,,BVBT) pro a £1™ a matici 5 = Bmxn nad M. 2. Rozdělení x2(n)■' Nechť Ui ~ N(0, 1) pro i = 1, . . ., n jsou stochasticky nezávislé, pak náhodná veličina C = Yľi=i Uf ~ X2(n) ma Pearsonovo "chí kvadrát" rozdělení o n stupních volnosti; Xa(n) . . . a-kvantil pro C. Platí Ci ~ X2(ni) Pro * = 1, ■ ■ ■ ,m stochasticky nezávislé =>• C = Xľfci C« ~ X2(ni+n2 + ' ■ ■+im) 3. Studentovo t rozdělení: Nechť U ~ N(0, 1) a C ~ X2(fc) jsou stochasticky nezávislé, pak náhodná veličina T = j ~ t(k) má Studentovo t rozdělení o k stupních volnosti; ta(k) . . . a-kvantil pro T. 4. Fisher-Snedecorovo F rozdělení: Nechť C\ ~ X2(ni) a C*2 ~ X2(n2) jsou stochasticky nezávislé, pak náhodná veličina F = „l',ni ~ F (ni, n-2) má Fisher-Snedecorovo F rozdělení s ni a n^ stupni volnosti; Fa(ni, n2) ■ ■ ■ a-kvantil pro F. ČASOVÉ ŘADY 5 1.7. Prostor L2(£l,A,P). Ĺ2(£l,A, P) definujeme jako množinu všech (komplexních) náhodných veličin nad týmž pravděpodobnostním prostorem (Cl,A,P), které mají konečné druhé momenty (resp. rozptyly - viz dále 1.11), tj. L2{£l,A,P) :={X\X náhodná veličina nad (ti,A,P), E|X|2 < oo}. Poznamenejme, že do tohoto prostoru zahrnujeme také všechny konstanty z C, které považujeme za náhodné veličiny s nulovým rozptylem. Věta 1.8. Ĺ2(£l,A, P) je Hilbertův prostor se skalárním součmem (X,Y) = EXY a normou \\X\\2 = s/(X^Čj=s/Ě\Xř. Důkaz. Li2(£l,A, P) je obdobou funkcionálního prostoru L2(0) tvořeného funkcemi absolutně integro-vatelnými v kvadrátu na intervalu 3 C 1. Totiž E|X|2 = J„ |X(cj)|2 dP(uj), takže namísto s Lebes-gueovým integrálem pracujeme s obecnějším pojetím integrálu, kde Lebesgueova míra je nahrazena pravděpodobnostní mírou P: • Skalární součin (X, Y) existuje a je konečný pro každé X, Y £ £2(í), A, P), jak snadno nahlédneme z nerovnosti A\XY\ = {\X\ + \Y\f - {\X\ - \Y\f < (\X\ + \Y\f + {\X\ - \Y\f = 2(|X|2 + |Y|2), odkud užitím \Y\ = \Y\ dostáváme \xy\<±(\x\2 + \y\% takže EXY\ < I \X(oj)Y(oj)\dP(oj) < \X(oj)\2dP(oj) + / \Y(uj)\2dP [OJ < OO. • ^2(^1 A, P) je vektorovým prostorem. Je uzavřený na násobení skaláry c G C, neboť E|cX|2 = |c|2E|X|2 < 00. Uzavřenost vzhledem ke sčítání plyne z: \X + Y\2 < (\X\ + \Y\)2 = \X\2 + 2\XY\ + \Y\2 => E\X + Y\2 < E\X\2 + 2E\XY\ + E|Y|2 < 00. • Ověření, že £2(^1 A, P) je úplný, neboli Hilbertův prostor, je složitější, ale provádí se opět zcela analogicky jako v případě funkcionálního prostoru L2(0). Podrobnosti lze nalézt například v monografii [1, §2.10]. D Důsledek 1.9 (Schwarzova nerovnost) \EXY\, \EXY\ < \\X\\2\\Y\\2 = VE|^|2VE|y|2, X,Y e L2(n,A,P Důsledek 1.10. X £ L2(£l,A,P) => EX existuje. Důkaz. \ex\ = \e(í.x)\ < ve\i\2 vm\2 = vm\2 < 00. 1 Důsledek 1.11. X,Y e L2(£l,A, P) => X-EX, Y -EY eL2{£l,A,P) D {X -EX, Y - EY) = E(X - EX) (Y - EY) = covpř, Y) existuje a splňuje Schwarzovu nerovnost |covpř,Y)| < y/E\X -EX\2^JE\Y - EY|2 = axcrY. Důsledek 1.12. i—^-L pro (Tx(Ty ý: Ü p(X,Y) = i °x°r V'J WXWy ^ 0 pro uxay = 0 je tzv. korelační koeficient náhodných veličin X a Y, pro nějž platí \p(X,Y)\ < 1 a speciálně — 1 < p(X,Y) <1 11 případě reálných náhodných veličin X aY. 6 VÍTĚZSLAV VESELÝ Poznámka . Náhodné veličiny X, Y £ Li2{£l,A,P) se nazývají nekorelované, jestliže p(X,Y) = 0. Vzhledem k 1.11 je nekorelovanost ekvivalentní s cov(X,Y) = 0, tj. s ortogonalitou centrovaných veličin X -~EX a Y - EY v L2{9.,A,P). /o(X, Y) = [p(Xi,Yj)]ij je tzv. vzájemná korelační matice náhodných vektorů X a Y. /o(X,X) = [/o(-X"j, -Xj)]j j je tzv. korelační matice náhodného vektoru X. POZOR! Nekorelovanost indikuje neexistenci stochastické závislosti pouze lineárního typu. Tedy platí X, Y stochasticky nezávislé =^ X, Y nekorelované, avšak nikoliv naopak: X, Y nekorelované =£> X, Y stochasticky nezávislé.