ČASOVÉ ŘADY vítězslav veselý PODPORA VÝUKY NA POČÍTAČOVÉ SÍTI http://www.math.muni.cz/~veselý Algoritmy pro časové řady v MATLABu: d = veselý ( 'cas_rady') . . . připojení a výpis obsahu knihovny d . . . výstup=úplná cesta do adresáře knihovny. 1. Úvod 1.1. Ukázky časových řad. Časová řada = soubor pozorování nějaké veličiny {xt,t E T}, kde t je zpravidla čas aTCl. Obr. 1.1: Měření proudu procházejícího odporem r v obvodu se střídavým napětím, v(t) = a cos(vt + 0), tj. xt = f cos(vt + 0). Obr. 1.2 (MATLAB: getdata( 'brockwell. dat/uspop. dat')): Růst populace v USA v létech 1790-1980 sledovaný v desetiletých intervalech. Obr. 1.3 (MATLAB: getdata( 'brockwell. dat/strikes .dat')): Počet stávek v USA v létech 1951-1980. Obr. 1.4: Výsledky Národní a Americké ligy v baseballu v létech 1933-1980. Obr. 1.5 (MATLAB: getdata( 'brockwell. dat/sunspots . dat')): Počty slunečních skvrn v létech 1770-1869. Obr. 1.6 (MATLAB: getdata('brockwell. dat/deaths . dat')): Počet úmrtí při nehodách v USA v létech 1973-1978. 1.2. Oblasti uplatnění metod analýzy časových řad. fyzika, technika: • seismický záznam v geofyzice. • řada nej vyšších denních teplot v meteorologii. • průběh výstupního signálu určitého elektrického přístroje. • tenzometrické měření povrchového napětí v provozu namáhané strojní součástky, biologie, ekologie: sledování různých parametrů znečištění ovzduší. medicína: záznam EKG nebo EEG. společenské vědy: změny v počtu a složení obyvatelstva, sociologie: vývoj rozvodovosti. EKONOMIE: Teorie časových řad = jedna z nej důležitějších kvantitativních metod pro analýzu ekonomických dat, např.: • analýza poptávky po určitém výrobku • analýza objemu zemědělské produkce • analýza počtu cestujících v letecké dopravě • analýza vývoje kurzu akcií na burze Date: 25. října 2001. 1 2 VÍTĚZSLAV VESELÝ 1.3. Cíl analýzy. Porozumění mechanismu, jímž se generují sledované údaje. Znalost modelu tohoto mechanismu =>• znalost algoritmu, jímž můžeme chování tohoto mechanismu simulovat na počítači =>• schopnost popsat s jistou přesností jeho chování: • mezi časovými okamžiky měření (interpolace) • v budoucnosti (extrapolace, prognóza) • s cílem řídit a optimalizovat činnost určitého systému vhodnou volbou vstupních a počátečních podmínek (regulace), např. regulace složitých technologických procesů. 1.4. Některé specifické problémy analýzy časových řad. a) Volba okamžiků pozorování: • jsou přímo diskrétní svou povahou, např. úroda obilí za jednotlivé roky. • vznikají diskretizací spojité časové řady, např. teplota v danou denní dobu na daném místě. • vznikají akumulací (agregací) hodnot za určité období, např. denní množství srážek, roční výroba závodu. Místo akumulace se někdy provádí průměrování. Je-li dána možnost volby, je třeba jí věnovat pozornost: • málo bodů =>• unikne charakteristický rys řady. • mnoho bodů =>• zvýší se výpočetní náročnost. • ekvidistantní diskretizace zpravidla usnadní numerické zpracování, ale neumožňuje adaptivně měnit hustotu diskretizace v závislosti na lokálním charakteru řady. • při agregaci se mohou porušit vlastnosti původní řady. b) Problémy s kalendářem: • různá délka kalendářních měsíců. • 4 nebo 5 víkendů v měsíci. • různý počet pracovních dnů v měsíci. • pohyblivé svátky: např. svátek na začátku měsíce sníží prodej potravin za tento měsíc, ale zvýší jej za předchozí v důsledku efektu predzásobení. Příklad 'očištění' časové řady např. od proměnlivé délky měsíce: zavedeme 'standardní' měsíc o délce 30 dnů a pak údaj třebas o produkci za leden přenáso-bíme korekčním faktorem c) Problémy s nekompatibilitou jednotlivých měření: Příklad: hodnota nějakého ukazatele se jeden rok týká např. 85 podniků, další rok jen 82 apod. d) Problémy s délkou časových řad: • zvětšení počtu měření (např. půlením časových intervalů mezi body) nemusí vždy znamenat zvětšení množství informace. • někdy se mohou objevit protichůdné tendence: metoda zpracování vyžaduje delší řadu, ale na druhé straně řada vzniklá dlouhodobým sledováním může měnit charakteristiky svého modelu v čase =>• obtíže s konstrukcí modelu. 1.5. Označení a základy matematické statistiky. s := v, resp. v =: s . . . označení výrazu v symbolem s. Číselné obory: N . . . množina všech přirozených čísel No = N U {0} . . . množina všech nezáporných celých čísel 7l . . . množina všech celých čísel R . . . množina všech reálných čísel M+ . . . množina všech nezáporných reálných čísel C . . . množina všech komplexních čísel (•) + : R —> M+ . . . zobrazení definované předpisem (x)+ = max(0, x) (a,b) ... otevřený interval ČASOVÉ ŘADY 3 [a, b] ... uzavřený interval "J(a, b) = {x \ min(a, 6) < x < max(a, b)} 3[a, b] = {x | min(a, 6) < x < max(a, &)}. Vektory: x = (a?i, . . ., í„)t G C" . . . zpravidla sloupcové x + h = (x\ + h, . . ., xn + h)T, h G C ť = (íi, . . .,tk)T £ fŕ, ti G {1, . . .,n) pro i = 1, . . .,k, k < n => xt := (xtl,. ■■,xtkf £ ck í• x(i) = (xi, . . .,Xi-i,xi+i, . . .,xn)T f (x) =f(xi,.. .,i„), dx = dxi...dxn 0, 0nxi ... nulový sloupcový vektor délky n. Matice: A,Amxn = [a i j] = [A(i,j)] . . . matice rozměru m x n Ol(A) = {y | y = Ax} . . . obor hodnot operátoru A N (A) = {x | Ax = 0} ... jádro operátoru A AT = [a j i] . . . transponovaná matice A* = [äji] . . . hermitovsky sdružená matice /, In = Inxn = [Sij] . . . jednotková matice řádu n \A\ ... determinant čtvercové matice A 0, 0mXn = [0] ... nulová matice rozměru m x n ~ xx 0 ... 0 0 x2 ... 0 diag(a;) diagonálni matice 0 0 ... xn A(i, :) = (aji, . . ., din) =: ri ... i-tý řádek matice A ve stylu MATLAB A(:,j) = (aij, . . ., amj)T =: Sj ... j-tý sloupec matice A ve stylu MATLAB A = [7*1; ...; rm] = [si, . . ., sn] . . . blokový zápis matice A ve stylu MATLAB A > 0 (resp. A > 0) ... pozitivně (semi)definitní matice. Norma a skalární součin vektorů: {x, y) = Y!i=i xi Vi =V*X, speciálně: y = A*x <=> yj = (x,A(:,i)) pro i = 1, 2, . . ., n II x y = \J(x,x) = \/Yľi=i \xi\2 ■ ■ ■ Euklidovská norma. Schwarzova nerovnost: |(iB,y)| < ||x||||y||, kde rovnost nastane právě když vektory x a y jsou lineárně závislé. Pravděpodobnostní prostor (Í2, A, P): Í2 . . . základní prostor elementárních jevů A C 2n ... cr-algebra náhodných jevů P . . . pravděpodobnostní míra na A Všechny náhodné veličiny budeme vždy uvažovat nad týmž pravděpodobnostním prostorem. Komplexní náhodnou veličinou budeme rozumět veličinu X = Xr + iXi, kde Xr a Xi jsou reálné náhodné veličiny představující po řadě reálnou a imaginární část X X = (X\, . . ., Xn)T . . . (komplexní) náhodný vektor tvořený (komplexními) náhod, veličinami X{. Střední hodnota: H = nx = EV . . . střední hodnota náhodné veličiny X fi = ^tx = EX = (EXi, . . ., EXn)T . . . střední hodnota náhodného vektoru X. Rozptyl a kovariance náhodných veličin: 'x E\X - EAľ|2 = E|Aľ|2 - |EV|2 > 0 ... rozptyl X aXY = cov(Aľ, Y) = E(X - EX)(Y - EY) = EVY - (EV)(EY) . . . kovariance V a Y cov(V, V) = varV, cov(Y, V) = cov(V, Y) cov(Xľr Xľs ^s) = Xľr Xľs cov(Xr, Ys) a odtud speciálně: var(V + Y) = varV + cov(V, Y) + cov(Y, V) + varY = varV + 2Re cov(V, Y) + varY. Varianční a kovarianční matice náhodných vektorů: Ex = varX = [cow{Xí,Xj)} = E(X - EX)(X - EX)* = EXX* - (EX)(EX)* . . . varianční matice X SXY= cov(X,Y) = [cov(Xí,Yj)] = E(X - EX) (Y - EY)* = EXY* - (EX)(EY)* ... . . . kovarianční matice X a Y 4 VÍTĚZSLAV VESELÝ cov(X,X) = varX, cov(Y,X) = cov(X, Y)* => varX = (varX)* . . . . . . varianční matice X je hermitovská. Pro konstantní komplexní vektory a a c a matice B a D odpovídajících rozměrů platí: cov(a + 5X, c + DY) = cov(5X, DY) = B cov(X, Y) D*. JJ-X = Y var(a + 5X) = cov(a + 5X, a + 5X) = cov(5X, 5X) = B var(X) B*. JJ.6* = 5 0 < var(6*X) = />'v;ir /> : varX > 0 . . . varianční matice je pozitivně semidefinitní. Sx je tedy celkem hermitovská a pozitivně semidefinitní a má proto reálná nezáporná vlastní čísla A8-. 1 1 11 Zřejmě existuje matice jejíž vlastní čísla jsou A? a přitom platí: Ex = S|-Dále platí cov(Xľr Xľs = Xľr Xľs cov(^r, Ys) a odtud speciálně: var(X + Y) = varX + cov(X, Y) + cov(Y, X) + varY = varX + 2Re cov(X, Y) + varY. 1.6. Normální rozdělení a rozdělení z něj odvozená. 1. Normální rozdělení: X ~ N(fi, a2), fi = EX, a2 = varX . . . . . . reálná náhodná veličina s normálním (gaussovským) rozdělením; f(x) = (\/2ŤŤa)~1 e~ ... hustota náhodné veličiny X; := Eeítx = eít'I_ 2"CT * ... charakteristická funkce náhodné veličiny X; U ~ N(0, 1) . . . standardizované normální rozdělení náhodné veličiny U; ua = F~1{a) . . . a-kvantil pro U, kde F{x) = j_ f(t) dt značí distribuční funkci U; X ~ Nn(fi, V), n = EX, V = varX ... . . . reálný náhodný vektor s n-rozměrným normálním rozdělením; f(x) = (v/(27r)n |Vr|)_1e~ 2"(x_í1) v ť25-*1) ... n-rozměrná hustota náhodného vektoru X; $n(ť) := Ee8t x = elt vt . . . charakteristická funkce náhodného vektoru X; U ~ Nn(0, In) . . . standardizované normální rozdělení náhodného vektoru U. Platí X~N(n,a2) => a + bX ~ N (a + b/i, b2a2) pro a,í£l; X~Nn(fj,,V) => a + BX ~ Nm(a + Bfi, BVBT) pro a £ Mm a matici B = Bmxn nad IR. 2. Rozdělení x2(n): Nechť Č7j ~ N(0, 1) pro i = 1, . . ., n jsou stochasticky nezávislé, pak náhodná veličina C = Yľi=i Uf ~ X2(n) ma Pearsonovo "chí kvadrát" rozdělení o n stupních volnosti; Xa(íi) • • • a-kvantil pro C. Platí Ci ~ X2(ni) Pro * = 1; • • • )m stochasticky nezávislé =>• C = Xľfci C« ~ X2(«i+«2 + ' • ■+»ra). 3. Studentovo t rozdělení: Nechť U ~ N(0, 1) a C ~ X2(fc) jsou stochasticky nezávislé, pak náhodná veličina T = ^Jcik ~ ^(^) m^ Studentovo í rozdělení o stupních volnosti; ta(k) . . . a-kvantil pro T. 4. Fisher-Snedecorovo F rozdělení: Nechť C\ ~ X2(ni) a C*2 ~ X2(n2) jsou stochasticky nezávislé, pak náhodná veličina F = ~ F{niy n2) má Fisher-Snedecorovo ŕ1 rozdělení s n\ a rí2 stupni volnosti; ŕ1, (ni, 712) . . . a-kvantil pro F. ČASOVÉ ŘADY 5 1.7. Prostor L2(£l,A,P). L2{Q,A, P) definujeme jako množinu všech (komplexních) náhodných veličin nad týmž pravděpodobnostním prostorem (Cl,A,P), které mají konečné druhé momenty (resp. rozptyly - viz dále 1.11), tj. L2{£l,A,P) :={x\x náhodná veličina nad (Sl,A,P), E|X|2 < oo}. Poznamenejme, že do tohoto prostoru zahrnujeme také všechny konstanty z C, které považujeme za náhodné veličiny s nulovým rozptylem. Věta 1.8. L2{Q,A,P) je Hilbertův prostor se skalárním součinem (x,y) = exy a normou \\X\\2 = s/{xTx) = s/Ě\Xj. Důkaz. L2{Q,A, P) je obdobou funkcionálního prostoru L2(0) tvořeného funkcemi absolutně integro-vatelnými v kvadrátu na intervalu 3 C 1. Totiž E|X|2 = Jn |X(cj)|2 dP(uj), takže namísto s Lebes-gueovým integrálem pracujeme s obecnějším pojetím integrálu, kde Lebesgueova míra je nahrazena pravděpodobnostní mírou P: • Skalární součin (x, y) existuje a je konečný pro každé x, y E L2{Q, A, P), jak snadno nahlédneme z nerovnosti a\xy\ = {\x\ + |Y|)2 - {\x\ - \y\)2 < (\x\ + |Y|)2 + {\x\ - \y\)2 = 2(|X|2 + |Y|2), odkud užitím \y\ = \y\ dostáváme \xy\<\{\x? + \y\2), takže EXY\ < I \X(oj)Y(oj)\dP(oj) < 1 \X(u)\2dP(u) + / \Y(u)\2dP [OJ < 00. • L2(£i, A, P) je vektorovým prostorem. Je uzavřený na násobení skaláry c G C, neboť E|cX|2 = |c|2E|X|2 < 00. Uzavřenost vzhledem ke sčítání plyne z: \X + Y\2 < (\X\ + \Y\)2 = \X\2 + 2\XY\ + \Y\2 => E\X + Y\2 < E\X\2 + 2E\XY\ + E|Y|2 < 00. • Ověření, že L2{Q, A, P) je úplný, neboli Hilbertův prostor, je složitější, ale provádí se opět zcela analogicky jako v případě funkcionálního prostoru L2('J). Podrobnosti lze nalézt například v monografii [1, §2.10]. □ Důsledek 1.9 (Schwarzova nerovnost) \exy\, \exy\ < \\x\\2\\y\\2 = ^e\x\2^e\y\2, x, Y e L2(n,A,P Důsledek 1.10. x £ L2(£l,A,P) => ex existuje. Důkaz. \ex\ = \e(í.x)\< ve\i\2 vm\2 = vm\2 < 00. 1 Důsledek 1.11. x,y e L2(£l,A,P) => x-ex, y - ey e L2{£l,A,P) □ {X -EX, Y - EY) = E(X - EX)(Y - EY) = cov(X, Y) existuje a splňuje Schwarzovu nerovnost \cov(X, Y)\ < y/ElX - EX\2y/E\Y - EY|2 = axcrY. Důsledek 1.12. pro X, Y stochasticky nezávislé.