ČASOVÉ ŘADY
VÍTĚZSLAV VESELÝ
PODPORA VÝUKY NA POČÍTAČOVÉ SÍTI
http://www.math.muni.cz/~vesely
Algoritmy pro časové řady v MATLABu:
d = veselý ( 'cas_rady') . . . připojení a výpis obsahu knihovny d . . . výstup=úplná cesta do adresáře knihovny.
1.   ÜVOD
1.1.   Ukázky časových řad.
Časová řada = soubor pozorování nějaké veličiny {xt,t E T}, kde t je zpravidla čas a T C IR.
Obr. 1.1:
Měření proudu procházejícího odporem r v obvodu se střídavým napětím, v(t) = a cos(vt + 0), tj. xt = — cos(vt + 0).
Obr. 1.2 (MATLAB: getdata( 'brockwell.dat/uspop.dat')):
Růst populace v USA v létech 1790-1980 sledovaný v desetiletých intervalech.
Obr. 1.3 (MATLAB: getdata( 'brockwell.dat/strikes .dat')):
Počet stávek v USA v létech 1951-1980.
Obr. 1.4: Výsledky Národní a Americké ligy v baseballu v létech 1933-1980.
Obr. 1.5 (MATLAB: getdata('brockwell.dat/sunspots.dat')):
Počty slunečních skvrn v létech 1770-1869.
Obr. 1.6 (MATLAB: getdata('brockwell.dat/deaths .dat')):
Počet úmrtí při nehodách v USA v létech 1973-1978.
1.2.   Oblasti uplatnění metod analýzy časových řad.
fyzika, technika:
•   seismický záznam v geofyzice.
•   řada nejvyšších denních teplot v meteorologii.
•   průběh výstupního signálu určitého elektrického přístroje.
•   tenzometrické měření povrchového napětí v provozu namáhané strojní součástky. biologie, ekologie: sledování různých parametrů znečištění ovzduší.
medicína: záznam EKG nebo EEG.
společenské vědy:  změny v počtu a složení obyvatelstva. sociologie: vývoj rozvodovosti.
EKONOMIE:  Teorie časových řad = jedna z nejdůležitějších kvantitativních metod pro analýzu ekonomických dat, např.:
•   analýza poptávky po určitém výrobku
•   analýza objemu zemědělské produkce
•   analýza počtu cestujících v letecké dopravě
•   analýza vývoje kurzu akcií na burze
Date: 25. října 2001.
1
2                                                                                           VÍTĚZSLAV VESELÝ
1.3.   Cíl analýzy.
Porozumění mechanismu, jímž se generují sledované údaje.
Znalost modelu tohoto mechanismu =>• znalost algoritmu, jímž můžeme chování tohoto mechanismu simulovat na počítači =>• schopnost popsat s jistou přesností jeho chování:
•   mezi časovými okamžiky měření (interpolace)
•   v budoucnosti (extrapolace, prognóza)
•   s cílem řídit a optimalizovat činnost určitého systému vhodnou volbou vstupních a počátečních podmínek (regulace), např. regulace složitých technologických procesů.
1.4.   Některé specifické problémy analýzy časových řad.
a)  Volba okamžiků pozorování:
•  jsou přímo diskrétní svou povahou, např. úroda obilí za jednotlivé roky.
•   vznikají diskretizací spojité časové řady, např. teplota v danou denní dobu na daném místě.
•   vznikají akumulací (agregací) hodnot za určité období, např. denní množství srážek, roční výroba závodu. Místo akumulace se někdy provádí průměrování.
Je-li dána možnost volby, je třeba jí věnovat pozornost:
•   málo bodů =>• unikne charakteristický rys řady.
•   mnoho bodů =>• zvýší se výpočetní náročnost.
•   ekvidistantní diskretizace zpravidla usnadní numerické zpracování, ale neumožňuje adaptivně měnit hustotu diskretizace v závislosti na lokálním charakteru řady.
•   při agregaci se mohou porušit vlastnosti původní řady.
b)  Problémy s kalendářem:
•   různá délka kalendářních měsíců.
•   4 nebo 5 víkendů v měsíci.
•   různý počet pracovních dnů v měsíci.
•   pohyblivé svátky: např. svátek na začátku měsíce sníží prodej potravin za tento měsíc, ale zvýší jej za předchozí v důsledku efektu predzásobení.
Příklad 'očištění' časové řady např. od proměnlivé délky měsíce:
zavedeme 'standardní' měsíc o délce 30 dnů a pak údaj třebas o produkci za leden přenáso-
bíme korekčním faktorem |^.
c)  Problémy s nekompatibilitou jednotlivých měření:
Příklad: hodnota nějakého ukazatele se jeden rok týká např. 85 podniků, další rok jen 82 apod.
d)  Problémy s délkou časových řad:
•   zvětšení počtu měření (např. půlením časových intervalů mezi body) nemusí vždy znamenat zvětšení množství informace.
•   někdy se mohou objevit protichůdné tendence: metoda zpracování vyžaduje delší řadu, ale na druhé straně řada vzniklá dlouhodobým sledováním může měnit charakteristiky svého modelu v čase =>• obtíže s konstrukcí modelu.
1.5.   Označení a základy matematické statistiky.
s := v, resp. v =: s . . . označení výrazu v symbolem s.
Číselné obory:
N . . . množina všech přirozených čísel
No = N U {0} . . . množina všech nezáporných celých čísel
TL . . . množina všech celých čísel
R . . . množina všech reálných čísel
M+ . . . množina všech nezáporných reálných čísel
C . . . množina všech komplexních čísel
(•) + : R —> M+ . . . zobrazení definované předpisem (x)+ = max(0, x)
(a,b) ... otevřený interval
ČASOVÉ ŘADY
3
[a, b] ... uzavřený interval
"J (a, b)    =    {x | min(a, 6) < x < max(a, &)}
3[a, b]     =    {x | min(a, 6) < a; < max(a, &)}.
Vektory:
a; = (a?i, . . ., xn)T £(C™  ... zpravidla sloupcové
x + h = (x\ + h, . . ., xn + h)T,  AgC
t= (t1,...,tk)T £ Iŕ, ti £ {í,...,n}   pro i = í,..., k, k < n     =>     xt := (xtl, . . ., xt k)T G Ck
í<i<n     =>•     x (i) = (xi, . ..,aľj_i, xi+i, .. .,xn)T
f (x) = f(xi, .. .,i„),  dx = dxi . . .dxn
0, 0nxi ... nulový sloupcový vektor délky n.
Matice:
A,Amxn = [ciij] = [A(i,j)] . . . matice rozměru m x n 01(A) = {y | y = Ax} . . . obor hodnot operátoru A J^(A) = {x | Ax = 0} ... jádro operátoru A AT = [dji] . . . transponovaná matice A* = [äji] . . . hermitovsky sdružená matice i", In = Inxn = [ôij] . . . jednotková matice řádu n \A\ ... determinant čtvercové matice A 0, 0mXn = [0] ... nulová matice rozměru m x n ~ xx     0     ...      0 0     x2    ...      0
diag(aj)
diagonálni matice
0      0     ...     xn
A(i, :) = (au, . . ., aín) =: r8- ... i-tý řádek matice A ve stylu MATLAB A(:,j) = (aij, . . ., amj)T =: Sj ... j-tý sloupec matice A ve stylu MATLAB A = [7*1; ...; rm] = [si, . . ., sn] . . . blokový zápis matice A ve stylu MATLAB A > 0 (resp. A > 0) ... pozitivně (semi)definitní matice.
Norma a skalární součin vektorů:
{x, y) = YJi=i xi Vi =y*x, speciálně:
y = A*x <=> yj = (x,A(:,i))   pro i = 1,2, . . .,n
\\x\\ = \/{x, x) = \/Y^i=i \xi\2 ■ ■ ■ Euklidovská norma.
Schwarzova nerovnost:
|(a;,y}| < ||a;||||y||, kde rovnost nastane právě když vektory x a y jsou lineárně závislé.
Pravděpodobnostní prostor (SI, A, P):
íl . . . základní prostor elementárních jevů A C 2n ... (T-algebra náhodných jevů P . . . pravděpodobnostní míra na A
Všechny náhodné veličiny budeme vždy uvažovat nad týmž pravděpodobnostním prostorem. Komplexní náhodnou veličinou budeme rozumět veličinu X = Xr + iXi, kde Xr a Xi jsou reálné náhodné veličiny představující po řadě reálnou a imaginární část X X = (X\, . . ., Xn)T . . .  (komplexní) náhodný vektor tvořený (komplexními) náhod, veličinami Xi.
Střední hodnota:
H = nx = EX . . . střední hodnota náhodné veličiny X
fi = £tx = EX = (EXi, . . ., EXn)T . . . střední hodnota náhodného vektoru X.
Rozptyl a kovariance náhodných veličin:
'x
E\X - EAľ|2 = E|Aľ|2 - (EAT!2 > O ... rozptyl X
axY = cov(Aľ, Y) = E(X - EX)(Y - EY) = EAľY - (EX)(EY) . . . kovariance X a Y
cov(Aľ, X) = varAľ, cov(Y, X) = cov(X,Y)
cov(Xľr Xr, Xľs ^s) = Xľr Xľs cov(Xr, Ys) a odtud speciálně:
var(Aľ + Y) = varAľ + cov(Aľ, Y) + cov(Y, X) + varY = varAľ + 2Re cov(Aľ, Y) + varY.
Varianční a kovarianční matice náhodných vektorů:
Ex = varX = [cov(Xi,Xj)] = E(X - EX)(X- EX)* = EXX* - (EX)(EX)* . . . varianční matice X SXY= cov(X,Y) = [cov(Xi,Yj)] = E(X- EX)(Y- EY)* = EXY* - (EX)(EY)* ... . . . kovarianční matice X a Y
4
VÍTĚZSLAV VESELÝ
cov(X,X) = varX, cov(Y,X) = cov(X, Y)* => varX = (varX)* . . . . . . varianční matice X je hermitovská.
Pro konstantní komplexní vektory a a c a matice B a D odpovídajících rozměrů platí:
cov(a + 5X, c + DY) = cov(5X, £>Y) = B cov(X, Y) D*.
JJ-X = Y var(a + 5X) = cov(a + 5X, a + 5X) = cov(5X, 5X) = B var(X) 5*.
\)-b* = B
0 < var(6*X) = 6*varX6=>- varX > 0 . . . varianční matice je pozitivně semidefinitní.
Sx je tedy celkem hermitovská a pozitivně semidefinitní a má proto reálná nezáporná vlastní čísla A8-
1                                                         1                                                       11
Zřejmě existuje matice £|-, jejíž vlastní čísla jsou A? a přitom platí: Sx = S|- £|-.
Dále platí
cov(Xľr ^r; Xľs ^») = Xľr Xľs cov(^r, Ys) a odtud speciálně:
var(X + Y) = varX + cov(X, Y) + cov(Y, X) + varY = varX + 2Re cov(X, Y) + varY.
1.6.  Normální rozdělení a rozdělení z něj odvozená.
1.   Normální rozdělení:
X ~ N(n, a2), fi = EX, a2 = varX . . .
. . . reálná náhodná veličina s normálním (gaussovským) rozdělením;
i — \2 f(x) = (V2Ťrcr)_1e_   2"2     ... hustota náhodné veličiny X;
$(í) := Eeltx = eUß~~a *   ... charakteristická funkce náhodné veličiny X;
U ~ N(0, 1) . . . standardizované normální rozdělení náhodné veličiny U;
ua = F~1{a) . . . a-kvantil pro U, kde F(x) = j_    f(t) dt značí distribuční funkci U;
X ~ Nn(fi, V), n = EX, V = varX ...
. . . reálný náhodný vektor s n-rozměrným normálním rozdělením;
f(x) = (^/(27r)n |Vr|)_1e~ ~(x_ř1)   v    (x-í1) ... n-rozměrná hustota náhodného vektoru X;
$n(ť) := Eelt  x = elt  >í~~t  vt . . . charakteristická funkce náhodného vektoru X;
U ~ Nn(0, In) . . . standardizované normální rozdělení náhodného vektoru U.
Platí
X~N(ii,a2)      =>     a + bX ~ N(a + bii,b2a2) pro a,Í£l;
X~Nn(fj,,V)      =>     a + BX~ Nm(a + Bfj,,BVBT) pro a £1™ a matici 5 = Bmxn nad M.
2.   Rozdělení x2(n)■'
Nechť Ui ~ N(0, 1) pro i = 1, . . ., n jsou stochasticky nezávislé, pak náhodná veličina
C = Yľi=i Uf ~ X2(n) ma Pearsonovo "chí kvadrát" rozdělení o n stupních volnosti;
Xa(n) . . . a-kvantil pro C.
Platí
Ci ~ X2(ni) Pro * = 1, ■ ■ ■ ,m stochasticky nezávislé     =>•     C = Xľfci C« ~ X2(ni+n2 + ' ■ ■+im)
3.   Studentovo t rozdělení:
Nechť U ~ N(0, 1) a C ~ X2(fc) jsou stochasticky nezávislé, pak náhodná veličina
T =    j       ~ t(k) má Studentovo t rozdělení o k stupních volnosti;
ta(k) . . . a-kvantil pro T.
4.   Fisher-Snedecorovo F rozdělení:
Nechť C\ ~ X2(ni) a C*2 ~ X2(n2) jsou stochasticky nezávislé, pak náhodná veličina
F = „l',ni ~ F (ni, n-2) má Fisher-Snedecorovo F rozdělení s ni a n^ stupni volnosti;
Fa(ni, n2) ■ ■ ■ a-kvantil pro F.
ČASOVÉ ŘADY
5
1.7.  Prostor L2(£l,A,P).
Ĺ2(£l,A, P) definujeme jako množinu všech (komplexních) náhodných veličin nad týmž pravděpodobnostním prostorem (Cl,A,P), které mají konečné druhé momenty (resp. rozptyly - viz dále 1.11), tj. L2{£l,A,P) :={X\X náhodná veličina nad (ti,A,P), E|X|2 < oo}.
Poznamenejme, že do tohoto prostoru zahrnujeme také všechny konstanty z C, které považujeme za náhodné veličiny s nulovým rozptylem.
Věta 1.8. Ĺ2(£l,A, P) je Hilbertův prostor se skalárním součmem (X,Y) = EXY a normou \\X\\2 = s/(X^Čj=s/Ě\Xř.
Důkaz. Li2(£l,A, P) je obdobou funkcionálního prostoru L2(0) tvořeného funkcemi absolutně integro-vatelnými v kvadrátu na intervalu 3 C 1. Totiž E|X|2 = J„ |X(cj)|2 dP(uj), takže namísto s Lebes-gueovým integrálem pracujeme s obecnějším pojetím integrálu, kde Lebesgueova míra je nahrazena pravděpodobnostní mírou P:
• Skalární součin (X, Y) existuje a je konečný pro každé X, Y £ £2(í), A, P), jak snadno nahlédneme z nerovnosti
A\XY\ = {\X\ + \Y\f - {\X\ - \Y\f < (\X\ + \Y\f + {\X\ - \Y\f = 2(|X|2 + |Y|2), odkud užitím \Y\ = \Y\ dostáváme
\xy\<±(\x\2 + \y\%
takže
EXY\ <   I   \X(oj)Y(oj)\dP(oj) <
\X(oj)\2dP(oj) + /   \Y(uj)\2dP
[OJ
<  OO.
•   ^2(^1 A, P) je vektorovým prostorem. Je uzavřený na násobení skaláry c G C, neboť E|cX|2 = |c|2E|X|2 < 00. Uzavřenost vzhledem ke sčítání plyne z:
\X + Y\2 < (\X\ + \Y\)2 = \X\2 + 2\XY\ + \Y\2 => E\X + Y\2 < E\X\2 + 2E\XY\ + E|Y|2 < 00.
•   Ověření, že £2(^1 A, P) je úplný, neboli Hilbertův prostor, je složitější, ale provádí se opět zcela analogicky jako v případě funkcionálního prostoru L2(0). Podrobnosti lze nalézt například v monografii [1, §2.10].
D
Důsledek 1.9 (Schwarzova nerovnost)
\EXY\,  \EXY\ < \\X\\2\\Y\\2 = VE|^|2VE|y|2,     X,Y e L2(n,A,P
Důsledek 1.10.  X £ L2(£l,A,P)   =>   EX existuje. Důkaz.
\ex\ = \e(í.x)\ < ve\i\2 vm\2 = vm\2 < 00. 1
Důsledek 1.11.
X,Y e L2(£l,A, P)   =>  X-EX, Y -EY eL2{£l,A,P)
D
{X -EX, Y - EY) = E(X - EX) (Y - EY) = covpř, Y) existuje a splňuje Schwarzovu nerovnost
|covpř,Y)| < y/E\X -EX\2^JE\Y - EY|2 = axcrY. Důsledek 1.12.
i—^-L      pro      (Tx(Ty  ý: Ü
p(X,Y) = i        °x°r       V'J     WXWy
^               0    pro    uxay = 0
je tzv. korelační koeficient náhodných veličin X a Y, pro nějž platí \p(X,Y)\ < 1 a speciálně — 1 < p(X,Y) <1 11 případě reálných náhodných veličin X aY.
6
VÍTĚZSLAV VESELÝ
Poznámka . Náhodné veličiny X, Y £ Li2{£l,A,P) se nazývají nekorelované, jestliže p(X,Y) = 0. Vzhledem k 1.11 je nekorelovanost ekvivalentní s cov(X,Y) = 0, tj. s ortogonalitou centrovaných veličin X -~EX a Y - EY v L2{9.,A,P).
/o(X, Y) = [p(Xi,Yj)]ij je tzv. vzájemná korelační matice náhodných vektorů X a Y. /o(X,X) = [/o(-X"j, -Xj)]j j je tzv. korelační matice náhodného vektoru X.
POZOR! Nekorelovanost indikuje neexistenci stochastické závislosti pouze lineárního typu.
Tedy platí
X, Y stochasticky nezávislé =^ X, Y nekorelované, avšak nikoliv naopak:
X, Y nekorelované =£> X, Y stochasticky nezávislé.