1 Metody v klimatologii II. Využití vícerozměrných metod, PCA, EOF Metody vícerozměrné analýzy • Velké datové soubory • Redundantní informace • Stochastický charakter studovaných procesů • Signál je často překryt šumovou složkou Hlavní cíle • Redukovat množství dat (separovat klimatický signál od přirozené variability resp. od šumu) • Detekovat strukturu vztahů mezi proměnnými (klasifikovat, vytvořit typologii dat) • Identifikovat fyzikální procesy, které generují klimatický signál Vícerozměrné metody nabízí užitečný způsob, jak si zorganizovat data Vícerozměrné metody často dokáží prezentovat časovou a prostorovou variabilitu klimatických dat v přehledné (snáze interpretovatelné) podobě 2 Metody vícerozměrné analýzy • Vícerozměrné metody umožňují v datech identifikovat hlavní vzory (módy) variability klimatu (NAO, ENSO, …) Metody vícerozměrné analýzy • Princip na příkladu jednorozměrných dat • Např. časovou řadu o délce N členů lze vyjádřit jako její průměr plus N-1 funkcí sin a cos s různou amplitudou a frekvencí • Fourierova analýza • Koeficienty (a, b) značí zastoupení dané složky v původní řadě ... 6 cos 6 sin 4 cos 4 sin 2 cos 2 sin 332211 +⋅+⋅+⋅+⋅+⋅+⋅= t T bt T at T bt T at T bt T ayt ππππππ • Abychom popsali z původní řady to podstatné, nemusíme použít všech N-1 funkcí. • Nejvíce zastoupené („nejdůležitější“) složky prozradí typické chování v čase (např. cyklické chování). 3 Analýza hlavních komponent Principal Component Analysis (PCA) Příklad využití PCA v obrazové analýze PC1 75.6% PC2 22.8% PC3 1.1% PC4 0.3% PC5 0.1% PC6 0.04% 4 Analýza hlavních komponent Číslo Vlastní Procenta Kumulov. PC čísla rozptylu procenta TM1 TM2 TM3 TM4 TM5 TM7 1 2262,96 75,62 75,62 0,243 0,181 0,346 0,230 0,728 0,454 2 682,34 22,80 98,42 0,115 0,050 0,229 -0,936 -0,012 0,237 3 33,80 1,13 99,55 0,553 0,323 0,513 0,201 -0,531 -0,064 4 7,79 0,26 99,81 -0,264 -0,141 -0,037 0,168 -0,432 0,833 5 4,54 0,15 99,96 0,712 -0,102 -0,668 -0,034 0,000 0,186 6 1,21 0,04 100,00 -0,212 0,911 -0,343 -0,044 -0,022 0,069 Zátěže 7655443322111 TMaTMaTMaTMaTMaTMaPC +++++= 7655443322112 TMbTMbTMbTMbTMbTMbPC +++++= … eigenvalue = vlastní číslo eigenvector = vlastní vektor zátěž = loading Nové proměnné jsou vypočteny jako lineární kombinace původních proměnných Příklad využití PCA v klimatologii SLP patterns of winter windstorms • 98 cases of winter windstorms from the 20th century • 121 grided values describing MSLP patterns during windstorms • objective classification using principal components analysis Jaké jsou hlavní módy cirkulace při výskytu zimních vichřic ve střední Evropě? 5 Příklad využití PCA v klimatologii The first components of the SLP field on days D-5 to D calculated by the Principal Component Analysis (PCA) for 37 floods (1881-2000) of the winter synoptic type on the river Vltava in Prague (brackets - explained variance in %) Jaký je charakter pole přízemního tlaku vzduchu v období 5 dní před výskytem povodní na Vltavě? Empirical Orthogonal Function (EOF) Three the most similar monthly means acording to pc1 used for interpretation of EOF_1 mode. Z původní datové matice extrahuje prostorovou složku (EOF – mód prostorové variability) a časovou složku (PC – jak se EOF mění v čase). 6 Empirical Orthogonal Function Princip EOF EOF F (x,y,t) vlastní vektor vlastní číslo hlavní komponenta Původní datová matice (F) se rozkládá na časovou (PC) a prostorovou (EOF) složku. 7 • Vstupní data: spojité pole studovaného prvku („mapa“, např. tlak či teplota vzduchu) reprezentované množinou bodů (stanice či vrcholy pravidelné sítě) zaznamenané za určitý časový interval (časová řada) • EOF: metoda jako PCA, která primárně slouží ke zmenšení rozměrovosti vstupních dat bez podstatné ztráty informace • Poprvé prezentovaná Edwardem Lorenzem v roce 1956 • Hojně využívaná v klimatologii, oceánografii (v globálním či regionálním měřítku) • Cíl: kompaktní popis časové a prostorové variability studovaného prvku pomocí tzv. ortogonálních (pravoúhlých = nekorelovaných) funkcí – tzv. statistických „módů“ • Podstatná část variability je uložena v několika prvních funkcích (módech), jejichž prostorové uspořádání i časové chování může být interpretováno fyzikálně zdůvodnitelnými jevy a procesy Princip EOF EOF – vstupní data • Soubor N map pro časové okamžiky t = 1 …N • Každá mapa obsahuje měření nějaké proměnné ψ v lokalitách m= 1…M • Máme M časových řad ψm(t), každá má délku N • Předpokládáme, že N > M (počet časových kroků je větší než počet lokalit (gridových bodů) • Pokud data obsahují roční chod, je nutné jej odstranit před vlastní analýzou – odečíst průměrný roční chod od hodnot původního pole ψm(t). 8 EOF – standardizace (normalizace) dat Původní data ψm(t) upravíme tak, že od nich odečteme průměr a výsledek dělíme směrodatnou odchylkou: Tím zajistíme, že žádná z lokalit nedominuje svojí variabilitou a můžeme též kombinovat různé proměnné EOF – vstupní datová matice Na počátku máme matici F o rozměru M řádků (stanice, gridové body) a N sloupců (délka časové řady): 9 Výpočet EOF • Výpočet matice kovariancí a její rozklad na vlastní (charakteristická) čísla a vlastní (charakteristické) vektory • Singulární rozklad matice (SVD - Singular Value Decomposition) Dva základní přístupy, v obou případech se jedná o maticový počet (rozklad matice): • Vlastní vektory definují směr nových faktorových os v prostoru původních proměnných a jsou navzájem ortogonální – tj. nezávislé – tedy každý nese unikátní informaci • Vlastní čísla informují o variabilitě vyčerpané vytvářenými faktorovými osami. Představují rozptyl „nové“ proměnné definované v souřadném systému vlastních vektorů Geometrická interpretace vlastních čísel a vlastních vektorů Possible configuration of the data vectors fn (n = 1 … N denote the time steps) and the empirical orthogonal vectors em, m = 1 … M. (from Peixoto and Oort, 1992) 10 Příklad analýzy EOF Hlavní módy variability pole povrchové teploty oceánu (SST) v létě (JJA) v oblasti centrálního Pacifiku, vstupní data: 1982-now: 1° NOAA ("Reynolds") OI v2 SST První tři hlavní módy variability pole povrchové teploty oceánu (SST) 34,17% 16,5% 13,3% Příklad analýzy EOF 11 EOF1 (34.2 %), její časová složka (PC1) a korelace s NINO4 korelace SST vs. NINO4 klouzavé korelace PC1 NINO4 Příklad analýzy EOF Map showing surface pressure anomaly pattern of the Arctic Oscillation in its positive phase, using the statistical technique of unrotated principal components analysis, which is another way to define typical preferred anomaly patterns. The units are height (meters) of the 1000mb pressure surface. Image credit: NOAA Climate Prediction Center. https://iri.columbia.edu/news/other-climate-patterns-that-impact-u-s-winter-climate/ Příklad analýzy EOF 12 Počet významných módů • Cíl redukce dat je důležitější než fyzikální interpretace módů • Snažíme se především separovat signál od šumové složky • Existuje několik metody určení počtu významných módů: • Tzv. sutinový graf (scree plot) • Vlastní čísla > 1 (Guttmanovo kritérium) • Módy s vlastními čísly, která jsou větší než průměr vlastních čísel všech módů • Módy, které v součtu vysvětlují více než 70 – 90 % celkové variability Rotované EOFs • Fyzikální interpretace je důležitější než redukce (komprese) dat • Některé módy nejsou interpretovatelné v důsledku požadavku na jejich vzájemnou ortogonalitu • Vypočtené EOF módy se následně znovu pootočí • Rotace nemusí být pravoúhlá