Metody fyzické geografie 3: Biogeografie & ekologie Jan Divíšek Geografický ústav & Ústav botaniky a zoologie Metodyfyzickégeografie3:Biogeografie&ekologieJanDivíšek Ordinační metody Ordinace – z německého Ordnung – uspořádat, vytvořit pořádek Metodyfyzickégeografie3:Biogeografie&ekologieJanDivíšek Ordinace • Ekologické proměnné jsou často korelované • dvě korelované proměnné do jisté míry „říkají stejnou informaci“ – jsou redundantní • míra redundance závisí na míře korelace → ordinace agreguje soubor více či méně korelovaných proměnných do souboru vzájemně nekorelovaných ordinačních os • Vzorky jsou si vzájemně více či méně podobné hodnotami měřených proměnných → ordinace se snaží umístit objekty (vzorky) v ordinačním prostoru tak, aby jejich rozmístění podél ordinačních os reflektovalo jejich vzájemnou podobnost • Odhaluje nezávislé gradienty v datech a zjednodušuje tak jejich interpretaci • Pořádám exkurzi pro nadšené botaniky a chci, aby byla co nejzajímavější – kudy by měla vést trasa exkurze, abychom viděli co nejvíce různých společenstev a tedy co nejvíce druhů? Metodyfyzickégeografie3:Biogeografie&ekologieJanDivíšek Ordinace – princip • Každý vzorek (případ, snímek) můžeme popsat jeho pozicí v mnohorozměrném prostoru (n dimenzí) • osami tohoto prostoru jsou jednotlivé proměnné (deskriptory) • Více než 3D prostor (tj. prostor tvořený více než 3 deskriptory) je pro nás příliš složitý a neuchopitelný • Ordinační analýza se tento problém snaží řešit redukcí dimenzionality dat „sloučením“ korelovaných proměnných do menšího počtu „faktorových“ proměnných → osy ordinačního prostoru Metodyfyzickégeografie3:Biogeografie&ekologieJanDivíšek Nepřímá vs. přímá ordinace Nepřímá ordinace (unconstrained ordination) • Pouze druhová matice • Ordinační osy (unconstrained axes) = směry největší variability dat • Popis dat a generování hypotéz Přímá ordinace (constrained ordination) • Druhová matice a matice proměnných prostředí • Ordinační osy (constrained axes) = variabilita vysvětlitelná danými proměnnými • Testování hypotéz druhová matice druhy vzorky druhová matice druhy vzorky matice proměnných prostředí proměnné prostředí vzorky + Metodyfyzickégeografie3:Biogeografie&ekologieJanDivíšek Ordinační diagram Lineární metoda Unimodální metoda Nepřímá ordinace Přímá ordinace Lepš & Šmilauer (2003) Metodyfyzickégeografie3:Biogeografie&ekologieJanDivíšek Ordinační diagram – konvence v ekologii • Zobrazení vzorků • Body • Zobrazení druhů • Šipky v lineárních metodách • Body (centroidy) v unimodálních metodách • Zobrazení ordinačních os • Vodorovná osa je vždy vyššího řádu (první) • Typ ordinačního diagramu • Scatterplot – 1 typ dat (vzorky nebo druhy) • Biplot – 2 typy dat (např. vzorky a druhy) • Triplot – 3 typy dat (např. vzorky, druhy a proměnné prostření v přímé orndinaci) Metodyfyzickégeografie3:Biogeografie&ekologieJanDivíšek Vizualizace ordinací Bray & Curtis (1957) Metodyfyzickégeografie3:Biogeografie&ekologieJanDivíšek Přehled metod ordinační analýzy raw-data-based (založené na primárních datech) transformation- based (založené na transformovaných primárních datech) distance-based (založené na distanční matici)linear (lineární) unimodal (unimodální) unconstrained (nepřímé) PCA (analýza hlavních komponent) CA, DCA (korespondenční a detrendovaná korespondenční analýza) tb-PCA (analýza hlavních komponent na transformovaných primárních datech) PCoA (analýza hlavních koordinát) NMDS (nemetrické mnohorozměrné škálování) constrained (přímé) RDA (redundanční analýza) CCA (kanonická korespondenční analýza) tb-RDA (redundanční analýza na transformovaných primárních datech) db-RDA (redundanční analýza založená na distanční matici) Metodyfyzickégeografie3:Biogeografie&ekologieJanDivíšek Nepřímá ordinační analýza raw-data-based (založené na primárních datech) transformation- based (založené na transformovaných primárních datech) distance-based (založené na distanční matici)linear (lineární) unimodal (unimodální) unconstrained (nepřímé) PCA (analýza hlavních komponent) CA, DCA (korespondenční a detrendovaná korespondenční analýza) tb-PCA (analýza hlavních komponent na transformovaných primárních datech) PCoA (analýza hlavních koordinát) NMDS (nemetrické mnohorozměrné škálování) constrained (přímé) RDA (redundanční analýza) CCA (kanonická korespondenční analýza) tb-RDA (redundanční analýza na transformovaných primárních datech) db-RDA (redundanční analýza založená na distanční matici) Metodyfyzickégeografie3:Biogeografie&ekologieJanDivíšek PCA (Principal Component Analysis; analýza hlavních komponent) • Vstupem je tabulka vzorků (řádky) a proměnných (sloupce) • Pokud dělám PCA na druhových datech, která předem transformuji (např. Hellingerovou transformací) → tb-PCA • Datový soubor by měl mít více vzorků než proměnných • Snaží se najít hlavní gradienty v datech (hlavní komponenty, dimenze), které zahrnují větší podíl variability než připadá na původní proměnné • Proměnné (deskriptory, sloupce) se zobrazují jako vektory a vzorky (řádky) jako body Data z rašelinišť - Jiroušek (2008). Diplomová práce -1.0 -0.5 0.0 0.5 1.0 1.5 2.0 -1.5 -1.0 -0.5 0.0 0.5 1.0 Environmentální data z rašelinišť ČR a Slovenska PC1 PC2 LATITUDE LONGITUDE ALTITUDE TEMP_JULY TEMP_JAN TEMP PREC depN N P K Horní Blatná Velký močál Malé jeřábí jezero U Přebuze Nad Rýžovnou Jahodová louka Čihadla Klečová louka Tetřeví louka Jizerka - jihJizerka - sever Černohorské r.Jelení lázeň U Kunštátské kaple Topielisko U Milíře Pod Sušinou Pod K. Sněžníkem Trojmezí B Pod Vozkou Slatě za Švýcárnou Barborka Velký Máj Mútňanská píla Piekielnik Klin Suchá hora rda {vegan} nebo pca {labdsv} nebo prcomp () Metodyfyzickégeografie3:Biogeografie&ekologieJanDivíšek PCA – princip výpočtu var1 var2 samp1 2 1 samp2 3 4 samp3 5 0 samp4 7 6 samp5 9 2 var1 var2 samp1 samp3 samp2 samp4 samp5 centroid v n- dimenzionálním prostoru (počet dimenzí = počtu proměnných) a) rozmístění vzorků v prostoru definovaném proměnnými b) výpočet těžiště shluku c) centrování os d) rotace os Metodyfyzickégeografie3:Biogeografie&ekologieJanDivíšek Výsledek PCA v R (vegan) Call: rda(X = scale(env.ras)) Inertia Rank Total 11 Unconstrained 11 11 Inertia is variance Eigenvalues for unconstrained axes: PC1 PC2 PC3 PC4 PC5 PC6 PC7 PC8 PC9 PC10 PC11 3.847 3.439 2.027 0.937 0.259 0.230 0.117 0.058 0.045 0.032 0.010 Charakteristická (vlastní) čísla pro jednotlivé osy PCA. Τeigenvalue total inertia = variabilita vysvětlená danou osou Celkový rozptyl dat Rozptyl dat vysvětlený neomezenými osami 27 rašelinišť, 11 environmentálních proměnných -1.0 -0.5 0.0 0.5 1.0 1.5 2.0 -1.5 -1.0 -0.5 0.0 0.5 1.0 Environmentální data z rašelinišť ČR a Slovenska PC1 PC2 LATITUDE LONGITUDE ALTITUDE TEMP_JULY TEMP_JAN TEMP PREC depN N P K Horní Blatná Velký močál Malé jeřábí jezero U Přebuze Nad Rýžovnou Jahodová louka Čihadla Klečová louka Tetřeví louka Jizerka - jihJizerka - sever Černohorské r.Jelení lázeň U Kunštátské kaple Topielisko U Milíře Pod Sušinou Pod K. Sněžníkem Trojmezí B Pod Vozkou Slatě za Švýcárnou Barborka Velký Máj Mútňanská píla Piekielnik Klin Suchá hora Data z rašelinišť - Jiroušek (2008). Diplomová práce Metodyfyzickégeografie3:Biogeografie&ekologieJanDivíšek Které osy PCA jsou důležité? PC1 PC2 PC3 PC4 PC5 PC6 PC7 PC8 PC9 PC10 PC11 PCA axis eigenvalue 0 1 2 3 4 Average eigenvalue Data z rašelinišť - Jiroušek (2008). Diplomová práce Metodyfyzickégeografie3:Biogeografie&ekologieJanDivíšek Které osy PCA jsou důležité? 1 2 3 4 5 6 7 8 9 10 11 PCA axis explainedvariation[%] 0 10 20 30 40 PCA Broken-stick 1 2 3 4 5 6 eigenvalue 3.847153 3.439119 2.026698 0.9370375 0.2591531 0.2297798 percentage of variance 34.974120 31.264717 18.424530 8.5185231 2.3559372 2.0889069 cumulative percentage of variance 34.974120 66.238837 84.663367 93.1818902 95.5378274 97.6267344 broken-stick percentage 27.453430 18.362521 13.817067 10.7867637 8.5140365 6.6958547 broken-stick cumulative % 27.453430 45.815952 59.633018 70.4197822 78.9338187 85.6296734 % > bs% 1.000000 1.000000 1.000000 0.0000000 0.0000000 0.0000000 cum% > bs cum% 1.000000 1.000000 1.000000 1.0000000 1.0000000 1.0000000 Data z rašelinišť - Jiroušek (2008). Diplomová práce Metodyfyzickégeografie3:Biogeografie&ekologieJanDivíšek Broken-stick model hůl 010203040 hůl se po pádu na zem rozpadne na 6 různě dlouhých částí PCAsignificance {BiodiversityR} Metodyfyzickégeografie3:Biogeografie&ekologieJanDivíšek Metody nepřímé ordinace založené na distanční matici raw-data-based (založené na primárních datech) transformation- based (založené na transformovaných primárních datech) distance-based (založené na distanční matici)linear (lineární) unimodal (unimodální) unconstrained (nepřímé) PCA (analýza hlavních komponent) CA, DCA (korespondenční a detrendovaná korespondenční analýza) tb-PCA (analýza hlavních komponent na transformovaných primárních datech) PCoA (analýza hlavních koordinát) NMDS (nemetrické mnohorozměrné škálování) constrained (přímé) RDA (redundanční analýza) CCA (kanonická korespondenční analýza) tb-RDA (redundanční analýza na transformovaných primárních datech) db-RDA (redundanční analýza založená na distanční matici) Metodyfyzickégeografie3:Biogeografie&ekologieJanDivíšek PCoA (Principal Coordiante Analysis, analýza hlavních koordinát) • Synonymem pro PCoA je MDS – Metric Dimensional Scaling • Vstupem je matice vzdáleností (nepodobností) vzorků • Pokud zvolím Euklidovskou vzdálenost → identické s PCA • Pokud zvolím chi-square vzdálenost → obdoba korespondenční analýzy (CA) • Umístí objekty na základě jejich vzdáleností (distancí) do Euklidovského prostoru (tvořeného souřadnicemi – skóre vzorků na osách) • Použití nemetrických distancí může způsobit výskyt os ze zápornou hodnotou eigenvalue → korekce matice vzdáleností cmdscale {vegan} pcoa {ade4} Metodyfyzickégeografie3:Biogeografie&ekologieJanDivíšek PCoA – evropská města -1e+06 -5e+05 0e+00 5e+05 1e+06 -5e+050e+005e+05 European Cities PCoA Axis 1 PCoAAxis2 Vilnius Minsk Berlin Amsterdam Warsaw Kiev PrahaLuxembourg Bratislava BudapestVaduz Kishinev Bern LjubljanaZagreb Beograd Bucuresti Vienna Bruxelles Matice vzdáleností Souřadnice měst Metodyfyzickégeografie3:Biogeografie&ekologieJanDivíšek PCoA – společenstva terestrických obratlovců ČR Divíšek et al. (2016) Folia Zoologica Metodyfyzickégeografie3:Biogeografie&ekologieJanDivíšek NMDS (Non-metric Multidimensional Scaling, nemetrické mnohorozměrné škálování) • Nemetrická varianta PCoA (nepracuje přímo s distancemi mezi vzorky, ale s jejich pořadím) • Vstupem je matice vzdáleností (nepodobností) vzorků • jakýkoliv index nepodobnosti • Iterativní algoritmus, který nemusí pokaždé dojít ke stejnému výsledku (lokální optima) • Nutno určit počet dimenzí, se kterými bude metoda pracovat • Při větším množství dat VELMI časově náročná • Na rozdíl od PCoA optimalizuje výsledné vzdálenosti mezi vzorky do několika málo (dvě – tři) dimenzí metaMDS {vegan} Metodyfyzickégeografie3:Biogeografie&ekologieJanDivíšek NMDS (Non-metric Multidimensional Scaling, nemetrické mnohorozměrné škálování) náhodné rozmístění vzorků v prostoru rozmístění vzorků v prostoru respektuje jejich nepodobnost Metodyfyzickégeografie3:Biogeografie&ekologieJanDivíšek NMDS – evaluace Call: metaMDS(comm = beta.j, k = 2) global Multidimensional Scaling using monoMDS Data: beta.j Distance: jaccard Dimensions: 2 Stress: 0.1843335 Stress type 1, weak ties Two convergent solutions found after 2 tries Scaling: centring, PC rotation Species: scores missing Podle Clarke & Warwicka (2001) pro stress value přibližně platí: < 0.05 – vynikající < 0.1 – výborný < 0.2 – dobrý > 0.3 – špatný Shepardův diagram stressplot {vegan} 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.51.01.52.02.5 Observed Dissimilarity OrdinationDistance Non-metric fit, R 2 0.966 Linear fit, R 2 0.809 Metodyfyzickégeografie3:Biogeografie&ekologieJanDivíšek NMDS vegetačních snímků z biokoridorů Večeřa (2012). Bakalářská práce Metodyfyzickégeografie3:Biogeografie&ekologieJanDivíšek Podobnost společenstev savců Kreft & Jetz (2010) Metodyfyzickégeografie3:Biogeografie&ekologieJanDivíšek Tři alternativní přístupy k nepřímé ordinaci (a) Klasický přístup (b) Transformace dat (např. Hellingerova) (tb-PCA) (c) Přes matici nepodobností (PCoA, NMDS) Legendre & Legendre (2012) Metodyfyzickégeografie3:Biogeografie&ekologieJanDivíšek Proměnné prostředí v nepřímé ordinaci Metodyfyzickégeografie3:Biogeografie&ekologieJanDivíšek Dva alternativní přístupy k použití vysvětlujících proměnných v ordinaci Legendre & Legendre (2012) matice: Y – druhové složení X – proměnné prostředí oba přístupy jsou relevantní a navzájem se doplňují! vzorky vzorkyvzorky druhy druhy ordinační osy vzorky proměnné prostředí proměnné prostředí přímé srovnání přímá ordinace korelace, regrese nepřímé srovnání Přímá ordinace Pasivní „nafitování“ vysvětlujících proměnných do nepřímé ordinace Metodyfyzickégeografie3:Biogeografie&ekologieJanDivíšek Pasivní proměnné prostředí v nepřímé ordinaci • Pasivně promítnuté proměnné prostředí v nepřímé ordinaci – korelace (regrese) s ordinačními osami Metodyfyzickégeografie3:Biogeografie&ekologieJanDivíšek Korelace (regrese) ordinačních os s proměnnými prostředí spe1 spe2 spe3 spe4 ... sam1 ... sam2 ... sam3 ... sam4 ... ... ... ... ... matice druhových dat PCA1 PCA2 sam1 sam2 sam3 sam4 ... ... ... skóre vzorků na první a druhé ose PCA PCA PH SOILDPT sam1 sam2 sam3 sam4 ... ... ... proměnné prostředí korelace PH SOILDPT PCA 1 r1 r3 PCA 2 r2 r4 ordinační diagram PCA vztah proměnných prostředí (vektory) a ordinačních os r1 r2 PCA1 PCA2 korelace proměnných prostředí a ordinačních os Metodyfyzickégeografie3:Biogeografie&ekologieJanDivíšek Korelace (regrese) ordinačních os s proměnnými prostředí Korelace mezi proměnnou prostředí a skóre vzorků na ordinačních osách • Pouze v ordinacích kde jsou skóre vzorků standardizované na jednotkovou varianci (PCA) • V ostatních ordinacích, kde se variance os od sebe liší, je třeba použít (váženou) mnohonásobnou regresi: env = 𝛼 + 𝛽1 × score1 + 𝛽2 × score2 proměnná prostředí (např. nadmořská výška) Intercept = 0 (všechny proměnné jsou centrované) Regresní koeficient Skóre vzorků na první ordinační ose Metodyfyzickégeografie3:Biogeografie&ekologieJanDivíšek Pasivní promítnutí proměnných prostředí do NMDS NMDS1 NMDS2 r2 Pr(>r) LATITUDE 0.16394 0.98647 0.6000 0.001 *** LONGITUDE -0.38731 -0.92195 0.2948 0.015 * ALTITUDE -0.77129 0.63648 0.3488 0.004 ** TEMP_JULY 0.72650 -0.68717 0.3341 0.009 ** TEMP_JAN 0.99907 0.04306 0.1121 0.246 TEMP 0.80798 -0.58921 0.2329 0.045 * PREC 0.14608 0.98927 0.3616 0.008 ** depN 0.35755 0.93389 0.3060 0.014 * N -0.89075 0.45449 0.1327 0.185 P -0.98021 -0.19794 0.5928 0.001 *** K -0.89756 -0.44088 0.4656 0.001 *** Kolik variability vysvětlí první dvě osy NMDS z celkové variability dané environmentální proměnné (udává délku vektoru v ordinačním diagramu). envfit {vegan} Statistická signifikance na základě permutačního testu. -0.4 -0.2 0.0 0.2 0.4 -0.4 -0.2 0.0 0.2 NMDS1 NMDS2 LATITUDE LONGITUDE ALTITUDE TEMP_JULY TEMP_JAN TEMP PREC depN N P K Data z rašelinišť - Jiroušek (2008). Diplomová práce Metodyfyzickégeografie3:Biogeografie&ekologieJanDivíšek Testování pasivních proměnných NMDS1 NMDS2 r2 Pr(>r) rand1 -0.39339 -0.91937 0.0029 0.960 rand2 -0.93418 0.35681 0.0676 0.452 rand3 -0.50374 -0.86386 0.0331 0.677 rand4 0.67422 0.73853 0.0694 0.430 rand5 -0.16224 0.98675 0.1182 0.217 rand6 -0.48448 -0.87480 0.0071 0.925 rand7 0.97918 -0.20301 0.0307 0.699 rand8 -0.76753 0.64102 0.0553 0.478 rand9 0.77265 -0.63483 0.0241 0.727 rand10 -0.71217 -0.70200 0.1887 0.076 . rand11 0.15929 -0.98723 0.1011 0.257 NMDS1 NMDS2 r2 Pr(>r) LATITUDE 0.16394 0.98647 0.6000 0.001 *** LONGITUDE -0.38731 -0.92195 0.2948 0.015 * ALTITUDE -0.77129 0.63648 0.3488 0.004 ** TEMP_JULY 0.72650 -0.68717 0.3341 0.009 ** TEMP_JAN 0.99907 0.04306 0.1121 0.246 TEMP 0.80798 -0.58921 0.2329 0.045 * PREC 0.14608 0.98927 0.3616 0.008 ** depN 0.35755 0.93389 0.3060 0.014 * N -0.89075 0.45449 0.1327 0.185 P -0.98021 -0.19794 0.5928 0.001 *** K -0.89756 -0.44088 0.4656 0.001 *** -0.4 -0.2 0.0 0.2 0.4 -0.4 -0.2 0.0 0.2 NMDS1 NMDS2 LATITUDE LONGITUDE ALTITUDE TEMP_JULY TEMP_JAN TEMP PREC depN N P K -0.4 -0.2 0.0 0.2 0.4 -0.4 -0.2 0.0 0.2 NMDS1 NMDS2 rand1 rand2 rand3 rand4 rand5 rand6 rand7 rand8 rand9 rand10 rand11 Datazrašelinišť-Jiroušek(2008).Diplomovápráce Metodyfyzickégeografie3:Biogeografie&ekologieJanDivíšek Další možnost pasivního promítnutí proměnných • Nelineární vztah zobrazený jako „vrstevnice“ vrstevnicejsouvýsledkemGAMmodelu ordisurf {vegan} -0.4 -0.2 0.0 0.2 0.4 -0.4 -0.2 0.0 0.2 NMDS1 NMDS2 Number of species 16 17 18 19 20 21 21 22 22 23 -0.4 -0.2 0.0 0.2 0.4 -0.4 -0.2 0.0 0.2 NMDS1 NMDS2 Altitude 700 750 800 850 900 900 900 950 950 9501000 1000 1000 1050 1050 1100 1150 1200 1250 Data z rašelinišť - Jiroušek (2008). Diplomová práce Metodyfyzickégeografie3:Biogeografie&ekologieJanDivíšek Literatura • Legendre, P. & Legendre, L. (2012): Numerical ecology. Third Edition. Elsevier, Amsterdam. • Borcard, D., Gillet, F. & Legendre, P. (2011): Numerical ecology with R. Springer, New York. • Haruštiaková, D., Jarkovský, J., Littnerová, S. & Dušek, L. (2012): Vícerozměrné statistické metody v biologii. Akademické nakladatelství CERM, s.r.o., Brno.