Metody fyzické geografie 3: Biogeografie & ekologie Jan Divíšek Geografický ústav & Ústav botaniky a zoologie Metodyfyzickégeografie3:Biogeografie&ekologieJanDivíšek Explorativní analýza, transformace a standardizace dat Metodyfyzickégeografie3:Biogeografie&ekologieJanDivíšek Data v biogeografii a ekologii • Vysvětlovaná proměnná (Dependent variable(s)) • Distribuce druhů (přítomnost/nepřítomnost), abundance, složení společenstva, vlastnosti druhů atp. • společenstvo je typicky sledováno na určité ploše (v případě rostlin a některých málo mobilních živočichů) nebo např. inventarizací jedinců (např. ulovených v pastech v případě mobilních živočichů) • složení živého společenstva je popsáno přítomností jednotlivých druhů daného typu organismů, na jedné ploše (v jedné pasti) se většinou vyskytuje více než jeden druh • Vysvětlující proměnná (Explanatory variable(s)) • Environmentální faktory, vzdálenosti, fylogenetická podobnost atp. • Prostředí je popisováno jednou nebo více proměnnými, o kterých se předpokládá, že ovlivňují studovaný typ organismů • Jednorozměrná data (univariate data) • pouze jedna proměnná, např. počet druhů • Vícerozměrná data (multivariate data) • matice dat (data matrix), např. lokality × druhy Metodyfyzickégeografie3:Biogeografie&ekologieJanDivíšek Typy proměnných Typ proměnné Příklady binární (dvoustavový, presence-absence) přítomnost nebo absence druhu mnohostavový neseřazený geologický substrát seřazený semikvantitativní (ordinální) stupnice pokryvností druhy kvantitativní (měření) diskontinuální (počty, diskrétní) počet jedinců kontinuální teplota, hloubka půdy Legendre & Legendre (1998) Metodyfyzickégeografie3:Biogeografie&ekologieJanDivíšek Explorační analýza dat (exploratory data analysis, EDA) • průzkum dat – kontrola a čištění • chyby (errors) • někdy se chovají jako odlehlé body, je třeba zkontrolovat původní záznam a případně data z analýzy odstranit • chybějící data (missing data, NA) • možnosti jejich nahrazení (interpolace, model) • vyloučení proměnné nebo vzorku který má hodně chybějících hodnot • odlehlé body (outliers) • jejich detekce (outlier analysis) • hledání hypotéz, které stojí za to testovat • grafická EDA slouží k • odhalení odlehlých bodů (outlier analysis) • distribuce dat (normalita) a nutnost transformace -8 -7 -6 -5 -4 -3 -2 -1 0 1 2 3 4 XERSSW (head index) 0 10 20 30 40 50 Frequency Median 25%-75% Range Outliers-8 -6 -4 -2 0 2 4 XERSSW potenciálně chybná hodnota Metodyfyzickégeografie3:Biogeografie&ekologieJanDivíšek Krabicové grafy (boxplots) maximální hodnota Q3 – horní kvartil Q2 ─ medián Q1 – spodní kvartil spodní kvartil + 1.5 × interkvartilový rozsah minimální hodnota ─ outlier Klasický boxplot (střední hodnota = medián) Definice odlehlých bodů a extrémů (STATISTICA) boxplot() Metodyfyzickégeografie3:Biogeografie&ekologieJanDivíšek Histograms, PDF plots & Q-Q plots Histogram x Frequency -3 -2 -1 0 1 2 3 050100150200 -4 -2 0 2 4 0.00.10.20.30.4 Probability density function N = 1000 Bandwidth = 0.2285 Density hist() density() Testování normality dat: • Shapiro-Wilkův test: shapiro.test() • Kolmogorovův-Smirnovův test: ks.test() -3 -2 -1 0 1 2 3 -3-2-10123 Normal Q-Q Plot Theoretical Quantiles SampleQuantiles qqnorm() Metodyfyzickégeografie3:Biogeografie&ekologieJanDivíšek Mají data normální rozložení? variable Frequency -3 -2 -1 0 1 2 3 050100150200 variable Frequency -8 -6 -4 -2 0 2 050100150200 variable Frequency 0 2 4 6 8 10 12 0100200300400500600 -3 -2 -1 0 1 2 3 -3-2-10123 Sample quantiles Theoreticalquantiles 0 5 10 15 20 -3-2-10123 Sample quantiles Theoreticalquantiles -5 -4 -3 -2 -1 0 1 -3-2-10123 Sample quantiles Theoreticalquantiles normální rozdělení (symetrical) pozitivně (doprava) sešikmené (right skewed) negativně (doleva) sešikmené (left skewed) ekologická data jsou často zešikmená pozitivně (doprava), protože jsou omezená nulou na začátku Metodyfyzickégeografie3:Biogeografie&ekologieJanDivíšek Transformace dat • mění relativní vzdálenosti mezi jednotlivými hodnotami a tím i tvar jejich distribuce • Proč data transformovat? • parametrické testy jsou založené na předpokladu, že data mají nějaké určité (často normální) rozdělení • protože lineární vztahy se dají popsat přímkou a lépe se interpretují než vztahy nelineární • škála měření je arbitrární a nemusí odpovídat ekologickému významu proměnné (používáme desítkovou soustavu) https://en.wikipedia.org/wiki/Species-area_curve Metodyfyzickégeografie3:Biogeografie&ekologieJanDivíšek Transformace dat • Na co si dát při transformaci pozor? • aby transformace rozložení dat ještě nezhoršila a nevytvořila nové odlehlé body • abychom při komentování výsledků používali netransformované hodnoty proměnných • Typy transformace • lineární • přičtení konstanty nebo vynásobení konstantou • nemění výsledky statistického testování nulových hypotéz • např. převod teploty měřené ve stupních Celsia na stupně Fahrenheita • nelineární • log transformace, odmocninová transformace atd. • může změnit výsledky statistického testování Metodyfyzickégeografie3:Biogeografie&ekologieJanDivíšek Typy transformací • Logaritmická transformace (log transformation) • pro data s výrazně pozitivně (doprava) šikmou distribucí (right skewed), u kterých existuje vztah mezi průměrem a směrodatnou odchylkou (lognormální rozložení) Y′ = log Y případně Y′ = log 𝑎Y + 𝑐 • na základě logaritmu nezáleží (10, 2, e) • konstanta a = 1; pokud je Y z intervalu <0;1>, potom a > 1 • konstanta c se přidává, pokud proměnná Y obsahuje nuly • c může být např. 1, nebo arbitrárně zvolené malé číslo (0,001) • na konstantě c může záležet výsledek analýz (ANOVA), a proto je dobré vybírat takové číslo, aby transformovaná proměnná byla co nejvíce symetrická Histogram of x x Frequency 0 5 10 15 200200400600 Histogram of log(x) log(x) Frequency -3 -2 -1 0 1 2 3 050100150200 Metodyfyzickégeografie3:Biogeografie&ekologieJanDivíšek Typy transformací • Odmocninová transformace (square-root transformation) • vhodná pro mírně doprava zešikmená data (right skewed), např. počty druhů (Poisson distribution) • třetí a vyšší odmocnina je účinnější na více zešikmená data (čtvrtá odmocnina se používá pro abundance druhů s mnoha nulami a několika vysokými hodnotami) • Mocninná transformace (power transformation) • vhodná pro data negativně (doleva) sešikmená (left skewed) Histogram of x x Frequency 0 10 20 30 40 050100150200250300 Histogram of sqrt(x) sqrt(x) Frequency 0 1 2 3 4 5 6 050100150200 Y′ = Y Y′ = Y + 𝑐případně • konstanta c se přičítá, pokud soubor obsahuje nuly • c může být např. 0,5, nebo 3/8 (0,325) Y′ = Y 𝑝 • pokud p < 1 - odmocninová transformace (p = 0,5 – druhá odmocnina, p = 0,25 – čtvrtá odmocnina atd.) Metodyfyzickégeografie3:Biogeografie&ekologieJanDivíšek Transformace Münch. Med. Wschr. 124, 1982 Metodyfyzickégeografie3:Biogeografie&ekologieJanDivíšek Další transformace • Transformace pomocí arcsin (angular transformation) • vhodná pro procentické hodnoty (a obecně podíly) • Reciproká transformace (reciprocal transformation) • vhodná pro poměry (například výška/hmotnost, počet dětí v populaci na počet žen atd.) • Box-Cox transformace (zobecněná mocninná transformace) Y′ = sin Y Y′ = sin Ypřípadně • použitelná pro hodnoty v intervalu <-1; 1> • transformované hodnoty jsou v radiánech Y′ = 1/ Y • zobecněná parametrická transformace • iterativní hledání parametru λ (lambda), pro které je rozdělení transformované proměnné nejblíže normálnímu rozdělení • používá se v případě, že nemáme a priori představu, jakou transformaci použít Metodyfyzickégeografie3:Biogeografie&ekologieJanDivíšek Standardizace dat • vyrovnává rozdíly v relativním významu (váze) jednotlivých ekologických proměnných (měřené na různých škálách), druhů nebo vzorků • mění data pomocí statistiky, která je spočtená na datech samotných, např. průměr, součet, rozsah aj. (data dependent) • ve své podstatě je to další typ transformace Metodyfyzickégeografie3:Biogeografie&ekologieJanDivíšek Standardizace dat • Centrování (centring) • výsledná proměnná má průměr roven nule • Standardizace v úzkém slova smyslu • výsledná proměnná má průměr roven nule a směrodatnou odchylku rovnu jedné • „synchronizuje” proměnné měřené v různých jednotkách a na různých stupnicích • Změna rozsahu hodnot (ranging) • výsledná proměnná je v relativních hodnotách nebo v rozsahu [0, 1] Y′𝑖 = Y𝑖 − průměr (Y) Y′𝑖 = (Y𝑖−průměr (Y))/směrodatná odchylka (Y) Y′𝑖 = ΤY𝑖 Y 𝑚𝑎𝑥 Y′𝑖 = (Y𝑖−Y 𝑚𝑖𝑛)/(Y 𝑚𝑎𝑥−Y 𝑚𝑖𝑛)nebo Metodyfyzickégeografie3:Biogeografie&ekologieJanDivíšek Kódování dat • Dummy variables • metoda, jak převést kvalitativní (kategoriální) proměnnou na kvantitativní (binární) proměnné použitelné v analýzách • pokud má kategoriální proměnná n stavů (hodnot), pro její vyjádření stačí n-1 dummy proměnných (jedna z proměnných je vždy lineárně závislá na ostatních) • dummy{dummies} hodnoty dummy proměnné KAMB LITO RANK FLUVI kambizem 1 0 0 0 litozem 0 1 0 0 ranker 0 0 1 0 fluvizem 0 0 0 1 Metodyfyzickégeografie3:Biogeografie&ekologieJanDivíšek Kódování dat • např. nahrazení kódů u alfa-numerických stupnic, např. Braun-Blanquetovy stupnice dominance-abundance Braun-Blanquetova stupnice: r + 1 2 3 4 5 ordinální hodnoty: 1 2 3 4 5 6 7 střední hodnoty procent: 1 2 3 13 38 63 88 Metodyfyzickégeografie3:Biogeografie&ekologieJanDivíšek Literatura • Legendre, P. & Legendre, L. (2012): Numerical ecology. Third Edition. Elsevier, Amsterdam. • Borcard, D., Gillet, F. & Legendre, P. (2011): Numerical ecology with R. Springer, New York.