Statistické hodnocení biodiverzity Danka Haruštiaková, Jiří Jarkovský Institut biostatistiky a analýz, Masarykova univerzita, 2015 Program kurzu •1.10. Biodiverzita jako pojem + Biodiverzita a biostatistika •8.10. Data pro analýzu biodiverzity a jejich vizualizace •15.10. Indexy diverzity a jejich statistická spolehlivost •22.10. Species-abundance křivky a stochastické modely •5.11. Niche-oriented species - abundance modely •12.11. Metody hodnocení β diverzity – podobnost společenstev •19.11. Metody hodnocení β diverzity – metody shlukové analýzy •26.11. Metody hodnocení β diverzity – ordinační metody •3.12. Metody hodnocení β diverzity – kanonické ordinační metody •10.12. Případová studie: Ptačí společenstva •17.12. Kolokvium I. Biodiverzita jako pojem Biodiverzita ? •Dvě složky biodiverzity: I.Různorodost – počet různých organismů (kvalita) II.Relativní abundance – poměr výskytu organismů (kvantita) uMísto na Zemi è žijí zde organismy, tj. je zde biodiverzita è jak ji popsat, vysvětlit a co to znamená ? 5 Proč ? Definice biodiversity I •Mnoho definic biodiversity J •Nejjednodušší: • • •Komplexní definice: Počet druhů (druhová bohatost) (Fiedler and Jain, 1992) Biodiversity is an attribute of an area and specifically referes to the variety within and among living organisms, assemblages of living organisms, biotic communities, and biotic processes, whether naturally occurring or modified by humans. Biodiversity can be measured in terms of genetic diversity and the identity and number of different types of species, assemblages of species, biotic communities and biotic processes, and the amount (e.g., abundance, biomass, cover, rate) and structure of each. It can be observed and measured at any spatial scale ranging from microsites and habitat patches to the entire biosphere (DeLong,1996) Definice biodiverzity II •Biodiverzita je odrazem pestrosti organismů • •V zcela nejjednodušším významu odpovídá biodiverzita počtu druhů •V složitějším významu odráží také relativní abundance taxonů, tj. strukturu společenstva • •Kromě druhového složení je možné popisovat diverzitu i na nižší nebo vyšší úrovni než je organismus •Příkladem nižší úrovně může být např. genetická diverzita druhu •Příkladem vyšší úrovně jsou např. ekologické skupiny organismů • •V celkovém důsledku ji lze definovat jako komplexní pohled (taxonomický, ekologický, genetický) na složení společenstva organismů Jedinci, populace a společenstva •Teoretickou minimální jednotkou v ekologii je jedinec druhu Typy biodiverzity •Na biodiverzitu můžeme nahlížet z různých pohledů: •Taxonomická diverzita – výskyt a četnost jedinců druhů nebo jiných taxonomických jednotek • •Genetická – výskyt různých kombinací alel v populacích organismů • • •Ekologická/funkční – funkce, kterou organismy vykonávají v rámci společenstva (predátor, parazit, dekompozitor, sesilní mobilní organismy atd.) • • •Fyziologická/biochemická diverzita – způsoby a biochemické dráhy používané organismy k zpracování substrátu Různorodost organismů (kvalita) •Určení minimální kvalitativní jednotky odpovídá typu biodiverzity, kterou chceme postihnout uPoužití různých typů rozdělení organismů poskytuje různé pohledy na složení a typ jejich společenstva, proto je vhodné použít při hodnocení více možností kvalitativního přístupu uV případě některých organismů lze použít pouze určité přístupy k jejich biodiverzitě (např. z důvodu nedostatku informací nebo nemožnosti některých postupů) Kvantita organismů •Kvantita organismů může být měřena různými způsoby uRůzné způsoby měření mají použití pro určité typy organismů nebo za určitých situací uKvantita organismů odráží obsazení prostředí organismy – lze analyzovat vzhledem k parametrům a historii daného prostředí Problémy s biodiverzitou – co znamená větší diverzitu ? ? Biodiverzita v současné biologii a environmentálních vědách Biodiverzita je jedním z klíčových konceptů v biologii, který je definován na více úrovních … Geny Jedinci Populace Druhy Společenstva Ekosystémy … a velice vhodný pro bioindikaci Vlyvy trvalé expozice Následek expozice nízkými dávkami Následek vztahů ve společestvu Vlyvy minulosti Biodiverzita nese velice užitečnou informaci i v případě, kdy „krátkodobé“ metody zlyhají (biotesty, chemické analýzy) TLY1 getpic strom3 Buňka Organismus Společenstvo Koncept biodiverzity využitelný na všech úrovních živé přírody strimy2 Populace Biodiverzita jako jedno z nejkomplexnějších a integrujících měření živé přírody Časová fluktuace Prostorová heterogenita Přirozený stresový faktor VÝHODY NEVÝHODY Dlouhá „paměť“ Interpretace na úrovni ekosystému Vztah k fungování a stabilitě ekosystému End-point s evolučním pozadím Diverzita = variabilita: mnoho maskujících efektů Časovo náročné měření Dlouhodobá reprezentativní data potřebná pro srovnávání Závislé na expertech (taxonomisté, …) Problém s reprezentativním vzorkováním Biologická společenstva jako typický endpoint na úrovni ekosystému ? Biologická společenstva jako typický endpoint na úrovni ekosystému NEVÝHODY Trend zjednodušit dizajn studie nebo redukovat počet hodnocených druhů NÁSLEDKY V BIOMONITORINGU Hledání indikačních druhů složek společenstev, citlivých na stres Diverzita = variabilita: mnoho maskujících efektů Časovo náročné měření Dlouhodobá reprezentativní data potřebná pro srovnávání Závislé na expertech (taxonomisté, …) Problém s reprezentativním vzorkováním Objektivní stratifikace společenstev silně snižuje velikost vzorku ! Biodiverzita jako end-point v environmentálních studiích One site Component community level Species Abundance Individual Infracommunity level Species Abundance reka1 U cesty - větší formát Jako estetickou přírodu Pořadí druhů Graf druhy-pořadí Jako parametricky standardizovaný endpoin Počet jedinců Kumulativní abundance druhů Log (počet jedinců) Jak kvantifikovat a interpretovat komplexně hodnocený endpoint Profil abundance druhů jako standardní výstup Pořadí druhu 1 1 5 5 4 3 2 • Indikační druhy • Druhové bohatství • Dominance • Indexy diverzity • Stochastické indexy •Profil abundance druhů 2 2 3 5 4 Úroveň modelu Analytická úroveň Popisná úroveň Počet jedinců •Modelování orientované na niku • Komplexní endpointy poskytují rozsáhlý seznam možných parametrů 6 Mnohorozměrná analýza 6 6 6 Otázky v analýze dat biodiverzity Počet druhů Profil druhové početnosti Dominance Struktura společenstva Interakce druhů Časové a prostorové změny v biodiverzitě Biodiverzita a prostředí Metody analýzy biodiverzity Indexy diverzity Modely druhové početnosti Vícerozměrná analýza X II. Biodiverzita a biostatistika http://www.gside.ic.cz/Star%20Wars/Vousovy_pakarnicky/wireframe_1.jpg Vazba mezi biodiverzitou a biostatistikou? •Co má společného analýza biodiverzity s klasickou biostatistikou? • •Stejné základní principy •Vzorkování •Odhady •Testování významnosti • •Analogie mezi „klasickou“ biostatistikou a analýzou biodiverzity •Popisná statistika •Modelová rozložení •Vícerozměrná analýza • Vzorkování biodiverzity •Stejné teoretické předpoklady jako jakékoliv jiné vzorkování •Náhodné a reprezentativní vzorkování •Korektní design experimentu a opakovatelnost vzorkování Metody analýzy biodiverzity Indexy diverzity Species abundance modely Vícerozměrná analýza X Indexy diverzity: výhody a nevýhody •Indexy diverzity je možné brát jako analogii k popisné statistice • •Celé společenstvo je agregováno jediným číslem, které reprezentuje počet druhů a/nebo jejich dominanci ve společenstvu • •Pro popisnou statistiku diverzity je možné získat intervaly spolehlivosti a dostupné jsou i statistické testy • • •Výhody: •Měření diverzity v jediném čísle • •Nevýhody: •Redukce individuality taxonů •V některých případech nejasná interpretace (stejná hodnota indexu může být spočítána z velmi odlišných společenstev) • X Species abundance modely: výhody a nevýhody •Mohou být pokládány za analogii proložení statistického rozložení v klasické biostatistice • •Kvantitativní struktura biologických společenstev (profil abundance taxonů) je důsledkem ekologických procesů •Modelový profil společenstva s ekologickou interpretací může být proložen s reálným profilem společenstva • •Výhody: •Analýza zahrnuje celý profil abundance ve společenstvu •Druhy jsou zastoupeny svým pořadím abundance (jde tedy o testování hypotézy vlivu ekologických procesů na kvantitativní strukturu společenstva) • •Nevýhody: •Ne zcela ujasněná metodika prokládání pozorovaných a očekávaných profilů abundance •Nedostatek ověřených informací o ekologických hypotézách spjatých s modely profilů abundance a jejich testování Vícerozměrná analýza společenstev: výhody a nevýhody •Na data biodiverzity může být aplikována řada shlukovacích, ordinačních, regresních a klasifikačních vícerozměrných technik. • •Tyto metody hledají v rozsáhlých datech vícerozměrné vzory společenstev umožňující odpovědět na následující otázky: •Vztah druhů k prostředí •Prostorové vztahy •Interakce taxonů • •Výhody: •Shrnující výsledky postihující všechny aspekty dat •Identifikace skrytých interakcí a vztahů mezi proměnnými • •Nevýhody: •Náročné na data a metodiku •Vyžadují expertní znalosti jak v oblasti statistické metodiky, tak biologických společenstev, v opačném případě mohou vést k nesprávným závěrům a interpretacím Výzkum, realita, statistika •Výzkum je naším způsobem porozumění realitě •Ale jak přesné a pravdivé je naše porozumění? Statistika je jedním z nástrojů vnášejících do našich výsledků určitou spolehlivost. Význam variability •Naše realita je variabilní a statistika je vědou zabývající se variabilitou •Korektní analýza variabilita a její pochopení přináší užitečné informace o naší realitě •V případě deterministického světa by statistická analýza nebyla potřebná Data 2,1 2,8 3,2 1,2 5,2 2,9 Variabilita opakovaných měření rozptyl znaku, přirozená variabilita 165 cm 140 cm 182 cm 163 cm Variabilita znaku v populaci chyba = nepřesnost modelu Variabilita modelovaných dat Variabilita časových řad Variabilita ve skladbě biologických společenstev DRUH 1 DRUH 2 DRUH 3 DRUH 4 15 30 40 14 biodiverzita fluktuace, časová proměnlivost chyba y x y čas Biostatistika - různé přístupy k variabilitě Co může statistika říci o naší realitě? Možnosti Realita Vzorek Data Informace Znalost Pochopení Statistika Statistika je nasazena v procesu získání informací z vzorkovaných dat a je podporou v získání naší znalosti a pochopení problému. Statistika není schopna činit závěry o jevech neobsažených v našem vzorku. Statistika není náhradou naší inteligence !!! Cílová populace •Cílová populace – klíčový pojem statistického zpracování •Skupina objektů o nichž se chceme něco dozvědět (např. pacienti s danou diagnózou, všichni lidé nad 60 let, měření hemoglobinu v dané laboratoři) •Musí být definována ještě před zahájením sběru dat •Na cílové populaci probíhá vzorkování dat, které musí cílovou populaci dobře (reprezentativně) charakterizovat Cílová populace Klíčové faktory cílové populace Design experimentu a vzorkovací plán Vzorkování a analýza dat Statistika a zobecnění výsledků •Cílem analýzy není pouhý popis a analýza vzorku, ale zobecnění výsledků ze vzorku na jeho cílovou populaci •Pokud vzorek nereprezentuje cílovou populaci, vede zobecnění k chybným závěrům Neznámá cílová populace X, Y, Z Díky zobecnění výsledků známe vlastnosti cílové populace Vzorek Analýza Representativnost: struktura vzorku musí maximálně reflektovat realitu Nezávislost: několikanásobné vzorkování téhož objektu nepřináší ze statistického hlediska žádnou novou informaci Vzorkování a jeho význam ve statistice •Statistika hovoří o realitě prostřednictvím vzorku!!! •Statistické předpoklady korektního vzorkování Velikost vzorku a přesnost statistických výstupů Existuje skutečné rozložení a skutečný průměr měřené proměnné Z jednoho měření nezjistíme nic Vzorek: ????? Vzorek určité velikosti poskytuje odhad reálné hodnoty s definovanou spolehlivostí Vzorek: Odhad průměru atd. Vzorkování všech existujících objektů poskytne skutečnou hodnotu dané popisné statistiky, nicméně tento přístup je ve většině případech nereálný. VÝSLEDKY cílová populace výběr dle optimálního plánu reprezentativní vzorek n jedinců (faktor F) měření znaku variabilita hodnot ve výběrovém souboru ? Účel analýzy: Popisný … analyzovaný znak cílové populace (X) … jiný významný faktor charakterizující cílovou populaci (F) Reprezentativnost Přesnost Spolehlivost ? Experimentální design: nezbytná výbava biologa VÝSLEDKY cílová populace výběr subjektů pro vstup do hodnocení / studie RANDOMIZACE vzájemně srovnatelné vzorky (faktor F) měření znaku X variabilita hodnot X v rameni A ? Účel analýzy: Srovnávací (2 ramena) … analyzovaný znak cílové populace (X) … jiný významný faktor charakterizující cílovou populaci (F) variabilita hodnot X v rameni B rameno A rameno B Srovnatelnost Přesnost Spolehlivost ? Experimentální design: nezbytná výbava biologa Praktická a statistická významnost •Samotná statistická významnost nemá žádný reálný význam, je pouze měřítkem náhodnosti hodnoceného jevu •Pro vyhodnocení reálné významnosti je nezbytné znát i reálně významné hodnoty Praktická významnost ANO NE ANO OK, praktická i statistická významnost je ve shodě, jednoznačný závěr Významný výsledek je statistický artefakt velkého vzorku, prakticky nevyužitelné NE Výsledek může být pouhá náhoda, neprůkazný výsledek OK, praktická i statistická významnost je ve shodě, jednoznačný závěr JAK vznikají informace ? „Empirical approach“ „Classical approach“ Empirický postup možné jevy: čísla 1 – 6 n – počet hodů (opakování) f n n = 10 f n n = 50 f n n = ¥ U složitých stochastických systémů se pravda získá až po odvedení značného množství experimentální práce: musíme dát systému šanci se projevit JAK vznikají informace ? Empirický postup možné jevy: čísla 1 – 6 n – počet hodů (opakování) f n n = 10 f n n = 50 f n n = ¥ Při realizaci náhodného experimentu roste se zvyšujícím se počtem opakování pravdivá znalost systému (výsledky se stávají stabilnější) …. diskutabilní je ale ovšem míra zobecnění konkrétního experimentu Rozložení hodnot jako model: Normální rozložení N (m,s) j(x) m N (0,1) Tmavý šikmo nahoru j(z) 0 Tabelovaná podoba Standardizovaná forma x z z = x - m s Testy normality •Testy normality pracují s nulovou hypotézou, že není rozdíl mezi zpracovávaným rozložením a normálním rozložením. Vždy je ovšem dobré prohlédnout si i histogram, protože některé odchylky od normality, např. bimodalitu některé testy neodhalí. •Test dobré shody V testu dobré shody jsou data rozdělena do kategorií (obdobně jako při tvorbě histogramu), tyto intervaly jsou normalizovány (převedeny na normální rozložení) a podle obecných vzorců normálního rozložení jsou k nim dopočítány očekávané hodnoty v intervalech, pokud by rozložení bylo normální. Pozorované normalizované četnosti jsou poté srovnány s očekávanými četnostmi pomocí c2 testu dobré shody. Test dává dobré výsledky, ale je náročný na n, tedy množství dat, aby bylo možné vytvořit dostatečný počet tříd hodnot. •Kolgomorov Smirnov test Tento test je často používán, dokáže dobře najít odlehlé hodnoty, ale počítá spíše se symetrií hodnot než přímo s normalitou. Jde o neparametrický test pro srovnání rozdílu dvou rozložení. Je založen na zjištění rozdílu mezi reálným kumulativním rozložením (vzorek) a teoretickým kumulativním rozložením. Měl by být počítán pouze v případě, že známe průměr a směrodatnou odchylku hypotetického rozložení, pokud tyto hodnoty neznáme, měla by být použita jeho modifikace – Lilieforsův test. •Shapiro-Wilk`s test Jde o neparametrický test použitelný i při velmi malých n (10) s dobrou sílou testu, zvláště ve srovnání s alternativními typy testů, je zaměřen na testování symetrie. Rozložení Parametry Stručný popis Normální Průměr (m) Rozptyl (s2) Symetrická funkce popisující intervalovou hustotu četnosti; nejpravděpodobnější jsou průměrné hodnoty znaku v populaci. Log-normální Medián Geometrický průměr Rozptyl (s2) Funkce intervalové hustoty četnosti, která po logaritmické transformaci nabude tvaru normálního rozložení. Weibullovo a - parametr tvaru b - parametr rozsahu hodnot Změnou parametru a lze modelovat distribuci doby přežití, např. stresovaného organismu. Rozložení využívané i jako model k odhahu LC50 nebo EC50 u testů toxicity. Rovnoměrné Medián Geometrický průměr Rozptyl (s2) Funkce intervalové hustoty četnosti, která po logaritmické transformaci nabude tvaru normálního rozložení. Triangulární f(x) = [b - ABS (x - a)] / b2 a - b < x < a + b Pravděpodobnostní funkce pro typ rozložení, kdy jsou střední hodnoty výrazně pravděpodobnější než hodnoty okrajové. Gamma Parametry distribuční funkce: a - parametr tvaru b - parametr rozsahu hodnot Umožňuje flexibilně modelování distribučních funkcí nejrůznějších tvarů. Např. c2 rozložení je rozložení typu Gamma. Gamma rozložení s a = 1 je známo jako exponenciální rozložení. Stručný přehled modelových rozložení I. Statistika v průzkumném studiu Provádění odhadů Testy hypotéz Cílová populace Vzorek Ověření Výsledek POPIS OTÁZKY Závěr ? Interpretace Závěr ? Reprezentativnost ? INTERVAL SPOLEHLIVOSTI velmi užitečná míra věrohodnosti odhadů P (L1 < Odhad < L2) ł 1 - a/2 Obecný tvar: Odhadovaný parametr Kvantil modelového rozložení ± × KV pro (1 - a/2) Intervalové ODHADY Interval pravděpodobných hodnot Spolehlivost Bodové Číslo (chyba) (Odhad parametru) (Pravděpodobnostní interpretace) SE (odhadu) Interval spolehlivosti odhadu průměru je pouze informací o přesnosti tohoto odhadu Interval spolehlivosti je hodnocen pro (1 - a) procentní spolehlivost Výběrové populace Cílová populace Šířku intervalu určuje: a) velikost vzorku b) rozptyl (variabilita) vzorku c) požadovaná spolehlivost j(x) -3s +3s µ Původní proměnná x j(x) Výběr n=10 pro odhad průměru j(x) Výběr n=100 pro odhad průměru µ µ Statistika v průzkumném studiu Provádění odhadů Testy hypotéz Cílová populace Vzorek Ověření Výsledek POPIS OTÁZKY Závěr ? Interpretace Závěr ? Reprezentativnost ? Princip testování hypotéz Cílová populace Vzorek Reprezentativnost ? Závěr ? Interpretace •Formulace hypotézy •Výběr cílové populace a z ní reprezentativního vzorku •Měření sledovaných parametrů •Použití odpovídajícího testu závěr testu •Interpretace výsledků Měření parametrů Testy hypotéz Statistické testování – základní pojmy Nulová hypotéza HO Alternativní hypotéza HA Testová statistika Kritický obor testové statistiky 0 T Pozorovaná hodnota – Očekávaná hodnota Variabilita dat Testová statistika = HO: sledovaný efekt je nulový HA: sledovaný efekt je různý mezi skupinami * Velikost vzorku Statistické testování odpovídá na otázku zda je pozorovaný rozdíl náhodný či nikoliv. K odpovědi na otázku je využit statistický model – testová statistika. Co znamená náhodný rozdíl? Je tu rozdíl? Jak by vypadal rozdíl, kdyby byl náhodný? Nasimulujme si ho !!! J Léčba Placebo X2 X1 X2 X1 X2 X1 …. Mnoho- krát Rozdíl ? Rozložení možných náhodných rozdílů Kde leží skutečný rozdíl? Jak moc je pravděpodobné, že je náhodný? 0 Možné chyby při testování hypotéz Závěr testu Hypotézu nezamítáme Hypotézu zamítáme β 1- β 1- α α •I přes dostatečnou velikost vzorku a kvalitní design experimentu se můžeme při rozhodnutí o zamítnutí/nezamítnutí nulové hypotézy dopustit chyby. Správné rozhodnutí Správné rozhodnutí Chyba II. druhu Chyba I. druhu