3. Fenetika •numerická taxonomie •použití fenetického přístupu v současné taxonomii •taxonomický znak ze statistického hlediska •tradiční a geometrická morfometrika •shlukové analýzy •ordinace (PCA) •diskriminační analýza (CVA) •ANN a automatické určování taxonů • • • Numerická taxonomie - Fenetika •rozvoj výpočetní techniky •Michener & Sokal (1957), Sneath (1957) •Sokal R. & Sneath P. (1963): Principles of Numerical Taxonomy • sokal2 •Robert Sokal • taxonomie jako praktická a empirická věda • klasifikace založená na celkové podobnosti ve fenotypu • čím více znaků, tím lépe • každý znak má stejnou váhu • jednotlivé taxony mohou být rozeznány díky korelaci různých znaků • použití metod mnohorozměrné statistiky •Sneath & Sokal 1973 Postup fenetiků •Zrzavý et al. 2004 fenetika1.jpg •matice znaků x taxonů •z ní výpočet matice podobnosti •klasifikace taxonů do skupin fenetika2.jpg Postup fenetiků 1)výběr operational taxonomic units (OTU) – jedinci, populace, druhy, vyšší taxony 2)zaznamenání co největšího počtu znaků (ca. 30-100) 3)selekce znaků (korelace, závislost na prostředí apod.) 4)zakódování znaků, vytvoření matice znaků (character matrix) • • • • • matice-drozd •Drozd 2004 Postup fenetiků drozd-index fenogram-drozd •5) •matice koeficientů vzdáleností (distance matrix) •6) •shluková analýza: •konstrukce fenogramu •Drozd 2004 Úskalí fenetiky při tvorbě biologických klasifikací •vychází z přístupu, že fylogeneze není poznatelná •odlišné statistické metody = odlišné výsledky •problém stejnocennosti znaků: –různý obsah informací vhodných pro klasifikaci, relativní dle hierarchické úrovně (nestejná rychlost evoluce) –nerozlišuje povrchní podobnost (např. konvergence) od podobnosti zděděné (homologie) –velké množství znaků = mnoho informačního balastu – – Kladistika vs. fenetika: frekvence použití pro biologické klasifikace cladistics phenetics kladists-vs-fenetiks Ø fenetika je ve většině případů nevhodná pro rekonstrukci fylogeneze Ø přínos: nutnost přesné definice metod, znaků, využití výpočetní techniky •Winston 1999 Použití fenetického přístupu v současné taxonomii •hodnocení vnitrodruhové a mezidruhové variability (vymezení taxonů, nalezení diagnostických znaků) •„z nouze cnost“: pragmatická klasifikace jen na základě podobnosti bez nároku na fylogenetickou správnost •hodnocení molekulárně-biologických dat, např. DNA-hybridizace, fingerprinting, imunologie, sekvence nukleotidů po korekci substitučními modely: tzv. distanční metody (UPGMA, neighbor joining) Dělení znaků ze statistického hlediska •kvalitativní (qualitative) –binární (binary): dva stavy: 0,1 –vícestavové (multistate): 0,1, 2, 3, … •semikvantitativní (semiquantitative) •kvantitativní (quantitative): –nespojité, diskrétní (discontinuous, discrete, meristic) –spojité, kontinuální (continuous) – • • Převod vícestavového znaku na binární pomocí umělých proměnných (dummy variables) dummy variables •Marhold & Suda 2002 Popisná statistika kvantitativního znaku •ukazatel středu (průměr, medián, modus) •ukazatel variability (rozpětí min-max, kvantily, rozptyl, směrodatná odchylka) •rozložení (grafické srovnání, šikmost, špičatost, testy normality) •korelace mezi znaky rozlozeni-leps •šikmost > 0 •šikmost < 0 •špičatost < 0 •špičatost > 0 •Lepš 1996 Tradiční morfometrika •měření délek, ploch, objemů, úhlů (lze nahradit cos α pro jednodušší hodnocení) kridlo_Tsch 5 •Vaňhara et al. 2007 Geometrická morfometrika: analýza tvaru •tvar lze vyjádřit kvantitativními znaky •nevychází ze vzdáleností, ale ze srovnávání: –obrysů (outline analysis) –polohy význačných bodů (landmarks) rybalandmarks trilobithlava trilobit •Zelditch et al. 2000 •Hammer 2002 Analýza obrysů •Fourierova analýza, eliptická Fourierova analýza •uzavřený obrys jakožto periodická funkce •každou periodickou funkci lze rozložit na sérii několika harmonických složek (sin, cos s příslušnými koeficienty - amplitudami), které jsou násobky původní funkce – matematické vyjádření tvaru Fourier EllipticFourier •Eliptická FA: •Hammer 2002 •r(ω) = a0 cos ω + b0 sin ω • + a1 cos ω + b1 sin ω • + a2 cos ω + b2 sin ω • + ... •r(ω) = a0 + Σ(ai cos ω + bi sin ω) • řeší problém vícenásobného překryvu poloměru s obrysem při komplikovanějších tvarech • odečtení x- a y-přírůstků od většího počtu pravidelně umístěných bodů na křivce • 2 samostatné periodické funkce pro x a y • dvojnásobný počet Fourierových koeficientů •např. tvar hlavohrudi trilobita •obrys digitalizován pomocí 64 bodů •k adekvátnímu popisu tvaru pomocí EFA dostačuje 9 harmonických složek, tj. 36 koeficientů (=2*2*9) •výhoda analýzy obrysů – tvar lze zpětně rekonstruovat Analýza obrysů •obrys rekonstruovaný pomocí různého počtu harmonických složek: •digitalizovaný obrys •1 •2 •3 •5 •9 •Hammer 2002 Význačné body: superpoziční metody (a) baseline srovnani landmarku •0, 0 •0, 1 •základní čára (baseline) •Booksteinovy souřadnice •Zelditch et al. 2000 •Prokrustovská superpozice (Procrustes superimposition) •Význačné body: superpoziční metody (b) procrustes-komar • optimalizace míry shody v konfiguracích význačných bodů dvou a více objektů s využitím rotace, posunu a celkové (izometrické) změny velikosti tak, aby suma druhých mocnin rozdílů souřadnic mezi homologickými body byla minimální (podobné regresi, GLS) • míra podobnosti mezi různými tvary: prokrustovská vzdálenost •Rohlf & Slice 1990 Deformační metody: Metoda ohebných pásků (thin-plate spline) hlavy •Macholán 1999 • umístíme souřadnicovou síť na referenční objekt • překryjeme ji přes další studované objekty a deformujeme, abychom dosáhli shody v překrytí význačných bodů • rozdíly v tvaru jsou ukázány ve formě lokálních deformací původně pravoúhlé sítě •umožňuje rozlišit uniformní (afinní) a nepravidelné (lokální) změny tvaru •matice souřadnic a matice deformační energie •vektory deformací podél každé osy vzhledem k referenční konfiguraci: parciální deformace (partial warps) •analýza relativních deformací (relative warps) – obdoba PCA thinplate1 •Metoda ohebných pásků (thin-plate spline) afinnislozka •afinní složka •Macholán 1999 •Zelditch et al. 2000 Sběr morfologických dat pro statistickou analýzu •jen kvantitativní a binární znaky •vyloučení znaků závislých pouze na prostředí •poměry mohou být někdy užitečné, ale mohou být problematické při statistickém vyhodnocení •korelace mezi znaky – vyloučení silně korelovaných •kolik znaků sledovat? – kompletnost vs. časová náročnost •kolik jedinců prohlédnout? – podchycení variability •počet jedinců vs. počet populací •přesnost měření – pomůcka: počet jednotek mezi min a max by měl být mezi 30 a 300 (např. 5–10 mm, měřit s přesností na desetiny mm) •chybějící data – vyřazení nebo nahrazení (např. průměrem) • Úprava matice dat •matice znaků x OTU, n-rozměrů (n=počet znaků) •standardizace (standardization) – převedení na stejné měřítko –centrováním: změní polohu nulového bodu – –rozpětím: když jsou znaky ve stejném měřítku, ale mezi jejich hodnotami jsou velké rozdíly – – –směrodatnou odchylkou: když jsou znaky měřeny v odlišných škálách a jednotkách – •transformace (transformation) - náprava odchylek od normality, odstranění heterogenity rozptylů –logaritmická, y=log(x+1) –odmocninová, y=(x+1)-2 –arkussinová (např. pro poměry a %) centrování.jpg standardizace rozpětím.jpg standardizace SD.jpg Shlukové analýzy (cluster analysis) • slouží k detekování přirozených skupin (shluků) v datech a často též k jejich uspořádání do hierarchických tříd (klasifikaci) • výsledkem jsou obvykle stromové diagramy (dendrogramy) • cluster Shlukové analýzy (cluster analysis) •Postup: • • 1. krok: výběr koeficientu podobnosti/vzdálenosti (metriky) • • 2. krok: výběr shlukovacího algoritmu –Eukleidovská vzdálenost (c) –tětivová vzdálenost (chord distance, d) –Manhattanská vzdálenost (a+b) –Mahalanobisova vzdálenost (odstraňuje vliv korelace a závislosti na měřítku) vzdalenosti ED •Marhold & Suda 2002 1a. Koeficienty podobnosti pro kvantitativní znaky: 1b. Koeficienty podobnosti pro binární znaky a smíšená data –Jaccardův index Ja=a/(a+b+c) –jednoduchá shoda (simple matching) SM=(a+d)/(a+b+c+d) –Sörensenův index Sor=2a/2a+b+c –Gowerův index (smíšená data) podobnost-tabulka •Marhold & Suda 2002 •1 •1 •0 •0 •kód •znaku 2. Shlukovací algoritmy completefenogram completelinkage single linkage single phenogram •Metoda jednospojná (single linkage) •Marhold & Suda 2002 • rozdíly spočívají v tom, jak je definována vzdálenost mezi dvěma skupinami objektů •Metoda všespojná (complete linkage) 2. Shlukovací algoritmy UPGMA completefenogram ward •Metoda středospojná •(average linkage, UPGMA) •Wardova metoda • •(minimalizace vnitroshlukového •rozptylu) •Marhold & Suda 2002 Shlukové analýzy (cluster analysis) - shrnutí •nelze univerzálně doporučit optimální koeficient a metodu •úspěšnost výsledku záleží na struktuře v datech •zkusit více metod •citlivost na odlehlé objekty •nevhodné např.pro studium klinální variability cluster-rozdily •Marhold & Suda 2002 Ordinační metody •cílem je nahradit velký počet znaků menším počtem hypotetických proměnných při minimální ztrátě informace (ideálně 2-3 osy) •grafickým výstupem je ordinační diagram •nepředpokládají a priorní seskupení objektů – explorační techniky k tvorbě hypotéz, k odhalení struktury v datech •analýza hlavních komponent (PCA), analýza hlavních koordinát (PCoA), nemetrické mnohorozměrné škálování (NMDS), korespondenční analýza (CA) httpwww Analýza hlavních komponent (PCA) •osy (PC) vedeny ve směru největší variability vždy kolmo na sebe •prvních několik PC na sebe váže nejvíce variability •každá PC je lineární kombinací původních znaků •hlavně pro kvantitativní znaky •robustní k rozložení •počet objektů by měl být větší než počet znaků •kovariance vs. korelace • • • • PCA.jpg •Zima & Macholán 2004 Interpretace výsledků PCA •ordinace objektů a znaků, biplot (grafické znázornění) – podobné objekty leží blízko sebe, vektory korelovaných faktorů míří podobným směrem •korelace znaků s jednotlivými PC: zátěže (factor loadings) •vlastní čísla, latentní kořeny (eigenvalues) – míra variability v datech vyjádřená jednotlivými PC (absolutní hodnota, % podíl ze součtu EV) 1409f3 • • PCA scatterplot.jpg Diskriminační analýza (DA) •studujeme rozdíly mezi dvěma či více předem stanovenými skupinami (druhy, populacemi, pohlavími…) •metoda testování hypotéz srovnani PCA-DA •Marhold & Suda 2002 Kanonická diskriminační analýza, CDA (canonical variates analysis, CVA) •a) je možné odlišit předem stanovené skupiny objektů (druhy, populace,…) na základě znaků, které máme k dispozici, a do jaké míry? •b) které znaky jsou pro rozlišení skupin nejlepší? • Øneumožňuje odhalit další možné přítomné skupiny (druhy, poddruhy apod.) v datech • DA •osy jsou vedeny ve směru největší variability mezi skupinami •nová osa = kanonická diskriminační funkce je lineární kombinací původních znaků • •Marhold & Suda 2002 Požadavky CDA •kvantitativní a binární znaky •vyloučit znaky, které jsou navzájem lineární kombinací, silně korelované, a třídní znak •mnohorozměrné normální rozložení •alespoň 2 skupiny, v každé min. 2 objekty •žádný znak by neměl být v nějaké skupině konstantní •relativní pozice objektů a skupinových centroidů (např. konfidenční intervaly) •celková kanonická struktura – vztah mezi jednotlivými znaky a kanonickými osami (standardizované kanonické koeficienty, korelace mezi znaky a diskriminačními funkcemi) •stačí interpretovat několik prvních os (významnost os: eigenvalues, % eigenvalues, kanonické korelační koeficienty, Wilksovo lambda) • Interpretace výsledků CDA rafisher2cdaim Klasifikační diskriminační analýza •slouží k identifikaci objektů •cílem je odvodit rovnici, která kombinuje jednotlivé znaky pomocí vah lineárníDA •Marhold & Suda 2002 •např. listy břízy •klasifikační funkce: –y = 12LTF + 2DFT – 2LTW – 23 Klasifikační diskriminační analýza betula •y > 0 •y < 0 •Marhold & Suda 2002 Umělé neuronové sítě (ANN) Image of a biological neuron neural1 •INPUT •HIDDEN LAYER •OUTPUT • matematické modely napodobující strukturu a funkci nervové soustavy • složeny z mnoha dílčích funkčních jednotek - uzlů (umělých neuronů) hierarchicky •uspořádaných a vzájemně provázaných ve vrstvách • architektura sítě závisí na komplexitě problému Umělé neuronové sítě (ANN) v taxonomii •Tachina fera •Tachina magnicornis •Tachina nupta •vstup: •znaky t_fera2 •výstup: •taxony •3 fáze: učení (training): iterativní tvorba modelu na základě trénovacího souboru námi určených jedinců – nastavení vah mezi jednotlivými neurony s cílem minimalizovat chybu v určování • verifikace (verification): ověření správnosti modelu • predikce (prediction): určování neznámých jedinců •skrytá •vrstva • • • • • • • • • •input •hidden layer •output • • • • • • • •MINIMUM •sumk= ∑j xj * wik+ γ Automatické určování taxonů •ANN jsou statisticky velmi robustní, nelineární metoda (nezávisí na rozložení a typu dat) se schopností učit se z příkladů •ideální základ pro automatické systémy určování organizmů •vstupní data: morfometrie, světelná spektra, bioakustika, koncentrace chemických látek v těle, transformované digitální fotografie,… Patella_aspera_1 Patella_candei_crenata patellapiperata34 •např. určování přílipek (Patella spp.) na základě koncentrací nasyc. uhlovodíků •(Hernández-Borges et al. 2003) •např. SPIDA – web (Platnick et al. 2005) https://research.amnh.org/invertzoo/spida/common/index.htm •automatický systém určování australských pavouků čel. Trochanteriidae (15 rodů, 121 druhů) přes internet na základě zaslaných fotografií •Automatické určování organizmů flowchart spidascreenshot littleISV2 Kim%27s-NN-figure-2 maleisv dbartleventral Příklad 1 – „Iris flower dataset“ •R. A. Fisher (1936): 3 druhy blízce příbuzných severoamerických kosatců •od každého druhu 50 jedinců •měřeny 4 znaky – délka a šířka okvětních lístků •liší se jednotlivé druhy od sebe? •analýza v programu PAST a STATISTICA 736px-Iris_virginica.jpg •Iris virginica 800px-Iris_versicolor_3.jpg •Iris versicolor •Iris setosa IrisSetosa.gif iris.gif Příklad 2: Mouchy komplexu Dinera carinifrons •Lutovinas et al. (2013), Diptera: Tachinidae – parazitoidi vrubounovitých brouků •2-3 druhy, 55 jedinců •19 znaků (délek, 8 na hlavě, 11 na křídlech) •analýza v programu STATISTICA Dinera_ferina2_-_lindsey.jpg •Dinera ferina head13 wing_2 kopie-red Příklad: Mery rodu Pseudophacopteron •geometrická morfometrika předních křídel 9 afrotropických druhů na základě polohy význačných bodů •příprava datového souboru, výběr landmarků a semilandmarků, metoda ohebných pásků, analýza relativních deformací v souboru programů TPS tpsDig Version 2.16 phacopteronidae2.jpg Relative warp visualization plot_2013-03-14_22-35-44.jpg _2013-03-14_22-35-07.jpg Odkazy •Marhold K. & Suda J. (2002): Statistické zpracování mnohorozměrných dat v taxonomii (Fenetické metody). Univerzita Karlova v Praze, Karolinum, Praha, 159 s. •Zima J. & Macholán M. (2004) Analýza fenotypu. Pp. 9-49. In. Zima J., Macholán M., Muclinger P., Piálek J. (2004) Genetické metody v zoologii. Univerzita Karlova. •http://folk.uio.no/ohammer/past/: freewarový statistický balík PAST se širokým použitím v taxonomii a ekologii (O. Hammer) •Zelditch M.L., Swiderski D.L., Sheets H.D., Fink W.L. (2004): Geometric Morphometrics for Biologists: A Primer. Academic Press, New York, 443 s. •http://life.bio.sunysb.edu/morph/: různé informace o geometrické morfometrice včetně softwaru (J. Rohlf) •McLeod (ed.) (2007): Automated Taxon Identification in Systematics. Theory, Approaches and Applications. Systematics Association Special Volumes Series 74. CRC Press, London, 339 s. •