5. Kvantitativní kladistika •Hennigova metoda konstrukce kladogramu •kódování znaku pro kladistickou analýzu •algoritmy konstrukce fylogenetických stromů na základě kritéria parsimonie •optimalizační kritéria •popisné charakteristiky a porovnávání stromů •konsensuální stromy •míry spolehlivosti výsledků kladistické analýzy •kladistický software • • • Postup při fylogenetické analýze 1)výběr taxonů 2)výběr znaků (posouzení homologie) 3)kódování znaků do matice 4)polarizace znaků (mimoskupinové srovnávání, event. ontogenetická pravidla) 5)vlastní analýza – konstrukce kladogramu delka stromu •Parsimonie v kladistice: hledáme strom, na kterém rozložení znaků předpokládá minimum evolučních změn (minimum evolution), tj. takový, který má nejmenší délku (= Hennigův pomocný princip: nikdy dopředu nepředpokládejme homoplázii) • •L = 7 •L = 9 •L = 8 •délka stromu (tree length) – •celkový součet všech změn •ve všech znacích (kroků) •na dané topologii stromu, tj. •nutných k vysvětlení dané •hypotézy o příbuznosti • Hennigova metoda •každý znak při stavbě kladogramu posuzujeme zvlášť •polaritu znaku (apomorfie/plesiomorfie) určujeme dopředu •taxony seskupujeme na základě synapomorfií •rychlá a jednoduchá, ale jen pro malé soubory s malým množstvím homoplázií •Příklad: rod Leysera (Bremer 1978) - hvězdnicovité rostliny (4 druhy v JAR a Středomoří) Taxon Lůžko Trubkovité květy Chmýr Povrch nažky Šupiny na chmýru Životní cyklus L. longipes hladké se žlázkami osinatý hladký šídlovité trvalka L. leyseroides drsné ochlupené opeřený drsný široké, ploché jednoletka L. tenella drsné ochlupené opeřený drsný široké, ploché jednoletka L. gnaphaloides drsné ochlupené opeřený drsný šídlovité trvalka Příklad: rod Leysera (Bremer 1978) •Athrixia •Rosenia •Relhandia •Leysera •2N=8 •jediný úbor na •dlouhé stopce • •Polarizace znaků pomocí mimoskupinového srovnávání (outgroup comparison): • • •podíváme se, jaké stavy znaků se vyskytují u sesterských rodů Leysera: ty budeme považovat za plesiomorfní • • •plesiomorfní znaky: • lůžko hladké • trubkovité květy se žlázkami • chmýr osinatý • povrch nažky hladký • šupiny na chmýru šídlovité • životní cyklus vytrvalý • • •synapomorfie pro •rod Leysera Matice znaků (character matrix) (0 – plesiomorfie, 1 – apomorfie) Do analýzy zahrneme i znaky podporující monofylii Leysera: znaky 1 a 2 TS/ taxon 1 2 3 4 5 6 7 8 outgroup 0 0 0 0 0 0 0 0 L. longipes 1 1 0 0 0 0 0 0 L. leyseroides 1 1 1 1 1 1 1 1 L. tenella 1 1 1 1 1 1 1 1 L. gnaphaloides 1 1 1 1 1 1 0 0 Výsledný kladogram •outgroup •longipes •gnaphaloides •leyseroides •tenella • • • • • • • • •1-1 •2-1 •3-1 •4-1 •5-1 •6-1 •7-1 •8-1 leysera-leyseroides06 leysera-leyseroides08 Kódování znaků •převedení informace do formy vhodné pro kladistickou analýzu •celá čísla (0, 1, 2, 3, …..9) •musíme od sebe odlišit jednotlivé stavy •znaky, které se nepřekrývají, jsou vhodnější •v praxi jsou nejčastěji využívány binární znaky (0,1) znaky •Kitching et al. 1998 Kódování spojitých znaků prekryv • různé metody, např. „gap-weighting“ (Thiele 1993) • v praxi relativně málo používané Kódování diskrétních znaků • • • • 0 0 0 0 ? ? 0 0 0 0 0 1 1 1 1 0 0 1 1 0 1 0 2 1 2 1 0 1 1 1 0 0 1 3 2 1 1 1 0 1 0 1 1 0 4 2 2 1 1 1 1 0 1 0 1 •vícestavové kódování: •jeden znak se závislými stavy •hierarchické kódování: •tři znaky (přítomnost, barva, tvar) •vícestavové kódování: •dva nezávislé znaky (barva, tvar) •binární kódování: •pět nezávislých znaků •(přítomnost/ nepřítomnost) Chybějící data (missing values) a)nemáme údaje k dispozici (neznámá vývojová stádia, pohlaví, fosílie, poškozené kusy) b)znaky nelze kódovat, protože příslušné struktury u organizmů přirozeně chybí c) •kódujeme “?“, resp. ”-” •problémy: naroste počet řešení, klesá rozlišení kladogramů, někdy dokonce zcela chybné výsledky • počet všech možných rozlišených stromů pro t taxonů • n = (2t - 5)!/[2t-3 (t - 3)!] • Počítačové algoritmy hledání nejúspornějších kladogramů •Přesné metody (exact methods): •vyčerpávající hledání (exhaustive search, implicit enumeration) – jen pro malé datové soubory (do 10 taxonů – více než 2 miliony stromů) • exhaustive •Lipscomb 1998 •Přesné metody (exact methods): •branch-and-bound search – jako vstupní minimum se vezme např. náhodný strom; pokud při hledání délka stromu přeskočí limit, celá skupina stromů se zavrhne a zkouší se jiná (realizovatelné do 25 taxonů) • bb-wagner bb2 bb3 •1) •2) •3) •Lipscomb 1998 •heuristické metody (heuristics) •nepřesné (možnost lokálního optima), ale jediné možné při velkém počtu stromů •výměna větví (branch swapping): ca. do 100 taxonů): •nearest neighbour interchange •subtree pruning and regrafting •tree bisection+reconnection (TBR) bb treespace1 •http://www.cladistics.org/ •počet iterací •heuristické metody (heuristics) •analýza rozsáhlých maticí (nad 100 taxonů) pomocí parsimonie: •problém tzv. ostrovů (islands) a composite optima (Goloboff 1999, Nixon 1999) •parsimony ratchet •tree-fusing (TF) •sectorial searches (SS) •tree-drifting (DFT) •kombinace různých • algoritmů sektory •Goloboff 1999 Polarizace znaků pomocí outgroup comparison polarita •Wägele 2005 • po skončení hledání nejúspornějšího stromu vybereme jeden taxon z matice jako outgroup, podle něj jsou potom polarizovány všechny znaky na stromu Kritéria optimality pro vícestavové znaky •nutné upřesnění podmínek parsimonie •optimalizace (optimization, character mapping) = určení umístění znaků na kladogramu, tj. pořadí jejich změn, na základě nějakého kritéria •Wagnerova (= Farrisova) optimalizace: aditivní, seřazené znaky (transformační série), přičítají se kroky do délky stromu (např. 1"3 = 2 kroky) fitch-farris •seřazený vícestavový znak: Kritéria optimality pro vícestavové znaky •Fitchova optimalizace: neaditivní, neseřazené znaky (transformační série), přičítá se vždy jen jeden krok k celkové délce stromu (např. 1"3 = 1 krok) • fitch-farris •neseřazený vícestavový znak: Optimalizační kritéria pro homoplázie Fig2 •ACCTRAN – fast optimization •„zrychluje“ (accelerates) evoluční změnu, posouvá ji co nejvíc po stromě dolů = upřednostňuje reverze před paralelismy •DELTRAN – slow optimization •„zpomaluje“ (delays) evoluční změnu, posouvá ji co nejvíc po stromě nahoru = upřednostňuje paralelismy před reverzemi •L = 9 •L = 9 Popisné charakteristiky stromů •délka stromu (tree length), L •index konzistence (consistency index), CI relativní míra homoplázie pro daný kladogram („goodness of fit“) • • minimální možný (předpokládaný) počet kroků • CI = • skutečný počet kroků (délka stromu) • Fig9 •CI = 6/7 = 0.86 •ci (1-5) = 1/1 = 1.00 •ci (6) = 1/2 = 0.50 •L = 7 •RI = (13-7)/(13-6) = 0.86 ci1 ci2 •Lipscomb 1998 •index retence (retention index), RI • relativní míra synapomorfie pro daný kladogram • • maximální možný počet kroků – skutečný počet kroků na stromu •RI = • maximální možný počet kroků – minimální možný počet kroků • fig12 •RI = (14-7)/(14-6) = 0.88 •ri = 1.00 •znak je zcela v souladu s kladogramem, plně informativní •čím více se ri blíží k 0, tím méně informace o příbuznosti taxonů •ri = 0.00 •autapomorfie, žádná informace o příbuznosti •CI = 6/7 = 0.86 •Lipscomb 1998 Konsensuální stromy •při výskytu homoplázie má kladistická analýza často více stejně úsporných řešení •přísný konsensus (strict consensus) strict1 strict2 strict3 • výhoda: kombinuje jen shodnou informaci ze všech kladogramů • nevýhoda: často malé rozlišení •Lipscomb 1998 Konsensuální stromy •Adamsův konsensus adams • výhoda: odstraňuje rozpory vyvolané jediným taxonem • nevýhoda: může obsahovat skupiny, které nemají • opodstatnění v žádném původním kladogramu •Lipscomb 1998 Konsensuální stromy •většinový konsensus (majority consensus) • zobrazí jen skupiny vyskytující se ve více než X % kladogramů • např. zobrazení výsledků bootstrapu a jacknife • nevýhoda: můžeme ztratit důležitou menšinovou informaci majority •Lipscomb 1998 •bootstrap – opakovaný náhodný výběr a nahrazení jednoho znaku zdvojením jiného Míry spolehlivosti výsledků klad. analýzy bootstrap •jackknife – opakovaný náhodný výběr a odstranění jednoho či více znaků/taxonů bez náhrady •Kitching et al. 1998 •bootstrap Míry spolehlivosti výsledků klad. analýzy •Bremer support - počet kroků nutných k tomu, aby se daný klád ztratil ze striktního konsensu suboptimálních kladogramů • bremer support •délka 14 •striktní konsensus ze 3 stromů o délce 15 •výsledné hodnoty Bremer supportu •Kitching et al. 1998 • Postup v kladistické analýze: checking & rechecking postup •Wägele 2005 Kladistický software •kompletní přehled fylogenetických programů: http://evolution.genetics.washington.edu/phylip/software.html •NONA 2.0 (Goloboff 1993) + Winclada 1.00.08 (Nixon 2002) •TNT (Goloboff, Nixon & Farris 2008) •PAUP* 4.0 beta (Swofford 2002) + MacClade 4.07 (Maddison & Madison 2002) •Hennig86 (Farris 1989) + TreeGardener (Ramos 1996) Literatura: •Kitching, I. J., Forey, P. L., Humphries, C. J. & Williams, D. M. (1998): Cladistics. The theory and practice of parsimony analysis. 2. vyd. Oxford University Press, Oxford - New York - Tokyo, 228 s. ISBN 0-19-850138-2. •Lipscomb D. (1998): Basics of cladistic analysis. George Washington University, Washington D.C., 75 s. (volně dostupné na www.gwu.edu/~clade/faculty/lipscomb/Cladistics.pdf) •Schuh, R. T. (2000): Biological systematics. Principles and applications. Cornell University Press, Ithaca - London, 236 s. •Skelton P., Smith A. & Monks N. (2002): Cladistics. A practical primer on CD-ROM. Cambridge University Press, Cambridge, 80 s. •Wiley E., Siegel-Causey D., Brooks D.R. & Funk V.A. (1991): The Compleat Cladist. The University of Kansas Museum of Natural History Special publication No. 19. Lawrence, Kansas, 158 s. •Williams D. M. & Ebach M. C. (2008): Foundations of Systematics and Biogeography. Springer, New York, 309 pp. •Wägele, J.-W. (2005): Foundations of phylogenetic systematics. Verlag Dr. Friedrich Pfeil, München, 365 s.