Molekulärnf ta„e a fyl09enetika (rekonstrukce fylogenetickych V2tahü) Andrea Töthovä Základné pojmy Fylogenetický strom - s kořenem („rooted") - bez kořene („unrooted") - nejstarší společný bod není naznačen, nedefinuje evoluční cestu (Kladogram - info jen o pořadí větvení taxonů, délka větví není relevantní, taxony vždy na vrcholu větví bez ohledu na extinkci) Uzly - terminální (externí) Větve " periferní (končí terminálním uzlem) - vnitřní (interní) "vnitřní (spojují 2 vnitrné uzly) - centrální (spojují 4 periferní větvy) Bifurkace (dichotomie), multifurkace (polytomie) - plně vyřešený - částečně vyřešený Terminal ™% - hvězdicovitý Star tree Partially resolved Fully resolved Root Polytomy w w ^/ homologie - obě sekvence mají stav znaku přímo od ancestora homoplázie - podobnost znaku mezi sekvencemi se vyskytuje nezávisle Variabilní místa -> singletons - pouze jeden taxon nese mutaci -> sites phylogenetically informative - alespoň dva taxony nesou mutaci sites phylogeneticallv uninformative - invariable sites + singletons Consistency index - hodnota počtu homoplázií charakteru v dosaženém kladogramu Cl=m/s (minimum/observed) Retention index - hodnota počtu podobností charakteru Rl=(g-s)/(g-m) g the maximum number of the substitutions Rescaled index = R*C Monofyletická/parafyletická/polyfyletická skupina Zpracování sekvenačních dat Manuální korekce sekvencí - Sequencher software (Gene Codes Corp.) „Zalinení" sekvencí - NCBI BLAST, ED program v MUST package (Philippe, 1993), Clustal W v BioEdit 5.0.9 (Hall, 1999) Fylogenetická analýza - MEGA 6 program (Kumar et al., 2011) PAUP* 4b10 (Swofford, 2001) ATGCGTCGTT I I I I I I I I I ATGCGTCGT A T G---C G T C G T T III III ATGCGTCGT ATGCGTCGTT II I I I I I ATCCGTCAT File Edit Select Contig Seguence View Window Help H Show Chromatograms 1 Help Insert Help Insert Help Reposition -i^-^jin Ia~i ata a at 3 í í:s-;_::: lBBaiaaais; iklCAAIAJLITCAATAATTATI 3IITTAAAATACAAAASTTTATT 5 Ü.:TOUT.-..-.ľTCAÄIľ IB.TT-B1 BT T T.-.CSI IT.-.II.- HTTTIaCATTA Jjpfrag bases |[ô TŠÔ ľTÔ I 10 0 I 110 I 120 1 130 I 140 I 15 C I lí 0 Ti selected at KTACTATAAAI33AT "AAIAATTCAAIAAITAT T 3TT T T AAAATA "AAAA 31 TTATTAAATTT T j|IT AT "ACC iľ "A AT A A A A I A AT T T T T TA "AT T AAA T T consensus position 135 lil li. Hei atugrfinii iron i Cofitig[0GVf 2] H Ť T Ť T 3ŘH H T H H T T TRH H H 3 H H T HS T33 3 3 T T HT T T T HT aA.aaaaaAaAaaAaaaaAaaAAAaA/W\AaAaaAaaaAAa. CRH R R G T T R T T R R R -.: : ::: = ;:-=- :řk-. = =1 = -. - :: T TT T W T TAT C A G T T H C R R T R R R R T R R MaAíWa&aAaaAAAaaaaAaaAaaAAAAaaaaAAAAaAA MEGA v6 - úprava sekvencí (alignment) Data Edit Search Alignment Web Sequencer Display Help uuc -41 !► D NA S equences T ranslated Protein S equences llllllllll II IS 16S clc3 25 165 Clc3 3S 16S clc3 4S 165 clc3 5S 165 clc3 7S 165 clc3 SS 1ĚS clc3 35 165 clc3 IIS 165 Clc3 135 165 clc3 155 165 clc3 135 165 clc3 205 165 clc3 21S 16S clc2 225 165 clc2 335 165 Clc3 405 165 clc3 41S 165 clc2 465 165 clc3 47S 165 clc3 435 165 clc3 435 165 clc3 515 165 Clc3 445 165 clc3 54S 16S clc3 555 165 clc3 Alignment Zarovnání sekvencí - dochází k maximalizování reziduí - vytvoření mezer („gaps") - inzercie a delece vyskytujíce se v sekvenci, kterými se odlišuje od „common ancestor" Gap Opening Penalty (0-100), Gap Extension Penalty (0-100) - snižování - povolí vložení více „gaps" - míň nesrovnalostí v alignmentu - falešné shody neukazující homologie, a naopak Alignment - není věc absolutní, ale najlepší alternativa, kterou algoritmus v počítači vybere ClustalW, Clustal X, BioEdit. Typy dat distance sekvence UPGMA Neighbour-joining Minimum evolution Maximum parsimony Maximum likelihood Bayesian analysis Fylogenetické analýzy Fylogenetický strom - hypotéza, která vznikla co nejlepším odhadem na základě omezeného zdroje informací Metody FA - dva přístupy 1. Algoritmus - jde přímo k výsledku, co je jediný strom (odpadá srovnání vzájemně si konkurujících stromů) - metody shlukové analýzy (UPGMA), Neighbour-joining (NJ) - obě využívají data vzdáleností (distance) 2. Kritérium optimálnosti - dva kroky - definování kritéria, podle kterého je hodnocen každý strom určitým skóre, které se použije k následnému srovnání všech stromů - použití specifického algoritmu pro výpočet funkce (kritérium optimálnosti) a pro získání stromu s nejlepší hodnotou této funkce Jaká by měla vybraná metoda být? Výkonnost - „tempus fugit" nebo „time is money" pomoc - heuristické metody hledání v případe vyššího počtu taxonů či znaků Síla - kolik dat musíme shromáždit, aby byly výsledky správné Konzistence - s přidáváním dalších znaků spějeme k správnému výsledku Robustnost - do jaké míry vedou drobné odchýlky od vstupných předpokladů k nesprávným závěrům Falzifikovatelnost- určení nevhodnosti modelu na základě odchýlky od předpokladu IDEÁLNÍ METODA NEEXISTUJE... Metoda maximální parsimonie - úspornosti (MP) Jedna z nepoužívanějších metod - rychlá, jednoduchá, preferuje jednoduší hypotézy pred složitějšími (široka filozofická platnost), tzn. vybere možnost (strom) s minimálním počtem evolučních kroků nutných k vysvětlení vstupních dat Ne všechny znaky jsou použitelné, parsimony - informative Metoda maximální parsimonie - úspornosti (MP) Fitchova a Wagnerova parsimonie - nejjednoduší, nezatížené žádnými (F) nebo minimálními (W) omezeními vůči možným typům změn (X-* Y, Y -*X) Camin-Sokalova parsimonie - jen X-»Y, evoluce je ireverzibilná, neumožňuje ztrátu získaného znaku, moc se nepoužíva Dollova parsimonie - takisto předpokládá symetričnost změn, ale povoluje znaku vzniknout jen jednou, paralelní a konvergentní získání znaku není povolené Vážená parsimonie - ne všechny znaky jsou stejně informativní, je subjektivní Generalizovaná parsimonie - zobecnění uvedených typů, přirazení „costs" všem možným typům změn Maximum parsimony Počet stromů a b Species Number of trees 1 1 2 1 3 3 4 15 5 105 6 945 7 10,395 8 135,135 9 2,027,025 10 34,459,425 11 654,729,075 12 13,749,310,575 13 316,234,143,225 14 7,905,853,580,625 15 213,458,046,676,875 16 6,190,283,353,629,375 17 191,898,783,962,510,625 18 6,332,659,870,762,850,625 19 221,643,095,476,699,771,875 20 8,200,794,532,637,891,559,375 30 4.9518 xlO38 40 1.00985 xlO57 50 2.75292 xlO76 Maximum parsimony Konsenzuálne stromy (A) (b) (C) a b c d e f a b c d e f a b c d e f (D) Strict (E) 50% majority-rule (F) 70% majority-rule a b c d e f a b c d e f a b c d e f Výhody a nevýhody parsimonie + Dobrá pochopitelnost, jednoduchost, rychlost, nízký počet předpokladů (jakákoliv evoluční změna je vzácná, takže MP strom lze považovat za nejlepší odhad skutečné evoluce) Nekonzistentnost, přitažlivost dlouhých větví (LBA) Metoda maximální pravděpodobnosti (Maximum likelihood, ML) - posuzují se jednotlivé hypotézy o evoluční historii zkoumaných taxonů z hlediska pravděpodobnosti, že jsou v souladu se získanými daty, výsledek - maximálně pravděpodobný odhad Tři součásti - vstupné data evoluční model fylogenetický strom s topologií i délkou větví Výhody a nevýhody maximálni pravděpodobnosti + Nízká náchylnost k chybě, robustnost vůči odchylkám Vysoká výpočetná náročnost Bayesian inference Výpočet pravděpodobnosti na základě specifikovaného modelu a na základě toho, co jsme o charakteru dat zjistili Základ - strom s danou topologií a délkami větví, model nukleotidových substitucí a rozložení substitučních frekvencí mezi jednotlivými nukleotidy Princip přístupu jako u ML VÝHODY - menší časová náročnost, strom zohledňující fylogenetický signál v datasetu, možnost použít i pro smíšený dataset Modely evoluce sekvencí (substitučně modely) Transitions Transversions Transitions Jukes - Cantor model (JC) Rate = 3a Frekvence jednotlivých bazí jsou totožné a pravděpodobnosti změny jednoho nukleotidu v kterýkoli jiný jsou stejné F = a a a a a a a a a a a a . f = [l-Ll-Ll 1 U 4 4 41 Nejjednodušší, nejméně realistický Kimura's 2-parameter model (K2P) Transitions Transversions Transitions Transitions 5 10 15 20 Time since divergence (Myr) 25 •a a p P - p a a p ■ P a p • I 4 4 4 4 J Rate = a+2p Frekvence substitucí na 1 nukleotidové místo je 1 tranzice a 2 transverze Pokud alfa = beta => K2P=JC Felsenstein 1981's model (F81) Některé typy substitucí můžou být častější než jiné proto, že jsou v zkoumaných sekvencích početnější Tento model uvažuje nestejné frekvence pro všechny 4 nukleotidy Jukes-Cantor je speciální případ tohoto modelu, kdy mají všechny nukleotidy stejnou frekvenci P, = nAa . 7EGct 7iTa jiAa nca . nTa nAa Kca nGa nca nGa KjO. Pí je průměrná frekvence baze / v porovnávaných sekvencích Pokud pA=pC=pG=pT , pak F81 = JC Hasegawa, Kishino, Yano 1985 model (HKY85) Spojuje vlastnosti obou předchozích modelů (K2P a F81) Bere v potaz nestejné zastoupení jednotlivých bazí a rozdílnou frekvenci tranzicí a transverzí JlACC juca JtG0C 7tGP 7CTp jcTa jitP f = [itA 7tc jig kt] General time-reversible model (GTR) Nejobecnější model, všech 6 typů substitucí má rozdílnou frekvenci Jtrí? P = k0d Tl7C í = [icA jcc íc0 jit] Omezením některého z parametrů se můžeme dopracovat ke kterémukoliv z předešlých modelů Skutečné data: pozorované a očekávané změny • Srovnání lidské a šimpanzí mtDNA (307/1333 bp je rozdílných) • K2P odhaduje P=0.22, Q=0.011 • HKY85 odhaduje A=0.37, T=0.18, C=0.40, G=0.05 • Modely bohatší na parametry jsou blíže skutečnému stavu Observed A C G T A C D O- • Jukes-Cantor A C G T Kimura 2 parameter A C G T HKY8S A C G C G T D • * • • • • • o G T Jak vybrat správný model Více parametrů, více realizmu, ale... Více přidaných parametrů (naředení dat) -zvyšujeme nejistotu odhadu - zvýšení chyby výběru (sampling error) Málo parametrů - nepřesné odhady Hodně parametrů - nízká přesnost Heterogenita substitučních frekvencí v různých částech sekvence Uvedené modely předpokládají, že každé nukleotidové místo se vyvíjí stejnou rychlostí Heterogenitu subst. frekvencí je možné do ML analýzy začlenit: Gamma distribuce - rozsah, tvar 8 -i ■S 7 - oj 6 - ^ C _ Gamma distribuce Umožňuje víc jako dvě kategorie Type of sequences a a = 20 2 o c O t o a. o Substitution rate (r) Nuclear genes Albumin genes Insulin genes c-myc genes Prolactin genes 16S-like rRNAs, stem region 16S-like rRNAs, loop region ifAi.l FSI*rFai»M'H>a HKY*1 HKY*T HKV*l-r CIBGTR»ltiTR*rt7rK.I-[ Fig. 1. Hierarchical hypothesis teshn* in M( )i)KLI K.ST. At each level ihe null hypolhesis {upper model) iseilheraccepied (A) or rejected (R). The models of DNA substitution are. JC (Jukes and Cantor, 1969). K80(Kimura, 1980). SYM (Zharkikh. 1994), F8I (Felsenstein. 1981). HKY (Hasegawa el C rate, fig A=*G rate, A=?T rate, m: C=jG rate, C=>T rate. |i*: C=*T rate. Distanční metody Založené na podobnostech (vzdálenostech, rozdílech) Poznání skutečné evoluční vzdálenosti mezi všemi členy studovaného souboru taxonů umožňuje velmi lehkou rekonstrukci evoluční historie těchto taxonů Opakované změny jednoho znaku -korigované distance (jako u pravděpodobnosti) Nekorigovaná vzdálenost - p-distance Korekce: JC, F81, K2P, F84, GTR Expected difference t 'Correction' t r Observed *^ /X difference Time Aditivní a ultrametrické stromy Aditivita - evoluční vzdálenost mezi kteroukoliv dvojicí taxonů je součtem délek všech větví, které je spojují Ultrametrické distance - jsou také aditivní, všechny taxony se vyvíjí v souladu s předpoklady molekulárních hodin Cladogram Additive tree 2 * o JS £ u < 1 <---------> This axis means nothing Ultra metric tree This axis means nothing 4-----------► This axis means nothing Neighbour-joining (N J) Saitou et Nei, 1987 Často používaná metoda k rekonstrukci stromů (barcoding) Data nejsou ultrametrická, pracuje s uzlama, ne taxonama Kombinuje rýchlosť a jedinečnost výsledku - jediný strom Nezohledňuje shodu mezi daty a výsledným stromem (je to víc klastrová metoda než optimality) Dobrá heuristická metoda pro konstrukci „minimum evolution" stromu ME - Minimalizuje sumu délek větví, která je počítána z „pairwise distances" Optimální stromy a jejich spolehlivost Exaktní přístup - Exhaustive search - porovnávání všech možných stromů Branch-and-Bound - „přidej větev, stanov limit" -kritérium, které se snažíme minimalizovat, může byť jakékoli, a s přidáváním taxonů neklesá - nemusíme hodnotit všechny možné stromy, ale stanovíme horní hranici kritéria, kterou žádny strom nesmí překročit Heuristicky přístup - Stepwise addition - postupné přidávání taxonů Star decomposition - hvězdicová dekompozice Branch Swapping - výměna větví Test hierarchické struktury - randomizace Test spolehlivosti jednotlivých větví - Bootstrapping Jack-knife _► konsenzuální strom Systém čárového kódu • DNA barcode je krátká genová sekvence standardizované části genomu použitá k druhové identifikaci 1 25002 74135 o Interné ID pro všechny organizmy na Zem mtDNi c oni Příklad: Afričtí motýli Tvoří species komplexy Jejich parazitoidi (Tachinidae) také (Dittrich et al 2006) Leguminivora ptychora na luštěninách je také species komplex Ale někteří škůdci jsou široko rozšíření, např. S po la dea recurvalis a Maru ca vitrata —lem— rfllppotlofi balflamlrije iUSNM 136 4í=i m Niyer l& • jy u J Hlppotlon b*lsatnlnao | USÍ9A. 19 616 5 I I IwiqaEia-Oyo JHlppocion bals«ntna»|LtSNM 1964B6 | Itfigeria.Oyo rHippotlon baLaanurmej U5NM 196 48511 Nigeria.oyo H jHlppotion fcalsarr.inae IUSNM 136490 I I Nigeria.oyo L|j— Hippii ti on balsaminae ICSNM 1964Í71 I Nigeria .Oyo THj.ppůtA on balsamine,*I USNM 1964B9I | Cíige-riau Dye 'Hippotlon balsaininafri TJ5KM 1964831 I Nigeria.Pyo rHippetion sedci|USE3M. 196559 | | Nigeria,Oyo — iHippotiůTí Ěfion|U£MM 19599B | | Kenya . Hair obi Area Unippotion esDolSPElI 196124 I Iře-nya-lUft valley 'liippation esanlUSMM 19£527| I Nigeria . Qyo pRlppotlan esan|U£NM 19644B| |Kenya.Rift Valley -[jHippotíon eaoniu&NM 196528 H Niger la. oyo HiHippociDr. asontSPHI L9 5 465 I I Kenya, Rift Valley J Hipposion ggap|U$[fr| 19fiQj_yj_Keiiyft ,Riffc Vallfry iHippation ros*? i pen nls 1196 1 22 I SPF1I unsff IKerrya.Rift Vall*y 'Hip^oticjfj roscipeniiis 1196 123 I SPElt unas I Kenya. Eli ft Valley Rychlé a efektivní • Čeleď Sphingidae - vzorky 49 druhů za 6 měsíců (téměř kompletní lokální fauna) • DNA barcoding rozlišil druhy jak v lokálním, tak v globálním měřítku • Místní knihovny můžou být rychle srovnány a přispět ke globálním knihovnám Jak Barcoding funguje Tvorba referenční knihovny: • Správně určený jedinec (vouchers) • Vzorek tkáně • DNA extrakce, PCR amplifikace • DNA sekvenování • Odeslání dat do GenBanku Použití referenční knihovny : • Neurčené druhy • Tkáň, DNA, sekvenování • Srovnání s referenčními sekvencemi Voucher Specimen Database of B Produkce dat v r. 2007 Produkce dat v r. 2008 Rychlejší a přenosnější systém - stovky vzorků za hodinu Integrované DNA mikročipy Stolní mikrofluidné systémy Produkce dat v budoucnosti? i • Získání dat kdekoli, hned • Cena několik haléřů • Link do referenční databáze • Taxonomická GPS • Použitelné nespecialisty -,fi CBOL - organizace členů od r. 2008 Více než 170 organizací z více než 50 zemí (z toho 54 organizací z 20 rozvojových zemí) Mise CBOLu: uvést DNA Barcoding jako globální standard 1. Vyvinout a zvednout standardy komunity 2. Barcode projekty plnit databáze 3. Globální participace a koordinace 4. Přijetí taxonomickou komunitou 5. Koordinace s jinými oblastmi vědy 6. Přijetí regulačními agenturami 7. Vyvíjení produktů soukromými společnostmi Propojeni GenBanku s vouchery Registry of Biological Repositories Institutional Acronyms and Collections Codes Institution On This Page Search by cr In = Lituticn Name Acronym □ r Location SSSTCl" Please find your institution and edit the associated data. The institution will be contacted and the new data will be confirmed before it is posted. Click on the column headerto sort institutions by Acronym. Name or Country ABCDEFGHIJKLMNOPQRSTUVWXYZ 12 3 Nerts- Last> InaL-ucti-ni fc- U^-; SsrtFrg columns Alphabet Index Status column Progress S,63fl Total Instftuticrel Feco'tis 3 Confirmed- Institutional Records 0/ Confirms Ncn-ln3titi;[icnal P=CO«il= Acronym Institution flame Address Stat lis Action I A Am Did Arboretum, Harvard University 22 D ivin rty A yen u e, Cambridge. Massachusetts. 021 as U.S.A. Unconfirms-d Edit AA Ministry cf Schsnce. Academy of Sciences 44 Temirajzev Street. Alma-Ata 4SG070 Kazakhstan Unconfirmed Edit AAAG- Alan and Anita Gillogly Unconfirmed Edit AAH Arnolo Arbcreium. Harvard University The Arborway. Jamaica Plain, Massachusetts, 02130 U.S.A. Unconfirmed Edit AAPJ Plant Industry Laboratory Alberta. Edmcntcn, Alberta Agriculture Canada Unconfirmed Edit 2 i^onfirrmeci Collections Sponsors •MWMIL'M TO* *HI BMKOMOrUR BOLD Specimen Webpage iCAHl IS ff Mi tann 1 IiiVji BOLD Sequence Webpage BOLD SYSTEM r1ai.aj_n._nc i Analfiii Ej'iii_+hIh_ lllílíTlhltlŠ CBCRTJUHH "6ää" L.M U|nl.U4il: ü.....pln Mi: linnH.inh Aclcs_i Ti __i-datla rittdrlK ABI PRISM" ■ ■ ■ ■ ■ LFÍ-37T i>TZEtť ř.-i^-. > Lai? 1? 5l?i:il 5:117 M5flT:!l C.1T. rjTMT Bt>_ iÍjH* Polní. 1330 In 152» Pfcl HU h*l|ip. IK-ilin) Fl'IIK mnDfltt L4ff.iJ.lh_ 517 CwtiplG: 85 tíilíitt.C: 92 frmM: 237 niiiisrí. bh_H_Tuit Ti_K«f__e mAAtrmTiTmiTTi^^ ttj. &_tí_jj CCCJ.I. DATE TTTmJTT DGňEftT g ATTAJÜ-tttj," _,TTTTimmi_T__iTlC CÜTTÄTÜTT GG1G rlTTTOÖ C h7atju3 C ATTTl _ AC i_.JJlT!JJ_7_J.TAT>J. l. J,TTTTl-J, l t j__-j_h.tti_t_i [________ti:tO__kjii:t{>jjíi:j.i. üjiTT. ia _ti_ttti_i TITIi_T(7ÜI_i_Tr__GCTATl-JlT™ j,C JJli:_lJlTTjJTTXJ,tj,tj,C G ÜATIAÜAXUTTTin: C *TTTu*" __CCDCftCTr[TrTTj_/7ITI^ jikTÄCArcATri.rrGamB n______nw_rminirrrflM™ B'S'-wn: t,\ - ■■■■■■------ ■ 3i li m w m >: u- h- un :■ lit- 3U _■■ 311 331 h tí" T TC r OAC TA í-1 C C •: CA TCA 1 K C TC C TC TT* C Ti ř : C TÉ T TCA> C Hfl TA 0 i i flCi* «3 3 i 0 : i C- ] A AC : G0 i TO > i C TO Ti 3d 3_1I id 1H 3JH ih Dl r CA OT "-ď AC Anilin A*H Í4i)il4l.f4 UlHJtli: 230 . mWITCmCllTGTÍLSLLTRntMPGÍLIGFWITnT. . ■_. CiHJiFFPJDrtfflSrklLLPI-iinL LIS5£IVEIQGA[rrGIJTY!r7 PL_il__IIJU{QG_>SVD]_AI F3 LHELAjGISS [ LGtflHFI miHHBimsraCHJLmJireiTJÜLLU^------------- lll'.isDl.irl'/t B/MluJ? lí *TCC ATCC mi III iiiiii IIIIII ii IIIIII mu mi im Iiiiiiiii iui III ii III im iui in Iiiiiiiii IUI Hill Vi •f.: b1i bfc? Ceratopogonidae - 105 barcoding sekvencí PRINT I HELP BOLDSťSTEMSv;s | Taxonomy Browser Home I Taxonomy Browser | Request an Account | Identify Soe-cimen | FAQs | Documentation GEI 3 HEVLASY.CZ £ Mapy Google @> Poslat SMS da. no-see-urns, midgies. sand flies, punkies. and others), are a family of small flies {1-ackflies), and Thaumaleidae. They are found in almost any aquatic or semiaquatic kind of host animal C_.jcoft.es, Forcipomyia (Lasioft&tea), and LBptoconops suck asyrtefeafeed exclusively on nectar. Species in other genera are predatory on other... full C SI- bold Sample Sources ■ Elizabeth MacarthurAgricultural Institute. New South Wales [ □ W_.gaaW_.gaaAgricultural Institute [127.] □ Biodiversity Institute of Ontario [978] □ Mined from Gen Bank. NCBI [3Z_] □ York University [95] □ Stroud Water Research Center [15] □ Canadian National Collection of Insects. Arachnids and Nemal □ Mahidol University. Department of Medical Entomology [9] □ Australian Quarantine and Inspection Service. Northern Ausm □ Research Collection of Graeme V Cocks [B] ■ B Others [15] Ceratop^ Sub-ta Subfar • Cerato • Oasyhi • Fhrcipt • Leptac Genen • Bezzia • Bazzia í BOLD Systems - Sequence Download - Mozilla Firefox U Tne i-ife Sciences Search En gine PubMed All Databases Human Genome GenBank Hap Viewer I BLAST Search across databases insect Result counts displayed in gray indicate one or more terms not found GO Clear Helo 210633 PubMed: biomedical literature citations and abstracts 152759 ^] PubMed Central: free, full text journal articles 111 O site Search: NCBI web and FTP sites tjgl 17371 Books: online books 120 OMIH: online Mendelian Inheritance m Man 1236769] £^ Nucleotide: Gore subset of nucleotide sequence records 15644291 EST: Expressed Sequence Tag records EQ* GSS: Genome Survey Sequence records [-85726J Protein: sequence database |17Z| ||| Genome: whole genome sequences |919| Structure: three-dimension-al macromalecular structures |none| w Taxonomy: organisms in GenBank |_lj llTn SNP: single nucleotide polymorphism [5] jj^, dbGaP: genotype end phenotype 121301 £^ UniGene: gene-criented dusters of transcript sequences 1107| CDD: conserved protein domain database [3] ^"jfc- UniSTS: markers and mapping data 15301 PopSet: population study data sets |60427| flf GEO Profiles: expression and molecular abundance profiles [TÍ941 jjii GEO DataSets: experimental sets of GEO data |no-ng| Epigenomics: Epicenetic maps and data sets ® & W @ Musea clomestica cytochrome oxidase subunit II (CON) gene, partial cds; mitochondrial Customize view GenBank: DQ133110.1 FASTA Graphics PopSet Go to: (v) LOCUS DEFINITION ACCESSION VERSION KEYWORDS SOURCE ORGANISM REFERENCE AUTHORS TITLE JOURNAL PUSHED REFERENCE AUTHORS TITLE DQ133110 663 bp DNA linear INV 13-DEC-2005 Mu3ca dome3tica cytochrome oxidase 3ubunit II (COII) gene, partial cd3; mitochondrial. DQ133110 DQ133110.1 GI:72393995 mitochondrion Musca domestica (house fly) Mu3ca dome3tica Eukaryotá; Metazoa; Arthropoda; Hexapoda; Ir_3ecta; Pterygota; Neoptera; Endopterygota; Diptera; Brachycera; Mu3comorpha; Muscoidea; Muscidae; Musca. 1 (bases 1 to 663) Dittinar,K., Porter,M.L., Murray, S. and Whiting, M. F. Molecular phylogenetic analysis of nycteribiid and 3treblid hat flie3 [Diptera: Brachycera, Calyptratae): implications for ho3t associations and phylogeographic origins Mol. Phylogenet. Evol. 33 (1), 155-170 (2006) 16037354 2 (bases 1 to 663) Dittmar,K., Porter,M.L., Murray,S. and Whiting,M.F. Direct Sutan!33ion Analyze this sequence Run BLAST Pick Primers Find in this Sequence Related information Related Sequences PopSet Protein PubMed Taxonomy Recent activity Turn Oft Clear g) Musca domestica cytochrome oxidase subunit II (COII) gene, partial cds; rnitochon... Nudectwe CL_ Mmocg domooticc mite eh end he I [139)- JDURNAL FEATURES 30ur ger.e 225 CRISIN Submitted (13-JOL-2005) Integrative Biology, Brigham Young University, 401 WIDE, Provo, DT 34602, USA Location/Qualifiers e 1..663 / orgar.i3m= "Mtaca dome3tican /or gane11e="mi t o chondr i on" / mo l_t yp e=" g er. omi c DNA n /specimen voucher—™Di130™ /dbxre f=" t axon: 7370" <1.. >663 /gene="COII" <1..>663 /gene="COII" /codor. 3tart=l / tr ar_sl_table=5 /product="cytochrome oxidase subunit II" /protein id="AAZ72903 ■ 1" /db_xref="GI: 72 393996" /1 r ans 1 a t i on= n MSTWANLGLQDSS SPLMEQLIFFHDHALMIL VMITVL VGYLMFT L FFNKYVNRYLLHGQT IE IIWTILPAIILLFIAFP SLRLLYLL DEI HE P SVTLKAIGH QWYWSYEYS DFNNVE FDSYMI PTNELPVDGFRLL DVDNRWL PMIISQIRIL VT AADVI HSWTVP ALGVKVDGT PGRLNQTNFLINRPGL FYGQC SEICGANHS FMPI VIE SIPVNY FIK" atgtcaacat gagcaaattt aggtttacaa gatagttctt ctccattaat agaacaatta attttttttc atgatcatgc attaataatt ttagtaataa ttacagtatt agteggatat ttaatgttta cattattttt taataaatat gttaatcgtt atttattaca tggacaaaca attgaaatta tttgaactat tttacctgea attattttat tattcattgc tttcccttct ttacgattat tatacttatt agatgaaatt aatgaaccat cagtaacttt aaaggctatt Q_ Musca domestica (1272) insect(236769) Hud£2tidE Nucleotide Sequence [1495 letters) BLAST See more... NCBI Resources© How To 0 Nucleotide Nucleotide Limits Advanced DisplavSettings: Q FASTA Send: [g Musca domestica cytochrome oxidase subunit II (CON) gene, partial cds; mitochondrial GenBank: DQ133110.1 GenBank Graphics PopSet >gii 72393995|gb|DQ13311Q.11 Musca domestica cytochrome oxidase subunit II (COII) gener partial cds; mitochondrial ÄTGTCAACATGAGCAAATTTAGGTTTACAAGÄTAGTTCTTCTCCÄTTAATÄGAACAATTAATTTTTTTTC ATGATCATGCATTAATAATTTTAGTAATAATTACAGTATTAGTCGGATATTTAATGTTTACÄTTATTTTT TAATAAATATGTTAATCGTTATTTATTACATGGACAAACAATTGAAATTATTTGAACTATTTTACCTGCA ATTATTTTATTATTCATTGCTTTCCCTTCTTTACGATTATTATACTTATTAGATGAAATTAATGAACCAT CAGTAACTTTAAAGGCTATTGGTCATCAATGATATTGAAGTTATGAATATTCAGATTTTAATAATGTTGA ATTTGATTCTTATATAATTCCTACAAATGAATTACCAGTAGACGGATTTCGTTTATTAGATGTAGATAAT CGAGTAGTTTTACCAATAAATTCTCAAATTCGAATTTTAGTAACTGCTGCTGATGTAATTCATTCATGAA CTGTTCCTGCTTTAGGTGTAAAGGTTGATGGTACTCCTGGTCGTCTAAATCAAACTAATTTCTTAATTAA TCGACCAGGTTTATTCTATGGACAATGTTCAGAAATTTGTGGAGCTAATCATAGTTTTATACCAATTGTA ATTGAAAGTATTCCTGTAAATTATTTTATTAAG Change region shown Customize view Analyze this sequence Run BLAST Pick Primers Find in this Sequence Related information Related Sequences PopSet Protein PubMed Taxonomy Help Recent activity E Turn Oft Clear U Musca domestica cytochrome oxidase subunit II {COM) gene, partial cds: mitochon... Musca domestica mitochondrial (188) Nucleotide Q Musca domestica (1272) BLAST http://blast.ncbi.nlm.nih.gov/Blast.cgi BLft ST ► NCBW BLAST Home Basic Local Alignment Search Tool BLAST finds regions of similarity between biological sequences, more,. Aligning Multiple Protein Sequences? Try the COBA-LT Multiple AJignment Tool. Go j IrSi=qn Inl rReqisrer" Your Recent Results Newt Nucleotide Sequence f1495 let,,, BLAST Assembled RefSeq Genomes Choose a species genome to search, or list all genomic BLAST databases. a Human □ Mouse a Rat a Arabidopsis thaliana Basic BLAST n Oryza sativa n Bos taurus n Danio rerio n Drosophila metartogaster Choose a BLAST pro-gram to run. nucleotide blast protein blast blastx tblastn iblastx n Gallus gatlus □ Pan troglodytes n Microbes □ Apis meltifera Search a nucleotide database using a nucleotide query Algorithms: blastn megablast. discontiguous megablast Search protein database using a protein query Algorithms: blastp. psi-blast. phi-bJasI Search protein database using a translated nucleotide query Search translated nucleotide database using a protein query Search translated nucleotide database using a translated nucleotide query SOAP BLAST A SOAP based B LAST service is available. Mot. "IS Jul 2011 OS:0D:0{] EST |e| More BLAST news,,. Tip of the Day Use Genomic BLAST to see the genomic context If you are interested in the evolution of a particular gene nr gene family it is often intetesting to examine the intro-exon structure even across species. |e| More tips^, BLAST Home Sasic Local Alignment Search Toot [Sign In! TRepister ► MCBIJBLAST/blastn suite 1 blssfD blastx tblastn •blast* Rl A5TPJ nrivirnn i ■> jj rj" h niirlanfiric rlntahacdc 11 ■> rn-n n n i ii-1 Ion 1 i rl ů. itiip rj mrira Reset nan e Bůn tma rk Other reports: P-Search Summary ITaxonorny reportsi TDistance tree of resultsl Graphic Summary Descriptions Legend for links to other resources: □ UniGene [1 GEO EE Gene E3 Structure UH Map Viewer PubChem BioAssay Sequences producing significant alignments: Accession Description Max score Total score Ouerv coverage E — value Max ident Links GQ4657B4.1 Musea domestica cytochrome oxidase subunit I (COI) gene, partial c 2761 2761 100% 0.0 100% AB479529.1 Musea domestica mitochondrial COI gene for cytochrome oxidase sub 275D 2750 100% 0.0 99% AB47952B.1 Musea domestica mitochondrial COI gene for cytochrome oxidase sub 2750 2750 100% 0.0 99% AY526196.1 Musea domestica tRNA-Tyr gene, partial sequence; and cytochrome 275D 2750 100% 0.0 99% EU154477.1 Musea domestica mitochondrion; partial genome 2739 2739 100% 0.0 99% EU627696.1 Musea conducens cytochrome oxidase subunit I (COI) gene, partial c 2244 2244 99% 0.0 93% EU627694.1 Musea asiatica cytochrome oxidase subunit I {COI) gene, partial cds 2222 2222 99% 0.0 93% EU627693.1 Musea Sorbens cytochrome oxidase subunit I (COI) gene, partial cds 2222 2222 99% 0.0 93% EU6277DD.1 Musea larvipara cytochrome oxidase subunit I (COI) gene, partial cds 22D6 2206 99% 0.0 93% EU627698.1 Musea confiscata cytochrome oxidase subunit I (COI) gene, partial c 2178 2173 99% 0.0 92% AB4 79530.1 Musea crassirostris mitochondrial COI gene for cytochrome oxidase s 2167 21&7 99% 0.0 92% AB479531.1 Musea crassirostris mitochondrial COI gene for cytochrome oxidase s 2161 2161 99% 0.0 92% EU6277D1.1 Musea convexifrons cytochrome oxidase subunit I (COI) gene, partia 2156 2156 99% D.O 92% EU627702.1 Musea formosana cytochrome oxidase subunit 1 (COI) gene, partial c 20S9 2069 99% 0.0 91% AS479533.1 Musea bezzii mitochondrial COI gene for cytochrome oxidase subunit 2D61 2Q61 99% 0.0 91% EU627695.1 Musea crassirostris cytochrome oxidase subunit I (COI) gene, partial 2056 2056 99% D.O 91% AB4 79532.1 Musea bezzii mitochondrial COI gene for cytochrome oxidase subunit 2056 2056 99% 0.0 91% EU815DD9.1 Musea domestica isolate JIA-A-1 cytochrome oxidase subunit I (COI] 2D49 2049 74% 0.0 100% EU627699.1 Musea inferior cytochrome oxidase subunit I (COI) gene, partial cds; 2045 2045 99% 0.0 91% EU614999.1 Musea domestica isolate jia21 cytochrome oxidase subunit I (COI) ge 2045 2045 74% D.O 100% EU814993.1 Musea domestica isolate jial4 cytochrome oxidase subunit I (COI) ge 2043 2043 73% 0.0 100% Fl JR1 Ml Hnrnocfir^ líni sfo nan riit-nrhrnmn rivirl^^Q ci iKi ir-ii+- T f ne Tm, n.n i nn% FLY TREE 2004-2008, 30 mil. USD, 649 taxonů, desítky tislc bp FLYTREE Introduction About this Grant About & Contact Us Opportunities Features About Flies Pictures Fly Morphology Fly Nomenclature Species High rights Phytogeny Publications & Products News Press Releases Talking About Flies Buzz About Fries Additional Buzz rVi 111 tir" _i nm FLYTRÜIi Assembling the Diptera Tree of Life October 5,2D 11 Findina The Fly Tree of Life - The F"oster! Latest FLYTREE News: March 14, 2D11 Map of the Fly Tree of Life Published! view all recent posts December 8, 2010 Rediscovering World's Rarest Fly With over 158,000 described species, flies (the insect order Diptera), are among the most diverse groups of living organisms on the planet. This diversity transcends simple species numbers and 'is demonstrated in the great breadth of morphological, ecological, and behavioral variation found in the group. Ftes have a deep evolutionary history that extends back to the Permian Period, over 250 million years ago. LT /AAnfVWrCal5.ncsuredu/entomology/wJegmann/ OUTPUTS he Evolutionär Biology of Fiies MM Sv rru« Ikfw, Uv»H th-U nJ I^AV'iljwT DNA Taxonomie - pomoc při řešení problému nebo vnášení chaosu? První záznamy COI do GenBanku - 1996, od té doby ca. 1000 sekvencí dvoukřídlých V současnosti - ca. 153 000 popsaných druhů dipter- méně než 1% je zařazeno do „Barcoding procesu" COI nevhodný pro odlišení blízkých druhů Stanovení hranic druhu - podobnost sekvencí (pairwise distances) - PROBLÉM Fylogenetická rekonstrukce příbuzenských vztahů - možné řešení -multigenový přístup Světové sbírky hmyzu - nemožnost použít materiál pro analýzy - PROBLÉM Taxonomie založená výlučně/převážně na DNA analýze - zkreslený pohled Potřeba propojit s ostatními přístupy - INTEGRATIVNÍ TAXONOMIE