IV107 Bioinformatika I Přednáška 4 Anotace sekvence a genů Anotace genomu Identifikace genů Homologie a podobnost Příště Bioinformatické databázy IV107 Bioinformatika I Přednáška 4 Katedra informačních technologií Masarykova Univerzita Brno Jaro 2008 IV107 Bioinformatika I Přednáška 4 Anotace sekvence a genů Anotace genomu Identifikace genů Homologie a podobnost Příště Bioinformatické databázy Před týdnem Existují techniky pro manipulaci, modifikaci, kopírování a detekci DNA, RNA a proteinů. rekombinace a klonování DNA PCR hybridizace DNA a RNA měření aktivity proteinů DNA čipy, microarray, proteinové čipy zjišťování sekvence IV107 Bioinformatika I Přednáška 4 Anotace sekvence a genů Anotace genomu Identifikace genů Homologie a podobnost Příště Bioinformatické databázy Outline Anotace sekvence a genů Anotace genomu Identifikace genů Homologie a podobnost Bioinformatické databázy IV107 Bioinformatika I Přednáška 4 Anotace sekvence a genů Anotace genomu Identifikace genů Homologie a podobnost Příště Bioinformatické databázy Sekvence DNA >P12345 Yeast chromosome1 GATTACAGATTACAGATTACAGATTACAGATTACAG ATTACAGATTACAGATTACAGATTACAGATTACAGA TTACAGATTACAGATTACAGATTACAGATTACAGAT TACAGATTAGAGATTACAGATTACAGATTACAGATT ACAGATTACAGATTACAGATTACAGATTACAGATTA CAGATTACAGATTACAGATTACAGATTACAGATTAC AGATTACAGATTACAGATTACAGATTACAGATTACA GATTACAGATTACAGATTACAGATTACAGATTACAG ATTACAGATTACAGATTACAGATTACAGATTACAGA TTACAGATTACAGATTACAGATTACAGATTACAGAT IV107 Bioinformatika I Přednáška 4 Anotace sekvence a genů Anotace genomu Identifikace genů Homologie a podobnost Příště Bioinformatické databázy Anotovaná sekvence DNA >P12345 Gen1 - protein alkoholdehydrogenáza TATA TATAAA CGATTGACGATGACGAT start ATG exon1 TACAGATTACAGATTACAGATTAAGATGT intron1 CAGATTACAGATTACAGATTACACAGATTCA exon2 AGATTACAGATTACAGATTACAGA stop TAA >P12346 Protein1 MASAQSFYLLDHNQNQNFDDHLAVDIVMILSHERFMN IV107 Bioinformatika I Přednáška 4 Anotace sekvence a genů Anotace genomu Identifikace genů Homologie a podobnost Příště Bioinformatické databázy Anotace genomu IV107 Bioinformatika I Přednáška 4 Anotace sekvence a genů Anotace genomu Identifikace genů Homologie a podobnost Příště Bioinformatické databázy Anotace genomu IV107 Bioinformatika I Přednáška 4 Anotace sekvence a genů Anotace genomu Identifikace genů Homologie a podobnost Příště Bioinformatické databázy Anotace genomu http://www.ensembl.org/ IV107 Bioinformatika I Přednáška 4 Anotace sekvence a genů Anotace genomu Identifikace genů Homologie a podobnost Příště Bioinformatické databázy Způsoby identifikace genů in silico Experimentální metody (cDNA, EST) Komparativní metody Selekční tlak Druh zachovaných mutací Strukturní metody (GeneMark, GeneScan,GeneID) Detekce charakteristických signálů IV107 Bioinformatika I Přednáška 4 Anotace sekvence a genů Anotace genomu Identifikace genů Homologie a podobnost Příště Bioinformatické databázy Identifikace genů podle charakteru mutací IV107 Bioinformatika I Přednáška 4 Anotace sekvence a genů Anotace genomu Identifikace genů Homologie a podobnost Příště Bioinformatické databázy Využití známé struktury genů intergenová DNA geny kódující protein statistika sekvence ORF exon/intron (u eukaryotů) promotor homologie RNA geny (rRNA, tRNA, jiné) IV107 Bioinformatika I Přednáška 4 Anotace sekvence a genů Anotace genomu Identifikace genů Homologie a podobnost Příště Bioinformatické databázy Identifikace genů podle struktury IV107 Bioinformatika I Přednáška 4 Anotace sekvence a genů Anotace genomu Identifikace genů Homologie a podobnost Příště Bioinformatické databázy Úspěšnost identifikace genů Guigo et al, Genome Biology (2006) IV107 Bioinformatika I Přednáška 4 Anotace sekvence a genů Anotace genomu Identifikace genů Homologie a podobnost Příště Bioinformatické databázy U prokaryotů 95-100% spolehlivost, u složitějších eukaryotů 90% na úrovni bazí, 70% na úrovni exonů/intronů existence intronů větší genomy nízká hustota genů (<30%; 3% u Homo sapiens) alternativní splicing (zhruba u poloviny genů) velké množství repetitivních sekveních občasný překryv genů IV107 Bioinformatika I Přednáška 4 Anotace sekvence a genů Anotace genomu Identifikace genů Homologie a podobnost Příště Bioinformatické databázy Struktura genu (prokaryotická) IV107 Bioinformatika I Přednáška 4 Anotace sekvence a genů Anotace genomu Identifikace genů Homologie a podobnost Příště Bioinformatické databázy Vztah transkripce a translace u prokaryotů IV107 Bioinformatika I Přednáška 4 Anotace sekvence a genů Anotace genomu Identifikace genů Homologie a podobnost Příště Bioinformatické databázy Struktura genu (eukaryotická) IV107 Bioinformatika I Přednáška 4 Anotace sekvence a genů Anotace genomu Identifikace genů Homologie a podobnost Příště Bioinformatické databázy Typické sekvence v eukaryotických genech Enhancer Promotor vazební místo transkripčního faktoru (aktivátor, represor) TATA-box 5-UTR Začátek transkripce Kódující oblast Začátek translace (často ATG) exony introny donor (ag/GTaagt) akceptor (cAG/gt) lariat (CU[AG]A[CU]) terminátor translace (stop kodon = UAG--UAA--UGA) 3-UTR polyadenylačnísignál (AATAAA) terminátor transkripce IV107 Bioinformatika I Přednáška 4 Anotace sekvence a genů Anotace genomu Identifikace genů Homologie a podobnost Příště Bioinformatické databázy Sestřih mRNA IV107 Bioinformatika I Přednáška 4 Anotace sekvence a genů Anotace genomu Identifikace genů Homologie a podobnost Příště Bioinformatické databázy Sekvenční logo intronu IV107 Bioinformatika I Přednáška 4 Anotace sekvence a genů Anotace genomu Identifikace genů Homologie a podobnost Příště Bioinformatické databázy detaily sestřihu IV107 Bioinformatika I Přednáška 4 Anotace sekvence a genů Anotace genomu Identifikace genů Homologie a podobnost Příště Bioinformatické databázy Příbuzné geny mají podobnou funkci i sekvenci Rost studoval proteiny s různou sekvenční podobností. Zjistil, že když je víc než 30% aminokyselin identických, proteiny mají velmi podobnou strukturu. IV107 Bioinformatika I Přednáška 4 Anotace sekvence a genů Anotace genomu Identifikace genů Homologie a podobnost Příště Bioinformatické databázy Rost IV107 Bioinformatika I Přednáška 4 Anotace sekvence a genů Anotace genomu Identifikace genů Homologie a podobnost Příště Bioinformatické databázy Rost IV107 Bioinformatika I Přednáška 4 Anotace sekvence a genů Anotace genomu Identifikace genů Homologie a podobnost Příště Bioinformatické databázy Síť proteinů podle sekvenční podobnosti Proteiny přepojené podle sekvnenční podobnosti. Každý z 30727 vrcholů reprezentuje protein, kazdá z 1,206,654 hran podobnost. Seed Magazine, Červenec 2006 IV107 Bioinformatika I Přednáška 4 Anotace sekvence a genů Anotace genomu Identifikace genů Homologie a podobnost Příště Bioinformatické databázy detaily sestřihu IV107 Bioinformatika I Přednáška 4 Anotace sekvence a genů Anotace genomu Identifikace genů Homologie a podobnost Příště Bioinformatické databázy Příbuznost a podobnost sekvencí Homologie buď je nebo není Podobnost lze kvantifikovat a stupňovat Od určitého stupně podobnosti je homologii velmi pravděpodobná. U proteinových sekvencí od cca. 30% identity. IV107 Bioinformatika I Přednáška 4 Anotace sekvence a genů Anotace genomu Identifikace genů Homologie a podobnost Příště Bioinformatické databázy Podobnost sekvencí bez zarovnání (přiložení) např obsah n-gramů se zarovnáním (přiložením) stejná délka, pozice si odpovídají libovolná délka, pozice přiřazujeme IV107 Bioinformatika I Přednáška 4 Anotace sekvence a genů Anotace genomu Identifikace genů Homologie a podobnost Příště Bioinformatické databázy Rozdíl mezi lokálním a globálním porovnáváním IV107 Bioinformatika I Přednáška 4 Anotace sekvence a genů Anotace genomu Identifikace genů Homologie a podobnost Příště Bioinformatické databázy Matice pro hodnocení podobnosti proteinových sekvencí IV107 Bioinformatika I Přednáška 4 Anotace sekvence a genů Anotace genomu Identifikace genů Homologie a podobnost Příště Bioinformatické databázy Tabulka pro algoritmus dynamického programování IV107 Bioinformatika I Přednáška 4 Anotace sekvence a genů Anotace genomu Identifikace genů Homologie a podobnost Příště Bioinformatické databázy Tabulka pro algoritmus dynamického programování IV107 Bioinformatika I Přednáška 4 Anotace sekvence a genů Anotace genomu Identifikace genů Homologie a podobnost Příště Bioinformatické databázy Tabulka pro algoritmus dynamického programování IV107 Bioinformatika I Přednáška 4 Anotace sekvence a genů Anotace genomu Identifikace genů Homologie a podobnost Příště Bioinformatické databázy Tabulka pro algoritmus dynamického programování IV107 Bioinformatika I Přednáška 4 Anotace sekvence a genů Anotace genomu Identifikace genů Homologie a podobnost Příště Bioinformatické databázy Tabulka pro algoritmus dynamického programování IV107 Bioinformatika I Přednáška 4 Anotace sekvence a genů Anotace genomu Identifikace genů Homologie a podobnost Příště Bioinformatické databázy Příště Bioinformatické databázy IV107 Bioinformatika I Přednáška 4 Dodatek For Further Reading Outline Dodatek IV107 Bioinformatika I Přednáška 4 Dodatek For Further Reading For Further Reading X