DNA v genomu určitého organismu obsahuje 30% thyminu. Jaký bude obsah cytosinu? RNA v transkriptomu určitého organismu obsahuje 18% guaninu. Jaký bude obsah cytosinu v cDNA? RNA v transkriptomu určitého organismu obsahuje 32% adeninu. Jaký bude obsah uracilu v cDNA? myšleno jako % bází Doplňte druhé vlákno DNA, tak aby vznikla dvouvláknová DNA: GGATATCCGA Jaké je komplementární vlákno DNA k sekvenci: AAGTTCC Jaká je komplementární sekvence k sekvenci GGATCC? Co je na této sekvenci zajímavé? Jaké vlastnosQ by mohl mít protein, který se váže na DNA s takovou sekvencí? Definujte: nukleoQd nukleosid V jakém směru se zapisují sekvence: nukleových kyselin aminokyselin cukrů Glc-Gal-Man Jak se jmenuje dipepQd: A) B) NH2 NH O O OH OH NH2 NH O O OH OH Která sekvence koduje pepQd Gly-Arg-Glu-Glu-Asn (použijte kodovací tabulku) A) AGC AGA CCT TAC B) GTT ATA AAT TAT CAT C) GGC AGA GAG GCC TAA D) GGC CGC GAA GAG AAC TAA Druhá báze První báze U C A G U UUU Phe UUC Phe UUA Leu UUG Leu UCU Ser UCC Ser UCA Ser UCG Ser UAU Tyr UAC Tyr UAA Stop UAG Stop UGU Cys UGC Cys UGA Stop UGG Trp C CUU Leu CUC Leu CUA Leu CUG Leu CCU Pro CCC Pro CCA Pro CCG Pro CAU His CAC His CAA Gln CAG Gln CGU Arg CGC Arg CGA Arg CGG Arg A AUU Ile AUC Ile AUA Ile AUG Met ACU Thr ACC Thr ACA Thr ACG Thr AAU Asn AAC Asn AAA Lys AAG Lys AGU Ser AGC Ser AGA Arg AGG Arg G GUU Val GUC Val GUA Val GUG Val GCU Ala GCC Ala GCA Ala GCG Ala GAU Asp GAC Asp GAA Glu GAG Glu GGU Gly GGC Gly GGA Gly GGG Gly Znáte jednopísmenné zkratky aminokyselin? A C G K D N L E Q P I V Y F S W T X pyrrolysin Pyl (O), UAG selenocystein Sec (U), UGA N-formylmethionin fMet, AUG ASX-B (D/N) GLX-Z (E/Q) Xle-J (I/L) Zapište aminokyselinovou sekvenci u následujících struktur NH2 NH NH NH NH OH O O O O OH NH NH N OOH O O N H NH NH NH O O O O NH2 NH2 OH Zapište aminokyselinovou sekvenci u následujících struktur Jak by asi vypadal alignment těchto dvou sekvencí: MAMUZDOSTSTAROSTISHAMIZNOSTIRATOLESTI MAMRADOSTZESTAROZITNOSTI při absolutnim preferování A) globálního alignmentu MAM--UZDOST--STAROSTISHAMIZ--NOSTIRATOLESTI MAMRA--DOSTZESTARO--------ZITNO---------STI B) lokálního alignmentu MAMUZDOST--STAROSTISHAMIZNOSTIRATOLESTI MAMRADOSTZESTAROZ------ITNOSTI MAM--UZDOST--STAROSTISHAMIZ--NOSTIRATOLESTI ||| |||| ||||| | || ||| MAMRA--DOSTZESTARO--------ZITNO---------STI 1 MAMUZDOST--STAROSTISHAMIZNOSTIRATOLESTI 37 ||| .|||| |||| . | | | . ||| 1 MAMRADOSTZESTAR-------O-Z----I--TNO-STI 24 1 MAMUZDOST--STAROSTISHAMIZNOSTIRATOLESTI 37 ||| .|||| |||||...:. ||| 1 MAMRADOSTZESTAROZITNO---------------STI 24 MAM--UZDOST--STAROSTISHAMIZ--NOSTIRATOLESTI ||| |||| ||||| | || ||| MAMRA--DOSTZESTARO--------ZITNO---------STI 1 MAMUZDOST--STAROSTISHAMIZNOSTIRATOLESTI 37 ||| .|||| |||| . | | | . ||| 1 MAMRADOSTZESTAR-------O-Z----I--TNO-STI 24 Gap_penalty: 1 Extend_penalty: 2 Score: 55 1 MAMUZDOST--STAROSTISHAMIZNOSTIRATOLESTI 37 ||| .|||| |||||...:. ||| 1 MAMRADOSTZESTAROZITNO---------------STI 24 Gap_penalty: 12 Extend_penalty: 2 Score: 4 Co na to EMBOSS stretcher? 1 MAMUZDOST--STAROSTISHAMIZNOSTIRATOLESTI 37 ||| .|||| |||| . | | | . ||| 1 MAMRADOSTZESTAR-------O-Z----I--TNO-STI 24 Gap_penalty: 1 Extend_penalty: 2 Score: 55 1 MAMUZDOST--STAROSTISHAMIZNOSTIRATOLESTI 37 ||| .|||| |||||...:. ||| 1 MAMRADOSTZESTAROZITNO---------------STI 24 Gap_penalty: 12 Extend_penalty: 2 Score: 4 1 MAMUZDOSTSTAROSTISHAMIZNOSTIRATOLESTI 37 ||| .| || |. :..... ..||| 1 MAMRADOST-------------ZESTAROZITNOSTI 24 Gap_penalty: 25 Extend_penalty: 2 Score: -11 Je tedy vhodnější: Vysoká penalizace mezer: Hledání sekvencí velmi striktně zaměřených na podobnost s hledanou sekvencí - najde oblasQ velmi příbuzných sekvencí Nízká penalizace mezer: Hledání podobnosm mezi sekvencemi vzdáleně příbuzných. Jaký je rozdíl mezi: „homology“ a „similarity“ Jaký je rozdíl mezi: „ortholog“ a „paralog“ MAMUZDOSTSTAROSTISHAMIZNOSTIRATOLESTI MAMRADOSTZESTAROZITNOSTI Na čem je založeno vyhodnocení „kvality“ sekvenčního přiložení? Scoring alignments snaha o co nejvyšší skóre: 1.  idenQta (idenQty) 2.  podobnost (similarity) 3.  mezery (gaps) Plam u nukleových kyselin i proteinů stejná pravidla ? Nukleové kyseliny nemá smysl posuzovat podobnost: sice tranzice (R→R or Y →Y) je mnohem častější než transverze(R→Y or Y →R), což ale není pro alignement užitečné Frekvence mutací všech bází je obdobná, takže nejjednodušší hodnocení je: shoda (1), neshoda (0) mm se nerozliší výborný alignment krátkých a mizerný dlouhých sekvencí: proto penalizace záměn: match score +5 mismatch score -4 gap penalty (changeable parameter) opening -10, extending -2 Proteiny (similarity vs. idenQty): proč je bereme v úvahu? S = [(Ls × 2)/(La + Lb)] × 100 number of aligned residues with similar characterisQcs total lengths of each sequence Skórování proteinového přiložení subs-tuční matrice (a z nich odvozeny skórovací matrice) Reflektuje fyzikálně chemické vlastnosQ jednotlivých aminokyselin ale zároveň i pravděpodobnost, že dojde k subsQtuci konkrétní aminokyseliny za jinou konkrétní v průběhu evoluce. Napadají Vás některé, které budou pravděpodobně vysoce „penalizovány“? SubsQtuční matrice víceméně dva typy: 1.  založené na záměnnosQ geneQckého kódu nebo vlastnosm aminokyselin 2.  odvozené z empirických studií aminokyselinových subsQtucí (přesnější) Nejvíce používané jsou empirické matrice PAM a BLOSUM PAM – Point Accepted MutaQon Constructed by Margaret Dayhoff in 1978. Zahrnuje pravděpodobnost záměny jedné aminokyseliny v druhou během evoluce Předpokládá, že každá další mutace nezávisí na předchozí. Odvozena z globálního alignmentu rodin proteinů (Podobnost sekvencí v rodině > 85%) vysoká spolehlivost alignmentu vysoká pravděpodobnost, že záměna aminokyseliny je dána jedinou mutací Vypočtena pravděpodobnost s jakou jedna AA se změní na jakoukoliv jinou 24 PAM matrice All entries × 104 PAM1 Byla vypočtena na základě 1572 změn v aminokyselinovém složení v 71 proteinových rodinách PAM1 reflektuje průměrnou záměnu 1% všech aminokyselinových pozic PAM250 (20% idenQta) je odvozena od PAM1 její 250-Qnásobnou mulQplikací (250 mutací na 100 aminokyselin) Vyšší číslo PAM matrice znamená větší evoluční vzdálenost PAM250 matrice small, polar small, nonpolar polar or acidic basic large, hydrophobic aromaQc Posi-ve score – frequency of subsQtuQons is greater than would have occurred by random chance. Zero score – frequency is equal to that expected by chance. Nega-ve score – frequency is less than would have occurred by random chance. •  Several assumpQons you should be aware of: –  MutaQon of AA is independent of previous mutaQons on the same posiQon (Markov process requirement). –  Only PAM1 was “measured”, all other are extrapolaQons (i.e. predicQons based on some model). –  All sites are assumed to be mutable equally. –  MutaQons are assumed to be independent of surrounding residues. –  Forces responsible for sequence evoluQon over short Qme are the same as these over longer Qmes. –  PAM matrices are based on protein sequences available in 1978 (bias towards small, globular proteins) •  New generaQon of Dayhoff-type – e.g. PET91 BLOSUM (Blocks Amino Acid SubsQtuQon) •  1992, Henikoff and Henikoff •  database BLOCKS– používá koncept „bloků“ k idenQfikaci proteinových rodin •  sekvenční mo-v –  konzervovaný aminokyselinový úsek conserved stretch of amino acids spojený se specifickou funkcí proteinu •  sekvenční blok –  spárované moQvy ze stejné proteinové rodiny bez mezer •  BLOSUM matrice byly vytvořeny na základě subsQtučních vzorů více než > 2 000 bloků (< 60 residuí) z 500 skupin proteinů •  nebere v potaz evoluci •  BLOSUM62 – znamená, že ke konstrukci matrice byly použity proteiny s průměrnou idenQtou 62%. A A C E C A - C = 4 A - E = 2 C - E = 2 A - A = 1 C - C = 1 •  výskyt každého páru AA v každém sloupci každého bloku je sečten •  čísla získána ze všech bloků slouží pro výpočet BLOSUM matricí •  Číslování BLOSUM jde v obráceném pořadí oproQ PAM –  čím menší číslo, mm odlišnější sekvence byly použity Matrix Best use Similarity (%) Pam40 Short highly similar alignments 70-90 PAM160 DetecQng members of a protein family 50-60 PAM250 Longer alingments of more divergent sequences ~30 BLOSUM90 Short highly similar alignments 70-90 BLOSUM80 DetecQng members of a protein family 50-60 BLOSUM62 Most effecQve in finding all potenQal similariQes 30-40 BLOSUM30 Longer alingments of more divergent sequences <30 Similarity column gives range of similari5es that the matrix is able to best detect. Odlišné subsQtuční matrice jsou pro odlišné účely less stringentmore stringent •  BLOSUM matrice pracují obvykle lépe než PAM pro lokální vyhledávání podobností (Henikoff & Henikoff, 1993) •  Pro porovnání blízce příbuzných proteinů by se měla používat nižší číslo PAM a vyšší BLOSUM, pro vzdálenější vyšší číslo PAM a nižší BLOSUM •  Pro prohledávání databází je nejběžnější BLOSUM62 Jak staQsQcky významné je skóre? Pokud je podobnost dostatečně významná lze usuzovat na společné evoluční vztahy . Ale co je DOSTATEČNĚ? závisí na typu sekvence a její délce •  Pravděpodobnost, že dvě rezidua v nepříbuzných sekvencích jsou idenQcké? 25% v NA, 5% v proteinech •  Vliv délky sekvence –  čím kratší sekvence, mm větší je šance, že alignment je dán náhodnou shodou. Čím delší, mm je méně pravděpodobné, že je stejná úroveň podobnosQ výsledkem náhody. –  kratší sekvence vyžadují vyšší cut-off pro zjištění příbuznosQ než u delších sekvencí Essen5al bioinforma5cs, Xiong Co to jsou oblasQ sekvencí tzv. „low complexity regions“ proč se definují a jak se používají? •  vysoce repeQQvní krátké segmenty AAATAAAAAAAATAAAAAAT • Hojně zastoupeny v databázích (cca 15% proteinů) • Mohou vést k uměle vysokým hodnotám výsledných skóre nepříbuzných sekvencí • Proto je nezbytné je vyjmout ze zadávacího dotazu stejně jako ze sekvenčních databází. Phylogram a cladogram •  Phylogram (phylogeny tree) – je rozvětvený diagram (strom), který naznačuje fylogenezi (postupný vývoj). Délka jednotlivých větví je úměrná velikos- změny v průběhu evoluce. •  Cladogram – rovněž strom, v němž však všechny větve mají stejnou délku. Ukazuje tak sice „společné předky“ pro jednotlivé sekvence, ale ne množství změn, jež od té doby prodělaly (evoluční dobu). Phylogram a cladogram Phylogram Cladogram 1 2 3 4 1 2 3 4 1 ATGTTTCTCCAACGCTGCTG 2 ATGTTTCTCCAGCGCTGCTG 3 ATGTTCCTTCAACGTTGTTG 4 ATGTTCCTTCAACGTTGCTG Doplňte distanční matrici: 1 ATGTTTCTCCAACGCTGCTG 2 ATGTTTCTCCAGCGCTGCTG 3 ATGTTCCTTCAACGTTGTTG 4 ATGTTCCTTCAACGTTGCTG Který strom nejlépe popisuje fylogenezi? 1 2 3 4 1 0,05 0,2 0,15 2 0,25 0,2 3 0,05 4 2 1 4 3 C 1 4 3 2 A 1 2 3 4 D 3 4 2 1 B