IV107 BIOINFORMATIKA Datum:
Jméno:
Písemná zkouška obsahuje 10 otázek s krátkou odpovědí (vždy 3 body) a 5 otázek s obšírnější 
odpovědí (vždy 10 bodů). Nejvyšší počet bodů, který můžete získat je tedy 80. K absolvování 
zkoušky je spolu se semestrálním testem a bonusem potřeba získat nejméně 50bodů (stupeň 
hodnocení E), na stupně hodnocení  D, C, B a A jsou stanoveny minimální počty bodů 60, 70, 80 a
90. Na vypracování odpovědí máte 90 minut. Na poslední stránce máte k dispozici tabulku 
genetického kódu.
ČÁST KRÁTKÝCH ODPOVĚDÍ
B01 Jak dlouhá by musela být sekvence oligonukleotidu, aby se s největší pravděpodobností 
vyskytoval v lidském genomu jen jednou (pro zjednodušení považujte lidský genom za náhodnou
sekvenci nezávislých, stejně zastoupených nukleotidů) ?
B02 Co je to čtecí rámec? Co znamená, že je otevřený? Proč ORF vyhledáváme? 
B03 Zarovnáváme sekvence AGTCA a ACTTA globálně algoritmem dynamického programování. 
Skóre za shodu je 1, neshodu ­1, mezeru ­2. Doplňte tabulku. Jak poznáme stupeň podobnosti 
těchto sekvencí?
      A  C  T  T  A
   0 ­2 ­4 ­6 ­8 ­10
A ­2  1 ­1 ­3 ­5 ­7
G ­4 ­1  
T ­6 
C ­8 
A ­10
B04 Co je to EST sekvence? Jaký ma význam je shromážďovat?
B05 Jsou dány tyto mnohonásobně zarovnané sekvence
A: ACCTG GTTAC GGATC TTATA
B: AGCTG ATTAC AAATC TTAGA
C: AGCTG GTTAC AGATC TCATA
D: AGCTG CTTAG GGATC TCATA
Jakým jednoduchým způsobem můžeme odhadnout evoluční vzdálenosti mezi nima pro účely 
tvorby jednoduchého fylogenetického stromu typu UPMGA? Odhad vykonejte a načrtněte 
odpovídající strom. 
B06 Z jakého materiálu jsou obyčejně sondy na microarray nebo DNA čipech? Co se pomocí 
nich detekuje?
B07 Jaký je rozdíl mezi globálním, lokálním a semiglobálním zarovnáním sekvencí? Které by 
jste použili pro porovnání motivů pro vazbu nukleotidů v proteinech ze dvou různých rodin?
B08 Obyčejně jeden gen kóduje jeden protein. Popište mechanizmus, pomocí kterého jeden gen 
může kódovat několik různých proteinů. Jak se takové proteiny od sebe liší?
B09 Databáze CATH (a jiné podobné databáze, např. SCOP) obsahuje hierarchii proteinů známé 
struktury. Jak vznikla skratka CATH? Jak jsou proteiny rozděleny na nejvyšší úrovni?
B10 Jaké informace obsahuje databáze Gene Ontology a jak jsou tyto informace organizovány? 
OTEVŘENÉ OTÁZKY
C01 Vyberte JEDNU z následujících experimentálních metod molekulární biologie. Popište 
princip (7b) a specifikujte styčné body s bioinformatikou (3b):
i) aplikace restrikčních endonukleáz
ii) PCR
iii)hybridizace
iv) sekvenace
C02 Co víte o možnostech identifikace proteinů pomocí hmotnostní spektrometrie? Jak se 
postupuje (8b)? Jak souvisí používané metody se sekvencí proteinů a v čem jsou na ní nezávislé 
(2b)?
C03 Co je to genetický kód? Vysvětlete v tomto kontextu i pojmy kodon a translace. Jaké 
důležité vlastnosti z biologického ale i informačního hlediska má genetický kód?
C04 Popište všechny Vám známe metody předpovídání terciární struktury proteinů ze sekvence.
C05 Napište co víte o algoritmech vyhledávání řetezců (jmenujte a uveďte princip alespoň dvou 
vyjma naivního postupu porovnávání všeho) (6b). Jak se liší časovou složitostí (2b), na jaký typ 
úloh se hodí (2b)?
Pokud jste tímto skončil(a) s IV107 gratuluji! Budu rád, když vložíte svůj názor na kurz do hodnocení v ISu. Příští 
semestr budu vyučovat navazující kurz IV108 a IV110 věnovaný vybraným algoritmům a studentským projektům.
POMOCNÉ TABULKY
Tabulka kodonů genetického kódu:
AAA AAG = Lys
AAU AAC = Asn
ACA ACC ACG ACU = Thr
AGA AGG = Arg
AGC AGU = Ser
AUA AUC AUU = Ile
AUG = Met
CAA CAG = Gln
CAC CAU = His
CCA CCC CCG CCU = Pro
CGA CGC CGG CGU = Arg
CUA CUC CUG CUU = Leu
GAA GAG = Glu
GAC GAU = Asp
GCA GCC GCG GCU = Ala
GGA GGC GGG GGU = Gly
GUA GUC GUG GUU = Val
UAA UAG UGA = STOP
UAC UAU = Tyr
UCA UCC UCG UCU = Ser
UGC UGU = Cys
UGG = Trp
UUA UUG = Leu
UUC UUU = Phe