Biometrické metody v genetice,
odhadů genetických parametrů
doc. Ing. Tomáš Urban, Ph.D.
urban@mendelu.cz
Genetika kvantitativních znaků
Cíle
• Popsat genetickou strukturu populací (odhad komponent variance a kovariance) a
popsat změny genetické výstavby populací
• Na znalosti genetické struktury populací jsou založeny šlechtitelské programy
Možnosti biometrických metod:
1. Odhady výkonnosti populací – čistokrevné i hybridní
2. odhady genetických parametrů - h2, rop, rG, …
3. odhady plemenné hodnoty (PH) – rozdíly mezi jedincem a vrstevníky, očištěný od
negenetických vlivů (realizace šlecht. programů)
4. Stanovení selekčního (genetického) zisku
5. Optimalizace selekčních a hybridizačních programů
Uplatnění poznatků: molekulární a biochemické genetiky, cytogenetiky, imunogenetiky a
genové manipulace v genetice populací
Proč biometrické metody v genetice
Genetika kvantitativních znaků
Tomáš Urban - MENDELU 04/05/2015 1
Kvantitativní genetika – hodnocení pomocí
modelů
Biometrika v genetice ( kvantitativní genetika)
Účinek polygenů se sleduje na základě počtu pravděpodobnosti
(hromadné jevy).
Společné efekty více genů vytváří proměnlivost, většinou s normálním
rozdělením, kterou lze analyzovat matematicko-statistickými
operacemi.
Teorie: přenos GI u kvantitativních vlastností je polygenní
(velký počet lokusů s mendelistickým přenosem + větší či
menší vliv prostředí - vnitřní a vnější).
Operační metody pro analýzu přenosu této GI: biometrické.
Analýza variance (ANOVA)
Funkce ANOVA (Fisher 1918):
1. odhad pevných efektů
2. odhad komponent (složek) variance – podíl jednotlivých variancí, např. varianci
genotypovou nebo prostředí
3. testování hypotéz o příčinách variance modelem (jak vznikla, velikost vlivu faktorů)
22
2
2
1
2
... kcelková  
ANOVA
nebalancované metody
Balancované metody
–výjimečné
–speciální případ
nebalancované metody
1. velké systém rovnic s využitím matic
2. nelze realizovat podle plánu –
náhodný efekt (využití u zvířat)
3. hodnotí se chovy, šlechtění
(software: Harvey, SAS, BMPD) –
metody nejmenších čtverců,
maximální věrohodnosti
1. přesnější
2. plánované pokusy (u zvířat toho
nelze dosáhnout)
1. otec má 100 potomků, 2. jich má 50 a
3. 10 –> to je nebalancované
- stejný počet pozorování ve všech
podtřídách
Genetika kvantitativních znaků
Tomáš Urban - MENDELU 04/05/2015 2
Biometrické modely - lineární
Pravdivý (skutečný, teoretický) model
popisuje data přesně, bez reziduální nebo nevysvětlené variance. Variance P je
vyčerpána faktory. Pravdivý model není nikdy přesně znám.
Ideální (praktický) model
je vytvořen výzkumníkem, který je tak blízký skutečnému modelu, jak jen to je
možné. Takový model by se měl používat k analýzám, ale často není
dostatek informací (chybí).
Operační (pracovní, proveditelný) model
je zjednodušená forma ideálního modelu a je využíván výzkumníky v analýzách.
Na této úrovni se vede široká diskuse o nejlepší operační model.
Biometrické metody spočívají na lineárních biometrických modelech.
Pozorování
Vektor pozorování y obsahuje prvky vyplývající z měření vlastnosti
v daných jednotkách
- předpoklad – že se jedná o náhodný výběr z nekonečně velké populace
Efekty
 Efekty (faktory) se vztahují k proměnným, které mohou
ovlivňovat nebo být ve vztahu k prvkům ve vektoru pozorování
 Diskrétní efekty mají obvykle třídy nebo úrovně
 „obtěžující efekty“ - musí být zahrnuty → minimalizace e
Genetika kvantitativních znaků
Tomáš Urban - MENDELU 04/05/2015 3
Pevné a náhodné efekty
Pevné efekty (fixní) jsou ty, v kterých úrovně zahrnují všechny možné
úrovně, které lze pozorovat.
Náhodné efekty jsou efekty, jejichž úrovně jsou považovány za
náhodně vybrané z nekonečně velké populace úrovní.
1. Kolik úrovní má efekt v modelu? Jestliže málo, pak je to pravděpodobně pevný efekt,
jestliže mnoho, pak se jedná o náhodný efekt.
2. Je počet úrovní efektu v populaci dost velký na to, aby mohla být považována za
nekonečnou? Jestliže ano, pak je pravděpodobně efekt náhodný.
3. Budou použity opět stejné úrovně, jestliže by byl experiment opakován podruhé? Jestliže
ano, pak se jedná pravděpodobně o pevný efekt.
4. Byly úrovně efektu určeny nenáhodným způsobem? Jestliže ano, pak by měl být efekt
určen jako pevný.
Modely
Lineární modely obsahují řadu efektů (faktorů), které aditivně ovlivňují pozorování
V tradičním smyslu jsou lineární modely složeny ze tří částí:
1. Rovnice.
2. Matice očekávaných hodnot a variančně kovarianční matice náhodných proměnných.
3. Předpoklady a omezení.
ad 1. Rovnice
Rovnice modelu definuje efekty, které mohou mít vliv na pozorovanou vlastnost. Čím více faktorů
pokryjeme, tím je výpočet přesnější, tím více se blížíme k variabilitě způsobenou genotypem.
Lineární funkce určitých parametrů a proměnných:
yij =  + bi + uj + eijk y = Xb + Zu + e
ad 2. Matice očekávaných hodnot a VCV





















0
0
Xb
e
u
y
E 











R
G
e
u
0
0
V
ad 3. Předpoklady a omezení
informace o datech nebo způsob jejich sběru, náhodnost výběru, podmínkách chovu apod.
kde G a R jsou základní
čtvercové matice
s předpokladem
nesingularity a pozitivní
definovanosti a s prvky,
které jsou známé. Takže:
V(y) = ZGZ´+ R.
Genetika kvantitativních znaků
Tomáš Urban - MENDELU 04/05/2015 4
Typy lineárních modelů
Lineární modely (obecně)
yij =  + ai + eij eij N(0, 2
e); ai = faktor s i-tými úrovněmi
Regresní modely – funkční vztahy
yi = a + bXi + ei a – konstanta, b, regresní koef., a, b odhadujeme MNČ nebo MV)
Mnohonásobné regresní vztahy
yi = a + b1X1i + b2X2i + b3X3i + ei
Modely s pevnými efekty (více faktorové)
yijkl =  + ai + bj + ck + eijk, yijk =  + ai + bij + eijk
Modely s náhodnými efekty
yijkl =  + i + j + k + eijk i N(0, 2
)
Modely se smíšenými efekty
yijk =  + ai +  j + eijk
smíšené modely se používají k odhadu PH
Komplikují odhad komponent variance
Komplikují odhad fixních efektů
Vyjádření modelů maticovým zápisem
Skalární zápis modelu s pevnými efekty:
yijk =  + ai + bj + eijk
jedna pozorovaná hodnota (zastupuje všechny pozor. hodnoty) je symbolicky znázorněna
Maticový model s pevnými efekty, kde jsou vyjádřeny všechny pozorované hodnoty
y = Xb + e
y – vektor pozorování
X – incidenční matice (designová, strukturní matice) – uvádí, které pevné efekty jsou obsaženy v y)
b – vektor odhadovaných parametrů
c – vektor náhodných efektů: e  N(0, I 2
e)
Genetika kvantitativních znaků
Tomáš Urban - MENDELU 04/05/2015 5
Analýza množství tuku v mléce u 18 dojnic s vlivem efektů stáda a věku:
ai – stádo (i = 1, 2) ; bj – věk (j = 1, 2, 3)
.....ˆ yya ii  ...ˆ yj .....ˆ yyb jj 
věk
b1 b2 b3
stádo
a1
165
154
148
136
116
128
161
157
165
a2
168
154
120
115
142
186
112
118
128
Vybalancovaný pokus
a1 = 4,83
a2 = -4,83
b1 = 8,56
b2 = -5,78
b3 = -2,78
Ověřit v SAS !
průměr
147,78
138,11
průměr 151,50 137,17 140,17 142,94
The GLM Procedure
Class Level
Information
Class Levels
Values
a 2 1 2
b 3 1 2 3
Number of observations 18
Dependent Variable: y
Sum of
Source DF Squares Mean Square F Value Pr > F
Model 3 1106.277778 368.759259 0.71 0.5608
Error 14 7250.666667 517.904762
Corrected Total 17 8356.944444
R-Square Coeff Var Root MSE y Mean
0.132378 15.92054 22.75752 142.9444
Source DF Type IV SS Mean Square F Value Pr > F
a 1 420.5000000 420.5000000 0.81 0.3828
b 2 685.7777778 342.8888889 0.66 0.5312
GLM Procedure
Least Squares Means
a y LSMEAN
1 147.777778
2 138.111111
b y LSMEAN
1 151.500000
2 137.166667
3 140.166667
Aritm.
průměr
BLUE / GLM
142,9444  142,94444
147,7778 A1 4,8333333 147,778
138,1111 A2 -4,833333 138,111
151,5 B1 8,5555556 151,500
137,1667 B2 -5,777778 137,167
140,1667 B3 -2,777778 140,167
Genetika kvantitativních znaků
Tomáš Urban - MENDELU 04/05/2015 6
Analýza množství tuku v mléce u 8 dojnic s vlivem efektů stáda a věku: ai – stádo (i =
1, 2) ; bj – věk (j = 1, 2, 3)
věk
b1 b2 b3
stádo
a1
165
154
136 161
a2
115
142
186
112



























231
223
222
221
131
121
112
111
y
y
y
y
y
y
y
y



























100101
010101
010101
010101
100011
010011
001011
001011



























112
186
142
115
161
136
154
165


































23132
22322
22222
22122
13131
12121
11211
11111
eba
eba
eba
eba
eba
eba
eba
eba








y 




















3
2
1
2
1
.
b
b
b
a
a




























231
223
222
221
131
121
112
111
e
e
e
e
e
e
e
e
b = ?
Nevybalancovaný pokus
32121 bbbaa
y = Xb + e = X . b + e
2. disperzní (variančně kovarianční, VCV) matice pozorování:
Předpoklad: každý náhodný efekt eijk je vybrán ze základního souboru
s nulovým průměrem a variancí např. 30 kg



























1
1
1
1
1
1
1
1
.30


























30
30
30
30
30
30
30
30
= 30 I8 = 30I = 2I
 Maticový zápis:
– je méně názorný než data zapsaná v tabulce
– ALE je kratší a úplnější než model skalární
– musí se definovat matice X (Ta však při větším objemu dat může nabývat velikých rozměrů
– nutná výkonná výpočetní technika a softwarové zázemí)




























......
......
......
......
......
...
...
...
2
eeeee
ee
2
eee
eeee
2
e
2
32313
32212
31211



 IVe
Genetika kvantitativních znaků
Tomáš Urban - MENDELU 04/05/2015 7
The GLM Procedure
The GLM Procedure
Class Level Information
Class Levels
Values
a 2 1 2
b 3 1 2 3
Number of observations 8
Dependent Variable: y
Sum of
Source DF Squares Mean Square F Value Pr > F
Model 3 748.575000 249.525000 0.27 0.8465
Error 4 3733.300000 933.325000
Corrected Total 7 4481.875000
R-Square Coeff Var Root MSE y Mean
0.167023 20.87130 30.55037 146.3750
Source DF Type IV SS Mean Square F Value Pr > F
a 1 198.4500000 198.4500000 0.21 0.6687
b 2 283.4500000 141.7250000 0.15 0.8638
GLM Procedure
Least Squares Means
a y LSMEAN
1 152.166667
2 139.566667
b y LSMEAN
1 153.200000
2 147.900000
3 136.500000
Aritm.
průměry
BLUE / GLM
146,375  145,867
154,00 A1 6,3 152,167
138,75 A2 -6,3 139,567
159,50 B1 7,33 153,200
144,75 B2 2,03 147,900
136,50 B3 -9,37 136,500
Řešení nejmenších čtverců pro zobecněný
lineární model (GLM)
y = Xb + e
(y –Xb)` (y –Xb) = e`e
y`y – 2(Xb)`y + (Xb)`Xb = e`e
derivace s ohledem, že b = 0 → normální rovnice
(X`X) b = X`y
b =(X`X)-1 X`y (V = I σ2
E)
Modifikace (Jsou-li pozorování korelovaná a nemají-li stejné variance)
(X`V-1X) b = X`V-1y
b = (X`V-1X)-1 X`V-1y (V = V)
Řešení poslední rovnice se nazývá řešení „zobecněných nejmenších
čtverců“ → minimalizuje e`e.
Genetika kvantitativních znaků
Tomáš Urban - MENDELU 04/05/2015 8
Biometrické odhady genetických
parametrů
Problémy aplikace kvantitativní genetiky na populace zvířat jsou ve skutečnosti
problémy statistických odhadů
Šlechtění je založeno na znalosti genetické struktury populací, kterou zatím pro
kvant. vlastnosti nelze určovat přímo (frekvence alel a genotypů)
 nutné analyzovat efekty, příčiny genetické a prostřeďové, které se podílejí na
celkové proměnlivosti
2 parametrů  variance a kovariance.
Realizace
odhad PH jedince (OPH)
(Estimate of Breeding Value – EBV)
odhad genotypových hodnot skupin jedinců
- který z odhadů je nejlepší odhad ?!?
Nejlepší odhady
BLUE
Best Linear Unbiased Estimators
- nejlepší lineární nevychýlené odhady (nejmenších čtverců)
Nejlepší - Best
- nejlepší odhad průměru populace = náhodný vzorek (reprezentativní,
dostatečný počet), pak je nejlepším odhadem
- nejlepší odhad PH - souhrnná PH = vložit do selekčního indexu, který
hodnotí všechny PH pro všechny hodnocené vlastnosti; nejlepším odhadem
je hodnota, která maximalizuje genetický zisk
- minimální variance = metodou nejmenších čtverců (metoda odhadu),
které minimalizují varianci, tyto odhady jsou nejlepší, ale i nestranné
(nevychýlené) a lineární
Využíváme: lineární modely – každý odhad je počítán jako lineární kombinace
pozorovaných hodnot
nevychýlený – při opakovaném odhadu je střední hodnota odhadu
identická se skutečnými parametry
bˆ bbE )ˆ(je nevychýleným parametrem b, kdyžodhad
Genetika kvantitativních znaků
Tomáš Urban - MENDELU 04/05/2015 9
Nevychýlenost (vyrovnanost) a přesnost (variabilita)
- (model terče)
- nepřesná (vychýlená) s nízkou
variabilitou
- přesná (nevychýlená) s velkou
variabilitou
- přesná (nevychýlená) s nízkou
variabilitou
- nejlepší odhad
 použít metodu BLUE - metoda odhadu nejmenších čtverců
s pevnými efekty
Nejlepší předpovědi
BLUP
- Best Linear Unbiased Prediction
- nejlepší lineární nevychýlená předpověď NLNP (metoda
nejmenších čtverců)
- metoda odhadu nejmenších čtverců náhodných nebo
smíšených modelů
smíšený model:
mnohovlastnostní
(multitrait)
y = Xb + Zu + e
X, Z – incidenční matice, udávající, které efekty jsou obsaženy
v pozorování
b – vektor obsahující všechny fixní efekty (fixní genetické rozdíly
a systematické vlivy prostředí)
u – vektor všech náhodných systematických efektů (stádo, rok,
sezóna); obsahuje také OPH
e – náhodné nesystematické zbytkové efekty
Metody Metoda nejmenších čtverců (LS) nebo zobecněných nejmenších
čtverců (GLM), metoda maximální věrohodnosti (ML) nebo
restringované maximální věrohodnosti (REML)
Genetika kvantitativních znaků
Tomáš Urban - MENDELU 04/05/2015 10
Způsob řešení pro výběr odhadců je
mnoho
Ve šlechtění se v současné době využívá metoda
• nejmenších čtverců (least square – LS)
• zobecněných nejmenších čtverců (generalized
least square – GLM)
• metoda maximální věrohodnosti (maximum
likelihood – ML)
• či její modifikovaná metoda restringované
maximální věrohodnosti (REML)
Metody založené na ML
Maximum Likelihood (ML)
REstricted Maximum Likelihood (REML)
maximilizuje pravděpodobnost pozorovaných dat daných parametrů
nebalancovaná data
komplexní rodokmenová struktura (matice příbuznosti)
simultánní korekce pro fixní efekty
Vyžaduje známou distribuci (normální)
Odhady jsou nevychýlené a jsou vždy v parametrovém prostoru
Genetika kvantitativních znaků
Tomáš Urban - MENDELU 04/05/2015 11
Rovnice dává pravděpodobnost parametrů (b, V) daných dat (X, y)
Na pravé straně
první dva výrazy jsou očekávané hodnoty
poslední výraz je součet čtverců
)(2/)L(log 1
XbyX´Vb  

Logaritmus věrohodnostní funkce:
Očekávané průměry E(y) = Xb a var(y) = V
)(2/)(log 1
XbyX´Vb  
 L
yVX´XVX´b 111 ˆ)ˆ(ˆ 

První
derivace:
Derivace = 0
Funkce hustoty pravděpodobnosti normálního rozdělení:
Stejné jako pro LS odhady
Příklad algoritmu REML
Genetika kvantitativních znaků
Tomáš Urban - MENDELU 04/05/2015 12