Genetika kvantitativních znaků
Biometrické metody v genetice, odhadů genetických parametrů
- lineární modely
prof. Ing. Tomáš Urban, Ph.D.
urban@mendelu. cz
Proč biometrické metody v genetice
Cíle
Popsat genetickou strukturu populací (odhad komponent variance a kovariance) a popsat změny genetické výstavby populací
Na znalosti genetické struktury populací jsou založeny šlechtitelské programy Možnosti biometrických metod:
1. Odhady výkonnosti populací - čistokrevné i hybridní
2. odhady genetických parametrů - h2, rop, rG, ...
3. odhady plemenné hodnoty (PH) - rozdíly mezi jedincem a vrstevníky, očištěný od negenetických vlivů (realizace šlecht, programů)
4. Stanovení selekčního (genetického) zisku
5. Optimalizace selekčních a hybridizačních programů
Uplatnění poznatků: molekulární a biochemické genetiky, cytogenetiky, imunogenetiky a genové manipulace v genetice populací
Kvantitativní genetika - hodnocení pomocí
modelů
Biometrika v genetice    kvantitativní genetika)
Účinek polygenů se sleduje na základě počtu pravděpodobnosti (hromadné jevy).
Společné efekty více genů vytváří proměnlivost, většinou s normálním rozdělením, kterou lze analyzovat matematicko-statistickými operacemi.
Teorie: přenos Gl u kvantitativních vlastností je polygenní (velký počet lokusů s mendelistickým přenosem + větší či menší vliv prostředí - vnitřní a vnější).
Operační metody pro analýzu přenosu této Gl: biometrické.
Analýza variance (ANOVA)
Funkce ANOVA (Fisher 1918):
2 _     2 2 2
1. odhad pevných efektů ^celková- ®\ ^^"j + • • • + ^
2. odhad komponent (složek) variance - podíl jednotlivých variancí, např. varianci genotypovou nebo prostředí
3. testování hypotéz o příčinách variance modelem (jak vznikla, velikost vlivu faktorů)
ANOVA nebalancované metody	speciální případ ne balancovaných i -X-	Balancované metody -výjimečné -speciální případ nebalancované metody
1. velké systém rovnic s využitím matic 2. nelze realizovat podle plánu -náhodný efekt (využití u zvířat) 3. hodnotí se chovy šlechtění (software: Harvey, SAS, BMPD) -metody nejmenších čtverců, maximální věrohodnosti		1. přesnější 2. plánované pokusy (u zvířat toho nelze dosáhnout)
1. otec má 100 potomků, 2. jich má 50 a 3. 10 -> to je nebalancované		- stejný počet pozorování ve všech podtřídách
Biometrické modely - lineární
Biometrické metody spočívají na lineárních biometrických modelech.
Pravdivý (skutečný, teoretický) model
popisuje data přesně, bez reziduálni nebo nevysvětlené variance. Variance P je vyčerpána faktory. Pravdivý model není nikdy přesně znám.
Ideálni (praktický) model
je vytvořen výzkumníkem, který je tak blízký skutečnému modelu, jak jen to je možné. Takový model by se měl používat k analýzám, ale často není dostatek informací (chybí).
Operační (pracovní, proveditelný) model
je zjednodušená forma ideálního modelu a je využíván výzkumníky v analýzách. Na této úrovni se vede široká diskuse o nejlepší operační model.
Pozorování
Vektor pozorování f obsahuje prvky vyplývající z měření vlastnosti v daných jednotkách
- předpoklad - že se jedná o náhodný výběr z nekonečně velké populace
Efekty
* Efekty (faktory) se vztahují k proměnným, které mohou ovlivňovat nebo být ve vztahu k prvkům ve vektoru pozorování
* Diskrétní efekty mají obvykle třídy nebo úrovně
* „obtěžující efekty" - musí být zahrnuty —> minimalizace e
Pevné a náhodné efekty
Pevné efekty (fixní) jsou ty, v kterých úrovně zahrnují všechny možné úrovně, které lze pozorovat.
Náhodné efekty jsou efekty, jejichž úrovně jsou považovány za náhodně vybrané z nekonečně velké populace úrovní.
1. Kolik úrovní má efekt v modelu? Jestliže málo, pak je to pravděpodobně pevný efekt, jestliže mnoho, pak se jedná o náhodný efekt.
2. Je počet úrovní efektu v populaci dost velký na to, aby mohla být považována za nekonečnou? Jestliže ano, pak je pravděpodobně efekt náhodný.
3. Budou použity opět stejné úrovně, jestliže by byl experiment opakován podruhé? Jestliže ano, pak se jedná pravděpodobně o pevný efekt.
4. Byly úrovně efektu určeny nenáhodným způsobem? Jestliže ano, pak by měl být efekt určen jako pevný.
Modely
Lineární modely obsahují řadu efektů (faktorů), které aditivně ovlivňují pozorování V tradičním smyslu jsou lineární modely složeny ze tří částí:
1. Rovnice.
2. Matice očekávaných hodnot a variančně kovarianční matice náhodných proměnných.
3. Předpoklady a omezení, ad 1. Rovnice
Rovnice modelu definuje efekty, které mohou mít vliv na pozorovanou vlastnost. Čím více faktorů pokryjeme, tím je vypočet přesnější, tím více se blížíme k variabilitě způsobenou genotypem.
Lineární funkce určitých parametrů a proměnných:
Vy = ]i + bj + Uj + eijk y = Xb + Zu + e
ad 2. Matice očekávaných hodnot a VCV kde G a R jsou základní
čtvercové matice s předpokladem nesingularity a pozitivní definovanosti a s prvky, které jsou známé. Takže: V(y) = ZGZ + R.
ad 3. Předpoklady a omezení
informace o datech nebo způsob jejich sběru, náhodnost výběru, podmínkách chovu apod.
y		Xb		u		G	0
u		0	v	e	—	0	R
e		0					
Typy lineárních modelů
Lineární modely (obecně)
Vy = |o, + a, + ey N(0, a2e); a, = faktor s i-tými úrovněmi
Regresní modely - funkční vztahy
Y i — ^ + Sj        a _ konstanta, b, regresní koef., a, b odhadujeme MNČ nebo MV)
Mnohonásobné regresní vztahy
Yi = a + b^; + b2X2i + b3X3i + ej Modely s pevnými efekty (více faktorové)
Yijki = ^ + 31 + ^+^ + eijk< yijk = u. + as + ^ + eijk
Modely s náhodnými efekty
Yijkl = ^ + «i + Pj + Yk + eijk tti N(°> °2a)
Modely se smíšenými efekty
yijk = u. + aj + p j + eijk smíšené modely se používají k odhadu PH
Komplikuji odhad komponent variance Komplikuji odhad fixních efektů
Vyjádření modelů maticovým zápisem
Skalární zápis modelu s pevnými efekty:
yijk= ji + ai + bj+e^ jedna pozorovaná hodnota (zastupuje všechny pozor, hodnoty) je symbolicky znázorněna
Maticový model s pevnými efekty, kde jsou vyjádřeny všechny pozorované hodnoty
y = Xb+e
y - vektor pozorování
X - incidenční matice (designová, strukturní matice) - uvádí, které pevné efekty jsou obsaženy v y)
b - vektor odhadovaných parametrů
c - vektor náhodných efektů: e ~ N(0, I a2e)
Vybalancovaný pokus
Analýza množství tuku v mléce u 18 dojnic s vlivem efektů stáda a věku: a, - stádo (i = 1, 2); bj - věk (j = 1, 2, 3)
		věk			
		b,			průměr
stádo	ai	165 154 148	136 116 128	161 157 165	147,78
		168 154 120	115 142 186	112 118 128	138,11
Průměr		151,50	137,17	140,17	142,94
a,--	=y i •■	,-y...		-y...	A = y-
3i =  4,83 b1= 8,56
b3= -2,78
Information Values
The GLM Procedure Class Level
Class Levels
2 12
3 123
Dependent Variable: y
Source Model Error
Corrected Total
Sum of
DF      Squares   Mean Square   F Value   Pr > F
3    1106.277778 368.759259 14    7250.666667 517.904762 17 8356.944444
0.71 0.5608
Number of observations 18
R-Square   CoeffVar    Root MSE      y Mean 0.132378    15.92054    22.75752 142.9444
Source
a b
DF    Type IV SS   Mean Square   F Value   Pr > F
420.5000000 420.5000000 685.7777778 342.8888889
0.81 0.3828 0.66 0.5312
Aritm. průměr		BLUE/GLM		GLM Procedure		
142,9444	V-	142,94444			Least Squares Means	
147,7778	A1	4,8333333	147,778		a	y LSMEAN
138,1111	A2	-4,833333	138,111		1	147.777778
151,5	B1	8,5555556	151,500		2	138.111111
137,1667	B2	-5,777778	137,167			
140,1667	B3	-2,777778	140,167		b	y LSMEAN
1 151.500000
2 137.166667
3 140.166667
Nevybalancovaný pokus
Analýza množství tuku v mléce u 8 dojnic s vlivem efektů stáda a věku: aj - stádo (i =
1,2);bJ-vék (j = 1,2,3)
		věk		
		b,	b2	b3
stádo	ai	165 154	136	161
	a2		115 142 186	112
|u a2 Sij \\ b2
		165			ju + a^+b^+e^u			1	1	0	1	0	0				6in	
		154		ju + a^+b^ +e112				1	1	0	1	0	0				^112	
yi2i		136		ju + a^ + b2 + e121				1	1	0	0	1	0				6121	
yi3i		161	=	ju + a^ + b3 +e131				1	1	0	0	0	1		o2	+	^131	
y22i		115		ju + o2 + b2		+ e221		1	0	1	0	1	0				^221	
y222		142		ju + a2+b2+ e222				1	0	1	0	1	0				^222	
y223		186		ju + a2+b2+ e223				1	0	1	0	1	0				^223	
_y23i_		112		ju + a2+b3		+ e231 _		1	0	1	0	0	1				_^231 _	
y« 1		y = I			Xb + e				—				X	|. b|			+ e	
b = ?
Values
The GLM Procedure
The GLM Procedure Class Level Information Class Levels
a 2 12
b 3 123
Number of observations 8
Dependent Variable: y
Source Model Error
Corrected Total
Sum of
Squares   Mean Square   F Value   Pr > F
DF
3    748.575000 249.525000 4    3733.300000 933.325000 7 4481.875000
0.27 0.8465
R-Square   CoeffVar    Root MSE      y Mean 0.167023    20.87130    30.55037 146.3750
Source
a b
DF    Type IV SS   Mean Square   F Value   Pr > F
1 198.4500000 198.4500000
2 283.4500000 141.7250000
0.21 0.6687 0.15 0.8638
Aritm. průměry
BLUE/GLM
GLM Procedure
146,375			145,867
154,00	A1	6,3	152,167
138,75	A2	-6,3	139,567
159,50	B1	7,33	153,200
144,75	B2	2,03	147,900
136,50	B3	-9,37	136,500
Least Squares Means a      y LSMEAN
1
2
1
2
3
152.166667 139.566667
y LSMEAN
153.200000 147.900000 136.500000
2. disperzní (variančně kovarianční, VCV) matice pozorování:
Předpoklad: každý náhodný efekt eijk je vybrán ze základního souboru s nulovým průměrem a variancí např. 30 kg
V„ = cr2I =
0\
e9e
2C1
<7
3<=1
e,e
lc2
<7,
3C2
O"
e,e
lc3
O"
e9e
2C3
<T0
30
30
30
30
30
30
30
30
:30
= 30 l8 = 301 =
a2l
Maticový zápis:
je méně názorný než data zapsaná v tabulce
- ALE je kratší a úplnější než model skalární
musí se definovat matice X (Ta však při větším objemu dat může nabývat velikých rozměrů - nutná výkonná výpočetní technika a softwarové zázemí)
Řešení nejmenších čtverců pro zobecněný
lineární model (GLM)
y = Xb + e (y -Xb) (y -Xb) = e e y y - 2(Xb) y + (Xb) Xb = e e
derivace s ohledem, že b = 0 —► získáme normální rovnice
(XX) b = X y
b =(X^X)-1 X y       (V = I a2E)
Modifikace (Jsou-li pozorování korelovaná a nemají-li stejné variance)
(X V1X) b = X V 1y
b = (X^V-1X)-1 X^V"1y (V = V)
Řešení poslední rovnice se nazývá řešení „zobecněných nejmenších čtverců11 —► minimalizuje e^e.
Jedinec	Plemeno	Typ výživa	Hmotnost (kg)		intenzivní	extenzivní	Průměr	
1 2	Angus Angus Angus	intenzivní intenzivní extenzivní	494 556 542	Angus	494 556	542	530,67	
3				Hereford	632	473 544	549,67	
4	Hereford	extenzivní	473	Průměr	560,67	507,50	540,17	540,17
5	Hereford	intenzivní	632					-19,0000
6	Hereford	extenzivní	544					53,17
Př.A
Angus = Intensive =
Hereford Extenzivn
Využití lineárního modelu
y = u + plemeno + výživa + e
y = Xb + e
(XX) b = Xy
b = (XX)1 Xy
b
[.1]
Průměr [1,] 540.1667 [2,] -18.3750 [3,] 26.6250
u    plem výživa
11     1 I	I 494
11     1 I	I 556
11     -1 I	I 542
1-1     -1 I	j 473
1-1     1 I	j 632
1-1     -1 I	j 544
XX
[,1][,2] [,3] [1,]   6   0 0
[2,] 0 6 2 [3,]   0   2 6
X'y
Ml [1,] 3241 [2,] -57 [3,] 123
Jedinec	Plemeno	Typ krmení	Hmotnost (kg)	věk
1	Angus	intenzivní	494	18
2	Angus	intenzivní	556	21
3	Angus	extenzivní	542	19
4	Hereford	extenzivní	473	17
5	Hereford	intenzivní	632	23
6	Hereford	Extenzivní	544	19
		Součet:	3241	117
Př. B
Využití lineárního modelu
y = u + plemeno + výživa + věk + e
y = Xb + e
(XX) b = X'y
b = (XX)1 Xy
hmotnost ve věku efekt plemene efekt výživy efekt věku
U plem výživa věk	
11        1    18 |	| 494
11         1    21 j	I 556
11        -1    19 j	j 542
1     -1        -1    17 j	j 473
1-1         1    23 j	j 632
1     -1        -1    19 j	j 544
b
[.U
[1 ,]-11.3522013 [2,] -0.6981132 [3,]-12.2641509
[4,] 28.2830189
XX
1][,2] [,3] [,4] 6   0   0 117
[1
[2,] 0 6
[3,] 0 2
[4,] 117 -1
2 -1 6 7
7 2305
X'y
Ml [1,] 3241 [2,] -57 [3,] 123 [4,] 63779
Biometrické odhady genetických
parametrů
Problémy aplikace kvantitativní genetiky na populace zvířat jsou ve skutečnosti problémy statistických odhadů
Šlechtění je založeno na znalosti genetické struktury populací, kterou zatím pro kvant, vlastnosti nelze určovat přímo (frekvence alel a genotypů)
=> nutné analyzovat efekty, příčiny genetické a prostřeďové, které se podílejí na celkové proměnlivosti
2 parametrů =^> variance a kovariance.
Realizace
Zejména odhad PH jedince (OPH) (Estimate of Breeding Value - EBV) - který z odhadů je nejlepší odhad ?!?
Nejlepší odhady
BLUE	Best Linear Unbiased Estimators - nejlepší lineární nevychýlené odhady (nejmenších čtverců)
Nejlepší-Best	- nejlepší odhad průměru populace = náhodný vzorek (reprezentativní, dostatečný počet), pakje nejlepším odhadem - nejlepší odhad PH - souhrnná PH = vložit do selekčního indexu, který hodnotí všechny PH pro všechny hodnocené vlastnosti; nejlepším odhadem je hodnota, která maximalizuje genetický zisk - minimální variance = metodou nejmenších čtverců (metoda odhadu), které minimalizují varianci, tyto odhady jsou nejlepší, ale i nestranné (nevychýlené) a lineární
Využíváme:	lineární modely - každý odhad je počítán jako lineární kombinace pozorovaných hodnot nevychýlený - při opakovaném odhadu je střední hodnota odhadu identická se skutečnými parametry
y\ /v
odhad Ij je nevychýleným parametrem b, když  E{b) = b
Nevychýlenost (vyrovnanost) a přesnost (variabilita)
- (model terče)
0 - nepřesná (vychýlená) s nízkou variabilitou
q - presná (nevychýlená) s velkou variabilitou
- přesná (nevychýlená) s nízkou variabilitou
- nejlepší odhad
=> použít metodu BLUE - metoda odhadu nejmenších čtverců s pevnými efekty
Nejlepší předpovědi
BLUP	- Best Linear Unbiased Prediction - nejlepší lineárni nevychýlená předpověď NLNP (metoda nejmenších čtverců) - metoda odhadu nejmenších čtverců náhodných nebo smíšených modelů
smíšený model: mnohovlastnostní (multitrait)	y = Xb + Zu + e
	X, Z - incidenční matice, udávající, které efekty jsou obsaženy v pozorování b - vektor obsahující všechny fixní efekty (fixní genetické rozdíly a systematické vlivy prostředí) u - vektor všech náhodných systematických efektů (stádo, rok, sezóna); obsahuje také OPH e - náhodné nesystematické zbytkové efekty
Metody	Metoda nejmenších čtverců (LS) nebo zobecněných nejmenších čtverců (GLM), metoda maximální věrohodnosti (ML) nebo restringované maximální věrohodnosti (REML)
Lineární modely jsou silným a relativně jednoduchým nástrojem ke korigování rozdílných fixních efektů při nebalancovaných designech plánu pokusu.
Způsob řešení pro výběr odhadců je
mnoho
Ve šlechtění se v současné době využívá metoda
• nejmenších čtverců (least square - LS)
• zobecněných nejmenších čtverců (generalized least square - GLM)
• metoda maximální věrohodnosti (maximum likelihood -ML)
• či její modifikovaná metoda restringované maximální věrohodnosti (REML)
Metody založené na ML
Maximum Likelihood (ML)
REstricted Maximum Likelihood (REML)
maximilizuje pravděpodobnost pozorovaných dat daných parametrů
nebalancovaná data
komplexní rodokmenová struktura (matice příbuznosti) simultánní korekce pro fixní efekty Vyžaduje známou distribuci (normální)
Odhady jsou nevychýlené a jsou vždy v parametrovém prostoru
Funkce hustoty pravděpodobnosti normálního rozdělení:
.(y-MÝ
f(y) =
Očekávané průměry E(y) = Xb a var(y) = V Logaritmus věrohodnostní funkce:
L(b,V\X,y) = -\N log( 2x) - flog( \v\) - \ (y - Xb )' V   (y - Xb )
Rovnice dává pravděpodobnost parametrů (b, V) daných dat (X, y) Na pravé straně
první dva výrazy jsou očekávané hodnoty
poslední výraz je součet čtverců
1
č(log/_)/čb = -2X'V-'(y-Xb)
První derivace:
Derivace = 0 b = (XV 1X) 1XV 1y    Stejné jako pro LS odhady
Příklad algoritmu REML
Řešení rovnic smíšeného modelu s a priory hodnotou komponent variance (poměr)
X'X X^ir^l   [" Xy~
Z'X   ŽZ+QW-1     a Z'Y
2     Řešení komponent variance z MME
ájý(y'y - bOC'y -á'Z'y] / (N-r(X)) ae2/oa2) a iterovat mezi 1 a 2