prof. Ing. Tomáš Urban, Ph.D.
urban@mendelu.cz
Genetika kvantitativních znaků
ANOVA
Princip:
Detekce důležitých rozdílných zdrojů efektů
Určit jejich příspěvek na celkové varianci
Variance je odvozena ze součtu čtverců a stupňů volnosti
Nutné jedince ve skupinách se stejným stupněm příbuznosti
Skupiny polosourozenců podle otce
Rodiče – potomci
Kovariance mezi členy rodin nebo skupin = komponenta variance mezi
skupinami
Rozčlenění součtu čtverců (SS) podle zdrojů variance (skupina zvířat) a výpočet
středního čtverce (MS) ~ variance
Sire model – 1 f ANOVA
• Odhad korelace polosourozenců
2
A4
12
SSV  
• předpoklad, že otcové a matky jsou nepříbuzní, náhodně pářeni, bez selekce
• balancovaný design: p otců (sire) pářeno s n matkami (dam)  1 potomka
yij =  + ai + eij
2
E
2
A4
32
eeV   2
e
2
S
2
y  
Variance mezi skupinami
polosourozenců =
kovarianci mezi
polosourozenci ve skupině
cov(polos.) = cov(yij, yik) =
= σ2
S
To lze pomocí
ANOVA
odhadnout
2
A
2
S4  
Sire model – tabulka ANOVA
Zdroj
proměnlivosti
df SS MS E(MS)
Mezi rodinami
(mezi otci)
p – 1
V rodinách
(reziduální)
n – p
Celkem n – 1
2
e


p
i
iiS yynSS
1
2
)( 2
0
2
ge n  
)1( 

p
SS
MS S
S
 

p
i
n
j
iije
i
yySS
1 1
2
)(
)( pn
SS
MS e
e


 

p
i
n
j
ijc
i
yySS
1 1
2
)(
)1( 

n
SS
MS c
c
 
1
2
0



n
n
n n
ni
 
)1p)(pn(n
)1n(1)1)(1n.(2
.4s.4se
00
2
0
2
h2





2
0
2
0
2
gegea nMSnMS  
0
2
n
MSMS ea
g


22
2
eg
g
ir





2
2
22
2
2
444
P
g
eg
g
h




 


 
)1p)(1n(n
)1n(1)1.(2
.4s.4se
00
2
0
2
h2





Vybalancovaná data Nevybalancovaná data
2
eeMS 
Intraklasní korelační koeficient
Závěr výpočtu
• odhad koeficientu dědivosti
• odhad střední chyby h2
• intervalu spolehlivosti (hranice platnosti)
2
2
h
seh  ...... 2
 h
Př. 1 faktorové ANOVA pro výpočet h2
-skupin polosourozenců
Statistický model jednofaktorové
analýzy variance:
yij =  + ai + eij
yij – užitkovost j-tého potomka po i-tém otci
 – obecný průměr populace
ai – vliv i-tého otce
eij – ostatní nahodilé vlivy
n O1 O2 O3 O4 O5
1 717 732 603 648 690
2 704 694 731 669 650
3 753 691 737 693 788
4 700 631 678 718 678
5 675 683 747 606 611
6 793 592 763 669 674
7 691 680 687 657 658
8 687 618 618 600 717
Σ 5720 5321 5564 5260 5466
Výpočet součtu čtverců odchylek od průměru:
- mezi otci
- uvnitř skupin podle otců (reziduální)
n
Y
n
Y
SS
p
i i
i
a
2
1
2



 
 

 

p
i i
i
p
i
m
j
ije
n
Y
ySS
j
1
2
1 1
2
skupina
O1 5720 32718400 4089800,00 4100638
O2 5321 28313041 3539130,13 3554379
O3 5564 30958096 3869762,00 3894894
O4 5260 27667600 3458450,00 3469684
O5 5466 29877156 3734644,50 3753878
= 27331 18691786,63 18773473
= 746983561
p = 5 n = 40 ni = n0 = 8
 2
ijyii nY2

2
iYiY
Y
2
Y   ii nY2
 2
ijy
2
eeMS 
2
0
2
gea nMS  
Výsledek analýzy variance z programu SAS
Dependent Variable: potomek
Sum of
Source DF Squares Mean Square F Value Pr > F
Model (a) 4 17197.60000 4299.40000 1.84 0.1428
Error (e) 35 81686.37500 2333.89643
Corrected Total 39 98883.97500
Výpočet odhadu genetické variance podle otců:
2
0
2
0
2
gegea nMSnMS  
683,245
8
2333,89643-4299,4
0
2



n
MSMS ea
g
0952,0
896,2333368,245
368,245
22
2





eg
g
ir



2
2
22
2
2
444
P
g
eg
g
h




 


 
)1)(1(
)1(1)1.(2
.4.4
00
2
0
2
2



pnn
n
sseh


57,038,02
2
 h
seh
2 faktorová hierarchická ANOVA
• Odhad korelace u vlastních sourozenců a
polosourozenců
• Stanovení komponent variance mezi a v rodinách
vlastních sourozenců
• předpoklad, nejsou efekty dominance a společného prostředí
• balancovaný design: p otců (sire) pářeno s m matkami (dam)  n potomky
yijk =  + ai + bij + eijk
2222
edsy  
Variance mezi
skupinami úplných
sourozenců =
kovarianci mezi
úplnými sourozenci ve
skupině
Zdroj
proměnlivost
df SS MS E(MS)
Mezi otci
(mezi
rodinami)
p – 1
Mezi matkami
(uvnitř otců)
m – p
Mezi potomky
(v otcích a
matkách)
n – m
Cekem n – 1
2
e
 

p
i
m
j
iijS
i
yynSS
1 1
2
)( 2
3
2
2
2
OM gge kk  
)1( 

p
SS
MS S
S
  

p
i
m
j
n
k
ijijke
i ij
yySS
1 1 1
2
)(
)( mn
SS
MS e
e


)1( 

n
SS
MS c
c
)( pm
SS
MS d
d


 

p
i
m
j
iijijd
i
yynSS
1 1
2
)(
  

p
i
m
j
n
k
ijkc
i ij
yySS
1 1 1
2
)(
2
1
2
Mge k  
Odhad h2 u vlastních sourozenců a polosourozenců
a) podle otců
1
2
k
MSMS eb
gM


3
2
22
k
kMSMS M
O
gea
g




2
2
22
2
2
444
P
g
eg
g
OO
O
O
O
h




 


b) podle matek
2
2
22
2
2
444
P
g
eg
g
MM
M
M
M
h




 


c) podle otců a matek
2
22
222
22
2
222
P
gg
egg
gg
MOMO
MO
MO
MO
h









 
3
2
k
MSMS ba
gO

Když k1 = k2 :
potomků/matku = matek/otce
ANOVA v maticovém zápisu
Model NOVA můžeme výjádřit v maticích:
y = Xb + e
X je matice designová s 0 a 1, které sledují
experimentální plán a jeho lineární model
Zobecněný lineární model
y je sloupcový vektor
vlastnosti pro N jedinců
X je designová matice
(N  r)
b je vektor parametrů e je vektor reziduí
eXby 
Designová matice X
Jedinec Otec
1 1
2 1
3 3
4 2
5 3
6 1
7 2
8 1
9 3
10 2
O1 O2 O3
Jedinec
Otec
1
2
3
4
5
6
7
8
9
10
X
Řešení odhadů nejmenších čtverců
vektoru b
  yXXXb 
1
  yXbXX 
Metody založené na ML
Maximum Likelihood (ML)
REstricted Maximum Likelihood (REML)
Maximilizuje pravděpodobnost pozorovaných dat daných parametrů
Nebalancovaná data
Komplexní rodokmenová struktura (matice příbuznosti)
Simultánní korekce pro fixní efekty
Vyžaduje známou distribuci (normální)
Odhady jsou nevychýlené a jsou vždy v parametrovém prostoru
• Rovnice dává pravděpodobnost parametrů (b, V) daných dat (X, y)
• Na pravé straně
– první dva výrazy jsou očekávané hodnoty
– poslední výraz je součet čtverců
Logaritmus věrohodnostní funkce:
Očekávané průměry E(y) = Xb a var(y) = V
)(2/)(log 1
XbyX´Vb  
 L
yVX´XVX´b 111 ˆ)ˆ(ˆ 

První derivace:
Derivace = 0
Funkce hustoty pravděpodobnosti normálního rozdělení:
Stejné jako pro LS
odhady
Příklad algoritmu REML
Proč je REML lepší než ANOVA?
Je přesnější
Používá rovnice smíšeného modelu, takže využívá
příbuzenské vztahy všech zvířat (animal model)
Má tedy vlastnosti jako BLUP
Dovoluje řešit více komplikované smíšené modely
(maternální efekty, multiple traits ...) jako BLUP
ALE při vybalancovaném pokusu jsou výsledky
odhadů REML a ANOVA stejné
Heritability Estimates of Protein %, Fat %, Lactose %, Non Fat Solids and Total Solids of Dairy Cattle
in Northern Thailand
N. Chongkasikita, T. Vearasilpa and U. ter Meulenb
Deutscher Tropentag 2002, Witzenhausen, October 9-11, 2002, Conference on International
Agricultural Research for Development
530 krav, 3 chovy
protein %, tuk %, laktóza %, sušina bez tuku a celková sušina
Pevné efekty: stádo-rok, sezóna, podíl HF skotu, počet dní laktace (regrese)
AM BLUP, použití REML programem VCE4 (Groeneveld, 1998).
yijklm = µ + Ci + HFj + HYk + Sl + Am + b(Xijklm – X) + Eijklm
yijklm
µ
Ci
HFj
HYk
Sl
Am
b(Xijklm–X)
Eijklm
Produkční vlastnosti
průměr
Skupiny 1-10 podle % oblasti bíle zbarvené srsti (barva)
Skupiny 1-5 podle % Holstein Friesian plemene u krav
Stádo - Rok (1997, 1998, 1999, 2000 a 2001)
Období otelení (zima, léto a deště)
Jedinci (zvířata)
Věk při prvním otelení jako kovariata
Náhodné reziduální efekty
protein % tuk %
laktóza
%
sušina
bez tuku
celková
sušina
Heritabilita 0,342 0,379 0,238 0,260 0,133
VA 0,041 0,130 0,022 0,963 0,036
VE 0,079 0,212 0,069 2,736 0,238
Odhady komponent variance
Proces rozčlenění fenotypové variance na její komponenty (VA a
VE)
Proč odhadujeme komponenty variance?
Lepší porozumění mechanizmu kontrolující vlastnost
Nutné pro predikci plemenných hodnot
Nutné pro optimalizaci šlechtitelských programů
Měly by být komponenty variance znovu odhadovány v čase?
ANO > variance a kovariance se mění v čase v důsledku změn genetických
a prostředí (tj. selekce,…)
3. neparametrické metody
• obtížně měřitelné znaky
• neznáme fenotyp, známe pořadí
• korelační koeficient dle Spearmana
• stanovíme pořadí rodičů a nezávisle pořadí potomků;
• diference mezi pořadím di
)1.(
.6
1 2
2



nn
d
r i
s
n - počet dvojic
Př. Použití pořadového korelačního koeficientu podle
Spearmana u matek a dcer
matky dcery
% tuku pořadí % tuku pořadí
4,6 1 4,4 3
4,5 2 4,0 7
4,4 3 3,6 11
4,3 4 3,9 8
4,2 5 4,6 1
4,1 6 4,3 4
4,0 7 4,5 2
3,9 8 4,2 5
3,8 9 3,5 12
3,7 10 4,1 6
3,6 11 3,7 10
3,5 12 3,8 9
3077,0
)112(12
1986
1
)1(
6
1 22
1
2







nn
d
R
n
i
i
h2 = R2 = 0,0947
Př. Výpočet odhadu koeficientu dědivosti na základě zjištění
průměrného pořadí matka – dcera
• Vhodné využití u vlastností, které se nedají přesně číselně vyjádřit nebo při
sledování málo početného souboru.
• Užitkovost matek se seřadí podle pořadí od nejvyšší hodnoty užitkovosti do nejnižší
a podobně se provede určení pořadí u jejich dcer. Na základě stanovení pořadí u
matek přiřadíme ke každé matce pořadí její dcery.
• Soubor se rozdělí na polovinu a vypočítáme průměrné pořadí dcer (r) lepších a
horších matek a průměrné pořadí lepších a horších matek (R).
pořadí lepší matky horší matky
matek 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18
dcer 4 3 1 9 2 16 18 15 5 14 12 6 10 7 8 11 13 17
Výpočet odhadu koeficientu dědivosti podle:
- průměrného pořadí dcer a matek:
- průměrného pořadí dcer:
61728,022






RR
rr
h
61728,0
)(2
22


 
n
rr
h
4. selekční experiment
Realizovaná dědivost
Realizovaná dědivost v
genetickém zisku
xx
xx
h
s 

 02
d
G
h

2