prof. Ing. Tomáš Urban, Ph.D. urban@mendelu.cz Genetika kvantitativních znaků ANOVA Princip: Detekce důležitých rozdílných zdrojů efektů Určit jejich příspěvek na celkové varianci Variance je odvozena ze součtu čtverců a stupňů volnosti Nutné jedince ve skupinách se stejným stupněm příbuznosti Skupiny polosourozenců podle otce Rodiče – potomci Kovariance mezi členy rodin nebo skupin = komponenta variance mezi skupinami Rozčlenění součtu čtverců (SS) podle zdrojů variance (skupina zvířat) a výpočet středního čtverce (MS) ~ variance Sire model – 1 f ANOVA • Odhad korelace polosourozenců 2 A4 12 SSV   • předpoklad, že otcové a matky jsou nepříbuzní, náhodně pářeni, bez selekce • balancovaný design: p otců (sire) pářeno s n matkami (dam)  1 potomka yij =  + ai + eij 2 E 2 A4 32 eeV   2 e 2 S 2 y   Variance mezi skupinami polosourozenců = kovarianci mezi polosourozenci ve skupině cov(polos.) = cov(yij, yik) = = σ2 S To lze pomocí ANOVA odhadnout 2 A 2 S4   Sire model – tabulka ANOVA Zdroj proměnlivosti df SS MS E(MS) Mezi rodinami (mezi otci) p – 1 V rodinách (reziduální) n – p Celkem n – 1 2 e   p i iiS yynSS 1 2 )( 2 0 2 ge n   )1(   p SS MS S S    p i n j iije i yySS 1 1 2 )( )( pn SS MS e e      p i n j ijc i yySS 1 1 2 )( )1(   n SS MS c c   1 2 0    n n n n ni   )1p)(pn(n )1n(1)1)(1n.(2 .4s.4se 00 2 0 2 h2      2 0 2 0 2 gegea nMSnMS   0 2 n MSMS ea g   22 2 eg g ir      2 2 22 2 2 444 P g eg g h           )1p)(1n(n )1n(1)1.(2 .4s.4se 00 2 0 2 h2      Vybalancovaná data Nevybalancovaná data 2 eeMS  Intraklasní korelační koeficient Závěr výpočtu • odhad koeficientu dědivosti • odhad střední chyby h2 • intervalu spolehlivosti (hranice platnosti) 2 2 h seh  ...... 2  h Př. 1 faktorové ANOVA pro výpočet h2 -skupin polosourozenců Statistický model jednofaktorové analýzy variance: yij =  + ai + eij yij – užitkovost j-tého potomka po i-tém otci  – obecný průměr populace ai – vliv i-tého otce eij – ostatní nahodilé vlivy n O1 O2 O3 O4 O5 1 717 732 603 648 690 2 704 694 731 669 650 3 753 691 737 693 788 4 700 631 678 718 678 5 675 683 747 606 611 6 793 592 763 669 674 7 691 680 687 657 658 8 687 618 618 600 717 Σ 5720 5321 5564 5260 5466 Výpočet součtu čtverců odchylek od průměru: - mezi otci - uvnitř skupin podle otců (reziduální) n Y n Y SS p i i i a 2 1 2            p i i i p i m j ije n Y ySS j 1 2 1 1 2 skupina O1 5720 32718400 4089800,00 4100638 O2 5321 28313041 3539130,13 3554379 O3 5564 30958096 3869762,00 3894894 O4 5260 27667600 3458450,00 3469684 O5 5466 29877156 3734644,50 3753878 = 27331 18691786,63 18773473 = 746983561 p = 5 n = 40 ni = n0 = 8  2 ijyii nY2  2 iYiY Y 2 Y   ii nY2  2 ijy 2 eeMS  2 0 2 gea nMS   Výsledek analýzy variance z programu SAS Dependent Variable: potomek Sum of Source DF Squares Mean Square F Value Pr > F Model (a) 4 17197.60000 4299.40000 1.84 0.1428 Error (e) 35 81686.37500 2333.89643 Corrected Total 39 98883.97500 Výpočet odhadu genetické variance podle otců: 2 0 2 0 2 gegea nMSnMS   683,245 8 2333,89643-4299,4 0 2    n MSMS ea g 0952,0 896,2333368,245 368,245 22 2      eg g ir    2 2 22 2 2 444 P g eg g h           )1)(1( )1(1)1.(2 .4.4 00 2 0 2 2    pnn n sseh   57,038,02 2  h seh 2 faktorová hierarchická ANOVA • Odhad korelace u vlastních sourozenců a polosourozenců • Stanovení komponent variance mezi a v rodinách vlastních sourozenců • předpoklad, nejsou efekty dominance a společného prostředí • balancovaný design: p otců (sire) pářeno s m matkami (dam)  n potomky yijk =  + ai + bij + eijk 2222 edsy   Variance mezi skupinami úplných sourozenců = kovarianci mezi úplnými sourozenci ve skupině Zdroj proměnlivost df SS MS E(MS) Mezi otci (mezi rodinami) p – 1 Mezi matkami (uvnitř otců) m – p Mezi potomky (v otcích a matkách) n – m Cekem n – 1 2 e    p i m j iijS i yynSS 1 1 2 )( 2 3 2 2 2 OM gge kk   )1(   p SS MS S S     p i m j n k ijijke i ij yySS 1 1 1 2 )( )( mn SS MS e e   )1(   n SS MS c c )( pm SS MS d d      p i m j iijijd i yynSS 1 1 2 )(     p i m j n k ijkc i ij yySS 1 1 1 2 )( 2 1 2 Mge k  Odhad h2 u vlastních sourozenců a polosourozenců a) podle otců 1 2 k MSMS eb gM   3 2 22 k kMSMS M O gea g     2 2 2 2 2 2 2 4 4 4O O O M g g O O g g e P h             b) podle matek 2 2 2 2 2 2 2 4 4 4M M O M g g M M g g e P h             c) podle otců a matek 2 2 2 2 2 2 2 2 2 2 2 2O M O M O M g g g g O M O M g g e P h                  3 2 k MSMS ba gO  Když k1 = k2 : potomků/matku = matek/otce ANOVA v maticovém zápisu Model NOVA můžeme výjádřit v maticích: y = Xb + e X je matice designová s 0 a 1, které sledují experimentální plán a jeho lineární model Zobecněný lineární model y je sloupcový vektor vlastnosti pro N jedinců X je designová matice (N  r) b je vektor parametrů e je vektor reziduí eXby  Designová matice X Jedinec Otec 1 1 2 1 3 3 4 2 5 3 6 1 7 2 8 1 9 3 10 2 O1 O2 O3 Jedinec Otec 1 2 3 4 5 6 7 8 9 10 X Řešení odhadů nejmenších čtverců vektoru b   yXXXb  1   yXbXX  Metody založené na ML Maximum Likelihood (ML) REstricted Maximum Likelihood (REML) Maximilizuje pravděpodobnost pozorovaných dat daných parametrů Nebalancovaná data Komplexní rodokmenová struktura (matice příbuznosti) Simultánní korekce pro fixní efekty Vyžaduje známou distribuci (normální) Odhady jsou nevychýlené a jsou vždy v parametrovém prostoru • Rovnice dává pravděpodobnost parametrů (b, V) daných dat (X, y) • Na pravé straně – první dva výrazy jsou očekávané hodnoty – poslední výraz je součet čtverců Logaritmus věrohodnostní funkce: Očekávané průměry E(y) = Xb a var(y) = V )(2/)(log 1 XbyX´Vb    L yVX´XVX´b 111 ˆ)ˆ(ˆ   První derivace: Derivace = 0 Funkce hustoty pravděpodobnosti normálního rozdělení: Stejné jako pro LS odhady Příklad algoritmu REML Proč je REML lepší než ANOVA? Je přesnější Používá rovnice smíšeného modelu, takže využívá příbuzenské vztahy všech zvířat (animal model) Má tedy vlastnosti jako BLUP Dovoluje řešit více komplikované smíšené modely (maternální efekty, multiple traits ...) jako BLUP ALE při vybalancovaném pokusu jsou výsledky odhadů REML a ANOVA stejné Heritability Estimates of Protein %, Fat %, Lactose %, Non Fat Solids and Total Solids of Dairy Cattle in Northern Thailand N. Chongkasikita, T. Vearasilpa and U. ter Meulenb Deutscher Tropentag 2002, Witzenhausen, October 9-11, 2002, Conference on International Agricultural Research for Development 530 krav, 3 chovy protein %, tuk %, laktóza %, sušina bez tuku a celková sušina Pevné efekty: stádo-rok, sezóna, podíl HF skotu, počet dní laktace (regrese) AM BLUP, použití REML programem VCE4 (Groeneveld, 1998). yijklm = µ + Ci + HFj + HYk + Sl + Am + b(Xijklm – X) + Eijklm yijklm µ Ci HFj HYk Sl Am b(Xijklm–X) Eijklm Produkční vlastnosti průměr Skupiny 1-10 podle % oblasti bíle zbarvené srsti (barva) Skupiny 1-5 podle % Holstein Friesian plemene u krav Stádo - Rok (1997, 1998, 1999, 2000 a 2001) Období otelení (zima, léto a deště) Jedinci (zvířata) Věk při prvním otelení jako kovariata Náhodné reziduální efekty protein % tuk % laktóza % sušina bez tuku celková sušina Heritabilita 0,342 0,379 0,238 0,260 0,133 VA 0,041 0,130 0,022 0,963 0,036 VE 0,079 0,212 0,069 2,736 0,238 Odhady komponent variance Proces rozčlenění fenotypové variance na její komponenty (VA a VE) Proč odhadujeme komponenty variance? Lepší porozumění mechanizmu kontrolující vlastnost Nutné pro predikci plemenných hodnot Nutné pro optimalizaci šlechtitelských programů Měly by být komponenty variance znovu odhadovány v čase? ANO > variance a kovariance se mění v čase v důsledku změn genetických a prostředí (tj. selekce,…) 3. neparametrické metody • obtížně měřitelné znaky • neznáme fenotyp, známe pořadí • korelační koeficient dle Spearmana • stanovíme pořadí rodičů a nezávisle pořadí potomků; • diference mezi pořadím di )1.( .6 1 2 2    nn d r i s n - počet dvojic Př. Použití pořadového korelačního koeficientu podle Spearmana u matek a dcer matky dcery % tuku pořadí % tuku pořadí 4,6 1 4,4 3 4,5 2 4,0 7 4,4 3 3,6 11 4,3 4 3,9 8 4,2 5 4,6 1 4,1 6 4,3 4 4,0 7 4,5 2 3,9 8 4,2 5 3,8 9 3,5 12 3,7 10 4,1 6 3,6 11 3,7 10 3,5 12 3,8 9 3077,0 )112(12 1986 1 )1( 6 1 22 1 2        nn d R n i i h2 = R2 = 0,0947 Př. Výpočet odhadu koeficientu dědivosti na základě zjištění průměrného pořadí matka – dcera • Vhodné využití u vlastností, které se nedají přesně číselně vyjádřit nebo při sledování málo početného souboru. • Užitkovost matek se seřadí podle pořadí od nejvyšší hodnoty užitkovosti do nejnižší a podobně se provede určení pořadí u jejich dcer. Na základě stanovení pořadí u matek přiřadíme ke každé matce pořadí její dcery. • Soubor se rozdělí na polovinu a vypočítáme průměrné pořadí dcer (r) lepších a horších matek a průměrné pořadí lepších a horších matek (R). pořadí lepší matky horší matky matek 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 dcer 4 3 1 9 2 16 18 15 5 14 12 6 10 7 8 11 13 17 Výpočet odhadu koeficientu dědivosti podle: - průměrného pořadí dcer a matek: - průměrného pořadí dcer: 61728,022       RR rr h 61728,0 )(2 22     n rr h 4. selekční experiment Realizovaná dědivost Realizovaná dědivost v genetickém zisku xx xx h s    02 d G h  2