Příklady k řešení – prázdné tabulky na doplnění (ZS 2019) 1 3.1.2. Výpočet odhadu koeficientu dědivosti pomocí analýzy variance užitkových hodnot u příbuzných jedinců. a) Analýza variance skupin polosourozenců V jednom chovu byl sledován přírůstek živé hmotnosti u býčků – polosourozenců ze strany otce, ve věku tří měsíců. Náhodně bylo z této neinbrední populace vybráno 40 polosourozenců, po pěti otcích (vybalancovaný design pokusu). Zjistěte pomocí analýzy variance skupin polosourozenců odhad koeficientu dědivosti a jeho střední chybu. Statistický model jednofaktorové analýzy variance: yij =  + ai + eij yij – užitkovost j-tého potomka po i-tém otci  – obecný průměr populace ai – vliv i-tého otce eij – ostatní nahodilé vlivy Předpočítané součty za skupiny podle otců .iY , jejich druhé mocniny 2 iY a součty čtverců  2 ijy . skupina .iY 2 iY i 2 i nY  2 ijy 1 5720 32718400 4089800,00 4100638 2 5321 28313041 3539130,13 3554379 3 5564 30958096 3869762,00 3894894 4 5260 27667600 3458450,00 3469684 5 5466 29877156 3734644,50 3753878 Y = 27331 18691786,63 18773473 2 Y  = 746983561   i 2 i nY  2 ijy Počet otců p = 5 Celkový počet potomků n = 40 Vážený/průměrný počet potomků na otce ni = n0 = 8 Výpočet součtu čtverců odchylek od průměru: - mezi otci SSa =      n Y n Y 2p 1i i 2 i = - uvnitř skupin podle otců (reziduální) SSe =       p 1i i 2 i p 1i m 1j 2 ij n Y y j = n O1 O2 O3 O4 O5 1 717 732 603 648 690 2 704 694 731 669 650 3 753 691 737 693 788 4 700 631 678 718 678 5 675 683 747 606 611 6 793 592 763 669 674 7 691 680 687 657 658 8 687 618 618 600 717  5720 5321 5564 5260 5466 Příklady k řešení – prázdné tabulky na doplnění (ZS 2019) 2 - pro celý pokus SSc =      n Y y 2p 1i m 1j 2 ij j 18773473 - (746983561/40) = Tabulka analýzy variance: Proměnlivost SS df MS složení MS Mezi skupinami (a) SSa p - 1 SSa/df = 2 g0 2 e n  Uvnitř skupin (e) SSe n - p SSe/df = 2 e Celková (c) Tady končí statistika a začíná genetika! Výpočet odhadu variance genetické podle otců: 2 g0e 2 g0 2 ea nMSnMS     0 ea2 g n MSMS = 2 e 2 g 2 P  = =     2 e 2 g 2 g ir =        2 P 2 g 2 e 2 g 2 g2 444h = Výpočet střední chyby odhadu koeficientu dědivosti: a) jako čtyřnásobek střední chyby intraklasního korelačního koeficientu (při stejném počtu pozorování ve skupinách):   )1p)(1n(n )1n(1)1.(2 .4s.4se 00 2 0 2 h2     = = b) na základě jeho velikosti váženém počtu jedinců ve skupině polosourozenců a počtu skupin polosourozenců: p 2 . n 4 hse 0 2 h2        = =  2 h 2 seh  Odhad koeficientu dědivosti na základě výpočtu analýzy variance polosourozenců byl svou hodnotou ……………. a jeho střední chyba byla ……………. Tento příklad je nereprezentativní z důvodu nízkého počtu sledování polosourozenců. Vypočítaný odhad koeficientu dědivosti je nepoužitelný pro svou vysokou střední chybu odhadu.   Výsledek ANOVY vypočítaný pomocí zobecněného lineárního modelu GLM v programu SAS The GLM Procedure Dependent Variable: y Sum of Source DF Squares Mean Square F Value Pr > F Model 4 17197.60000 4299.40000 1.84 0.1428 Error 35 81686.37500 2333.89643 Corrected Total 39 98883.97500   Příklady k řešení – prázdné tabulky na doplnění (ZS 2019) 3   Výsledek odhadu otcovské variance pomocí smíšeného modelu metodou REML v programu SAS The Mixed Procedure Model Information Dependent Variable y Covariance Structure Variance Components Estimation Method REML Residual Variance Method Profile Fixed Effects SE Method Model-Based Degrees of Freedom Method Containment Class Level Information Class Levels Values otec 5 1 2 3 4 5 Iteration History Iteration Evaluations -2 Res Log Like Criterion 0 1 420.05357726 1 1 419.26631336 0.00000000 Convergence criteria met. Covariance Parameter Estimates Cov Parm Estimate otec 245.69 <- variance genetická dle otců Residual 2333.90     ANOVA v programu R: data6 <- read.table("K:/R/data6.csv", header=T, sep=";") #načte data do tabulky, bez hlavičky a odstraní středník anova.data6 <- lm(potomek~otec, data=data6) # zápis pomocí lineárního modelu (lm) anova(anova.data6) # ukáže souhrnnou tabulku ANOVA Analysis of Variance Table Response: potomek Df Sum Sq Mean Sq F value Pr(>F) otec 4 17198 4299.4 1.8422 0.1428 Residuals 35 81686 2333.9     Smíšený lineární model (REML) v programu R: lmer.data6 <- lmer(potomek ~1+(1|otec),data=data6) summary(lmer.data6) Linear mixed model fit by REML ['lmerMod'] Formula: potomek ~ 1 + (1 | otec) Data: data6 REML criterion at convergence: 419.3 Scaled residuals: Min 1Q Median 3Q Max -1.77733 -0.49544 -0.04508 0.50849 2.16799 Random effects: Groups Name Variance Std.Dev. otec (Intercept) 245.7 15.67 Residual 2333.9 48.31 Number of obs: 40, groups: otec, 5 Fixed effects: Estimate Std. Error t value (Intercept) 683.27 10.37 65.91 Příklady k řešení – prázdné tabulky na doplnění (ZS 2019) 4 b) Analýza variance skupin vlastních sourozenců a polosourozenců Metoda analýzy variance skupin vlastních sourozenců a polosourozenců umožňuje simultánní výpočet odhadu koeficientu dědivosti, protože lze nezávisle na sobě odhadnout ze stejného sledování koeficienty dědivosti mezi polosourozenci ze strany otce nebo matky, a úplnými sourozenci na základě obou rodičů: 2 Oh 2 Mh 2 MOh  Byl sledován snáškový test nosnic v určitém chovu Otec Matka Užitkovost potomků ijY nij 1 1 78, 55, 50, 79, 46, 91, 54, 79, 63, 47 642 10 2 55, 66, 53, 75, 73, 63, 71, 61 517 8 3 62, 81, 45, 60, 72, 63, 53 436 7 4 69, 89, 58, 90, 65, 73, 95 539 7 5 78, 76, 81, 80, 82, 49, 85, 91, 64 686 9 iY = 2820 ni = 41 2 3 . . 5 21 72, 68, 88, 51, 47, 52, 71, 87 536 8 22 95, 56, 73, 76, 91, 53, 91 535 7 23 75, 92, 58, 50, 52, 87, 88, 69, 51 622 9 24 87, 77, 66, 93, 56, 84, 94, 97 654 8 25 75, 47, 77, 63, 62, 78, 85 487 7 26 66, 52, 64, 66, 64, 92, 74, 63, 58, 84 683 10 iY = 3517 ni = 49 Y = 15 904  2 ijky = 1 216 770 n = 218 počet otců: p = 5 počet matek: m = 26 počet potomků: n = 218 Model dvoufaktorové hierarchické analýzy variance: yij =  + ai + bij + eij yij – užitkovost j-tého potomka po i-tém otce  – obecný průměr populace ai – vliv i-tého otce bij – vliv j-té matky pod i-tým otcem eij – ostatní nahodilé vlivy Výpočet mezihodnot:    ij 2 ij n Y = = 1 175 398,79   i 2 i n Y = = 1 165 967,12 n Y2  = = 1 160 262,46 Příklady k řešení – prázdné tabulky na doplnění (ZS 2019) 5 Výpočet součtu čtverců odchylek od průměru: - mezi skupinami otců SSa =   p 1i 2 i 2 i n Y n Y = - mezi skupinami matek uvnitř otců SSb =      p 1i m 1j p 1i i 2 i ij 2 ij j n Y n Y - = - reziduální (mezi sourozenci uvnitř rodin) SSe =        p 1i m 1j n 1k p 1i m 1j ij 2 ij2 ijk j ij j n Y y = - pro celý pokus SSc =     p 1i m 1j n 1k 2 2 ijk j ij n Y y = Tabulka analýzy variance: Zdroj proměnlivosti Součet čtverců odchylek (SS) Stupeň volnosti (df) Průměrný čtverec (MS) Složení MS1 - mezi otci SSa = dfa = k - 1 = MSa = )n()m( 2 g3 2 g2 2 e OM  - mezi matkami uvnitř otců SSb = dfe = p - k = MSb = )n( 2 g1 2 e M  - mezi potomky uvnitř skupin podle matek SSe = dfe = n - p = MSe = 2 e - celková SSc = dfc = n - 1 = – průměrný počet potomků pro matku: n1 = 218/26 = 8,38 – průměrný počet matek pro otce: m2 = 26/5 = 5,20 – průměrný počet potomků pro otce: n3 = 218/5 = 43,60 Tady končí statistika a začíná genetika! Výpočet odhadu komponent variance: a) genetická variance podle matek    1 eb2 g n MSMS M = b) genetická variance podle otců    3 2 g2ea2 g n mMSMS M O = Když n1 = m2, pak 3 ba2 g n MSMS O   c) variance prostředí e 2 e MS = 1 n1 – vážený počet potomků na jednu matku m2 - vážený počet matek na jednoho otce n3 - vážený počet potomků na jednoho otce Příklady k řešení – prázdné tabulky na doplnění (ZS 2019) 6 Výpočet odhadu koeficientů dědivosti: a) podle otců 2 2 2 2 2 2 2 4 4 4O O O M g g O O g g e P h              = Střední chyba koeficientu dědivosti:        p 2 n 4 hse 3 2 Oh2 O = b) podle matek 2 2 2 2 2 2 2 4 4 4M M O M g g M M g g e P h              = Střední chyba koeficientu dědivosti:        m 2 n 4 hse 1 2 Mh2 M = c) podle matek i otců 2 2 2 2 2 2 2 2 2 2 2 2O M O M O M g g g g O M O M g g e P h                   = Střední chyba koeficientu dědivosti:   n 1 h4se 2 MOh2 MO =  2 Oh 2 O seh  2 Mh 2 M seh    2 MOh 2 MO seh Zjištěné odhady koeficientů dědivosti na základě analýzy variance skupin úplných sourozenců a polosourozenců byly svými hodnotami ………… a jejich střední chyby byly ………… v důsledku sledování ……………………..       Výpočet v SASu Výsledek při použití procedury GLM v SAS The GLM Procedure Dependent Variable: y Sum of Source DF Squares Mean Square F Value Pr > F Model 25 15136.32859 605.45314 2.81 <.0001 Error 192 41371.21270 215.47507 Corrected Total 217 56507.54128 R-Square Coeff Var Root MSE y Mean 0.267864 20.12096 14.67907 72.95413 Source DF Type I SS Mean Square F Value Pr > F otec 4 5704.659442 1426.164861 6.62 <.0001 matka(otec) 21 9431.669144 449.127102 2.08 0.0051 Příklady k řešení – prázdné tabulky na doplnění (ZS 2019) 7 Výsledek při použití procedury Mixed v SAS, metodou REML The Mixed Procedure Model Information Dependent Variable y Covariance Structure Variance Components Estimation Method REML Residual Variance Method Profile Fixed Effects SE Method Model-Based Degrees of Freedom Method Containment The Mixed Procedure Covariance Parameter Estimates Cov Parm Estimate otec 21.4241 otec(matka) 28.8662 Residual 215.02 V programu R: data7 <- read.table("K:/R/data7.csv", header=T, sep=";") #načte data, bez hlavičky a odstraní středník anova.data7 <- lm(y~ OTEC/MATKA, data=data7) # zápis pomocí lineárního modelu (lm) anova(anova.data7) # ukáže souhrnnou tabulku ANOVA Analysis of Variance Table Response: y Df Sum Sq Mean Sq F value Pr(>F) OTEC 4 5705 1426.16 6.6187 5.199e-05 *** OTEC:MATKA 21 9432 449.13 2.0844 0.005103 ** Residuals 192 41371 215.48 lmer.hierarchy <- lmer(y ~1+(1|OTEC/MATKA),data=data7) summary(lmer.hierarchy) Linear mixed model fit by REML ['lmerMod'] Formula: y ~ 1 + (1 | OTEC/MATKA) Data: data7 REML criterion at convergence: 1809.8 Scaled residuals: Min 1Q Median 3Q Max -1.9314 -0.8292 -0.0625 0.8188 2.0051 Random effects: Groups Name Variance Std.Dev. MATKA:OTEC (Intercept) 28.87 5.373 OTEC (Intercept) 21.42 4.629 Residual 215.02 14.663 Number of obs: 218, groups: MATKA:OTEC, 26; OTEC, 5 Fixed effects: Estimate Std. Error t value (Intercept) 73.701 2.544 28.97 Příklady k řešení – prázdné tabulky na doplnění (ZS 2019) 8 3.2.2. U 250 prasnic ve velkochovu byly sledovány počty všech narozených selat za jejich první čtyři vrhy. Vypočítejte odhad koeficientu opakovatelnosti této užitkové vlastnosti včetně jeho střední chyby. Tabulka výsledků jednofaktorové analýzy variance: Proměnlivost SS df MS složení MS Mezi skupinami jedinců mezi prasnicemi (a) 1681,99 dfa = p - 1 = 249 6,777 = 2 g0 2 e n  Uvnitř skupin (e) 3044,25 dfe 2 = n - p = 750 4,059 = 2 e Celková (c) 4756,24 dfc = n - 1 = 999 p = 250 počet prasnic n = 1000 počet sledovaných vrhů k = 4 počet opakování u jedné prasnice, zde platí: k = n0 vážený počet potomků Při nestejném počtu sledování je nutno n0 zjistit:               n n n 1p 1 n i 2 i 0 Odhad variance genetické: MSa = 2 g0 2 e n     0 ea2 g n MSMS = Odhad variance prostřeďové: 2 e = MSe Odhad variance fenotypové: 2 GEt 2 Et 2 GEp 2 Ep 2 G 2 P )(   = 2 e 2 g  2 P = Výpočet odhadu intraklasního koeficientu korelace opr - koeficientu opakovatelnosti:     2 P 2 g opr = Stanovení významnosti intraklasního koeficientu korelace pomocí F-testu:  e a MS MS F = Tabulkové hodnoty: F(249;750;0,05) = 1,22 a F(249;750;0,01) = 1,32 Hodnota intraklasního koeficientu korelace je vysoce průkazná. Výpočet střední chyby koeficientu opakovatelnosti (při stejném počtu opakování n0 = k):   )1p)(1n(n )1n(1)1.(2 se 00 2 0 2 rop    = = Při nestejném počtu sledování je:   )1p)(pn(n )1n(1)1)(1n.(2 se 2 0 2 0 2 rop    Výsledná hodnota: rop  oprse =  ÚMFGZ MENDELU urban@mendelu.cz listopad ’ 19 © Urban 2019 2 někde se uvádí i určení stupňů volnosti pro dfe = p(k-1) (výsledek je však stejný jako n-p)