Biometrické metody v genetice, odhadů genetických parametrů prof. Ing. Tomáš Urban, Ph.D. urban@mendelu.cz Genetika kvantitativních znaků Cíle • Popsat genetickou strukturu populací (odhad komponent variance a kovariance) a popsat změny genetické výstavby populací • Na znalosti genetické struktury populací jsou založeny šlechtitelské programy Možnosti biometrických metod: 1. Odhady výkonnosti populací – čistokrevné i hybridní 2. odhady genetických parametrů - h2, rop, rG, … 3. odhady plemenné hodnoty (PH) – rozdíly mezi jedincem a vrstevníky, očištěný od negenetických vlivů (realizace šlecht. programů) 4. Stanovení selekčního (genetického) zisku 5. Optimalizace selekčních a hybridizačních programů Uplatnění poznatků: molekulární a biochemické genetiky, cytogenetiky, imunogenetiky a genové manipulace v genetice populací Proč biometrické metody v genetice Kvantitativní genetika – hodnocení pomocí modelů Biometrika v genetice ( kvantitativní genetika) Účinek polygenů se sleduje na základě počtu pravděpodobnosti (hromadné jevy). Společné efekty více genů vytváří proměnlivost, většinou s normálním rozdělením, kterou lze analyzovat matematicko-statistickými operacemi. Teorie: přenos GI u kvantitativních vlastností je polygenní (velký počet lokusů s mendelistickým přenosem + větší či menší vliv prostředí - vnitřní a vnější). Operační metody pro analýzu přenosu této GI: biometrické. Analýza variance (ANOVA) Funkce ANOVA (Fisher 1918): 1. odhad pevných efektů 2. odhad komponent (složek) variance – podíl jednotlivých variancí, např. varianci genotypovou nebo prostředí 3. testování hypotéz o příčinách variance modelem (jak vznikla, velikost vlivu faktorů) 22 2 2 1 2 ... kcelková   ANOVA nebalancované metody Balancované metody –výjimečné –speciální případ nebalancované metody 1. velké systém rovnic s využitím matic 2. nelze realizovat podle plánu – náhodný efekt (využití u zvířat) 3. hodnotí se chovy, šlechtění (software: Harvey, SAS, BMPD) – metody nejmenších čtverců, maximální věrohodnosti 1. přesnější 2. plánované pokusy (u zvířat toho nelze dosáhnout) 1. otec má 100 potomků, 2. jich má 50 a 3. 10 –> to je nebalancované - stejný počet pozorování ve všech podtřídách Biometrické modely - lineární Pravdivý (skutečný, teoretický) model popisuje data přesně, bez reziduální nebo nevysvětlené variance. Variance P je vyčerpána faktory. Pravdivý model není nikdy přesně znám. Ideální (praktický) model je vytvořen výzkumníkem, který je tak blízký skutečnému modelu, jak jen to je možné. Takový model by se měl používat k analýzám, ale často není dostatek informací (chybí). Operační (pracovní, proveditelný) model je zjednodušená forma ideálního modelu a je využíván výzkumníky v analýzách. Na této úrovni se vede široká diskuse o nejlepší operační model. Biometrické metody spočívají na lineárních biometrických modelech. Pozorování Vektor pozorování obsahuje prvky vyplývající z měření vlastnosti v daných jednotkách - předpoklad – že se jedná o náhodný výběr z nekonečně velké populace Efekty  Efekty (faktory) se vztahují k proměnným, které mohou ovlivňovat nebo být ve vztahu k prvkům ve vektoru pozorování  Diskrétní efekty mají obvykle třídy nebo úrovně  „obtěžující efekty“ - musí být zahrnuty → minimalizace e Pevné a náhodné efekty Pevné efekty (fixní) jsou ty, v kterých úrovně zahrnují všechny možné úrovně, které lze pozorovat. Náhodné efekty jsou efekty, jejichž úrovně jsou považovány za náhodně vybrané z nekonečně velké populace úrovní. 1. Kolik úrovní má efekt v modelu? Jestliže málo, pak je to pravděpodobně pevný efekt, jestliže mnoho, pak se jedná o náhodný efekt. 2. Je počet úrovní efektu v populaci dost velký na to, aby mohla být považována za nekonečnou? Jestliže ano, pak je pravděpodobně efekt náhodný. 3. Budou použity opět stejné úrovně, jestliže by byl experiment opakován podruhé? Jestliže ano, pak se jedná pravděpodobně o pevný efekt. 4. Byly úrovně efektu určeny nenáhodným způsobem? Jestliže ano, pak by měl být efekt určen jako pevný. Modely Lineární modely obsahují řadu efektů (faktorů), které aditivně ovlivňují pozorování V tradičním smyslu jsou lineární modely složeny ze tří částí: 1. Rovnice. 2. Matice očekávaných hodnot a variančně kovarianční matice náhodných proměnných. 3. Předpoklady a omezení. ad 1. Rovnice Rovnice modelu definuje efekty, které mohou mít vliv na pozorovanou vlastnost. Čím více faktorů pokryjeme, tím je výpočet přesnější, tím více se blížíme k variabilitě způsobenou genotypem. Lineární funkce určitých parametrů a proměnných: yij =  + bi + uj + eijk y = Xb + Zu + e ad 2. Matice očekávaných hodnot a VCV                      0 0 Xb e u y E             R G e u 0 0 V ad 3. Předpoklady a omezení informace o datech nebo způsob jejich sběru, náhodnost výběru, podmínkách chovu apod. kde G a R jsou základní čtvercové matice s předpokladem nesingularity a pozitivní definovanosti a s prvky, které jsou známé. Takže: V(y) = ZGZ´+ R. Typy lineárních modelů Lineární modely (obecně) yij =  + ai + eij eij N(0, 2 e); ai = faktor s i-tými úrovněmi Regresní modely – funkční vztahy yi = a + bXi + ei a – konstanta, b, regresní koef., a, b odhadujeme MNČ nebo MV) Mnohonásobné regresní vztahy yi = a + b1X1i + b2X2i + b3X3i + ei Modely s pevnými efekty (více faktorové) yijkl =  + ai + bj + ck + eijk, yijk =  + ai + bij + eijk Modely s náhodnými efekty yijkl =  + i + j + k + eijk i N(0, 2 ) Modely se smíšenými efekty yijk =  + ai +  j + eijk smíšené modely se používají k odhadu PH Komplikují odhad komponent variance Komplikují odhad fixních efektů Vyjádření modelů maticovým zápisem Skalární zápis modelu s pevnými efekty: yijk =  + ai + bj + eijk jedna pozorovaná hodnota (zastupuje všechny pozor. hodnoty) je symbolicky znázorněna Maticový model s pevnými efekty, kde jsou vyjádřeny všechny pozorované hodnoty y = Xb + e y – vektor pozorování X – incidenční matice (designová, strukturní matice) – uvádí, které pevné efekty jsou obsaženy v y) b – vektor odhadovaných parametrů c – vektor náhodných efektů: e  N(0, I 2 e) Analýza množství tuku v mléce u 18 dojnic s vlivem efektů stáda a věku: ai – stádo (i = 1, 2) ; bj – věk (j = 1, 2, 3) .....ˆ yya ii  ...ˆ yj .....ˆ yyb jj  věk b1 b2 b3 stádo a1 165 154 148 136 116 128 161 157 165 a2 168 154 120 115 142 186 112 118 128 Vybalancovaný pokus a1 = 4,83 a2 = -4,83 b1 = 8,56 b2 = -5,78 b3 = -2,78 Ověřit v SAS ! průměr 147,78 138,11 průměr 151,50 137,17 140,17 142,94 The GLM Procedure Class Level Information Class Levels Values a 2 1 2 b 3 1 2 3 Number of observations 18 Dependent Variable: y Sum of Source DF Squares Mean Square F Value Pr > F Model 3 1106.277778 368.759259 0.71 0.5608 Error 14 7250.666667 517.904762 Corrected Total 17 8356.944444 R-Square Coeff Var Root MSE y Mean 0.132378 15.92054 22.75752 142.9444 Source DF Type IV SS Mean Square F Value Pr > F a 1 420.5000000 420.5000000 0.81 0.3828 b 2 685.7777778 342.8888889 0.66 0.5312 GLM Procedure Least Squares Means a y LSMEAN 1 147.777778 2 138.111111 b y LSMEAN 1 151.500000 2 137.166667 3 140.166667 Aritm. průměr BLUE / GLM 142,9444  142,94444 147,7778 A1 4,8333333 147,778 138,1111 A2 -4,833333 138,111 151,5 B1 8,5555556 151,500 137,1667 B2 -5,777778 137,167 140,1667 B3 -2,777778 140,167 Analýza množství tuku v mléce u 8 dojnic s vlivem efektů stáda a věku: ai – stádo (i = 1, 2) ; bj – věk (j = 1, 2, 3) věk b1 b2 b3 stádo a1 165 154 136 161 a2 115 142 186 112                            231 223 222 221 131 121 112 111 y y y y y y y y                            100101 010101 010101 010101 100011 010011 001011 001011                            112 186 142 115 161 136 154 165                                   23132 22322 22222 22122 13131 12121 11211 11111 eba eba eba eba eba eba eba eba         y                      3 2 1 2 1 . b b b a a                             231 223 222 221 131 121 112 111 e e e e e e e e b = ? Nevybalancovaný pokus 32121 bbbaa y = Xb + e = X . b + e 2. disperzní (variančně kovarianční, VCV) matice pozorování: Předpoklad: každý náhodný efekt eijk je vybrán ze základního souboru s nulovým průměrem a variancí např. 30 kg                            1 1 1 1 1 1 1 1 .30                           30 30 30 30 30 30 30 30 = 30 I8 = 30I = 2I  Maticový zápis: – je méně názorný než data zapsaná v tabulce – ALE je kratší a úplnější než model skalární – musí se definovat matice X (Ta však při větším objemu dat může nabývat velikých rozměrů – nutná výkonná výpočetní technika a softwarové zázemí)                             ...... ...... ...... ...... ...... ... ... ... 2 eeeee ee 2 eee eeee 2 e 2 32313 32212 31211     IVe The GLM Procedure The GLM Procedure Class Level Information Class Levels Values a 2 1 2 b 3 1 2 3 Number of observations 8 Dependent Variable: y Sum of Source DF Squares Mean Square F Value Pr > F Model 3 748.575000 249.525000 0.27 0.8465 Error 4 3733.300000 933.325000 Corrected Total 7 4481.875000 R-Square Coeff Var Root MSE y Mean 0.167023 20.87130 30.55037 146.3750 Source DF Type IV SS Mean Square F Value Pr > F a 1 198.4500000 198.4500000 0.21 0.6687 b 2 283.4500000 141.7250000 0.15 0.8638 GLM Procedure Least Squares Means a y LSMEAN 1 152.166667 2 139.566667 b y LSMEAN 1 153.200000 2 147.900000 3 136.500000 Aritm. průměry BLUE / GLM 146,375  145,867 154,00 A1 6,3 152,167 138,75 A2 -6,3 139,567 159,50 B1 7,33 153,200 144,75 B2 2,03 147,900 136,50 B3 -9,37 136,500 Řešení nejmenších čtverců pro zobecněný lineární model (GLM) y = Xb + e (y –Xb)` (y –Xb) = e`e y`y – 2(Xb)`y + (Xb)`Xb = e`e derivace s ohledem, že b = 0 → normální rovnice (X`X) b = X`y b =(X`X)-1 X`y (V = I σ2 E) Modifikace (Jsou-li pozorování korelovaná a nemají-li stejné variance) (X`V-1X) b = X`V-1y b = (X`V-1X)-1 X`V-1y (V = V) Řešení poslední rovnice se nazývá řešení „zobecněných nejmenších čtverců“ → minimalizuje e`e. Biometrické odhady genetických parametrů Problémy aplikace kvantitativní genetiky na populace zvířat jsou ve skutečnosti problémy statistických odhadů Šlechtění je založeno na znalosti genetické struktury populací, kterou zatím pro kvant. vlastnosti nelze určovat přímo (frekvence alel a genotypů)  nutné analyzovat efekty, příčiny genetické a prostřeďové, které se podílejí na celkové proměnlivosti 2 parametrů  variance a kovariance. Realizace odhad PH jedince (OPH) (Estimate of Breeding Value – EBV) odhad genotypových hodnot skupin jedinců - který z odhadů je nejlepší odhad ?!? Nejlepší odhady BLUE Best Linear Unbiased Estimators - nejlepší lineární nevychýlené odhady (nejmenších čtverců) Nejlepší - Best - nejlepší odhad průměru populace = náhodný vzorek (reprezentativní, dostatečný počet), pak je nejlepším odhadem - nejlepší odhad PH - souhrnná PH = vložit do selekčního indexu, který hodnotí všechny PH pro všechny hodnocené vlastnosti; nejlepším odhadem je hodnota, která maximalizuje genetický zisk - minimální variance = metodou nejmenších čtverců (metoda odhadu), které minimalizují varianci, tyto odhady jsou nejlepší, ale i nestranné (nevychýlené) a lineární Využíváme: lineární modely – každý odhad je počítán jako lineární kombinace pozorovaných hodnot nevychýlený – při opakovaném odhadu je střední hodnota odhadu identická se skutečnými parametry bˆ bbE )ˆ(je nevychýleným parametrem b, kdyžodhad Nevychýlenost (vyrovnanost) a přesnost (variabilita) - (model terče) - nepřesná (vychýlená) s nízkou variabilitou - přesná (nevychýlená) s velkou variabilitou - přesná (nevychýlená) s nízkou variabilitou - nejlepší odhad  použít metodu BLUE - metoda odhadu nejmenších čtverců s pevnými efekty Nejlepší předpovědi BLUP - Best Linear Unbiased Prediction - nejlepší lineární nevychýlená předpověď NLNP (metoda nejmenších čtverců) - metoda odhadu nejmenších čtverců náhodných nebo smíšených modelů smíšený model: mnohovlastnostní (multitrait) y = Xb + Zu + e X, Z – incidenční matice, udávající, které efekty jsou obsaženy v pozorování b – vektor obsahující všechny fixní efekty (fixní genetické rozdíly a systematické vlivy prostředí) u – vektor všech náhodných systematických efektů (stádo, rok, sezóna); obsahuje také OPH e – náhodné nesystematické zbytkové efekty Metody Metoda nejmenších čtverců (LS) nebo zobecněných nejmenších čtverců (GLM), metoda maximální věrohodnosti (ML) nebo restringované maximální věrohodnosti (REML) Způsob řešení pro výběr odhadců je mnoho Ve šlechtění se v současné době využívá metoda • nejmenších čtverců (least square – LS) • zobecněných nejmenších čtverců (generalized least square – GLM) • metoda maximální věrohodnosti (maximum likelihood – ML) • či její modifikovaná metoda restringované maximální věrohodnosti (REML) Metody založené na ML Maximum Likelihood (ML) REstricted Maximum Likelihood (REML) maximilizuje pravděpodobnost pozorovaných dat daných parametrů nebalancovaná data komplexní rodokmenová struktura (matice příbuznosti) simultánní korekce pro fixní efekty Vyžaduje známou distribuci (normální) Odhady jsou nevychýlené a jsou vždy v parametrovém prostoru Rovnice dává pravděpodobnost parametrů (b, V) daných dat (X, y) Na pravé straně první dva výrazy jsou očekávané hodnoty poslední výraz je součet čtverců )(2/)L(log 1 XbyX´Vb    Logaritmus věrohodnostní funkce: Očekávané průměry E(y) = Xb a var(y) = V )(2/)(log 1 XbyX´Vb    L yVX´XVX´b 111 ˆ)ˆ(ˆ   První derivace: Derivace = 0 Funkce hustoty pravděpodobnosti normálního rozdělení: Stejné jako pro LS odhady Příklad algoritmu REML