Podzim 2010 ÚVOD DO KVANTITATIVNÍ REAL-TIME PCR 9. Úvahy nad experimentálním designem Statistické minimum & MIQE Minimum standard for the provision of information in quantitative PCR Kvantifikační strategie Statistické vyhodnocení Nulová hypotéza (není rozdíl), kterou se test buď potvrdí nebo vyvrátí Základní statistické parametry – průměr SD nebo medián x-percentil Parametrické testy - Normální rozložení - Stejný rozptyl - Dva vzorky t-test (one/two tailed) - Různé nezávislé proměnné - ANOVA (i tehdy, není-li rozložení úplně Gaussovské) Genová exprese (expresní poměry) mívá obvykle normální rozložení, pokud je vyjádřena v log scale. Neparametrické testy - Neznáme parametry rozložení - Testování rozdílů mezi nezávislými skupinami (Independent samples) dva vzorky, u kterých porovnáváme průměry některé z proměnných - Mann-Whitey U test; Kolmogorov-Smirnov test více skupin - Kruskal-Wallis test; Mediánový test -Testování rozdílů mezi závislými skupinami - Porovnávání proměnných, zjišťovaných na jednom vzorku - Wilcoxonův test (parametrická alternativa – t-test/ANOVA) - Hodnoty typu „mRNA přítomná/nepřítomná“ (dichotomické hodnoty) – McNemarův 2 test -Testování vztahů mezi proměnnými - Regrese a korelace (Spearmanův/Pearsonův korelační koeficient) - Standardní křivky Kvantifikační strategie Statistické vyhodnocení Kdy použít který test Parametrické vs. neparametrické testy RT-PCR Obvykle malý počet hodnot, s velkým rozptylem, většinou nesledujících normální rozložení -> neparametrické testy V případě většího počtu hodnot (>100), lze použít parametrické testy Neparametrické testy jsou méně náchylné k -chybám (nesprávné zamítnutí nulové hypotézy), ale jsou méně citlivé než parametrické (např. srovnání p u para < p u neparametrických testů), jako signifikantní označí větší rozdíl než parametrické testy. Kvantifikační strategie Statistické vyhodnocení Statistické vyhodnocení Kvantifikační strategie Analýza více genů/vzorků (clustering) Dvourozměrný graf Třírozměrný graf 0 50 100 150 200 250 300 0 20 40 60 80 100 Statistické vyhodnocení Kvantifikační strategie Analýza více genů/vzorků (hledání trendů, clustering) N různých genů – n různých proměnných – n rozměrný graf ? Př. 10000 genů… (microarray) Principal component analysis (PCA) Redukce počtu rozměrů (dimenzionality) na základě výpočtu kovariance mezi jednotlivými vzorky. Původní osy jdou nahrazeny tzv. komponentami Statistické vyhodnocení – shluková (clusterová) analýza Kvantifikační strategie Dendrogramy Statistické vyhodnocení – shluková (clusterová) analýza Kvantifikační strategie Self organizing maps (ANN, Kohonen) www.multid.se Kontrola dat (outliers) Úprava efektivity PCR Kompenzace variability mezi jednotlivými PCR (inter-plate calibration) Normalizace na stejné množství vzorku (RNA/DNA) Průměrování technických replikátů Výpočet množství/poměrů Vlastní statistická analýza Kritická místa statistického vyhodnocení Variabilita a její příčiny Biologická variabilita – experimenty odrážejí různorodost reality – nebudou nikdy identické Technická variabilita – chyby v měření, znemožňující adekvátní popis reality Experimentální design – chybná hypotéza vedoucí k výsledků platným pouze v rámci experimentu – biologické nebo klinické významnosti – data overestimation Bustin SA. 2010. Methods 50(4):217-226. Biologická variabilita Biologická variabilita • kombinace genotypových a fenotypových variací mezi jedinci • tkáně a buňky – dynamické systémy se schopností komplexní adaptace a reakce na různé podmínky Genetická variabilita polymorfismy, copy-number variace, alternativní splicing, posttranskripční a posttranslační regulace, epigenetické modifikace Fenotypová variabilita environmentální interakce, intra- a extraindividuální faktory (věk, životní/reprodukční cyklus, pohlaví, čas, nutriční stav…) Stochastická variabilita na úrovni kinetického šumu biochemických reakcí uvnitř jediné buňky = dynamické chování jediné buňky není přesně reprodukovatelné Biologická variabilita Expresní profily jednotlivých buněk se liší, i v rámci homogenní kultury Interakce mezi regulačními molekulami a DNA Lokalizace mRNA a proteinů v rámci buňky Epigenetické modifikace I geneticky identické buňky ve stejném prostředí mohou mít různý fenotyp Biologické informační dráhy jsou robustní, redundantní, závislé na buněčném, tkáňovém i environmentálním kontextu Biologická variabilita Biologicky relevantní interpretace pozorovaného jevu a jeho odlišení od přirozené variability a heterogenity v daném systému vyžaduje správný experimentální design, analytické metody a vhodný statistický model Slepě nepřejímat cizí protokoly, přemýšlet Technická variabilita jednoduchá, snadná, rychlá, citlivá metoda → Popularita ve vědecké komunitě adaptace, úpravy, specifikace protokolů… → Publikace dat s různou kvalitou problematická data zpochybňují i oprávněné interpretace → Nutnost standardů Technická variabilita a standardy MIQE PCR & qPCR Bustin SA. 2010. Methods 50(4):217-226. Technická variabilita Bustin SA. 2010. Methods 50(4):217-226. Cíle standardizace Bustin SA. 2010. Methods 50(4):217-226. Technická variabilita Experimentální design Derveaux S. et al. 2010. Methods 50(4):227-230. 1. Plán 2. Izolace RNA 3. RT 4. qPCR Typický experiment Minimalizace propagace technických chyb (errors of measurement) v experimentu Gene vs. sample maximization Technické chyby jsou nezávislé v každém experimentálním kroku a aditivní Subjekty Vzorky RT PCR Schéma: např. 2 x 3 x 3 x 3 2 3 3 3 myši 3 odběry vzorků a izolace RNA 3 RT ze každého vzorku 3 PCR replikáty z každé RT 2 6 18 54 Plánování experimentu – příklad: exprese jednoho genu ve dvou myších: Kitchen RR et al. 2010. Methods 50(4):231-236. Kitchen RR et al. 2010. Methods 50(4):231-236. Každý krok vnáší do analýzy variabilitu, kterou lze charakterizovat Určení faktorů , které omezují variabilitu systému umožňuje kalkulovat náklady Kitchen RR et al. 2010. Methods 50(4):231-236. powerNest www.powernest.net Conclusion Jak navrhnout správný experiment? – Definovat jej před vlastním začátkem experimentu – Brát v úvahu hypotézu – Být maximálně jednoduchý (co nejméně komplexní) – Maximálně kontrolovatelný – Technicky a ekonomicky proveditelný, statisticky vyhodnotitelný Nežádoucí Technická: zpracování vzorku (sampling, izolace, RT-PCR) Řešení: replikáty, normalizace k internímu standardu Biologická: rozdíly mezi vzorky (bazální exprese, odpověď na treatment) Řešení: opakovaná měření, normalizace ke kontrolní skupině Hledaná Rozdíly mezi testovanými skupinami Náhodný sampling, velký soubor Variabilita dat