FSTA: Pokročilé statistické metody Lineární modely – základy Jiří Jarkovský, Simona Littnerová FSTA: Pokročilé statistické metody Stochastické modelování obecně - ANOVA logo-IBA logomuni Jiří Jarkovský, Simona Littnerová: Pokročilé statistické metody ANOVA •Analýza rozptylu je základním nástrojem pro analýzu rozdílů mezi průměry v několika skupinách pacientů. •Základní myšlenka, na níž je ANOVA založena, je rozdělení celkové variability v datech (neznámé, dané pouze náhodným rozložením) na část systematickou (spjatou s kategoriemi pacientů, vysvětlená variabilita) a část náhodnou. Pokud systematická, tedy nenáhodná a vysvětlitelná část variability převažuje, považujeme daný kategoriální faktor za významný pro vysvětlení variability dat. •Analýza rozptylu vyhodnocuje pouze celkový vliv faktoru na variabilitu, v případě analýzy jednotlivých kategorií je třeba využít tzv. post-hoc testy • 3 logo-IBA logomuni Jiří Jarkovský, Simona Littnerová: Pokročilé statistické metody Cíl stochastického modelování •Obecným cílem je snaha vysvětlit variabilitu predikované proměnné (endpoint, Y) pomocí prediktorů (vysvětlující proměnná, faktor, X) •Jak predikovaná proměnná, tak prediktor mohou být různého typu –Binární –Kategoriální –Ordinální –Spojitá –Cenzorovaná (-> analýza přežití) •Kombinace datového typu predikované proměnné a prediktoru určuje použitou metodu analýzy • 4 Proč variabilita? Vysvětluje kategoriální prediktor? Vysvětluje spojitý prediktor? logo-IBA logomuni Jiří Jarkovský, Simona Littnerová: Pokročilé statistické metody ANOVA – předpoklady • Symetrické rozložení hodnot a normalita odchylek od hodnoceného modelu ANOVA. Velkou část dat lze adekvátně normalizovat použitím logaritmické transformace. Předpoklad lognormální transformace může pochopitelně být teoreticky vyloučen u mnoha datových souborů obsahujících diskrétní parametry, kde je indikována vhodnost jiného typu transformace. U asymetricky rozložených a u diskrétních dat je nutné využít neparametrické alternativy analýzy rozptylu. •Homogenita rozptylu je nutným předpokladem pro smysluplnost vzájemných srovnání pokusných variant. U testů toxicity by splnění tohoto předpokladu mělo být ověřováno (Bartlettův test), neboť vážné rozdíly (až řádové) v jednotkách testovaného parametru mohou nastat v důsledku inhibice dávkami látky. Nehomogenita rozptylu je často ve vztahu k nenormalitě (asymetrii) dat a lze ji odstranit vhodnou normalizující transformací. •Statistická nezávislost reziduí vyhodnocovaného modelu ANOVA. Pokud odhad a posouzení korelačních vztahů mezi pokusnými variantami není přímo předmětem výzkumu, lze jejich vliv na vyhodnocení odstranit znáhodněním dat v rámci pokusných variant - tedy změnou pořadí v náhodné. Rozsah vlivu těchto autokorelačních vztahů musí být ovšem primárně omezen správností experimentálního uspořádání. •Aditivita jako předpoklad týkající se složitějších experimentálních uspořádání. Exaktní otestování aditivity více pokusných faktorů je procedura poměrně náročná na experimentální design vyvážený co do počtu opakování. Je rovněž obtížné testovat interakci na nestandardních datech, neboť případná transformace může změnit charakter odchylek původních dat od hodnoceného modelu ANOVA. • 5 logo-IBA logomuni Jiří Jarkovský, Simona Littnerová: Pokročilé statistické metody Princip ANOVA •Základním principem ANOVY je porovnání rozptylu připadajícího na: –Rozdělení dat do skupin (tzv. effect, variance between groups) –Variabilitu objektů uvnitř skupin (tzv. error, variance within groups), předpokládá se, že jde o náhodnou variabilitu (=error) • 6 ANOVA Výsledný poměr (F) porovnáme s tabulkami F rozložení pro v1 a v2 stupňů volnosti SS=sum of squares 1.Variabilita mezi skupinami Rozptyl je počítán pro celkový průměr (tzv. grand mean) a průměry v jednotlivých skupinách dat Stupně volnosti jsou odvozeny od počtu skupin (= počet skupin -1) 2.Variabilita uvnitř skupin Rozptyl je počítán pro průměry jednotlivých skupin a objekty uvnitř příslušných, celková variabilita je pak sečtena pro všechny skupiny Stupně volnosti jsou odvozeny od počtu hodnot (= počet hodnot - počet skupin) logo-IBA logomuni Jiří Jarkovský, Simona Littnerová: Pokročilé statistické metody Jednoduchý ANOVA design •Nejjednodušším případem ANOVA designu je rozdělení na skupiny podle jednoho parametru 7 logo-IBA logomuni Jiří Jarkovský, Simona Littnerová: Pokročilé statistické metody Nested ANOVA •Rozdělení skupin na náhodné podskupiny (např. opakování experimentu) • Cílem je zjistit, zda data v jedné skupině nejsou pouhou náhodou • Nejprve je testována shoda podskupin v hlavních skupinách, – pokud jsou shodné, je vše v pořádku – pokud nejsou, stále lze zjišťovat, zda se variabilita uvnitř hlavních skupin liší od celkové variability • 8 logo-IBA logomuni Jiří Jarkovský, Simona Littnerová: Pokročilé statistické metody Two way ANOVA •Pro rozdělení do kategorií je zde více parametrů •Na rozdíl od nested ANOVY nejde o náhodná opakování experimentu, ale o řízené zásahy (např.vliv pH a koncentrace O2) •Kromě vlivu hlavních faktorů se uplatňuje i jejich interakce • 9 logo-IBA logomuni Jiří Jarkovský, Simona Littnerová: Pokročilé statistické metody ANOVA – základní výstup •Základním výstupem analýzy rozptylu je Tabulka ANOVA - frakcionace komponent rozptylu • 10 Zdroj rozptylu Pok. zásah (mezi skupinami) Uvnitř skupin Celkem SSB/SST MSB/MST St. v. a -1 SSB SSB/(a -1) MSB/MSE N - a SSE SSE/(N - a) N -1 SST SS MS F Kvantifikovaný podíl rozdílu mezi pokusnými zásahy na celkovém rozptylu Statistická významnost rozdílu logo-IBA logomuni Jiří Jarkovský, Simona Littnerová: Pokročilé statistické metody Hlavní efekty a interakce 11 SS D.f. MS F p Intercept 33487 1 33487 8165.3 0.000 Faktor 1 1978 1 1978 482.2 0.000 Faktor 2 1 1 1 0.3 0.602 F1*F2 1 1 1 0.3 0.570 Error 804 196 4 SS D.f. MS F p Intercept 33487 1 33487 8165.3 0.000 Faktor 1 4 1 4 1.0 0.314 Faktor 2 1891 1 1891 461.1 0.000 F1*F2 1 1 1 0.3 0.570 Error 804 196 4 SS D.f. MS F p Intercept 57391 1 57391 13993 0.000 Faktor 1 5293 1 5293 1290.7 0.000 Faktor 2 861 1 861 209.9 0.000 F1*F2 1 1 1 0.3 0.570 Error 804 196 4 SS D.f. MS F p Intercept 28511 1 28511 6952.0 0.000 Faktor 1 4 1 4 1.0 0.314 Faktor 2 1 1 1 0.3 0.602 F1*F2 867 1 867 211.3 0.000 Error 804 196 4 SS D.f. MS F p Intercept 38863 1 38863 9476.2 0.000 Faktor 1 920 1 920 224.3 0.000 Faktor 2 1 1 1 0.3 0.602 F1*F2 867 1 867 211.3 0.000 Error 804 196 4 SS D.f. MS F p Intercept 45203 1 45203 13596 0.000 Faktor 1 4799 1 4799 1443.4 0.000 Faktor 2 316 1 316 95.0 0.000 F1*F2 175 1 175 52.5 0.000 Error 652 196 3 logo-IBA logomuni Jiří Jarkovský, Simona Littnerová: Pokročilé statistické metody Testování dílčích hypotéz •V řadě analýz je třeba pracovat se vzájemným testováním více skupin objektů stylem každý s každým •Obecný postup analýzy je –Testování celkové významnosti – všechny skupiny navzájem (ENG: among groups) –Pokud je zjištěna celková významnost pokračuje testování analýzou již konkrétních kombinací dvojic skupin (ENG: between) •Problémem je vliv mnohonásobného testování na statistickou významnost testů: –Každý jeden test má a=0.05 (chyba I. druhu) –Při mnohonásobném testování stoupá pravděpodobnost, že alespoň u jednoho testu dojde k chybnému zamítnutí nulové hypotézy (tedy k chybě I. druhu) 12 Počet testů Řešením jsou různé procedury korigující hodnotu p (např. Bonferroniho korekce, FWR, FDR procedury apod.) logo-IBA logomuni Jiří Jarkovský, Simona Littnerová: Pokročilé statistické metody Řada různých post-hoc testů 13 logo statsoft logo-IBA logomuni Jiří Jarkovský, Simona Littnerová: Pokročilé statistické metody Příklad: Anova - One way •Dávka rostlinného stimulátoru (0, 4, 8, 12 mg/l) •A = 4 ; n = 8 • •I. ANOVA •Bartlett's test: P = 0,9847 •K-S test: P = 0,482 - 0,6525 pro jednotlivé kategorie • • • • •II. Multiple Range Test (NKS –test) • • 14 Source D.f. SS MS F p Between 3 305.8 101.9 8.56 <0.001 Within 28 322.2 11.9 Total 31 638 Level Average Homogeneous groups 0 34.8 x 4 41.4 x 12 41.8 x 8 52.6 x FSTA: Pokročilé statistické metody Stochastické modelování obecně – Lineární regrese logo-IBA logomuni Jiří Jarkovský, Simona Littnerová: Pokročilé statistické metody Lineární regrese •Korelační analýza je využívána pro vyhodnocení míry vztahu dvou spojitých proměnných. Obdobně jako jiné statistické metody, i korelace mohou být parametrické nebo neparametrické •Regresní analýza vytváří model vztahu dvou nebo více proměnných, tedy jakým způsobem jedna proměnná (vysvětlovaná) závisí na jiných proměnných (prediktorech). Regresní analýza je obdobně jako ANOVA nástrojem pro vysvětlení variability hodnocené proměnné • 16 logo-IBA logomuni Jiří Jarkovský, Simona Littnerová: Pokročilé statistické metody Cíl stochastického modelování •Obecným cílem je snaha vysvětlit variabilitu predikované proměnné (endpoint, Y) pomocí prediktorů (vysvětlující proměnná, faktor, X) •Jak predikovaná proměnná, tak prediktor mohou být různého typu –Binární –Kategoriální –Ordinální –Spojitá –Cenzorovaná (-> analýza přežití) •Kombinace datového typu predikované proměnné a prediktoru určuje použitou metodu analýzy • 17 Proč variabilita? Vysvětluje kategoriální prediktor? Vysvětluje spojitý prediktor? logo-IBA logomuni Jiří Jarkovský, Simona Littnerová: Pokročilé statistické metody Základy regresní analýzy •Regrese - funkční vztah dvou nebo více proměnných • 18 Jednorozměrná y = f(x) Vícerozměrná y = f(x1, x2, x3, ……xp) Vztah x, y Deterministický Regresní, stochastický Y X Y X Y X Pro každé x existuje pravděpodobnostní rozložení y logo-IBA logomuni Jiří Jarkovský, Simona Littnerová: Pokročilé statistické metody Lineární regrese I 19 } Komponenty tvořící y se sčítají e - náhodná složka modelu přímky = rezidua přímky logo-IBA logomuni Jiří Jarkovský, Simona Littnerová: Pokročilé statistické metody Lineární regrese II 20 y 1 n x y 1 n 1 n = a + b . x y - y = e Y X logo-IBA logomuni Jiří Jarkovský, Simona Littnerová: Pokročilé statistické metody Lineární regrese III 21 x x y y y y e e = 0 Y X y b = 0 Y X y b > 0 logo-IBA logomuni Jiří Jarkovský, Simona Littnerová: Pokročilé statistické metody Lineární regrese III •Metoda nejmenších čtverců –X: Pevná, nestochastická proměnná –Rozložení hodnot y pro každé x je normální –Rozložení hodnot y pro každé x má stejný rozptyl –Rezidua jsou navzájem nezávislá a mají normální rozložení • 22 Smysl proložení přímky minimalizace odchylek logo-IBA logomuni Jiří Jarkovský, Simona Littnerová: Pokročilé statistické metody Lineární regrese IV 23 I. II. intercept III. Y : modelová hodnota logo-IBA logomuni Jiří Jarkovský, Simona Littnerová: Pokročilé statistické metody Lineární regrese: analýza reziduí 24 e e 0 0 ! e y (i; x) 0 e 0 y (i; x) e 0 y (i; x) ! Grafy residuí modelů (příklady) Obecné tvary residuí modelů (schéma) e i, xj, y e i, xj, y a b e i, xj, y e i, xj, y c d d logo-IBA logomuni Jiří Jarkovský, Simona Littnerová: Pokročilé statistické metody Analýza rozptylu v regresi •Výpočet statistické významnosti rozptylu vyčerpaného regresním modelem 25 Celková ANOVA SSB/SST (variance ratio) MSB/MSE = F Analýza rozptylu regresního modelu (zde přímky) (SSMOD/SST) . 100 = % rozptylu Y "vyčerpaného" přímkou = koeficient determinace (R2) Zdroj rozptylu st.v. SS MS F Model (přímka) 1 SSMOD MSMOD MSMOD / MSR Residuum na - 2 SSR MSR celkem na - 1 SST logo-IBA logomuni Jiří Jarkovský, Simona Littnerová: Pokročilé statistické metody Kroky regresní analýzy •Regresní analýza (a obecně i jiné stochastické modely) by měla probíhat v následujících krocích 1.Ověření obecných předpokladů – normalita dat, linearita vztahu 2.Výpočet modelu 3.Analýza reziduí modelu umožňující ověřit vhodnost aplikace lineárního nebo jiného modelu 4.Analýza vyčepané variability testující, zda model variabilitu dat významně vysvětluje 5.Testování regresních koeficientů 1.Posouzení významnosti komponent modelu 2.Praktická smysluplnost modelu 6.Závěr o využitelnosti a smysluplnosti modelu 26