Lineární modely – základy
Jiří Jarkovský, Simona Littnerová


Stochastické modelování obecně - ANOVA


logo-IBA logomuni
Jiří Jarkovský, Simona Littnerová: Pokročilé statistické metody
ANOVA
•Analýza rozptylu je základním nástrojem pro analýzu rozdílů mezi průměry v několika skupinách
pacientů. •Základní myšlenka, na níž je ANOVA založena, je rozdělení celkové variability v datech
(neznámé, dané pouze náhodným rozložením) na část systematickou (spjatou s kategoriemi pacientů,
vysvětlená variabilita) a část náhodnou. Pokud systematická, tedy nenáhodná a vysvětlitelná část
variability převažuje, považujeme daný kategoriální faktor za významný pro vysvětlení variability
dat. •Analýza rozptylu vyhodnocuje pouze celkový vliv faktoru na variabilitu, v případě analýzy
jednotlivých kategorií je třeba využít tzv. post-hoc testy
•
3

logo-IBA logomuni
Jiří Jarkovský, Simona Littnerová: Pokročilé statistické metody
Cíl stochastického modelování
•Obecným cílem je snaha vysvětlit variabilitu predikované proměnné (endpoint, Y) pomocí prediktorů
(vysvětlující proměnná, faktor, X)
•Jak predikovaná proměnná, tak prediktor mohou být různého typu
–Binární
–Kategoriální
–Ordinální
–Spojitá
–Cenzorovaná (-> analýza přežití)
•Kombinace datového typu predikované proměnné a prediktoru určuje použitou metodu analýzy
•
4
Proč variabilita?
Vysvětluje kategoriální prediktor?
Vysvětluje spojitý prediktor?

logo-IBA logomuni
Jiří Jarkovský, Simona Littnerová: Pokročilé statistické metody
ANOVA – předpoklady
• Symetrické rozložení hodnot a normalita odchylek od hodnoceného modelu ANOVA. Velkou část dat lze
adekvátně normalizovat použitím logaritmické transformace. Předpoklad lognormální transformace může
pochopitelně být teoreticky vyloučen u mnoha datových souborů obsahujících diskrétní parametry, kde
je indikována vhodnost jiného typu transformace. U asymetricky  rozložených a u diskrétních dat je
nutné využít neparametrické alternativy analýzy rozptylu.
•Homogenita rozptylu je nutným předpokladem pro smysluplnost vzájemných srovnání pokusných variant.
U testů toxicity by splnění tohoto předpokladu mělo být ověřováno (Bartlettův test), neboť vážné
rozdíly (až řádové) v jednotkách testovaného parametru mohou nastat v důsledku inhibice dávkami
látky. Nehomogenita rozptylu je často ve vztahu k nenormalitě (asymetrii) dat a lze ji odstranit
vhodnou normalizující transformací.
•Statistická nezávislost reziduí  vyhodnocovaného modelu ANOVA. Pokud odhad a posouzení korelačních
vztahů mezi pokusnými variantami není přímo předmětem výzkumu, lze jejich vliv na vyhodnocení
odstranit znáhodněním dat v rámci pokusných variant -  tedy změnou pořadí v náhodné. Rozsah vlivu
těchto autokorelačních vztahů musí být ovšem primárně omezen správností experimentálního
uspořádání.
•Aditivita jako předpoklad týkající se složitějších experimentálních uspořádání. Exaktní otestování
aditivity více pokusných faktorů je procedura poměrně náročná na experimentální design vyvážený co
do počtu opakování. Je rovněž obtížné testovat interakci na nestandardních datech, neboť případná
transformace může změnit charakter odchylek původních dat od hodnoceného modelu ANOVA.
•
5

logo-IBA logomuni
Jiří Jarkovský, Simona Littnerová: Pokročilé statistické metody
Princip ANOVA
•Základním principem ANOVY je porovnání rozptylu připadajícího na:
–Rozdělení dat do skupin (tzv. effect, variance between groups)
–Variabilitu objektů uvnitř skupin (tzv. error, variance within groups), předpokládá se, že jde o
náhodnou variabilitu (=error)
•
6
ANOVA
Výsledný poměr (F) porovnáme s tabulkami F rozložení pro v1 a v2 stupňů volnosti
SS=sum of squares
1.Variabilita mezi skupinami
Rozptyl je počítán pro celkový průměr (tzv. grand mean) a průměry v jednotlivých skupinách dat
Stupně volnosti jsou odvozeny od počtu skupin (= počet skupin -1)
2.Variabilita uvnitř skupin
Rozptyl je počítán pro průměry jednotlivých skupin a objekty uvnitř příslušných, celková
variabilita je pak sečtena pro všechny skupiny
Stupně volnosti jsou odvozeny od počtu hodnot (= počet hodnot - počet skupin)

logo-IBA logomuni
Jiří Jarkovský, Simona Littnerová: Pokročilé statistické metody
Jednoduchý ANOVA design
•Nejjednodušším případem ANOVA designu je rozdělení na skupiny podle jednoho parametru
7

logo-IBA logomuni
Jiří Jarkovský, Simona Littnerová: Pokročilé statistické metody
Nested ANOVA
•Rozdělení skupin na náhodné podskupiny (např. opakování experimentu)
• Cílem je zjistit, zda data v jedné skupině nejsou pouhou náhodou
• Nejprve je testována shoda podskupin v hlavních skupinách,
– pokud jsou shodné, je vše v pořádku
– pokud nejsou, stále lze zjišťovat, zda se variabilita uvnitř hlavních skupin liší od celkové
variability
•
8

logo-IBA logomuni
Jiří Jarkovský, Simona Littnerová: Pokročilé statistické metody
Two way ANOVA
•Pro rozdělení do kategorií je zde více parametrů
•Na rozdíl od nested ANOVY nejde o náhodná opakování experimentu, ale o řízené zásahy (např.vliv pH
a koncentrace O2)
•Kromě vlivu hlavních faktorů se uplatňuje i jejich interakce
•
9

logo-IBA logomuni
Jiří Jarkovský, Simona Littnerová: Pokročilé statistické metody
ANOVA – základní výstup
•Základním výstupem analýzy rozptylu je Tabulka ANOVA - frakcionace komponent rozptylu
•
10
Zdroj rozptylu
Pok. zásah
(mezi skupinami)
Uvnitř skupin
Celkem
SSB/SST
MSB/MST
St. v.
a -1                        SSB          SSB/(a -1)        MSB/MSE
N - a                       SSE          SSE/(N - a)
N -1                        SST
SS
MS
F
Kvantifikovaný podíl rozdílu mezi pokusnými zásahy na celkovém rozptylu
Statistická významnost rozdílu

logo-IBA logomuni
Jiří Jarkovský, Simona Littnerová: Pokročilé statistické metody
Hlavní efekty a interakce
11
SS
D.f.
MS
F
p
Intercept
33487
1
33487
8165.3
0.000
Faktor 1
1978
1
1978
482.2
0.000
Faktor 2
1
1
1
0.3
0.602
F1*F2
1
1
1
0.3
0.570
Error
804
196
4
SS
D.f.
MS
F
p
Intercept
33487
1
33487
8165.3
0.000
Faktor 1
4
1
4
1.0
0.314
Faktor 2
1891
1
1891
461.1
0.000
F1*F2
1
1
1
0.3
0.570
Error
804
196
4
SS
D.f.
MS
F
p
Intercept
57391
1
57391
13993
0.000
Faktor 1
5293
1
5293
1290.7
0.000
Faktor 2
861
1
861
209.9
0.000
F1*F2
1
1
1
0.3
0.570
Error
804
196
4
SS
D.f.
MS
F
p
Intercept
28511
1
28511
6952.0
0.000
Faktor 1
4
1
4
1.0
0.314
Faktor 2
1
1
1
0.3
0.602
F1*F2
867
1
867
211.3
0.000
Error
804
196
4
SS
D.f.
MS
F
p
Intercept
38863
1
38863
9476.2
0.000
Faktor 1
920
1
920
224.3
0.000
Faktor 2
1
1
1
0.3
0.602
F1*F2
867
1
867
211.3
0.000
Error
804
196
4
SS
D.f.
MS
F
p
Intercept
45203
1
45203
13596
0.000
Faktor 1
4799
1
4799
1443.4
0.000
Faktor 2
316
1
316
95.0
0.000
F1*F2
175
1
175
52.5
0.000
Error
652
196
3

logo-IBA logomuni
Jiří Jarkovský, Simona Littnerová: Pokročilé statistické metody
Testování dílčích hypotéz
•V řadě analýz je třeba pracovat se vzájemným testováním více skupin objektů stylem každý s každým
•Obecný postup analýzy je
–Testování celkové významnosti – všechny skupiny navzájem (ENG: among groups)
–Pokud je zjištěna celková významnost pokračuje testování analýzou již konkrétních kombinací dvojic
skupin (ENG: between)
•Problémem je vliv mnohonásobného testování na statistickou významnost testů:
–Každý jeden test má a=0.05 (chyba I. druhu)
–Při mnohonásobném testování stoupá pravděpodobnost, že alespoň u jednoho testu dojde k chybnému
zamítnutí nulové hypotézy (tedy k chybě I. druhu)
12
Počet testů
Řešením jsou různé procedury korigující hodnotu p (např. Bonferroniho korekce, FWR, FDR procedury
apod.)

logo-IBA logomuni
Jiří Jarkovský, Simona Littnerová: Pokročilé statistické metody
Řada různých post-hoc testů
13
logo statsoft

logo-IBA logomuni
Jiří Jarkovský, Simona Littnerová: Pokročilé statistické metody
Příklad: Anova - One way
•Dávka rostlinného stimulátoru  (0, 4, 8, 12  mg/l)
•A = 4 ; n = 8
•
•I.      ANOVA
•Bartlett's test:        P = 0,9847
•K-S test:                P = 0,482 - 0,6525  pro jednotlivé kategorie
•
•
•
•
•II.     Multiple Range Test (NKS –test)
•
•
14
Source
D.f.
SS
MS
F
p
Between
3
305.8
101.9
8.56
<0.001
Within
28
322.2
11.9
Total
31
638
Level
Average
Homogeneous groups
0
34.8
x
4
41.4
x
12
41.8
x
8
52.6
x

Stochastické modelování obecně – Lineární regrese


logo-IBA logomuni
Jiří Jarkovský, Simona Littnerová: Pokročilé statistické metody
Lineární regrese
•Korelační analýza je využívána pro vyhodnocení míry vztahu dvou spojitých proměnných. Obdobně jako
jiné statistické metody, i korelace mohou být parametrické nebo neparametrické •Regresní analýza
vytváří model vztahu dvou nebo více proměnných, tedy jakým způsobem jedna proměnná (vysvětlovaná)
závisí na jiných proměnných (prediktorech). Regresní analýza je obdobně jako ANOVA nástrojem pro
vysvětlení variability hodnocené proměnné
•
16

logo-IBA logomuni
Jiří Jarkovský, Simona Littnerová: Pokročilé statistické metody
Cíl stochastického modelování
•Obecným cílem je snaha vysvětlit variabilitu predikované proměnné (endpoint, Y) pomocí prediktorů
(vysvětlující proměnná, faktor, X)
•Jak predikovaná proměnná, tak prediktor mohou být různého typu
–Binární
–Kategoriální
–Ordinální
–Spojitá
–Cenzorovaná (-> analýza přežití)
•Kombinace datového typu predikované proměnné a prediktoru určuje použitou metodu analýzy
•
17
Proč variabilita?
Vysvětluje kategoriální prediktor?
Vysvětluje spojitý prediktor?

logo-IBA logomuni
Jiří Jarkovský, Simona Littnerová: Pokročilé statistické metody
Základy regresní analýzy
•Regrese - funkční vztah dvou nebo více proměnných
•
18
Jednorozměrná
y = f(x)
Vícerozměrná
y = f(x1, x2, x3, ……xp)
Vztah x, y
Deterministický
Regresní, stochastický
Y
X
Y
X
Y
X
Pro každé x existuje pravděpodobnostní rozložení y

logo-IBA logomuni
Jiří Jarkovský, Simona Littnerová: Pokročilé statistické metody
Lineární regrese I
19
}
Komponenty tvořící y se sčítají
e  - náhodná složka modelu přímky = rezidua přímky

logo-IBA logomuni
Jiří Jarkovský, Simona Littnerová: Pokročilé statistické metody
Lineární regrese II
20
y
1
n
x
y
1
n
1
n
= a + b .
x
y
-
y
=
e
Y
X

logo-IBA logomuni
Jiří Jarkovský, Simona Littnerová: Pokročilé statistické metody
Lineární regrese III
21
x
x
y
y
y
y
e
 e = 0
Y
X
y
b = 0
Y
X
 y
b > 0

logo-IBA logomuni
Jiří Jarkovský, Simona Littnerová: Pokročilé statistické metody
Lineární regrese III
•Metoda nejmenších čtverců
–X: Pevná, nestochastická proměnná
–Rozložení hodnot y pro každé x je normální
–Rozložení hodnot y pro každé x má stejný rozptyl
–Rezidua jsou navzájem nezávislá a mají normální rozložení
•
22
Smysl proložení přímky
minimalizace odchylek

logo-IBA logomuni
Jiří Jarkovský, Simona Littnerová: Pokročilé statistické metody
Lineární regrese IV
23
I.
II.
intercept
III.
Y  :  modelová hodnota

logo-IBA logomuni
Jiří Jarkovský, Simona Littnerová: Pokročilé statistické metody
Lineární regrese: analýza reziduí
24
e
e
0
0
!
e
y (i; x)
0
e
0
y (i; x)
e
0
y (i; x)
!
Grafy residuí modelů (příklady)
Obecné tvary residuí modelů (schéma)
e
i, xj, y
e
i, xj, y
a
b
e
i, xj, y
e
i, xj, y
c
d
d

logo-IBA logomuni
Jiří Jarkovský, Simona Littnerová: Pokročilé statistické metody
Analýza rozptylu v regresi
•Výpočet statistické významnosti rozptylu vyčerpaného regresním modelem
25
Celková ANOVA
SSB/SST         (variance ratio)
MSB/MSE = F
Analýza rozptylu regresního modelu (zde přímky)
(SSMOD/SST) . 100 = % rozptylu Y "vyčerpaného" přímkou = koeficient determinace (R2)
Zdroj rozptylu
st.v.
SS
MS
F
Model
(přímka)
1
SSMOD
MSMOD
MSMOD / MSR
Residuum
na - 2
SSR
MSR
celkem
na - 1
SST

logo-IBA logomuni
Jiří Jarkovský, Simona Littnerová: Pokročilé statistické metody
Kroky regresní analýzy
•Regresní analýza (a obecně i jiné stochastické modely) by měla probíhat v následujících krocích
1.Ověření obecných předpokladů – normalita dat, linearita vztahu
2.Výpočet modelu
3.Analýza reziduí modelu umožňující ověřit vhodnost aplikace lineárního nebo jiného modelu
4.Analýza vyčepané variability testující, zda model variabilitu dat významně vysvětluje
5.Testování regresních koeficientů
1.Posouzení významnosti komponent modelu
2.Praktická smysluplnost modelu
6.Závěr o využitelnosti a smysluplnosti modelu
26