FSTA: Pokročilé statistické metody
Principy stochastického modelování
Jiří Jarkovský, Simona Littnerová

FSTA: Pokročilé statistické metody
Stochastické modelování - úvod


logo-IBA logomuni
Jiří Jarkovský, Simona Littnerová: Pokročilé statistické metody
Cíl stochastického modelování
•Obecným cílem je snaha vysvětlit variabilitu predikované proměnné (endpoint, Y) pomocí prediktorů
(vysvětlující proměnná, faktor, X)
•Jak predikovaná proměnná, tak prediktor mohou být různého typu
–Binární
–Kategoriální
–Ordinální
–Spojitá
–Cenzorovaná (-> analýza přežití)
•Kombinace datového typu predikované proměnné a prediktoru určuje použitou metodu analýzy
•
3
Proč variabilita?
Vysvětluje kategoriální prediktor?
Vysvětluje spojitý prediktor?

logo-IBA logomuni
Jiří Jarkovský, Simona Littnerová: Pokročilé statistické metody
Kombinace typu predikované proměnné a prediktorů
•Y – predikovaná proměnná
•X – prediktor
•
•Binární proměnné jsou častou používány jako prediktory v regresi nebo ordinační analýze
•Kategoriální proměnné jsou často překódovány do dummies, tedy do binárních proměnných
•Spojité proměnné nemusí být pouze normálně rozděleny a v lineárním vztahu, nicméně v takovém
případě je nutné použít trasnformace nebo nelineární regrese/zobecněných lineárních modelů
•Existují i přístupy kombinující jako prediktory spojité i binární/kategoriální proměnné
•Častým přístupem je také konverze spojitých proměnných na binární s jasnou interpretací dělícího
bodu
4
Typ Y
Počet Y
Typ X
Metoda
Spojitá
1
Spojitá (binární)
Linární regrese
Spojitá
1
Binární, kategoriální
ANOVA
Spojitá
více
Spojitá (binární)
RDA, CCA, CC, co-inertia
Binární
1
Spojitá (binární)
Logistická regrese
Kategoriální
1
Spojitá (binární)
Diskriminační analýza

logo-IBA logomuni
Jiří Jarkovský, Simona Littnerová: Pokročilé statistické metody
Obecné zásady tvorby predikčních modelů
•Požadavky na kvalitní predikční model
–Maximální predikční síla
–Maximální interpretovatelnost
–Minimální složitost
•Tvorba modelů
–Neobsahuje redundantní proměnné
–Je otestován na nezávislých datech
•Výběr proměnných
–Algoritmy typu dopředné a zpětné eliminace jsou pouze pomocným ukazatelem při výběru proměnných
finálního modelu
–Při výběru proměnných se uplatní jak klasické statistické metody (ANOVA), tak expertní znalost
významu proměnných a jejich zastupitelnosti
5

logo-IBA logomuni
Jiří Jarkovský, Simona Littnerová: Pokročilé statistické metody
Vytváření modelů
6
Prediktory
1.Tvorba modelu
•Parametry ovlivňující vysvětlovanou charakteristiku pacienta
• Rovnice umožňující predikci
• Platnost modelu pouze v rozsahu prediktorů
2.Validace modelu
• Nebezpečí „přeučení“ modelu
• Testování modelu na známých datech
•Krosvalidace
3. Aplikace modelu
• Individuální predikce stavu nenámých pacientů
• Model musí být podložen korektní statistikou a rozsáhlými daty
?
?
?

logo-IBA logomuni
Jiří Jarkovský, Simona Littnerová: Pokročilé statistické metody
Klíčové pojmy stochastického modelování
•Design modelu
–Vhodně zvolená metodika a kombinace proměnných
•Výpočet modelu
–Testování předpokladů zvolené metody
–Redundance a kolinearita
–Adjustace proměnných na vliv jiných proměnných
–Výběr proměnných vícerozměrného modelu
•Kvalita modelu
–Vyčerpaná variabilita a její statistická významnost
–Testování výsledků modelu
•Interpretace modelu
–Testování dílčích hypotéz
–Hlavní efekty a interakce
–Statistická významnost vs. praktické využití modelu
–Rozsah aplikovatelnosti modelu
–
–
7

logo-IBA logomuni
Jiří Jarkovský, Simona Littnerová: Pokročilé statistické metody
Design modelu
•Design modelu znamená jaké proměnné a v jakých kombinacích budou vysvětlovat hodnocenou proměnnou
•Obecně je vhodné ať již expertně nebo jako výsledek předběžné analýzy vytvořit a ověřit hypotézy o
vzájemných vztazích proměnných a podle těchto předběžných výsledků vytvářet finální model
•Tvorba designu modelu úzce souvisí s pojmy:
–Analýza pouze hlavních efektů proměnných
–Analýza interakcí mezi proměnnými a složitost interakcí
•Design modelu lze vyjádřit graficky nebo v rovnici nebo pomocí maticoveho zápisu
–
8

logo-IBA logomuni
Jiří Jarkovský, Simona Littnerová: Pokročilé statistické metody
Testování předpokladů
9
•Metody stochastického modelování jsou, stejně jako jiné statistické metody, závislé na dodržení
předpokladů •Nejčastějším předpokladem je normalita dat a linearita vztahu (ať již původních dat
nebo po propojení linkovací funkcí) •Testy normality pracují s nulovou hypotézou, že není rozdíl
mezi zpracovávaným rozložením a normálním rozložením. Vždy je ovšem dobré prohlédnout si i
histogram, protože některé odchylky od normality, např. bimodalitu některé testy neodhalí.
•
•Test dobré shody
V testu dobré shody jsou data rozdělena do kategorií (obdobně jako při tvorbě histogramu), tyto
intervaly jsou normalizovány (převedeny na normální rozložení) a podle obecných vzorců normálního
rozložení jsou k nim dopočítány očekávané hodnoty v intervalech, pokud by rozložení bylo normální.
Pozorované normalizované četnosti jsou poté srovnány s očekávanými četnostmi pomocí c2 testu dobré
shody. Test dává dobré výsledky, ale je náročný na n, tedy množství dat, aby bylo možné vytvořit
dostatečný počet tříd hodnot.
•Kolgomorov Smirnov test
Tento test je často používán, dokáže dobře najít odlehlé hodnoty, ale počítá spíše se symetrií
hodnot než přímo s normalitou. Jde o neparametrický test pro srovnání rozdílu dvou rozložení. Je
založen na zjištění rozdílu mezi reálným kumulativním rozložením (vzorek) a teoretickým
kumulativním rozložením. Měl by být počítán pouze v případě, že známe průměr a směrodatnou odchylku
hypotetického rozložení, pokud tyto hodnoty neznáme, měla by být použita jeho modifikace –
Lilieforsův test.
•Shapiro-Wilk`s test
Jde o neparametrický test použitelný i při velmi malých n (10) s dobrou sílou testu, zvláště ve
srovnání s alternativními typy testů, je zaměřen na testování symetrie.

logo-IBA logomuni
Jiří Jarkovský, Simona Littnerová: Pokročilé statistické metody
Význam identifikace redundantních proměnných
•Redundantní proměnné snižují stabilitu modelu a mohou vést až k nesmyslným výsledkům
10
Proměnná se silnější diskriminační silou a nekorelovaná s druhou proměnnou snadno vyhrává zařazení
do modelu, další proměnné následují dle jejich významu
V případě dvou korelovaných proměnných s obdobnou diskriminační silou  pouze jedna vyhrává zařazení
do modelu (výsledek dán nepatrnými náhodnými odlišnostmi), druhá  je vyřazena nebo vstupuje s do
modelu s minimálním významem -> problém s interpretací a stabilitou
X
X

logo-IBA logomuni
Jiří Jarkovský, Simona Littnerová: Pokročilé statistické metody
Identifikace redundantních proměnných
•Korelační analýza a XY grafy
–Jednoduchý výpočet
–Analyzuje vztahy pouze dvojic proměnných
–
•Analýza hlavních komponent nebo faktorová analýza
–Analyzuje vzájemné vztahy sady proměnných
–Usnadňuje výběr neredundantních proměnných nebo nahrazení proměnných faktorovými osami
–
•Analýza vzájemného vysvětlení proměnných (analýza redundance)
–Ve statistických software často součást regresní analýzy nebo diskriminační analýzy
–R2 a Tolerance – R2 popisuje kolik variability dané proměnné je vysvětleno ostatními proměnnými v
modelu? Tolerance je 1-R2, tedy kolik unikátní variability na proměnnou připadá (principem je
vícerozměrná regrese, ta determinuje i předpoklady výpočtu)
–VIF (Variance Inflation Factor) je počítán jako 1/Tolerance, při VIF>10 je kolinearita považována
za velmi závažnou (nicméně nejsou dány žádné závazné hranice VIF)
•
•Expertní znalost proměnných
–Vyřazovány jsou korelované proměnné s obtížným měřením, zatížené chybami, nízkou vyplněností apod.
11

logo-IBA logomuni
Jiří Jarkovský, Simona Littnerová: Pokročilé statistické metody
Adjustace proměnných na vliv jiných proměnných
1.V prvním kroku definujeme regresní model vztahu věku a adjustovaného parametru
2.Pro každého pacienta je vypočteno jeho reziduum od regresní přímky
3.Reziduum (představující hodnotu parametru po odečtení vlivu věku, jeho průměr je 0) je přičteno k
průměrné hodnotě parametru 4.Výsledná adjustovaná hodnota má odečten vliv věku, ale zároveň není
změněna číselná hodnota parametru
•
12
original_ln.png adjusted.png original_ln.png adjusted.png
Původní data
Adjustovaná data

logo-IBA logomuni
Jiří Jarkovský, Simona Littnerová: Pokročilé statistické metody
Dopředná a zpětná eliminace
•Dopředná a zpětná eliminace proměnných z modelu (forward, backward stepwise) je obecná technika
používaná při tvorbě regresních, diskriminačních a jiných modelů •Proměnné jsou do modelu postupně
přidávány (ubírány) podle jejich významu v modelu
•
13
Schéma dopředné eliminace proměnných v modelu
V případě zpětné eliminace začíná proces od modelu se všemi proměnnými a postupně jsou vyřazovány
proměnné s nejmenším příspěvkem k diskriminační síle modelu
Proces je třeba expertně kontrolovat, riziková je např. přítomnost redundantních proměnných

logo-IBA logomuni
Jiří Jarkovský, Simona Littnerová: Pokročilé statistické metody
Vyčerpaná variabilita a její statistická významnost
•Základním ukazatelem kvality modelu je množství varibility, které je modelem vysvětleno •Obecně se
značí R2 a uvádí se v procentech nebo podílu celkové variability (v případe lineární regrese jde o
Pearsonovu korelaci na druhou) •Statisckou významnost vyčepané variability je možné testovat pomocí
analýzy rozptylu
14

logo-IBA logomuni
Jiří Jarkovský, Simona Littnerová: Pokročilé statistické metody
Ověření modelu na nezávislém souboru
•Při tvorbě modelů může dojít k problému, kdy vytvořený model je perfektně „vycvičen“ řešit danou
úlohu na datovém soubor na němž byla vytvořena
•Z tohoto důvodu je problematické testovat výsledky modelu na stejném souboru, na němž byla
vytvořena -> jde o důkaz kruhem
•Řešením je testování výsledků modelu na souboru se známým výsledkem (zde známým zařazením objektů
do skupin), který se nepodílel  na definici modelu
–Krosvalidace
•datový soubor je náhodně rozdělen na několik podsouborů (2 nebo více)
•Na jednom podsouboru je vytvořen model a jeho výsledky testovány na zbývajících podsouborech
•Výpočet je proveden postupně na všech podsouborech
–One out leave out
•Model je vytvořen na celém souboru bez jednoho objektu
•na tomto objektu je model testován
• postup je zopakován pro všechny objekty
–Permutační metody
•Jackknife, bootstrap – model je postupně vytvářen
 na náhodných podvýběrech souboru a
testován na zbytku dat
15
Podsoubor I
Model I
Podsoubor II
Model II
Testování Model I
Testování Model II

logo-IBA logomuni
Jiří Jarkovský, Simona Littnerová: Pokročilé statistické metody
Testování dílčích hypotéz
•V řadě analýz je třeba pracovat se vzájemným testováním více skupin objektů stylem každý s každým
•Obecný postup analýzy je
–Testování celkové významnosti – všechny skupiny navzájem (ENG: among groups)
–Pokud je zjištěna celková významnost pokračuje testování analýzou již konkrétních kombinací dvojic
skupin (ENG: between)
•Problémem je vliv mnohonásobného testování na statistickou významnost testů:
–Každý jeden test má a=0.05 (chyba I. druhu)
–Při mnohonásobném testování stoupá pravděpodobnost, že alespoň u jednoho testu dojde k chybnému
zamítnutí nulové hypotézy (tedy k chybě I. druhu)
16
Počet testů
Řešením jsou různé procedury korigující hodnotu p (např. Bonferroniho korekce, FWR, FDR procedury
apod.)

logo-IBA logomuni
Jiří Jarkovský, Simona Littnerová: Pokročilé statistické metody
Hlavní efekty a interakce
17
SS
D.f.
MS
F
p
Intercept
33487
1
33487
8165.3
0.000
Faktor 1
1978
1
1978
482.2
0.000
Faktor 2
1
1
1
0.3
0.602
F1*F2
1
1
1
0.3
0.570
Error
804
196
4
SS
D.f.
MS
F
p
Intercept
33487
1
33487
8165.3
0.000
Faktor 1
4
1
4
1.0
0.314
Faktor 2
1891
1
1891
461.1
0.000
F1*F2
1
1
1
0.3
0.570
Error
804
196
4
SS
D.f.
MS
F
p
Intercept
57391
1
57391
13993
0.000
Faktor 1
5293
1
5293
1290.7
0.000
Faktor 2
861
1
861
209.9
0.000
F1*F2
1
1
1
0.3
0.570
Error
804
196
4
SS
D.f.
MS
F
p
Intercept
28511
1
28511
6952.0
0.000
Faktor 1
4
1
4
1.0
0.314
Faktor 2
1
1
1
0.3
0.602
F1*F2
867
1
867
211.3
0.000
Error
804
196
4
SS
D.f.
MS
F
p
Intercept
38863
1
38863
9476.2
0.000
Faktor 1
920
1
920
224.3
0.000
Faktor 2
1
1
1
0.3
0.602
F1*F2
867
1
867
211.3
0.000
Error
804
196
4
SS
D.f.
MS
F
p
Intercept
45203
1
45203
13596
0.000
Faktor 1
4799
1
4799
1443.4
0.000
Faktor 2
316
1
316
95.0
0.000
F1*F2
175
1
175
52.5
0.000
Error
652
196
3

logo-IBA logomuni
Jiří Jarkovský, Simona Littnerová: Pokročilé statistické metody
Statistická významnost vs. praktické využití modelu
•Při aplikaci modelu v praxi je třeba zohlednit jak zjištěné statistické významnosti, tak praktický
význam výstupů modelu
•Jde o analogii k statistické vs. praktické významnosti rozdílů např. v t –testu
•
•Statistická významnost = vztah mezi proměnnými, rozdíl mezi skupinami není pouhá náhoda
(respektivě je dostatečně nízká pravděpodobnost, že nejde o náhodu)
•
•Praktický význam modelu
–Z hlediska prediktorů: změna predikované hodnoty při změně prediktoru je prakticky významná (např.
velikost nárůstu krevního tlaku při změně věku o 10 let)
–Z hlediska objektů: Individuální predikce pacienta je dostatečně přesná aby byla prakticky
využitelná (predikce různých událostí – hospitalizace, úmrtí, vznik komplikací, výsledek léčby
atd.)
18

logo-IBA logomuni
Jiří Jarkovský, Simona Littnerová: Pokročilé statistické metody
Rozsah aplikovatelnosti modelu
•Modely je možné aplikovat pouze v rozsahu prediktorů, na nichž byly vyvinuty
•Důvodem je naše neznalost chování vztahů mezi prediktory a predikovanou proměnnou mimo hranice v
nichž byl model definován (typickými příklady jsou např. křivky dávka-odpověď, růst dětí v
závislosti na věku, růst baktérií v závislosti na substrátu apod.)
19
Věk (roky)
Lineární model odvozený z části dat
Model dobře funguje v tomto rozsahu
Při aplikaci v této oblasti model nadhodnocuje
Data: WHO Growth reference 5-19 years

FSTA: Pokročilé statistické metody
Stochastické modelování - ANOVA


logo-IBA logomuni
Jiří Jarkovský, Simona Littnerová: Pokročilé statistické metody
ANOVA
•Analýza rozptylu je základním nástrojem pro analýzu rozdílů mezi průměry v několika skupinách
pacientů. •Základní myšlenka, na níž je ANOVA založena, je rozdělení celkové variability v datech
(neznámé, dané pouze náhodným rozložením) na část systematickou (spjatou s kategoriemi pacientů,
vysvětlená variabilita) a část náhodnou. Pokud systematická, tedy nenáhodná a vysvětlitelná část
variability převažujeme, považujeme daný kategoriální faktor za významný pro vysvětlení variability
dat. •Analýza rozptylu vyhodnocuje pouze celkový vliv faktoru na variabilitu, v případě analýzy
jednotlivých kategorií je třeba využít tzv. post-hoc testy
•
21

logo-IBA logomuni
Jiří Jarkovský, Simona Littnerová: Pokročilé statistické metody
ANOVA – předpoklady
• Symetrické rozložení hodnot a normalita odchylek od hodnoceného modelu ANOVA. Velkou část dat lze
adekvátně normalizovat použitím logaritmické transformace. Předpoklad lognormální transformace může
pochopitelně být teoreticky vyloučen u mnoha datových souborů obsahujících diskrétní parametry, kde
je indikována vhodnost jiného typu transformace. U asymetricky  rozložených a u diskrétních dat je
nutné využít neparametrické alternativy analýzy rozptylu.
•Homogenita rozptylu je nutným předpokladem pro smysluplnost vzájemných srovnání pokusných variant.
U testů toxicity by splnění tohoto předpokladu mělo být ověřováno (Bartlettův test), neboť vážné
rozdíly (až řádové) v jednotkách testovaného parametru mohou nastat v důsledku inhibice dávkami
látky. Nehomogenita rozptylu je často ve vztahu k nenormalitě (asymetrii) dat a lze ji odstranit
vhodnou normalizující transformací.
•Statistická nezávislost reziduí  vyhodnocovaného modelu ANOVA. Pokud odhad a posouzení korelačních
vztahů mezi pokusnými variantami není přímo předmětem výzkumu, lze jejich vliv na vyhodnocení
odstranit znáhodněním dat v rámci pokusných variant -  tedy změnou pořadí v náhodné. Rozsah vlivu
těchto autokorelačních vztahů musí být ovšem primárně omezen správností experimentálního
uspořádání.
•Aditivita jako předpoklad týkající se složitějších experimentálních uspořádání. Exaktní otestování
aditivity více pokusných faktorů je procedura poměrně náročná na experimentální design vyvážený co
do počtu opakování. Je rovněž obtížné testovat interakci na nestandardních datech, neboť případná
transformace může změnit charakter odchylek původních dat od hodnoceného modelu ANOVA.
•
22

logo-IBA logomuni
Jiří Jarkovský, Simona Littnerová: Pokročilé statistické metody
Princip ANOVA
•Základním principem ANOVY je porovnání rozptylu připadajícího na:
–Rozdělení dat do skupin (tzv. effect, variance between groups)
–Variabilitu objektů uvnitř skupin (tzv. error, variance within groups), předpokládá se, že jde o
náhodnou variabilitu (=error)
•
23
ANOVA
Výsledný poměr (F) porovnáme s tabulkami F rozložení pro v1 a v2 stupňů volnosti
SS=sum of squares
1.Variabilita mezi skupinami
Rozptyl je počítán pro celkový průměr (tzv. grand mean) a průměry v jednotlivých skupinách dat
Stupně volnosti jsou odvozeny od počtu skupin (= počet skupin -1)
2.Variabilita uvnitř skupin
Rozptyl je počítán pro průměry jednotlivých skupin a objekty uvnitř příslušných, celková
variabilita je pak sečtena pro všechny skupiny
Stupně volnosti jsou odvozeny od počtu hodnot (= počet hodnot - počet skupin)

logo-IBA logomuni
Jiří Jarkovský, Simona Littnerová: Pokročilé statistické metody
Jednoduchý ANOVA design
•Nejjednodušším případem ANOVA designu je rozdělení na skupiny podle jednoho parametru
24

logo-IBA logomuni
Jiří Jarkovský, Simona Littnerová: Pokročilé statistické metody
Nested ANOVA
•Rozdělení skupin na náhodné podskupiny (např. opakování experimentu)
• Cílem je zjistit, zda data v jedné skupině nejsou pouhou náhodou
• Nejprve je testována shoda podskupin v hlavních skupinách,
– pokud jsou shodné, je vše v pořádku
– pokud nejsou, stále lze zjišťovat, zda se variabilita uvnitř hlavních skupin liší od celkové
variability
•
25

logo-IBA logomuni
Jiří Jarkovský, Simona Littnerová: Pokročilé statistické metody
Two way ANOVA
•Pro rozdělení do kategorií je zde více parametrů
•Na rozdíl od nested ANOVY nejde o náhodná opakování experimentu, ale o řízené zásahy (např.vliv pH
a koncentrace O2)
•Kromě vlivu hlavních faktorů se uplatňuje i jejich interakce
•
26

logo-IBA logomuni
Jiří Jarkovský, Simona Littnerová: Pokročilé statistické metody
ANOVA – základní výstup
•Základním výstupem analýzy rozptylu je Tabulka ANOVA - frakcionace komponent rozptylu
•
27
Zdroj rozptylu
Pok. zásah
(mezi skupinami)
Uvnitř skupin
Celkem
SSB/SST
MSB/MST
St. v.
a -1                        SSB          SSB/(a -1)        MSB/MSE
N - a                       SSE          SSE/(N - a)
N -1                        SST
SS
MS
F
Kvantifikovaný podíl rozdílu mezi pokusnými zásahy na celkovém rozptylu
Statistická významnost rozdílu

logo-IBA logomuni
Jiří Jarkovský, Simona Littnerová: Pokročilé statistické metody
Příklad: Anova - One way
•Dávka rostlinného stimulátoru  (0, 4, 8, 12  mg/l)
•A = 4 ; n = 8
•
•I.      ANOVA
•Bartlett's test:        P = 0,9847
•K-S test:                P = 0,482 - 0,6525  pro jednotlivé kategorie
•
•
•
•
•II.     Multiple Range Test (NKS –test)
•
•
28
Source
D.f.
SS
MS
F
p
Between
3
305.8
101.9
8.56
<0.001
Within
28
322.2
11.9
Total
31
638
Level
Average
Homogeneous groups
0
34.8
x
4
41.4
x
12
41.8
x
8
52.6
x

FSTA: Pokročilé statistické metody
Stochastické modelování – Lineární regrese


logo-IBA logomuni
Jiří Jarkovský, Simona Littnerová: Pokročilé statistické metody
Lineární regrese
•Korelační analýza je využívána pro vyhodnocení míry vztahu dvou spojitých proměnných. Obdobně jako
jiné statistické metody, i korelace mohou být parametrické nebo neparametrické •Regresní analýza
vytváří model vztahu dvou nebo více proměnných, tedy jakým způsobem jedna proměnná (vysvětlovaná)
závisí na jiných proměnných (prediktorech). Regresní analýza je obdobně jako ANOVA nástrojem pro
vysvětlení variability hodnocené proměnné
•
30

logo-IBA logomuni
Jiří Jarkovský, Simona Littnerová: Pokročilé statistické metody
Základy regresní analýzy
•Regrese - funkční vztah dvou nebo více proměnných
•
31
Jednorozměrná
y = f(x)
Vícerozměrná
y = f(x1, x2, x3, ……xp)
Vztah x, y
Deterministický
Regresní, stochastický
Y
X
Y
X
Y
X
Pro každé x existuje pravděpodobnostní rozložení y

logo-IBA logomuni
Jiří Jarkovský, Simona Littnerová: Pokročilé statistické metody
Lineární regrese I
32
}
Komponenty tvořící y se sčítají
e  - náhodná složka modelu přímky = rezidua přímky

logo-IBA logomuni
Jiří Jarkovský, Simona Littnerová: Pokročilé statistické metody
Lineární regrese II
33
y
1
n
x
y
1
n
1
n
= a + b .
x
y
-
y
=
e
Y
X

logo-IBA logomuni
Jiří Jarkovský, Simona Littnerová: Pokročilé statistické metody
Lineární regrese III
34
x
x
y
y
y
y
e
 e = 0
Y
X
y
b = 0
Y
X
 y
b > 0

logo-IBA logomuni
Jiří Jarkovský, Simona Littnerová: Pokročilé statistické metody
Lineární regrese III
•Metoda nejmenších čtverců
–X: Pevná, nestochastická proměnná
–Rozložení hodnot y pro každé x je normální
–Rozložení hodnot y pro každé x má stejný rozptyl
–Rezidua jsou navzájem nezávislá a mají normální rozložení
•
35
Smysl proložení přímky
minimalizace odchylek

logo-IBA logomuni
Jiří Jarkovský, Simona Littnerová: Pokročilé statistické metody
Lineární regrese IV
36
I.
II.
intercept
III.
Y  :  modelová hodnota

logo-IBA logomuni
Jiří Jarkovský, Simona Littnerová: Pokročilé statistické metody
Lineární regrese: analýza reziduí
37
e
e
0
0
!
e
y (i; x)
0
e
0
y (i; x)
e
0
y (i; x)
!
Grafy residuí modelů (příklady)
Obecné tvary residuí modelů (schéma)
e
i, xj, y
e
i, xj, y
a
b
e
i, xj, y
e
i, xj, y
c
d
d

logo-IBA logomuni
Jiří Jarkovský, Simona Littnerová: Pokročilé statistické metody
Analýza rozptylu v regresi
•Výpočet statistické významnosti rozptylu vyčerpaného regresním modelem
38
Celková ANOVA
SSB/SST         (variance ratio)
MSB/MSE = F
Analýza rozptylu regresního modelu (zde přímky)
(SSMOD/SST) . 100 = % rozptylu Y "vyčerpaného" přímkou = koeficient determinace (R2)
Zdroj rozptylu
st.v.
SS
MS
F
Model
(přímka)
1
SSMOD
MSMOD
MSMOD / MSR
Residuum
na - 2
SSR
MSR
celkem
na - 1
SST

logo-IBA logomuni
Jiří Jarkovský, Simona Littnerová: Pokročilé statistické metody
Kroky regresní analýzy
•Regresní analýza (a obecně i jiné stochastické modely) by měla probíhat v následujících krocích
1.Ověření obecných předpokladů – normalita dat, linearita vztahu
2.Výpočet modelu
3.Analýza reziduí modelu umožňující ověřit vhodnost aplikace lineárního nebo jiného modelu
4.Analýza vyčepané variability testující, zda model variabilitu dat významně vysvětluje
5.Testování regresních koeficientů
1.Posouzení významnosti komponent modelu
2.Praktická smysluplnost modelu
6.Závěr o využitelnosti a smysluplnosti modelu
39