Transformace dat


TRANSFORMACE – CO TO JE?
omatematická funkce použitá na všechny původní hodnoty:
• Y* = f(Y)
•f() – kontinuální, monotónická, většinou jednoduchá funkce
onemění pořadí hodnot
opořadí hodnot zůstane zachováno (transformace nemá vliv na neparametrické testy)
omění relativní rozestupy mezi hodnotami a tudíž i varianci a tvar rozložení
onapř. odmocnina, logaritmus
2

TRANSFORMACE – PROČ?
o„vyžaduje to statistika“
•nenormálně rozložená data
•heterogenní variance (heteroscedasticity)
•ne vždy zcela objektivní, ale v literatuře běžný důvod
-některé testy jsou platné jen při splnění předpokladů, že residua jsou normálně rozložena a mají
homogenní varianci (variance nezávisí na průměru)
opřítomnost odlehlých hodnot
olinearizace vztahů
•lineární vztahy se lépe modelují a interpretují
oškála měření je arbitrární a nemusí odpovídat ekologickému významu proměnné
o
3

NORMALITA DAT
omnohé testy hypotéz platné jen při splnění některých předpokladů
ojeden z nich je normalita rozložení residuí
omylné a bezdůvodné testování normality prediktorů
oideální prediktor má rozložení:
•četnost měření se nemění podél gradientu prediktoru
4
Zuur et al. 2007
uniformní

RESIDUA LINEÁRNÍHO MODELU
5
Fitované hodnoty
Residuum
Průměr vysvětlované proměnné
Pozorované hodnoty

TRANSFORMACE
6


VÝBĚR TRANSFORMACE
otvar rozložení (sešikmenost – skeweness)
ovztah proměnných
orozsah hodnot (zahrnují nulu nebo negativní hodnoty?)
7
Negativně (doleva) sešikmené rozložení (left-skewed)
Symetrické
pozitivně (doprava) sešikmené rozložení (right-skewed)

ČASTÉ TRANSFORMACE
oLogaritmická transformace (log transformation)
•pro data s výrazně pozitivně (doprava) šikmou distribucí (right skewed)
•Variabilita roste s hodnotami závislé proměnné
•lognormální rozložení – běžné v ekologii
-násobením sady nezávislých faktorů získáme lognormálně rozloženou proměnnou
•
•
•
•
•
•na základě logaritmu nezáleží (10, 2, e)
-Ale je třeba používat konzistentně
-Pozor na zrkatky ln/log vs. log/log10 v češtině a angličtině
•konstanta a > 1 zabrání negativním hodnotám, pokud proměnná Y obsahuje hodnoty z intervalu <0;1>
•pokud proměnná obsahuje nuly (nebo negativní hodnoty), musíme přičíst konstantu c
•c by měla být stejného řádu jako měřené hodnoty  (např. 0,01 při hodnotách od 0,00 do 0,09), u
abundancí to odpovídá 1
•konstanta c má  vliv na výsledné rozložení hodnot
8
nebo
pro yij > 0
pro yij = 0

ODMOCNINOVÁ A MOCNINOVÁ TRANSFORMACE
•Odmocnina (square root)
ona doprava sešikmené rozložení
oslabší efekt než logaritmus
•
•
•
•pokud jsou v datech nuly, je někdy vhodné přidat konstantu c
•c např.  0,5 (Sokal & Rohlf, 1995) nebo 3/8 (0,375) (Anscombe 1948)
o
otřetí a vyšší odmocnina je účinnější na více zešikmená data (čtvrtá odmocnina se používá pro
abundance druhů s mnoha nulami a několika vysokými hodnotami)
ovysoká odmocnina se blíží logaritmu
•
•Mocninná transformace (power transformation)
ovhodná pro data negativně (doleva) sešikmená (left skewed)
•
•
•
o
9
případně

DALŠÍ TRANSFORMACE
•arcsin (angular transformation)
ovhodná pro procentické hodnoty (a obecně podíly)
•použitelná pro hodnoty v intervalu <-1; 1>
•jemně roztahuje hodnoty blízké 0 a 1
•
•Logit
ovhodná pro podíly stejně jako arcsin
•hodnoty od 0 do 1
•roztahuje hodnoty blízké 0 a 1
•
•
•Reciproká transformace (reciprocal transformation)
ovhodná pro poměry (například výška/hmotnost, počet dětí v populaci na počet žen atd.)
•roztahuje hodnoty blízké nule
•otáčí interpretaci
•
10