Transformace dat TRANSFORMACE – CO TO JE? omatematická funkce použitá na všechny původní hodnoty: • Y* = f(Y) •f() – kontinuální, monotónická, většinou jednoduchá funkce onemění pořadí hodnot opořadí hodnot zůstane zachováno (transformace nemá vliv na neparametrické testy) omění relativní rozestupy mezi hodnotami a tudíž i varianci a tvar rozložení onapř. odmocnina, logaritmus 2 TRANSFORMACE – PROČ? o„vyžaduje to statistika“ •nenormálně rozložená data •heterogenní variance (heteroscedasticity) •ne vždy zcela objektivní, ale v literatuře běžný důvod -některé testy jsou platné jen při splnění předpokladů, že residua jsou normálně rozložena a mají homogenní varianci (variance nezávisí na průměru) opřítomnost odlehlých hodnot olinearizace vztahů •lineární vztahy se lépe modelují a interpretují oškála měření je arbitrární a nemusí odpovídat ekologickému významu proměnné o 3 NORMALITA DAT omnohé testy hypotéz platné jen při splnění některých předpokladů ojeden z nich je normalita rozložení residuí omylné a bezdůvodné testování normality prediktorů oideální prediktor má rozložení: •četnost měření se nemění podél gradientu prediktoru 4 Zuur et al. 2007 uniformní RESIDUA LINEÁRNÍHO MODELU 5 Fitované hodnoty Residuum Průměr vysvětlované proměnné Pozorované hodnoty TRANSFORMACE 6 VÝBĚR TRANSFORMACE otvar rozložení (sešikmenost – skeweness) ovztah proměnných orozsah hodnot (zahrnují nulu nebo negativní hodnoty?) 7 Negativně (doleva) sešikmené rozložení (left-skewed) Symetrické pozitivně (doprava) sešikmené rozložení (right-skewed) ČASTÉ TRANSFORMACE oLogaritmická transformace (log transformation) •pro data s výrazně pozitivně (doprava) šikmou distribucí (right skewed) •Variabilita roste s hodnotami závislé proměnné •lognormální rozložení – běžné v ekologii -násobením sady nezávislých faktorů získáme lognormálně rozloženou proměnnou • • • • • •na základě logaritmu nezáleží (10, 2, e) -Ale je třeba používat konzistentně -Pozor na zrkatky ln/log vs. log/log10 v češtině a angličtině •konstanta a > 1 zabrání negativním hodnotám, pokud proměnná Y obsahuje hodnoty z intervalu <0;1> •pokud proměnná obsahuje nuly (nebo negativní hodnoty), musíme přičíst konstantu c •c by měla být stejného řádu jako měřené hodnoty (např. 0,01 při hodnotách od 0,00 do 0,09), u abundancí to odpovídá 1 •konstanta c má vliv na výsledné rozložení hodnot 8 nebo pro yij > 0 pro yij = 0 ODMOCNINOVÁ A MOCNINOVÁ TRANSFORMACE •Odmocnina (square root) ona doprava sešikmené rozložení oslabší efekt než logaritmus • • • •pokud jsou v datech nuly, je někdy vhodné přidat konstantu c •c např. 0,5 (Sokal & Rohlf, 1995) nebo 3/8 (0,375) (Anscombe 1948) o otřetí a vyšší odmocnina je účinnější na více zešikmená data (čtvrtá odmocnina se používá pro abundance druhů s mnoha nulami a několika vysokými hodnotami) ovysoká odmocnina se blíží logaritmu • •Mocninná transformace (power transformation) ovhodná pro data negativně (doleva) sešikmená (left skewed) • • • o 9 případně DALŠÍ TRANSFORMACE •arcsin (angular transformation) ovhodná pro procentické hodnoty (a obecně podíly) •použitelná pro hodnoty v intervalu <-1; 1> •jemně roztahuje hodnoty blízké 0 a 1 • •Logit ovhodná pro podíly stejně jako arcsin •hodnoty od 0 do 1 •roztahuje hodnoty blízké 0 a 1 • • •Reciproká transformace (reciprocal transformation) ovhodná pro poměry (například výška/hmotnost, počet dětí v populaci na počet žen atd.) •roztahuje hodnoty blízké nule •otáčí interpretaci • 10