Vícerozměrná data, jejich popis a vizualizace logo-IBA logomuni Jiří Jarkovský, Simona Littnerová, Eva Janoušová, Lucie Brožová: Pokročilé statistické metody Vícerozměrná data 2 ID Pohlaví Věk Váha MMSE skóre Objem hipokampu … 1 muž 84 85,5 29 7030 2 žena 25 62,0 28 6984 3 4 … PROMĚNNÉ •Poznámka: proměnné označovány i jako znaky, pozorování, diskriminátory, příznakové proměnné či příznaky •Anglicky označení pouze jedním termínem: feature logo-IBA logomuni Jiří Jarkovský, Simona Littnerová, Eva Janoušová, Lucie Brožová: Pokročilé statistické metody Maticový zápis datového souboru 3 ID Pohlaví Věk Váha MMSE skóre Objem hipokampu … 1 muž 84 85,5 29 7030 2 žena 25 62,0 28 6984 … PROMĚNNÉ maticový zápis datového souboru n objektů (subjektů), které jsou popsané p proměnnými jeden prvek matice xij je hodnota j-té proměnné u i‑tého objektu (subjektu), přičemž j = 1, ..., p a i = 1, ..., n logo-IBA logomuni Jiří Jarkovský, Simona Littnerová, Eva Janoušová, Lucie Brožová: Pokročilé statistické metody Typy dat - opakování •Kvalitativní (kategoriální) data: •Binární data • •Nominální data • •Ordinální data • • • •Kvantitativní data: •Intervalová data • •Poměrová data 4 Jaké druhy parametrů v datovém souboru vlastně můžeme mít? logo-IBA logomuni Jiří Jarkovský, Simona Littnerová, Eva Janoušová, Lucie Brožová: Pokročilé statistické metody Vizualizace jednorozměrných dat - opakování 5 Ženy (N=54) Muži (N=48) Pohlaví N=102 Koláčový graf Sloupkový graf Věk (roky) % Maximum Minimum Medián 75% percentil 25% percentil Krabicový graf (Box Plot) Histogram 0 10 20 30 40 50 60 70 80 90 logo-IBA logomuni Jiří Jarkovský, Simona Littnerová, Eva Janoušová, Lucie Brožová: Pokročilé statistické metody K čemu nám může pomoci vizualizace dat? 6 id vek pohlavi cholesterol vyska vaha obvod_pasu obvod_boku BMI sys_tlak dia_tlak 1 38 Z 4.6 164 45 60 87 16.7 120 80 2 36 Z 4.35 167 90 97 112 32.3 130 80 3 26 Z 178 70 72 94 22.1 127 80 4 25 Z 4.2 165 59 65 92 21.7 130 80 5 47 M 5.65 158 92 96 26.8 155 90 6 21 Z 6.35 172 61 69 98 20.6 135 80 7 23 Z 3.45 170 82 92 113 28.4 130 80 8 35 M 7.99 179 90 101 110 28.1 140 88 9 33 Z 4.88 167 57 70 92 20.4 140 85 10 48 Z 9.56 164 70 93 107 26.0 250 97 11 25 M 3.1 186 75 81 102 21.7 120 70 12 41 Z 10 167 62 71 101 22.2 140 90 13 29 ZZ 4.2 165 58 66 98 21.3 120 80 14 24 M 5.62 174 80 92 107 26.4 156 90 15 58 Z 7.9 164 63 73 100 23.4 135 90 Chybějící hodnoty Chybné hodnoty Odlehlé hodnoty → odhalení problémů v datech v datech mohou vyskytovat problémy, které by potom vedly k chybným výsledkům či interpretaci dále také k odhalení vztahů mezi proměnnými, k představě, jak asi dopadne testování hypotéz (rozdíl mezi skupinami bude či nebude), ... logo-IBA logomuni Jiří Jarkovský, Simona Littnerová, Eva Janoušová, Lucie Brožová: Pokročilé statistické metody Problémy v datech – chybějící hodnoty •snaha, aby v datech vůbec nenastaly •pokud však nastanou, je silně nedoporučováno dělat každou analýzu na jinak velkém souboru (tzv. „casewise“ odstraňování objektů) → 3 možná řešení: 7 1.vyloučit z analýzy všechny objekty, u nichž se vyskytla nějaká chybějící hodnota (tzv. „listwise“ odstranění objektů): ‐pokud chybějících hodnot mnoho, zbyde pouze málo objektů ‐pozor na systematicky chybějící hodnoty – může dojít ke zkreslení výsledků analýz ‐občas vhodné odstranit proměnné s mnoha chybějícími hodnotami místo objektů, pokud proměnné nejsou důležité pro analýzu 2.definování souboru s vyplněnými „klíčovými“ proměnnými: ‐na tomto souboru provedena většina analýz ‐další analýzy dělány na podsouboru s menším počtem subjektů 3.doplnění chybějících hodnot (tzv. imputace): ‐doplnění průměrem z hodnot, které jsou pro danou proměnnou k dispozici ‐doplnění hodnot na základě regresních modelů ‐pozor! doplnění hodnot však může zkreslit výsledky analýz ‐ logo-IBA logomuni Jiří Jarkovský, Simona Littnerová, Eva Janoušová, Lucie Brožová: Pokročilé statistické metody Problémy v datech – odlehlé hodnoty •k identifikaci odlehlých hodnot mohou pomoci např. tečkové, maticové či krabicové grafy •je třeba rozlišovat: 8 1.odlehlé hodnoty, které jsou způsobeny chybou (měřících přístrojů apod.) - jsou to většinou nereálné hodnoty → je vhodné je smazat a dále s nimi zacházet jako s chybějícími hodnotami 2.odlehlé hodnoty, které jsou fyziologické (tzn. jsou to reálné hodnoty) → je vhodné tyto hodnoty v datech ponechat, pokud je to možné a nezkreslí to analýzu a použít neparametrické metody analýzy dat ‐příklad, kdy je vhodné odlehlou hodnotu v souboru ponechat: pacienti Alzheimerovou chorobou v našem souboru mají hodnotu MMSE skóre větší než 15, jeden pacient má však hodnotu skóre 7 (je to reálná hodnota, smazáním bychom uměle snížili variabilitu) ‐příklad, kdy je nevhodné odlehlou hodnotu v souboru ponechat: chceme měřit výšku 15-letých dětí – dítě trpící nanismem měřící 80 cm by průměrnou výšku velice zkreslilo, proto ho ze souboru vyřadíme logo-IBA logomuni Jiří Jarkovský, Simona Littnerová, Eva Janoušová, Lucie Brožová: Pokročilé statistické metody Vizualizace vícerozměrných dat •3D sloupkové grafy •dvourozměrný histogram •maticové grafy •krabicové grafy pro více proměnných •ikonové (symbolové) grafy: –profilové sloupce –profily –paprskové (hvězdicové) grafy –polygony –pavučinové grafy –Chernoffovy tváře 9 logo-IBA logomuni Jiří Jarkovský, Simona Littnerová, Eva Janoušová, Lucie Brožová: Pokročilé statistické metody 3D sloupkové grafy •vzájemný výskyt kategorií dvou kategoriálních proměnných •v softwaru Statistica: Graphs – 3D Sequential Graphs – Bivariate Histograms... 10 logo-IBA logomuni Jiří Jarkovský, Simona Littnerová, Eva Janoušová, Lucie Brožová: Pokročilé statistické metody Dvourozměrný histogram •pro vykreslení vztahu dvou spojitých proměnných •v softwaru Statistica: Graphs – 3D Sequential Graphs – Bivariate Histograms... 11 logo-IBA logomuni Jiří Jarkovský, Simona Littnerová, Eva Janoušová, Lucie Brožová: Pokročilé statistické metody Tečkový graf •rovněž pro vykreslení vztahu dvou spojitých proměnných •v softwaru Statistica: Graphs – Scatterplots... 12 logo-IBA logomuni Jiří Jarkovský, Simona Littnerová, Eva Janoušová, Lucie Brožová: Pokročilé statistické metody Tečkový graf – přidání kategoriální proměnné •zahrnutí kategoriální proměnné do grafu použitím různých symbolů či barev pro jednotlivé skupiny určené danou kategoriální proměnnou •v softwaru Statistica: Graphs – Scatterplots – na záložce Categorized zahrnout On u X-Categorized, vybrat kategoriální proměnnou pomocí Change Variable a změnit Layout na Overlaid • • 13 logo-IBA logomuni Jiří Jarkovský, Simona Littnerová, Eva Janoušová, Lucie Brožová: Pokročilé statistické metody Maticový graf •vykreslení vztahu více spojitých proměnných •v softwaru Statistica: Graphs – Matrix Plots... •upozornění: nastavení, jak se vypořádat s chybějícími hodnotami 14 -vypořádání se s chybějícími hodnotami – pairwise či casewise -věk nekoreluje s výškou, výška koreluje s váhou atd. -jsou patrné odlehlé hodnoty -pokud chceme odlišit body podle kategoriální proměnné (např. pohlaví) – kliknout na záložce Advanced na Mark Selected Subsets (a zvolit např. pohlavi=“M” do subset 1 a pohlavi=“F” do subset 2) -pro vysvětlení casewise a pairwise odstranění chybějících hodnot jsem na tabuli udělala jednoduchý dataset se 4 pacienty, z nichž jednomu chyběl věk, jednomu výška a jednomu váha a do tabulky 3x3 (bez diagonály) jsme psali, kolik pacientů bude vykreslených v jednotlivých políčkách při pairwise a casewise (i když u pairwise budou ve všech políčkách 2 subjekty, pokaždé jsou to trochu jiné dva subjekty, což je problém, protože pak jednotlivá políčka (v případě korelační matice jednolivé korelace) pak nejsou zcela srovnatelné) logo-IBA logomuni Jiří Jarkovský, Simona Littnerová, Eva Janoušová, Lucie Brožová: Pokročilé statistické metody Maticový graf – na diagonále krabicové grafy •v softwaru Statistica: Graphs – Matrix Plots...; na záložce Advanced zatrhnout Display: Box plot 15 logo-IBA logomuni Jiří Jarkovský, Simona Littnerová, Eva Janoušová, Lucie Brožová: Pokročilé statistické metody Krabicové grafy pro více proměnných •ukáží nám, zda mají proměnné podobný rozsah hodnot •v softwaru Statistica: označit příslušné sloupečky v datech – Graphs – Graphs of Block Data – Box Plot: Block columns 16 -různý rozsah hodnot – v některých analýzách vhodná standardizace před výpočtem dané analýzy; či vynásobení cholesterolu hodnotou 100; či odečíst minimimum a vydělit maximem -odlehlá hodnota u systolického tlaku logo-IBA logomuni Jiří Jarkovský, Simona Littnerová, Eva Janoušová, Lucie Brožová: Pokročilé statistické metody Vícenásobné krabicové grafy •umožňují znázornění vztahu několika kvalitativních proměnných a jedné kvantitativní proměnné 17 -vyzkoušet, jestli to jde nějak v softwaru Statistica (jedině si vykreslit pomocí filtru každý obrázek zvlášť a pak to „slepit“ v powerpointu) -se zvyšujícím se počtem dnů strávených v nemocnici rostou náklady na léčbu pacientů a že nejvyšší náklady byly u pacientů s C33-34 ve stádiu IV, kteří strávili v nemocnici 26 a více dnů logo-IBA logomuni Jiří Jarkovský, Simona Littnerová, Eva Janoušová, Lucie Brožová: Pokročilé statistické metody Ikonové (symbolové) grafy •hodnoty znaků znázorněny jako geometrické útvary či symboly •každému objektu (subjektu) odpovídá jeden obrazec složený z těchto geometrických útvarů či symbolů •umožní vizuálně porovnat, které objekty (subjekty) jsou si podobné •mnoho druhů, v softwaru Statistica např.: 1.Profilové sloupce 2.Profily 3.Paprskové (hvězdicové) grafy 4.Polygony 5.Pavučinové grafy 6.Chernoffovy tváře 18 logo-IBA logomuni Jiří Jarkovský, Simona Littnerová, Eva Janoušová, Lucie Brožová: Pokročilé statistické metody Ikonové grafy – profilové sloupce •výšky sloupců odpovídají relativním hodnotám proměnných (relativní hodnota je podíl původní hodnoty a maxima z absolutních hodnot dané proměnné) •v softwaru Statistica: Graphs – Icon Plots... – Graph type: Columns – zvolit proměnné – na záložce Options 1 zatrhnout „Display case labels“ 19 -podobné jsou si např. subjekty 4 a 13 -výběr 20 subjektů: Sel Cond – Enable Selection Conditions – kliknout na Specific, selected by: - zadat požadované case number (např. 1-20) -úprava počtu řádků a sloupečků při vykreslení: 2x kliknout na graf – v oddílu Layout změnit hodnoty u Rows a Columns -přidání popisků pro jednotlivé subjekty: na záložce Options 1 zatrhnout Display case labels (dají se tam čísla subjektů s křížky); popisy podle nějaké proměnné lze udělat zvolením Variable u Case labels a výběr příslušné proměnné (např. id či pohlavi) -odlišení skupin (např. podle kategoriálního parametru získaného pomocí shlukovek) – na záložce Advanced kliknout na Mark Icons a vydefinovat tam jednotlivé skupiny (v těchto datech např. podle pohlaví, tedy pohlavi=„M“ a pohlavi=„Z“) logo-IBA logomuni Jiří Jarkovský, Simona Littnerová, Eva Janoušová, Lucie Brožová: Pokročilé statistické metody Ikonové grafy – profily •obdoba profilových sloupců, jen se středy horních hran profilových sloupců spojí úsečkami •v softwaru Statistica: Graphs – Icon Plots... – Graph type: Profiles – zvolit proměnné – na záložce Options 1 zatrhnout „Display case labels“ 20 - podobné jsou si např. subjekty 4 a 13 logo-IBA logomuni Jiří Jarkovský, Simona Littnerová, Eva Janoušová, Lucie Brožová: Pokročilé statistické metody Ikonové grafy – paprskové (hvězdicové) grafy •vzdálenosti od středu odpovídají relativním hodnotám proměnných •v softwaru Statistica: Graphs – Icon Plots... – Graph type: Stars – zvolit proměnné – na záložce Options 1 zatrhnout „Display case labels“ 21 - podobné jsou si např. subjekty 4 a 13 logo-IBA logomuni Jiří Jarkovský, Simona Littnerová, Eva Janoušová, Lucie Brožová: Pokročilé statistické metody Ikonové grafy – polygony •obdoba paprskových grafů, jen jsou vyplněné •v softwaru Statistica: Graphs – Icon Plots... – Graph type: Polygons – zvolit proměnné – na záložce Options 1 zatrhnout „Display case labels“ 22 - podobné jsou si např. subjekty 4 a 13 logo-IBA logomuni Jiří Jarkovský, Simona Littnerová, Eva Janoušová, Lucie Brožová: Pokročilé statistické metody Ikonové grafy – pavučinové grafy •obdoba paprskových grafů, přidáno znázornění maxima absolutních hodnot •v softwaru Statistica: Graphs – Icon Plots... – Graph type: Sun Rays – zvolit proměnné – na záložce Options 1 zatrhnout „Display case labels“ 23 - podobné jsou si např. subjekty 4 a 13 logo-IBA logomuni Jiří Jarkovský, Simona Littnerová, Eva Janoušová, Lucie Brožová: Pokročilé statistické metody Ikonové grafy – Chernoffovy tváře •proměnné znázorněny jako části obličeje •v softwaru Statistica: Graphs – Icon Plots... – Graph type: Chernoff Faces – zvolit proměnné – na záložce Options 1 zatrhnout „Display case labels“ 24 -podobné jsou si např. subjekty 4 a 13 -kdyby se přidaly další znaky, měnil by se tvar nosu, velikost očí, tvar úst atd. Vícerozměrné statistické rozdělení a testy logo-IBA logomuni Jiří Jarkovský, Simona Littnerová, Eva Janoušová, Lucie Brožová: Pokročilé statistické metody Význam rozdělení ve vícerozměrném prostoru •Použitelnost mnohých klasických statistických metod a postupů vyžaduje předpoklad o normálním rozdělení sledovaných proměnných. •Podmínka normality vyplývá z toho, že metody založené na tomto předpokladu mohou využít kompletní matematický aparát schovaný za danou statistickou metodou. Tyto metody jsou také relativně snadno pochopitelné a se získanými řešeními se dobře pracuje. •Ovšem v reálném světě bývá obtížné předpoklad o normálním rozložení dodržet, v mnohých oblastech přírodních a mnohdy i technických oborů není tento předpoklad samozřejmostí. •Předpokládejme však normalitu a předpoklad o jedné normálně rozložené náhodné proměnné můžeme rozšířit na předpoklad simultánního normálního rozložení dvou a více náhodných proměnných. Některé vícerozměrné postupy a metody vycházejí z předpokladu vícerozměrného normálního rozdělení. Vícerozměrné normální rozdělení může být také velmi užitečnou aproximací různých jiných simultánních rozdělení. • 26 logo-IBA logomuni Jiří Jarkovský, Simona Littnerová, Eva Janoušová, Lucie Brožová: Pokročilé statistické metody Rozdělení dat ve vícerozměrném prostoru 27 •Klasická jednorozměrná rozdělení a testy mají svůj protějšek ve vícerozměrném prostoru; analogii lze nalézt v podstatě ke každému z nich •Obrázky zobrazují 1D, 2D a 3D normální rozdělení •Při popisu vícerozměrných dat se uplatňují stejné charakteristiky jako při popisu dat jednorozměrných, nicméně nyní již ne jako jedno číslo, ale jako vektor • logo-IBA logomuni Jiří Jarkovský, Simona Littnerová, Eva Janoušová, Lucie Brožová: Pokročilé statistické metody Pojmy popisu vícerozměrných rozdělení •Centroid –průměr nebo medián nebo jiná charakteristika středu spočtená pro všechny dimenze –Je popsán vektorem charakteristik středu –Používán jako popisná statistika nebo i jako součást výpočtu shlukovacích metod –„virtuální střed vícerozměrného shluku“ – •Medoid –Medoid je reprezentativní objekt datového souboru nebo shluku v datech, jehož průměr podobnosti od všech ostatních objektů v datech nebo ve shluku je minimální. –Medoid má podobný význam jako průměr nebo centroid, jen je vždy reprezentován reálným objektem z datového souboru. –Medoid bývá nejčastěji používán tam, kde není definován průměr nebo centroid (např. tří a vícerozměrný prostor). Tento termín se používá při shlukové analýze. 28 logo-IBA logomuni Jiří Jarkovský, Simona Littnerová, Eva Janoušová, Lucie Brožová: Pokročilé statistické metody Vícerozměrné charakteristiky rozdělení •Základní charakteristikou vícerozměrného rozdělení je vektor středních hodnot (vektor průměrů) • • • •a kovariační matice • • • •kde je kovariance dvou náhodných veličin, tj. • • 29 logo-IBA logomuni Jiří Jarkovský, Simona Littnerová, Eva Janoušová, Lucie Brožová: Pokročilé statistické metody Příklad •Spočtěte vektor středních hodnot a výběrovou kovarianční matici pro soubor 3 subjektů, u nichž byly naměřeny hodnoty objemu hipokampu a mozkových komor, přičemž naměřené hodnoty byly zaznamenány do následující datové matice: 30 Janoušová: Vícerozměrné metody - cvičení logo-IBA logomuni Jiří Jarkovský, Simona Littnerová, Eva Janoušová, Lucie Brožová: Pokročilé statistické metody Příklad - řešení 31 •Vektor středních hodnot: ID Objem hipokampu Objem mozkových komor 1 2 12 2 4 10 3 3 8 1 2 3 4 5 7 8 9 10 11 12 13 Objem hipokampu Kovarianční matice: ID Objem hipokampu Objem mozkových komor 1 2 12 2 4 10 3 3 8 logo-IBA logomuni Jiří Jarkovský, Simona Littnerová, Eva Janoušová, Lucie Brožová: Pokročilé statistické metody Příklady vícerozměrného rozdělení •R – knihovna MSBVAR 32 logo-IBA logomuni Jiří Jarkovský, Simona Littnerová, Eva Janoušová, Lucie Brožová: Pokročilé statistické metody Příklad vícerozměrného rozdělení I 33 vmat1=matrix(c(1,0,0, 0,1,0, 0,0,1),3,3) x1<-rmultnorm(1000,c(10,10, 10), vmat1, tol = 1e-10) write.table(x1,"x1.txt") logo-IBA logomuni Jiří Jarkovský, Simona Littnerová, Eva Janoušová, Lucie Brožová: Pokročilé statistické metody Příklad vícerozměrného rozdělení II 34 vmat2=matrix(c(1,0.5,0.5, 0.5,1,0.5, 0.5,0.5,1),3,3) x2<-rmultnorm(1000,c(10,10, 10), vmat2, tol = 1e-10) write.table(x2,"x2.txt") logo-IBA logomuni Jiří Jarkovský, Simona Littnerová, Eva Janoušová, Lucie Brožová: Pokročilé statistické metody Příklad vícerozměrného rozdělení III 35 vmat4=matrix(c(1,0.7,0.7, 0.7,1,0.7, 0.7,0.1,1),3,3) x4<-rmultnorm(1000,c(10,10, 10), vmat4, tol = 1e-10) write.table(x4,"x4.txt") logo-IBA logomuni Jiří Jarkovský, Simona Littnerová, Eva Janoušová, Lucie Brožová: Pokročilé statistické metody Příklad vícerozměrného rozdělení IV 36 vmat3=matrix(c(1,1,1, 1,1,1, 1,1,1),3,3) x3<-rmultnorm(1000,c(10,10, 10), vmat3, tol = 1e-10) write.table(x3,"x3.txt") logo-IBA logomuni Jiří Jarkovský, Simona Littnerová, Eva Janoušová, Lucie Brožová: Pokročilé statistické metody Wishartovo rozdělení •Wishartovo rozdělení je vícerozměrným zobecněním chi-square rozdělení •Při odvození některých důležitých algoritmů ve vícerozměrné statistické analýze se uplatňuje dále uvedená vlastnost Wishartova rozdělení. •Součet nezávislých náhodných matic s Wishartovým rozdělením se shodnou střední hodnotou je rovněž Wishartovo rozdělení se stejnou střední hodnotou, přičemž stupně volnosti se sčítají. • 37 logo-IBA logomuni Jiří Jarkovský, Simona Littnerová, Eva Janoušová, Lucie Brožová: Pokročilé statistické metody Hotellingovo rozdělení •Jedná se o zobecnění t- rozdělení pro p-rozměrný prostor •Uvažujme regulární čtvercovou matici A p-tého řádu a rozdělením a na A nezávislý p-položkový vektor a s rozdělením Potom kvadratická forma má Hotellingovo rozdělení T2 (p, ν – p+1). •V jednorozměrném normálním rozdělení se při testování hypotéz o střední hodnotě používá statistika (jednovýběrový t-test) • •Druhou mocninu této statistiky můžeme upravit a zapsat ve tvaru Tento výraz odpovídá p-rozměrné statistice, vhodné k úsudku o μ, která má Hotellingovo rozdělení T2 s p a n–p stupni volnosti, jedná se tedy o zobecnění t- rozdělení pro p-rozměrný prostor. Můžeme tedy psát • 38 logo-IBA logomuni Jiří Jarkovský, Simona Littnerová, Eva Janoušová, Lucie Brožová: Pokročilé statistické metody Normalita ve vícerozměrném prostoru •Normalita ve vícerozměrném prostoru 39 logo-IBA logomuni Jiří Jarkovský, Simona Littnerová, Eva Janoušová, Lucie Brožová: Pokročilé statistické metody Nenormální rozložení ve vícerozměrném prostoru 40 + logo-IBA logomuni Jiří Jarkovský, Simona Littnerová, Eva Janoušová, Lucie Brožová: Pokročilé statistické metody Nenormální rozložení ve vícerozměrném prostoru 41 logo-IBA logomuni Jiří Jarkovský, Simona Littnerová, Eva Janoušová, Lucie Brožová: Pokročilé statistické metody Je normalita v jednorozměrném prostoru jedinou podmínkou vícerozměrné normality? 42 + logo-IBA logomuni Jiří Jarkovský, Simona Littnerová, Eva Janoušová, Lucie Brožová: Pokročilé statistické metody Je normalita v jednorozměrném prostoru jedinou podmínkou vícerozměrné normality? 43 + logo-IBA logomuni Jiří Jarkovský, Simona Littnerová, Eva Janoušová, Lucie Brožová: Pokročilé statistické metody Je normalita v jednorozměrném prostoru jedinou podmínkou vícerozměrné normality? 44 + logo-IBA logomuni Jiří Jarkovský, Simona Littnerová, Eva Janoušová, Lucie Brožová: Pokročilé statistické metody Vícerozměrný outlier 45 + Vícerozměrná odlehlá hodnota (outlier) logo-IBA logomuni Jiří Jarkovský, Simona Littnerová, Eva Janoušová, Lucie Brožová: Pokročilé statistické metody Ověření dvourozměrné normality 46 Bagplot = „bivariate boxplot“ (tzn. „dvourozměrný krabicový graf“) v softwaru Statistica: Graphs – 2D Graphs – Bag Plots logo-IBA logomuni Jiří Jarkovský, Simona Littnerová, Eva Janoušová, Lucie Brožová: Pokročilé statistické metody Ověření dvourozměrné normality 47 Vykreslení regulační elipsy („control“ elipse): v softwaru Statistica: Graphs – Scatterplots – na záložce Advanced zvolit Elipse Normal http://documentation.statsoft.com/STATISTICAHelp.aspx?path=Graphs/Graph/ModifyingGraphs/Dialogs/Plo tEllipseTab logo-IBA logomuni Jiří Jarkovský, Simona Littnerová, Eva Janoušová, Lucie Brožová: Pokročilé statistické metody Srovnání průměrů ve vícerozměrném prostoru •Pro zobecnění t-testu pro p rozměrů se využívá Hottelingovo rozdělení • • • •kde (nejčastěji δ = 0), má opět Hotellingovo rozdělení s parametry p, n – p –1 • 48 logo-IBA logomuni Jiří Jarkovský, Simona Littnerová, Eva Janoušová, Lucie Brožová: Pokročilé statistické metody Typy transformací a jiných úprav vícerozměrných dat •normalizace dat (= převod na normální rozdělení) •standardizace dat •min-max normalizace •centrování dat •odstranění vlivu kovariát na jiné proměnné 49 logo-IBA logomuni Jiří Jarkovský, Simona Littnerová, Eva Janoušová, Lucie Brožová: Pokročilé statistické metody Normalizace dat •převod na normální rozdělení (normalita je předpokladem řady statistických testů). •např. logaritmická transformace: X = ln(Y) nebo X = ln(Y+1), pokud data obsahují hodnotu 0 • • • • • • • •další příklady: –odmocninová transf. (pro proměnné s Poissonovým rozložením nebo obecně data typu počet jedinců, buněk apod.: nebo –arcsin transfomace (pro proměnné s binomickým rozložením) –Box-Coxova tranformace f(y) y f(x) ln (y) X = ln(Y) Asymetrické rozdělení Normální rozdělení Medián Průměr Medián Průměr Geometrický průměr 50 -Logaritmická transformace nevhodná u dat, která jsou již v logaritmické tvaru (např. pH) a u nalevo zešikmených rozložení (nízké odlehlé hodnoty – nepomůže tady ale –log?) -Pokud se pak výsledky (průměr a intervaly spolehlivosti) vrací zpátky (tzn. pomocí exponenciální fce) a prezentuje se pak geometrický průměr a intervaly spolehlivosti, tak stačí použít přirozený logaritmus (většinou je ln dostačující, aby tvar dat měl normální rozdělení) -pokud bychom ale chtěli prezentovat data s logaritmickou osou, bylo by lepší použít dekadický logaritmus, protože ten má lepší interpretaci osy (10x, 100x, 1000x větší...) logo-IBA logomuni Jiří Jarkovský, Simona Littnerová, Eva Janoušová, Lucie Brožová: Pokročilé statistické metody Standardizace dat 51 •pozor: standardizace je nevhodná v případě, že proměnné nemají normální rozdělení a že se v datech vyskytují odlehlé hodnoty!!! -souvislost ze z-skóre – to bych dostala, pokud bych odečítala populační průměr a dělila populační SD -využití při modelování (aby proměnné byly srovnatelné) logo-IBA logomuni Jiří Jarkovský, Simona Littnerová, Eva Janoušová, Lucie Brožová: Pokročilé statistické metody Min-max normalizace 52 logo-IBA logomuni Jiří Jarkovský, Simona Littnerová, Eva Janoušová, Lucie Brožová: Pokročilé statistické metody Centrování dat 53 např. u lineární regrese – pokud jsou hodnoty centrované, nemusíme uvažovat intercept logo-IBA logomuni Jiří Jarkovský, Simona Littnerová, Eva Janoušová, Lucie Brožová: Pokročilé statistické metody 1.V prvním kroku definujeme regresní model vztahu kovariáty (např. věku) a dané proměnné 2.Pro každého pacienta je vypočteno jeho reziduum od regresní přímky 3.Reziduum (představující hodnotu parametru po odečtení vlivu věku, jeho průměr je 0) je přičteno k průměrné hodnotě parametru 4.Výsledná adjustovaná hodnota má odečten vliv věku, ale zároveň není změněna číselná hodnota parametru • 54 original_ln.png adjusted.png original_ln.png adjusted.png Původní data Adjustovaná data Odstranění vlivu kovariát (tzv. adjustace) Věk Věk Věk Věk original_ln.png adjusted.png Objem amygdaly Objem amygdaly