zahlavi-IBA logo-IBA logo-MU © Institut biostatistiky a analýz Pokročilé metody analýzy dat v neurovědách RNDr. Eva Koriťáková, Ph.D. doc. RNDr. Ladislav Dušek, Dr. logo-MU logo-IBA Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách Přínos kurzu 2 •orientace v principech vícerozměrné analýzy dat s důrazem na zpracování medicínských dat, a to především z neurovědního výzkumu •schopnost zvolit a aplikovat adekvátní metodu analýzy a klasifikace dat k dosažení požadovaných výsledků •schopnost správné interpretace dosažených výsledků včetně vyhodnocení úspěšnosti klasifikace •schopnost praktické analýzy dat v software MATLAB, STATISTICA, SPSS či R logo-MU logo-IBA Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách Osnova kurzu 3 1.Úvod do pokročilé vícerozměrné analýzy dat: –význam, cíle a příklady využití vícerozměrné analýzy dat –vícerozměrná data a jejich tabulkové a grafické zpracování – 2.Vícerozměrné statistické testy a rozložení: –vícerozměrný průměr, kovarianční matice, matice korelačních koeficientů –vícerozměrný t-test, vícerozměrná analýza rozptylu –transformace a jiné úpravy vícerozměrných dat 3. 3.Podobnosti a vzdálenosti ve vícerozměrném prostoru: –metriky pro určení vzdálenosti –metriky pro určení podobnosti a asociační matice – 4.Shluková analýza: –shluková analýza hierarchická – hierarchické aglomerativní shlukování, hierarchické divizivní shlukování –shluková analýza nehierarchická –identifikace optimálního počtu shluků logo-MU logo-IBA Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách Osnova kurzu – pokračování 4 5.Ordinační analýzy I: –principy redukce dimenzionality dat; selekce a extrakce proměnných –analýza hlavních komponent (PCA), faktorová analýza (FA) – 6.Ordinační analýzy II: –analýza nezávislých komponent (ICA), korespondenční analýza (CA), vícerozměrné škálování (MDS), redundanční analýza (RDA), kanonická korelační analýza (CCorA) – 7.Klasifikace I: –principy a cíle klasifikace –diskriminační analýza pomocí diskriminačních fcí, minimální vzdálenosti a pomocí hranic – Fisherova LDA – 8.Klasifikace II: –metoda podpůrných vektorů (SVM), přehled dalších klasifikačních metod –hodnocení úspěšnosti klasifikace logo-MU logo-IBA Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách Požadavky ke kolokviu 5 •Předmět je ukončen kolokviem sestávajícím se z teoretických otázek a analýzy praktických příkladů na počítači. • • •Je nutné porozumět probíraným tématům a umět aplikovat vícerozměrné statistické metody při analýze reálných datových souborů. logo-MU logo-IBA Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách Doporučená literatura 6 •Koriťáková, E. et al.: online výukové materiály Vícerozměrné metody pro analýzu a klasifikaci dat http://portal.matematickabiologie.cz/index.php?pg=analyza-a-hodnoceni-biologickych-dat--vicerozmern e-metody-pro-analyzu-dat • •DUDA, R.O. et al. Pattern Classification. New York: Wiley-Interscience,, 2000, 680 pp. •BISHOP, C. Pattern Recognition and Machine Learning. New York: Springer, 2006, 738 pp. •FLACH, P.A. Machine learning: the art and science of algorithms that make sense of data. Cambridge: Cambridge University Press, 2012, 396 pp. •CHUNG, M.K. Statistical and computational methods in brain image analysis. Boca Raton: CRC Press, 2014, 400 s. •KUNCHEVA, L.I. Combining Pattern Classifiers: Methods and Algorithms. New Jersey: Wiley-Interscience,, 2004, 376 pp. •JOHNSON, R. et al. Applied multivariate statistical analysis. 6th ed. Upper Saddle River, N.J.: Prentice Hall, 2007, 773 pp. • •MELOUN, M. et al. Statistická analýza vícerozměrných dat v příkladech. Praha: Academia, 2012, 750 s. •EVERITT, B. et al. An introduction to applied multivariate analysis with R. New York: Springer, 2011, 273 pp. •JAMES, G. et al. An introduction to statistical learning: with applications in R. New York: Springer, 2013, 426 pp. •THEODORIDIS, S. et al. Introduction to pattern recognition: a MATLAB approach. Amsterdam: Academic Press, 2010, 219 pp. logo-MU logo-IBA Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách Blok 1 Úvod do pokročilé vícerozměrné analýzy dat 7 logo-MU logo-IBA Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách Osnova 1.Význam, cíle a příklady využití vícerozměrné analýzy dat 2.Vícerozměrná data, jejich popis a vizualizace 3.Předzpracování dat 4. 8 logo-MU logo-IBA Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách Význam, cíle a příklady využití vícerozměrné analýzy dat 9 logo-MU logo-IBA Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách Význam a cíle vícerozměrné analýzy dat •většina dat pořízených při výzkumu jsou data vícerozměrná – chceme zjistit celou řadu vlastností daných subjektů či objektů 10 ID Pohlaví Věk Váha MMSE skóre Objem hipokampu … 1 muž 84 85,5 29 7030 2 žena 25 62,0 28 6984 … •PROMĚNNÉ (VLASTNOSTI) •zpravidla nestačí analyzovat každou proměnnou zvlášť – pro úplně pochopení vztahů většinou potřeba analyzovat proměnné současně •→ použití VÍCEROZMĚRNÝCH METOD Takovouto datovou tabulku jste už určitě viděli. V DSAN01 jsme ale zatím hodnotili každý sloupeček zvlášť nebo jste případně hodnotili dva sloupečky současně (např. kdybyste chtěli zjistit, zda je rozdíl mezi muži a ženami ve váze, jak byste to spočítali? (dvouvýb. t-test či M-W test); nebo pokud byste chtěli zjistit, zda je vztah mezi věkem a váhou? (korelace Pearsonova či Spearmanova))... Takovéto dílčí pohledy na max. dvě proměnné současně nám ale nemusí stačit, abychom zjistili komplexní informace o našem datovém souboru – proto budeme používat vícerozměrné metody a budeme pracovat s více než dvěma sloupečky z datové tabulky současně. logo-MU logo-IBA Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách •vícerozměrné metody umožňují: –znázornit a popsat vícerozměrná data –zjišťovat vztahy mezi jednotlivými proměnnými a mezi subjekty (resp. objekty) 11 Význam a cíle vícerozměrné analýzy dat II •mnoho způsobů dělení vícerozměrných metod do skupin – např. dělení podle cíle, kterého chceme vícerozměrnou analýzou dosáhnout: •1. Testování hypotéz o vícerozměrných datech •2. Vytvoření shluků subjektů, objektů nebo proměnných •3. Redukce vícerozměrných dat •4. Klasifikace subjektů či objektů logo-MU logo-IBA Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách •Příklady: •výzkum vztahu pohlaví a typu onemocnění na objem hipokampu •zjištění, zda je rozdílná spotřeba elektrické energie ve městech a na vesnicích během týdne a o víkendu •ověření, zda objem hipokampu, amygdaly a putamenu dokáže odlišit pacienty se schizofrenií od zdravých subjektů 12 Cíle vícerozměrné analýzy dat 1. Testování hypotéz o vícerozměrných datech logo-MU logo-IBA Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách •Příklady: •vytvoření skupin diagnóz onemocnění s podobnými léčebnými náklady •vytvoření skupin lokalit podle výskytu určitých druhů rostlin a živočichů •vytvoření skupin genů a subjektů na základě dat genové exprese •vytvoření skupin subjektů se schizofrenií podle kognitivních skóre a neurologických parametrů • 13 Cíle vícerozměrné analýzy dat 2. Vytvoření shluků subjektů, objektů nebo proměnných logo-MU logo-IBA Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách Cíle vícerozměrné analýzy dat 3. Redukce vícerozměrných dat •Příklady: •vytvoření souhrnného skóre odpovědi pacientů na radioterapii z původních několika proměnných •vytvoření menšího počtu nových proměnných z původních dat, které nám umožní znázornit vícerozměrná data ve 2-D či 3-D grafech •výběr oblastí mozku, které nejvíce odlišují pacienty s neuropsychiatrickým onemocněním od zdravých subjektů 14 Výřez obrazovky logo-MU logo-IBA Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách Cíle vícerozměrné analýzy dat 4. Klasifikace subjektů či objektů •Příklady: •zjištění (diagnostika) schizofrenie na základě kognitivních testů •rozhodnutí, zda banka poskytne či neposkytne hypotéku danému subjektu na základě jeho příjmů, rodinné situace atd. •diagnostika demence (tzn. zařazení nového subjektu do skupiny pacientů či kontrol) podle obrázku mozku • 15 intenzity_deformace http://3.bp.blogspot.com/-x2EYSsQ5SYI/UBfV_2MdSHI/AAAAAAAAALY/jHbo4q9z9Sw/s1600/ventricles+before.j pg http://www.dialogues-cns.org/figures/DialoguesClinNeurosci-11-191-g005.jpg https://encrypted-tbn3.gstatic.com/images?q=tbn:ANd9GcTbz5L3fOoB-Ng3gdKssG8K8cwsUoS0Dw_oCpHKAahanoC twcfGOw http://serendip.brynmawr.edu/%7Elaurac/brainscans/ventricles_brain2.jpg Pacienti Zdravé subjekty Nový subjekt Pacient? x Zdravý? logo-MU logo-IBA Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách Vícerozměrná data, jejich popis a vizualizace 16 logo-MU logo-IBA Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách Vícerozměrná data 17 ID Pohlaví Věk Váha MMSE skóre Objem hipokampu … 1 muž 84 85,5 29 7030 2 žena 25 62,0 28 6984 3 4 … •PROMĚNNÉ •Poznámka: proměnné označovány i jako znaky, pozorování, diskriminátory, příznakové proměnné či příznaky •Anglicky označení pouze jedním termínem: feature logo-MU logo-IBA Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách Typy dat - opakování •Kvalitativní (kategoriální) data: ‐Binární data ‐ ‐Nominální data ‐ ‐Ordinální data • • •Kvantitativní data: ‐Intervalová data ‐ ‐Poměrová data 18 Jaké druhy parametrů v datovém souboru vlastně můžeme mít? logo-MU logo-IBA Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách Vizualizace jednorozměrných dat - opakování 19 Ženy (N=54) Muži (N=48) Pohlaví N=102 Koláčový graf Sloupkový graf Stádium onemocnění % Maximum Minimum Medián 75% percentil 25% percentil Krabicový graf (Box Plot) Histogram 0 10 20 30 40 50 60 70 80 90 logo-MU logo-IBA Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách K čemu nám může pomoci vizualizace dat? 20 id vek pohlavi cholesterol vyska vaha obvod_pasu obvod_boku BMI sys_tlak dia_tlak 1 38 Z 4.6 164 45 60 87 16.7 120 80 2 36 Z 4.35 167 90 97 112 32.3 130 80 3 26 Z 178 70 72 94 22.1 127 80 4 25 Z 4.2 165 59 65 92 21.7 130 80 5 47 M 5.65 158 92 96 26.8 155 90 6 21 Z 6.35 172 61 69 98 20.6 135 80 7 23 Z 3.45 170 82 92 113 28.4 130 80 8 35 M 7.99 179 90 101 110 28.1 140 88 9 33 Z 4.88 167 57 70 92 20.4 140 85 10 48 Z 9.56 164 70 93 107 26.0 250 97 11 25 M 3.1 186 75 81 102 21.7 120 70 12 41 Z 10 167 62 71 101 22.2 140 90 13 29 ZZ 4.2 165 58 66 98 21.3 120 80 14 24 M 5.62 174 80 92 107 26.4 156 90 15 58 Z 7.9 164 63 73 100 23.4 135 90 Chybějící hodnoty Chybné hodnoty Odlehlé hodnoty •→ odhalení problémů v datech •→ k vytvoření představy, jaké výsledky analýzy máme asi očekávat •→ ke zjištění vztahu mezi proměnnými, ... v datech mohou vyskytovat problémy, které by potom vedly k chybným výsledkům či interpretaci dále také k odhalení vztahů mezi proměnnými, k představě, jak asi dopadne testování hypotéz (rozdíl mezi skupinami bude či nebude), ... chybějící a odlehlé hodnoty budou podrobněji rozebrány na konci této přednášky logo-MU logo-IBA Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách Vizualizace vícerozměrných dat •3D sloupkové grafy •dvourozměrný histogram •maticové grafy •krabicové grafy pro více proměnných •ikonové (symbolové) grafy: –profilové sloupce –profily –paprskové (hvězdicové) grafy –polygony –pavučinové grafy –Chernoffovy tváře 21 logo-MU logo-IBA Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách 3D sloupkové grafy •vzájemný výskyt kategorií dvou kategoriálních proměnných •v softwaru Statistica: Graphs – 3D Sequential Graphs – Bivariate Histograms... 22 není ve skutečnosti vícerozměrný graf – udává vztah dvou proměnných, je to spíš doplnění k DSAN01 je to jiný způsob vizualizace kontingenční tabulky logo-MU logo-IBA Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách Dvourozměrný histogram •pro vykreslení vztahu dvou spojitých proměnných •v softwaru Statistica: Graphs – 3D Sequential Graphs – Bivariate Histograms... 23 také to ještě není graf pro vícerozměrnou analýzu (tento graf ale může pomoci při zjišťování dvourozměrného normálního rozdělení, proto ho tu ukazuju) jaký graf se ale častěji používá pro sledování vztahu dvou proměnných? logo-MU logo-IBA Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách Úkol 1 •vykreslete dvourozměrný histogram pro věk a objem hipokampu •změňte barvu pozadí grafu na transparentní •změňte barvu sloupečků (např. na červenou) •zvětšete velikost písma u popisků os (u hodnot i názvů proměnných) 24 •ukázat jim případně i vytvoření vlastní šablony •když se graf sám neupraví, přetáhnout o kousek dolní roh logo-MU logo-IBA Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách Tečkový graf •rovněž pro vykreslení vztahu dvou spojitých proměnných •v softwaru Statistica: Graphs – Scatterplots... 25 není vícerozměrný graf logo-MU logo-IBA Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách Tečkový graf – přidání kategoriální proměnné •zahrnutí kategoriální proměnné do grafu použitím různých symbolů či barev pro jednotlivé skupiny určené danou kategoriální proměnnou •v softwaru Statistica: Graphs – Scatterplots – na záložce Categorized zahrnout On u X-Categorized, vybrat kategoriální proměnnou pomocí Change Variable a změnit Layout na Overlaid • • 26 logo-MU logo-IBA Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách Maticový graf •vykreslení vztahu více spojitých proměnných •v softwaru Statistica: Graphs – Matrix Plots... •upozornění: nastavení, jak se vypořádat s chybějícími hodnotami 27 -věk nekoreluje s výškou, výška koreluje s váhou atd. -jsou patrné odlehlé hodnoty -jsou částečně patrné skupiny lidí u grafu s korelací hipokanpu a amygdaly -je patrné na základě histogramů, zda proměnné mají či nemají normální rozdělení pokud chceme odlišit body podle kategoriální proměnné (např. pohlaví) – kliknout na záložce Advanced na Mark Selected Subsets (a zvolit např. pohlavi=“M” do subset 1 a pohlavi=“F” do subset 2) logo-MU logo-IBA Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách Maticový graf – na diagonále krabicové grafy •v softwaru Statistica: Graphs – Matrix Plots...; na záložce Advanced zatrhnout Display: Box plot 28 logo-MU logo-IBA Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách Úkol 2 •vykreslete maticový graf pro proměnné: objem hipokampu, amygdaly, thalamu, pallida a putamenu, přičemž na diagonále budou krabicové grafy •změňte barvu krabicového grafu na černou (můžete nastavit i výplň) •změňte barvu tečkových grafů •zrušte čáry mřížky u tečkových grafů (gridlines) 29 případně studentům také ukázat, jak zrušit pravou a levou osu, minor tickmarks; změnit range, step a vykreslení tickmarks outside či inside logo-MU logo-IBA Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách Krabicové grafy pro více proměnných •ukáží nám, zda mají proměnné podobný rozsah hodnot 30 •V softwaru STATISTICA – 2 způsoby: 1.označit příslušné sloupečky v datech – Graphs – Graphs of Block Data – Box Plot: Block columns 2.Statistics – Basic Statistics/ Tables – Descriptive statistics – Box & whisker plot for all variables (na záložce Options lze zvolit, že krabicové grafy mají být typu Median/Quartiles/Range nebo po kliknutí do grafu lze v Plot - Box/Whisker měnit Middle point, Box value, Whisker value a po kliknutí na More i zapnutí Outliers) Co lze z grafu vyčíst? -různý rozsah hodnot – v některých analýzách vhodná standardizace před výpočtem dané analýzy -případně patrné i odlehlé hodnoty, pokud v datech jsou logo-MU logo-IBA Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách Vícenásobné krabicové grafy •umožňují znázornění vztahu několika kvalitativních proměnných a jedné kvantitativní proměnné 31 -vyzkoušet, jestli to jde nějak v softwaru Statistica (jedině si vykreslit pomocí filtru každý obrázek zvlášť a pak to „slepit“ v powerpointu) -se zvyšujícím se počtem dnů strávených v nemocnici rostou náklady na léčbu pacientů a že nejvyšší náklady byly u pacientů s C33-34 ve stádiu IV, kteří strávili v nemocnici 26 a více dnů logo-MU logo-IBA Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách Ikonové (symbolové) grafy •hodnoty znaků znázorněny jako geometrické útvary či symboly •každému objektu (subjektu) odpovídá jeden obrazec složený z těchto geometrických útvarů či symbolů •umožní vizuálně porovnat, které objekty (subjekty) jsou si podobné •mnoho druhů, v softwaru Statistica např.: 1.Profilové sloupce 2.Profily 3.Paprskové (hvězdicové) grafy 4.Polygony 5.Pavučinové grafy 6.Chernoffovy tváře 32 logo-MU logo-IBA Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách Ikonové grafy – profilové sloupce •výšky sloupců odpovídají relativním hodnotám proměnných (relativní hodnota je podíl původní hodnoty a maxima z absolutních hodnot dané proměnné) •v softwaru Statistica: Graphs – Icon Plots... – Graph type: Columns – zvolit proměnné – na záložce Options 1 zatrhnout „Display case labels“ 33 -v Sel Cond zvolit Include cases 1:10, 801:810 -podobné jsou si např. subjekty 904 a 906 -úprava počtu řádků a sloupečků při vykreslení: 2x kliknout na graf – v oddílu Layout změnit hodnoty u Rows a Columns na 4 a 5 -přidání popisků pro jednotlivé subjekty: na záložce Options 1 zatrhnout Display case labels (dají se tam čísla subjektů s křížky); popisy podle nějaké proměnné lze udělat zvolením Variable u Case labels a výběr příslušné proměnné (např. id či gender_rek) -odlišení skupin (např. podle kategoriálního parametru získaného pomocí shlukovek) – na záložce Advanced kliknout na Mark Icons a vydefinovat tam jednotlivé skupiny (v těchto datech např. podle pohlaví, tedy pohlavi=„M“ a pohlavi=„Z“) logo-MU logo-IBA Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách Ikonové grafy – profily •obdoba profilových sloupců, jen se středy horních hran profilových sloupců spojí úsečkami •v softwaru Statistica: Graphs – Icon Plots... – Graph type: Profiles – zvolit proměnné – na záložce Options 1 zatrhnout „Display case labels“ 34 -podobné jsou si např. subjekty 904 a 906 logo-MU logo-IBA Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách Ikonové grafy – paprskové (hvězdicové) grafy •vzdálenosti od středu odpovídají relativním hodnotám proměnných •v softwaru Statistica: Graphs – Icon Plots... – Graph type: Stars – zvolit proměnné – na záložce Options 1 zatrhnout „Display case labels“ 35 -podobné jsou si např. subjekty 904 a 906 -zjistit, kde se která proměnná nachází: objem hipokampu nahoře a pak to jde po směru hodinových ručiček logo-MU logo-IBA Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách Ikonové grafy – polygony •obdoba paprskových grafů, jen jsou vyplněné •v softwaru Statistica: Graphs – Icon Plots... – Graph type: Polygons – zvolit proměnné – na záložce Options 1 zatrhnout „Display case labels“ 36 -podobné jsou si např. subjekty 904 a 906 logo-MU logo-IBA Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách Ikonové grafy – pavučinové grafy •obdoba paprskových grafů, přidáno znázornění maxima absolutních hodnot •v softwaru Statistica: Graphs – Icon Plots... – Graph type: Sun Rays – zvolit proměnné – na záložce Options 1 zatrhnout „Display case labels“ 37 -podobné jsou si např. subjekty 904 a 906 logo-MU logo-IBA Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách Ikonové grafy – Chernoffovy tváře •proměnné znázorněny jako části obličeje •v softwaru Statistica: Graphs – Icon Plots... – Graph type: Chernoff Faces – zvolit proměnné – na záložce Options 1 zatrhnout „Display case labels“ 38 -podobné jsou si např. subjekty 904 a 906 -kdyby se přidaly další znaky, měnil by se tvar nosu, velikost očí, tvar úst atd. -face/w – šířka tváře, např. je patrné, že u tváře 110 je tvář široká – vysoké hodnoty objemu hipokampu; zatímco u tváře 902 je tvář úzká – nízké hodnoty objemu hipokampu; -ear/lev – výška uší, např. je patrné, že u tváře 908 jsou uši dole – velmi nízká hodnota objemu amygdaly; tvář 110 uši nahoře – vysoká hodnota objemu amygdaly -halfface/h – výška tváře, např. je patrné, že u tváře 906 je tvář vysoká – vysoké hodnoty objemu thalamu; zatímco u tváře 910 tvář s nízkou výškou – nízké hodnoty objemu thalamu -upface/ecc – zakřivení horní části tváře; např. je patrné, že u tváře 100 je horní část tváře kulatá – vysoké hodnoty objemu pallida, zatímco u tváře 910 je horní část tváře špičatá – nízké hodnoty objemu pallida -loface/ecc – zakřivení dolní části tváře; např. je patrné, že u tváře 105 je dolní část tváře kulatá – vysoké hodnoty objemu putamenu, zatímco u tváře 905 je dolní část tváře špičatá – nízké hodnoty objemu putamenu logo-MU logo-IBA Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách Úkol 3 •zvolte si typ ikonových grafů, které se Vám zdají nejpřehlednější, a vykreslete graf pro subjekty 201 až 230 s využitím proměnných věk, MMSE, objem hipokampu a objem nucleus caudatus 39 logo-MU logo-IBA Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách Vizualizace vícerozměrných dat - shrnutí •3D sloupkové grafy •dvourozměrný histogram •maticové grafy •krabicové grafy pro více proměnných •ikonové (symbolové) grafy: –profilové sloupce –profily –paprskové (hvězdicové) grafy –polygony –pavučinové grafy –Chernoffovy tváře 40 logo-MU logo-IBA Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách Předzpracování dat 41 logo-MU logo-IBA Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách Předzpracování Předzpracování Schéma analýzy a klasifikace dat 42 Data Redukce Klasifikace nebo ? ? Výřez obrazovky Výřez obrazovky Data Ukázka - kognitivní data apod. Ukázka - obrazová data logo-MU logo-IBA Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách Předzpracování obrazových dat 43 logo-MU logo-IBA Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách Předzpracování obrazových dat 44 Další typy dat, které mohou vzniknout po předzpracování obrazů: Informace o tloušťce šedé hmoty v jednotlivých oblastech mozku Informace o ploše jednotlivých oblastí mozku logo-MU logo-IBA Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách Předzpracování dat – chybějící hodnoty •snaha, aby v datech vůbec nenastaly •pokud však nastanou, je silně nedoporučováno dělat každou analýzu na jinak velkém souboru (tzv. „pairwise“ odstraňování objektů) → 3 možná řešení: 45 1.vyloučit z analýzy všechny objekty, u nichž se vyskytla nějaká chybějící hodnota (tzv. „casewise“= „listwise“ odstranění objektů): ‐pokud chybějících hodnot mnoho, zbyde pouze málo objektů ‐pozor na systematicky chybějící hodnoty – může dojít ke zkreslení výsledků analýz ‐občas vhodné odstranit proměnné s mnoha chybějícími hodnotami místo objektů, pokud proměnné nejsou důležité pro analýzu 2.definování souboru s vyplněnými „klíčovými“ proměnnými: ‐na tomto souboru provedena většina analýz ‐další analýzy dělány na podsouboru s menším počtem subjektů 3.doplnění chybějících hodnot (tzv. imputace): ‐doplnění průměrem z hodnot, které jsou pro danou proměnnou k dispozici ‐doplnění hodnot na základě regresních modelů ‐pozor! doplnění hodnot však může zkreslit výsledky analýz ‐ logo-MU logo-IBA Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách Předzpracování dat – odlehlé hodnoty •k identifikaci odlehlých hodnot mohou pomoci tečkové, maticové či krabicové grafy •další možné metody k identifikaci odlehlých hodnot budou probrány na příští přednášce •je třeba rozlišovat: 46 1.odlehlé hodnoty, které jsou způsobeny chybou (měřících přístrojů apod.) - jsou to většinou nereálné hodnoty → je vhodné je smazat a dále s nimi zacházet jako s chybějícími hodnotami 2.odlehlé hodnoty, které jsou fyziologické (tzn. jsou to reálné hodnoty) → je vhodné tyto hodnoty v datech ponechat, pokud je to možné a nezkreslí to analýzu a použít neparametrické metody analýzy dat ‐příklad, kdy je vhodné odlehlou hodnotu v souboru ponechat: pacienti Alzheimerovou chorobou v našem souboru mají hodnotu MMSE skóre větší než 15, jeden pacient má však hodnotu skóre 7 (je to reálná hodnota, smazáním bychom uměle snížili variabilitu) ‐příklad, kdy je nevhodné odlehlou hodnotu v souboru ponechat: chceme měřit výšku 15-letých dětí – dítě trpící nanismem měřící 80 cm by průměrnou výšku velice zkreslilo, proto ho ze souboru vyřadíme logo-MU logo-IBA Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách Poděkování Příprava výukových materiálů předmětu „DSAN02 Pokročilé metody analýzy dat v neurovědách“ byla finančně podporována prostředky projektu FRMU č. MUNI/FR/0260/2014 „Pokročilé metody analýzy dat v neurovědách jako nový předmět na LF MU“ 47