© Institut biostatistiky a analýz Pokročilé metody analýzy dat v neurovědách RNDr. Eva Koriťáková, Ph.D. doc. RNDr. Ladislav Dušek, Dr. Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách Přínos kurzu 2 • orientace v principech vícerozměrné analýzy dat s důrazem na zpracování medicínských dat, a to především z neurovědního výzkumu • schopnost zvolit a aplikovat adekvátní metodu analýzy a klasifikace dat k dosažení požadovaných výsledků • schopnost správné interpretace dosažených výsledků včetně vyhodnocení úspěšnosti klasifikace • schopnost praktické analýzy dat v software MATLAB, STATISTICA, SPSS či R Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách Osnova kurzu 3 1. Úvod do pokročilé vícerozměrné analýzy dat: – význam, cíle a příklady využití vícerozměrné analýzy dat – vícerozměrná data a jejich tabulkové a grafické zpracování 2. Vícerozměrné statistické testy a rozložení: – vícerozměrný průměr, kovarianční matice, matice korelačních koeficientů – vícerozměrný t-test, vícerozměrná analýza rozptylu – transformace a jiné úpravy vícerozměrných dat 3. Podobnosti a vzdálenosti ve vícerozměrném prostoru: – metriky pro určení vzdálenosti – metriky pro určení podobnosti a asociační matice 4. Shluková analýza: – shluková analýza hierarchická – hierarchické aglomerativní shlukování, hierarchické divizivní shlukování – shluková analýza nehierarchická – identifikace optimálního počtu shluků Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách Osnova kurzu – pokračování 4 5. Ordinační analýzy I: – principy redukce dimenzionality dat; selekce a extrakce proměnných – analýza hlavních komponent (PCA), faktorová analýza (FA) 6. Ordinační analýzy II: – analýza nezávislých komponent (ICA), korespondenční analýza (CA), vícerozměrné škálování (MDS), redundanční analýza (RDA), kanonická korelační analýza (CCorA) 7. Klasifikace I: – principy a cíle klasifikace – diskriminační analýza pomocí diskriminačních fcí, minimální vzdálenosti a pomocí hranic – Fisherova LDA 8. Klasifikace II: – metoda podpůrných vektorů (SVM), přehled dalších klasifikačních metod – hodnocení úspěšnosti klasifikace Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách Požadavky ke kolokviu 5 • Předmět je ukončen kolokviem sestávajícím se z teoretických otázek a analýzy praktických příkladů na počítači. • Je nutné porozumět probíraným tématům a umět aplikovat vícerozměrné statistické metody při analýze reálných datových souborů. Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách Doporučená literatura 6 • Koriťáková, E. et al.: online výukové materiály Vícerozměrné metody pro analýzu a klasifikaci dat http://portal.matematickabiologie.cz/index.php?pg=analyza-a-hodnoceni-biologickych-dat-- vicerozmerne-metody-pro-analyzu-dat • DUDA, R.O. et al. Pattern Classification. New York: Wiley-Interscience,, 2000, 680 pp. • BISHOP, C. Pattern Recognition and Machine Learning. New York: Springer, 2006, 738 pp. • FLACH, P.A. Machine learning: the art and science of algorithms that make sense of data. Cambridge: Cambridge University Press, 2012, 396 pp. • CHUNG, M.K. Statistical and computational methods in brain image analysis. Boca Raton: CRC Press, 2014, 400 s. • KUNCHEVA, L.I. Combining Pattern Classifiers: Methods and Algorithms. New Jersey: WileyInterscience,, 2004, 376 pp. • JOHNSON, R. et al. Applied multivariate statistical analysis. 6th ed. Upper Saddle River, N.J.: Prentice Hall, 2007, 773 pp. • MELOUN, M. et al. Statistická analýza vícerozměrných dat v příkladech. Praha: Academia, 2012, 750 s. • EVERITT, B. et al. An introduction to applied multivariate analysis with R. New York: Springer, 2011, 273 pp. • JAMES, G. et al. An introduction to statistical learning: with applications in R. New York: Springer, 2013, 426 pp. • THEODORIDIS, S. et al. Introduction to pattern recognition: a MATLAB approach. Amsterdam: Academic Press, 2010, 219 pp. Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách Blok 1 Úvod do pokročilé vícerozměrné analýzy dat 7 Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách Osnova 1. Význam, cíle a příklady využití vícerozměrné analýzy dat 2. Vícerozměrná data, jejich popis a vizualizace 3. Předzpracování dat 8 Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách Význam, cíle a příklady využití vícerozměrné analýzy dat 9 Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách Význam a cíle vícerozměrné analýzy dat • většina dat pořízených při výzkumu jsou data vícerozměrná – chceme zjistit celou řadu vlastností daných subjektů či objektů 10 ID Pohlaví Věk Váha MMSE skóre Objem hipokampu … 1 muž 84 85,5 29 7030 2 žena 25 62,0 28 6984 … PROMĚNNÉ (VLASTNOSTI) SUBJEKTY • zpravidla nestačí analyzovat každou proměnnou zvlášť – pro úplně pochopení vztahů většinou potřeba analyzovat proměnné současně → použití VÍCEROZMĚRNÝCH METOD Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách • vícerozměrné metody umožňují: – znázornit a popsat vícerozměrná data – zjišťovat vztahy mezi jednotlivými proměnnými a mezi subjekty (resp. objekty) 11 Význam a cíle vícerozměrné analýzy dat II • mnoho způsobů dělení vícerozměrných metod do skupin – např. dělení podle cíle, kterého chceme vícerozměrnou analýzou dosáhnout: 1. Testování hypotéz o vícerozměrných datech 2. Vytvoření shluků subjektů, objektů nebo proměnných 3. Redukce vícerozměrných dat 4. Klasifikace subjektů či objektů Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách Příklady: • výzkum vztahu pohlaví a typu onemocnění na objem hipokampu • zjištění, zda je rozdílná spotřeba elektrické energie ve městech a na vesnicích během týdne a o víkendu • ověření, zda objem hipokampu, amygdaly a putamenu dokáže odlišit pacienty se schizofrenií od zdravých subjektů 12 Cíle vícerozměrné analýzy dat 1. Testování hypotéz o vícerozměrných datech 6810121416182068101214161881012141618 Hippocampus_volume(mm3) Gender: M Gender: F CN MCI AD 5600 5800 6000 6200 6400 6600 6800 7000 7200 7400 7600 Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách Příklady: • vytvoření skupin diagnóz onemocnění s podobnými léčebnými náklady • vytvoření skupin lokalit podle výskytu určitých druhů rostlin a živočichů • vytvoření skupin genů a subjektů na základě dat genové exprese • vytvoření skupin subjektů se schizofrenií podle kognitivních skóre a neurologických parametrů 13 Cíle vícerozměrné analýzy dat 2. Vytvoření shluků subjektů, objektů nebo proměnných Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách Cíle vícerozměrné analýzy dat 3. Redukce vícerozměrných dat Příklady: • vytvoření souhrnného skóre odpovědi pacientů na radioterapii z původních několika proměnných • vytvoření menšího počtu nových proměnných z původních dat, které nám umožní znázornit vícerozměrná data ve 2-D či 3-D grafech • výběr oblastí mozku, které nejvíce odlišují pacienty s neuropsychiatrickým onemocněním od zdravých subjektů 14 Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách Cíle vícerozměrné analýzy dat 4. Klasifikace subjektů či objektů Příklady: • zjištění (diagnostika) schizofrenie na základě kognitivních testů • rozhodnutí, zda banka poskytne či neposkytne hypotéku danému subjektu na základě jeho příjmů, rodinné situace atd. • diagnostika demence (tzn. zařazení nového subjektu do skupiny pacientů či kontrol) podle obrázku mozku 15 Pacienti Zdravé subjekty Nový subjekt Pacient? x Zdravý? Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách Vícerozměrná data, jejich popis a vizualizace 16 Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách Vícerozměrná data 17 ID Pohlaví Věk Váha MMSE skóre Objem hipokampu … 1 muž 84 85,5 29 7030 2 žena 25 62,0 28 6984 3 4 … PROMĚNNÉ OBJEKTY(SUBJEKTY) Poznámka: proměnné označovány i jako znaky, pozorování, diskriminátory, příznakové proměnné či příznaky Anglicky označení pouze jedním termínem: feature Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách Typy dat - opakování • Kvalitativní (kategoriální) data: ‐ Binární data ‐ Nominální data ‐ Ordinální data • Kvantitativní data: ‐ Intervalová data ‐ Poměrová data 18 Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách Vizualizace jednorozměrných dat - opakování 19 47,1% 52,9% Ženy (N=54) Muži (N=48) Pohlaví N=102 Koláčový graf Sloupkový graf 0 2 4 6 8 10 12 I II III IV Stádium onemocnění % 0 25 50 75 100 Maximum Minimum Medián 75% percentil 25% percentil Krabicový graf (Box Plot)Histogram 0 5 10 15 20 25 0 10 20 30 40 50 60 70 80 90 Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách K čemu nám může pomoci vizualizace dat? 20 id vek pohlavi cholesterol vyska vaha obvod_pasu obvod_boku BMI sys_tlak dia_tlak 1 38 Z 4.6 164 45 60 87 16.7 120 80 2 36 Z 4.35 167 90 97 112 32.3 130 80 3 26 Z 178 70 72 94 22.1 127 80 4 25 Z 4.2 165 59 65 92 21.7 130 80 5 47 M 5.65 158 92 96 26.8 155 90 6 21 Z 6.35 172 61 69 98 20.6 135 80 7 23 Z 3.45 170 82 92 113 28.4 130 80 8 35 M 7.99 179 90 101 110 28.1 140 88 9 33 Z 4.88 167 57 70 92 20.4 140 85 10 48 Z 9.56 164 70 93 107 26.0 250 97 11 25 M 3.1 186 75 81 102 21.7 120 70 12 41 Z 10 167 62 71 101 22.2 140 90 13 29 ZZ 4.2 165 58 66 98 21.3 120 80 14 24 M 5.62 174 80 92 107 26.4 156 90 15 58 Z 7.9 164 63 73 100 23.4 135 90 Chybějící hodnotyChybné hodnoty Odlehlé hodnoty → odhalení problémů v datech → k vytvoření představy, jaké výsledky analýzy máme asi očekávat → ke zjištění vztahu mezi proměnnými, ... Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách Vizualizace vícerozměrných dat • 3D sloupkové grafy • dvourozměrný histogram • maticové grafy • krabicové grafy pro více proměnných • ikonové (symbolové) grafy: – profilové sloupce – profily – paprskové (hvězdicové) grafy – polygony – pavučinové grafy – Chernoffovy tváře 21 Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách 3D sloupkové grafy • vzájemný výskyt kategorií dvou kategoriálních proměnných • v softwaru Statistica: Graphs – 3D Sequential Graphs – Bivariate Histograms... 22 Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách Dvourozměrný histogram • pro vykreslení vztahu dvou spojitých proměnných • v softwaru Statistica: Graphs – 3D Sequential Graphs – Bivariate Histograms... 23 Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách Úkol 1 • vykreslete dvourozměrný histogram pro věk a objem hipokampu • změňte barvu pozadí grafu na transparentní • změňte barvu sloupečků (např. na červenou) • zvětšete velikost písma u popisků os (u hodnot i názvů proměnných) 24 Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách Tečkový graf • rovněž pro vykreslení vztahu dvou spojitých proměnných • v softwaru Statistica: Graphs – Scatterplots... 25 Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách Tečkový graf – přidání kategoriální proměnné • zahrnutí kategoriální proměnné do grafu použitím různých symbolů či barev pro jednotlivé skupiny určené danou kategoriální proměnnou • v softwaru Statistica: Graphs – Scatterplots – na záložce Categorized zahrnout On u X-Categorized, vybrat kategoriální proměnnou pomocí Change Variable a změnit Layout na Overlaid 26 Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách Maticový graf • vykreslení vztahu více spojitých proměnných • v softwaru Statistica: Graphs – Matrix Plots... • upozornění: nastavení, jak se vypořádat s chybějícími hodnotami 27 Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách Maticový graf – na diagonále krabicové grafy • v softwaru Statistica: Graphs – Matrix Plots...; na záložce Advanced zatrhnout Display: Box plot 28 Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách Úkol 2 • vykreslete maticový graf pro proměnné: objem hipokampu, amygdaly, thalamu, pallida a putamenu, přičemž na diagonále budou krabicové grafy • změňte barvu krabicového grafu na černou (můžete nastavit i výplň) • změňte barvu tečkových grafů • zrušte čáry mřížky u tečkových grafů (gridlines) 29 Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách Krabicové grafy pro více proměnných • ukáží nám, zda mají proměnné podobný rozsah hodnot 30 V softwaru STATISTICA – 2 způsoby: 1. označit příslušné sloupečky v datech – Graphs – Graphs of Block Data – Box Plot: Block columns 2. Statistics – Basic Statistics/ Tables – Descriptive statistics – Box & whisker plot for all variables (na záložce Options lze zvolit, že krabicové grafy mají být typu Median/Quartiles/Range nebo po kliknutí do grafu lze v Plot Box/Whisker měnit Middle point, Box value, Whisker value a po kliknutí na More i zapnutí Outliers) Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách Vícenásobné krabicové grafy • umožňují znázornění vztahu několika kvalitativních proměnných a jedné kvantitativní proměnné 31 Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách Ikonové (symbolové) grafy • hodnoty znaků znázorněny jako geometrické útvary či symboly • každému objektu (subjektu) odpovídá jeden obrazec složený z těchto geometrických útvarů či symbolů • umožní vizuálně porovnat, které objekty (subjekty) jsou si podobné • mnoho druhů, v softwaru Statistica např.: 1. Profilové sloupce 2. Profily 3. Paprskové (hvězdicové) grafy 4. Polygony 5. Pavučinové grafy 6. Chernoffovy tváře 32 Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách Ikonové grafy – profilové sloupce • výšky sloupců odpovídají relativním hodnotám proměnných (relativní hodnota je podíl původní hodnoty a maxima z absolutních hodnot dané proměnné) • v softwaru Statistica: Graphs – Icon Plots... – Graph type: Columns – zvolit proměnné – na záložce Options 1 zatrhnout „Display case labels“ 33 Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách Ikonové grafy – profily • obdoba profilových sloupců, jen se středy horních hran profilových sloupců spojí úsečkami • v softwaru Statistica: Graphs – Icon Plots... – Graph type: Profiles – zvolit proměnné – na záložce Options 1 zatrhnout „Display case labels“ 34 Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách Ikonové grafy – paprskové (hvězdicové) grafy • vzdálenosti od středu odpovídají relativním hodnotám proměnných • v softwaru Statistica: Graphs – Icon Plots... – Graph type: Stars – zvolit proměnné – na záložce Options 1 zatrhnout „Display case labels“ 35 Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách Ikonové grafy – polygony • obdoba paprskových grafů, jen jsou vyplněné • v softwaru Statistica: Graphs – Icon Plots... – Graph type: Polygons – zvolit proměnné – na záložce Options 1 zatrhnout „Display case labels“ 36 Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách Ikonové grafy – pavučinové grafy • obdoba paprskových grafů, přidáno znázornění maxima absolutních hodnot • v softwaru Statistica: Graphs – Icon Plots... – Graph type: Sun Rays – zvolit proměnné – na záložce Options 1 zatrhnout „Display case labels“ 37 Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách Ikonové grafy – Chernoffovy tváře • proměnné znázorněny jako části obličeje • v softwaru Statistica: Graphs – Icon Plots... – Graph type: Chernoff Faces – zvolit proměnné – na záložce Options 1 zatrhnout „Display case labels“ 38 Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách Úkol 3 • zvolte si typ ikonových grafů, které se Vám zdají nejpřehlednější, a vykreslete graf pro subjekty 201 až 230 s využitím proměnných věk, MMSE, objem hipokampu a objem nucleus caudatus 39 Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách Vizualizace vícerozměrných dat - shrnutí • 3D sloupkové grafy • dvourozměrný histogram • maticové grafy • krabicové grafy pro více proměnných • ikonové (symbolové) grafy: – profilové sloupce – profily – paprskové (hvězdicové) grafy – polygony – pavučinové grafy – Chernoffovy tváře 40 Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách Předzpracování dat 41 Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách PředzpracováníPředzpracování Schéma analýzy a klasifikace dat 42 Data Redukce Klasifikace nebo ? ? Data Ukázka - kognitivní data apod. Ukázka - obrazová data Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách Předzpracování obrazových dat 43 MR obrazy Nativní prostor Stereotaktický prostor Obrazy deformací Registrace Šablona Segmentace + vyhlazení Slícované obrazy intenzit Obrazy hustoty šedé hmoty Morfometrie založená na deformacích (DBM) na voxelech (VBM) Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách Předzpracování obrazových dat 44 Další typy dat, které mohou vzniknout po předzpracování obrazů: Informace o tloušťce šedé hmoty v jednotlivých oblastech mozku Informace o ploše jednotlivých oblastí mozku Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách Předzpracování dat – chybějící hodnoty • snaha, aby v datech vůbec nenastaly • pokud však nastanou, je silně nedoporučováno dělat každou analýzu na jinak velkém souboru (tzv. „pairwise“ odstraňování objektů) → 3 možná řešení: 45 1. vyloučit z analýzy všechny objekty, u nichž se vyskytla nějaká chybějící hodnota (tzv. „casewise“= „listwise“ odstranění objektů): ‐ pokud chybějících hodnot mnoho, zbyde pouze málo objektů ‐ pozor na systematicky chybějící hodnoty – může dojít ke zkreslení výsledků analýz ‐ občas vhodné odstranit proměnné s mnoha chybějícími hodnotami místo objektů, pokud proměnné nejsou důležité pro analýzu 2. definování souboru s vyplněnými „klíčovými“ proměnnými: ‐ na tomto souboru provedena většina analýz ‐ další analýzy dělány na podsouboru s menším počtem subjektů 3. doplnění chybějících hodnot (tzv. imputace): ‐ doplnění průměrem z hodnot, které jsou pro danou proměnnou k dispozici ‐ doplnění hodnot na základě regresních modelů ‐ pozor! doplnění hodnot však může zkreslit výsledky analýz Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách Předzpracování dat – odlehlé hodnoty • k identifikaci odlehlých hodnot mohou pomoci tečkové, maticové či krabicové grafy • další možné metody k identifikaci odlehlých hodnot budou probrány na příští přednášce • je třeba rozlišovat: 46 1. odlehlé hodnoty, které jsou způsobeny chybou (měřících přístrojů apod.) jsou to většinou nereálné hodnoty → je vhodné je smazat a dále s nimi zacházet jako s chybějícími hodnotami 2. odlehlé hodnoty, které jsou fyziologické (tzn. jsou to reálné hodnoty) → je vhodné tyto hodnoty v datech ponechat, pokud je to možné a nezkreslí to analýzu a použít neparametrické metody analýzy dat ‐ příklad, kdy je vhodné odlehlou hodnotu v souboru ponechat: pacienti Alzheimerovou chorobou v našem souboru mají hodnotu MMSE skóre větší než 15, jeden pacient má však hodnotu skóre 7 (je to reálná hodnota, smazáním bychom uměle snížili variabilitu) ‐ příklad, kdy je nevhodné odlehlou hodnotu v souboru ponechat: chceme měřit výšku 15-letých dětí – dítě trpící nanismem měřící 80 cm by průměrnou výšku velice zkreslilo, proto ho ze souboru vyřadíme Koriťáková, Dušek: Pokročilé metody analýzy dat v neurovědách Poděkování Příprava výukových materiálů předmětu „DSAN02 Pokročilé metody analýzy dat v neurovědách“ byla finančně podporována prostředky projektu FRMU č. MUNI/FR/0260/2014 „Pokročilé metody analýzy dat v neurovědách jako nový předmět na LF MU“ 47