Pokročilé metody analýzy v neurovědách IBA # RNDr. Eva Janoušová doc. RNDr. Ladislav Dušek, Dr. Jaro 2015 Přínos kurzu orientace v principech vícerozměrné analýzy dat s důrazem na zpracování medicínských dat, a to především z neurovědního výzkumu schopnost zvolit a aplikovat adekvátní metodu analýzy a klasifikace dat k dosažení požadovaných výsledků schopnost správné interpretace dosažených výsledků včetně vyhodnocení úspěšnosti klasifikace schopnost praktické analýzy dat v software MATLAB, STATISTICA, SPSS či R Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách ij^J Osnova kurzu 1. Úvod do pokročilé vícerozměrné analýzy dat: - význam, cíle a příklady využití vícerozměrné analýzy dat - vícerozměrná data a jejich tabulkové a grafické zpracování 2. Vícerozměrné statistické testy a rozložení: - vícerozměrný průměr, kovarianční matice, matice korelačních koeficientů - vícerozměrný t-test, vícerozměrná analýza rozptylu - transformace a jiné úpravy vícerozměrných dat 3. Podobnosti a vzdálenosti ve vícerozměrném prostoru: - metriky pro určení vzdálenosti - metriky pro určení podobnosti a asociační matice 4. Shluková analýza: - shluková analýza hierarchická - hierarchické aglomerativní shlukování, hierarchické divizivní shlukování - shluková analýza nehierarchická - identifikace optimálního počtu shluků mu ,-.*■»»., Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách l^J 3 Osnova kurzu - pokračování 5. Ordinační analýzy I: - principy redukce dimenzionality dat; selekce a extrakce proměnných - analýza hlavních komponent (PCA), faktorová analýza (FA) 6. Ordinační analýzy II: - analýza nezávislých komponent (ICA), korespondenční analýza (CA), vícerozměrné škálování (MDS), redundanční analýza (RDA), kanonická korelační analýza (CCorA) 7. Klasifikace I: - principy a cíle klasifikace - diskriminační analýza pomocí diskriminačních fcí, minimální vzdálenosti a pomocí hranic - Fisherova LDA 8. Klasifikace II: - metoda podpůrných vektorů (SVM), přehled dalších klasifikačních metod - hodnocení úspěšnosti klasifikace mu ,-.*■»»., Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách l^J 4 Požadavky ke kolokviu • Předmět je ukončen kolokviem sestávajícím se z analýzy praktických příkladů na počítači. • Je nutné porozumět probíraným tématům a umět aplikovat vícerozměrné statistické metody při analýze reálných datových souborů. Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách l^J 5 Doporučená literatura • DUDA, R.O. et al. Pattern Classification. New York: Wiley-lnterscience,, 2000, 680 pp. • BISHOP, C. Pattern Recognition and Machine Learning. New York: Springer, 2006, 738 pp. • FLACH, P.A. Machine learning: the art and science of algorithms that make sense of data. Cambridge: Cambridge University Press, 2012, 396 pp. • CHUNG, M.K. Statistical and computational methods in brain image analysis. Boca Raton: CRC Press, 2014, 400 s. • KUNCHEVA, L.I. Combining Pattern Classifiers: Methods and Algorithms. New Jersey: Wiley-lnterscience,, 2004, 376 pp. • JOHNSON, R. et al. Applied multivariate statistical analysis. 6th ed. Upper Saddle River, N.J.: Prentice Hall, 2007, 773 pp. • MELOUN, M. et al. Statistická analýza vícerozměrných dat v příkladech. Praha: Academia, 2012, 750 s. • EVERITT, B. et al. An introduction to applied multivariate analysis with R. New York: Springer, 2011, 273 pp. • JAMES, G. et al. An introduction to statistical learning: with applications in R. New York: Springer, 2013, 426 pp. • THEODOŘI DIS, S. et al. Introduction to pattern recognition: a MATLAB approach. Amsterdam: Academic Press, 2010, 219 pp. Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách l^J 6 Blokl Úvod do pokročilé vícerozměrné analýzy dat Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách ij^Jj 7 Osnova 1. Význam, cíle a příklady využití vícerozměrné analýzy dat 2. Vícerozměrná data, jejich popis a vizualizace 3. Předzpracování dat Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách ilMJj 8 Význam, cíle a příklady využití vícerozměrné analýzy dat Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách Význam a cíle vícerozměrné analýzy dat • většina dat pořízených při výzkumu jsou data vícerozměrná - chceme zjistit celou řadu vlastností daných subjektů či objektů PROMĚNNÉ (VLASTNOSTI) ID Pohlaví Věk Váha MMSE skóre Objem hipokampu 1 muž 84 85,5 29 7030 2 žena 25 62,0 28 6984 I— LU Č2 Z) co • zpravidla nestačí analyzovat každou proměnnou zvlášť - pro úplně pochopení vztahů většinou potřeba analyzovat proměnné současně -» použití VÍCEROZMĚRNÝCH METOD Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách IBA IMJ io Význam a cíle vícerozměrné analýzy dat II >- • vícerozměrné metody umožňují: - znázornit a popsat vícerozměrná data — zjišťovat vztahy mezi jednotlivými proměnnými a mezi subjekty (resp. objekty) • mnoho způsobů dělení vícerozměrných metod do skupin - např. dělení podle cíle, kterého chceme vícerozměrnou analýzou dosáhnout: 1. Testování hypotéz o vícerozměrných datech 2. Vytvoření shluků subjektů, objektů nebo proměnných 3. Redukce vícerozměrných dat 4. Klasifikace subjektů či objektů Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách l^J 11 Cíle vícerozměrné analýzy dat 1. Testování hypotéz o vícerozměrných datech Příklady: • ověření, zda má vliv pohlaví a typ léku na počet uzdravených pacientů s daným onemocněním • zjištění, zda je rozdílná spotřeba elektrické energie ve městech a na vesnicích během týdne a o víkendu • výzkum vztahu pohlaví a typu onemocnění na objem hipokampu 7600 7400 7200 co | 7000 ľ 6800 o 6600 I " 6400 CL E 6200 o & 6000 5800 5600 0 0 II i CN MCI AD |Gender: M |H]Gender: F Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách IBA W 12 Cíle vícerozměrné analýzy dat 2. Vytvoření shluků subjektů, objektů nebo proměnných Příklady: • vytvoření skupin diagnóz onemocnění s podobnými léčebnými náklady • vytvoření skupin lokalit podle výskytu určitých druhů rostlin a živočichů • vytvoření skupin genů a subjektů na základě dat genové exprese • vytvoření skupin subjektů se schizofrenií podle kognitivních skóre a neurologických parametrů Cíle vícerozměrné analýzy dat 3. Redukce vícerozměrných dat Příklady: • vytvoření souhrnného skóre odpovědi pacientů na rádioterapii z původních několika proměnných • vytvoření menšího počtu nových proměnných z původních dat, které nám umožní znázornit vícerozměrná data ve 2-D či 3-D grafech • výběr oblastí mozku, které nejvíce odlišují pacienty s neuropsychiatrickým onemocněním od zdravých subjektů A B C D F G H I J K 1 ID Group Gender Age MMSE Hippocampus amygdala Thalamus Pallidum Puta men Nucl caud 2 101 1 M 84 28 6996 2725 12800 3914 11227 3528 3 102 1 F 76 29 7187 2916 12277 3606 11236 3773 4 103 1 M 79 30 7030 2835 12906 3638 11430 4294 5 104 1 F 89 30 7263 2919 12432 3678 11018 3585 6 105 1 F 71 30 6867 2887 12383 3689 11304 3723 7 106 1 F 70 30 7331 3081 12415 3553 11372 3969 3 107 1 F 33 30 6705 2823 12575 4150 11303 2886 9 108 1 F 86 28 6586 2860 12454 3945 11328 3741 10 109 1 F 84 29 7036 3017 12361 3827 11382 3737 mu ,-.*■»»., Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách l^J 14 Cíle vícerozměrné analýzy dat 4. Klasifikace subjektů či objektů Příklady: • zjištění (diagnostika) schizofrenie na základě kognitivních testů • rozhodnutí, zda banka poskytne či neposkytne hypotéku danému subjektu na základě jeho příjmů, rodinné situace atd. • diagnostika demence (tzn. zařazení nového subjektu do skupiny pacientů či kontrol) podle obrázku mozku Zdravé subjekty Pacienti Vícerozměrná data, Bjich popis a vizualizace Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách Vícerozměrná data PROMĚNNÉ i— CD in, > I— CD O ID Pohlaví Věk Váha MMSE skóre Objem hipokampu 1 muž 84 85,5 29 7030 2 žena 25 62,0 28 6984 3 4 Poznámka: proměnné označovány i jako znaky pozorování, diskriminátory, příznakové proměnné či příznaky Anglicky označení pouze jedním termínem: feature mu ,-.*■»»., Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách l^J 17 Typy dat - opakování Kvalitativní (kategorielni) data: - Binární data - Nominální data - Ordinální data Kvantitativní data: - Intervalová data - Poměrová data Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách l(JM|j 18 Vizualizace jednorozměrných dat - opakování Koláčový graf Pohlaví N=102 52,9% 47,1% □ Ženy (N=54) □ Muži (N=48) Sloupkový graf % 25 -i 20 -15 -10 -5 -0 - <$> <$> & <§> A* <ř> # A* <$> <3> JZL Věk (roky) 25 -i 20 -15 -10 -5 -0 - Histogram 0 10 20 30 40 50 60 70 80 90 Krabicový graf (Box Plot) 100 n 75 -50 -25 - T Maximum □ Medián 75% percentu 25% percentu Minimum Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách IBA IMJ 19 Vizualizace vícerozměrných dat 3D sloupkové grafy dvourozměrný histogram maticové grafy krabicové grafy pro více proměnných ikonové (symbolové) grafy: - profilové sloupce - profily - paprskové (hvězdicové) grafy - polygony - pavučinové grafy - C h e r n offo vy tvá ře Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách ij^J/ 20 3D sloupkové grafy • vzájemný výskyt kategorií dvou kategoriálních proměnných • v softwaru Statistical Graphs - 3D Sequential Graphs - Bivariate Histograms... Dvourozměrný histogram >- • pro vykreslení vztahu dvou spojitých proměnných • v softwaru Statistical Graphs - 3D Sequential Graphs - Bivariate Histograms... Úkol 1 • vykreslete dvourozměrný histogram pro věk a systolický tlak • změňte barvu pozadí grafu na transparentní • změňte barvu sloupečků (např. na červenou) • zvětšete velikost písma u popisků os (u hodnot i názvů proměnných) Janoušová, Dušek: Pokročilé metody analýzy dat v neurověd IBA (Mi 23 Tečkový graf rovněž pro vykreslení vztahu dvou spojitých proměnných v softwaru Statistica: Graphs - Scatterplots... 120 V- 110 100 SO 70 £0 40 • ■ ■ • • ■ ■ ■ 1 'Iv- i ■ 1 1 i • i 1 • • • • i 1 • 1 • ■ • !!•■ i t 1 ■ • 1 • • t m 150 155 160 165 170 175 180 185 190 195 200 vyska mu ,-.*■»»., Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách l^J 24 Tečkový graf - přidání kategoriální proměnné zahrnutí kategoriální proměnné do grafu použitím různých symbolů či barev pro jednotlivé skupiny určené danou kategoriální proměnnou v softwaru Statistical Graphs - Scatterplots - na záložce Categorized zahrnout On u X-Categorized, vybrat kategoriální proměnnou pomocí Change Variable a změnit Layout na Overlaid 120 110 100 90 a so t; > 70 60 £0 40 . . . . . . . . □ □ □ □ □ □ ° ( o ( i o > □ í ] □ □ ( ( 3 O ( > n □ > □ n ° ( [ 1 ] B D □ □ □ □ □ S ! 0°O í 0 o o o o ,8° 1 o0< j °e< °H ( 3D □ ° ? o 3 ( c o ) ) O-j o 0 O .... ( .... oo ) o .... .... .... .... .... .... .... 150 155 160 165 170 175 180 185 190 195 200 0 Pohjav!: J □ pohlaví. M výska IBA W 25 Maticový graf vykreslení vztahu více spojitých proměnných v softwaru Statistical Graphs - Matrix Plots... upozornění: nastavení, jak se vypořádat s chybějícími hodnotami * 0 & 3 _■: "o oV> °o Ks 3*0 ° o"" Hi _ľ - 1_1 rP m i i- ". =1.3 □U □c o o .-*o ° .J ď°0 í ■ s ó1 ° ' 1 'o* fei ■ 4 o o 4 0 0 ft "a" o o . % ů & Oji . ř ° o 8 jp:.':'o :c±i:i S> °o * J i íi . * váľa JI o , o w 5 O JČ &° b o o* as? > ° o ■- B IT ■ ľ - 1 Loí o 0 í »8 - ^o o f ö o°o o o u Mu 1 s >i a e ■itSB6|< ill ._J_ľĽ_í_ o o 0 Ojo J 00 fi Ů_0vOTr 0 - r .p o I f ij-s._UaK_pu^ □ Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách IBA IMJ 26 Maticový graf - na diagonále krabicové grafy * v softwaru Statistica: Graphs - Matrix Plots...; na záložce Advanced zatrhnout Display: Box plot U ň U ■ °- oo o c _B." T- r- - ° *x o -. O .-pGp _ 0 .L !°o» o * ŕ Pŕ 15 o % j Ů iTi o o p O ° t^i'SoioiJ tij ň:-gpo°o| o - °o , o s* 1 """ """ (p o o ■j O 0 ■ 0 í io o^" o 0 • O OCO 03 0^"V * 5 oQ, J? 98° 3 ° o o o > o ° ° -° ° -a ° i- ° > r o oo 2 fl.-.0*"*.- í^O t ň .-.ň s00 o Janoušová, Dušek: Pokročilé metody analýzy dat v neurovédách IBA W 27 Úkol 2 í- • vykreslete maticový graf pro proměnné: věk, LDL, H DL i celkový cholesterol, systolický a diastolický tlak, přičemž na diagonále budou krabicové grafy • změňte barvu krabicového grafu na černou (můžete nastavit i výplň) • změňte barvu tečkových grafů • zrušte čáry mřížky u tečkových grafů (gridlines) Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách ij^Jj 28 Krabicové grafy pro více proměnných -20 ukáží nám, zda mají proměnné podobný rozsah hodnot v softwaru Statistical označit příslušné sloupečky v datech - Graphs -Graphs of Block Data - Box Plot: Block columns 220 200 180 160 140 120 100 SO GO 40 20 C 1 1 1 1 1 1 1 1 1 1 □ _L [ 1 [ [ ] [ 1 [ 5 1 <£> ■ i i i i i i i i i 2 (ľ 'Ú "ô "ô? [C v > n3 ~5 (TJ ~5 f" C- Cl en □ Median □ 25%-75% X Non-Outlier Range o Ouťiers * Extremes Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách IBA IMJ 29 Vícenásobné krabicové grafy umožňují znázornění vztahu několika kvalitativních proměnných a jedné kvantitativní proměnné C1E-C21 ■ -■ 1 -^ w- n-.' ľJ TI -n- ■-.z --1U -^J ■ — z ■b -T -W- ml n4 ■5 p] r-i- -j- 3- 1*1 -n - ľfc =■= EH- 3: 00. i-i a-iů 11-is ií-s ii-a as* —1-1-1-1-1-1- 1-* ů-iů 11-1S iů-íů ii-a a** in n*" 71- ^ ^ ^ ľ- — 3= 1 ■ t 1 : U 1 ll-H íí-aa n-is 1 .:■ _4l if.1Í .. 1. —M =*= 1 ■ i 1 £ 1U 1 n-ri mm ll-Oä 1 .:< -411 --4U -■f -j- 21 m -H- 1-i ft-iů 11-ia íů-sů ai-ii -1-1-1-1-1-1- 1-5 ů-iů ií-a ii-a ah- l-í Í-1Ů ll-rH- 1Ů-3Ů ±1-45 íť+ --d ť ÍW Ív5 --'-í ~1-1-1-1-1-1— 1-4 *-lŮ ll-ri 14-ÍŮ ll-iä Sít i-! a-iů n-iä ia-a ivs- »• rFJlD ŕp-# rŕS n"ä —I-1-1-1-1-1- 1-5- ů-iů n-iS íů-iů ii-ii Ä* n*' DO n-H ■ -" z n-li 1 ; 1 í ■: 1 n-iS 1 ía-a 1 . .! 1 . y- n-ÍI -- :,r n-'í n-Ľ 31 -E T- I 1 í i'J 1 n-iä 1 1 il-M IMJ 30 Ikonové (symbolové) grafy >- • hodnoty znaků znázorněny jako geometrické útvary či symboly • každému objektu (subjektu) odpovídá jeden obrazec složený z těchto geometrických útvarů či symbolů • umožní vizuálně porovnat, které objekty (subjekty) jsou si podobné • mnoho druhů, v softwaru Statistica např.: 1. Profilové sloupce 2. Profily 3. Paprskové (hvězdicové) grafy 4. Polygony 5. Pavučinové grafy 6. Chernoffovy tváře Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách ^jjj- 31 Ikonové grafy - profilové sloupce • výšky sloupců odpovídají relativním hodnotám proměnných (relativní hodnota je podíl původní hodnoty a maxima z absolutních hodnot dané proměnné) • v softwaru Statistical Graphs - Icon Plots... - Graph type: Columns - zvolit proměnné - na záložce. OptLonsJ. zatrhnout „Display case labels" lL #1 #2 JjJJuJLlI #6 *7 #8 ~& #10 .1 III..I.lihl #11 #12 #13 #14 #15 I I i. I . Left to right: vek c e l_c hole sterol vah a sys_tlak dia_tlak janousova, uuseK: KOKrocne meioay anaiyzy aai v neuroveaách \BÄ WtJ ^ #16 #17 #18 #19 #20 diat|ak Ikonové grafy - profily obdoba profilových sloupců, jen se středy horních hran profilových sloupců spojí úsečkami v softwaru Statistical Graphs - Icon Plots... - Graph type: Profiles - zvolit proměnné - na záložce Options 1 zatrhnout „Display case labels" #1 #16 #2 #3 #17 #4 #5 #10 #14 #15 Left to right: vek cel_c hole sterol vana sysjlak #18 #19 #20 djaJak Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách IBA IMJ 33 Ikonové grafy - paprskové (hvězdicové) grafy i- • vzdálenosti od středu odpovídají relativním hodnotám proměnných • v softwaru Statistical Graphs - Icon Plots... - Graph type: Stars - zvolit proměnné - na záložce Options 1 zatrhnout „Display case labels" #1 #2 #3 #5 w #6 #11 #16 #7 #12 #17 #8 #13 #18 #9 #14 #19 #10 #15 #20 Clockwise: vek c e l_c hole sterol vana sys_tlak dia tlak Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách IBA IMJ 34 Ikonové grafy - polygony >- • obdoba paprskových grafů, jen jsou vyplněné • v softwaru Statistical Graphs - Icon Plots... - Graph type: Polygons - zvolit proměnné - na záložce Options 1 zatrhnout „Display case labels" #1 #2 #3 #4 #5 #6 #7 #8 #9 #10 V #11 =■: = : #14 = ■ Left to right: *T l ^ \1 cel_cholesterol ~ váha #16 #17 #18 #19 #20 JjJJ MU ,,».,, Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách IMJ 35 Ikonové grafy - pavučinové grafy • obdoba paprskových grafů, přidáno znázornění maxima absolutních hodnot • v softwaru Statistical Graphs - Icon Plots... - Graph type: Sun Rays - zvolit proměnné - na záložce Options 1 zatrhnout „Display case labels" #1 #6 #11 #16 #2 #3 #7 #12 #17 #8 #13 AAA #18 A X Si x x x x #9 X "X #14 #1? #5 #10 #15 X #20 Clockwise: ve< cel_c hole stero I vaha sys_tlak dia tlak Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách IBA IMJ 36 Ikonové grafy - Chernoffovy tváře proměnné znázorněny jako části obličeje v softwaru Statistical Graphs - Icon Plots... - Graph type: Chernoff Faces - zvolit proměnné - na záložce Options 1 zatrhnout „Display case labels" + L i b 4"i> 4"! L> J w y #2 #3 #4 #5 #11 #12 #13 #14 /? #16 #17 #13 #19 #10 #15 -face/w = vek -ear/lev = cel_cholesterol -halfface/h = vaha -upface/ecc = sys_tlak — loface/ecc = dia_tlak janousova, uuseK: roKrocne meioay anaiyzy aai v neuroveaacn IBA W 37 Úkol 3 * zvolte si typ ikonových grafů, které se Vám zdají nejpřehlednější, a vykreslete graf pro subjekty 80 až 100 s využitím proměnných věk, výška, váha, obvod pasu a boků a BMI Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách ij^Jj 38 Vizualizace vícerozměrných dat - shrnutí 3D sloupkové grafy dvourozměrný histogram maticové grafy krabicové grafy pro více proměnných ikonové (symbolové) grafy: - profilové sloupce - profily - paprskové (hvězdicové) grafy - polygony - pavučinové grafy - Chernoffovy tváře Z\ 1 1 m #2 ! #12 #13 #16 #17 #16 #19 ce b ale ste rol sysj s< Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách IBA IMJ 39 Předzpracování dat Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách Schéma analýzy a klasifikace dat Předzpracování ____________________,____________________i I Redukce L___________________ —_ ___________________ I Klasifikace Ukázka - kognitivní data apod. A B E 1 id vek pohlaví výska vaha 2 1 3S Z 164 45 3 2 36 M 90 4 3 26 Z 178 70 1 B C D E 1 id vek pohlaví výska vaha 2 1 UŠI Z 164 45 3 2 36 M 167 90 4 3 26 Z 178 70 1 A B C D E 1 id vek pohlaví výska vaha 2 1 38 Z 164 45 2 36 M 167 90 4 3 26 Z 17S 70 nebo Ukázka - obrazová data Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách IBA m 4i Předzpracování obrazových dat Morfometrie založená na na deformacích voxelech (DBM) (VBM) Obrazy deformací Nativní prostor Stereotaktický prostor Slícované obrazy intenzit Segmentace + vyhlazení -J- o Obrazy hustoty šedé hmoty Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách IBA IMJ 42 Předzpracování obrazových dat Další typy dat, které mohou vzniknout po předzpracování obrazů: Informace o tlouštce šedé hmoty v jednotlivých oblastech mozku Informace o ploše jednotlivých oblastí mozku Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách IBA IMJ 43 Předzpracování dat - chybějící hodnoty >- • snaha, aby v datech vůbec nenastaly • pokud však nastanou, je silně nedoporučováno dělat každou analýzu na jinak velkém souboru (tzv. „casewise" odstraňování objektů) -> 3 možná řešení: 1. vyloučit z analýzy všechny objekty, u nichž se vyskytla nějaká chybějící hodnota (tzv. „listwise" odstranění objektů): pokud chybějících hodnot mnoho, zbyde pouze málo objektů pozor na systematicky chybějící hodnoty - může dojít ke zkreslení výsledků analýz občas vhodné odstranit proměnné s mnoha chybějícími hodnotami místo objektů, pokud proměnné nejsou důležité pro analýzu 2. definování souboru s vyplněnými „klíčovými" proměnnými: na tomto souboru provedena většina analýz další analýzy dělány na podsouboru s menším počtem subjektů 3. doplnění chybějících hodnot (tzv. imputace): doplnění průměrem z hodnot, které jsou pro danou proměnnou k dispozici doplnění hodnot na základě regresních modelů pozor! doplnění hodnot však může zkreslit výsledky analýz mu ,-.*■»»., Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách l^J 44 Předzpracování dat - odlehlé hodnoty >- • k identifikaci odlehlých hodnot mohou pomoci tečkové, maticové či krabicové grafy • další možné metody k identifikaci odlehlých hodnot budou probrány na příští přednášce • je třeba rozlišovat: 1. odlehlé hodnoty, které jsou způsobeny chybou (měřících přístrojů apod.) -jsou to většinou nereálné hodnoty -> je vhodné je smazat a dále s nimi zacházet jako s chybějícími hodnotami 2. odlehlé hodnoty, které jsou fyziologické (tzn. jsou to reálné hodnoty) -> je vhodné tyto hodnoty v datech ponechat, pokud je to možné a nezkreslí to analýzu a použít neparametrické metody analýzy dat - příklad, kdy je vhodné odlehlou hodnotu v souboru ponechat: pacienti Alzheimerovou chorobou v našem souboru mají hodnotu MMSE skóre větší než 15, jeden pacient má však hodnotu skóre 7 (je to reálná hodnota, smazáním bychom uměle snížili variabilitu) - příklad, kdy je nevhodné odlehlou hodnotu v souboru ponechat: chceme měřit výšku 15-letých dětí - dítě trpící nanismem měřící 80 cm by průměrnou výšku velice zkreslilo, proto ho ze souboru vyřadíme mu ,-.*■»»., Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách l^J 45 Poděkování Příprava výukových materiálů předmětu „DSAN02 Pokročilé metody analýzy dat v neurovědách" byla finančně podporována prostředky projektu FRMU č. MUNI/FR/0260/2014 „Pokročilé metody analýzy dat v neurovědách jako nový předmět na LF MU" Janoušová, Dušek: Pokročilé metody analýzy dat v neurovědách