DSAN02 Pokročilé metody analýzy dat v neurovědách

Lékařská fakulta
jaro 2016
Rozsah
8 x 3 hod. 5 kr. Ukončení: k.
Vyučující
prof. RNDr. Ladislav Dušek, Ph.D. (přednášející)
RNDr. Eva Koriťáková, Ph.D. (přednášející)
RNDr. Simona Littnerová, Ph.D. (cvičící)
Mgr. et Mgr. Petr Dluhoš (cvičící)
Garance
prof. RNDr. Ladislav Dušek, Ph.D.
Institut biostatistiky a analýz – Jiná pracoviště pro vzdělávací a vědecko-výzkumnou činnost – Lékařská fakulta
Kontaktní osoba: prof. RNDr. Ladislav Dušek, Ph.D.
Dodavatelské pracoviště: Institut biostatistiky a analýz – Jiná pracoviště pro vzdělávací a vědecko-výzkumnou činnost – Lékařská fakulta
Předpoklady
DSAN01 Analýza dat pro Neurovědy
Předpokladem je znalost základních metod a principů biostatistiky a analýzy dat. Doporučuje se předchozí absolvování kurzu DSAN01 Analýza dat pro Neurovědy.
Omezení zápisu do předmětu
Předmět je určen pouze studentům mateřských oborů.

Předmět si smí zapsat nejvýše 20 stud.
Momentální stav registrace a zápisu: zapsáno: 1/20, pouze zareg.: 0/20
Mateřské obory/plány
Cíle předmětu
Cílem předmětu je prohloubit teoretické a praktické znalosti analýzy dat jednotlivých studentů o pochopení a osvojení principů pokročilých vícerozměrných metod analýzy dat s ohledem na specifika datových souborů a výpočtů z oblasti neurovědního výzkumu. Důraz bude kladen především na správnou aplikaci těchto metod v praxi a na interpretaci dosažených výsledků. Probíraná teorie vždy bude následována praktickými příklady s využitím software SPSS, R a MATLAB, které jsou na Masarykově univerzitě volně dostupné. Po absolvování předmětu budou studenti schopni:
• správně připravit data pro vícerozměrnou analýzu
• korektně vícerozměrná data popsat a vizualizovat
• zvolit vhodnou metriku vzdálenosti či podobnosti
• vybrat a aplikovat adekvátní shlukovací metodu
• redukovat a transformovat vícerozměrná data pomocí metod ordinační analýzy
• klasifikovat data pomocí různých metod diskriminační analýzy
• vyhodnotit úspěšnost klasifikace
• interpretovat výsledky získané prostřednictvím pokročilých vícerozměrných metod
Osnova
  • 1. Úvod do pokročilé vícerozměrné analýzy dat: Význam a cíle vícerozměrné analýzy dat. Příklady využití vícerozměrných analýz. Datová matice a značení. Tabulkové a grafické zpracování vícerozměrných dat.
  • 2. Vícerozměrné statistické testy a rozložení: Vícerozměrné charakteristiky – vícerozměrný průměr, kovarianční matice, matice korelačních koeficientů. Vícerozměrné normální rozdělení. Vícerozměrný t-test. Vícerozměrná analýza rozptylu. Transformace a jiné úpravy vícerozměrných dat.
  • 3. Podobnosti a vzdálenosti ve vícerozměrném prostoru: Metriky pro určení vzdálenosti – Euklidova, Hammingova, Mahalanobisova apod. Metriky pro určení podobnosti – Tanimotův, Jaccardův či Sokalův-Michenerův koeficient podobnosti. Asociační matice.
  • 4. Shluková analýza: Podstata a cíle shlukové analýzy dat. Shluková analýza hierarchická – hierarchické aglomerativní shlukování (metoda nejbližšího souseda (nearest neighbor clustering), metoda nejvzdálenějšího souseda (furthest neighbor clustering), metoda průměrné vazby (average linkage clustering), centroidová metoda (centroid method), Wardova metoda (Ward‘s method)), hierarchické divizivní shlukování. Shluková analýza nehierarchická – metoda k-průměrů (k-means clustering), metoda x průměrů (x-means clustering), metoda x-medoidů (partitioning around medoids). Identifikace optimálního počtu shluků.
  • 5. Ordinační analýzy I: Principy redukce dimenzionality dat. Selekce a extrakce proměnných. Analýza hlavních komponent (principal component analysis, PCA). Faktorová analýza (factor analysis, FA).
  • 6. Ordinační analýzy II: Analýza nezávislých komponent (independent component analysis, ICA). Přehled dalších metod ordinační analýzy – korespondenční analýza (correspondence analysis, CA), vícerozměrné škálování (multidimensional scaling, MDS), redundanční analýza (redundancy analysis, RDA), kanonická korelační analýza (canonical correlation analysis, CCorA).
  • 7. Klasifikace I: Principy a cíle klasifikace. Diskriminační analýza pomocí diskriminačních funkcí – Bayesův klasifikátor (Bayes classifier). Diskriminační analýza pomocí minimální vzdálenosti. Diskriminační analýza pomocí hranic – Fisherova lineární diskriminační analýza (Fisher’s linear discriminant analysis, LDA). Souvislost lineární diskriminační analýzy s logistickou regresí.
  • 8. Klasifikace II: Diskriminační analýza pomocí hranic – metoda podpůrných vektorů (support vector machines, SVM). Přehled dalších klasifikačních metod – klasifikační stromy a lesy, neuronové sítě. Hodnocení úspěšnosti klasifikace – křížová validace (cross-validation), srovnání úspěšnosti klasifikace s náhodnou klasifikací, srovnání dvou a více klasifikátorů.
Literatura
  • • THEODORIDIS, S. et al., 2010: Introduction to pattern recognition: a MATLAB approach. Academic Press, Amsterdam, 219 pp., ISBN 9780123744869
  • • DUDA R. O., HART P. E., STORK D. G., 2000: Pattern Classification. Wiley-Interscience, New York, 680 pp., ISBN 0471056693
  • • HEBÁK, Petr. Vícerozměrné statistické metody (1). Informatorium, Praha. 2004, 239 s., ISBN 8073330253
  • • JOHNSON, R. et al., 2007: Applied multivariate statistical analysis. 6th ed. Prentice Hall, Upper Saddle River, N.J., 773 pp., ISBN 9780135143506
  • • BISHOP C., 2006: Pattern Recognition and Machine Learning. Springer, New York, 738 pp., ISBN 0387310738
Výukové metody
Výuka je interaktivní, přímo založená na řešení konkrétních příkladů a problémů analýzy dat s využitím pokročilých vícerozměrných metod. Teoretické podklady i řešené příklady budou studentům k dispozici předem. Studenti si budou moci připravit k řešení své vlastní problémy s analýzou dat (PhD práce, SVOČ, výzkumné práce), které budou postupně každý výukový blok rozebírány a případně i přímo řešeny.
Metody hodnocení
Předmět je ukončen kolokviem sestávajícím se z analýzy praktických příkladů na počítači testujících získané dovednosti analýzy dat pomocí pokročilých vícerozměrných metod.
Informace učitele
Kurz Pokročilé metody analýzy dat v neurovědách bude probíhat v tříhodinových blocích v průběhu 8 týdnů každou středu od 2. 3. do 27. 4. 2016 kromě 6. 4. 2016 vždy od 16:00 do 19:00 v počítačové učebně IBA LF MU na Kamenici 126/3. Studijní materiály budou před každým blokem vystaveny v is.muni a v průběhu výuky budou k dispozici i v tištěné podobě.
Data Analysis in Neuroscience will be held in 3-hour blocks during 8 weeks from March 2 to April 27, 2016 except for April 6, 2016 from 16:00 to 19:00 in the computer classroom of IBA LF MU, Kamenice 126/3. Study materials will be available before each lecture in is.muni. Students will also receive printed materials in the beginning of every lecture.
Další komentáře
Studijní materiály
Předmět je vyučován každoročně.
Výuka probíhá blokově.
Předmět je zařazen také v obdobích jaro 2015, jaro 2017, jaro 2018, jaro 2019, jaro 2020.