PřF:Bi7490 Pokročilé neparametrické metod - Informace o předmětu
Bi7490 Pokročilé neparametrické metody
Přírodovědecká fakultapodzim 2020
- Rozsah
- 1/1/0. 3 kr. (plus ukončení). Doporučované ukončení: zk. Jiná možná ukončení: k.
- Vyučující
- Mgr. Klára Komprdová, Ph.D. (přednášející)
- Garance
- prof. RNDr. Ladislav Dušek, Ph.D.
RECETOX – Přírodovědecká fakulta
Kontaktní osoba: Mgr. Klára Komprdová, Ph.D.
Dodavatelské pracoviště: RECETOX – Přírodovědecká fakulta - Rozvrh
- Pá 12:00–13:50 D29/347-RCX2
- Předpoklady
- Bi5040 Biostatistika - základní kurz || Bi5045 Biostatistika pro mat. biol.
Nutným předpokladem je dobrá znalost základní metodologie biostatistiky. Doporučeno je absolvování předmětu Vícerozměrných statických metod (Bi8600). - Omezení zápisu do předmětu
- Předmět je nabízen i studentům mimo mateřské obory.
- Mateřské obory/plány
- Speciální biologie (program PřF, N-EXB)
- Speciální biologie (program PřF, N-EXB, směr Ekotoxikologie)
- Cíle předmětu
- Cílem předmětu je seznámit studenty se základními i pokročilými klasifikačními a regresními neparametrickými metodami a naučit je aplikovat tyto metody v různých SW pro tvorbu modelů (R-project, Matlab, Statistica).
- Výstupy z učení
- Na koncitohoto kurzu bude student schopen:
- kriticky zhodnotit datový soubor z hlediska rozložení dat
- používat klasifikační a regresní neparametrické metody
- validovat výstupy modelů pomocí různých validačních technik
- srovnat výsledky různých modelů
- osvojení si různých SW pro tvorbu modelů (R-project, Matlab, Statistica)
- srovnat výhody a nevýhod přednášených metod - Osnova
- 1. Úvod do neparametrických metod - Základy pojmy: proces modelování, typy proměnných, klasifikace modelů, klasifikace x regrese, parametrická a neparametrická vícerozměrná statistika – srovnání různých přístupů, představení různých SW (STATISTIKA, R-project, MATLAB).
- 2. Rozhodovací stromy I - Topologie stromu, kriteriální statistika, stabilita stromu, krosvalidace, měření přesnosti stromu, prořezávání, zástupné proměnné, klasifikační x regresní stromy, algoritmus typu CART, výhody x nevýhody rozhodovacích stromů.
- 3. Rozhodovací stromy II - Další algoritmy tvorby stromů: Patient Rule Induction Method (PRIM), Chi-squared Automatic Interaction Detector (CHAID), Quick, Unbiased and Efficient Statistical Tree (QUEST), Hierarchical Mixture of Experts (HME), Multivariate Adaptive Regression Splines (MARS).
- 4. Náhodné lesy I - Nadstavba nad rozhodovacími stromy, tvorba validace lesů, různé typy lesů Bagging, Boosting, Arcing.
- 5. Náhodné lesy II - Random forest - měření významnosti proměnných, efekt proměnných na predikci, shlukování, detekce odlehlých hodnot, predikce.
- 6. Měření přesnosti modelů I - Matice záměn, „treshold dependent“ indexy: Normalized mutual information (MI), Average of mutual information (AMI), Celková přesnost (OA), Cohenovo kappa, Tau a další.
- 7. Měření přesnosti modelů II - „Treshold independent“ indexy, specificita x senzitivita, Receiver Operating Characteristic curve (ROC) , Area Under the ROC Curve (AUC), koeficient determinace R2, deviance D2, maximum overall accuracy (MXOA), maximální kappa (MXKp), Mean cross entropy (MXE), Mean absolute prediction error (MAPE) a další.
- 8. Validační techniky I - Validační, testovací a trénovací soubor, celková obecná chyba modelu, analytické metody - Akaikovo informační kritérium (AIC), Bayesovo informační kritérium (BIC), Minimum description length (MDL), Structural risk minimization (SRM).
- 9. Validační techniky II - Metoda Monte Carlo, metody založeny na opakovaném použití pozorování: krosvalidace, jednoduché rozdělení, bootstrap a jacknife.
- 10. Příklady použití neparametrických metod - Prediktivní modelování rozšíření druhů, výběr významných druhů a prediktorů pro různé habitaty, valenční křivky, typologické mapy, modelování koncentrací polutantů.
- Literatura
- Legendre P., Legendre L. (1998) Numerical ecology (second ed.), Elsevier, Amsterdam
- Jan Klaschka, Emil Kotrč: Klasifikační a regresní lesy, sborník konference ROBUST 2004
- Breiman L. (2001) Random forests. Machine Learning 45, pp. 5 32.
- Lažanský et. Kol.: Umělá inteligence I.- IV.
- Hastie T., Tibshirani R., Friedman J.: The Elements of Statistical Learning, Data mining, Inference and Prediction, Springer 2003
- Breiman, L. et al (1984) Classification and Regression Trees, Chapman and Hall
- Breiman L. (1996) Bagging predictors. Machine Learning 24, pp.123 140.
- McCullagh C. E., Searle S. R. (2001): Generalized, Linear, and Mixed Models, John Wiley & Sons.
- MANLY, Bryan F. J. Randomization, bootstrap and Monte Carlo methods in biology. 3rd ed. Boca Raton, Fla.: Chapman & Hall, 2007, 455 s. ISBN 9781584885412. info
- EDGINGTON, Eugene S. a Patrick ONGHENA. Randomization tests. 4th ed. Boca Raton, FL: Chapman & Hall/CRC, 2007, 345 s. ISBN 9781584885894. info
- Výukové metody
- Výuka probíhá formou powerpointových prezentací. Každý blok bude doplněn praktickou částí na PC, kde bude možno si jednotlivé modely vyzkoušet v různých SW. Budou řešeny praktické úlohy na reálných datech z oblasti experimentální biologie, ekologie, chemie. Student vypracuje během semestru projekt na jedno ze zadaných témat.
- Metody hodnocení
- Zakončením předmětu bude písemná zkouška zaměřená na ověření teoretické pochopení probíraných metod a hodnocení projektu.
- Informace učitele
- http://www.iba.muni.cz/vyuka/
- Další komentáře
- Studijní materiály
Předmět je dovoleno ukončit i mimo zkouškové období.
Předmět je vyučován každoročně.
- Statistika zápisu (podzim 2020, nejnovější)
- Permalink: https://is.muni.cz/predmet/sci/podzim2020/Bi7490