PřF:Bi7490 Pokročilé neparametrické metod - Informace o předmětu
Bi7490 Pokročilé neparametrické metody
Přírodovědecká fakultajaro 2013
- Rozsah
- 2/1/0. 3 kr. (plus ukončení). Doporučované ukončení: zk. Jiná možná ukončení: k.
- Vyučující
- Mgr. Klára Komprdová, Ph.D. (přednášející)
- Garance
- prof. RNDr. Ladislav Dušek, Ph.D.
RECETOX – Přírodovědecká fakulta
Kontaktní osoba: Mgr. Klára Komprdová, Ph.D.
Dodavatelské pracoviště: RECETOX – Přírodovědecká fakulta - Rozvrh
- St 13:00–15:50 D29/347-RCX2
- Předpoklady
- Bi5040 Biostatistika - základní kurz || Bi5045 Biostatistika pro mat. biol.
Nutným předpokladem je dobrá znalost základní metodologie biostatistiky . Doporučeno je absolvování předmětu Vícerozměrných statických metod (Bi8600). - Omezení zápisu do předmětu
- Předmět je nabízen i studentům mimo mateřské obory.
- Mateřské obory/plány
- Speciální biologie (program PřF, N-EXB)
- Speciální biologie (program PřF, N-EXB, směr Ekotoxikologie)
- Cíle předmětu
- Na koncitohoto kurzu bude student schopen:
- kriticky zhodnotit datový soubor z hlediska rozložení dat
- používat klasifikační a regresní neparametrické metody
- validovat výstupy modelů pomocí různých validačních technik
- srovnat výsledky různých modelů
- osvojení si různých SW pro tvorbu modelů (R-project, Matlab, Statistica)
- srovnat výhody a nevýhod přednášených metod - Osnova
- Úvod do neparametrických metod
- Základy pojmy: proces modelování, typy proměnných, klasifikace modelů, klasifikace x regrese, parametrická a neparametrická vícerozměrná statistika – srovnání různých přístupů, představení různých SW (STATISTIKA, R-project, MATLAB)
- Rozhodovací stromy I
- topologie stromu, kriteriální statistika, stabilita stromu, krosvalidace, měření přesnosti stromu, prořezávání, zástupné proměnné, klasifikační x regresní stromy, algoritmus typu CART, výhody x nevýhody rozhodovacích stromů
- Rozhodovací stromy II
- další algoritmy tvorby stromů: Patient Rule Induction Method (PRIM), Chi-squared Automatic Interaction Detector (CHAID), Quick, Unbiased and Efficient Statistical Tree (QUEST), Hierarchical Mixture of Experts (HME), Multivariate Adaptive Regression Splines (MARS)
- Náhodné lesy I
- nadstavba nad rozhodovacími stromy, tvorba validace lesů, různé typy lesů Bagging, Boosting, Arcing
- Náhodné lesy II
- Random forest - měření významnosti proměnných, efekt proměnných na predikci, shlukování, detekce odlehlých hodnot, predikce
- Měření přesnosti modelů I
- matice záměn, „treshold dependent“ indexy: Normalized mutual information (MI), Average of mutual information (AMI), Celková přesnost (OA), Cohenovo kappa, Tau a další
- Měření přesnosti modelů II
- „treshold independent“ idexy, specificita x senzitivita, Receiver Operating Characteristic curve (ROC) , Area Under the ROC Curve (AUC), koeficient determinace R2, deviance D2, maximum overall accuracy (MXOA), maximální kappa (MXKp), Mean cross entropy (MXE), Mean absolute prediction error (MAPE) a další
- Validační techniky I
- validační, testovací a trénovací soubor, celková obecná chyba modelu, analytické metody - Akaikovo informační kritérium (AIC), Bayesovo informační kritérium (BIC), Minimum description length (MDL), Structural risk minimization (SRM)
- Validační techniky II
- metoda Monte Carlo, metody založeny na opakovaném použití pozorování: krosvalidace, jednoduché rozdělení, bootstrap a jacknife
- Příklady použití neparametrických metod
- prediktivní modelování rozšíření druhů, výběr významných druhů a prediktorů pro různé habitaty, valenční křivky, typologické mapy, modelování koncentrací polutantů
- Literatura
- Breiman L. (1996) Bagging predictors. Machine Learning 24, pp.123 140.
- Jan Klaschka, Emil Kotrč: Klasifikační a regresní lesy, sborník konference ROBUST 2004
- Legendre P., Legendre L. (1998) Numerical ecology (second ed.), Elsevier, Amsterdam
- Breiman, L. et al (1984) Classification and Regression Trees, Chapman and Hall
- Hastie T., Tibshirani R., Friedman J.: The Elements of Statistical Learning, Data mining, Inference and Prediction, Springer 2003
- McCullagh C. E., Searle S. R. (2001): Generalized, Linear, and Mixed Models, John Wiley & Sons.
- Breiman L. (2001) Random forests. Machine Learning 45, pp. 5 32.
- Lažanský et. Kol.: Umělá inteligence I.- IV.
- MANLY, Bryan F. J. Randomization, bootstrap and Monte Carlo methods in biology. 3rd ed. Boca Raton, Fla.: Chapman & Hall, 2007, 455 s. ISBN 9781584885412. info
- EDGINGTON, Eugene S. a Patrick ONGHENA. Randomization tests. 4th ed. Boca Raton, FL: Chapman & Hall/CRC, 2007, 345 s. ISBN 9781584885894. info
- Výukové metody
- Výuka probíhá formou powerpointových prezentací. Každý blok bude doplněn praktickou částí na PC, kde bude možno si jednotlivé modely vyzkoušet v různých SW. Budou řešeny praktické úlohy na reálných datech z oblasti experimentální biologie, ekologie, chemie. Student vypracuje během semestru projekt na jedno ze zadaných témat.
- Metody hodnocení
- Zakončením předmětu bude písemná zkouška zaměřená na ověření teoretické pochopení probíraných metod a hodnocení projektu.
- Informace učitele
- http://www.cba.muni.cz/vyuka/
- Další komentáře
- Studijní materiály
Předmět je dovoleno ukončit i mimo zkouškové období.
Předmět je vyučován každoročně.
- Statistika zápisu (jaro 2013, nejnovější)
- Permalink: https://is.muni.cz/predmet/sci/jaro2013/Bi7490