Bi7490 Pokročilé neparametrické metody

Přírodovědecká fakulta
jaro 2011
Rozsah
2/1/0. 3 kr. (plus ukončení). Doporučované ukončení: zk. Jiná možná ukončení: k.
Vyučující
Mgr. Klára Komprdová, Ph.D. (cvičící)
prof. Ing. Jiří Holčík, CSc. (náhr. zkoušející)
Garance
prof. RNDr. Ladislav Dušek, Ph.D.
RECETOX – Přírodovědecká fakulta
Kontaktní osoba: prof. RNDr. Ladislav Dušek, Ph.D.
Rozvrh
St 17:00–19:50 F01B1/709
Předpoklady
Bi5040 Biostatistika - základní kurz && Bi8600 Vícerozměrné statistické met.
Nutným předpokladem je dobrá znalost základní metodologie biostatistiky . Doporučeno je absolvování předmětu Vícerozměrných statických metod (Bi8600).
Omezení zápisu do předmětu
Předmět je nabízen i studentům mimo mateřské obory.
Mateřské obory/plány
Cíle předmětu
Na koncitohoto kurzu bude student schopen:
- kriticky zhodnotit datový soubor z hlediska rozložení dat
- používat klasifikační a regresní neparametrické metody
- validovat výstupy modelů pomocí různých validačních technik
- srovnat výsledky různých modelů
- osvojení si různých SW pro tvorbu modelů (R-project, Matlab, Statistica)
- srovnat výhody a nevýhod přednášených metod
Osnova
  • Úvod do neparametrických metod
  • Základy pojmy: proces modelování, typy proměnných, klasifikace modelů, klasifikace x regrese, parametrická a neparametrická vícerozměrná statistika – srovnání různých přístupů, představení různých SW (STATISTIKA, R-project, MATLAB)

  • Rozhodovací stromy I

  • topologie stromu, kriteriální statistika, stabilita stromu, krosvalidace, měření přesnosti stromu, prořezávání, zástupné proměnné, klasifikační x regresní stromy, algoritmus typu CART, výhody x nevýhody rozhodovacích stromů

  • Rozhodovací stromy II

  • další algoritmy tvorby stromů: Patient Rule Induction Method (PRIM), Chi-squared Automatic Interaction Detector (CHAID), Quick, Unbiased and Efficient Statistical Tree (QUEST), Hierarchical Mixture of Experts (HME), Multivariate Adaptive Regression Splines (MARS)

  • Náhodné lesy I

  • nadstavba nad rozhodovacími stromy, tvorba validace lesů, různé typy lesů Bagging, Boosting, Arcing

  • Náhodné lesy II

  • Random forest - měření významnosti proměnných, efekt proměnných na predikci, shlukování, detekce odlehlých hodnot, predikce

  • Měření přesnosti modelů I

  • matice záměn, „treshold dependent“ indexy: Normalized mutual information (MI), Average of mutual information (AMI), Celková přesnost (OA), Cohenovo kappa, Tau a další

  • Měření přesnosti modelů II

  • „treshold independent“ idexy, specificita x senzitivita, Receiver Operating Characteristic curve (ROC) , Area Under the ROC Curve (AUC), koeficient determinace R2, deviance D2, maximum overall accuracy (MXOA), maximální kappa (MXKp), Mean cross entropy (MXE), Mean absolute prediction error (MAPE) a další

  • Validační techniky I

  • validační, testovací a trénovací soubor, celková obecná chyba modelu, analytické metody - Akaikovo informační kritérium (AIC), Bayesovo informační kritérium (BIC), Minimum description length (MDL), Structural risk minimization (SRM)

  • Validační techniky II

  • metoda Monte Carlo, metody založeny na opakovaném použití pozorování: krosvalidace, jednoduché rozdělení, bootstrap a jacknife

  • Příklady použití neparametrických metod

  • prediktivní modelování rozšíření druhů, výběr významných druhů a prediktorů pro různé habitaty, valenční křivky, typologické mapy, modelování koncentrací polutantů

Literatura
  • Lažanský et. Kol.: Umělá inteligence I.- IV.
  • Legendre P., Legendre L. (1998) Numerical ecology (second ed.), Elsevier, Amsterdam
  • Jan Klaschka, Emil Kotrč: Klasifikační a regresní lesy, sborník konference ROBUST 2004
  • Breiman, L. et al (1984) Classification and Regression Trees, Chapman and Hall
  • Hastie T., Tibshirani R., Friedman J.: The Elements of Statistical Learning, Data mining, Inference and Prediction, Springer 2003
  • Breiman L. (2001) Random forests. Machine Learning 45, pp. 5 32.
  • Breiman L. (1996) Bagging predictors. Machine Learning 24, pp.123 140.
  • McCullagh C. E., Searle S. R. (2001): Generalized, Linear, and Mixed Models, John Wiley & Sons.
  • MANLY, Bryan F. J. Randomization, bootstrap and Monte Carlo methods in biology. 3rd ed. Boca Raton, Fla.: Chapman & Hall, 2007, 455 s. ISBN 9781584885412. info
  • EDGINGTON, Eugene S. a Patrick ONGHENA. Randomization tests. 4th ed. Boca Raton, FL: Chapman & Hall/CRC, 2007, 345 s. ISBN 9781584885894. info
Výukové metody
Výuka probíhá formou powerpointových prezentací. Každý blok bude doplněn praktickou částí na PC, kde bude možno si jednotlivé modely vyzkoušet v různých SW. Budou řešeny praktické úlohy na reálných datech z oblasti experimentální biologie, ekologie, chemie. Student vypracuje během semestru projekt na jedno ze zadaných témat.
Metody hodnocení
Zakončením předmětu bude písemná zkouška zaměřená na ověření teoretické pochopení probíraných metod a hodnocení projektu.
Informace učitele
http://www.cba.muni.cz/vyuka/
Další komentáře
Studijní materiály
Předmět je dovoleno ukončit i mimo zkouškové období.
Předmět je vyučován každoročně.
Předmět je zařazen také v obdobích jaro 2008 - akreditace, jaro 2011 - akreditace, podzim 2002, podzim 2003, podzim 2004, jaro 2006, jaro 2007, jaro 2008, jaro 2009, jaro 2010, jaro 2012, jaro 2012 - akreditace, jaro 2013, podzim 2014, podzim 2015, podzim 2019, podzim 2020, podzim 2021.