Bi7490 Pokročilé neparametrické metody

Přírodovědecká fakulta
jaro 2012 - akreditace

Údaje z období jaro 2012 - akreditace se nezveřejňují

Rozsah
2/1/0. 3 kr. (plus ukončení). Doporučované ukončení: zk. Jiná možná ukončení: k.
Vyučující
Mgr. Klára Komprdová, Ph.D. (přednášející)
prof. Ing. Jiří Holčík, CSc. (přednášející)
prof. RNDr. Ladislav Dušek, Ph.D. (přednášející)
Garance
prof. RNDr. Ladislav Dušek, Ph.D.
RECETOX – Přírodovědecká fakulta
Kontaktní osoba: prof. RNDr. Ladislav Dušek, Ph.D.
Dodavatelské pracoviště: RECETOX – Přírodovědecká fakulta
Předpoklady
Bi5040 Biostatistika - základní kurz && Bi8600 Vícerozměrné statistické met.
Nutným předpokladem je dobrá znalost základní metodologie biostatistiky . Doporučeno je absolvování předmětu Vícerozměrných statických metod (Bi8600).
Omezení zápisu do předmětu
Předmět je nabízen i studentům mimo mateřské obory.
Mateřské obory/plány
Cíle předmětu
Na koncitohoto kurzu bude student schopen:
- kriticky zhodnotit datový soubor z hlediska rozložení dat
- používat klasifikační a regresní neparametrické metody
- validovat výstupy modelů pomocí různých validačních technik
- srovnat výsledky různých modelů
- osvojení si různých SW pro tvorbu modelů (R-project, Matlab, Statistica)
- srovnat výhody a nevýhod přednášených metod
Osnova
  • Úvod do neparametrických metod
  • Základy pojmy: proces modelování, typy proměnných, klasifikace modelů, klasifikace x regrese, parametrická a neparametrická vícerozměrná statistika – srovnání různých přístupů, představení různých SW (STATISTIKA, R-project, MATLAB)

  • Rozhodovací stromy I

  • topologie stromu, kriteriální statistika, stabilita stromu, krosvalidace, měření přesnosti stromu, prořezávání, zástupné proměnné, klasifikační x regresní stromy, algoritmus typu CART, výhody x nevýhody rozhodovacích stromů

  • Rozhodovací stromy II

  • další algoritmy tvorby stromů: Patient Rule Induction Method (PRIM), Chi-squared Automatic Interaction Detector (CHAID), Quick, Unbiased and Efficient Statistical Tree (QUEST), Hierarchical Mixture of Experts (HME), Multivariate Adaptive Regression Splines (MARS)

  • Náhodné lesy I

  • nadstavba nad rozhodovacími stromy, tvorba validace lesů, různé typy lesů Bagging, Boosting, Arcing

  • Náhodné lesy II

  • Random forest - měření významnosti proměnných, efekt proměnných na predikci, shlukování, detekce odlehlých hodnot, predikce

  • Měření přesnosti modelů I

  • matice záměn, „treshold dependent“ indexy: Normalized mutual information (MI), Average of mutual information (AMI), Celková přesnost (OA), Cohenovo kappa, Tau a další

  • Měření přesnosti modelů II

  • „treshold independent“ idexy, specificita x senzitivita, Receiver Operating Characteristic curve (ROC) , Area Under the ROC Curve (AUC), koeficient determinace R2, deviance D2, maximum overall accuracy (MXOA), maximální kappa (MXKp), Mean cross entropy (MXE), Mean absolute prediction error (MAPE) a další

  • Validační techniky I

  • validační, testovací a trénovací soubor, celková obecná chyba modelu, analytické metody - Akaikovo informační kritérium (AIC), Bayesovo informační kritérium (BIC), Minimum description length (MDL), Structural risk minimization (SRM)

  • Validační techniky II

  • metoda Monte Carlo, metody založeny na opakovaném použití pozorování: krosvalidace, jednoduché rozdělení, bootstrap a jacknife

  • Příklady použití neparametrických metod

  • prediktivní modelování rozšíření druhů, výběr významných druhů a prediktorů pro různé habitaty, valenční křivky, typologické mapy, modelování koncentrací polutantů

Literatura
  • Breiman L. (2001) Random forests. Machine Learning 45, pp. 5 32.
  • Lažanský et. Kol.: Umělá inteligence I.- IV.
  • Legendre P., Legendre L. (1998) Numerical ecology (second ed.), Elsevier, Amsterdam
  • Breiman, L. et al (1984) Classification and Regression Trees, Chapman and Hall
  • Hastie T., Tibshirani R., Friedman J.: The Elements of Statistical Learning, Data mining, Inference and Prediction, Springer 2003
  • Jan Klaschka, Emil Kotrč: Klasifikační a regresní lesy, sborník konference ROBUST 2004
  • Breiman L. (1996) Bagging predictors. Machine Learning 24, pp.123 140.
  • McCullagh C. E., Searle S. R. (2001): Generalized, Linear, and Mixed Models, John Wiley & Sons.
  • MANLY, Bryan F. J. Randomization, bootstrap and Monte Carlo methods in biology. 3rd ed. Boca Raton, Fla.: Chapman & Hall, 2007, 455 s. ISBN 9781584885412. info
  • EDGINGTON, Eugene S. a Patrick ONGHENA. Randomization tests. 4th ed. Boca Raton, FL: Chapman & Hall/CRC, 2007, 345 s. ISBN 9781584885894. info
Výukové metody
Výuka probíhá formou powerpointových prezentací. Každý blok bude doplněn praktickou částí na PC, kde bude možno si jednotlivé modely vyzkoušet v různých SW. Budou řešeny praktické úlohy na reálných datech z oblasti experimentální biologie, ekologie, chemie. Student vypracuje během semestru projekt na jedno ze zadaných témat.
Metody hodnocení
Zakončením předmětu bude písemná zkouška zaměřená na ověření teoretické pochopení probíraných metod a hodnocení projektu.
Informace učitele
http://www.cba.muni.cz/vyuka/
Další komentáře
Předmět je dovoleno ukončit i mimo zkouškové období.
Předmět je vyučován každoročně.
Výuka probíhá každý týden.
Předmět je zařazen také v obdobích jaro 2008 - akreditace, jaro 2011 - akreditace, podzim 2002, podzim 2003, podzim 2004, jaro 2006, jaro 2007, jaro 2008, jaro 2009, jaro 2010, jaro 2011, jaro 2012, jaro 2013, podzim 2014, podzim 2015, podzim 2019, podzim 2020, podzim 2021.