Bi7490 Prediktivní modelování

Přírodovědecká fakulta
jaro 2009
Rozsah
2/0/0. 2 kr. (plus ukončení). Doporučované ukončení: zk. Jiná možná ukončení: k.
Vyučující
prof. RNDr. Ladislav Dušek, Ph.D. (přednášející)
RNDr. Jiří Jarkovský, Ph.D. (přednášející)
Mgr. Klára Komprdová, Ph.D. (cvičící)
Garance
prof. RNDr. Ladislav Dušek, Ph.D.
RECETOX – Přírodovědecká fakulta
Kontaktní osoba: prof. RNDr. Ladislav Dušek, Ph.D.
Předpoklady
Bi5040 Biostatistika - základní kurz && Bi8600 Vícerozměrné statistické met.
Nutným předpokladem je dobrá znalost základní metodologie biostatistiky . Doporučeno je absolvování předmětu Vícerozměrných statických metod (Bi8600).
Omezení zápisu do předmětu
Předmět je nabízen i studentům mimo mateřské obory.
Mateřské obory/plány
předmět má 11 mateřských oborů, zobrazit
Cíle předmětu
Předmět je zaměřen na použití pokročilejších parametrických i neparametrických vícerozměrných metod pro prostorové a prediktivní modelování (od regrese až po nejnovější neparametrické metody). Důležitou částí bude srovnání výhod a nevýhod jednotlivých metod na různých datech (z hlediska statistického i prostorového rozložení). Každý blok bude doplněn praktickou částí na PC, kde bude možno si jednotlivé modely vyzkoušet v různých SW. Budou řešeny praktické úlohy na reálných datech z oblasti experimentální biologie, ekologie, chemie.
Osnova
  • Úvod do prediktivního modelování
  • Základy vícerozměrných metod
  • Parametrická a neparametrická vícerozměrná statistika – srovnání různých přístupů
  • Statistické SW pro vícerozměrnou analýzu dat – představení různých SW (STATISTIKA, R-project, MATLAB)
  • Parametrické a semiparametrické regresní metody (LM, GLM, GAM) – výběr linkovací funkce, multikolinearita, odhad parametrů modelu, hodnocení vhodnosti modelu
  • Lineární regrese
  • Zobecněné lineární modely
  • Zobecněné aditivní modely
  • Neparametrické metody I: Rozhodovací stromy – různé algoritmy tvorby stromů, stabilita stromu, krosvalidace
  • Klasifikační stromy
  • Regresní stromy
  • Neparametrické metody II: Náhodné lesy - nadstavba nad rozhodovacími stromy
  • Bagging, Boosting, Arcing, Random forest
  • Analýza prostorových dat
  • Prostorová autokorelace, Pseudoreplikace
  • Interpolace x Extrapolace
  • Použití parametrických a neparametrických metod pro prostorovou analýzu
  • Reálné aplikace vícerozměrných prediktivních metod:
  • srovnání prediktivních metod pro spojitá i kategoriální data (CCA, RDA, ENFA, regresní metody, stromy, lesy...)
  • Příklady: prediktivní modelování rozšíření druhů, výběr významných druhů a prediktorů pro různé habitaty, valenční křivky, typologické mapy, modelování koncentrací polutantů
Literatura
  • Lažanský et. Kol.: Umělá inteligence I.- IV.
  • Jan Klaschka, Emil Kotrč: Klasifikační a regresní lesy, sborník konference ROBUST 2004
  • Breiman, L. et al (1984) Classification and Regression Trees, Chapman and Hall
  • Hastie T., Tibshirani R., Friedman J.: The Elements of Statistical Learning, Data mining, Inference and Prediction, Springer 2003
  • Hengl T. (2007) A Practical Guide to Geostatistical Mapping of Environmental Variables
  • Lemeshow, Stanley & Hosmer, David W., Jr.. Logistic regression, p. 1-11. In Encyclopaedia of Biostatistics, 1st ed. [Online.] Wiley, London.
  • Breiman L. (1996) Bagging predictors. Machine Learning 24, pp.123 140.
  • McCullagh C. E., Searle S. R. (2001): Generalized, Linear, and Mixed Models, John Wiley & Sons.
  • Legendre P., Legendre L. (1998) Numerical ecology (second ed.), Elsevier, Amsterdam
  • McCullagh, P., Nelder, J.A. (1989): Generalized Linear Models (2nd edition), Chapman & Hall
  • Breiman L. (2001) Random forests. Machine Learning 45, pp. 5 32.
  • Harrel F. E., Jr. (2001): Regression Modeling Strategies. With Applications to Linear Models, Logistic Regression and Survival Analysis. Springer, Springer Series in Statistics, New York
Metody hodnocení
výuka bude probíhat blokově v počítačové učebně na Kamenici, zakončením předmětu bude písemná zkouška
Informace učitele
http://www.cba.muni.cz/vyuka/
Další komentáře
Předmět je dovoleno ukončit i mimo zkouškové období.
Předmět je vyučován každoročně.
Výuka probíhá každý týden.
Předmět je zařazen také v obdobích jaro 2008 - akreditace, jaro 2011 - akreditace, podzim 2002, podzim 2003, podzim 2004, jaro 2006, jaro 2007, jaro 2008, jaro 2010, jaro 2011, jaro 2012, jaro 2012 - akreditace, jaro 2013, podzim 2014, podzim 2015, podzim 2019, podzim 2020, podzim 2021.