M8DM1 Data mining I

Přírodovědecká fakulta
jaro 2018
Rozsah
2/2/0. 4 kr. (příf plus uk plus > 4). Ukončení: zk.
Vyučující
RNDr. Radim Navrátil, Ph.D. (přednášející)
Mgr. Jan Böhm (cvičící)
Garance
doc. PaedDr. RNDr. Stanislav Katina, Ph.D.
Ústav matematiky a statistiky – Ústavy – Přírodovědecká fakulta
Kontaktní osoba: RNDr. Radim Navrátil, Ph.D.
Dodavatelské pracoviště: Ústav matematiky a statistiky – Ústavy – Přírodovědecká fakulta
Rozvrh
St 8:00–9:50 M1,01017
  • Rozvrh seminárních/paralelních skupin:
M8DM1/T01: Po 19. 2. až St 23. 5. Po 14:45–16:20 115, J. Böhm, Nepřihlašuje se. Určeno pro studenty se zdravotním postižením.
M8DM1/01: Čt 12:00–13:50 MP1,01014, R. Navrátil
M8DM1/02: Čt 8:00–9:50 MP1,01014, R. Navrátil
M8DM1/03: Čt 18:00–19:50 MP1,01014, J. Böhm
Předpoklady
Základy lineární algebry a maticového počtu.
Základní znalosti matematického modelování.
Základní znalosti matematické statistiky.
Znalost lineárních regresních modelů.
Omezení zápisu do předmětu
Předmět je nabízen i studentům mimo mateřské obory.
Mateřské obory/plány
Cíle předmětu
Data mining je osvědčeným způsobem, jakým z dat získat maximum znalostí pro správné rozhodování. Obsahem kurzu je úvod do problematiky data miningu, definice základních pojmů, představení a procvičení v praxi používaných metod a technik. Studenti v průběhu studia získají základní znalosti těchto metod. Na cvičeních se studenti seznámí se statistickým softwarem SAS, v němž se naučí vyložené metody aplikovat na reálná data.
Výstupy z učení
Na konci tohoto kurzu bude student ovládat základní metody data miningu: (1) získání a příprava dat; (2) exploratorní analýzu a vizualizaci dat; (3) techniky deskriptivního modelování; (4) techniky prediktivního modelování.
Osnova
  • Historie data miningu, základní pojmy, přehled data miningového softwaru.
  • Organizace dat.
  • Příprava dat.
  • Průzkumová analýza, vizualizace dat, kontingenční tabulky.
  • Metody redukce dimenze: metoda hlavních komponent, faktorová analýza, mnohorozměrné škálování.
  • Analýza nákupního košíku.
  • Shluková analýza.
  • Lineární regrese, porušení předpokladů, robustifikace.
  • Logistická regrese. Evaluace modelu – LC (ROC), Gini, KS, Lift.
  • Rozhodovací stromy.
Literatura
  • GIUDICI, Paolo. Applied data mining : statistical methods for business and industry. Chichester: Wiley, 2003, xii, 364. ISBN 0470846798. info
  • HAN, Jiawei a Micheline KAMBER. Data mining : concepts and techniques. 2nd ed. San Francisco, CA: Morgan Kaufmann, 2006, xxviii, 77. ISBN 1558609016. URL info
  • HAND, D. J., Heikki MANNILA a Padhraic SMYTH. Principles of data mining. Cambridge, Mass.: MIT Press, 2001, xxxii, 546. ISBN 026208290X. info
  • Business modeling and data mining. Edited by Dorian Pyle. Boston: Morgan Kaufmann Publishers, 2003, xxvi, 693. ISBN 155860653X. info
  • Data mining and knowledge discovery handbook. Edited by Oded Z. Maimon - Lior Rokach. New York: Springer, 2005, xxxv, 1383. ISBN 0387244352. info
Výukové metody
Přednášky - získání znalostí a technik data miningu. Cvičení - osvojení technik data miningu pomocí zpracování dat ve statistickém softwaru SAS.
Metody hodnocení
Na cvičeních jeden průběžný test u počítače - k úspěšnému zvládnutí je potřeba dosáhnout alespoň poloviny bodů. Ústní zkouška - k úspěšnému zvládnutí je třeba získat alespoň 50 procent možných bodů a správně vypracovat semestrální projekt.
Další komentáře
Studijní materiály
Předmět je vyučován každoročně.
Nachází se v prerekvizitách jiných předmětů
Předmět je zařazen také v obdobích jaro 2011 - akreditace, jaro 2011, jaro 2012, jaro 2012 - akreditace, jaro 2013, jaro 2014, jaro 2015, jaro 2016, jaro 2017, jaro 2019, jaro 2020, jaro 2021, jaro 2022, jaro 2023, jaro 2024, jaro 2025.