M8DM1 Data mining I

Přírodovědecká fakulta
jaro 2023
Rozsah
2/2/0. 4 kr. (příf plus uk plus > 4). Ukončení: zk.
Vyučující
RNDr. Radim Navrátil, Ph.D. (přednášející)
Garance
doc. PaedDr. RNDr. Stanislav Katina, Ph.D.
Ústav matematiky a statistiky – Ústavy – Přírodovědecká fakulta
Kontaktní osoba: RNDr. Radim Navrátil, Ph.D.
Dodavatelské pracoviště: Ústav matematiky a statistiky – Ústavy – Přírodovědecká fakulta
Rozvrh
Čt 18:00–19:50 M1,01017
  • Rozvrh seminárních/paralelních skupin:
M8DM1/01: Út 8:00–9:50 MP1,01014, R. Navrátil
M8DM1/02: Út 10:00–11:50 MP1,01014, R. Navrátil
M8DM1/03: Út 16:00–17:50 MP2,01014a, R. Navrátil
Předpoklady
Matematická analýza (derivace, integrály, hledání maxima funkcí více proměnných).
Základy lineární algebry a maticového počtu.
Základní znalosti matematického modelování (popisná statistika, vizualizace dat).
Základní znalosti matematické statistiky (odhady, testy hypotéz).
Znalost lineárních regresních modelů.
Omezení zápisu do předmětu
Předmět je nabízen i studentům mimo mateřské obory.
Mateřské obory/plány
předmět má 6 mateřských oborů, zobrazit
Cíle předmětu
Data mining je osvědčeným způsobem, jakým z dat získat maximum znalostí pro správné rozhodování. Obsahem kurzu je úvod do problematiky data miningu, definice základních pojmů, představení a procvičení v praxi používaných metod a technik. Studenti v průběhu studia získají základní znalosti těchto metod. Na cvičeních se studenti seznámí se statistickým softwarem SAS, v němž se naučí vyložené metody aplikovat na reálná data.
Výstupy z učení
Na konci tohoto kurzu bude student ovládat základní metody data miningu:
(1) získání a přípravu dat;
(2) exploratorní analýzu a vizualizaci dat;
(3) techniky deskriptivního modelování;
(4) techniky prediktivního modelování.
Osnova
  • Historie data miningu, základní pojmy, přehled data miningového softwaru.
  • Organizace dat.
  • Příprava dat.
  • Průzkumová analýza, vizualizace dat, kontingenční tabulky.
  • Metody redukce dimenze: metoda hlavních komponent, faktorová analýza, mnohorozměrné škálování.
  • Analýza nákupního košíku.
  • Shluková analýza.
  • Lineární regrese, multikolinearita.
  • Logistická regrese.
  • Rozhodovací stromy.
Literatura
  • GIUDICI, Paolo. Applied data mining : statistical methods for business and industry. Chichester: Wiley, 2003, xii, 364. ISBN 0470846798. info
  • HAN, Jiawei a Micheline KAMBER. Data mining : concepts and techniques. 2nd ed. San Francisco, CA: Morgan Kaufmann, 2006, xxviii, 77. ISBN 1558609016. URL info
  • HAND, D. J., Heikki MANNILA a Padhraic SMYTH. Principles of data mining. Cambridge, Mass.: MIT Press, 2001, xxxii, 546. ISBN 026208290X. info
  • Business modeling and data mining. Edited by Dorian Pyle. Boston: Morgan Kaufmann Publishers, 2003, xxvi, 693. ISBN 155860653X. info
  • Data mining and knowledge discovery handbook. Edited by Oded Z. Maimon - Lior Rokach. New York: Springer, 2005, xxxv, 1383. ISBN 0387244352. info
Výukové metody
Přednášky - získání znalostí a technik data miningu.
Cvičení - osvojení technik data miningu pomocí zpracování dat ve statistickém softwaru SAS.
Metody hodnocení
Na cvičeních průběžný bonifikační test.
Ústní zkouška - k úspěšnému zvládnutí je třeba získat alespoň 50 procent možných bodů a správně vypracovat semestrální projekt.
Další komentáře
Studijní materiály
Předmět je vyučován každoročně.
Nachází se v prerekvizitách jiných předmětů
Předmět je zařazen také v obdobích jaro 2011 - akreditace, jaro 2011, jaro 2012, jaro 2012 - akreditace, jaro 2013, jaro 2014, jaro 2015, jaro 2016, jaro 2017, jaro 2018, jaro 2019, jaro 2020, jaro 2021, jaro 2022, jaro 2024, jaro 2025.