Základní informace
RNDr. Radim Navrátil, Ph.D.
Základní informace
Info
Term
Spring 2023

Aktuálně

Poslední, třináctá, přednáška proběhne on-line v pravidelném čase, ve čtvrtek 11. května od 18:00 přes Teams. Odkaz na schůzku zde: https://teams.microsoft.com/l/meetup-join/19%3ameeting_ZGY5NGQwMGMtNDUwNS00NzE5LWFiZTEtNmRjNDQ5NzM4MTEz%40thread.v2/0?context=%7b%22Tid%22%3a%2211904f23-f0db-4cdc-96f7-390bd55fcee8%22%2c%22Oid%22%3a%229d6d0e09-9eb4-4bc4-b5f0-42d3796e7c23%22%7d

V týdnu 15. - 19. května již nebudou cvičení, ani přednáška.


Sylabus

  • Úvod do data miningu
  • Organizace dat, databázové systémy, SQL
  • Příprava, čištění a předzpracování dat
  • Metoda hlavních komponent
  • Faktorová analýza, mnohorozměrné škálování
  • Exploratorní analýza dat
  • Kontingenční tabulky, korespondenční analýza
  • Asociační analýza (analýza nákupního košíku)
  • Shluková analýza
  • Lineární regrese (opakování a rozšíření)
  • Logistická regrese
  • Rozhodovací stromy
  • Vizualizace a interpretace výsledků

Prerekvizity

  • Matematická analýza (derivace, integrály funkcí jedné i více proměnných).
  • Lineární algebra a maticový počet (detailně).
  • Podrobné znalosti matematického modelování (popisná statistika, vizualizace dat).
  • Důkladné znalosti matematické statistiky (odhady, testy hypotéz).
  • Znalost lineárních regresních modelů.

Zkouška

Zkouška bude mít dvě části -- obhajobu projektu a teoretické otázky. Po úspěšném obhájení projektu (0 - 4b) si vylosujete jednu teoretickou (0 - 2b) a jednu matematickou metodologickou otázku (0 - 4b). 

Finální seznam matematických otázek a teoretických okruhů:

Error: The referenced object does not exist or you do not have the right to read.
https://is.muni.cz/el/sci/jaro2023/M8DM1/projekty/otazky2023.pdf

Na základě získaných bodů ze všech částí získáte následující hodnocení:

10     A
 9      B
 8      C
 7      D
 6      E
0-5    F

Termíny zkoušek jsou již vypsány. V rámci kolegiality a ohleduplnosti, prosím, neblokujte zbytečně místo na zkoušku někomu s opravdovým zájmem na zkoušku přijít. Odhlašujte se proto včas. Z tohoto důvodu je i nejzazší termín odhlášení ze zkoušky nastaven na 4 dny před zkouškou.

Cvičení

  • Všichni studenti musí být zapsaní v nějaké seminární skupině. 
  • Na základě splnění níže uvedených podmínek můžete získat ke zkoušce následující bonus/malus body:
    • obě splněné podmínky  +1 bod 
    • jedna splněná podmínka  +0 bodů 
    • žádná splněná podmínka  -1 bod
  • Podmínky:
    • maximálně 3 absence
    • splnění průběžné bonusové písemky na 6. cvičení

Pokyny k vypracování projektu z M8DM1

Vypracování projektu je SAMOSTATNÁ práce. Pokud bude zjištěn opak, dotyční budou hodnoceni známkou F a podle Studijního a zkušebního řádu s nimi bude zahájeno disciplinární řízení.

Výběr a zadání tématu

Každý student si ze seznamu témat vybere jedno, které si zapíše v Rozpisu témat v ISu:

Projekty z M8DM1
Number of topics available: 48
You are not enrolled in any topic.
Error: The referenced object does not exist or you do not have the right to read.
https://is.muni.cz/el/sci/jaro2023/M8DM1/projekty/temata2023.pdf

Přihlašování bude možné od 14. 4. 8:00 do 21. 5. Kdo si žádné téma ve stanoveném termínu nezapíše, nebude připuštěn ke zkoušce a bude hodnocen X.

Jakmile si jedno téma zapíšete, změna tématu nebude možná! (Pozor, IS vám změnu tématu dovolí, já nikoliv). Jedinou výjimkou je přechod k vlastnímu tématu (viz níže).

Ke každému tématu se může přihlásit maximálně jeden student. Pozor, k jednomu datovému souboru se může vázat více úkolů. Plňte jen ten, který si zapíšete!

Datové soubory naleznete ve Studijních materiálech:

Error: The referenced object does not exist or you do not have the right to read.
https://is.muni.cz/el/sci/jaro2023/M8DM1/projekty/datove_soubory_k_projektum/

Zadání vlastního tématu

Pokud si z nabízených témat žádné nevyberete, nebo prostě jen chcete zpracovávat data vlastní, můžete.
Tuto skutečnost však se mnou nejprve prodiskutujte a na základě společného návrhu vám téma dodatečně do Rozpisu témat dopíšu. 


Zpracování

Při analýze se řiďte zadáním, nebudete-li něčemu rozumět, neváhejte se na mě obrátit se svými dotazy. Bohužel u některých datových souborů nejsou metadata příliš informativní, takže ani já pravděpodobně nebudu vědět, co vše v datech je.  V tomto případě si budete muset některé věci do/vymyslet. Zpracování dat proveďte pomocí SASu (hlavní část řešení; můžete si ale pomoci i jiným softwarem, pokud jsme se k některým věcem v SASu nedostali :-)) a o vašem řešení sepište krátkou zprávu (report).

V úvodu popište zkoumaný problém, co vlastně chcete analyzovat, jaké jsou vaše cíle.
Dále se zaměřte na popis vašich dat -- jaká data jste měli k dispozici, jaké proměnné, kvalita dat, opravování chyb, manipulace s chybějícími pozorováními,...
Poté přidejte relevantní výsledky exploratorní analýzy (popisné statistiky, obrázky, grafy).
Vypisujte jen ty výsledky, které jsou podstatné pro řešení vašeho úkolu!
A konečně, popište metody vlastní analýzy a příslušné výsledky, ty nezapomeňte slovně okomentovat. Vyzkoušejte více modelů, vyhrajte si s přípravou dat (použití vhodných transformací) a na závěr zvolte jeden finální model (výsledek).
Nakonec přidejte závěrečné shrnutí, kde se budete snažit odpovědět na otázky ze zadání projektu, případně vypíchnout přednosti/ nedostatky vašeho řešení, jak by se dalo zlepšit, atd.

Výslednou zprávu uložte ve formátu pdf (nemusí být nutně vypracovaná v LaTeXu, s Wordem nemám problém).

Rozsah: maximálně 15 stran.

 

Odevzdání

Vypracované řešení vložte nejpozději 48 hodin před zkouškou do Odevzdárny v ISu. Na soubory odevzdané po termínu bude pohlíženo jako na neodevzdané.


Obhájení projektu (hodnocení)

U zkoušky mě seznámíte s vaším projektem, proto doporučuji, abyste si ho donesli s sebou ke zkoušce v tištěné podobě. Krátce shrnete, co jste dělali, jak jste to dělali a co vám vyšlo. Podle toho, co mě bude zajímat, položím doplňující otázky k datům, zpracování, či řešení. Úspěšné obhájení projektu je nutnou podmínkou ke složení zkoušky. Za projekt můžete získat až 4 body podle jeho kvality. Hodnocena bude správnost a korektnost používaných metod a výsledků, jejich interpretace, ale i prezentace a úroveň vašeho reportu.




Previous
Next