Aktuálně
Zkouškové v plném proudu. Pokud vám žádný z vypsaných termínů zkoušky nevyhovuje, domluvte se se mnou, prosím, individuálně.
M8DM1 - Data mining I
- Přednášky: metodologie data miningu
- Cvičení: použití metod v softwaru SASu (informace o instalaci v materiálech k prvnímu cvičení)
Prerekvizity
- Matematická analýza (derivace, integrály funkcí jedné i více proměnných).
- Lineární algebra a maticový počet (detailně).
- Podrobné znalosti matematického modelování (popisná statistika, vizualizace dat).
- Důkladné znalosti matematické statistiky (odhady, testy hypotéz).
- Znalost lineárních regresních modelů.
Sylabus (plán přednášek)
- Úvod do data miningu
- Organizace dat, databázové systémy, SQL
- Příprava, čištění a předzpracování dat
- Metoda hlavních komponent
- Faktorová analýza, mnohorozměrné škálování
- Exploratorní analýza dat
- Analýza kategoriálních dat - kontingenční tabulky, korespondenční analýza
- Asociační analýza (analýza nákupního košíku)
- Shluková analýza
- Lineární regrese (statistický vs. dataminingový pohled)
- Logistická regrese
- Rozhodovací stromy
- Vizualizace a interpretace výsledků
Zkouška
Zkouška je ústní a skládá se ze dvou části -- obhajoba projektu a rozprava o přednesené metodologii.
Nejprve budete obhajovat svůj závěrečný projekt (analýza dat a sepsání reportu). Podle jeho kvality a úrovně obhajoby můžete získat 0 - 4b. Úspěšné obhájení projektu je nutnou podmínkou pro složení zkoušky.
Poté si vylosujete jednu teoretickou (0 - 2b) a jednu matematickou metodologickou otázku (0 - 4b) a po krátké přípravě se o vybraných otázkách společně pobavíme.
Seznam matematických otázek a teoretických okruhů:
Na základě získaných bodů ze všech částí získáte následující hodnocení:
10 A
9 B
8 C
7 D
6 E
0-5 F
Cvičení
- Každý student musí být zapsaný v jedné ze dvou seminárních skupin.
- Aktivní účast na cvičeních, maximálně 3 absence (bez rozlišení na omluvené a neomluvené).
Pokyny k vypracování projektu z M8DM1
Vypracování projektu je SAMOSTATNÁ práce. Pokud bude zjištěn opak, dotyční budou hodnoceni známkou F a podle Studijního a zkušebního řádu s nimi bude zahájeno disciplinární řízení.
Výběr a zadání tématu
Každý student si ze seznamu témat vybere jedno, které si zapíše v Rozpisu témat v ISu:
Nejste přihlášen na žádné téma.
Přihlašování bude možné od 19. 4. 8:00 do 24. 5. Kdo si žádné téma ve stanoveném termínu nezapíše, nebude připuštěn ke zkoušce a bude hodnocen X.
Jakmile si jedno téma zapíšete, změna tématu nebude možná! (Pozor, IS vám změnu tématu dovolí, já nikoliv). Jedinou výjimkou je přechod k vlastnímu tématu (viz níže).
Ke každému tématu se může přihlásit maximálně jeden student. Pozor, k jednomu datovému souboru se může vázat více úkolů. Plňte jen ten, který si zapíšete!
Datové soubory naleznete ve Studijních materiálech:
Zadání vlastního tématu
Pokud si z nabízených témat žádné nevyberete, nebo prostě jen chcete zpracovávat data vlastní, můžete.
Tuto skutečnost však se mnou nejprve prodiskutujte a na základě společného návrhu vám téma dodatečně do Rozpisu témat dopíšu.
Zpracování
Při analýze se řiďte zadáním, nebudete-li něčemu rozumět, neváhejte se na mě obrátit se svými dotazy. Bohužel u některých datových souborů nejsou metadata příliš informativní, takže ani já pravděpodobně nebudu vědět, co vše v datech je. V tomto případě si budete muset některé věci do/vymyslet. Zpracování dat proveďte pomocí SASu (hlavní část řešení; můžete si ale pomoci i jiným softwarem, pokud jsme se k některým věcem v SASu nedostali :-)) a o vašem řešení sepište krátkou zprávu (report).
V úvodu popište zkoumaný problém, co vlastně chcete analyzovat, jaké jsou vaše cíle.
Dále se zaměřte na popis vašich dat -- jaká data jste měli k dispozici, jaké proměnné, kvalita dat, opravování chyb, manipulace s chybějícími pozorováními,...
Poté přidejte relevantní výsledky exploratorní analýzy (popisné statistiky, obrázky, grafy).
Vypisujte jen ty výsledky, které jsou podstatné pro řešení vašeho úkolu!
A konečně, popište metody vlastní analýzy a příslušné výsledky, ty nezapomeňte slovně okomentovat. Vyzkoušejte více modelů, vyhrajte si s přípravou dat (použití vhodných transformací) a na závěr zvolte jeden finální model (výsledek).
Nakonec přidejte závěrečné shrnutí, kde se budete snažit odpovědět na otázky ze zadání projektu, případně vypíchnout přednosti/ nedostatky vašeho řešení, jak by se dalo zlepšit, atd.
Výslednou zprávu uložte ve formátu pdf (nemusí být nutně vypracovaná v LaTeXu, s Wordem nemám problém).
Rozsah: maximálně 15 stran.
Odevzdání
Vypracované řešení vložte nejpozději 48 hodin před zkouškou do Odevzdárny v ISu. Na soubory odevzdané po termínu bude pohlíženo jako na neodevzdané.
Obhájení projektu (hodnocení)
U zkoušky mě seznámíte s vaším projektem, proto doporučuji, abyste si ho donesli s sebou ke zkoušce v tištěné podobě. Krátce shrnete, co jste dělali, jak jste to dělali a co vám vyšlo. Podle toho, co mě bude zajímat, položím doplňující otázky k datům, zpracování, či řešení. Úspěšné obhájení projektu je nutnou podmínkou ke složení zkoušky. Za projekt můžete získat až 4 body podle jeho kvality. Hodnocena bude správnost a korektnost používaných metod a výsledků, jejich interpretace, ale i prezentace a úroveň vašeho reportu.