Bi8700 Vybrané kapitoly ze zpracování, analýzy a vizualizace dat Úvod Bi8700 Vybrané kapitoly ze zpracování, analýzy a vizualizace dat (jaro 2019) Bi8700 Vybrané kapitoly ze zpracování, analýzy a vizualizace dat (jaro 2019) Základní informace o předmětu ̶ https://is.muni.cz/auth/predmet/sci/jaro2019/BI8700 Bi8700 Vybrané kapitoly ze zpracování, analýzy a vizualizace dat (jaro 2019) Výstupy z učení ̶ Student porozumí potřebnosti systematickému používání metodik a metod pro dolování dat. ̶ Student se seznámí s aktuálními trendy při zpracování, analýze a vizualizaci dat. ̶ Student si osvojí nové postupy při řešení zadaných výzkumných problémů. Bi8700 Vybrané kapitoly ze zpracování, analýzy a vizualizace dat (jaro 2019) Podmínky pro udělení zápočtu 100% docházka Aktivní účast Bi8700 Vybrané kapitoly ze zpracování, analýzy a vizualizace dat (jaro 2019) Tematické bloky 1. Mapování nejen medicínského kurikula 2. Strojové zpracování a analýza dat 3. Výběr správné vizualizace a „data storytelling“ 4. Deep learning I. 5. Deep learning II. Bi8700 Vybrané kapitoly ze zpracování, analýzy a vizualizace dat (jaro 2019) Úvod do světa zpracování, analýzy a vizualizace dat Motivace Bi8700 Vybrané kapitoly ze zpracování, analýzy a vizualizace dat (jaro 2019) Motivace ̶ Získat užitečné informace z dostupných dat ̶ Zautomatizovat proces vytěžování, zpracování a vizualizace dat ̶ Interpretovat data správným způsobem ̶ Poskytnout interaktivní pohled v souladu s požadavky „konzumenta“ Bi8700 Vybrané kapitoly ze zpracování, analýzy a vizualizace dat (jaro 2019) Co vám řešení projektu přinese? ̶ Multidisciplinární přístup ̶ Orientace ve specifické doméně (medicína, výuka, ekonomie, …) ̶ Zpracování přirozeného jazyka, deskriptivní statistika, analýza dat, … ̶ Vizualizace dat ̶ Testování a evaluace ̶ Nasazení v praxi ̶ Týmová spolupráce Bi8700 Vybrané kapitoly ze zpracování, analýzy a vizualizace dat (jaro 2019) Bi8700 Vybrané kapitoly ze zpracování, analýzy a vizualizace dat (jaro 2019) Bi8700 Vybrané kapitoly ze zpracování, analýzy a vizualizace dat (jaro 2019) Jaké vlastnosti by měl mít člen týmu, který se věnuje zpracování a analýze dat? Bi8700 Vybrané kapitoly ze zpracování, analýzy a vizualizace dat (jaro 2019) Bi8700 Vybrané kapitoly ze zpracování, analýzy a vizualizace dat (jaro 2019) Jaro 2019, Institut biostatistiky a analýz 3 2 1 Jaké vlastnosti/silné stránky a proč by měl mít člověk, který je součástí analytického týmu? Bi8700 Vybrané kapitoly ze zpracování, analýzy a vizualizace dat (jaro 2019) Bi8700 Vybrané kapitoly ze zpracování, analýzy a vizualizace dat (jaro 2019) Bi8700 Vybrané kapitoly ze zpracování, analýzy a vizualizace dat (jaro 2019) Bi8700 Vybrané kapitoly ze zpracování, analýzy a vizualizace dat (jaro 2019) Metodiky pro vytěžování informací z dat Zdroj: AZEVEDO, Ana Isabel Rojão Lourenço; SANTOS, Manuel Filipe. KDD, SEMMA CRISP-DM: a parallel overviee. IADS-DM, 2008. Bi8700 Vybrané kapitoly ze zpracování, analýzy a vizualizace dat (jaro 2019) CRoss-Industry Standard Process for Data Mining Zdroj: AZEVEDO, Ana Isabel Rojão Lourenço; SANTOS, Manuel Filipe. KDD, SEMMA CRISP-DM: a parallel overviee. IADS-DM, 2008. Bi8700 Vybrané kapitoly ze zpracování, analýzy a vizualizace dat (jaro 2019) CRoss-Industry Standard Process for Data Mining ̶ Porozumění problematice (Business Understanding) ̶ Zadání úlohy a cíle data miningu, vymezení toho, co chce uživatel znát. ̶ Porozumění datům (Data Understanding) ̶ Posouzení smyslu, kvality a významnosti dat. ̶ Příprava dat (Data Preparation) ̶ Příprava dat zahrnující čištění dat, transformaci dat, práci s chybějícími hodnotami apod. Bi8700 Vybrané kapitoly ze zpracování, analýzy a vizualizace dat (jaro 2019) CRoss-Industry Standard Process for Data Mining ̶ Modelování (Modeling) ̶ Analytické zpracování, tvorba modelu, vizualizace dat. ̶ Vyhodnocení výsledků (Evaluation) ̶ Ověření správnosti modelů. ̶ Využití výsledků (Deployment) ̶ Použití výsledků v praxi, prezentace výstupů. Bi8700 Vybrané kapitoly ze zpracování, analýzy a vizualizace dat (jaro 2019) Která fáze modelu CRISP-DM je nejdůležitější, časově nejnáročnější a proč? Jaro 2019, Institut biostatistiky a analýz 3 2 1 Která fáze modelu CRISP-DM je nejdůležitější, časově nejnáročnější a proč? Bi8700 Vybrané kapitoly ze zpracování, analýzy a vizualizace dat (jaro 2019) Jaké otázky bychom si měli položit před zahájením řešení projektu? Bi8700 Vybrané kapitoly ze zpracování, analýzy a vizualizace dat (jaro 2019) Jaro 2019, Institut biostatistiky a analýz 5 4 3 2 1 Jaké otázky bychom si měli položit před zahájením řešení projektu? Bi8700 Vybrané kapitoly ze zpracování, analýzy a vizualizace dat (jaro 2019) 5 questions to ask before launching a project Zdroj: http://www.simafore.com/blog/ Are we developing an analytics solution for a "one-shot deal", i.e., simply answering a specific business question, or for an ongoing process? Where is the data? What kind of preparation is needed for the data? Do we need to reduce the data dimension? Which technique to use? Jaro 2019, Institut biostatistiky a analýz 5 4 3 2 1