Týmový projekt BiMat 2016/2017 Týmový projekt BiMat 2016/2017 INVESTICE DO ROZVOJE VZDĚLÁVÁNÍ Projekt z Matematické biologie © Institute of Biostatistics and Analyses Týmový projekt ? Projekt z Matematické biologie © Institute of Biostatistics and Analyses Týmový projekt – rozdělení úkolů Projekt z Matematické biologie © Institute of Biostatistics and Analyses Týmový projekt - team-leadership Projekt z Matematické biologie © Institute of Biostatistics and Analyses Týmový projekt – dvě obhajoby (1) TEORIE: obhajoba zvolených metod a postupů (2) PRAXE: obhajoba celého projektu včetně realizace algoritmu a výsledků Projekt z Matematické biologie © Institute of Biostatistics and Analyses Týmový projekt – hackathon Projekt z Matematické biologie © Institute of Biostatistics and Analyses Týmový projekt - zápočet Závěrečnou zprávu k projektu není potřeba vypracovávat.  Zápočet bude udělen na základě úspěšné obhajoby. Projekt z Matematické biologie © Institute of Biostatistics and Analyses Týmový projekt – tři zadání Závěrečnou zprávu k projektu není potřeba vypracovávat.  Zápočet bude udělen na základě úspěšné obhajoby. (i)   Segmentace obrazů z optické mikroskopie (Daniel Schwarz) (ii)  Strojové učení z obrazových dat (Roman Vyškovský) (iii) Dolování z textových dat (Martin Komenda a Matěj Karolyi)  Projekt z Matematické biologie © Institute of Biostatistics and Analyses Týmový projekt – tři skupiny AUTOENCODERY SEGMENTACE KLÍČOVÁ SLOVA Ježová K. Rakušanová S. Zouharová S. Kratochvílová M. Prelecová V. Bučková B. Bezděková M. Projekt z Matematické biologie © Institute of Biostatistics and Analyses Týmový projekt – termíny 12. října 2016 dle rozvrhu 9. listopadu 2016 dle rozvrhu 14. prosince 2016 dle rozvrhu Projekt z Matematické biologie © Institute of Biostatistics and Analyses SEGMENTACE Segmentace erytrocytů  v digitálních obrazech hematologických nátěrů  Laboratorní diagnostika, morfometrické analýzy Projekt z Matematické biologie © Institute of Biostatistics and Analyses Segmentace erytrocytů v digitálních obrazech hematologických nátěrů Úloha: Z digitálních obrazů získaných optickou mikroskopií při laboratorní diagnostice  chorob krve sestavte XLS sešit se seznamem erytrocytů a přiložte obrázek s legendou Návrh pracovních balíků: W1) Charakteristické rysy obrazů z optické mikroskopie, způsob vzniku obrazu,  artefakty, zkreslení apod. Laboratorní diagnostika chorob krve a kde jsou  možnosti pro automatické zpracování obrazů – morfometrické analýzy apod. W2) Segmentační metody – základní přístupy a rozdíly mezi nimi. Rozvaha a volba  jednoho z mnoha přístupů. Podle zvolené metody volit potom techniky  předzpracování… W3) Samotná práce s obrazovými daty. Předzpracování. Selekce objektů. Práce s RGB  obrazy v MATLABu/Rku, vykreslování legendy do obrazu (GUI?). Práce s XLS sešity  v Matlabu/Rku. Výpočet vybraného morfometrického parametru (např. průměr,  sféricita apod.) W4) Prezentace výsledků Projekt z Matematické biologie © Institute of Biostatistics and Analyses SEGMENTACE Segmentace erytrocytů  v digitálních obrazech hematologických nátěrů  Laboratorní diagnostika, morfometrické analýzy 200 400 600 800 1000 1200 1400 1600 1800 2000 2200 200 400 600 800 1000 1200 1400 1600 Autoenkodéry Vedoucí: Roman Vyškovský Motivace  Hluboká neuronová síť má schopnost zachytit složité závislosti v obrazových datech  Algoritmus zpětného šíření chyby není pro hluboké sítě efektivní (pomalá optimalizace vah nižších vrstev)  Síť s mnoha vrstvami a neurony je často přeučená Neuronová síť Autoenkodér  Cíl: Naučit vrstvu neuronů (často s menší dimenzionalitou než vstupní obraz) tak, aby tento vstupní obraz rekonstruovala  Jde vlastně o extrakci příznaků  Lze tímto způsobem předučit váhy hluboké neuronové sítě pro klasifikaci Autoenkodér Úkoly  1. Najít soubor s obrazovými daty a lékařskou/environmentální tématikou vhodný pro klasifikaci  2. Naučit hlubokou neuronovou síť s využitím autoenkodérů  3. Otestovat na nezávislých datech  4. Srovnat výsledek s klasickou neuronovou sítí stejné architektury  5. Je tento typ neuronových sítí vhodný pro malé datové soubory? Bi4012 Projekt z Matematické biologie Zpracování dat v praxi: Redukce klíčových slov Martin Komenda, Matěj Karolyi Motivace a použití v praxi  Klíčové slovo  identifikátor při značkování a následnému třídění a vyhledávání obsahu  výraz, který se nejčastěji opakuje v textu  791 000 000 Bi4012 Projekt z Matematické biologie Motivace a použití v praxi Bi4012 Projekt z Matematické biologie  Praktické použití napříč různými doménami lidského poznání  Marketing, knihovnictví, webdesign, …  Zdravotnictví • Získání relevantních informací ze záznamů pacienta (volný text) Bi4012 Projekt z Matematické biologie Cíle Bi4012 Projekt z Matematické biologie  Projekt si klade za cíl osvojit si:  zpracování velkoobjemových dat  znalost vybrané metodiky pro úlohy z oblasti vytěžování dat  týmovou spolupráci CRISP-DM Bi4012 Projekt z Matematické biologie Porozumění problematice  Fáze zaměřená na pochopení cílů projektu a požadavků na řešení včetně formulace výzkumných otázek.  Student  Pochopí zadání projektu.  Navrhne teoretický postup pro řešení. Bi4012 Projekt z Matematické biologie Porozumění datům  Fáze začíná prvotním sběrem dat a následují činnosti, které umožní získat základní představu o datech samotných.  Student  Porozumí vstupní datové sadě (lokální uložení datových souborů a seznámení se s jejich strukturou). Bi4012 Projekt z Matematické biologie Příprava dat  Fáze zahrnuje činnosti vedoucí k vytvoření datového souboru, který bude následně dále zpracováván.  Student  Navrhne algoritmus pro zpracování dat včetně eliminace nežádoucích slov (stop-word list). Bi4012 Projekt z Matematické biologie Modelování  Fáze zahrnuje algoritmy pro dobývání znalostí.  Student  Aplikuje navržený algoritmus pro vygenerování finálního datového souboru.  Vizualizuje výsledky v určené grafové podobě. Bi4012 Projekt z Matematické biologie Vyhodnocení výsledků  Ve této fázi se dosažené výsledky vyhodnocují z pohledu splnění cílů formulované na počátku projektu.  Student  Ověří dosažené výsledky s očekávanými výstupy. Bi4012 Projekt z Matematické biologie Využití výsledků  Finální fáze projektu, která zahrnuje sepsání závěrečného reportu.  Student  Představí projekt (průběh řešení a výsledky). Bi4012 Projekt z Matematické biologie Zadání  V souladu s metodikou CRISP-DM najděte a vizualizujte nad vybraným velkoobjemových korpusem dat (Google Books databáze v řádu jednotek GB) skupinu 10 nejčastěji vyskytujících se klíčových slov.  Výsledná klíčová slova nesmí obsahovat slova kratší než 4 znaky a současně nesmí obsahovat slova ze seznamu nežádoucích výrazů (stop-word list – přiloženo v souboru google-10000-english.txt). Bi4012 Projekt z Matematické biologie Vstupní data  Korpus  Google Books - Datová sada English Version 20120701  1-gramy (pouze A – Z)  Ukázka datové struktury  circumvallate 1978 335 91  circumvallate 1979 261 91 Bi4012 Projekt z Matematické biologie Požadovaný výstup Bi4012 Projekt z Matematické biologie Dotazy sem: komenda@iba.muni.cz karolyi@iba.muni.cz