Machine Learning, Artificial Intelligence, Data Mining Matematická biologie & ICT Jan Žižka IBA ­ Institut biostatistiky a analýz PřF & LF, Masarykova universita Kamenice 126/3, 625 00 Brno Email: zizka@iba.muni.cz Moderní systémy pro získávání znalostí z informací a dat Machine Learning, Artificial Intelligence, Data Mining Matematická biologie & ICT Bioinformatika: Aplikace výpočetních a statistických tech- nik na zpracování a analýzu biologických dat. Strojové učení (machine learning, ML), umělá inteligence (artificial intelligence, AI), dolování z dat (data mining): Moderní systémy pro zpracování informace a získá- vání znalostí z dat. Rozšiřují a doplňují tradiční apli- kace matematických a informatických metod také na biomedicínská data. V komplikovaných případech, typických pro realitu, slouží jako alternativní metody, inspirované zpracováním informace inteligentními biologickými systémy. data informace znalost metaznalost filtrace šumu z dat pocházejících z reálného světa filtrace nerelevantních dat (výběr dat zajímavých pro řešený problém) generalizace znalost o znalosti primární cíl Hierarchický vztah data informace znalost (z hlediska algoritmů strojového učení) data + šum Machine Learning, Artificial Intelligence, Data Mining Matematická biologie & ICT Moderní přístupy umělé inteligence se zaměřují na vyhledá- vání stanoveného cíle ve vysoce složitých prostorech obsa- hujících takové množství stavů, že z praktického hlediska nelze použít systematické prohledávání. Induktivní strojové učení využívá možnost objevovat znalost na základě zobecnění omezeného množství vzorů. Dolování znalostí z dat zahrnuje přípravu dat, hledání účinného algoritmu pro zobecnění, a nakonec interpretaci. Machine Learning, Artificial Intelligence, Data Mining Matematická biologie & ICT Vzdoruje-li reálný problém tradičním analytickým meto- dám, matematickému modelování, apod., pak lze k řešení použít simulaci přístupu inteligentních biologic- kých systémů schopných se učit a zobecňovat. Hledání skutečné znalosti v datech se často podobá hle- dání nejvyššího vrcholku kopce ve velmi zvlněné zaml- žené krajině (lokální extrémy, globální extrém, nelinearita, nespojité funkce, apod.). Machine Learning, Artificial Intelligence, Data Mining Matematická biologie & ICT ,,Vytěžit" použitelnou znalost ze ,,surových" dat vyžaduje pochopit vlastnosti disponibilních metod, navrhnout a pro- vést řadu časově náročných experimentů (výpočetní složi- tost ­ čas a paměť) a správně interpretovat získané znalos- ti pro jejich použití. Induktivní učení z příkladů poskytne trénovaným algorit- mům potřebné parametry. Natrénované algoritmy pak lze použít pro náročné regresní a klasifikační problémy. Machine Learning, Artificial Intelligence, Data Mining Matematická biologie & ICT černá skříňka šedá skříňka bílá skříňka trénovací příklady srozumitelná znalost nesrozumitelná znalost částečně srozumitelná znalost reálný svět Natrénované algoritmy lze rozdělit podle typu poskytované znalosti, která se aplikuje na případy v budoucnosti: Machine Learning, Artificial Intelligence, Data Mining Matematická biologie & ICT černá skříňka šedá skříňka bílá skříňka neznámé budoucí instance reálný svět Funkčnost algoritmů ovšem nemusí (ale i může) odpovídat srozumitelnosti znalosti získané trénováním: znalost ? dotazy chyba odpovědí x % z % y % odpovědi Machine Learning, Artificial Intelligence, Data Mining Matematická biologie & ICT Algoritmy lze také rozdělit podle typu učení: bez učitele (oprava chyb uvnitř algoritmu: např. shlukování, Kohonenovy mapy, adaptivní resonanční teorie) s učitelem (zpětná vazba, oprava chyb vně algoritmu: např. umělé neuronové sítě trénované zpětným šířením chyb) Predikce pro případy neznámé při trénování Machine Learning, Artificial Intelligence, Data Mining Matematická biologie & ICT Data jsou nejčastěji uspořádána formou tabulky, kde řádky představují instance (příklady, vzorky, ...) a sloupce atri- buty (dimenze, parametry, proměnné, vlastnosti, ...): názvy atributů jeden z příkladů klasifikační třída jeden z atributů (Wisconsin breast-cancer data) Machine Learning, Artificial Intelligence, Data Mining Matematická biologie & ICT V současnosti existuje již řada uživatelsky pohodlných ná- strojů pro dolování znalostí strojovým učením, např. WEKA: Machine Learning, Artificial Intelligence, Data Mining Matematická biologie & ICT WEKA obsahuje i editor dat typu spreadsheet, který nemá typická omezení (např. pouze 256 sloupců a 65 536 řádků): Machine Learning, Artificial Intelligence, Data Mining Matematická biologie & ICT WEKA podporuje také zobrazování, např. rozložení hodnot všech atributů včetně klasifikační třídy: Machine Learning, Artificial Intelligence, Data Mining Matematická biologie & ICT Lze zobrazit třeba i klasifikační chyby jednotlivých příkladů pro zvolené atributy ( je chybně, x je správně): Machine Learning, Artificial Intelligence, Data Mining Matematická biologie & ICT Příklad automaticky generovaného rozhodovacího stromu pro reálná data Wisconsin breast-cancer (klasifikace dle vlastností odebraného vzorku buněk) algoritmem J48 systému WEKA: v kořeni stromu je test na nejvýznam- nější atribut testy v listech jsou odpovědi Machine Learning, Artificial Intelligence, Data Mining Matematická biologie & ICT Obdobný systém YALE (Yet Another Learning Environment) také umožňuje vytvořit složitý proces dolování z dat: Machine Learning, Artificial Intelligence, Data Mining Matematická biologie & ICT Optimalizace genetickými algoritmy umožňuje mj. řešit úlohy, které lze převést na problém obchodního cestujícího, např. hledat nejúčin- nější a nejekonomičtější stanovení druhů a pořadí testů vyšetření: Machine Learning, Artificial Intelligence, Data Mining Matematická biologie & ICT Vysoce efektivní profesionální generátor rozhodovacích stromů a pravidel je systém C5/See5, používaný pro různé aplikace: END