MachineLearning,ArtificialIntelligence,DataMining Matematickábiologie&ICT JanŽižka Modernísystémyprozískávání znalostízinformacíadat MachineLearning,ArtificialIntelligence,DataMining Matematickábiologie&ICT Bioinformatika:Aplikacevýpočetníchastatistickýchtech- niknazpracováníaanalýzubiologickýchdat. Strojovéučení(machinelearning,ML),uměláinteligence (artificialintelligence,AI),dolovánízdat(datamining): Modernísystémyprozpracováníinformaceazískáváníznalostízdat.Rozšiřujía doplňujítradičníaplikacematematickýcha informatickýchmetodtakéna biomedicínskádata. Vkomplikovanýchpřípadech,typickýchprorealitu,slouží jakoalternativnímetody,inspirovanézpracováníminformace inteligentnímibiologickýmisystémy. Hierarchickývztahdatainformaceznalost (zhlediskaalgoritmůstrojovéhoučení) data informace znalost metaznalost filtracešumuzdat pocházejících zreálnéhosvěta filtracenerelevantníchdat (výběrdatzajímavýchpro řešenýproblém) generalizace znalost oznalosti primárnícíl data+šum startstart cílcíl reálnýreálný světsvět MachineLearning,ArtificialIntelligence,DataMining Matematickábiologie&ICT Modernípřístupyuměléinteligencesezaměřujínavyhledá- vánístanovenéhocílevevysocesložitýchprostorechobsa- hujícíchtakovémnožstvístavů,žezpraktickéhohlediska nelzepoužítsystematicképrohledávání. Induktivnístrojovéučenívyužívámožnostobjevovat znalostnazákladězobecněníomezenéhomnožstvívzorů. Dolováníznalostízdatzahrnujepřípravudat,hledání účinnéhoalgoritmuprozobecnění,anakonecinterpretaci. MachineLearning,ArtificialIntelligence,DataMining Matematickábiologie&ICT Vzdoruje-lireálnýproblémtradičnímanalytickýmmeto- dám,matematickémumodelování,apod.,paklzekřešení použítsimulacipřístupuinteligentníchbiologic- kýchsystémůschopnýchseučitazobecňovat. Hledánískutečnéznalostivdatechsečastopodobáhle- dánínejvyššíhovrcholkukopcevevelmizvlněnézaml- ženékrajině(lokálníextrémy,globálníextrém, nelinearita,nespojitéfunkce,apod.). MachineLearning,ArtificialIntelligence,DataMining Matematickábiologie&ICT černáskříňka šedáskříňka bíláskříňka trénovací příklady srozumitelná znalost nesrozumitelná znalost částečně srozumitelná znalost reálnýsvět Natrénovanéalgoritmylzerozdělitpodletypuposkytované znalosti,kteráseaplikujenapřípadyvbudoucnosti: MachineLearning,ArtificialIntelligence,DataMining Matematickábiologie&ICT černáskříňka šedáskříňka bíláskříňka neznámé budoucí instance reálnýsvět Funkčnostalgoritmůovšemnemusí(aleimůže)odpovídat srozumitelnostiznalostizískanétrénováním: znalost ? dotazy chyba odpovědí x% z% y% odpovědi MachineLearning,ArtificialIntelligence,DataMining Matematickábiologie&ICT Algoritmylzetakérozdělitpodletypuučení: bezučitele(oprava chybuvnitřalgoritmu:např.shlukování, Kohonenovymapy,adaptivníresonančníteorie) sučitelem(zpětnávazba,opravachybvně algoritmu:např.uměléneuronovésítě trénovanézpětnýmšířenímchyb) Predikcepro případyneznámé přitrénování MachineLearning,ArtificialIntelligence,DataMining Matematickábiologie&ICT Datajsounejčastějiuspořádánaformoutabulky,kdeřádky představujíinstance(příklady,vzorky,...)asloupceatri- buty(dimenze,parametry,proměnné,vlastnosti,...): názvyatributů jedenzpříkladů klasifikační třída jedenzatributů (Wisconsinbreast-cancerdata) MachineLearning,ArtificialIntelligence,DataMining Matematickábiologie&ICT Vsoučasnostiexistujejižřadauživatelskypohodlnýchná- strojůprodolováníznalostístrojovýmučením,např.WEKA: MachineLearning,ArtificialIntelligence,DataMining Matematickábiologie&ICT WEKAobsahujeieditordattypuspreadsheet,kterýnemá typickáomezení(např.pouze256sloupcůa65536řádků): MachineLearning,ArtificialIntelligence,DataMining Matematickábiologie&ICT WEKApodporujetakézobrazování,např.rozloženíhodnot všechatributůvčetněklasifikačnítřídy: MachineLearning,ArtificialIntelligence,DataMining Matematickábiologie&ICT Lzezobrazittřebaiklasifikačníchybyjednotlivýchpříkladů prozvolenéatributy(jechybně,xjesprávně): MachineLearning,ArtificialIntelligence,DataMining Matematickábiologie&ICT Příkladautomatickygenerovanéhorozhodovacíhostromupro reálnádataWisconsinbreast-cancer(klasifikacedlevlastností odebranéhovzorkubuněk)algoritmemJ48systémuWEKA: vkořenistromuje testnanejvýznam- nějšíatribut testy vlistechjsouodpovědi MachineLearning,ArtificialIntelligence,DataMining Matematickábiologie&ICT ObdobnýsystémYALE(YetAnotherLearningEnvironment)také umožňujevytvořitsložitýprocesdolovánízdat: MachineLearning,ArtificialIntelligence,DataMining Matematickábiologie&ICT Optimalizacegenetickýmialgoritmyumožňujemj.řešitúlohy,které lzepřevéstnaproblémobchodníhocestujícího,např.hledatnejúčin- nějšíanejekonomičtějšístanovenídruhůapořadítestůvyšetření: MachineLearning,ArtificialIntelligence,DataMining Matematickábiologie&ICT Vysoceefektivníprofesionálnígenerátorrozhodovacíchstromů apravideljesystémC5/See5,používanýprorůznéaplikace: MachineLearning,ArtificialIntelligence,DataMining Matematickábiologie&ICT Uměléneuronovésítěmohouvřaděpřípadůnaléztvesložitých mnohorozměrnýchprostorechoddělovacíhranicemeziurčitými skupinamidatovýchinstancí.Hranicemůžebýttvořenavelmi komplikovanounelineárnífunkcí,kteránemusíbýthladká, spojitá,apod.,akterounelzeanalytickýmimetodamiodhadnout anipřibližně. Podobnějakoudalšíchalgoritmůstrojovéhoučení,návrh efektivníuměléneuronovésítěnenísnadnýahledánísprávných parametrů,včetněarchitekturysítě,býváčasověnáročné. Podaří-lisevšaknajítpřijatelnéřešení,natrénovanýalgoritmus poskytujekvalitníarychloupodporupřizkoumáníbudoucích, vdobětréninkuneznámýchdatovýchinstancí­toplatíobecně iproostatníalgoritmy,ikdyžčastovrůznémíře. MachineLearning,ArtificialIntelligence,DataMining Matematickábiologie&ICT MachineLearning,ArtificialIntelligence,DataMining Matematickábiologie&ICT intuitivněočekávánáintuitivněočekáváná hranicehranice MachineLearning,ArtificialIntelligence,DataMining Matematickábiologie&ICT náhodnýodhadnáhodnýodhad sítěnapočátkusítěnapočátku MachineLearning,ArtificialIntelligence,DataMining Matematickábiologie&ICT sítínalezenásítínalezená hranicenahranicena koncivýpočtukoncivýpočtu MachineLearning,ArtificialIntelligence,DataMining Matematickábiologie&ICT Metodaalgoritmůprovyhledáváníznalostizdatazinformace existujíminimálnědesítky,smodifikacemistovkyavíce. Vsoučasnédoběivdohlednébudoucnostijsouabudou tytonástrojeintenzivněrozvíjenyaaplikovány.Důvodem jeextrémněsilnýnárůstmnožstvídatvnejrůznějšíchoborech azároveňpotřebatatodatanejenukládat,aleinetriviálním způsobemzpracovávatpomocístrojů­lidéjezpracovávat nemohoukvůliobrovskémurozsahuasložitosti. Nalidechjeovšemnaléztmetodyzpracováníavyhodnotit výsledkyvčetněrozhodnutí,co,jak,kdyakdepoužít. Dolováníznalostizdatjesložitýačasověnáročnýproces, kdeneuvážená,povrchníaplikacealgoritmůbezjejich pochopenímůževéstkešpatnýmvýsledkůmvrealitě. END