Pokročilé neparametrické metody Klára Komprdová evropský sociální r? fond V ČR EVROPSKÁ UNIE MINISTERSTVO ŠKOLSTVÍ. MLÁDEŽE A TĚLOVÝCHOVY j l Z OP Vzdělávání pro konkurenceschopnost •y -P, JMI if c/5 i INVESTICE DO ROZVOJE VZDELÁVANÍ Pokročilé neparametrické metody J Pokročilé neparametrické metody Výuka o 11 přednášek doplněných o praktické cvičení v SW o Úvod do neparametrických metod + princip rozhodovacích stromů o Klasifikační a regresní stromy typu CART o Další typy stromů (MARS, PRIM, CHAID) o Náhodné lesy - Bagging, Boosting, Arcing, Random forest o Měření přesnosti modelů o Validační techniky o Příklady použití neparametrických metod průběžné testy z probírané látky Ukončení o písemná zkouška (příklady; minimum 60% bodů) + ústní zkouška o z průběžných testů lze získat 10% bodů do celkového testu! Pokročilé neparametrické metody Úvod do neparametrických metod Princip rozhodovacích stromů Pokročilé neparametrické metody f BA Rozdělení modelů Popisuje budoucí stav systému nebo jeho podmínek? ANO Dynamické modely - závislé na čase - spojité, diskrétní NE Statické modely - nezávislé na čase Popisují prostorovou strukturu? ANO Prostorově heterogenní - diskrétní, spojité NE Prostorově homogenní modely Zahrnuje náhodnou složku? ANO Stochastické modely NE Deterministické modely Pokročilé neparametrické metody f BA Typy proměnných o Kvalitativní (kategoriální) • lze pouze určit, zda jsou dvě „hodnoty" stejné nebo se liší • typ půdy, barvy, typ habitatu o Semikvantitativní (ordinální) • Lze určit rovněž pořadí hodnot • abundanční třídy, řády toku, teplota po stupních o Kvantitativní (spojité) • lze provádět všechny matematické operace • Intervalové, poměrové • Výška, váha, počty druhů o binární lze ji považovat za kvantitativní, semikvantitativní i kvalitativní proměnnou • výskyt/ nevýskyt druhu, odpověď pacientů na léčbu, výsledky dotazníků typu ANO/NE Pokročilé neparametrické metody Typy proměnných o Ze statistického hlediska • závisle proměnná (vysvětlovaná) - proměnná, jejíž hodnoty chceme vysvětlit a/nebo předpovědět pomocí jiných proměnných, na kterých závisí • vysvětlující proměnné, nezávisle proměnné, prediktory -proměnné, pomocí nichž se snažíme vysvětlit závisle proměnnou Vztah - lineární, nelineární Y ' x Pokročilé neparametrické metody Rozdělení stochastických metod o Parametrické x Neparametrické • Parametrické - předpoklady o rozdělení dat > Klasické lineární modely, zobecněné lineární modely, lineární diskriminační analýza • Neparametrické - nemají předpoklady o rozložení dat > Rozhodovací stromy, lesy, neuronové sítě... • Semiparametrické - Zobecněné aditivní modely, metoda podpůrných vektorů o Regresní x Klasifikační • Regresní - modelujeme závislost spojité závisle proměnné na jedné či více nezávislých proměnných • Klasifikační- modelujeme závislost kateporiálnízávisle proměnné na jedné či více nezávislých proměnných o Lineární x Nelineární o Jednorozměrné x Vícerozměrné Pokročilé neparametrické metody Rozdělení metod podle počtu závisle proměnných a prediktorů nepřímé ordinační techniky, shl u kovací metody (vícerozměrné) proměnné Yv regrese, klasifikace (jednorozměrná) závisle proměnná Y prediktorX c -05 > O i— o N O CL Y X X 'E -05 > o i— o N O CL X přímé ordinační techniky (vícerozměrné) proměnné Y^,...,Yp prediktory Xv...,Xt M C -03 > O i— O N O CL Pokročilé neparametrické metody Z jiného pohledu - živočichové x rostliny x proměnné prostředí x Procesově orientované modely (deterministické) Stochastické modely Procesově orientovaná modely (deterministické) Stochastické modely, interpolační Pokročilé neparametrické metody IBA. Proces modelování I o Design vzorkování a zpracování dat (z literatury, předešlých experimentů) o Terénní sběr dat a laboratorní analýzy o Analýza datového souboru a tvorba modelu o Kalibrace a validace modelu o Interpretace modelu, jeho srovnání s realitou použití modelu Pokročilé neparametrické metody Proces modelování II c CD >ü C/) (D O O Descriptive data from literature, field knowledge 1. Conceptual model 7~ Sampling design 2. Statistical formulation Quality of C the fit Calibration dataset Laboratory experimerits (ecophysiology) Statistical literature, existing models Evaluation dataset { \^ Diagnostic tests Predicted values Predictive power 5. Evaluation, Evaluation tabels Pokročilé neparametrické metody Proces modelování o simulace - použití modelu na libovolném datovém souboru, i uměle vytvořeném. Simulace může sloužit k hlubšímu pochopení modelovaných procesů a zjištění chování modelu při limitním nastavení jeho parametrů o validace - porovnání výsledků modelu s nezávislým datovým souborem, (např. získaným experimentálně na jiné lokalitě, nebo v jiném roce). Parametry modelu jsou již pevně stanoveny předchozí kalibrací. Pro pojem validace se velmi často používá také obecnější pojem testování o robustnost - ověření funkčnosti modelu při opakované aplikaci např. za různých environmentálních podmínek a na různých lokalitách o post audit - srovnání předpovědi výsledku modelu s experimentální činností prováděnou v budoucnosti o analýza citlivosti - zjištění efektu malých změn parametrů modelu na jeho výsledek o analýza nejistot - stanovení standardní odchylky predikované proměnné (jejího průměru) na základě nejistot ve vstupních parametrech modelu o expertní posouzení - odborné zhodnocení, zda model obsahuje všechny důležité procesy a závislosti, jestli jsou správně matematicky formulovány a zdali model správně popisuje modelovaný problém o tolerance k šumu - tolerance k irelevantním neboli odlehlým pozorováním. o stabilita - model je stabilní, pokud při malé změně dat nedojde k rozdílným výsledkům modelu o predikce - předpověď nových hodnot pomocí modelu Pokročilé Srovnání vlastností metod KLM - Klasický lineární model, GLM - Zobecněné lineární Klasifikační a regresní stromy, RF - Random forest, SVM klasifikátor, k-NN - metoda nejbližšího souseda modely, GAM - Zobecněné aditivní modely, LDA - Lineární diskriminační analýza, CART-- Metoda podpůrných vektorů, NNs - Neuronové sítě, Naivní bayes. - Naivní bayesovský KLM GLM, GAM LDA CART RF SVM Naivní k-NN Použití pro klasifikaci • • O 0 0 Použití pro regresi v • ♦ O • # Distribuční předpoklady • • • o o O 0 O 0 Celková přesnost predikce O A 0 Použití prediktorů různých typů • • • • • • • Tolerance k velkému počtu prediktorů • • • o Tolerance k redundantním proměnným • • • o • O • * Tolerance k odlehlým hodnotám • • • • • • Metoda vhodná pro malý počet pozorování • • o • • Metoda vhodná pro velký počet pozorování • • • • • o o O Tolerance k nerelevantním proměnným • o • o • Tolerance k šumu • o o • Stabilita • • • • o • ilJtfmJSMMilílšt modelu O • • • • • m • Náročnost nastavení parametrů modelu • • * * o o Legenda: • výborné * é * problematické Pokročilé neparametrické metody IBA Validace modelu o validace modelu je jedním z nejdůležitějších bodů v procesu modelování o probíhá s použitím různých datových souborů Train Validation Test o Trénovací - soubor k tvorbě modelu o Testovací - soubor ke kalibraci modelu Validační - nezávislý soubor k validaci modelu (např. jiné území, skup. pacientů...) o Ve skutečnosti většinou nenastává takto ideální situace a nezávislý testovací soubor nemusí být k dispozici. Pro tyto případy se používají různé validační techniky. o !vybrat „nejjednodušší" model, vysvětlující největší množství informace! Pokročilé neparametrické metody Validace modelu Validační techniky: • Analytické - zahrnující například informační kritéria (AIC, BIC) • Založené na opakovaném použití pozorování - krosvalidace, jednoduché rozdělení, bootstrap, jacknifing Odhady celkové chyby pomoci validačních technik jsou používány: o pro výběr mezi různými modely o k odhadu stability modelu o k zjištění obecné platnosti modelu o k určení složitosti modelu o k výběru proměnných do modelu Pokročilé neparametrické metody Rozhodovací stromy (Decision Trees) Úvod Regresní a klasifikační stromy {Regression and Classification Trees) o jsou nejméně formální a nejméně parametrickou skupinou statistických modelů o model - popisuje vzájemné vztahy mezi pozorovanými veličinami o sada hierarchicky uspořádaných rozhodovacích pravidel o se stromovou strukturou se setkáváme poměrně často, neboť je přehledná a snadno interpretovatelná - rodokmeny, fylogenetické (evoluční) stromy, botanické klíče nebo zobrazení adresářů a jejich podsložek v počítači... o terminologie - analogie se stromy v přírodě—► stromy rostou, větví se, prořezávají Pokročilé neparametrické metody Botanický klíč - určení skupin Klíč ke Květeně České republiky, str.48 Rostliny Rozmnoženi výtrusy ANO Kapradorosty jehlice, rozmnozonaci organy vsisce mí— nahosemenne ANO krytosemnne jednodelozne ANO krytosemenne dvoudelozne vice pestiku ANO krytosememe dvoudelozne lpestik atd. ANO krytosememe dvoudelozne lpestik, volne C lístky krytosemnne dvoudelozne lpestik, srostle Clistky Pokročilé neparametrické metody Rozdělení živočichů podle vlastností obratlovec teplokrevný může létat obratlovec ohrožený žije ve skupinách má chlupy kočka ANO NE ANO NE NE ANO kachna ANO ANO ANO NE ANO NE sleď NE NE ANO NE ANO NE lev ANO NE ANO ANO ANO ANO ještěrka NE NE ANO NE NE NE velryba ANO NE ANO ANO ANO NE mravenec NE NE NE NE ANO NE včela NE ANO NE NE ANO ANO housenka NE NE NE NE NE ANO Pokročilé neparametrické metody IBA Struktura stromu Koren (root) uzel (nodum) uzel (nodum) uzel (nodum) list (leaf) list (leaf) list (leaf) list (leaf) list (leaf) list (leaf) list (leaf) rozhodovací strom se skládá z kořene a uzlů - v každém neterminálním uzlu se strom větví uzly Terminálni Neterminální (list) Mateřské x dceřiné kořen představuje celý soubor a postupně probíhá větvení do dalších uzlů —► strom roste - uzly, které se již dále nedělí, se označují jako terminálni uzly nebo také listy Pokročilé neparametrické metody j typy stromů - binární x nebinární o Binární stromy - z jednoho uzlu vyrůstají právě dvě větve o Nebinární stromy - z jednoho uzlu vyrůstají dvě a více větví Pokročilé neparametrické metody Regresní a klasifikační strom Mějme strom Ts uzly t= (tv...,tN). o klasifikační strom - pozorování kategoriální závisle proměnné Y s J kategoriemi jsou zařazeny do některé z kategorií c = (cv..,Cj), kde J >2. • Spamy - určení, který doručený e-mail je spam a který není spam. • Kosatce - třídění kostaců do jednotlivých druhů na základě velikosti jejich okvětních a kališních lístků o regresní strom - Pokud je závisle proměnná spojitá Y= (y^...,yn), pozorováním je přiřazena hodnota predikovaná modelem ý, a výsledný strom bude regresní. • Ozón - modelování množství ozonu v závislosti na nadmořské výšce, teplotě a rychlosti větru • Závislost spotřeby plynu na venkovní teplotě Pokročilé neparametrické metody Pred i kto ry Pozorování proměnné Yjsou rozdělena do uzlů hodnotami vysvětlujících proměnných (prediktorů) XV...,XM. Rozdělení je znázorněno graficky pomocí větví stromu. Pokud jsou prediktory kategoriální, hodnoty y; jsou rozděleny podle kategorií prediktorů X- odpovídáme na otázku, které pozorování y, patří do množiny kde Xj A, přičemž A je neprázdná vlastní podmnožina množiny všech hodnot veličiny X. př. Rozdělení ovoce na základě barev V případě spojitého prediktorů rozdělujeme Y pomocí hodnoty a daného prediktorů X- pozorování y patří do prvního uzlu, pokud je x, > a a do druhého uzlu pokud je x, < a. př. určení pohlaví dospělých koček (závisle proměnná) na základě jejich hmotnosti (prediktor). hmotnost barva < 5 kg >5kg žlutá modrá kočka kocour banán švestka Pokročilé neparametrické metody IBA Obecně... o k danému větvení stromu je použito vždy jen jednoho pred i ktoru o stejný prediktor však může být využit v dalším větvení o každé pozorování tak patří pouze do jednoho terminálního uzlu je mu přiřazena kategorie (klasifikační strom) nebo průměr hodnot (regresní strom) závisle proměnné Y tohoto uzlu o stromy nekladou nároky na rozložení dat, jako například konstantní rozptyl, normální rozložení nebo nezávislost prediktorů... o parametry algoritmu jsou často určeny experimentálně testováním různých nastavení jejich hodnot -tento postup však skrývá nebezpečí zejména při kalibraci modelu, která muže být do jisté míry subjektivní a závisí na zkušenosti badatele —>! je potřeba opatrnosti při tvorbě a interpretaci modelu ! Pokročilé neparametrické metody Typ stromu? Typ prediktoru? obratlovec ANQ^\NE teplokrevný ANO/X NE žije ve skupinách NE ohrožený NE y\ ANO žije ve skupinách (housenka NE y\ ANO může létat ANOX\ NE má chlupy ( ještěrka NE /\ ANO ANO může létat NE y\ ANO teplokrevný může létat obratlovec ohrožený žije ve skupinách má chlupy kočka ANO NE ANO NE NE ANO kachna ANO ANO ANO NE ANO NE sleď NE NE ANO NE ANO NE lev ANO NE ANO ANO ANO ANO ještěrka NE NE ANO NE NE NE velryba ANO NE ANO ANO ANO NE mravenec NE NE NE NE ANO NE včela NE ANO NE NE ANO ANO housenka NE NE NE NE NE ANO Pokročilé neparametrické metody IBA Př: Rozhodovací strom pro kosatce 150 případů, vždy 50 případů ve skupině 3 skupiny - druhy kosatců: Setosa, Versicolour, Virginica 4 prediktory: délka a šířka korunních a kališních lístků Petal length < 2.10 50 0 0 Petal wídtft < 1.64 Setosa o Zdroj příkladu: Yu-Shan Shih - Tree-structured methods - IRIS data 0|48|4 Versicolor 0 2 46 Pokročilé neparametrické metody Příklad -ozón denní měření koncentrace ozónu (%) v závislosti na rychlosti větru, teplotě vzduchu a intenzitě slunečního záření v New Yorku o N O O N O O m o o o m 60 70 80 90 temperature o o o o O O o 8 o o °o° °o e o e9P° _ -o°o0ooO —1-1— 50 100 T" "~I— 200 I— 300 o N O O m o o o m 10 15 20 wind n = 111 radiation Pokročilé neparametrické metody Příklad - ozón temperature< 82.5 windí-=6.6 windH= 10.6 temperature< 77.5 18.47 n=49 r~ 13 n=4 48.71 n=7 windí-=4.3 radiatipn< 82 92.5 n=4 temperat[jre< 87.5 6^5~ 88!23 n=10 n=13 112 n=4 —I 36.75 n=20 Pokročilé neparametrické metody Typy stromů o Existuje celá řada algoritmů pro vytváření stromů o o CART a C4.5 - nejznámější a nejpoužívanější o CHAID pro kategoriální a ordinální proměnné stromy určené pro regresní problémy PRIM a MARS • nedají se zobrazit pomocí stromové struktury • PRIM - sada rozhodovacích • MARS - výstupem je regresní rovnice o princip tvorby stromu je pro všechny algoritmy velmi podobný o liší se především v nalezení vhodného prediktoru X pro každou hierarchickou úroveň stromu a hodnoty prediktoru a pro rozdělení proměnné Y Pokročilé neparametrické metody K čemu budeme stromy využívat? o zajímá nás struktura těchto dat, postižení vzájemných vztahů - explanatorní technika o klasifikace nebo predikce dosud neznámých případů Pokročilé neparametrické metody