logo-IBA Pokročilé neparametrické metody Pokročilé neparametrické metody esf-komplet-barva.jpg Klára Komprdová logo-IBA Pokročilé neparametrické metody Pokročilé neparametrické metody ¢Výuka ¢11 přednášek doplněných o praktické cvičení v SW ¢ ¢Úvod do neparametrických metod + princip rozhodovacích stromů ¢Klasifikační a regresní stromy typu CART ¢Další typy stromů (MARS, PRIM, CHAID) ¢Náhodné lesy - Bagging, Boosting, Arcing, Random forest ¢Měření přesnosti modelů ¢Validační techniky ¢Příklady použití neparametrických metod ¢průběžné testy z probírané látky (každou druhou hodinu) ¢ ¢Ukončení ¢písemná zkouška (příklady; minimum 60% bodů) + ústní zkouška ¢z průběžných testů lze získat 10% bodů do celkového testu! ¢ logo-IBA Pokročilé neparametrické metody Úvod do neparametrických metod Princip rozhodovacích stromů logo-IBA Pokročilé neparametrické metody Rozdělení modelů ¢ ¢Popisuje budoucí stav systému nebo jeho podmínek? ANO Dynamické modely - závislé na čase - spojité, diskrétní NE Statické modely - nezávislé na čase ¢Popisují prostorovou strukturu? ANO Prostorově heterogenní - diskrétní, spojité ¢ NE Prostorově homogenní modely ¢Zahrnuje náhodnou složku? ANO Stochastické modely ¢ NE Deterministické modely logo-IBA Pokročilé neparametrické metody Typy proměnných ¢Kvalitativní (kategoriální) —lze pouze určit, zda jsou dvě „hodnoty“ stejné nebo se liší —typ půdy, barvy, typ habitatu ¢Semikvantitativní (ordinální) —Lze určit rovněž pořadí hodnot —abundanční třídy, řády toku, teplota po stupních ¢Kvantitativní (spojité) —lze provádět všechny matematické operace —Intervalové, poměrové —Výška, váha, počty druhů ¢binární —lze ji považovat za kvantitativní, semikvantitativní i kvalitativní proměnnou —výskyt/ nevýskyt druhu, odpověď pacientů na léčbu, výsledky dotazníků typu ANO/NE logo-IBA Pokročilé neparametrické metody Typy proměnných ¢Ze statistického hlediska —závisle proměnná (vysvětlovaná) – proměnná, jejíž hodnoty chceme vysvětlit a/nebo předpovědět pomocí jiných proměnných, na kterých závisí —vysvětlující proměnné, nezávisle proměnné, prediktory – proměnné, pomocí nichž se snažíme vysvětlit závisle proměnnou — — Y X Vztah – lineární, nelineární logo-IBA Pokročilé neparametrické metody Rozdělení stochastických metod ¢Parametrické x Neparametrické —Parametrické – předpoklady o rozdělení dat ¢Klasické lineární modely, zobecněné lineární modely, lineární diskriminační analýza —Neparametrické – nemají předpoklady o rozložení dat ¢Rozhodovací stromy, lesy, neuronové sítě… —Semiparametrické – Zobecněné aditivní modely, metoda podpůrných vektorů ¢Regresní x Klasifikační —Regresní - modelujeme závislost spojité závisle proměnné na jedné či více nezávislých proměnných —Klasifikační - modelujeme závislost kategoriální závisle proměnné na jedné či více nezávislých proměnných — ¢Lineární x Nelineární ¢Jednorozměrné x Vícerozměrné — logo-IBA Pokročilé neparametrické metody Rozdělení metod podle počtu závisle proměnných a prediktorů rozdeleni_metod logo-IBA Pokročilé neparametrické metody Z jiného pohledu - živočichové x rostliny x proměnné prostředí bird_3 Blue_wolf Floiwer_2 x x Procesově orientované modely (deterministické) Stochastické modely Procesově orientované modely (deterministické) Stochastické modely, interpolační logo-IBA Pokročilé neparametrické metody Proces modelování I ¢Design vzorkování a zpracování dat (z literatury, předešlých experimentů) ¢Terénní sběr dat a laboratorní analýzy ¢Analýza datového souboru a tvorba modelu ¢Kalibrace a validace modelu ¢Interpretace modelu, jeho srovnání s realitou ¢použití modelu logo-IBA Pokročilé neparametrické metody Proces modelování II logo-IBA Pokročilé neparametrické metody Proces modelování III ¢simulace - použití modelu na libovolném datovém souboru, i uměle vytvořeném. Simulace může sloužit k hlubšímu pochopení modelovaných procesů a zjištění chování modelu při limitním nastavení jeho parametrů ¢validace - porovnání výsledků modelu s nezávislým datovým souborem, (např. získaným experimentálně na jiné lokalitě, nebo v jiném roce). Parametry modelu jsou již pevně stanoveny předchozí kalibrací. Pro pojem validace se velmi často používá také obecnější pojem testování ¢robustnost - ověření funkčnosti modelu při opakované aplikaci např. za různých environmentálních podmínek a na různých lokalitách ¢post audit - srovnání předpovědi výsledku modelu s experimentální činností prováděnou v budoucnosti ¢analýza citlivosti - zjištění efektu malých změn parametrů modelu na jeho výsledek ¢analýza nejistot - stanovení standardní odchylky predikované proměnné (jejího průměru) na základě nejistot ve vstupních parametrech modelu ¢expertní posouzení - odborné zhodnocení, zda model obsahuje všechny důležité procesy a závislosti, jestli jsou správně matematicky formulovány a zdali model správně popisuje modelovaný problém ¢tolerance k šumu - tolerance k irelevantním neboli odlehlým pozorováním. ¢stabilita – model je stabilní, pokud při malé změně dat nedojde k rozdílným výsledkům modelu ¢predikce – předpověď nových hodnot pomocí modelu ¢ logo-IBA Pokročilé neparametrické metody Srovnání vlastností metod tabulka_metody KLM - Klasický lineární model, GLM – Zobecněné lineární modely, GAM – Zobecněné aditivní modely, LDA – Lineární diskriminační analýza, CART- Klasifikační a regresní stromy, RF – Random forest, SVM – Metoda podpůrných vektorů, NNs – Neuronové sítě, Naivní bayes. – Naivní bayesovský klasifikátor, k-NN – metoda nejbližšího souseda logo-IBA Pokročilé neparametrické metody Validace modelu ¢validace modelu je jedním z nejdůležitějších bodů v procesu modelování ¢probíhá s použitím různých datových souborů ¢ ¢ ¢ ¢ ¢Trénovací - soubor k tvorbě modelu ¢Testovací – soubor ke kalibraci modelu ¢Validační – nezávislý soubor k validaci modelu (např. jiné území, skup. pacientů…) ¢Ve skutečnosti většinou nenastává takto ideální situace a nezávislý testovací soubor nemusí být k dispozici. Pro tyto případy se používají různé validační techniky. ¢ ¢!vybrat „nejjednodušší“ model, vysvětlující největší množství informace! logo-IBA Pokročilé neparametrické metody Validace modelu —Validační techniky: —Analytické - zahrnující například informační kritéria (AIC, BIC) —Založené na opakovaném použití pozorování - krosvalidace, jednoduché rozdělení, bootstrap, jacknifing ¢ ¢Odhady celkové chyby pomocí validačních technik ¢jsou používány: ¢ ¢pro výběr mezi různými modely ¢k odhadu stability modelu ¢k zjištění obecné platnosti modelu ¢k určení složitosti modelu ¢k výběru proměnných do modelu ¢ Rozhodovací stromy (Decision Trees) Úvod logo-IBA Pokročilé neparametrické metody Regresní a klasifikační stromy (Regression and Classification Trees) ¢jsou nejméně formální a nejméně parametrickou skupinou statistických modelů ¢model – popisuje vzájemné vztahy mezi pozorovanými veličinami ¢sada hierarchicky uspořádaných rozhodovacích pravidel ¢se stromovou strukturou se setkáváme poměrně často, neboť je přehledná a snadno interpretovatelná - rodokmeny, fylogenetické (evoluční) stromy, botanické klíče nebo zobrazení adresářů a jejich podsložek v počítači... ¢terminologie – analogie se stromy v přírodě stromy rostou, větví se, prořezávají logo-IBA Pokročilé neparametrické metody Botanický klíč – určení skupin Klíč ke Květeně České republiky, str.48 logo-IBA Pokročilé neparametrické metody Rozdělení živočichů podle vlastností zviratka tabulka_zviratka logo-IBA Pokročilé neparametrické metody Struktura stromu •rozhodovací strom se skládá z kořene a uzlů - v každém neterminálním uzlu se strom větví •uzly •Terminální •Neterminální (list) •Mateřské x dceřiné kořen představuje celý soubor a postupně probíhá větvení do dalších uzlů → strom roste - uzly, které se již dále nedělí, se označují jako terminální uzly nebo také listy logo-IBA Pokročilé neparametrické metody typy stromů – binární x nebinární ¢ ¢Binární stromy – z jednoho uzlu vyrůstají právě dvě větve ¢Nebinární stromy – z jednoho uzlu vyrůstají dvě a více větví logo-IBA Pokročilé neparametrické metody Regresní a klasifikační strom ¢Mějme strom T s uzly t = (t1,...,tN). ¢ ¢klasifikační strom - pozorování kategoriální závisle proměnné Y s J kategoriemi jsou zařazeny do některé z kategorií c = (c1,..,cJ), kde J ³ 2. —Spamy – určení, který doručený e-mail je spam a který není spam. —Kosatce – třídění kostaců do jednotlivých druhů na základě velikosti jejich okvětních a kališních lístků — ¢regresní strom - Pokud je závisle proměnná spojitá Y = (y1,...,yn), pozorováním je přiřazena hodnota predikovaná modelem ŷi a výsledný strom bude regresní. —Ozón – modelování množství ozonu v závislosti na nadmořské výšce, teplotě a rychlosti větru —Závislost spotřeby plynu na venkovní teplotě ¢ logo-IBA Pokročilé neparametrické metody Prediktory ¢Pozorování proměnné Y jsou rozdělena do uzlů hodnotami vysvětlujících proměnných (prediktorů) X1,...,XM. ¢Rozdělení je znázorněno graficky pomocí větví stromu. ¢Pokud jsou prediktory kategoriální, hodnoty yi jsou rozděleny podle kategorií prediktoru X - odpovídáme na otázku, které pozorování yi patří do množiny kde xi A, přičemž A je neprázdná vlastní podmnožina množiny všech hodnot veličiny X. —př. Rozdělení ovoce na základě barev ¢V případě spojitého prediktoru rozdělujeme Y pomocí hodnoty a daného prediktoru X - pozorování yi patří do prvního uzlu, pokud je xi ≥ a a do druhého uzlu pokud je xi < a. —př. určení pohlaví dospělých koček (závisle proměnná) na základě jejich hmotnosti (prediktor). < 5 kg hmotnost ≥ 5 kg kočka kocour barva švestka banán modrá žlutá logo-IBA Pokročilé neparametrické metody Obecně… ¢k danému větvení stromu je použito vždy jen jednoho prediktoru ¢stejný prediktor však může být využit v dalším větvení ¢každé pozorování tak patří pouze do jednoho terminálního uzlu —je mu přiřazena kategorie (klasifikační strom) —nebo průměr hodnot (regresní strom) závisle proměnné Y tohoto uzlu ¢ ¢stromy nekladou nároky na rozložení dat, jako například konstantní rozptyl, normální rozložení nebo nezávislost prediktorů… ¢ ¢parametry algoritmu jsou často určeny experimentálně testováním různých nastavení jejich hodnot -tento postup však skrývá nebezpečí zejména při kalibraci modelu, která může být do jisté míry subjektivní a závisí na zkušenosti badatele ¢ → ! je potřeba opatrnosti při tvorbě a interpretaci modelu ! ¢ logo-IBA Pokročilé neparametrické metody Typ stromu? Typ prediktoru? zviratka tabulka_zviratka logo-IBA Pokročilé neparametrické metody Př: Rozhodovací strom pro kosatce ¢150 případů, vždy 50 případů ve skupině ¢3 skupiny – druhy kosatců: Setosa, Versicolour, Virginica ¢4 prediktory: délka a šířka korunních a kališních lístků ¢ ¢Zdroj příkladu: Yu-Shan Shih - Tree-structured methods - IRIS data logo-IBA Pokročilé neparametrické metody Příklad -ozón denní měření koncentrace ozónu (%) v závislosti na rychlosti větru, teplotě vzduchu a intenzitě slunečního záření v New Yorku n = 111 logo-IBA Pokročilé neparametrické metody Příklad – ozón logo-IBA Pokročilé neparametrické metody Typy stromů ¢Existuje celá řada algoritmů pro vytváření stromů ¢ ¢CART a C4.5 - nejznámější a nejpoužívanější ¢ ¢CHAID pro kategoriální a ordinální proměnné ¢stromy určené pro regresní problémy PRIM a MARS —nedají se zobrazit pomocí stromové struktury —PRIM - sada rozhodovacích —MARS – výstupem je regresní rovnice ¢ ¢princip tvorby stromu je pro všechny algoritmy velmi podobný ¢liší se především v nalezení vhodného prediktoru X pro každou hierarchickou úroveň stromu a hodnoty prediktoru a pro rozdělení proměnné Y ¢ logo-IBA Pokročilé neparametrické metody K čemu budeme stromy využívat? ¢ ¢ zajímá nás struktura těchto dat, postižení vzájemných vztahů – explanatorní technika ¢klasifikace nebo predikce dosud neznámých případů logo-IBA Pokročilé neparametrické metody Stromy typu CART logo-IBA Pokročilé neparametrické metody Strom typu CART struktura_stromu ¢ ¢Breiman et al. 1984 ¢vhodné pro kategoriální i regresní úlohy ¢rostou na základě rekurzivního binárního dělení logo-IBA Pokročilé neparametrické metody Jak roste strom CART? ¢ ¢pozorování rozdělena do dvou dceřiných uzlů, na základě hodnoty a prediktoru X, které jsou dále děleny opět binárně na další uzly ¢ ¢hodnoty vysvětlujících proměnných, použité při větvení, rozdělují daný prostor na sadu pravoúhelníků a pak pro každý z nich fitují jednoduchý model ¢ ¢ ¢ logo-IBA Pokročilé neparametrické metody Grafické znázornění stromu CART ¢rozdělení pozorování do kategorií A a B závisle proměnné Y s použitím dvou spojitých prediktorů X1, X2 X1 X2 a5 a10 t3 t2 t1 A B B A, B B X2