Pokročilé neparametrické metody Klára Komprdová ^^^^É I SOCiaini_ ^^^^^^^ MINISTERSTVO ŠKOLSTVÍ, OP Vzdělávání Vi^i^sf W^^t0 m fond V CR EVROPSKÁ UNIE mládeže a tělovýchovy pro konkurenceschopnost MlVA^ INVESTICE DO ROZVOJE VZDELÁVANÍ Další typy stromů C HAID, PRIM, MARS CHAID - Chi-squared Automatic Interaction Detector o G.V.Kass(1980) o Strom pro kategoriální proměnné—► převod spojitých proměnných na ordinální o Je často využíván v komerčních sférách, především v marketingu a průzkumech veřejného mínění, má ale použití i v přírodovědných oborech. o nebinárního typu • Po prvním dělení nemusí zbývat dostatek pozorování na vytvoření dalších „pater" stromu —^vhodnější pro větší datové soubory. o Jako kriteriální statistika pro větvení se používá x2 -test. Pokročilé neparametrické metody Příklad - kosatce ■SETOSA ■VERSICOL ■VIRGINIC Tree graph for IRISTYPE Num. of non-terminal nodes: 1, Num. of terminal nodes: 4 ID=1 N=150 SETOSA Pokročilé neparametrické metody 2 -test - opakování f- -test je použit pro zjištění nezávislosti v kontingenční tabulce, která je tvořena kombinací kategorií závisle proměnné a prediktoru Jsou-li Y a X nezávislé, má testová statistika přibližně Pearsonovo f- rozdělení s u = (r-1)(s-1) stupni volnosti, kde r je počet řádků a s je počet sloupců v kontingenční tabulce. Nezávislost v kontingenční tabulce znamená, že se obě proměnné navzájem neovlivňují v hodnotách, které nabývají. Hypotéza nezávislosti jevů je zde nulovou hypotézou H0. Pearsonův f--test je často označován jako test dobré shody. Pokročilé neparametrické metody Kontingenční tabulka kategorie prediktoru X 1 2 ... S Celkem g- 1 P11 P12 Pis "i (D o 2 P21 P22 P2s R2 je počet pozorování v řádku /, Sy je počet pozorování ve sloupci j. Pokročilé neparametrické metody Příklad - Rozdělení semen dvou příbuzných rostlin podle barvy a tvaru o Bylo zkoumáno celkem 160 semen dvou druhů příbuzných rostlin. Semena byla roztříděna do následujících kategorií: žluté/hladké; žluté/vrásčité; zelené/hladké; zelené/vrásčité žluté/hladké žluté/vrásčité zelené/hladké zelené/vrásčité Celkový součet Druhí 10 25 10 15 60 Očekávaný počet Druh2 20 30 20 30 100 Očekávaný počet Celkový součet 30 55 30 45 160 Pokročilé neparametrické metody Algoritmus růstu stromu CHAID Krokl: pro každý prediktor X;. Vytvoř kontingenční tabulku kategorií závisle proměnné a prediktoru. Krok 2: mohou nastat tři případy: Pokud je počet kategorií prediktoru > 2, utvoří se dvojice z kategorií prediktoru—> kategoriální x ordinální. Najde se taková dvojice, která si je co do hodnot závisle proměnné Y nejvíce podobná —ndvojice, jejíž f-- test má nejvyšší p hodnotu. Pokud má prediktor 2 kategorie —► algoritmus pokračuje krokem 5 Pokud má prediktor X pouze jednu kategorii —► p hodnota je nastavena na 1 Krok 3: Dvojice s nejvyšší p hodnotou, která není statisticky významná nebo větší než alpha2, se sloučí do jedné skupiny. u ordinálního prediktoru se spojují pouze sousední kategorie u kategoriálního jsou dvojice vytvořeny kombinací všech kategorií. Prediktor X je dále používán s novými již sloučenými kategoriemi Pokud je i po sloučení počet kategorií > 2, algoritmus se vrátí do kroku 2. Pokud ne, algoritmus pokračuje krokem 4 nebo 5. Pozn: alpha2, 3 a 4 jsou hodnoty zadané uživatelem Pokročilé neparametrické metody Algoritmus růstu stromu CHAID Krok 4: Sloučené kategorie mohou být zpětně rozděleny. Jestliže se nově vytvořené skupiny kategorií skládají ze tří nebo více původních kategorií, najde se nejlepší binární rozdělení mezi sloučenými kategoriemi (s nejnižší p hodnotou). Pokud je p hodnota významná nebo větší než alpha3, dojde k rozdělení. Krok 5: Každá kategorie, která má velmi málo pozorování (minimum je definováno uživatelem), je spojena s nejpodobnější kategorií (opět určeno na základě největší p hodnoty) pozn: toto nastavení je volitelné a bývá dostupné jen v některých softwarech. Výše popsaným postupem jsme získali optimální sloučení pro každý prediktor. Krok 6: V posledním kroku je spočítána adjustovaná p hodnota ^2 testu pro sloučené kategorie každého z prediktorů pomocí Bonferroniho korekce. Vybere se prediktor s nejmenší adjustovanou p hodnotou nebo hodnotou větší než alpha4. Tento prediktor s optimálně sloučenými kategoriemi je použit k rozdělení uzlu. Pokud významný prediktor nelze |* nalézt, uzel se již dále nedělí a je považován za terminálni. Pokročilé neparametrické metody f BA Algoritmus růstu stromu CHAID - ilustrační príklad Zajímá nás klasifikace potravních strategií druhů makrozoobentosu podle různých kategorií nadmořské výšky. Pro jednoduchost se budeme zabývat pouze jedním prediktorem. Krokl Kontingenční tabulka -v buňkách by byly počty jednotlivých druhů N-nížinné S - střední P - podhorské H - horské sběrači spásači filtrátoři dravci Pokročilé neparametrické metody Algoritmus růstu stromu CHAID - ilustrační príklad o Pro každou podtabulku je spočítán Pearsonův^2 -test nezávislosti. Najdeme největší p hodnotu testu, pokud není signifikantní (menší než zvolené or), kategorie spojíme. Protože je nadmořská výška ordinální parametr, můžeme sloučit pouze vedlejší kategorie. Krok 2 a 3 N S S P P H sběrači sběrači sběrači spásači spásači spásači filtrátoři filtrátoři filtrátoři dravci dravci dravci X\ p = 0,01 X\ p = 0,05 X\ p = 0,1 N S P + H sběrači spásači filtrátoři dravci Pokročilé neparametrické metody IBA Algoritmus růstu stromu CHAID - ilustrační príklad Test sloučených kategorií: Opět spočítáme Pearsonův^2-test nezávislosti pro každou podtabulku, nyní již sloučených kategorií. Obě p hodnoty byly statisticky významné pro zvolené cr=0,05 a k dalšímu sloučení již nedochází. Přecházíme rovnou do kroku 6, neboť jsme získali optimální sloučení prediktoru —► krok 4 a 5 není v našem příkladu potřeba. Krok 2 a 3 N S S P + H sběrači sběrači spásači spásači filtrátoři filtrátoři dravci dravci Z12 p = 0,01 X\2 P = 0,001 N S P + H sběrači spásači filtrátoři dravci p*B Pokročilé neparametrické metody f Algoritmus růstu stromu CHAID - ilustrační príklad o Finální rozdělení uzlu: • Za předpokladu, že je nadmořská výška prediktorem s nejnižší adjustovanou p hodnotou, původní uzel obsahující celý datový soubor bude rozdělen na tři dceřiné uzly, podle sloučených kategorií nadmořské výšky. Krok 6 Pokročilé neparametrické metody Bonferroniho korekce o V algoritmu dochází k současnému testování více hypotéz —>v našem příkladu bylo třeba učinit celkem čtyři testy pro možné sloučení kategorií. o Při mnohonásobném testování však vzrůstá pravděpodobnost, že zamítneme nulovou hypotézu H0, přestože platí. o Počet prováděných testů u metody CHAID roste s počtem kategorií závisle proměnné a prediktorů. o Použitím Bonferroniho korekce je možné zmírnit vliv mnohonásobného testování a získat porovnatelné p hodnoty pro jednotlivé prediktory s různým počtem kategorií. o Výsledná p hodnota pro kontingenční tabulku kategorií závisle proměnné a optimálně sloučeného prediktorů je vynásobena B koeficientem, čímž získáme adjustovanou p hodnotu pro daný ~ prediktor. Pokročilé neparametrické metody Bonferroniho korekce - Koeficient B o ordinální proměnná —> slučování sousedních kategorií o kategoriální proměnná—► slučování všech možných kombinací B ordinal B kategorial ý(-iY (r~ž')J o kde r je počet řádku a s je počet sloupců kontingenční tabulky kategorií závisle proměnné a prediktoru. Pokročilé neparametrické metody IBA Strom CHAID o Růst stromu se zastaví, pokud je dosaženo následujících pravidel: • není možné nalézt žádné významné rozdělení. • Všechna pozorování závisle proměnné v uzlu mají stejnou hodnotu nebo identickou hodnotu pro každý prediktor. • Pokud je dosaženo uživatelem definovaných nastavení, která se týkají: o parametrů velikosti stromu jako je nastavení počtu terminálních uzlů nebo větví; o počtu pozorování v uzlu, které je menší než minimum stanovené uživatelem nebo počtu pozorování, které by po rozdělení vedlo k dceřiným uzlům s menším počtem pozorování, než je definováno uživatelem. o Celkovou správnost stromu OAkateg určujeme stejně jako v případě stromu CART. K odhadu obecné chyby e(f) je možné opět použít k-testovacích souborů z krosvalidace. Pokročilé neparametrické metody Příklad- kosatce Classification matrix 1 Dependent variable: IRISTYPE Options: Categorical response, Analysis sample Classification matrix 1 (I risdat) Dependent variable: IRISTYPE Options: Categorical response, Anal^ sis sample Observed Predicted SETOSA Predicted VERSICOL Predicted VIRGINIC Row Total Number SETOSA 50 50 Column Percentage 100.00% 0.00% 0.00% Row Percentage 100.00% 0.00% 0.00% Total Percentage 33.33% 0.00% 0.00% 33.33% Number VERSICOL 45 5 50 Column Percentage 0.00% 93.75% 9.62% Row Percentage 0.00% 90.00% 10.00% Total Percentage 0.00% 30.00% 3.33% 33.33% Number VIRGINIC 3 47 50 Column Percentage 0.00% 6.25% 90.38% Row Percentage 0.00% 6.00% 94.00% Total Percentage 0.00% 2.00% 31.33% 33.33% Count All Groups 50 48 52 150 Total Percent 33.33% 32.00% 34.67% Pokročilé neparametrické metody PRIM - Patient Rule Induction Method i j Pokročilé neparametrické metody PRIM - Patient Rule Induction Method o PRIM (Friedman & Fisher, 1999) - metoda primárně určena pro regresi. o PRIM podobně jako ostatní rozhodovací stromy rozděluje pozorování závisle proměnné Ypomocí hodnot prediktorů do uzlů tv..,tN, —> označovaných jako okna B1,..., BK o Graficky můžeme okna znázornit jako jednotlivé regiony v prostoru prediktorů X,,..., XM. o V případě metody PRIM se však vyhledávají takové regiony, ve kterých je průměr hodnot závisle proměnné Y nejvyšší (nebo nejnižší). o Výsledkem je sada jednoduchých pravidel, která definují jednotlivá okna a rozdělují pozorování závisle proměnné Pokročilé neparametrické metody PRIM x2 b. O O _Q_ _Q_ TJ B S o ° ° o AAA A A A A . A A „ A A A D- 0 O A A O O D" O O O a1 b1 ^ (a^V 5 Ě 7 *#>:-\^.' 17 21 27 ^ H, t5 r 0 <8 » ™ [> D Sof (Hastie et. al, 2009) Algoritmus je hierarchický a používáme krosvalidaci Pokročilé neparametrické metody PRIM Stejně jako v CART lze použít kategoriální prediktor Oproti CART je výhodou, že se probere větší škála pravidel a můžeme najít optimální řešení Nevýhoda- není k dispozici stromová struktura —> okna jsou dána rozhodovacími pravidly PRIM je velmi vhodný pro případy, kdy nás zajímá nalezení skupin v datech s nejvyšší nebo nejnižší hodnotou závisle proměnné - např. při různých ochranných opatření, kdy výsledky mohou sloužit ke stanovení vhodné velikosti území podle pravděpodobnosti výskytu druhu nebo ke zjištění klimatických podmínek, při kterých dochází k největšímu znečištění ovzduší Pokročilé neparametrické metody MARS - Multivariate Adaptive Regression Splines i i Pokročilé neparametrické metody MARS - Multivariate Adaptive Regression Splines o Friedman (1991) o technika pro regresní problémy o na rozhraní mezi stromovou technikou a parametrickou regresí—^zobecnění postupné (stepwise) lineární regrese o odstraňuje určité nedostatky binárních regresních stromů, především nespojitosti odhadnutých hodnot závisle proměnné o prediktory mohou být spojité i kategoriální o výsledkem metody je regresní rovnice —> chybí stromová struktura a interpretace výsledků při velkém počtu proměnných může být obtížnější o k rozdělení pozorování závisle proměnné se nepoužívá konstanta, ale lineární aproximace Pokročilé neparametrické metody Spline- interpolace Interpolace - n body mohu proložit polynom (n -1) řádu - větší stupeň polynomu - oscilace mezi body daná množina bodů se aproximuje po částech = splíne křivky Pokročilé neparametrické metody j MARS o lineární spliny - po částech lineárních funkce (x - f)+ a (ŕ - x)+, kde + je kladná část (x-f)+= \ (x - f), pokud x > t 0, jinak r (t- x), pokud x < t (t-x)+ = [ 0, jinak o se svým středem (uzel) v každé hodnotě xjp pro každý prediktor Xy Příklad funkce (x - 10) + a (10 - x)+ Alternativní zápis:max(0, x - f) a max(0, t - x) Y in- CO-(N- o-H Zrcadlový pár y (x - io) + t= 10 i-1-1-1-1-1-1-1-1-1-r 0 8 10 12 14 16 18 20 t X (Hastie et. al, 2009) Pokročile neparametrické metody IBA MARS - příklad Lineární regrese ý = -37 + 5.1* ý = 25 + 6.1max(0,x- 13) - 3.1max(0, 13 -x) i-1-1-1-1-1-r 8 10 12 14 16 18 20 x MARS o o 0 01 i-1-1-1-1-T 8 10 12 14 16 18 20 x arametrické metody ISA. MARS x lineární regrese Mějme regresní rovnici: M m=\ kde Y je závisle proměnná, X,,..., XM jsou prediktory jS0 je intercept a /31,..., fiM regresní koeficienty u jednorozměrné lineární regrese je k vyjádření závislosti Y na X použita přímka a koeficienty jsou odhadnuty metodou nejmenších čtverců Pokročilé neparametrické metody MARS o předpokládejme model s jedním prediktorem a hodnotou uzlu t= 10, který můžeme zapsat pomocí dvou regresních rovnic: Y = J30 + £ pro x> 10 Y = J30 + P2{Xx) + £ pro x< 10 Rovnice můžeme vyjádřit ve tvaru: Y = b0+bl(Xl-t)++b2(t-Xl)++e kde Ď0 = jS0, Ď1 = jS1 a Ď2 = /32 Pokročilé neparametrické metody MARS - interakce proměnných o Stejně jako u lineární regrese lze i u metody MARS použít interakce proměnných o pro dva prediktory X,, X2: Y = b0 +b1(X1 -t\ +b2(t1-X1)+ +b3(X1 -tl)+(X2-t2)++s z čehož plyne: Y = b0 + bíXí - bltl + s pro Xl>tla X2< t2 Y = b0- b2Xí + b2tx + s pro Xx < tx Y = b0+blXl-bltl+t3(XlX2-tlXl-t2Xl+tlt2)+s pro Xí>tía X2>t2 Pokročilé neparametrické metody MARS - interakce /?(X1,X2) - (Xrx51)+ *(x72 - X2)+ (Hastie et. al, 2009) Pokročilé neparametrické metody MARS - příklad % denní měření koncentrace ozonu, rychlosti větru, teploty vzduchu a intenzita slunečního záření v New Yorku ozone = Pokročilé neparametrické metody MARS Regresní funkci pro MARS můžeme tedy vyjádřit jako: M /(x)=/?0 + lAA(x) m=\ kde hm jsou bázové funkce nebo jejich interakce a koeficienty bm pro dané hm jsou odhadovány stejně jako u lineární regrese metodou nejmenších Algoritmus MARS je velmi podobný postupnému dopřednému výběru (forward stepwise selection) vysvětlujících proměnných v regresním modelu —> namísto proměnných se vybírají lineární splajny. Začínáme s nulovým modelem (bez prediktorů). Postupně se přidávají jednotlivé členy do rovnice (bázové funkce) —> pouze takové, jejichž příspěvek k variabilitě vysvětlené modelem je statisticky významný. Tento příspěvek se určuje na základě snížení residuálního součtu čtverců čtverců. modelu. Pokročilé neparametrické metody MARS- krovalidace o krosvalidační kritérium GCV (generalized cross-validation) —> vybere se model s optimálním počtem členů v rovnici. o GCV lze použít i pro odhady relativních významností jednotlivých prediktorů. GCV(X) (i-m(á)/n): kde N je počet pozorování, ý, je hodnota závisle proměnné odhadnutá modelem a M(X) je parametr složitosti modelu, který má tvar: M(X)=r + cK kde r je počet nekonstantních bázových funkcí v modelu a K je počet uzlů t v modelu, kde již proběhl výběr parametrů pomocí dopředného výběru Konstanta cje určena experimentálně: c = 3 pokud nejsou zahrnuty interakce c = 2 pro rovnici s interakcemi MARS - krovalidace o Datový soubor je rozdělen na testovací a trénovací v poměru zadaném uživatelem (často 70% trénovací a 30% testovací) o Na trénovacím souboru je vytvořen model a je spočítána jeho přesnost (R2) na testovacím souboru. o Hodnota GCV\e spočítána pro různé podmodely, mající různý počet členů v rovnici, který označuje parametr M(Á). o Je vybrán podmodel s nejmenší hodnotou GCV. o Analogie s CART a CHAID —> optimální počet terminálních uzlů stromu a PRIM —> okna optimální velikosti. Pokročilé neparametrické metody Algoritmus metody MARS Krokl: Algoritmus začíná s konstantní funkcí hm(X) = 1 Krok2: Vytvoří se splajny (zrcadlové páry) se svým středem (uzlem f) v každé hodnotě xy pro každý prediktorXy—► získáme množinu všech „kandidátských" bázových funkcí C —► model je tvořen prvky z této množiny nebo jejich kombinací. Krok3: Z množiny C jsou do modelu přidávány pomocí postupného výběru významné bázové funkce, které snižují reziduálni chybu modelu. IProces postupuje hierarchicky, významné interakce jsou přidávány do modelu pouze z kombinace bázových funkcí, které již byly do modelu vybrány! Z kroku 1 - 3 jsme získali rovnici s vybranými členy —► počet členů však bývá většinou velmi velký Krok4: procedura zpětného odstraňování. Z rovnice jsou odstraněny ty členy, u kterých po jejich odstranění dojde k nejmenšímu zvýšení chyby modelu. Zpětné odstraňování je učiněno pomocí krosvalidace. Hodnota GCV]e spočítána pro různé velikosti modelu (s různým počtem členů v rovnici) a je vybrán model, pro který je hodnota GCV minimální. Pokročilé neparametrické metody MARS - algoritmus MARS © modelovaná plocha je spojitá © zahrnuje aditivitu pramenných © zahrnuje interakci proměnných © vhodná i pro větší počet pred i ktorú © nevýhodou je méně názorná interpretace —> chybí stromová struktura © dopředný výběr proměnných je hierarchický © každý vstup se může v modelu objevit pouze jednou o PolyMARS (Stone et al., 1997) - pro klasifikaci Pokročilé neparametrické metody Skupinové modely Klasifikační a regresní lesy i Pokročilé neparametrické metody Moudrost davu (Wisdom of Crowds) o James Surowiecki, 2004 „skupinový úsudek je daleko inteligentnější a přesnější než úsudek jednotlivce, v případech, kdy jde o hodnocení faktů" o každý příslušník davu musí činit svůj úsudek na základě vlastních, nezávislých informací o Výsledek je dán hlasováním Pokročilé neparametrické metody Skupinové modely (ensamble models) o skupině modelů zadáme stejný problém, na kterém se naučí o výstupy naučených modelů se kombinují o výsledkem skupinového modelu je • v případě regrese —> zprůměrování všech výsledků jednotlivých modelů • u klasifikace —> většinové hlasování jednotlivých modelů (lze však použít průměrování) model.. datový soubor . \ model2 model3 model4 skupinový model Pokročilé neparametrické metody j Skupinové modely (ensamble models) o Můžeme však kombinací modelů získat presnejší model? Podmínka jednotlivé modely musejí být různé napríklad použitím různých souborů pro učení modelu, které získáme náhodný výběrem z trénovací množiny dat. o Modely tak budou vykazovat „odlišné" chyby. o Přesnost a stabilita těchto modelů se následně ověřuje na testovacích souborech. o Označení skupinové modely se občas používá také pro kombinaci výsledků z různých modelů (např. neuronových sítí, rozhodovacích stromů a regrese) na stejném souboru. Pokročilé neparametrické metody Čím je způsobena chyba modelu...? o Př: měříme náhodnou veličinu Y v populaci (např. váha člověka) a chceme vyjádřit její reprezentativní hodnotu pro celou populaci. o Hledáme takový odhad ý, který minimalizuje střední hodnotu chyby Ey(y-ý)2 přes celou populaci. o V ideálním případě bychom změřili všechny vzorky v populaci (zvážili všechny lidi) a zjistili jejich střední hodnotu Ey(y) (např. průměr, medián), kterou bychom prohlásili za optimální odhad. o V praxi však tento přístup není možný a pomůžeme si výběrem pouze určité skupiny pozorování z populace, který však musí mít stejné vlastnosti jako celá populace. Takovýto výběr vytvoříme náhodným výběrem. Pokročilé neparametrické metody Skupinové modely -Rozklad chyby o analogie u modelů, kdy vybíráme pozorování pro trénovací soubor z množiny všech pozorování o Odchylky pozorovaných od predikovaných hodnot (chybovost modelu) nebudou způsobeny pouze „přírodní" variabilitou, kterou jsme modelem nevysvětlili, ale také rozdílem ve výsledcích pro různé náhodné výběry a celou populaci. o Mějme soubor trénovacích dat: • L = (y,,x,), /'= 1,...,A7. hledáme takovou funkci v prostoru všech prediktorů a hodnot závisle proměnné, aby predikční chyba byla malá. Pokročilé neparametrické metody j Skupinové modely -Rozklad chyby o Pokud mají (Y,X) stejné rozdělení a daná funkce R udává rozdíl mezi pozorovanou hodnotou y, a predikovanou hodnotou ý, závisle proměnné Y, pak můžeme predikční chybu (prediction error) obecně vyjádřit jako: PE(f,L) = EYXR(Y,f(X,L)f o kde f(X,L) jsou predikované hodnoty ý, pro trénovací soubor L Pokročilé neparametrické metody Skupinové modely -Rozklad chyby o Průměrná obecná chyba (mean-squared generalization error) na trénovacím souboru L je rovna: o Optimální model by měl mít minimální průměrnou chybu pro různé výběry L —> výsledky modelu pro jednotlivé výběry trénovacích souborů by se neměly příliš lišit. o Vyjádříme průměr trénovacích souborů stejné velikosti ze stejného rozložení: o kde ELf(x,L) je průměr přes všechny trénovací soubory L pred i kované hodnoty y, v hodnotě xr PE(f,Ĺ)=EYtX(Y-f(X,Ľ)Y f(x)= ELf(^L) Pokročilé neparametrické metody Rozklad na systematickou chybu a varianci (Bias-Variance Decomposition) PE = Es\+ EY,X (f (X) - ELf(X,Ľ))2 + EXtL(f(X,Ľ) - ELf(X,Ľ))2 o Šum - je reziduálni chyba neboli minimální dosažitelná chyba modelu, kterou nejsme schopni modelem vysvětlit. o Zkreslení2- určuje systematickou chybu modelu. Je to rozdíl optimálního modelu od průměrného modelu. o Variance - je variabilita výsledků jednotlivých výběrů, jinými slovy, jak moc se predikované hodnoty ý, liší v rámci trénovacích podsouborů L —> vysoká variance značí přeučený model. Pokročilé neparametrické metody Rozklad na systematickou chybu a varianci (Bias-Variance Decomposition) Šum - chyba modelu Zkreslení2- systematická chyba modelu —> optimální x průměrný Variance -variabilita výsledků jednotlivých výběrů Pokročilé neparametrické metody j Slabé modely o Modely, které se používají ve skupinových modelech, se označují jako slabé modely neboli weak learners (slabý žák, u klasifikace také slabý klasifikátor). o Slabý model je definován obecně jako model, který má malé zkreslení, ale vysokou varianci —► mají velmi vysokou přesnost, ale pouze pro pozorování z trénovacího souboru o Příkladem slabých modelů s velkým zkreslením, ale nízkou variancí může být interpolace bodů pomocí lineárních splajnů Y malé zkreslení + velká variance —> přeučený model velké zkreslení + malá variance —> nedoučený model x Pokročilé neparametrické metody f Slabé modely - vytvoření skupinového modelu o Hledáme tedy model, který by měl nízkou varianci i zkreslení. Kombinováním několika slabých modelů můžeme snížit obě tyto složky. o Jak na to? A co na to stromy? o o Rozhodovací stromy jsou dobrými kandidáty pro použití ve skupinových modelech. Neprořezané stromy mají totiž vysokou přesnost pro trénovací soubor (tedy nízký bias), ale vysokou varianci (výsledky mezi testovacím a trénovacím souborem se liší). Rozhodovací stromy, na které nejsou aplikovány metody pro hledání optimální velikosti stromu, jsou tedy podle výše uvedené definice slabými modely. u rozhodovacích stromů jsme pro určení jeho optimální velikosti museli rovněž najít kompromis mezi variancí a zkreslením! co .Q sz o c >o ■o CD velké zkreslení malé zkreslení nízká variance vysoká variance \ testovací soubor * * \s X ^ * X x X. x ^— *- . _____ trénovací soubor nízká Složitost modelu vysoká Pokročilé neparametrické metody IBA