Pokročilé neparametrické metody esf-komplet-barva.jpg Klára Komprdová logo-IBA Další typy stromů CHAID, PRIM, MARS logo-IBA Pokročilé neparametrické metody logo-IBA Pokročilé neparametrické metody CHAID - Chi-squared Automatic Interaction Detector ¢G.V.Kass (1980) ¢Strom pro kategoriální proměnné→ převod spojitých proměnných na ordinální ¢Je často využíván v komerčních sférách, především v marketingu a průzkumech veřejného mínění, má ale použití i v přírodovědných oborech. ¢nebinárního typu —Po prvním dělení nemusí zbývat dostatek pozorování na vytvoření dalších „pater“ stromu →vhodnější pro větší datové soubory. ¢Jako kriteriální statistika pro větvení se používá c2 –test. logo-IBA Pokročilé neparametrické metody Příklad - kosatce logo-IBA Pokročilé neparametrické metody c2 –test - opakování ¢c2 –test je použit pro zjištění nezávislosti v kontingenční tabulce, která je tvořena kombinací kategorií závisle proměnné a prediktoru ¢Jsou-li Y a X nezávislé, má testová statistika přibližně Pearsonovo c2 rozdělení s υ = (r-1)(s-1) stupni volnosti, kde r je počet řádků a s je počet sloupců v kontingenční tabulce. ¢Nezávislost v kontingenční tabulce znamená, že se obě proměnné navzájem neovlivňují v hodnotách, které nabývají. ¢Hypotéza nezávislosti jevů je zde nulovou hypotézou H0. ¢Pearsonův c2 –test je často označován jako test dobré shody. logo-IBA Pokročilé neparametrické metody Kontingenční tabulka kategorie prediktoru X kategorie Y j i 1 2 … s Celkem 1 p11 p12 … p1s R1 2 p21 p22 … p2s R2 … … … … … … r pr1 pr2 … prs Rr Celkem S1 S2 … Ss n porovnáváme očekávané četnosti v kontingenční tabulce s jejich skutečnými četnostmi logo-IBA Pokročilé neparametrické metody c2 –test ¢ ¢ ¢ ¢ ¢ ¢ ¢ ¢kde i a j je označení řádků (resp. sloupců) v kontingenční tabulce, pij je pozorovaná frekvence, oij očekávaná frekvence, n je celkový počet pozorování, Ri je počet pozorování v řádku i, Sj je počet pozorování ve sloupci j. logo-IBA Pokročilé neparametrické metody Příklad - Rozdělení semen dvou příbuzných rostlin podle barvy a tvaru ¢Bylo zkoumáno celkem 160 semen dvou druhů příbuzných rostlin. Semena byla roztříděna do následujících kategorií: žluté/hladké; žluté/vrásčité; zelené/hladké; zelené/vrásčité ¢ žluté/hladké žluté/vrásčité zelené/hladké zelené/vrásčité Celkový součet Druh1 10 25 10 15 60 Očekávaný počet Druh2 20 30 20 30 100 Očekávaný počet Celkový součet 30 55 30 45 160 logo-IBA Pokročilé neparametrické metody Příklad - Rozdělení semen dvou příbuzných rostlin podle barvy a tvaru ¢Bylo zkoumáno celkem 160 semen dvou druhů příbuzných rostlin. Semena byla roztříděna do následujících kategorií: žluté/hladké; žluté/vrásčité; zelené/hladké; zelené/vrásčité ¢ žluté/hladké žluté/vrásčité zelené/hladké zelené/vrásčité Celkový součet Druh1 10 25 10 15 60 Očekávaný počet 11,25 20,63 11,25 16,87 60 Druh2 20 30 20 30 100 Očekávaný počet 18,75 34,37 18,75 28,13 100 Celkový součet 30 55 30 45 160 logo-IBA Pokročilé neparametrické metody Příklad - Rozdělení semen dvou příbuzných rostlin podle barvy a tvaru υ= (r-1)(s-1) = 3 Abychom mohli zamítnout hypotézu H0 o nezávislosti proměnných, porovnáme hodnotu testové statistiky s kritickou hodnotou (kvantilem) příslušné hladiny významnosti α = 0,05. V tabulce pro χ2 rozdělení s příslušnými stupni volnosti nalezneme hodnotu: Nulovou hypotézu nemůžeme zamítnout → nelze prokázat, že barva a tvar semene jsou rozdílné mezi druhy rostlin. logo-IBA Pokročilé neparametrické metody Algoritmus růstu stromu CHAID ¢Krok1: pro každý prediktor Xi: Vytvoř kontingenční tabulku kategorií závisle proměnné a prediktoru. ¢ ¢Krok 2: mohou nastat tři případy: —Pokud je počet kategorií prediktoru > 2, utvoří se dvojice z kategorií prediktoru→ kategoriální x ordinální. Najde se taková dvojice, která si je co do hodnot závisle proměnné Y nejvíce podobná →dvojice, jejíž c2 - test má nejvyšší p hodnotu. —Pokud má prediktor 2 kategorie → algoritmus pokračuje krokem 5 —Pokud má prediktor X pouze jednu kategorii → p hodnota je nastavena na 1 — ¢Krok 3: Dvojice s nejvyšší p hodnotou, která není statisticky významná nebo větší než alpha2, se sloučí do jedné skupiny. —u ordinálního prediktoru se spojují pouze sousední kategorie —u kategoriálního jsou dvojice vytvořeny kombinací všech kategorií. —Prediktor X je dále používán s novými již sloučenými kategoriemi —Pokud je i po sloučení počet kategorií > 2, algoritmus se vrátí do kroku 2. Pokud ne, algoritmus pokračuje krokem 4 nebo 5. ¢ ¢Pozn: alpha2, 3 a 4 jsou hodnoty zadané uživatelem logo-IBA Pokročilé neparametrické metody Algoritmus růstu stromu CHAID ¢Krok 4: Sloučené kategorie mohou být zpětně rozděleny. Jestliže se nově vytvořené skupiny kategorií skládají ze tří nebo více původních kategorií, najde se nejlepší binární rozdělení mezi sloučenými kategoriemi (s nejnižší p hodnotou). Pokud je p hodnota významná nebo větší než alpha3, dojde k rozdělení a algoritmus se vrátí do kroku 2. ¢ ¢Krok 5: Každá kategorie, která má velmi málo pozorování (minimum je definováno uživatelem), je spojena s nejpodobnější kategorií (opět určeno na základě největší p hodnoty) ¢ pozn: toto nastavení je volitelné a bývá dostupné jen v některých softwarech. ¢ ¢Výše popsaným postupem jsme získali optimální sloučení pro každý prediktor. ¢ ¢Krok 6: V posledním kroku je spočítána adjustovaná p hodnota c2 testu pro sloučené kategorie každého z prediktorů pomocí Bonferroniho korekce. Vybere se prediktor s nejmenší adjustovanou p hodnotou nebo hodnotou větší než alpha4. Tento prediktor s optimálně sloučenými kategoriemi je použit k rozdělení uzlu. Pokud významný prediktor nelze nalézt, uzel se již dále nedělí a je považován za terminální. ¢ logo-IBA Pokročilé neparametrické metody Algoritmus růstu stromu CHAID – ilustrační příklad ¢Zajímá nás klasifikace potravních strategií druhů makrozoobentosu podle různých kategorií nadmořské výšky. Pro jednoduchost se budeme zabývat pouze jedním prediktorem. ¢ ¢ N-nížinné S - střední P - podhorské H - horské sběrači spásači filtrátoři dravci Kontingenční tabulka -v buňkách by byly počty jednotlivých druhů Krok 1 logo-IBA Pokročilé neparametrické metody Algoritmus růstu stromu CHAID – ilustrační příklad ¢Pro každou podtabulku je spočítán Pearsonův c2 -test nezávislosti. Najdeme největší p hodnotu testu, pokud není signifikantní (menší než zvolené α), kategorie spojíme. Protože je nadmořská výška ordinální parametr, můžeme sloučit pouze vedlejší kategorie. tab3 Krok 2 a 3 logo-IBA Pokročilé neparametrické metody Algoritmus růstu stromu CHAID – ilustrační příklad tab3 Test sloučených kategorií: Opět spočítáme Pearsonův c2-test nezávislosti pro každou podtabulku, nyní již sloučených kategorií. Obě p hodnoty byly statisticky významné pro zvolené α=0,05 a k dalšímu sloučení již nedochází. Přecházíme rovnou do kroku 6, neboť jsme získali optimální sloučení prediktoru → krok 4 a 5 není v našem příkladu potřeba. Krok 2 a 3 p*B logo-IBA Pokročilé neparametrické metody ¢Finální rozdělení uzlu: —Za předpokladu, že je nadmořská výška prediktorem s nejnižší adjustovanou p hodnotou, původní uzel obsahující celý datový soubor bude rozdělen na tři dceřiné uzly, podle sloučených kategorií nadmořské výšky. Algoritmus růstu stromu CHAID – ilustrační příklad chaid3 Krok 6 logo-IBA Pokročilé neparametrické metody Bonferroniho korekce ¢V algoritmu dochází k současnému testování více hypotéz →v našem příkladu bylo třeba učinit celkem čtyři testy pro možné sloučení kategorií. ¢ ¢Při mnohonásobném testování však vzrůstá pravděpodobnost, že zamítneme nulovou hypotézu H0, přestože platí. ¢ ¢Počet prováděných testů u metody CHAID roste s počtem kategorií závisle proměnné a prediktorů. ¢ ¢Použitím Bonferroniho korekce je možné zmírnit vliv mnohonásobného testování a získat porovnatelné p hodnoty pro jednotlivé prediktory s různým počtem kategorií. ¢ ¢Výsledná p hodnota pro kontingenční tabulku kategorií závisle proměnné a optimálně sloučeného prediktoru je vynásobena B koeficientem, čímž získáme adjustovanou p hodnotu pro daný prediktor. logo-IBA Pokročilé neparametrické metody Bonferroniho korekce - Koeficient B ¢ordinální proměnná → slučování sousedních kategorií ¢kategoriální proměnná→ slučování všech možných kombinací ¢ ¢ ¢ ¢ ¢ ¢ ¢ ¢ ¢ ¢ ¢ ¢kde r je počet řádků a s je počet sloupců kontingenční tabulky kategorií závisle proměnné a prediktoru. logo-IBA Pokročilé neparametrické metody Příklad- kosatce chaid iris1 logo-IBA Pokročilé neparametrické metody Strom CHAID ¢Růst stromu se zastaví, pokud je dosaženo následujících pravidel: —není možné nalézt žádné významné rozdělení. —Všechna pozorování závisle proměnné v uzlu mají stejnou hodnotu nebo identickou hodnotu pro každý prediktor. —Pokud je dosaženo uživatelem definovaných nastavení, která se týkají: ¢parametrů velikosti stromu jako je nastavení počtu terminálních uzlů nebo větví; ¢počtu pozorování v uzlu, které je menší než minimum stanovené uživatelem nebo počtu pozorování, které by po rozdělení vedlo k dceřiným uzlům s menším počtem pozorování, než je definováno uživatelem. ¢ ¢Celkovou správnost stromu OAkateg určujeme stejně jako v případě stromu CART. K odhadu obecné chyby e(t) je možné opět použít k-testovacích souborů z krosvalidace. ¢ ¢ logo-IBA Pokročilé neparametrické metody PRIM - Patient Rule Induction Method logo-IBA Pokročilé neparametrické metody logo-IBA Pokročilé neparametrické metody PRIM - Patient Rule Induction Method ¢PRIM (Friedman & Fisher, 1999) - metoda primárně určena pro regresi. ¢ ¢PRIM podobně jako ostatní rozhodovací stromy rozděluje pozorování závisle proměnné Y pomocí hodnot prediktorů do uzlů t1,..,tN, → označovaných jako okna B1,…, BK ¢ ¢Graficky můžeme okna znázornit jako jednotlivé regiony v prostoru prediktorů X1,…, XM. ¢ ¢V případě metody PRIM se však vyhledávají takové regiony, ve kterých je průměr hodnot závisle proměnné Y nejvyšší (nebo nejnižší). ¢ ¢Výsledkem je sada jednoduchých pravidel, která definují jednotlivá okna a rozdělují pozorování závisle proměnné ¢ logo-IBA Pokročilé neparametrické metody PRIM prim1 Mějme 100 pozorování. Závisle proměnná Y označuje presenci yi = 1 (trojúhelníky) nebo absenci yi = 0 (kolečka) určitého druhu rostliny. Pro jednoduchost uvažujme pouze dva spojité prediktory: teplotu X1 a srážky X2. Rostlina bude přítomna s větší pravděpodobností v podmínkách daných rozsahem prediktorů (a1 ≤ X1 ≤ b1) ∩ (a2 ≤ X2 ≤ b2), které jsou zde znázorněny pomocí okna B. logo-IBA Pokročilé neparametrické metody PRIM - algoritmus ¢1. Soubor se rozdělí na testovací a trénovací (v poměru zadaném uživatelem). Seřadí se hodnoty prediktorů od nejmenší po největší. Okno obsahuje celý datový soubor (trénovací) ¢ ¢2. Okno se zmenšuje podél jedné hrany o malé množství pozorování (často α=0.1 nebo α=0.05) – tak aby výsledný průměr ve zmenšeném okně byl co největší (nejmenší) ¢ ¢Krok 1 a 2 se opakuje dokud okno neobsahuje předem stanovené minimum pozorování (např. 10) ¢ ¢3. dochází k reverznímu procesu-okno je zpětně rozšiřováno do všech směrů, ale jen pokud se zvýší průměr v okně ¢Z kroku 1-3 se získá sekvence oken o různém počtu pozorování ¢ ¢4. použije se krosvalidace k vybrání optimálního okna B1- testovací soubor! ¢5. Odstraní se vzorky z okna B1 -pozorování která jsou odstraněna z okna mají nejvyšší (nejnižší) hodnoty prediktoru Xj ¢ ¢ ¢Krok 2-5 se opakuje, dokud není dosaženo konečného počtu oken B1,B2 ,….. BK ¢ ¢Okna jsou dána rozhodovacími pravidly ¢Stejně jako v CART lze použít kategoriální prediktor ¢ logo-IBA Pokročilé neparametrické metody PRIM - algoritmus ¢200 bodů, rovnoměrně rozdělených do jednotkového čtverce ¢Závisle proměnná Y má hodnotu 1 (červená barva) pokud je 0.5 t 0, jinak (t - x)+ = (t - x), pokud x < t 0, jinak Příklad funkce (x – 10)+ a (10 - x)+ Alternativní zápis:max(0, x − t) a max(0, t − x) Zrcadlový pár (Hastie et. al, 2009) mars t = 10 logo-IBA Pokročilé neparametrické metody ŷ = - 37 + 5.1x ŷ = 25 + 6.1max(0, x - 13) – 3.1max(0, 13 – x ) MARS - příklad Lineární regrese MARS logo-IBA Pokročilé neparametrické metody MARS x lineární regrese ¢Mějme regresní rovnici: ¢ ¢ ¢ ¢ ¢ ¢kde Y je závisle proměnná, X1,…, XM jsou prediktory ¢β0 je intercept a β1,…, βM regresní koeficienty ¢u jednorozměrné lineární regrese je k vyjádření závislosti Y na X použita přímka a koeficienty jsou odhadnuty metodou nejmenších čtverců 1. logo-IBA Pokročilé neparametrické metody MARS ¢předpokládejme model s jedním prediktorem a hodnotou uzlu t = 10, který můžeme zapsat pomocí dvou regresních rovnic: pro x > 10 pro x < 10 Rovnice můžeme vyjádřit ve tvaru: kde b0 ≡ β0, b1 ≡ β1 a b2 ≡ β2 logo-IBA Pokročilé neparametrické metody MARS – interakce proměnných ¢Stejně jako u lineární regrese lze i u metody MARS použít interakce proměnných ¢pro dva prediktory X1, X2: z čehož plyne: logo-IBA Pokročilé neparametrické metody MARS - interakce h(X1,X2) = (X1-x51)+ *(x72 – X2)+ (Hastie et. al, 2009) logo-IBA Pokročilé neparametrické metody MARS - příklad ozone = 25 + 3.1*max(0; temperature-85) -1.28*max(0; 85-temperature) -4.9*max(0; 13-wind) - 0.09*max(0; radiation-139) -0.049*max(0; radiation-112)*max(0; 13.21-wind) - % denní měření koncentrace ozonu, rychlosti větru, teploty vzduchu a intenzita slunečního záření v New Yorku logo-IBA Pokročilé neparametrické metody MARS ¢Regresní funkci pro MARS můžeme tedy vyjádřit jako: ¢ ¢ ¢ ¢ ¢ ¢kde hm jsou bázové funkce nebo jejich interakce a koeficienty bm pro dané hm jsou odhadovány stejně jako u lineární regrese metodou nejmenších čtverců. ¢Algoritmus MARS je velmi podobný postupnému dopřednému výběru (forward stepwise selection) vysvětlujících proměnných v regresním modelu → namísto proměnných se vybírají lineární splajny. ¢Začínáme s nulovým modelem (bez prediktorů). ¢Postupně se přidávají jednotlivé členy do rovnice (bázové funkce) → pouze takové, jejichž příspěvek k variabilitě vysvětlené modelem je statisticky významný. ¢Tento příspěvek se určuje na základě snížení residuálního součtu čtverců modelu. 1. logo-IBA Pokročilé neparametrické metody MARS- krovalidace ¢krosvalidační kritérium GCV (generalized cross-validation) → vybere se model s optimálním počtem členů v rovnici. ¢GCV lze použít i pro odhady relativních významností jednotlivých prediktorů. kde N je počet pozorování, ŷi je hodnota závisle proměnné odhadnutá modelem a M(l) je parametr složitosti modelu, který má tvar: kde r je počet nekonstantních bázových funkcí v modelu a K je počet uzlů t v modelu, kde již proběhl výběr parametrů pomocí dopředného výběru Konstanta c je určena experimentálně: c = 3 pokud nejsou zahrnuty interakce c = 2 pro rovnici s interakcemi logo-IBA Pokročilé neparametrické metody MARS - krovalidace ¢Datový soubor je rozdělen na testovací a trénovací v poměru zadaném uživatelem (často 70% trénovací a 30% testovací) ¢ ¢Na trénovacím souboru je vytvořen model a je spočítána jeho přesnost (R2) na testovacím souboru. ¢ ¢Hodnota GCV je spočítána pro různé podmodely, mající různý počet členů v rovnici, který označuje parametr λ. ¢ ¢Je vybrán podmodel s nejmenší hodnotou GCV. ¢ ¢Analogie s CART a CHAID → optimální počet terminálních uzlů stromu a PRIM → okna optimální velikosti. logo-IBA Pokročilé neparametrické metody Algoritmus metody MARS ¢Krok1: Algoritmus začíná s konstantní funkcí hm(X) = 1 ¢ ¢Krok2: Vytvoří se splajny (zrcadlové páry) se svým středem (uzlem t) v každé hodnotě xij, pro každý prediktor Xj → získáme množinu všech „kandidátských“ bázových funkcí C → model je tvořen prvky z této množiny nebo jejich kombinací. ¢ ¢Krok3: Z množiny C jsou do modelu přidávány pomocí postupného výběru významné bázové funkce, které snižují reziduální chybu modelu. ¢ ¢ !Proces postupuje hierarchicky, významné interakce jsou přidávány do modelu pouze z kombinace bázových funkcí, které již byly do modelu vybrány! ¢ ¢Z kroku 1 - 3 jsme získali rovnici s vybranými členy → počet členů však bývá většinou velmi velký ¢ ¢Krok4: procedura zpětného odstraňování. —Z rovnice jsou odstraněny ty členy, u kterých po jejich odstranění dojde k nejmenšímu zvýšení chyby modelu. — Zpětné odstraňování je učiněno pomocí krosvalidace. Hodnota GCV je spočítána pro různé velikosti modelu (s různým počtem členů v rovnici) a je vybrán model, pro který je hodnota GCV minimální. logo-IBA Pokročilé neparametrické metody MARS - algoritmus (Hastie et. al, 2009) logo-IBA Pokročilé neparametrické metody MARS ¢ J modelovaná plocha je spojitá J zahrnuje aditivitu proměnných J zahrnuje interakci proměnných J vhodná i pro větší počet prediktorů ¢ L nevýhodou je méně názorná interpretace → chybí stromová struktura L dopředný výběr proměnných je hierarchický L každý vstup se může v modelu objevit pouze jednou ¢ ¢PolyMARS (Stone et al., 1997) – pro klasifikaci logo-IBA Pokročilé neparametrické metody Skupinové modely Klasifikační a regresní lesy logo-IBA Pokročilé neparametrické metody Moudrost davu (Wisdom of Crowds) ¢ ¢James Surowiecki, 2004 ¢„skupinový úsudek je daleko inteligentnější a přesnější než úsudek jednotlivce, v případech, kdy jde o hodnocení faktů“ ¢každý příslušník davu musí činit svůj úsudek na základě vlastních, nezávislých informací ¢Výsledek je dán hlasováním ¢ ¢ logo-IBA Pokročilé neparametrické metody Skupinové modely (ensamble models) ¢skupině modelů zadáme stejný problém, na kterém se naučí ¢ výstupy naučených modelů se kombinují ¢ výsledkem skupinového modelu je —v případě regrese → zprůměrování všech výsledků jednotlivých modelů —u klasifikace → většinové hlasování jednotlivých modelů (lze však použít průměrování) ensemble logo-IBA Pokročilé neparametrické metody Skupinové modely (ensamble models) ¢Můžeme však kombinací modelů získat přesnější model? ¢ ¢Podmínka → jednotlivé modely musejí být různé například použitím různých souborů pro učení modelu, které získáme náhodný výběrem z trénovací množiny dat. ¢Modely tak budou vykazovat „odlišné“ chyby. ¢Přesnost a stabilita těchto modelů se následně ověřuje na testovacích souborech. ¢ ¢ ¢Označení skupinové modely se občas používá také pro kombinaci výsledků z různých modelů (např. neuronových sítí, rozhodovacích stromů a regrese) na stejném souboru. ¢ logo-IBA Pokročilé neparametrické metody Čím je způsobena chyba modelu…? ¢Př: měříme náhodnou veličinu Y v populaci (např. váha člověka) a chceme vyjádřit její reprezentativní hodnotu pro celou populaci. ¢ ¢Hledáme takový odhad ŷ, který minimalizuje střední hodnotu chyby Ey(y-ŷ)2 přes celou populaci. ¢ ¢V ideálním případě bychom změřili všechny vzorky v populaci (zvážili všechny lidi) a zjistili jejich střední hodnotu Ey(y) (např. průměr, medián), kterou bychom prohlásili za optimální odhad. ¢ ¢V praxi však tento přístup není možný a pomůžeme si výběrem pouze určité skupiny pozorování z populace, který však musí mít stejné vlastnosti jako celá populace. Takovýto výběr vytvoříme náhodným výběrem. logo-IBA Pokročilé neparametrické metody Skupinové modely -Rozklad chyby ¢analogie u modelů, kdy vybíráme pozorování pro trénovací soubor z množiny všech pozorování ¢Odchylky pozorovaných od predikovaných hodnot (chybovost modelu) nebudou způsobeny pouze „přírodní“ variabilitou, kterou jsme modelem nevysvětlili, ale také rozdílem ve výsledcích pro různé náhodné výběry a celou populaci. ¢ ¢ ¢Mějme soubor trénovacích dat: — —L = (yi,xi), i = 1,…,n. ¢ ¢→ hledáme takovou funkci v prostoru všech prediktorů a hodnot závisle proměnné, aby predikční chyba byla malá. ¢ logo-IBA Pokročilé neparametrické metody Skupinové modely -Rozklad chyby ¢Pokud mají (Y,X) stejné rozdělení a daná funkce R udává rozdíl mezi pozorovanou hodnotou yi a predikovanou hodnotou ŷi závisle proměnné Y, pak můžeme predikční chybu (prediction error) obecně vyjádřit jako: ¢ ¢ ¢ ¢kde f(X,L) jsou predikované hodnoty ŷi pro trénovací soubor L logo-IBA Pokročilé neparametrické metody Skupinové modely -Rozklad chyby ¢Průměrná obecná chyba (mean-squared generalization error) na trénovacím souboru L je rovna: ¢ ¢ ¢ ¢Optimální model by měl mít minimální průměrnou chybu pro různé výběry L → výsledky modelu pro jednotlivé výběry trénovacích souborů by se neměly příliš lišit. ¢ ¢Vyjádříme průměr trénovacích souborů stejné velikosti ze stejného rozložení: ¢ ¢ ¢kde je průměr přes všechny trénovací soubory L predikované hodnoty yi v hodnotě xi. logo-IBA Pokročilé neparametrické metody Rozklad na systematickou chybu a varianci (Bias-Variance Decomposition) ¢ ¢ ¢ ¢ ¢ ¢ ¢Šum – je reziduální chyba neboli minimální dosažitelná chyba modelu, kterou nejsme schopni modelem vysvětlit. ¢Zkreslení2- určuje systematickou chybu modelu. Je to rozdíl optimálního modelu od průměrného modelu. ¢Variance – je variabilita výsledků jednotlivých výběrů, jinými slovy, jak moc se predikované hodnoty ŷi liší v rámci trénovacích podsouborů L → vysoká variance značí přeučený model. ¢ ¢ šum zkreslení2 variance logo-IBA Pokročilé neparametrické metody Rozklad na systematickou chybu a varianci (Bias-Variance Decomposition) Ey(Y) ET(Y) bias2 šum variance ŷ Šum – chyba modelu Zkreslení2- systematická chyba modelu → optimální x průměrný Variance –variabilita výsledků jednotlivých výběrů logo-IBA Pokročilé neparametrické metody Slabé modely ¢Modely, které se používají ve skupinových modelech, se označují jako slabé modely neboli weak learners (slabý žák, u klasifikace také slabý klasifikátor). ¢ ¢Slabý model je definován obecně jako model, který má malé zkreslení, ale vysokou varianci → mají velmi vysokou přesnost, ale pouze pro pozorování z trénovacího souboru ¢Příkladem slabých modelů s velkým zkreslením, ale nízkou variancí může být interpolace bodů pomocí lineárních splajnů obr4 logo-IBA Pokročilé neparametrické metody Slabé modely – vytvoření skupinového modelu ¢Hledáme tedy model, který by měl nízkou varianci i zkreslení. Kombinováním několika slabých modelů můžeme snížit obě tyto složky. ¢Jak na to? obr4 logo-IBA Pokročilé neparametrické metody A co na to stromy? ¢Rozhodovací stromy jsou dobrými kandidáty pro použití ve skupinových modelech. ¢Neprořezané stromy mají totiž vysokou přesnost pro trénovací soubor (tedy nízký bias), ale vysokou varianci (výsledky mezi testovacím a trénovacím souborem se liší). ¢Rozhodovací stromy, na které nejsou aplikovány metody pro hledání optimální velikosti stromu, jsou tedy podle výše uvedené definice slabými modely. ¢u rozhodovacích stromů jsme pro určení jeho optimální velikosti museli rovněž najít kompromis mezi variancí a zkreslením! obr4