Vícerozměrné metody pro predikci, identifikaci a klasifikaci znečištění Pokročilejší modelovací přístupy Y X Přímá ordinace Ordinace, interpolace X y X y nebo Klasifikace •Metody založené na stromech •Lineární dikriminační analýza •Neuronové sítě •Metoda podpůrných vektorů •Logistická regrese •Bayesovský klasifikátor … Regrese •Klasický lineání model •Lineární zobecněné a aditivní modely •Nelineární regrese •Na stromech založené techniky •Neuronové sítě •Metoda podpůrných vektorů •Na stromech založené techniky … Regresní metody •Regrese - funkční vztah dvou nebo více proměnných závislost jedné veličiny na druhé • Regrese Jednorozměrná y = f(x) Vícerozměrná y = f(x1, x2, x3, ……xp) Vztah x, y Y X Y X Y X Pro každé x existuje pravděpodobnostní rozložení y •Jedna a více nezávisle proměnných • •n objektů •Pro každý objekt: pozorované veličiny X a Y – spojité • •Pozorování, objekty – navzájem nezávislá • •Zajímá nás závislost veličiny Y na X – POZOR! – nutná podmínka je, že závislost je stejná pro všechny zkoumané objekty. • • • Lineární regresní model •X,Y – náhodné veličiny (střední hodnota, rozptyl) •Existuje souvislost mezi středními hodnotami X.? Lineární regresní model regre1 •Analytické vyjádření přímky, rovnice • Opakování z gymnázia – analytická geometrie •Analytické vyjádření roviny, rovnice • • Nejjednodušší typ závislosti - lineární Systematická část modelu Náhodná část, složka modelu (náhodné chyby, random error) • • Regresní rovnice - proměnné • Závisle proměnná • Dependent variable • Nezávisle proměnná •Independent variable •Kovariáta (covariate) • Prediktor • Regresor • • Regresní rovnice, přímka - parametry regression • Průsečík s osou Y • Intercept • Směrnice Interpretace parametrů: Směrnice: o kolik se změní hodnota závisle proměnné, jestliže hodnota nezávisle proměnné vzroste o 1 jednotku. Průsečík: udává hodnotu závisle proměnné, jestliže hodnota nezávisle proměnné je rovna 0. •Je-li závisle proměnná spojitá a nezávisle proměnné jsou spojité nebo diskrétní (podmínkou je, že alespoň jedna nezávisle proměnná je spojitá) a jsou-li splněny jisté předpoklady..... • •Při tvorbě modelu (obecně, nejen lineárního) postupujeme následujícím způsobem: 1. 1.Odhadneme parametry modelu 2.Hledáme významné (signifikantní) prediktory 3.Na závěr hodnotíme vhodnost námi vytvořeného modelu, jak dobře popisuje funkcionální závislost mezi závisle proměnnou a nezávisle proměnnými. • Tvorba lineárního regresního modelu •Svislé odchylky naměřených hodnot od regresní přímky nazýváme residua. •i-té residuum vypočteme jako rozdíl skutečně naměřené hodnoty Y a hodnoty predikované regresním modelem • • • • • • • Residua Metoda nejmenších čtverců Svislá - nikoliv kolmá vzdálenost k přímce!!! •Výsledný minimální součet čtverců residuí (pro b0 a b1) nazýváme residuální součet čtverců (residual sum of squares) Koeficient determinace - procento vysvětlené variability •Koeficient determinace udává relativní velikost variability závisle proměnné, kterou se uvažovanou závislostí podařilo vysvětlit. •Koeficient determinace nabývá hodnot od 0 do 1. •Čím vyšší je hodnota koeficientu determinace, tím je náš regresní model lepší. •V případě regrese s jedinou nezávisle proměnnou je hodnota koeficientu determinace rovna kvadrátu Pearsonova korelačního koeficientu mezi veličinami X a Y. Koeficient determinace - vlastnosti •Pearsonův korelační koeficient ̶ postižení lineárního vztahu mezi veličinami • •R=1 … přímá úměra, kladná korelace •R=-1… záporná korelace •R=0… mezi veličinami není žádná spojitost, žádná korelace, není lineární vztah mezi proměnnými • •Předpoklady: dvourozměrné normální rozdělení • • • Pearsonův korelační koeficient Vzorce pro odhad parametrů regresní přímky – metoda nejmenších čtverců I. II. intercept III. Y : modelová hodnota Odhad b je zatížený chybou: ̶Při konstrukci regresního modelu bychom chtěli prokázat, že závislá veličina skutečně závisí na nezávisle proměnné.Tuto závislost na X prokazujeme testováním nulové hypotézy ̶ ̶proti alternativní hypotéze ̶ ̶ ̶Testujeme T-testem ̶ Hledáme významné (signifikantní) prediktory b je výběrovým odhadem skutečné hodnoty β Každý odhad je zatížen nějakou chybou - z variability dat můžeme spočítat střední chybu odhadu b ? V případě nezávislosti β=0 Dosažená hladina významnosti pro test H0: β=0 je pravděpodobnost, že takhle dobrou závislost dostaneme čistě náhodou, pokud jsou proměnné nezávislé •Nutný předpoklad potřebný ke všem testům spojeným s regresním modelem je normalita residuí. •Residua mají mít normální rozdělení s nulovou střední hodnotou a konstantním rozptylem . •Dále předpokládáme, že všechna pozorování jsou navzájem nezávislá. Předpoklady •Grafická metoda pro srovnání rozdělení dvou výběrů. •Vodorovná osa – empirické kvantily rozdělení 1. výběru. (jestliže vynášíme teoretické kvantily normovaného normálního rozdělení – normal probability plot) •Svislá osa – empirické kvantily rozdělení 2. výběru (např. reziduí). •Jsou-li obě rozdělení totožná, leží body (odpovídající si kvantily) na diagonální přímce • • Normalita residuí – graficky Q-Q plot (Quantile-Quantile plot) •Testy normality: 1.Kolmogorov-Smirnov 2.Shapiro-Wilks ̶Není-li splněn předpoklad normality – mohou pomoci transformace Normalita residuí - testy •Je námi zvolená závislost (lineární) vhodná? • Pomoc grafické znázornění – grafy závislosti hodnot residuí na hodnotách Y nebo X. • •V případě, že zvolený tvar závislosti byl vhodný, jsou residua 1.umístěna náhodně kolem nulové střední hodnoty 2.nevykazují žádný systematický trend 3.jejich rozptyl je homogenní • Diagnostika residuí Diagnostika residuí e e 0 0 ! e y (i; x) 0 e 0 y (i; x) e 0 y (i; x) ! Grafy residuí modelů (příklady) Obecné tvary residuí modelů (schéma) e i, xj, y e i, xj, y a b e i, xj, y e i, xj, y c d d •Při zkoumání závislosti veličiny y na regresoru x třeba vzít v úvahu také další veličiny, z. • •Interakce (effect modifcation) – skutečná na hodnota veličiny z ovlivňuje závislost y na x. • •Vyjadřujeme pomocí součinu x·z. • •Příklad: závislost platu na délce praxe, když se zjistí, že směrnice příslušné přímky je jiná u mužů a u žen. • •Kdyby byly přímky rovnoběžné, byl by vliv veličin délka praxe a pohlaví aditivní. Každý rok praxe by v průměru přidal stejnou částku k platu mužům i ženám. • •Vliv délky praxe by naopak byl modifikován proměnnou pohlavi, kdyby tyto průměrné přírůstky byly u mužů a u žen různé. • •Model s interakcemi: • Interakce •Model s interakcemi • Regresní plocha(Response surface, regression surface) •Model bez interakcí – regresní rovina (plane) Snaha o co nejjednodušší model, obsahující jenom významné prediktory (nezávisle proměnné) •t-test: nebo •F test: nebo nebo •Upozornění: opakovaný t-test a F-test mohou dávat nekonzistentní výsledky • •Podmodel = jednodušší model obsahující pouze některé nezávisle proměnné (signifikantní) původního regresního modelu. •S každou mocninou veličiny musí být v modelu všechny mocniny nižšího stupně, se součinem veličin musí být v modelu také všechny složky tohoto součinu. • • • • • • • T-test, F-test •Sestupný výběr - Nejprve se spočítá nejbohatší model, pak se jednotlivé regresory postupně z modelu vylučují. V každém kroku se vylučuje takový regresor, který v daném modelu nejméně přispívá k vysvětlení. • •Vzestupný výběr – opak sestupného výběru. Vyjde se z prázdné množiny regresorů, do níž se pak v každém kroku přidá vždy ten z ještě nezařazených regresorů, který v daném kroku co možná nejlépe zlepší vysvětlení závisle proměnné. • •Kroková (stepwise) regrese - kombinuje oba předešlé postupy. Vzestupný výběr je v každém kroku kombinován s pokusem o zjednodušení pomoci sestupného výběru. •Každá z popsaných metod může dát jiný výsledný model, kromě jiného závisí také na volbě hladin testů. •Zejména u krokové regrese se doporučuje najít několik téměř optimálních modelů a pokusit se najit mezi nimi ten,který má nejlepší interpretaci. • •Všechny modely! • • • • • • • Strategie hledání vhodného podmodelu Sekvenční postupy •Multikolinearita - Existují-li závislosti mezi jednotlivými nezávisle proměnnými modelu. Koeficienty determinace lineárních modelů (jedné nezávisle proměnné na ostatních nezávisle proměnných) jsou vysoké (větší než 0,5). Nezávisle proměnné jsou navzájem korelované. • •Odhad regresních parametrů – velký rozptyl. • •I významné nezávisle proměnné se jeví jako nevýznamné, popř. parametry mohou mít opačné znaménko… • •Obtížná interpretace parametrů beta. (Obvykle: Koeficient beta1 lze interpretovat jako střední změnu Y při jednotkové změně X1 a nezměněné hodnotě X2. Nyní však X1 a X2 vzájemně korelované, proto nelze předpokládat, že při změně X1 zůstane X2 nezměněna.) • •Příklad 1: obvod pasu a váha významně korelované •Příklad 2: Výška platu a daně úzce korelované • •Řešení: méně proměnných v modelu, vyloučení korelovaných nezávislých proměnných. • Multikolinearita •Vyjádření nominální veličiny s více než 2 hodnotami •j úrovní faktoru -> j-1 umělých proměnných (v modelu buďto všech j-1 umělých proměnných nebo žádná) Umělé proměnné (Dummy variables, dummies) Proměnná Umělé proměnné (stačí 3) Rodinný příslušník (4 úrovně) Otec (0/1) Matka (0/1) Strýc (0/1) Dědeček (0/1) (zbytečná) „otec“ 1 0 0 0 „matka“ 0 1 0 0 „strýc“ 0 0 1 0 „dědeček“ 0 0 0 1 •V tomto příkladu budeme sledovat závislost denního měření koncentrace ozónu (ppb) na rychlosti větru (míle/h), teplotě vzduchu (denní maximum ve stupních Fahrenheita) a intenzitě slunečního záření (cal/cm2) v New Yorku. Soubor obsahuje celkem 111 měření, která proběhla od května do září v roce 1973. • •Přízemní ozón je součástí tzv. fotochemického smogu, který se vyskytuje v místech s intenzivní automobilovou dopravou. Jeho původcem jsou oxidy dusíku emitované jako součást spalin ze spalovacích motorů. Působením slunečního záření se tyto oxidy štěpí a vzniklé radikály reagují s kyslíkem za vzniku ozónu. Jeho zvýšené koncentrace můžeme tedy očekávat v letních měsících při vyšších teplotách. Určitý nárůst koncentrací ozónu lze ale očekávat i za slunečného počasí v chladnějších měsících, pokud jsou zhoršené rozptylové podmínky. Podíváme se, zdali jsou tato očekávání ověřitelná pomocí výše zmíněných měření. • Ozón cvičení Vícerozměrné metody Vícerozměrné metody 1.Cluster Analysis 2.Principal component analysis 3.Correspondence analysis 4.Canonical analysis 5.Discriminant analysis 6.Factor analysis 7.Multidimensional scaling •parametry (věk, příjem atd.) a každý z těchto parametrů můžeme považovat za jeden rozměr objektu. •Maticová algebra: Základem práce s daty a výpočtů vícerozměrných metod je maticová algebra, matice tvoří jak vstupní, tak výstupní data a probíhají na nich výpočty. •NxP matice: N objektů s p parametry pak vytváří tzv. NxP matici, která je prvním typem vstupu dat do vícerozměrných analýz. •Asociační matice: Na základě těchto matic jsou počítány matice asociační na nichž pak probíhají další výpočty, jde o čtvercové matice obsahující informace o podobnosti nebo rozdílnosti (tzv. metriky) buď objektů (Q mode analýza) nebo parametrů (R mode analýza).Měřítko podobnosti se liší podle použité metody a typu dat, některé metody umožňují použití uživatelských metrik. Úvod do vícerozměrných metod I. Vstupní matice vícerozměrných analýz Hodnoty parametrů pro jednotlivé objekty NxP MATICE ASOCIAČNÍ MATICE Korelace, kovariance, vzdálenost, podobnost •vytváření shluků objektů na základě jejich podobnosti •identifikace typů objektů Úvod do vícerozměrných metod II. ̶zjednodušení vícerozměrného problému do menšího počtu rozměrů ̶principem je tvorba nových rozměrů, které lépe vyčerpávají variabilitu dat SHLUKOVÁ ANALÝZA ORDINAČNÍ METODY •Existuje několik typů shlukové analýzy, které se liší postupem shlukování. Shlukování může být hierarchické nebo nehierarchické. •Hierarchická shluková analýza vytváří systém skupin a podskupin tak, že každá skupina může obsahovat několik podskupin nižšího řádu a sama může být součástí skupiny vyšší-ho řádu. Výsledek se dá graficky znázornit stromem – dendrogramem. •Nehierarchická shluková analýza (partitioning methods) rozdělí objekty do několika shluků stejného řádu. • Shluková analýza •Vstupní data: ̶Tabulka spojitých nebo kategoriálních dat popisujících respondenty nebo jejich skupiny •Výstupy analýzy ̶Tzv. dendrogram popisující vazby mezi vzorky nebo parametry ̶Rozdělení respondentů nebo parametrů do daného počtu skupin •Kritické problémy analýzy ̶Velké množství parametrů nebo respondentů v dendrogramu je obtížně interpretovatelné ̶Analýza je silně závislá na zvolení vhodné metriky vzdáleností ̶Analýza je silně závislá na shlukovacím algoritmu ̶Korelace proměnných ̶Převážení informace ̶ alýzy Shluková analýza Spojitá data Euklidovská vzdálenost Měření vzdálenosti objektů i,j – označení objektů dij – vzdálenost objektů i a j p – počet parametrů k – k-tý parametr wk – váha parametru k Vážená euklidovská vzdálenost Minkowski (power distance) l - celé číslo l =1 Manhattan (city block) l= 2 Euklidovská vzdálenost Chebychev •Jde o základní metrické měřítko vzdálenosti a počítá vzdálenost objektů obdobně jako Pythagorova věta počítá přeponu pravoúhlého trojúhelníku. •Metoda je citlivá na rozdílný rozsah hodnot vstupujících proměnných (vhodným řešením může být standardizace) a double zero problém. •Nemá horní hranici hodnot. ̶ • Jako další měřítko se používá také čtverec této vzdálenosti. . Jeho nevýhodou jsou semimetrické vlastnosti. Euklidovská vzdálenost jako základní vícerozměrná metrika Měření podobnosti objektů Binární koeficienty podobnosti a, b, c, d = počet případů, kdy souhlasí binární charakteristika objektu 1 a 2 a+b+c+d=p Simple matching coefficient Symetrické binární koficienty - není rozdíl mezi případem 1-1 a 0-0 Jaccard`s coefficient Asymetrické binární koeficienty – odstranění double zero Řada dalších koeficientů dávajících různou váhu jednotlivým kombinacím parametrů Sorensen`s coefficient Měření podobnosti objektů Joining (Tree Clustering) – shlukovací algoritmy Na tuto vzdálenost se ptá single linkage Na tuto vzdálenost se ptá complete linkage Další metody počítají s průměrnou vzdáleností všech objektů shluků nebo vzdáleností centroidů (vzdálenost může být vážena velikostí shluků). Wardova metoda se snaží minimalizovat variabilitu uvnitř shluků. centroid “Klasická“ shluková analýza hierarchicky spojující objekty do skupin podle vzdálenosti v asociační matici Dendrogram představuje grafický výstup shlukové analýzy, kde jsou objekty propojeny tak, jak postupovalo jejich shlukování Vzdálenost (zde v %) Shlukované objekty Popis analýzy Dendrogram Shluková analýza K-means clustering •K-means clustering se snaží rozdělit objekty do zadaného počtu shluků tak, aby byla minimalizována variabilita uvnitř shluků a maximalizována mezi shluky • •Vzorky jsou na základě zadaného počtu shluků rozděleni podle kritéria maximální homogenity shluků •Rizika analýzy –Při špatném odhadu počtu shluků dává metoda chybné výsledky –Výpočet je možný pouze na Euklidovských vzdálenostech se všemi jejich omezeními x y x y Shluková analýza K-means clustering •Analýza hlavních komponent, faktorová analýza, korespondenční analýza a diskriminační analýza se snaží zjednodušit vícerozměrnou strukturu dat výpočtem souhrnných os •Metody se liší v logice tvorby těchto os ̶Maximální variabilita (analýza hlavních komponent, korespondenční analýza) ̶Maximální interpretovatelnost os (faktorová analýza) ̶Maximální diskriminace skupin (diskriminační analýza) ̶ Ordinační analýzy •nové (latentní) proměnné (hlavní komponenty, principal components) vysvětlují maximum celkového rozptylu původních proměnných, případně maximálně reprodukují celkovou kovarianční (nebo korelační) matici výchozích proměnných •Matice kovariancí – data jsou standardizována na průměr, ale je zohledněn rozptyl primárních dat-proměnné mají srovnatelný význam a absolutní hodnota rozptylu zohledňuje vzájemné váhy proměnných. •Matice korelačních koeficientů – data jsou standardizována jak na průměr, tak na rozptyl, analýza pracuje s jednotkovým rozptylem proměnných a zohledňuje pouze sílu jejich vazby v rozsahu -1 až 1. PCA •Proces hledání hlavních komponent je postupný •Výsledkem jsou ortogonální (nekorelované) faktory •Hlavní komponenty jsou uspořádány podle jejich klesajícího rozptylu. •Algebraicky PCA hledá vlastní hodnoty (eigenvalues) a vlastní vektory (eigenvectors) asociační matice. •Prvky vlastních vektorů jsou váhy původních proměnných, udávají pozici ̶objektů vzhledem k novému systému vytvořenému hlavními komponentami PCA •mnohorozměrné normální rozdělení proměnných ̶na menší odchylky od mnohorozměrného normálního rozdělení je PCA dostatečně robustní. •kvantitativní proměnné- je možné pro ně vypočítat kovarianci nebo korelaci. ̶částečně robustní i pro zpracování semikvantitativních a binárních proměnných ̶není vhodná pro vícestavové kvalitativní proměnné, na které nelze použít euklidovskou metriku. •nezávislost pozorování (objektů) • ̶ Předpoklady PCA •nevhodná pro data obsahují mnoho nul (double zero problem) •korelace větších skupiny proměnných •počet proměnných by měl být menší, než je počet objektů n •odlehlé hodnoty Předpoklady a omezení PCA