Vícerozměrné statistické metody Diskriminační analýza Jiří Jarkovský, Simona Littnerová logo-IBA logomuni Jiří Jarkovský, Simona Littnerová: Vícerozměrné statistické metody Typy vícerozměrných analýz 2 Diskriminační prostor y x x y Faktorové osy y x podobnost logo-IBA logomuni Jiří Jarkovský, Simona Littnerová: Vícerozměrné statistické metody Obecné zásady tvorby predikčních modelů •Požadavky na kvalitní predikční model –Maximální predikční síla –Maximální interpretovatelnost –Minimální složitost •Tvorba modelů –Neobsahuje redundantní proměnné –Je otestován na nezávislých datech •Výběr proměnných –Algoritmy typu dopředné a zpětné eliminace jsou pouze pomocným ukazatelem při výběru proměnných finálního modelu –Při výběru proměnných se uplatní jak klasické statistické metody (ANOVA), tak expertní znalost významu proměnných a jejich zastupitelnosti 3 logo-IBA logomuni Jiří Jarkovský, Simona Littnerová: Vícerozměrné statistické metody Vytváření modelů 4 Prediktory 1.Tvorba modelu •Parametry ovlivňující vysvětlovanou charakteristiku pacienta • Rovnice umožňující predikci • Platnost modelu pouze v rozsahu prediktorů 2.Validace modelu • Nebezpečí „přeučení“ modelu • Testování modelu na známých datech •Krosvalidace 3. Aplikace modelu • Individuální predikce stavu nenámých pacientů • Model musí být podložen korektní statistikou a rozsáhlými daty ? ? ? logo-IBA logomuni Jiří Jarkovský, Simona Littnerová: Vícerozměrné statistické metody Diskriminační analýza •Cíle diskriminační analýzy –Identifikace proměnných (prediktorů) diskriminujících mezi předem danými skupinami objektů –Klasifikace objektů do skupin •Předpoklady diskriminační analýza –Obdoba lineární regrese –Oddělení objektů podél přímky ve vícerozměrném prostoru (lineární vztah); existuje nicméně kvadratická diskriminační analýza –Předpoklad vícerozměrného normálního rozdělení prediktorů v každé ze skupin –Citlivá na přítomnost odlehlých hodnot –Citlivá na redundantní proměnné v modelu •Typy diskriminační analýzy –Podle typu vztahu •Lineární •Kvadratická –Podle účelu •Kanonická diskriminační analýza – identifikace proměnných významných pro diskrminaci •Klasifikační diskriminační analýza – klasifikace neznámých objektů do skupin 5 logo-IBA logomuni Jiří Jarkovský, Simona Littnerová: Vícerozměrné statistické metody Princip diskriminační analýzy •Kombinací několika proměnných získáme nový pohled odlišující existující skupiny objektů, které není možné odlišit žádnou z proměnných samostatně 6 A A A A A A A A A A A A A A A A A A A B B B B B B B B B B B B B B B B B B B B A X 2 X 1 B B logo-IBA logomuni Jiří Jarkovský, Simona Littnerová: Vícerozměrné statistické metody Kroky diskriminační analýzy •Metoda lineárního modelování obdobná analýze rozptylu, regresi nebo kanonické korelační analýze (nejsnáze pochopitelná je její analogie k ANOVA) •Výpočet probíhá v následujících základních krocích: –Testování významnosti rozdílů v hodnocených proměnných mezi existujícími skupinami objektů; tato část výpočtu je vlastně MANOVA (multivariate analysis of variance, vícerozměrná ANOVA) •Pokud je potvrzena alternativní hypotéza rozdílů mezi skupinami objektů následuje tvorba vlastního modelu –Nalezení lineární kombinace proměnných, která nejlépe odlišuje mezi skupinami objektů (diskriminační funkce) – 7 logo-IBA logomuni Jiří Jarkovský, Simona Littnerová: Vícerozměrné statistické metody Historie diskriminační analýzy •Popsána pod názvem canonical variate analysis (CVA) Fisherem v roce 1936 pro dvě skupiny; Rao (1948, 1952) ji rozšířil pro více než 2 skupiny •Je spjata se slavnými „Fisherovými kosatci“ na nichž ji Fisher v roce 1936 popsal •Fisherovy kosatce –Shromážděny na poolostrově Gaspé (Quebec v Kanadě) botanikem Edgarem Andersonem 8 Versicola Virginic Setosa Petals Sepals logo-IBA logomuni Jiří Jarkovský, Simona Littnerová: Vícerozměrné statistické metody Předstupeň diskriminační analýzy: popis vztahu prediktorů a existujících skupin objektů 9 Nicméně pozor na pouze jednorozměrný výběr proměnných – diskriminace objektů může být dána pouze jejich kombinací logo-IBA logomuni Jiří Jarkovský, Simona Littnerová: Vícerozměrné statistické metody Význam identifikace redundantních proměnných •Redundantní proměnné snižují stabilitu modelu a mohou vést až k nesmyslným výsledkům 10 Proměnná se silnější diskriminační silou a nekorelovaná s druhou proměnnou snadno vyhrává zařazení do modelu, další proměnné následují dle jejich významu V případě dvou korelovaných proměnných s obdobnou diskriminační silou pouze jedna vyhrává zařazení do modelu (výsledek dán nepatrnými náhodnými odlišnostmi), druhá je vyřazena nebo vstupuje s do modelu s minimálním významem -> problém s interpretací a stabilitou X X logo-IBA logomuni Jiří Jarkovský, Simona Littnerová: Vícerozměrné statistické metody Identifikace redundantních proměnných •Korelační analýza a XY grafy –Jednoduchý výpočet –Analyzuje vztahy pouze dvojic proměnných – •Analýza hlavních komponent nebo faktorová analýza –Analyzuje vzájemné vztahy sady proměnných –Usnadňuje výběr neredundantních proměnných nebo nahrazení proměnných faktorovými osami – •Analýza vzájemného vysvětlení proměnných (analýza redundance) –Ve statistických software často součást regresní analýzy nebo diskriminační analýzy –R2 a Tolerance – R2 popisuje kolik variability dané proměnné je vysvětleno ostatními proměnnými v modelu? Tolerance je 1-R2, tedy kolik unikátní variability na proměnnou připadá (principem je vícerozměrná regrese, ta determinuje i předpoklady výpočtu) –VIF (Variance Inflation Factor) je počítán jako 1/Tolerance, při VIF>10 je kolinearita považována za velmi závažnou (nicméně nejsou dány žádné závazné hranice VIF) • •Expertní znalost proměnných –Vyřazovány jsou korelované proměnné s obtížným měřením, zatížené chybami, nízkou vyplněností apod. 11 logo-IBA logomuni Jiří Jarkovský, Simona Littnerová: Vícerozměrné statistické metody Ověření diskriminační funkce na nezávislém souboru •Při tvorbě modelů může dojít k problému, kdy vytvořený model je perfektně „vycvičen“ řešit danou úlohu na datovém soubor na němž byla vytvořena •Z tohoto důvodu je problematické testovat výsledky modelu na stejném souboru, na němž byla vytvořena -> jde o důkaz kruhem •Řešením je testování výsledků modelu na souboru se známým výsledkem (zde známým zařazením objektů do skupin), který se nepodílel na definici modelu –Krosvalidace •datový soubor je náhodně rozdělen na několik podsouborů (2 nebo více) •Na jednom podsouboru je vytvořen model a jeho výsledky testovány na zbývajících podsouborech •Výpočet je proveden postupně na všech podsouborech –One out leave out •Model je vytvořen na celém souboru bez jednoho objektu •na tomto objektu je model testován • postup je zopakován pro všechny objekty –Permutační metody •Jackknife, bootstrap – model je postupně vytvářen na náhodných podvýběrech souboru a testován na zbytku dat 12 Podsoubor I Model I Podsoubor II Model II Testování Model I Testování Model II logo-IBA logomuni Jiří Jarkovský, Simona Littnerová: Vícerozměrné statistické metody Algebra diskriminační analýzy •Výpočet diskriminační analýzy je možné snadno popsat analogií s ANOVA a PCA –ANOVA – definice matice rozptylu jako rozptylu vztaženého k rozdílům mezi skupinami –PCA – identifikace faktorových os vysvětlujících maximum rozptylu (zde rozptylu mezi skupinami) – – – – – –Pro rozptyl mezi skupinami pak hledáme pohled maximalizující vysvětlenou variabilitu; v obecném tvaru jde o stejný vzorec jako v případě PCA – –Počet os definovaných eigenvektory je g-1 –Eigenvektory jsou různě standardizovány •Normalizované eigenvektory definují tzv. kanonický prostor diskriminační analýzy; transformace vede k maximalizaci variability mezi centroidy skupin a sféricitě rozptylu uvnitř skupin •Další metody jsou standardizace na délku 1 nebo druhou odmocninu z eigenvalue; ty nicméně nezaručují sfericitu rozptylu uvnitř skupin – 13 G- počet skupin, n – počet objektů Suma čtverců Matice rozptylu Celkový rozptyl Sloučený rozptyl uvnitř skupin Rozptyl mezi skupinami Kde l jsou eigenvalue a u eigenvektory logo-IBA logomuni Jiří Jarkovský, Simona Littnerová: Vícerozměrné statistické metody Vztah původních proměnných a kanonických os •Dle Legendre a Legendre, 1998, Numerical ecology 14 Původní proměnné Kanonické osy Skupiny objektů Kanonické osy nejsou v prostoru původních proměnných ortogonální Kanonické osy použité jako ortogonální mění rotaci skupin objektů v prostoru Normalizace eigenvektorů pomocí vede ke sféricitě variability (pouze v případě homogenity rozptylu) logo-IBA logomuni Jiří Jarkovský, Simona Littnerová: Vícerozměrné statistické metody Pojmy a výstupy diskriminační analýzy •Popis významu proměnných v modelu –Wilks lambda modelu –Wilks lambda proměnných –Partial lambda –Tolerance •Kanonická analýza –Eigenvektory –Eigenvalues •Klasifikace neznámých objektů –Diskriminační funkce –A priori probability –Posterior probability • 15 logo-IBA logomuni Jiří Jarkovský, Simona Littnerová: Vícerozměrné statistické metody Wilks lambda •Měří odlišnost v pozici centroidů skupin definovaných danými proměnnými •Je počítána jako poměr determinantů matice sumy čtverců a vektorového součinu W a T, kde –W je složená matice sumy čtverců uvnitř každé analyzované skupiny (analogie k variabilitě uvnitř skupin v ANOVA) –T je matice skalárních produktů centrovaných proměnných pro všechny objekty bez ohledu na to, z jaké skupiny pochází (obdoba celkové variability v ANOVA) – – •Tento poměr má rozsah od 0 (maximální rozdíl v pozici centroidů skupin) až 1 (žádný rozdíl mezi centroidy skupin) •Wilks lambda může být následně převedeno na chi-square nebo F statistiku a statisticky testováno • 16 logo-IBA logomuni Jiří Jarkovský, Simona Littnerová: Vícerozměrné statistické metody Popis modelu 17 •Celkové Wilks lambda – na škále 0 (nejlepší diskriminace) až 1 (žádná diskriminace) popisuje celkovou kvalitu modelu všech proměnných •Wilks lambda jednotlivých proměnných – jde o wilks lambda celého modelu při vyřazení dané proměnné •Partial lambda – unikátní příspěvek dané proměnné k diskriminaci •F to remove – F statistika asociovaná s příslušnou partial lambda •P value – statistická významnost F to remove a tedy i partial lambda •Tolerance – unikátní variabilita proměnné nevysvětlená ostatními proměnnými v modelu •R2 –variabilita proměnné vysvětlená kombinací ostatních proměnných v modelu • 1 2 3 4 5 6 7 1 2 3 4 5 6 7 logo-IBA logomuni Jiří Jarkovský, Simona Littnerová: Vícerozměrné statistické metody Mahalanobisova vzdálenost (Mahalanobis 1936) •Jde o obecné měřítko vzdálenosti beroucí v úvahu korelaci mezi parametry a je nezávislá na rozsahu hodnot parametrů. Počítá vzdálenost mezi objekty v systému souřadnic jehož osy nemusí být na sebe kolmé. V praxi se používá pro zjištění vzdálenosti mezi skupinami objektů. Jsou dány dvě skupiny objektů w1 a w2 o n1 a n2 počtu objektů a popsané p parametry: • • •Kde je vektor o délce p rozdílů mezi průměry p parametrů v obou skupinách. V je vážená disperzní matice (matice kovariancí parametrů) uvnitř skupin objektů. • • •kde S1 a S2 jsou disperzní matice jednotlivých skupin. Vektor měří rozdíl mezi p- rozměrnými průměry skupin a V vkládá do rovnice kovarianci mezi parametry. • logo-IBA logomuni Jiří Jarkovský, Simona Littnerová: Vícerozměrné statistické metody Mahalanobisova vzdálenost v diskriminační analýze •Používána pro popis vzájemných vzdáleností centroidů skupin •Používána pro popis vzdáleností objektů od centroidů skupin a následně pro výpočet posterior probabilities zařazení objektů do skupin 19 Vzdálenosti centroidů Vzdálenosti objektů od centroidů logo-IBA logomuni Jiří Jarkovský, Simona Littnerová: Vícerozměrné statistické metody Dopředná a zpětná eliminace •Dopředná a zpětná eliminace proměnných z modelu (forward, backward stepwise) je obecná technika používaná při tvorbě regresních, diskriminačních a jiných modelů •Proměnné jsou do modelu postupně přidávány (ubírány) podle jejich významu v modelu • 20 Schéma dopředné eliminace proměnných v modelu V případě zpětné eliminace začíná proces od modelu se všemi proměnnými a postupně jsou vyřazovány proměnné s nejmenším příspěvkem k diskriminační síle modelu Proces je třeba expertně kontrolovat, riziková je např. přítomnost redundantních proměnných logo-IBA logomuni Jiří Jarkovský, Simona Littnerová: Vícerozměrné statistické metody Definice modelu prostřednictvím stepwise analýzy •Před zahájením výpočtu je třeba nastavit Toleranci přidání proměnné (=hodnota při které nebude proměnná do modelu zařazena z důvodu redundance), F to enter a F to remove jsou hodnoty F spjaté s danou proměnnou, při které je daná proměnná zařazena/ vyřazena z modelu 21 Forward stepwise Backward stepwise logo-IBA logomuni Jiří Jarkovský, Simona Littnerová: Vícerozměrné statistické metody Kanonická analýza •Analogická k výpočtu analýzy hlavních komponent, liší se významem vytvořených os (kanonických kořenů; eigenvektorů) •Na rozdíl od PCA, kde význam osy je spjat s vyčerpanou variabilitou dat u diskriminační analýzy je význam os určen následovně: –1. osa – největší diskriminace mezi centroidy skupin objektů –2. osa – druhá největší diskriminace mezi centroidy skupin objektů –Atd. •Počet kanonických kořenů je dán jako počet skupin objektů-1 •Na rozdíl od PCA nemusí být kanonické kořeny ortogonální • • 22 logo-IBA logomuni Jiří Jarkovský, Simona Littnerová: Vícerozměrné statistické metody Kanonická analýza - výsledky •Eigenvektory popisují příspěvek jednotlivých proměnných k definici kanonických kořenů •Eigenvalues popisují variabilitu spjatou s kanonickými osami (tedy s rozdílem mezi centroidy skupin) 23 logo-IBA logomuni Jiří Jarkovský, Simona Littnerová: Vícerozměrné statistické metody PCA vs. Diskriminační analýza •Maximální vyčerpaná variabilita (PCA) vs. Maximální diskriminace (DA) 24 logo-IBA logomuni Jiří Jarkovský, Simona Littnerová: Vícerozměrné statistické metody Klasifikace neznámých objektů pomocí diskriminační analýzy •Využívá tzv. klasifikační funkci •Jde o sadu rovnic (pro každou skupinu jedna rovnice) •Objekt je zařazen do skupiny, jejíž klasifikační funkce nabývá nejvyšší hodnoty •V kombinaci s apriori a posterior probabilities je určena finální pravděpodobnost zařazení objektu do skupiny 25 logo-IBA logomuni Jiří Jarkovský, Simona Littnerová: Vícerozměrné statistické metody A priori a posterior probabilities 26 •A priori probabilities – přirozeně daná pravděpodobnost výskytu skupiny objektů –Proporcionální – předpokládáme, že struktura souboru odpovídá realitě a tedy i poměr skupin objektů v souboru odpovídá realitě –Rovnoměrná – každá skupina má pravděpodobnost dánu jako 100 / počet skupin –Uživatelské – dány expertní znalostí a nastaveny analytikem – •Posterior probabilities –Vznikají jako kombinace apriori pravděpodobností a Mahalanobisových vzdáleností objektu od centroidů skupin logo-IBA logomuni Jiří Jarkovský, Simona Littnerová: Vícerozměrné statistické metody Klasifikace objektů dle vzdálenosti 27 Mahalanobisova vzdálenost od daného centroidu Inconclusive area – nejednoznačné zařazení, nízké p vzhledem ke všem skupinám logo-IBA logomuni Jiří Jarkovský, Simona Littnerová: Vícerozměrné statistické metody Celkové vyhodnocení výsledků diskriminační analýzy •Popis výsledků klasifikace vůči známému zařazení objektů do skupin •Pro validní výsledky a hodnocení kvality modelu by mělo být provedeno na souboru, který se nepodílel na definici modelu (viz. crossvalidace apod.) •Kromě vlastní klasifikační funkce a Mahalanobisových vzdáleností ovlivňuje zařazení objektů do skupin i apriori pravděpodobnost zařazení 28 Výsledky při různé apriori pravděpodobnosti logo-IBA logomuni Jiří Jarkovský, Simona Littnerová: Vícerozměrné statistické metody Diskriminační analýza - shrnutí •Cílem analýzy je: –Identifikace proměnných odlišujících vícerozměrně skupiny objektů –Vytvoření modelu pro klasifikaci neznámých objektů – •Omezení analýzy –Vícerozměrné normální rozdělení v každé skupině –Pozor na odlehlé hodnoty –Pozor na redundantní proměnné –Rovnice modelu je v základní verzi lineární a tedy i hodnocený problém musí mít lineární řešení –Testování modelu provádět na souboru, který se nepodílel na definici modelu – •Výstupy –Klasifikační funkce pro zařazení objektů do skupin –Pravděpodobnost zařazení jednotlivých objektů do skupin - > interpretace 29 logo-IBA logomuni Jiří Jarkovský, Simona Littnerová: Vícerozměrné statistické metody Ordinační analýzy: shrnutí •Analýza hlavních komponent, faktorová analýza, korespondenční analýza, multidimensional scaling i diskriminační analýza se snaží zjednodušit vícerozměrnou strukturu dat výpočtem souhrnných os •Metody se liší v logice tvorby těchto os –Maximální variabilita (analýza hlavních komponent, korespondenční analýza) –Maximální interpretovatelnost os (faktorová analýza) –Převod asociační matice do Euklidovského prostoru (multidimensional scaling) –Odlišení existujících skupin (diskriminační analýza) • 30