Vícerozměrné statistické metody  Diskriminační analýza Jiří Jarkovský, Simona Littnerová Jiří Jarkovský, Simona Littnerová: Vícerozměrné statistické metody  Typy vícerozměrných analýz 2 Diskriminační prostor y x SHLUKOVÁ ANALÝZA ORDINAČNÍ METODY x y Faktorové osy y x podobnost KLASIFIKACE Jiří Jarkovský, Simona Littnerová: Vícerozměrné statistické metody  Obecné zásady tvorby predikčních modelů • Požadavky na kvalitní predikční model – Maximální predikční síla – Maximální interpretovatelnost – Minimální složitost • Tvorba modelů – Neobsahuje redundantní proměnné – Je otestován na nezávislých datech • Výběr proměnných  – Algoritmy typu dopředné a zpětné eliminace jsou pouze pomocným ukazatelem při  výběru proměnných finálního modelu – Při výběru proměnných se uplatní jak klasické statistické metody (ANOVA), tak expertní  znalost významu proměnných a jejich zastupitelnosti 3 Jiří Jarkovský, Simona Littnerová: Vícerozměrné statistické metody  Vytváření modelů 4 Prediktory Vysvětlovaná proměnná 1.Tvorba modelu •Parametry ovlivňující vysvětlovanou charakteristiku pacienta • Rovnice umožňující predikci • Platnost modelu pouze v rozsahu prediktorů 2.Validace modelu • Nebezpečí „přeučení“ modelu • Testování modelu na známých datech •Krosvalidace 3. Aplikace modelu • Individuální predikce stavu nenámých pacientů • Model musí být podložen korektní statistikou a rozsáhlými daty ? ? ? Jiří Jarkovský, Simona Littnerová: Vícerozměrné statistické metody  Diskriminační analýza • Cíle diskriminační analýzy – Identifikace proměnných (prediktorů) diskriminujících mezi předem danými skupinami  objektů – Klasifikace objektů do skupin • Předpoklady diskriminační analýza – Obdoba lineární regrese – Oddělení objektů podél přímky ve vícerozměrném prostoru (lineární vztah); existuje  nicméně kvadratická diskriminační analýza – Předpoklad vícerozměrného  normálního rozdělení prediktorů v každé ze skupin – Citlivá na přítomnost odlehlých hodnot  – Citlivá na redundantní proměnné v modelu • Typy diskriminační analýzy – Podle typu vztahu • Lineární • Kvadratická  – Podle účelu • Kanonická diskriminační analýza – identifikace proměnných významných pro diskrminaci • Klasifikační diskriminační analýza – klasifikace neznámých objektů do skupin 5 Jiří Jarkovský, Simona Littnerová: Vícerozměrné statistické metody  Princip diskriminační analýzy • Kombinací několika proměnných získáme nový pohled odlišující existující skupiny  objektů, které není možné odlišit žádnou z proměnných samostatně 6 A A A A A A A A AA A A A A A A A A A B B B B B B B B B B B B B B B B B B B B A X2 X1 B B Jiří Jarkovský, Simona Littnerová: Vícerozměrné statistické metody  Kroky diskriminační analýzy • Metoda lineárního modelování obdobná analýze rozptylu, regresi nebo kanonické  korelační analýze (nejsnáze pochopitelná je její analogie k ANOVA) • Výpočet probíhá v následujících  základních krocích:  – Testování významnosti rozdílů v hodnocených proměnných mezi existujícími skupinami  objektů; tato část výpočtu  je vlastně MANOVA (multivariate analysis of variance,  vícerozměrná ANOVA) • Pokud je potvrzena alternativní hypotéza rozdílů mezi skupinami objektů následuje tvorba  vlastního modelu – Nalezení lineární kombinace proměnných, která nejlépe odlišuje mezi skupinami objektů  (diskriminační funkce)  7 Jiří Jarkovský, Simona Littnerová: Vícerozměrné statistické metody  Historie diskriminační analýzy • Popsána pod názvem canonical variate analysis (CVA) Fisherem v roce 1936 pro dvě  skupiny; Rao (1948, 1952) ji rozšířil pro více  než 2 skupiny • Je spjata se slavnými „Fisherovými kosatci“  na nichž ji Fisher v roce 1936 popsal • Fisherovy kosatce – Shromážděny na poolostrově Gaspé (Quebec v Kanadě) botanikem Edgarem Andersonem 8 Versicola Virginic Setosa Petals Sepals Jiří Jarkovský, Simona Littnerová: Vícerozměrné statistické metody  Předstupeň diskriminační analýzy: popis vztahu  prediktorů a existujících skupin objektů 9 SEPALLEN SEPALWID PETALLEN PETALWID SETOSA VIRGINIC VERSICOL 4.0 4.5 5.0 5.5 6.0 6.5 7.0 7.5 8.0 8.5 SEPALLEN SETOSA VIRGINIC VERSICOL 1.8 2.0 2.2 2.4 2.6 2.8 3.0 3.2 3.4 3.6 3.8 4.0 4.2 4.4 4.6 SEPALWID SETOSA VIRGINIC VERSICOL 0 1 2 3 4 5 6 7 8 PETALLEN SETOSA VIRGINIC VERSICOL 0.0 0.2 0.4 0.6 0.8 1.0 1.2 1.4 1.6 1.8 2.0 2.2 2.4 2.6 PETALWID Analysis of Variance (diskriminacni) Marked effects are significant at p < .05000 Variable SS Effect df Effect MS Effect SS Error df Error MS Error F p SEPALLEN SEPALWID PETALLEN PETALWID 63.2121 2 31.6061 38.95620 147 0.265008 119.265 0.000000 11.3449 2 5.6725 16.96200 147 0.115388 49.160 0.000000 437.1028 2 218.5514 27.22260 147 0.185188 1180.161 0.000000 80.4133 2 40.2067 6.15660 147 0.041882 960.007 0.000000 Nicméně pozor na pouze jednorozměrný  výběr proměnných – diskriminace objektů  může být dána pouze jejich kombinací Jiří Jarkovský, Simona Littnerová: Vícerozměrné statistické metody  Význam identifikace redundantních proměnných • Redundantní proměnné snižují stabilitu modelu a mohou vést až k nesmyslným  výsledkům 10 Proměnná se silnější  diskriminační silou a  nekorelovaná s druhou  proměnnou snadno vyhrává  zařazení do modelu, další  proměnné následují dle jejich  významu V případě dvou korelovaných  proměnných s obdobnou  diskriminační silou pouze jedna  vyhrává zařazení do modelu  (výsledek dán nepatrnými  náhodnými odlišnostmi), druhá  je  vyřazena nebo vstupuje s do  modelu s minimálním významem ‐>  problém s interpretací a stabilitou X X Jiří Jarkovský, Simona Littnerová: Vícerozměrné statistické metody  Identifikace redundantních proměnných • Korelační analýza a XY grafy – Jednoduchý výpočet – Analyzuje vztahy pouze dvojic proměnných • Analýza hlavních komponent nebo faktorová analýza – Analyzuje vzájemné vztahy sady proměnných – Usnadňuje výběr neredundantních proměnných nebo nahrazení proměnných faktorovými  osami • Analýza vzájemného vysvětlení proměnných (analýza redundance) – Ve statistických software často součást regresní analýzy nebo diskriminační analýzy – R2 a Tolerance – R2 popisuje kolik variability dané proměnné je vysvětleno ostatními  proměnnými v modelu? Tolerance je 1‐R2, tedy kolik unikátní variability na proměnnou  připadá (principem je vícerozměrná regrese, ta determinuje i předpoklady výpočtu)  – VIF (Variance Inflation Factor) je počítán jako 1/Tolerance, při VIF>10 je kolinearita považována za velmi závažnou (nicméně nejsou dány žádné závazné hranice VIF) • Expertní znalost proměnných – Vyřazovány jsou korelované proměnné s obtížným měřením, zatížené chybami, nízkou  vyplněností apod. 11 Jiří Jarkovský, Simona Littnerová: Vícerozměrné statistické metody  Ověření diskriminační funkce na nezávislém souboru • Při tvorbě modelů může dojít k problému, kdy vytvořený model je perfektně  „vycvičen“ řešit danou úlohu na datovém soubor na němž byla vytvořena • Z tohoto důvodu je problematické testovat výsledky modelu na stejném souboru,  na němž byla vytvořena ‐> jde o důkaz kruhem • Řešením je testování výsledků modelu na souboru se známým výsledkem (zde  známým zařazením objektů do skupin), který se nepodílel  na definici modelu – Krosvalidace • datový soubor je náhodně rozdělen na několik podsouborů (2 nebo více) • Na jednom podsouboru je vytvořen model a jeho výsledky testovány na zbývajících  podsouborech • Výpočet je proveden postupně na všech podsouborech – One out leave out • Model je vytvořen na celém souboru bez jednoho objektu • na tomto objektu je model testován • postup je zopakován pro všechny objekty – Permutační metody • Jackknife, bootstrap – model je postupně vytvářen na náhodných podvýběrech souboru a  testován na zbytku dat 12 Podsoubor I Model I Podsoubor II Model II Testování  Model I Testování  Model II Jiří Jarkovský, Simona Littnerová: Vícerozměrné statistické metody  Algebra diskriminační analýzy • Výpočet diskriminační analýzy je možné snadno popsat analogií s ANOVA a PCA – ANOVA – definice matice rozptylu jako rozptylu vztaženého k rozdílům mezi skupinami – PCA – identifikace faktorových os vysvětlujících maximum rozptylu (zde rozptylu mezi  skupinami) – Pro rozptyl mezi skupinami pak hledáme pohled maximalizující vysvětlenou variabilitu; v  obecném tvaru jde o stejný vzorec jako v případě PCA – Počet os definovaných eigenvektory je g‐1 – Eigenvektory jsou různě standardizovány • Normalizované eigenvektory definují tzv. kanonický prostor diskriminační  analýzy; transformace vede k maximalizaci variability mezi centroidy skupin a  sféricitě rozptylu  uvnitř skupin • Další metody jsou standardizace na délku 1 nebo druhou odmocninu z eigenvalue; ty nicméně  nezaručují  sfericitu rozptylu uvnitř skupin 13 G‐ počet skupin, n – počet objektů Suma čtverců Matice rozptylu Celkový rozptyl Sloučený rozptyl uvnitř skupin Rozptyl mezi skupinami T gWWW  ...1 WTB  1  n TS gn WV   1  g BA   01  kk uIAV    0 kk uVA  Kde  jsou eigenvalue a u eigenvektory 2 1 )'(   VUUUC Jiří Jarkovský, Simona Littnerová: Vícerozměrné statistické metody  Vztah původních proměnných a kanonických os Dle Legendre a Legendre, 1998, Numerical ecology 14 Původní proměnné Kanonické osy  Skupiny objektů Kanonické osy nejsou v  prostoru původních  proměnných ortogonální Kanonické osy použité jako  ortogonální mění rotaci  skupin objektů v prostoru Normalizace eigenvektorů pomocí  vede ke sféricitě variability  (pouze v případě homogenity  rozptylu) 2 1 )'(   VUUUC Jiří Jarkovský, Simona Littnerová: Vícerozměrné statistické metody  Pojmy a výstupy diskriminační analýzy • Popis významu proměnných v modelu – Wilks lambda modelu – Wilks lambda proměnných – Partial lambda – Tolerance • Kanonická analýza – Eigenvektory – Eigenvalues • Klasifikace neznámých objektů – Diskriminační funkce – A priori probability – Posterior probability 15 Jiří Jarkovský, Simona Littnerová: Vícerozměrné statistické metody  Wilks lambda • Měří odlišnost v pozici centroidů skupin definovaných danými proměnnými • Je počítána jako poměr determinantů matice sumy čtverců a vektorového součinu  W a T, kde – W je složená matice sumy čtverců uvnitř každé analyzované skupiny (analogie k variabilitě  uvnitř skupin v ANOVA) – T je matice skalárních produktů centrovaných proměnných pro všechny objekty bez  ohledu na to, z jaké skupiny pochází (obdoba celkové variability v ANOVA) • Tento poměr má rozsah od 0 (maximální rozdíl v pozici centroidů skupin) až 1 (žádný  rozdíl mezi centroidy skupin) • Wilks lambda může být následně převedeno na chi‐square nebo F statistiku a  statisticky testováno 16 T W  Jiří Jarkovský, Simona Littnerová: Vícerozměrné statistické metody  Popis modelu 17 • Celkové Wilks lambda – na škále 0 (nejlepší diskriminace) až 1 (žádná  diskriminace) popisuje celkovou kvalitu modelu všech proměnných • Wilks lambda jednotlivých proměnných – jde o wilks lambda celého modelu při  vyřazení dané proměnné • Partial lambda – unikátní příspěvek dané proměnné k diskriminaci • F to remove – F statistika asociovaná s příslušnou partial lambda • P value – statistická významnost F to remove a tedy i partial lambda • Tolerance – unikátní variabilita proměnné nevysvětlená ostatními proměnnými v  modelu • R2 –variabilita proměnné vysvětlená kombinací ostatních proměnných v modelu Discriminant Function Analysis Summary (Spreadsheet1) No. of vars in model: 4; Grouping: IRIST YPE (3 grps) Wilks' Lambda: .02344 approx. F (8,288)=199.15 p<0.0000 N=150 Wilks' Lambda Partial Lambda F-remove (2,144) p-value Toler. 1-Toler. (R-Sqr.) SEPALLEN SEPALWID PETALLEN PETALWID 0.0249760.938464 4.72115 0.0103290.3479930.652007 0.0305800.766480 21.935930.0000000.6088590.39114 0.0350250.669206 35.590180.0000000.3651260.634874 0.0315460.74300 24.904330.0000000.6493140.350686 1 2 3 4 5 6 7 1 2 3 4 5 6 7 Jiří Jarkovský, Simona Littnerová: Vícerozměrné statistické metody  Mahalanobisova vzdálenost (Mahalanobis 1936) • Jde o obecné měřítko vzdálenosti beroucí v úvahu korelaci mezi parametry a je  nezávislá na rozsahu hodnot parametrů. Počítá vzdálenost mezi objekty v systému  souřadnic jehož osy nemusí být na sebe kolmé. V praxi se používá pro zjištění  vzdálenosti mezi skupinami objektů. Jsou dány dvě skupiny objektů w1 a w2 o n1 a  n2 počtu objektů a popsané p parametry: • Kde        je vektor o délce p rozdílů mezi průměry p parametrů v obou skupinách.  V je vážená disperzní matice (matice kovariancí parametrů) uvnitř skupin objektů. • kde S1 a S2 jsou disperzní matice jednotlivých skupin. Vektor       měří rozdíl mezi p‐ rozměrnými průměry skupin a V vkládá do rovnice kovarianci mezi parametry. ` 12 1 1221 2 5 ),( dVdwwD   12d     211 21 21 2 1 SnSn nn V    12d Jiří Jarkovský, Simona Littnerová: Vícerozměrné statistické metody  Mahalanobisova vzdálenost v diskriminační analýze • Používána pro popis vzájemných vzdáleností centroidů skupin • Používána pro popis vzdáleností objektů od centroidů skupin a následně pro  výpočet posterior probabilities zařazení objektů do skupin  19 Squared Mahalanobis Distances (Spreadshee IRISTYPE SETOSA VERSICOL VIRGINIC SETOSA VERSICOL VIRGINIC 0.0000 89.86419 179.3847 89.8642 0.00000 17.2011 179.3847 17.20107 0.0000 Squared Mahalanobis Distances from Group Centroids (Spreadsh Incorrect classifications are marked with * Case Observed Classif. SETOSA p=.33333 VERSICOL p=.33333 VIRGINIC p=.33333 1 * * * SETOSA 0.2419 90.6602 181.5587 VIRGINIC 208.5713 27.3188 1.8944 VERSICOL 105.2663 2.2329 13.0720 VIRGINIC 207.9180 31.7492 4.4506 VIRGINIC 133.0668 5.2529 7.2359 SETOSA 1.3337 84.0118 170.0569 VIRGINIC 173.1838 26.5620 11.0484 VERSICOL 131.6617 8.4307 14.7647 VERSICOL 130.8624 8.6697 6.5068 SETOSA 2.2864 113.6509 210.0239 VERSICOL 99.2338 1.2963 13.8174 VERSICOL 149.0303 8.4393 4.8645 VIRGINIC 158.9817 12.7512 1.2342 VERSICOL 79.1079 1.4076 26.6531 VIRGINIC 161.8529 12.1703 1.9781 VIRGINIC 174.0819 16.0529 2.3902 VIRGINIC 209.0295 29.5143 1.9395 SETOSA 2.7690 67.4717 145.7007 Vzdálenosti centroidů Vzdálenosti objektů od centroidů Jiří Jarkovský, Simona Littnerová: Vícerozměrné statistické metody  Dopředná a zpětná eliminace • Dopředná a zpětná eliminace proměnných z modelu (forward, backward stepwise)  je obecná technika používaná při tvorbě regresních, diskriminačních a jiných  modelů • Proměnné jsou do modelu postupně přidávány (ubírány) podle jejich významu v  modelu 20 Každá proměnná je individuálně zhodnocena co do významu pro diskriminaci skupin V 1. kroku je vybrána proměnná s největším individuálním významem pro diskriminaci skupin  K vybrané proměnné jsou postupně přidávány další proměnné a je hodnocen význam dvojic proměnných  pro diskriminaci skupin V 2. kroku je do modelu přidána ta proměnná, která v kombinaci s již dříve vybranými proměnnými nejvíce  přispívá k diskriminaci skupin Postup je opakován až do vyčerpání všech proměnných nebo do situace kdy přidání další proměnné již  nevylepšuje diskriminační schopnosti modelu Schéma dopředné eliminace  proměnných v modelu V případě zpětné eliminace  začíná proces od modelu se  všemi proměnnými a  postupně jsou vyřazovány  proměnné s nejmenším  příspěvkem k diskriminační  síle modelu Proces je třeba expertně  kontrolovat, riziková je např.  přítomnost redundantních  proměnných Jiří Jarkovský, Simona Littnerová: Vícerozměrné statistické metody  Definice modelu prostřednictvím stepwise analýzy • Před zahájením výpočtu je třeba nastavit Toleranci přidání proměnné (=hodnota  při které nebude proměnná do modelu zařazena z důvodu redundance), F to enter a F to remove jsou hodnoty F spjaté s danou proměnnou, při které je daná  proměnná zařazena/ vyřazena z modelu 21 Forward stepwise Backward stepwise Discriminant Function Analysis Summary (Spreadsheet1) Step 1, N of vars in model: 1; Grouping: IRIST YPE (3 grp Wilks' Lambda: .05863 approx. F (2,147)=1180.2 p<0.000 N=150 Wilks' Lambda Partial Lambda F-remove (2,147) p-value Toler. 1-Toler (R-Sqr.) PETALLEN 1.0000000.058628 1180.16 0.00 1.000000 0.00 Discriminant Function Analysis Summary (Spreadsheet1) Step 2, N of vars in model: 2; Grouping: IRISTYPE (3 grps) Wilks' Lambda: .03688 approx. F (4,292)=307.10 p<0.0000 N=150 Wilks' Lambda Partial Lambda F-remove (2,146) p-value Toler. 1-Toler. (R-Sqr.) PETALLEN SEPALWID 0.5992170.061554 1112.9540.0000000.8571790.14282 0.0586280.629118 43.035 0.0000000.8571790.14282 Discriminant Function Analysis Summary (Spreadsheet1) Step 3, N of vars in model: 3; Grouping: IRISTYPE (3 grps) Wilks' Lambda: .02498 approx. F (6,290)=257.50 p<0.0000 N=150 Wilks' Lambda Partial Lambda F-remove (2,145) p-value Toler. 1-Toler. (R-Sqr.) PETALLEN SEPALWID PETALWID 0.0383160.651835 38.724470.0000000.7364160.263584 0.0437770.570520 54.576930.0000000.7492120.250788 0.0368840.677135 34.568690.0000000.6689050.331095 Discriminant Function Analysis Summary (Spreadsheet1) Step 4, N of vars in model: 4; Grouping: IRISTYPE (3 grps) Wilks' Lambda: .02344 approx. F (8,288)=199.15 p<0.0000 N=150 Wilks' Lambda Partial Lambda F-remove (2,144) p-value Toler. 1-Toler. (R-Sqr.) PETALLEN SEPALWID PETALWID SEPALLEN 0.0350250.669206 35.590180.0000000.3651260.634874 0.0305800.766480 21.935930.0000000.6088590.39114 0.0315460.74300 24.904330.0000000.6493140.350686 0.0249760.938464 4.72115 0.0103290.3479930.652007 Discriminant Function Analysis Summary (Spreadsheet1) Step 0, N of vars in model: 4; Grouping: IRISTYPE (3 grps) Wilks' Lambda: .02344 approx. F (8,288)=199.15 p<0.0000 N=150 Wilks' Lambda Partial Lambda F-remove (2,144) p-value Toler. 1-Toler. (R-Sqr.) SEPALLEN SEPALWID PETALLEN PETALWID 0.0249760.938464 4.72115 0.0103290.3479930.652007 0.0305800.766480 21.935930.0000000.6088590.39114 0.0350250.669206 35.590180.0000000.3651260.634874 0.0315460.74300 24.904330.0000000.6493140.350686 Discriminant Function Analysis Summary (Spreadsheet1) Step 1, N of vars in model: 3; Grouping: IRISTYPE (3 grps) Wilks' Lambda: .02498 approx. F (6,290)=257.50 p<0.0000 N=150 Wilks' Lambda Partial Lambda F-remove (2,145) p-value Toler. 1-Toler. (R-Sqr.) SEPALWID PETALLEN PETALWID 0.0437770.570520 54.576930.0000000.7492120.250788 0.0383160.651835 38.724470.0000000.7364160.263584 0.0368840.677135 34.568690.0000000.6689050.331095 Jiří Jarkovský, Simona Littnerová: Vícerozměrné statistické metody  Kanonická analýza • Analogická k výpočtu analýzy hlavních komponent,  liší se významem vytvořených  os (kanonických kořenů; eigenvektorů) • Na rozdíl od PCA, kde význam osy je spjat s vyčerpanou variabilitou dat u  diskriminační analýzy je význam os určen následovně: – 1. osa – největší diskriminace mezi centroidy skupin objektů – 2. osa – druhá největší diskriminace mezi centroidy skupin objektů – Atd. • Počet kanonických kořenů je dán jako počet skupin objektů‐1  • Na rozdíl od PCA nemusí být kanonické kořeny ortogonální 22 Jiří Jarkovský, Simona Littnerová: Vícerozměrné statistické metody  Kanonická analýza ‐ výsledky • Eigenvektory popisují příspěvek jednotlivých  proměnných k definici kanonických kořenů • Eigenvalues popisují variabilitu spjatou s  kanonickými osami (tedy s rozdílem mezi  centroidy skupin) 23 Standardized Coefficients ( for Canonical Variables Variable Root 1 Root 2 SEPALLEN SEPALWID PETALLEN PETALWID Eigenval Cum.Prop 0.42695 0.012408 0.52124 0.73526 -0.94726 -0.401038 -0.57516 0.581040 32.19193 0.28539 0.99121 1.000000 Chi-Square Tests with Successive Roots Removed (Spreadshe Roots Removed Eigen- value Canonicl R Wilks' Lambda Chi-Sqr. df p-value 0 1 32.19193 0.98482 0.023439546.1153 8 0.000000 0.28539 0.4711970.777973 36.5297 3 0.000000 Root 1 vs. Root 2 -15 -10 -5 0 5 10 15 Root 1 -4 -3 -2 -1 0 1 2 3 4 5 Root2 SETOSA VERSICOL VIRGINIC Jiří Jarkovský, Simona Littnerová: Vícerozměrné statistické metody  PCA vs. Diskriminační analýza • Maximální vyčerpaná variabilita (PCA) vs. Maximální diskriminace (DA) 24 Factor1 Factor2 -4 -3 -2 -1 0 1 2 3 4 -3 -2 -1 0 1 2 3 ROOT_1 ROOT_2 -10 -8 -6 -4 -2 0 2 4 6 8 10 12 -3 -2 -1 0 1 2 3 Jiří Jarkovský, Simona Littnerová: Vícerozměrné statistické metody  Klasifikace neznámých objektů pomocí diskriminační  analýzy • Využívá tzv. klasifikační funkci  • Jde o sadu rovnic (pro každou skupinu jedna rovnice) • Objekt je zařazen do skupiny, jejíž klasifikační funkce nabývá nejvyšší hodnoty • V kombinaci s apriori a posterior probabilities je určena finální pravděpodobnost  zařazení objektu do skupiny 25 Classification Functions; grouping: IRISTYPE (Spreadshe Variable SETOSA p=.33333 VERSICOL p=.33333 VIRGINIC p=.33333 SEPALLEN SEPALWID PETALLEN PETALWID Constant 23.5442 15.6982 12.446 23.5879 7.0725 3.685 -16.4306 5.2115 12.767 -17.3984 6.4342 21.079 -86.3085 -72.8526 -104.368 . ...*6.23*5.23 atd SEPALWIDSEPALLENSETOSA  Classification Matrix (Spreadsheet1) Rows: Observed classifications Columns: Predicted classifications Group Percent Correct SETOSA p=.33333 VERSICOL p=.33333 VIRGINIC p=.33333 SETOSA VERSICOL VIRGINIC Total 100.0000 50 0 0 96.0000 0 48 2 98.0000 0 1 49 98.0000 50 49 51 Jiří Jarkovský, Simona Littnerová: Vícerozměrné statistické metody  A priori a posterior probabilities 26 • A priori probabilities – přirozeně daná pravděpodobnost výskytu skupiny objektů – Proporcionální – předpokládáme, že struktura souboru odpovídá realitě a tedy i poměr  skupin objektů v souboru odpovídá realitě – Rovnoměrná – každá skupina má pravděpodobnost dánu jako 100 / počet skupin – Uživatelské – dány expertní znalostí a nastaveny analytikem • Posterior probabilities – Vznikají jako kombinace apriori pravděpodobností a Mahalanobisových vzdáleností  objektu od centroidů skupin Classification of Cases (Spreadsheet1) Incorrect classifications are marked with * Case Observed Classif. 1 p=.33333 2 p=.33333 3 p=.33333 1 * * SETOSA SETOSA VERSICOL VIRGINIC VIRGINIC VIRGINIC VERSICOL SETOSA VERSICOL VERSICOL VIRGINIC SETOSA VIRGINIC VIRGINIC VERSICOL SETOSA VIRGINIC VERSICOL VIRGINIC SETOSA SETOSA SETOSA VERSICOL VIRGINIC VIRGINIC VIRGINIC VERSICOL SETOSA VERSICOL VERSICOL VIRGINIC SETOSA VERSICOL VIRGINIC VERSICOL SETOSA SETOSA SETOSA VERSICOL VIRGINIC Squared Mahalanobis Distances from Group Incorrect classifications are marked with * Case Observed Classif. SETOSA p=.33333 VERSICOL p=.33333 VIRGINIC p=.33333 1 * * SETOSA 0.2419 90.6602 181.5587 VIRGINIC 208.5713 27.3188 1.8944 VERSICOL 105.2663 2.2329 13.0720 VIRGINIC 207.9180 31.7492 4.4506 VIRGINIC 133.0668 5.2529 7.2359 SETOSA 1.3337 84.0118 170.0569 VIRGINIC 173.1838 26.5620 11.0484 VERSICOL 131.6617 8.4307 14.7647 VERSICOL 130.8624 8.6697 6.5068 SETOSA 2 2864 113 6509 210 0239 Posterior Probabilities (Spreadsheet1) Incorrect classifications are marked with * Case Observed Classif. SETOSA p=.33333 VERSICOL p=.33333 VIRGINIC p=.33333 1 * * SETOSA 1.000000 0.000000 0.000000 VIRGINIC 0.000000 0.000003 0.999997 VERSICOL 0.000000 0.995590 0.004410 VIRGINIC 0.000000 0.00000 0.999999 VIRGINIC 0.000000 0.729388 0.270612 SETOSA 1.000000 0.000000 0.000000 VIRGINIC 0.000000 0.000428 0.999572 VERSICOL 0.000000 0.959573 0.040427 VERSICOL 0.000000 0.253228 0.746772 SETOSA 1 000000 0 000000 0 000000 Jiří Jarkovský, Simona Littnerová: Vícerozměrné statistické metody  Klasifikace objektů dle vzdálenosti 27 SETOSA 0.1174 14.4403 28.7633 43.0862 57.4092 71.7321 86.0550 100.3780 114.7009 129.0238 143.3468 157.6697 171.9927 186.3156 200.6385 214.9615 229.2844 243.6073 257.9303 272.2532 286.5761 0 10 20 30 40 50 60 IRISTYPE: SETOSA IRISTYPE: VERSICOL IRISTYPE: VIRGINIC VERSICOL 0.3734 7.6246 14.8758 22.1270 29.3782 36.6294 43.8806 51.1318 58.3830 65.6342 72.8854 80.1366 87.3878 94.6390 101.8902 109.1414 116.3926 123.6438 130.8950 138.1462 145.3975 0 10 20 30 40 50 60 VIRGINIC 0.8865 13.3054 25.7243 38.1431 50.5620 62.9809 75.3997 87.8186 100.2375 112.6564 125.0752 137.4941 149.9130 162.3318 174.7507 187.1696 199.5884 212.0073 224.4262 236.8450 249.2639 0 10 20 30 40 50 60 Mahalanobisova vzdálenost od daného centroidu Inconclusive area – nejednoznačné zařazení, nízké p vzhledem ke všem skupinám Jiří Jarkovský, Simona Littnerová: Vícerozměrné statistické metody  Celkové vyhodnocení výsledků diskriminační analýzy • Popis výsledků klasifikace vůči známému zařazení objektů do skupin • Pro validní výsledky a hodnocení kvality modelu by mělo být provedeno na  souboru, který se nepodílel na definici modelu (viz. crossvalidace apod.) • Kromě vlastní klasifikační funkce a Mahalanobisových vzdáleností ovlivňuje  zařazení objektů do skupin i apriori pravděpodobnost zařazení 28 Classification Matrix (Spreadsheet1) Rows: Observed classifications Columns: Predicted classifications Group Percent Correct SETOSA p=.33333 VERSICOL p=.33333 VIRGINIC p=.33333 SETOSA VERSICOL VIRGINIC Total 100.0000 50 0 0 96.0000 0 48 2 98.0000 0 1 49 98.0000 50 49 51 Classification Matrix (Spreadsheet1) Rows: Observed classifications Columns: Predicted classifications Group Percent Correct SETOSA p=.20000 VERSICOL p=.70000 VIRGINIC p=.10000 SETOSA VERSICOL VIRGINIC Total 100.0000 50 0 0 100.0000 0 50 0 90.0000 0 5 45 96.6667 50 55 45 Výsledky při různé apriori pravděpodobnosti  Jiří Jarkovský, Simona Littnerová: Vícerozměrné statistické metody  Diskriminační analýza ‐ shrnutí • Cílem analýzy je: – Identifikace proměnných odlišujících vícerozměrně skupiny objektů – Vytvoření modelu pro klasifikaci  neznámých objektů • Omezení analýzy – Vícerozměrné normální rozdělení v každé skupině  – Pozor na odlehlé hodnoty – Pozor na redundantní proměnné – Rovnice modelu je v základní verzi lineární a tedy i hodnocený problém musí mít lineární  řešení – Testování modelu provádět na souboru, který se nepodílel na definici modelu • Výstupy – Klasifikační funkce pro zařazení objektů do skupin – Pravděpodobnost zařazení jednotlivých objektů do skupin ‐ > interpretace 29 Jiří Jarkovský, Simona Littnerová: Vícerozměrné statistické metody  Ordinační analýzy: shrnutí • Analýza hlavních komponent, faktorová analýza, korespondenční analýza,  multidimensional scaling i diskriminační analýza se snaží zjednodušit  vícerozměrnou strukturu dat výpočtem souhrnných os • Metody se liší v logice tvorby těchto os – Maximální variabilita (analýza hlavních komponent, korespondenční analýza) – Maximální interpretovatelnost os (faktorová analýza) – Převod asociační matice do Euklidovského prostoru (multidimensional scaling) – Odlišení existujících skupin (diskriminační analýza) 30