Diskriminačná analýza (CVA, DFA) Podzim 2008 MU IBA 'nštitút bioštatistiky a analýz, Masarykova univerzita Diskriminačná analýza Diskriminačná analýza ♦ sa snaží zjednodušiť viacrozmernú štruktúru dát výpočtom súhrnných osí (diskriminačnej funcie). ♦ Je jednou z metód ordinácie. ♦ Logika osí v diskriminačnej analýze je, že maximálne diskriminuje skupiny. vzorka 1 vzorka 2 vzorka 3 vzorka 4 vzorka 5 vzorka 6 C Q. 3 J*. r N CO 1_ 1_ L. o O O +J +J +J Q. Q. Q. 0 0 0 "O "O "O ♦ Zaoberá sa závislosťou jednej kvalitatívnej premennej na niekoľkých kvantitatívnych premenných. ♦ Objekty charakterizované sériou deskriptorov (parametrov) - kvantitatívne parametre. Známa príslušnosť objektov do skupín. Diskriminačná analýza Diskriminačná analýza testuje hypotézy Ciele diskriminačnej analýzy: ♦ Interpretácia rozdielov - kanonická diskriminačná analýza a) či a do akej miery je možné odlíšiť stanovené skupiny objektov na základe znakov, ktoré máme k dispozícii b) ktoré znaky k tomuto odlíšeniu prispievajú najväčšou mierou ♦ Identifikácia objektov - klasifikačná diskriminačná analýza Odvodenie jednej alebo viacerých rovnic za účelom idetifikácie nových objektov Diskriminačná analýza ♦ Analýza nachádza takú kombináciu vstupných parametrov, ktorá oddeľuje od seba skupiny objektov Skupina yi y2 A 3 5 A 3 7 A 5 5 A 5 7 A 5 g A 7 7 A 7 g B 6 2 B 6 4 B 8 2 B 8 4 B 8 6 B 10 4 B 10 6 Kvalitatívna premenná Kvantitatívne premenné (deskriptory) D Diskriminačná analýza Požiadavky na dáta: 1. Kvantitatívne alebo binárne znaky 2. Žiadny zo znakov nesmie byť lineárnou kombináciou iného znaku alebo iných znakov 3. Nedá sa súčasne používať dva alebo viac silne korelovaných znakov 4. Kovariančné matica pre jednotlivé skupiny musia byť približne zhodné 5. Znaky charakterizujúce každú skupinu by mali spĺňať požiadavku mnohorozmerného normálneho rozdelenia f(yi. y>2) Diskriminačná analýza Pre počty skupín (g), znakov (p) a objektov (n) musí platiť: 1. Musia byť aspoň dve skupiny objektov: g > 2 2. V každej skupine musia byť najmenej 2 objekty 3. Počet znakov použitých v analýze musí byť menší než počet objektov znížený o počet skupín: 0 < p < (n-g) 4. Žiadny znak by nemal byť v niektorej skupine konštantný Počet skupín g > o +j x. o n o +j o >o o Q. (0 c f vzorka 1 vzorka 2 K vzorka n Počet znakov p _>*<_ r~ "^ T- CM CO ^- lO O Q. ĺ. O Q. a». O Q. ĺ. O Q. ĺ. O Q. Diskriminačná analýza diskriminačná funkcia (kanonická) 'km ~ a0 + a^X^km + a2X2km + + Pi Y ap*pkm> 'km X, ikm a, hodnota (skóre) kanonickej diskriminačnej funkcie pre prípad m v skupine /c; hodnota diskriminačného znaku x, pre prípad m v skupine k koeficienty diskriminačnej funkcie (/ = 0, 1 ..., p); Koeficienty (a) pre prvú funkciu sa odvodia tak, aby skupinové ťažisko (centroidy, priemery) boli maximálne vzdialené (v zmysle Mahalanobisovej vzdialenosti). Koeficienty vypočítané pre druhú funkciu musia ďalej maximalizovať rozdiely medzi skupinovými centroidmi a súčasne hodnoty oboch funkcií nesmú byť korelované. Diskriminačná analýza ♦ Výsledkom diskriminačnej analýzy je diskriminačná funkcia (koeficienty deskriptorov). ♦ Premenné s najväčšími (štandardizovanými) koeficientami najviac prispievajú k predikcii príslušnosti do skupín. Skupina Raw Standardized coefficients coefficients Yl -0.6124 -1.0 y2 0.6124 1.0 konštanta 0.6124 vlastná hodnota 3.9375 3.9375 O O O D ♦ Počet diskriminačných funkcií je rovný počtu skupín znížený o jednu (prípadne počtu premenných, ak je tento nižší jako g-1) Diskriminačná analýza Koeficienty diskriminačnej funkcie neštandardizované koeficienty raw coefficients štandardizované koeficienty standardized coefficients Klasifikačná diskriminačná analýza 1. Hľadanie identifikačného (klasifikačného) kritéria skupiny objektov známeho zaradenia skupina objektov neurčitého postavenia 2. Zistenie účinnosti klasifikačného kritéria resubstitucia (resubstitution) krížové overenie (cross-validation) Účinnosť klasifikačného kritéria testujeme na rovnakom súbore dát, z ktorého sa toto klasifikačné pravidlo odvodzuje (tento spôsob testu se nazýva resubstitucia, resubstitution). Ak máme menší počet objektov, je vhodné použiť tzv. krížové overenie (cross-validation): Zo súboru n objektov vyberieme n - 1 objektov, které použijeme ako tréningový súbor. Na základe tohto tréningového súboru odvodíme klasifikačné kritérium, které potom aplikujeme najeden vypustený prípad. Celý postup opakujeme n-krát. Diskriminačná analýza Kroková diskriminačná analýza (stepwise discriminant analysis; forward stepwise) Kroková diskriminančná analýza vyhľadáva takú kombináciu prediktorov, ktoré spoločne umožňujú čo najlepšie oddelenie stanovených skupín. Súbor najvhodnejších prediktorov je vyberaný postupne, v jednotlivých krokoch. Metóda začíná selekciou prediktoru, ktorý je najlepší na oddelenie vopred stanovených skupín, v ďalšom kroku posudzuje všetky zostávajúce prediktory a hľadá taký, ktorý skupiny najlepšie oddeľuje v kombinácii s už vybraným prediktorom. V každom kroku sa počíta štatistická významnosť vybraných prediktorov (hodnota „F-to-remove", statistics for removal) a štatistická významnosť ostatných prediktorov (hodnota „F-to-enteŕ, statistics for entry). Diskriminačná analýza Vstup diskriminačnej analýzy: ♦ Tabuľka objektov charakterizovaných niekoľkými kvantitívnymi parametrami a jednou kvalitatívnou premennou (ktorá priraďuje objektom príslušnosť ku skupine) Výstup diskriminačnej analýzy: ♦ Ordinačný diagram (osami sú korene, čiže diskriminačné funkcie) ♦ Korene diskriminačnej analýzy (koeficienty diskriminačných funkcií) Pri použití diskriminačnej analýzy je potrebné pamätať na obmedzenia: ♦ parametrická metóda; vyžaduje normálne rozdelenie deskriptorov ♦ problém odľahlých hodnôt ♦ závislé na rozložení premenných ♦ výsledky udáva v pravdepodobnostiach ♦ nie je schopná zachytiť nelineárne vzťahy medzi prediktormi ♦ nedá sa použiť na silne korelované prediktory Diskriminačná analýza v Statistica Diskriminační analýza na základě námi daného rozdělení objektů do skupin vytváří model pro jejich rozdělení podle parametrů Nastavení proměnných s | gg Discriminant Function Analysis: Dactylogyrus.sta | [ [ hodnotami a se skupinami Quick | [ČÍ! Variables |H iOKj | + definice rozlišovaných ^^ ■ Cancel skupin Rozšířené možnosti c^^ specifikování modelu Grouping: none Independent: none IjJal Codes for grouping variable: | none r y^ Advanced options (stepwise analysis] For advanced discriminant function analyses use the General Discriminant analysis Models module. fS Options t | Eg OpeAP^f CASES s 1 CE> w | L^ Výběr z p dat rMD deletion— (* Casewise C Mean substitution * i Smazání chybějících dat nebo jejich nahrazení průměrem Diskriminačná analýza v Statistica Definice modelu Rychlé nastavení metody Typ metody: • Štandartní • Forward stepwise • Backward stepwise Nastavení stepwise metod Popisná statistika w Is Review Descriptive Statistics: 06 DiSĹ^Lant.sta Quick Within All cases | Pooled within-groups covariances & correlations | Means & number of cases LJx| Within-groups standard deviations □ □ Bi Categorized histogram by group Box plot of means by group rjnirzi Categorized scatterplot by group Categorized normal probability plot by group {g Options * | Diskriminačná analýza v Statistica Výsledky Popis výsledků - příspěvek jednotlivých proměnných k diskriminaci objektů Vzdálenosti diskriminovaných skupin Kanonická analýza i Discriminant Function Analysis Results: Dactylogyrus.sta LJxll Number of variables in the model: Popis analýzy Wilks1 Lambda: ,7133904 approx. F (10,41) = 1,607203 p < ,1339 Quick Advanced Classification | Summary: Variables in the model Variables not in the model Distances between groups Perform canonical analysis Stepwise analysis summary Diskriminačná analýza v Statistica Výsledky tabulky F spojené s danou WL Wilk's Lambda po vyjmutí parametru (0=perfektní diskriminace, 1=žádná diskriminace)-----s\ p spojené s daným F to remove iscriminant Function Ana bis Sum pary (06_Discriminant.sta) of vars in model: 7; Gl, Ziping: Dl UH (2 grps) s' Lambda: ,01612 apffrox. F GV3)=41E7,7 p<0,0000 ks" Lambda 0,016500 Partial Lambda p-level Toler. 1-Toler.^—| R2 (spjato S (R-Sqr.rp tolerance) 11.2539 0.000356 0.432261 0.567739i "-"Cl«■ ""c/ F-remove (1.478) 0,026691 0,017607 0.017084 0,000000 0,000000 0.000000 0,016169 0,016212 0.016610 313,4290 44,0711 28,5772 1,427910,23269810,60 2,7133 0,100175 0,90 14.5231 0.000156 0.70 0,415688 0.276056 6281 0,5353721 677 0.332323J 271 0,0977291 !792| 0,237208 j parametry Wilk's Lambda spojená s unikátním příspěvkem parametru k diskriminační sile modelu Tolerance = měřítko redundance Diskriminačná analýza v Statistica Výsledky klasifikace Předem nastavená pravděpodobnost zařazení do skupiny LJ*j| Discriminant Function Analysis Results: Dasylogyrus.sta Klasifikační funkce \\ Quick tanéVX Number of variables in the model: 10 Wilks1 Lambda: ,7133904 approx. F (11,41) = 1,607203 p < ,1339 ^ ^ Quick I Advanced Classific Pozorované a vypočítané x\ VA i v j.- i i ■ lBB Classification Functic príslušnosti do skupin . —-------------=— C^^^. Use selection conditions to SELECT Klasifikace objektů Mahalanobisova Ľ vzdálenost2 objektů od centroidů skupin Pravděpodobnost zařazení ^\^^^;lassify selected cases only ^^ ^—tmi] Classification matrix a priori classification prooaowties-(* Proportional to group sizes i ^elect I T Same for all groups C User defined Classification of cases _, ^ffi\ Squared Mahalanobis distances Posterior probabilities f* Save classification for case C Save distance for case C Save posterior probability for case Save scores Maw. numt ;r of cases in a i — nn single resu s spreadsheet: I UUu^ H ^IjJ Summary: Cancel £3 Optic Uložení klasifikace (jaký parametr a kolik objektů uložit) Diskriminačná analýza v Statistica Výsledky klasifikace Koeficienty klasifikační funkce Vzdálenost do centroidů Variable R0Z1 R0Z2 R0Z3 R0Z4 R0Z5 ROZG R0Z8 Constant Classification Functior PBIN p=,63374 PAN p= ,36626 956.91311 1923.03 6960,975'11766,81 7612,83 2527,01 509.99 5447,041 1054,730 28,245 2333,167 2047 701 1509,32 1062.15 -359.064 -861.43 Objekt patří do skupiny pro kterou mu vyšla vyšší hodnota funkce Objekt Jeho klasifikace Vzdálenost od centroidů Case 408 101 J374 Squared Mahalant Incorrect classifies )is instances fn tionswre markei Observed Classif. 376 289 290 291 3DT 605 606 PBf 574 PBINl 4,4234 PAN* 140,4836 »AN £fVte626_ 323Í2919 25 3236 PBIN PBIN PBIN PAN PAN PAN PAN PBIN 7,4163 295,4637 3,3083 262.1007 4.5284 264,9879 240,0623 293,2785 3.8166 6.6247 PBIN 265,5203 248,9952 2.6734 8.3603 5,9409 289.9818 5,5818 292.0057 Diskriminačná analýza v Canoco Canonical Variates Analysis (CVA), discriminant analysis (DFA) Možnosť spočítať CVA v Canoco: zvoliť kanonickú korešpondenčnú analýzu (CCA) rozdelenie vzoriek do skupín vo forme druhových dát, ktoré sú binárne a charakterizujú príslušnosť vzorky ku skupine charakteristiky prostredia ako environmentálne dáta zvoliť Hillovo škálovanie so zameraním na inter-species distances V súbore .soľ species scores sú stredmi zhlukov v CVA ordinačnom diagrame sample scores, ktoré sú lineárnou kombináciou charakteristík prostredia sú škálované tak, že rozptyl v rámci skupín sa rovná 1 Permutačný test môže byť použitý na hodnotenie rozdielov medzi skupinami. Je možné špecifikovať aj kovariáty => parciálna CVA = one-way Multivariate Analysis of Covariance (MANOCO).