Danka HaruDanka Harušštiakovtiakováá DiskriminaDiskriminaččnnáá analýza (CVA, DFA)analýza (CVA, DFA) Podzim 2009Podzim 2009 Inštitút bioštatistiky a analýz, Masarykova univerzita Diskriminačná analýza sa snaží zjednodušiť viacrozmernú štruktúru dát výpočtom súhrnných osí (diskriminačnej funcie). Je jednou z metód ordinácie. Logika osí v diskriminačnej analýze je, že maximálne diskriminuje skupiny. Diskriminačná analýza Zaoberá sa závislosťou jednej kvalitatívnej premennej na niekoľkých kvantitatívnych premenných. Objekty charakterizované sériou deskriptorov (parametrov) ­ kvantitatívne parametre. Známa príslušnosť objektov do skupín. vzorka 1 deskriptor1 deskriptor2 deskriptor3 vzorka 2 vzorka 3 vzorka 4 vzorka 5 vzorka 6 skupina Diskriminačná analýza testuje hypotézy Diskriminačná analýza Ciele diskriminačnej analýzy: Interpretácia rozdielov ­ kanonická diskriminačná analýza a) či a do akej miery je možné odlíšiť stanovené skupiny objektov na základe znakov, ktoré máme k dispozícii b) ktoré znaky k tomuto odlíšeniu prispievajú najväčšou mierou Identifikácia objektov ­ klasifikačná diskriminačná analýza Odvodenie jednej alebo viacerých rovníc za účelom idetifikácie nových objektov Analýza nachádza takú kombináciu vstupných parametrov, ktorá oddeľuje od seba skupiny objektov y1 y2 d = u1 y1 + u2 y2 610B 410B 68B 48B 28B 46B 26B 97A 77A 95A 75A 55A 73A 53A y2y1Skupina Kvantitatívne premenné (deskriptory) Kvalitatívna premenná Diskriminačná analýza Diskriminačná analýza Požiadavky na dáta: 1. Kvantitatívne alebo binárne znaky 2. Žiadny zo znakov nesmie byť lineárnou kombináciou iného znaku alebo iných znakov 3. Nedá sa súčasne používať dva alebo viac silne korelovaných znakov 4. Kovariančné matice pre jednotlivé skupiny musia byť približne zhodné 5. Znaky charakterizujúce každú skupinu by mali spĺňať požiadavku mnohorozmerného normálneho rozdelenia Diskriminačná analýza vzorka 1 deskriptor1 deskriptor2 deskriptor3 vzorka 2 ... ... ... vzorka n skupina Počet znakov pPočet skupín g Početobjektovn deskriptor4 deskriptor5 Pre počty skupín (g), znakov (p) a objektov (n) musí platiť: 1. Musia byť aspoň dve skupiny objektov: g 2 2. V každej skupine musia byť najmenej 2 objekty 3. Počet znakov použitých v analýze musí byť menší než počet objektov znížený o počet skupín: 0 < p < (n-g) 4. Žiadny znak by nemal byť v niektorej skupine konštantný diskriminačná funkcia (kanonická) fkm = a0 + a1x1km + a2x2km + ... + apxpkm, fkm hodnota (skóre) kanonickej diskriminačnej funkcie pre prípad m v skupine k; xikm hodnota diskriminačného znaku xi pre prípad m v skupine k ai koeficienty diskriminačnej funkcie (i = 0, 1 ..., p); Koeficienty (a) pre prvú funkciu sa odvodia tak, aby skupinové ťažiská (centroidy, priemery) boli maximálne vzdialené (v zmysle Mahalanobisovej vzdialenosti). Koeficienty vypočítané pre druhú funkciu musia ďalej maximalizovať rozdiely medzi skupinovými centroidmi a súčasne hodnoty oboch funkcií nesmú byť korelované. Diskriminačná analýza Diskriminačná analýza 3.93753.9375vlastná hodnota 0.6124konštanta 1.00.6124y2 -1.0-0.6124y1 Standardized coefficients Raw coefficients Skupina y1 y2 d = u1 y1 + u2 y2 Výsledkom diskriminačnej analýzy je diskriminačná funkcia (koeficienty deskriptorov). Premenné s najväčšími (štandardizovanými) koeficientami najviac prispievajú k predikcii príslušnosti do skupín. Počet diskriminačných funkcií je rovný počtu skupín znížený o jednu (prípadne počtu premenných, ak je tento nižší jako g-1) Diskriminačná analýza Účinnosť klasifikačného kritéria: testovanie cross validation, resubstitution. Koeficienty diskriminačnej funkcie neštandardizované koeficienty raw coefficients štandardizované koeficienty standardized coefficients Klasifikačná diskriminačná analýza 1. Hľadanie identifikačného (klasifikačného) kritéria skupiny objektov známeho zaradenia skupina objektov neurčitého postavenia 2. Zistenie účinnosti klasifikačného kritéria resubstitúcia (resubstitution) krížové overenie (cross-validation) Kroková diskriminačná analýza (stepwise discriminant analysis; forward stepwise) Kroková diskriminančná analýza vyhľadáva takú kombináciu prediktorov, ktoré spoločne umožňujú čo najlepšie oddelenie stanovených skupín. Súbor najvhodnejších prediktorov je vyberaný postupne, v jednotlivých krokoch. Metóda začíná selekciou prediktoru, ktorý je najlepší na oddelenie vopred stanovených skupín, v ďalšom kroku posudzuje všetky zostávajúce prediktory a hľadá taký, ktorý skupiny najlepšie oddeľuje v kombinácii s už vybraným prediktorom. V každom kroku sa počíta štatistická významnosť vybraných prediktorov (hodnota ,,F-to-remove", statistics for removal) a štatistická významnosť ostatných prediktorov (hodnota ,,F-to-enter", statistics for entry). Diskriminačná analýza Diskriminačná analýza Vstup diskriminačnej analýzy: Tabuľka objektov charakterizovaných niekoľkými kvantitívnymi parametrami a jednou kvalitatívnou premennou (ktorá priraďuje objektom príslušnosť ku skupine) Výstup diskriminačnej analýzy: Ordinačný diagram (osami sú korene, čiže diskriminačné funkcie) Korene diskriminačnej analýzy (koeficienty diskriminačných funkcií) Pri použití diskriminačnej analýzy je potrebné pamätať na obmedzenia: parametrická metóda; vyžaduje normálne rozdelenie deskriptorov problém odľahlých hodnôt závislé na rozložení premenných výsledky udáva v pravdepodobnostiach nie je schopná zachytiť nelineárne vzťahy medzi prediktormi nedá sa použiť na silne korelované prediktory Nastavení proměnných s hodnotami a se skupinami + definice rozlišovaných skupin Rozšířené možnosti specifikování modelu Smazání chybějících dat nebo jejich nahrazení průměrem Výběr z dat Diskriminační analýza na základě námi daného rozdělení objektů do skupin vytváří model pro jejich rozdělení podle parametrů Diskriminačná analýza v Statistica Definice modelu Typ metody: * Standartní * Forward stepwise * Backward stepwise Rychlé nastavení metody Popisná statistika Nastavení stepwise metod Diskriminačná analýza v Statistica Výsledky Popis výsledků ­ příspěvek jednotlivých proměnných k diskriminaci objektů Vzdálenosti diskriminovaných skupin Kanonická analýza Popis analýzy Diskriminačná analýza v Statistica Výsledky tabulky parametry Wilk`s Lambda po vyjmutí parametru (0=perfektní diskriminace, 1=žádná diskriminace) Wilk`s Lambda spojená s unikátním příspěvkem parametru k diskriminační síle modelu F spojené s danou WL p spojené s daným F to remove Tolerance = měřítko redundance R2 (spjato s tolerance) Diskriminačná analýza v Statistica Výsledky klasifikace Mahalanobisova vzdálenost2 objektů od centroidů skupin Pozorované a vypočítané příslušnosti do skupin Klasifikace objektů Pravděpodobnost zařazení Uložení klasifikace (jaký parametr a kolik objektů uložit) Předem nastavená pravděpodobnost zařazení do skupiny Klasifikační funkce Diskriminačná analýza v Statistica Výsledky klasifikace Objekt Jeho klasifikace Vzdálenost od centroidů Objekt patří do skupiny pro kterou mu vyšla vyšší hodnota funkce Koeficienty klasifikační funkce Vzdálenost do centroidů Diskriminačná analýza v Statistica Diskriminačná analýza v Canoco Canonical Variates Analysis (CVA), discriminant analysis (DFA) Možnosť spočítať CVA v Canoco: 1. zvoliť kanonickú korešpondenčnú analýzu (CCA) 2. rozdelenie vzoriek do skupín vo forme druhových dát, ktoré sú binárne a charakterizujú príslušnosť vzorky ku skupine 3. charakteristiky prostredia ako environmentálne dáta 4. zvoliť Hillovo škálovanie so zameraním na inter-species distances V súbore .sol: species scores sú stredmi zhlukov v CVA ordinačnom diagrame sample scores, ktoré sú lineárnou kombináciou charakteristík prostredia sú škálované tak, že rozptyl v rámci skupín sa rovná 1 Permutačný test môže byť použitý na hodnotenie rozdielov medzi skupinami. Je možné špecifikovať aj kovariáty => parciálna CVA = one-way Multivariate Analysis of Covariance (MANOCO).