Diskriminačná analýza (CVA, DFA)
Podzim 2008
MU
IBA   'nštitút bioštatistiky a analýz, Masarykova univerzita
Diskriminačná analýza
Diskriminačná analýza
♦   sa snaží zjednodušiť viacrozmernú štruktúru dát výpočtom súhrnných osí (diskriminačnej funcie).
♦   Je jednou z metód ordinácie.
♦   Logika osí v diskriminačnej analýze je, že maximálne diskriminuje skupiny.
vzorka 1 vzorka 2 vzorka 3 vzorka 4 vzorka 5 vzorka 6
C
Q. 3 J*.
r     N     CO
1_        1_       L.
o      O      O
+J      +J      +J
Q.     Q.     Q.
0     0     0 "O    "O    "O
♦  Zaoberá sa závislosťou jednej kvalitatívnej premennej na niekoľkých kvantitatívnych premenných.
♦  Objekty charakterizované sériou deskriptorov (parametrov) - kvantitatívne parametre. Známa príslušnosť objektov do skupín.
Diskriminačná analýza
Diskriminačná analýza testuje hypotézy
Ciele diskriminačnej analýzy:
♦  Interpretácia rozdielov - kanonická diskriminačná analýza
a) či a do akej miery je možné odlíšiť stanovené skupiny objektov na základe znakov, ktoré máme k dispozícii
b) ktoré znaky k tomuto odlíšeniu prispievajú najväčšou mierou
♦  Identifikácia objektov - klasifikačná diskriminačná analýza
Odvodenie jednej alebo viacerých rovnic za účelom idetifikácie nových objektov
Diskriminačná analýza
♦  Analýza nachádza takú kombináciu vstupných parametrov, ktorá oddeľuje od seba skupiny objektov
Skupina	yi	y2
A	3	5
A	3	7
A	5	5
A	5	7
A	5	g
A	7	7
A	7	g
B	6	2
B	6	4
B	8	2
B	8	4
B	8	6
B	10	4
B	10	6
Kvalitatívna premenná
Kvantitatívne
premenné (deskriptory)
D
Diskriminačná analýza
Požiadavky na dáta:
1.     Kvantitatívne alebo binárne znaky
2.     Žiadny zo znakov nesmie byť lineárnou kombináciou iného znaku alebo iných znakov
3.     Nedá sa súčasne používať dva alebo viac silne korelovaných znakov
4.     Kovariančné matica pre jednotlivé skupiny musia byť približne zhodné
5.     Znaky charakterizujúce každú skupinu by mali spĺňať požiadavku mnohorozmerného normálneho rozdelenia
f(yi. y>2)
Diskriminačná analýza
Pre počty skupín (g), znakov (p) a objektov (n) musí platiť:
1.     Musia byť aspoň dve skupiny objektov: g > 2
2.     V každej skupine musia byť najmenej 2 objekty
3.     Počet znakov použitých v analýze musí byť menší než počet objektov znížený o počet skupín: 0 < p < (n-g)
4.     Žiadny znak by nemal byť v niektorej skupine konštantný
Počet skupín g
>
o
+j x. o
n o +j o >o o
Q.
(0
c
f vzorka 1
vzorka 2
K
vzorka n
Počet znakov p
		_>*<_		
r~				"^
T-	CM	CO	^-	lO
O Q.	ĺ. O Q.	a». O Q.	ĺ. O Q.	ĺ. O Q.
Diskriminačná analýza
diskriminačná funkcia (kanonická)
'km ~ a0 + a^X^km + a2X2km +
+ Pi   Y
ap*pkm>
'km
X,
ikm
a,
hodnota (skóre) kanonickej diskriminačnej funkcie pre prípad m v skupine /c;
hodnota diskriminačného znaku x, pre prípad m v skupine k koeficienty diskriminačnej funkcie (/ = 0, 1 ..., p);
Koeficienty (a) pre prvú funkciu sa odvodia tak, aby skupinové ťažisko (centroidy, priemery) boli maximálne vzdialené (v zmysle Mahalanobisovej vzdialenosti). Koeficienty vypočítané pre druhú funkciu musia ďalej maximalizovať rozdiely medzi skupinovými centroidmi a súčasne hodnoty oboch funkcií nesmú byť korelované.
Diskriminačná analýza
♦  Výsledkom diskriminačnej analýzy je diskriminačná funkcia (koeficienty deskriptorov).
♦  Premenné s najväčšími (štandardizovanými) koeficientami najviac prispievajú k predikcii príslušnosti do skupín.
Skupina	Raw	Standardized
	coefficients	coefficients
Yl	-0.6124	-1.0
y2	0.6124	1.0
konštanta	0.6124	
vlastná hodnota	3.9375	3.9375
O             O           O
D
♦ Počet diskriminačných funkcií je rovný počtu skupín znížený o jednu (prípadne počtu premenných, ak je tento nižší jako g-1)
Diskriminačná analýza
Koeficienty diskriminačnej funkcie
neštandardizované koeficienty raw coefficients štandardizované koeficienty standardized coefficients
Klasifikačná diskriminačná analýza
1.     Hľadanie identifikačného (klasifikačného) kritéria skupiny objektov známeho zaradenia skupina objektov neurčitého postavenia
2.     Zistenie účinnosti klasifikačného kritéria resubstitucia (resubstitution)
krížové overenie (cross-validation)
Účinnosť klasifikačného kritéria testujeme na rovnakom súbore dát, z ktorého sa toto klasifikačné pravidlo odvodzuje (tento spôsob testu se nazýva resubstitucia, resubstitution). Ak máme menší počet objektov, je vhodné použiť tzv. krížové overenie (cross-validation): Zo súboru n objektov vyberieme n - 1 objektov, které použijeme ako tréningový súbor. Na základe tohto tréningového súboru odvodíme klasifikačné kritérium, které potom aplikujeme najeden vypustený prípad. Celý postup opakujeme n-krát.
Diskriminačná analýza
Kroková diskriminačná analýza (stepwise discriminant analysis; forward stepwise)
Kroková diskriminančná analýza vyhľadáva takú kombináciu prediktorov, ktoré spoločne umožňujú čo najlepšie oddelenie stanovených skupín.
Súbor najvhodnejších prediktorov je vyberaný postupne, v jednotlivých krokoch.
Metóda začíná selekciou prediktoru, ktorý je najlepší na oddelenie vopred stanovených skupín, v ďalšom kroku posudzuje všetky zostávajúce prediktory a hľadá taký, ktorý skupiny najlepšie oddeľuje v kombinácii s už vybraným prediktorom.
V každom kroku sa počíta štatistická významnosť vybraných prediktorov (hodnota „F-to-remove", statistics for removal) a štatistická významnosť ostatných prediktorov (hodnota „F-to-enteŕ, statistics for entry).
Diskriminačná analýza
Vstup diskriminačnej analýzy:
♦  Tabuľka objektov charakterizovaných niekoľkými kvantitívnymi parametrami a jednou kvalitatívnou premennou (ktorá priraďuje objektom príslušnosť ku skupine)
Výstup diskriminačnej analýzy:
♦  Ordinačný diagram (osami sú korene, čiže diskriminačné funkcie)
♦  Korene diskriminačnej analýzy (koeficienty diskriminačných funkcií)
Pri použití diskriminačnej analýzy je potrebné pamätať na obmedzenia:
♦  parametrická metóda; vyžaduje normálne rozdelenie deskriptorov
♦  problém odľahlých hodnôt
♦  závislé na rozložení premenných
♦  výsledky udáva v pravdepodobnostiach
♦  nie je schopná zachytiť nelineárne vzťahy medzi prediktormi
♦  nedá sa použiť na silne korelované prediktory
Diskriminačná analýza v Statistica
Diskriminační analýza na základě námi daného rozdělení objektů do skupin vytváří model pro jejich rozdělení podle parametrů
Nastavení proměnných s          |	gg Discriminant Function Analysis: Dactylogyrus.sta               |    [    [		
hodnotami a se skupinami	Quick | [ČÍ!     Variables		
		|H       iOKj       |	
+ definice rozlišovaných ^^ ■		Cancel	
skupin Rozšířené možnosti    c^^ specifikování modelu	Grouping:       none Independent: none IjJal Codes for grouping variable: | none r y^ Advanced options (stepwise analysis] For advanced discriminant function analyses use the General Discriminant analysis Models module.	fS    Options   t | Eg   OpeAP^f CASES   s 1    CE>   w |	L^ Výběr z p    dat
		rMD deletion— (*   Casewise C Mean substitution	*
			i
Smazání chybějících dat nebo jejich nahrazení průměrem
Diskriminačná analýza v Statistica
Definice modelu
Rychlé nastavení metody
Typ metody:
• Štandartní
• Forward stepwise
• Backward stepwise
Nastavení stepwise metod
Popisná statistika
w
Is Review Descriptive Statistics: 06 DiSĹ^Lant.sta
Quick    Within   All cases |
Pooled within-groups covariances & correlations  | Means & number of cases
LJx|
Within-groups standard deviations
□ □
Bi
Categorized histogram by group
Box plot of means by group
rjnirzi
Categorized scatterplot by group
Categorized normal probability plot by group
{g    Options   * |
Diskriminačná analýza v Statistica
Výsledky
Popis výsledků - příspěvek jednotlivých proměnných k diskriminaci objektů
Vzdálenosti
diskriminovaných
skupin
Kanonická analýza
i Discriminant Function Analysis Results: Dactylogyrus.sta
LJxll
Number of variables in the model:    Popis analýzy
Wilks1 Lambda: ,7133904   approx. F (10,41) = 1,607203 p <      ,1339
Quick    Advanced    Classification |
Summary: Variables in the model Variables not in the model Distances between groups
Perform canonical analysis
Stepwise analysis summary
Diskriminačná analýza v Statistica
Výsledky tabulky
F spojené s danou WL
Wilk's Lambda po vyjmutí parametru (0=perfektní diskriminace, 1=žádná diskriminace)-----s\
p spojené s daným F to remove
iscriminant Function Ana bis Sum pary (06_Discriminant.sta) of vars in model: 7; Gl, Ziping: Dl UH (2 grps) s' Lambda: ,01612 apffrox. F GV3)=41E7,7 p<0,0000
ks" Lambda
0,016500
Partial Lambda
p-level       Toler.      1-Toler.^—| R2 (spjato S
(R-Sqr.rp tolerance)
11.2539 0.000356 0.432261 0.567739i  "-"Cl«■ ""c/
F-remove (1.478)
0,026691 0,017607 0.017084
0,000000 0,000000 0.000000
0,016169 0,016212 0.016610
313,4290
44,0711
28,5772 1,427910,23269810,60 2,7133 0,100175 0,90
14.5231  0.000156 0.70
0,415688 0.276056
6281 0,5353721 677 0.332323J 271 0,0977291 !792| 0,237208 j
parametry
Wilk's Lambda spojená s unikátním příspěvkem parametru k diskriminační sile modelu
Tolerance = měřítko redundance
Diskriminačná analýza v Statistica
Výsledky klasifikace
Předem nastavená pravděpodobnost zařazení do
skupiny
LJ*j|
Discriminant Function Analysis Results: Dasylogyrus.sta
Klasifikační funkce

\\    Quick
tanéVX
Number of variables in the model: 10
Wilks1 Lambda: ,7133904   approx. F (11,41) = 1,607203 p <      ,1339
^ ^ Quick I Advanced    Classific
Pozorované a vypočítané x\
VA    i     v              j.-     i            i            ■                                lBB             Classification Functic
príslušnosti do skupin  .       —-------------=—
C^^^.              Use selection conditions to       SELECT
Klasifikace objektů
Mahalanobisova Ľ vzdálenost2 objektů od centroidů skupin
Pravděpodobnost zařazení
^\^^^;lassify selected cases only ^^            ^—tmi]               Classification matrix
a priori classification prooaowties-(*   Proportional to group sizes i   ^elect I     T Same for all groups C User defined
Classification of cases
_, ^ffi\     Squared Mahalanobis distances
Posterior probabilities
f*   Save classification for case
C Save distance for case
C Save posterior probability for case
Save scores
Maw. numt ;r of cases in a  i            — nn
single resu s spreadsheet:   I UUu^     H
^IjJ
Summary:
Cancel
£3 Optic
Uložení klasifikace (jaký parametr a kolik objektů uložit)
Diskriminačná analýza v Statistica
Výsledky klasifikace
Koeficienty klasifikační funkce
Vzdálenost do centroidů
Variable
R0Z1
R0Z2
R0Z3
R0Z4
R0Z5
ROZG
R0Z8
Constant
Classification Functior
PBIN p=,63374
PAN p= ,36626
956.91311   1923.03
6960,975'11766,81 7612,83 2527,01 509.99
5447,041 1054,730 28,245 2333,167 2047 701
1509,32 1062.15
-359.064     -861.43
Objekt patří do skupiny pro kterou mu vyšla vyšší hodnota funkce
Objekt
Jeho klasifikace
Vzdálenost od centroidů
Case
408
101
J374
Squared Mahalant Incorrect classifies
)is instances fn tionswre markei
Observed Classif.
376
289
290
291
3DT
605
606
PBf
574
PBINl     4,4234 PAN* 140,4836
»AN £fVte626_ 323Í2919 25 3236
PBIN
PBIN
PBIN
PAN
PAN PAN PAN PBIN
7,4163  295,4637 3,3083  262.1007
4.5284
264,9879
240,0623
293,2785 3.8166
6.6247
PBIN
265,5203 248,9952
2.6734
8.3603
5,9409 289.9818
5,5818 292.0057
Diskriminačná analýza v Canoco
Canonical Variates Analysis (CVA), discriminant analysis (DFA)
Možnosť spočítať CVA v Canoco:
zvoliť kanonickú korešpondenčnú analýzu (CCA)
rozdelenie vzoriek do skupín vo forme druhových dát, ktoré sú binárne a charakterizujú príslušnosť vzorky ku skupine
charakteristiky prostredia ako environmentálne dáta
zvoliť Hillovo škálovanie so zameraním na inter-species distances
V súbore .soľ
species scores sú stredmi zhlukov v CVA ordinačnom diagrame
sample scores, ktoré sú lineárnou kombináciou charakteristík prostredia sú škálované tak, že rozptyl v rámci skupín sa rovná 1
Permutačný test môže byť použitý na hodnotenie rozdielov medzi skupinami.
Je možné špecifikovať aj kovariáty => parciálna CVA = one-way Multivariate Analysis of Covariance (MANOCO).