Diskriminační analýza Otázky: • Je možné předem stanovené skupiny objektů odlišit na základě proměnných, které máme zjištěné pro každý objekt? • Které proměnné přispívají k tomuto odlišení největší měrou? • Jak získat jednu či více rovnic, které umožní klasifikovat objekty do skupin? (Tyto rovnice se nazývají klasifikační neboli diskriminační funkce a kombinují jednotlivé proměnné a jejich váhy tak, aby bylo možné určit skupinu, do které klasifikovaný objekt s největší pravděpodobností patří.) Na první dvě otázky odpovídá kanonická diskriminační analýza, na třetí pak klasifikační diskriminační analýza. Možnosti použití diskriminační analýzy 1. Technické obory: Při kontrole jakosti či spolehlivosti lze ve výběrovém souboru výrobků změřit nějaké kvantitativní proměnné (např. rozměry, hmotnost, chemické složení apod.), pak výrobky podrobit zátěži a sledovat, zda tuto zátěž vydrží nebo ne. K predikci chování dalších výrobků při zátěži je skutečné zátěži nemusíme vystavovat, stačí, když provedeme potřebná měření kvantitativních proměnných. 2. Lékařství Máme soubor pacientů, u nichž jsou diagnostikovány určité choroby. Pro každého pacienta máme k dispozici výsledky různých laboratorních testů. Pokud existuje souvislost mezi výsledky testů a diagnózou, může se lékař u nových pacientů rozhodovat pro určitou diagnózu (a tedy i způsob léčení) na základě výsledků testů. 3. Bankovnictví Banka sleduje ve výběrovém souboru klientů, jak splácejí poskytnutý úvěr a kromě toho řadu dalších ukazatelů (věk, rodinný stav, výši příjmu, …). Následně na tomto základě může vyhodnocovat potenciální žadatele o úvěr jako více či méně důvěryhodné. 4. Archeologie Při vykopávkách byly nalézány hroby s kostrami pravěkých lidí. Na základě nějakých charakteristických vlastností (délka určité kosti, úhly kostí na lebce,…) bylo možné další nalezené kostry zařadit k určitému historickému období, kultuře a rase. Kanonická diskriminační analýza Kanonická diskriminační analýza je metoda, která umožňuje sledovat vztahy mezi objekty v tzv. kanonickém prostoru, tj. prostoru vymezeném kanonickými proměnnými. Lze ji však využít i pro klasifikaci objektů s neznámou příslušností. Předpokládáme, že máme r ≥ 2 skupin objektů, v h-té skupině je nh objektů a i-tý objekt je popsán p proměnnými X1, …, Xp. Tedy Xhij je hodnota j-té proměnné na i-tém objektu, který patří do h-té skupiny, r,,1h K= , hn,,1i K= , p,,1j K= . Přitom pnh > . Všech objektů je ∑ = = r 1h h nn . Hypotetický objekt z h-té skupiny, jehož vektor pozorování je stejný jako vektor výběrových průměrů v h-té skupině, se nazývá centroid h-té skupiny. Mahalanobisova vzdálenost objektu s vektorem pozorování ( )T p1 x,,x K=x od centroidu h-té skupiny je dána vzorcem: ( ) ( ) ( )hhhh mxSmxmx −−= −1T ,M , kde hS je varianční matice h-té skupiny a mh je vektor průměrů h-té skupiny. Celková variabilita obsažená v datech je vyjádřena maticí T, která se rozpadá na matici vnitroskupinové (reziduální) variability E a matici meziskupinové variability B: T = E + B. Kanonická diskriminační analýza hledá takovou lineární kombinaci XaXaXaY T pp11 =++= K daných p proměnných, aby podíl meziskupinové a vnitroskupinové variability byl co největší. Podíl Eaa Baa T T =λ se nazývá Fisherovo diskriminační kritérium a hledáme jeho maximum vzhledem k a. Vektor a získáme tak, že funkci Eaa Baa T T =λ parciálně derivujeme podle p1 a,,a K , derivace položíme rovny 0 a řešíme systém p rovnic pro p neznámých. Tento systém lze maticově zapsat ve tvaru aaBE 1 λ=− . Z lineární algebry je známo, že tento systém má netriviální řešení, právě když charakteristický polynom matice 1− BE je nulový, tj. platí charakteristická rovnice 01 =λ−− IBE . Řešením získáme k vlastních čísel k1 λ>>λ K matice 1− BE , kde { }1r,pmink −= . K nim jsou příslušné vlastní vektory k1 ,, aa K . Největšímu vlastnímu číslu 1λ odpovídá vlastní vektor 1a , který maximalizuje Fisherovo diskriminační kritérium. Poznámka: Charakteristická rovnice neurčuje vektor 1a jednoznačně, ale pouze stanovuje poměr mezi jeho složkami. Konkrétní hodnoty složek vektoru 1a lze určit např. tak, aby platilo: 1=1 T 1 aa , tedy aby vektor 1a by normovaný. Výhodnější je však volit 1a tak, aby 1 rn 1 = − 1 T 1 Eaa . Pak charakteristické číslo 1 T 1 Baa=λ1 představuje míru meziskupinové variability veličiny Y1 a složkám vektoru 1a se říká standardizované koeficienty. Lineární kombinace Xa T 1=1Y se nazývá 1. kanonická proměnná (nebo též 1. diskriminant, 1. kanonická funkce). Geometricky lze Y1 chápat jako projekci bodů reprezentujících jednotlivé objekty v p-rozměrném prostoru na přímku (tzv. diskriminační přímku), která umožňuje největší diskriminaci mezi centroidy skupin objektů. Ilustrace významu první kanonické proměnné (p = 2): Diskriminační přímka je vedena ve směru největší variability mezi skupinami. Jsou-li objekty rozděleny do dvou skupin, stačí použít 1. kanonickou proměnnou. Jsou-li objekty roztříděny do více než dvou skupin, musíme použít další kanonické proměnné Xa T llY = , k,,2l K= . Kanonické proměnné jsou nezávislé, jsou uspořádány podle klesajícího významu a vymezují kanonický prostor. Podíl k1 l λ++λ λ K podává informaci o tom, jak se l-tá kanonická proměnná podílí na odlišení jednotlivých skupin, k,,1l K= . Standardizovaný koeficient alj lze interpretovat jako vliv j-té proměnné na l-tou kanonickou proměnnou za předpokladu, že ostatních p-1 původních proměnných je konstantní. Současně posuzujeme koeficienty korelace původních proměnných s kanonickými proměnnými. Vysoká absolutní hodnota koeficientu korelace některé proměnné s kanonickou proměnnou totiž znamená, že tato proměnná je pro kanonickou proměnnou charakteristická. Zařazování objektů do skupin Uvažme l-tou kanonickou proměnnou Xa T llY = a i-tý objekt v h-té skupině s vektorem pozorování ( )T hip1hihi x,,x K=x . Výraz ∑ = += p 1j hijljlhli xacy , kde ma T llc −= (m je vektor výběrových průměrů daných p-proměnných) se nazývá l-té diskriminační skóre i-tého objektu v h-té skupině. Průměrné hodnoty jednotlivých kanonických proměnných ve skupinách se nazývají skupinové centroidy kanonických proměnných a jsou dány vzorcem: ∑ = += p 1j hjljlhl macy . Uvažme prvních s kanonických proměnných. Máme objekt s neznámou příslušností ke skupině, přičemž jeho vektor pozorování je x. Označme yl jeho l-té diskriminační skóre, l = 1, …, s. Vypočítáme vzdálenost tohoto objektu od h-tého skupinového centroidu kanonických proměnných, h = 1, …, r: ( )∑ = −= s 1l 2 hll 2 h yyd . Objekt zařadíme do té skupiny, pro kterou bude vzdálenost dh 2 nejmenší. Upozornění 1: Vzdálenost dh 2 je vlastně kvadrát Mahalanobisovy vzdálenosti objektu v kanonickém prostoru od h-tého skupinového centroidu kanonických proměnných. Upozornění 2: Toto pravidlo zařazování nebere do úvahy velikost skupin. Klasifikační matice Úspěšnost zařazování objektů do skupin můžeme posoudit tak, že aplikujeme výše popsané zařazovací pravidlo na každý objekt a zařazení objektů porovnáme s jejich skutečnou příslušností ke skupině. Stanovíme podíl správně a mylně zařazených objektů. zařazení součetskutečnost 1. skupina … r-tá skupina 1. skupina n11 … n1r n1. = n1 … … … … r-tá skupina nr1 … nrr nr. = nr součet n.1 … n.r n Podíl správně zařazených objektů: n nn rr11 ++K Podíl mylně zařazených objektů: n nn 1 rr11 ++ − K Příklad: V souboru 50 rodin byly zjišťovány tyto údaje: - zda v posledních dvou letech rodina navštívila jistou rekreační oblast (veličina ID1, nabývá hodnoty 0 pro odpověď „ne“, hodnoty 1 pro odpověď „ano“) - částka, kterou je rodina ochotná vydat za dovolenou (veličina ID2, nabývá hodnoty 1 pro variantu „malá“, 2 pro variantu „střední“ a 3 pro variantu „velká“) - roční příjem v tisících dolarů (veličina X1) - postoj k cestování (veličina X2, devítibodová škála, 1 = naprosto odmítavý, 9 = veskrze kladný) - význam přičítaný rodinné dovolené (veličina X3, devítibodová škála, 1 = nejnižší, 9 = nejvyšší) - počet členů rodiny (veličina X4) - věk nejstaršího člena rodiny (veličina X5). Pro uvedená data proveďte kanonickou diskriminační analýzu, a to pro třídění jak pomocí proměnné ID1 (dvě skupiny), tak pomocí proměnné ID2 (tři skupiny). Řešení pro dvě skupiny (třídění podle ID1): Posouzení úrovně a variability proměnných X1, …, X5 v daných dvou skupinách Souhrnné výsledky Popisné statistiky (dovolena.sta) Proměnná ID1 N platných Průměr Sm.odch. X1 X2 X3 X4 X5 X1 X2 X3 X4 X5 návštěva ne 29 42,8 7,014 návštěva ne 29 4,2 1,662 návštěva ne 29 4,3 1,623 návštěva ne 29 3,7 1,131 návštěva ne 29 46,9 7,568 návštěva ano 21 59,8 9,143 návštěva ano 21 5,1 1,652 návštěva ano 21 5,8 1,670 návštěva ano 21 4,3 1,354 návštěva ano 21 53,6 7,990 Krabicový graf z více proměnných seskupený ID1 dovolena.sta 7v*50c Průměr; Krabice: Průměr±SmOdch; Svorka: Min-Max X1 X2 X3 X4 X5 návštěva ne návštěva ano ID1 -3 -2 -1 0 1 2 3 Ověření normality proměnných X1, …, X5 v daných dvou skupinách Souhrnné výsledky Testy normality (dovolena.sta) Proměnná ID1 N W p X1: roční příjem v tisících dolarů X2: postoj k cestování (škála 9 bodů) X3: význam rodinné dovolené (škála 9 bodů) X4: počet členů rodiny X5: věk nejstaršího člena X1: roční příjem v tisících dolarů X2: postoj k cestování (škála 9 bodů) X3: význam rodinné dovolené (škála 9 bodů) X4: počet členů rodiny X5: věk nejstaršího člena návštěva ne 29 0,940188 0,101411 návštěva ne 29 0,964071 0,412187 návštěva ne 29 0,964432 0,420319 návštěva ne 29 0,917696 0,026668 návštěva ne 29 0,944508 0,131598 návštěva ano 21 0,935874 0,180430 návštěva ano 21 0,930271 0,139382 návštěva ano 21 0,934717 0,171087 návštěva ano 21 0,928224 0,126815 návštěva ano 21 0,967589 0,679311 Odhad varianční matice S1 Kovariance (dovolena.sta) Zhrnout podmínku: ID1=0 Proměnná X1 X2 X3 X4 X5 X1 X2 X3 X4 X5 49,1947 0,99594 -2,24138 1,094951 -24,1647 0,9959 2,76108 -0,31897 0,140394 -4,7328 -2,2414 -0,31897 2,63547 -0,171182 1,1268 1,0950 0,14039 -0,17118 1,278325 1,9446 -24,1647 -4,73276 1,12685 1,944581 57,2808 Odhad varianční matice S2 Kovariance (dovolena.sta) Zhrnout podmínku: ID1=1 Proměnná X1 X2 X3 X4 X5 X1 X2 X3 X4 X5 83,59048 4,300714 6,39048 4,70333 16,25476 4,30071 2,728571 0,03571 0,20000 1,05714 6,39048 0,035714 2,79048 0,03333 -1,04524 4,70333 0,200000 0,03333 1,83333 -2,46667 16,25476 1,057143 -1,04524 -2,46667 63,84762 Boxův test shody variančních matic Boxův M test (dovolena.sta) Efekt: "ID1" (Vypočteno pro všechny proměnné) Boxovo M Chí-kv. SV p Boxovo M 26,61690 23,54681 15 0,073200 Linearita vztahů proměnných X1, …, X5 v daných dvou skupinách Maticový graf dovolena.sta 7v*50c Zahrnout jestliže: ID1=0 X1 X2 X3 X4 X5 Maticový graf dovolena.sta 7v*50c Zahrnout jestliže: ID1=1 X1 X2 X3 X4 X5 Odhad korelační matice R1 Korelace (dovolena.sta) Zhrnout podmínku: ID1=0 Proměnná X1 X2 X3 X4 X5 X1 X2 X3 X4 X5 1,000000 0,085454 -0,196846 0,138075 -0,455215 0,085454 1,000000 -0,118243 0,074729 -0,376331 -0,196846 -0,118243 1,000000 -0,093263 0,091713 0,138075 0,074729 -0,093263 1,000000 0,227248 -0,455215 -0,376331 0,091713 0,227248 1,000000 Odhad korelační matice R2 Korelace (dovolena.sta) Zhrnout podmínku: ID1=1 Proměnná X1 X2 X3 X4 X5 X1 X2 X3 X4 X5 1,000000 0,284770 0,418423 0,379933 0,222500 0,284770 1,000000 0,012943 0,089421 0,080093 0,418423 0,012943 1,000000 0,014737 -0,078308 0,379933 0,089421 0,014737 1,000000 -0,227991 0,222500 0,080093 -0,078308 -0,227991 1,000000 Testování hypotézy o shodě vektorů středních hodnot pomocí Hotellingova testu t-testy; grupováno: ID1 (dovolena.sta) Skup. 1: návštěva ne; Skup. 2: návštěva ano Hotellingovo 77,5606 F(5,44)=14,219 p<,00000 Proměnná Průměr návštěva ne Průměr návštěva ano t sv p Poč.plat návštěva ne Poč.plat. návštěva ano Sm.odch. návštěva ne Sm.odch. návštěva ano F-poměr Rozptyly p Rozptyly X1 X2 X3 X4 X5 42,84483 59,76190 -7,40751 48 0,000000 29 21 7,013894 9,142783 1,699176 0,193069 4,24138 5,14286 -1,89805 48 0,063712 29 21 1,661651 1,651839 1,011916 0,995884 4,27586 5,76190 -3,15623 48 0,002760 29 21 1,623412 1,670472 1,058816 0,872933 3,72414 4,33333 -1,73042 48 0,089980 29 21 1,130630 1,354006 1,434168 0,372786 46,93103 53,61905 -3,01289 48 0,004122 29 21 7,568407 7,990471 1,114643 0,776989 Simultánní testy o složkách vektorů středních hodnot t-testy; grupováno: ID1 (dovolena.sta) Skup. 1: návštěva ne; Skup. 2: návštěva ano Hotellingovo 77,5606 F(5,44)=14,219 p<,00000 Proměnná Průměr návštěva ne Průměr návštěva ano Sm.odch. návštěva ne Sm.odch. návštěva ano T0j =2,232*(v1- kvantil =VF(0,95;5 X1 X2 X3 X4 X5 42,84483 59,76190 7,013894 9,142783 10,4741845 2,42704012 4,24138 5,14286 1,661651 1,651839 0,68768495 2,42704012 4,27586 5,76190 1,623412 1,670472 1,90157282 2,42704012 3,72414 4,33333 1,130630 1,354006 0,57158454 2,42704012 46,93103 53,61905 7,568407 7,990471 1,73277887 2,42704012 Vidíme, že uvažované dvě skupiny rodin se liší především v proměnné X1, tj. v příjmu. Provedení kanonické diskriminační analýzy pro dvě skupiny Získání charakteristických čísel a charakteristických vektorů pro stanovení kanonických proměnných (vzhledem k tomu, že máme jen dvě skupiny, stačí pouze 1. kanonická proměnná) Statistiky – Vícerozměrné průzkumné techniky – Diskriminační analýza – Proměnné – Grupovací: ID1, Seznam nezáv. Proměnných: X1 až X5 – OK – Detaily – Kanonická analýza – Detaily – Výpočet: Test chí kvadrát postupných kořenů. Dostaneme tabulku: Test chí-kvadrát po odstranění post. kořenů (dovolena.sta) Kořeny odstraněny Vlastní číslo Kan. R Wilk. Lambda Chi-kv. sv p-hodn. 0 1,615846 0,785948 0,382285 43,75224 5 0,000000 Z této tabulky nás zajímá první sloupec, v němž je uvedena hodnota největšího charakteristického čísla matice 1− BE , tedy 6158,11 =λ Výpočet standardizovaných a prostých koeficientů 1. kanonické proměnné Návrat do Kanonické analýzy – Koeficienty pro kanonické proměnné Prosté koeficienty Prosté koeficienty (dovolena.sta) pro kanonické proměnné Proměnná Kořen1 X1 X2 X3 X4 X5 Konstant Vlastní KumPodíl 0,10639 0,10128 0,16523 -0,02915 0,06050 -9,48474 1,61585 1,00000 Standardizované koeficienty Standardiz. koeficienty (dovolena.sta) pro kanonické proměnné Proměnná Kořen1 X1 X2 X3 X4 X5 Vlastní KumPodíl 0,847952 0,167872 0,271498 -0,035819 0,468679 1,615846 1,000000 Vyjádření 1. kanonické proměnné: Y1 = -9,4847 + 0,1064 X1 + 0,1013 X2 + 0,1652 X3 – 0,0292 X4 + 0,0605 X5 Podle velikosti standardizovaných koeficientů lze soudit, že největší vliv na 1. kanonickou proměnnou má X1 (příjem), podstatně menší X5 (věk nejstaršího člena), dále X3 (význam rodinné dovolené), X2 (postoj k cestování) a nejmenší pak X4 (počet členů rodiny). Získání koeficientů korelace mezi jednotlivými proměnnými a 1. kanonickou proměnnou Návrat do Kanonické analýzy – Faktorová struktura Faktorová strukturní matice (dovolena.sta) Korelační proměnné - Kanonické kořeny (vnitřní korelace) Proměnná Kořen1 X1 X2 X3 X4 X5 0,841108 0,215519 0,358384 0,196486 0,342108 Nejvyšší korelaci pozorujeme u proměnné X1, tedy pro 1. kanonickou proměnnou je charakteristický příjem rodiny. Výpočet kanonických skóre jednotlivých objektů Návrat do Kanonické analýzy – záložka Kanonická skóre – Kanonická skóre pro každý případ Zobrazení jednotlivých objektů v kanonickém prostoru není v tomto případě možné, protože kanonickou diskriminační analýzou jsme 5-rozměrná pozorování zobrazili prostřednictvím 1. kanonické funkce na přímku. Zobrazení histogramů kanonických skóre v 1. a 2. skupině Návrat do Kanonické analýzy – záložka Kanonická skóre – Histogram kanonických skóre. Následně upravíme měřítko na vodorovné ose. Kořen 1,Skupina:návštěva ne Očekávané normální -3,0 -2,5 -2,0 -1,5 -1,0 -0,5 0,0 0,5 1,0 1,5 2,0 2,5 3,0 3,5 4,0 4,5 5,0 0 1 2 3 4 5 6 7 8 9 10 11 poč.poz. Kořen 1,Skupina:návštěva ano Očekávané normální -3 -2 -1 0 1 2 3 4 5 0 1 2 3 4 5 6 7 8 9 poč.poz. Výpočet skupinových centroidů 1. kanonické proměnné Návrat do Kanonické analýzy – záložka Detaily – Průměry kanonických proměnných Průměry kan. proměnných (dovolena.sta) Skup. Kořen1 návštěva ne návštěva ano -1,05985 1,46361 Zařazování objektů do skupin Protože máme jenom jednu kanonickou proměnnou, můžeme určit hraniční bod: 202,0 2 46361,105985,1 C = +− = , Podle něhož rozdělíme objekty do dvou skupin. Objekty, jejichž kanonické skóre je menší než C, zařadíme do 1. skupiny a ostatní objekty do 2. skupiny. V tabulce s daty vytvoříme dvě nové proměnné skore a zarazeni. Do Dlouhého jména proměnné skore napíšeme =0,10639*X1+0,10128*X2+0,16523*X3-0,02915*X4+0,0605*X5-9,48474 A do Dlouhého jména proměnné zarazeni napíšeme =iif(skore > 0,202;1;0) V proměnné skore jsou uložena kanonická skóre jednotlivých objektů a v proměnné zarazeni dostaneme zařazení objektů do skupin podle jejich kanonického skóre: Posouzení účinnosti diskriminace Vytvoříme kontingenční tabulku proměnných ID1 a zarazeni, tj. klasifikační matici: ID1 zarazeni 0 zarazeni 1 Řádk. součty návštěva ne 27 2 29 návštěva ano 5 16 21 Vš.skup. 32 18 50 Na hlavní diagonále jsou správně zařazené případy, je 27+16=43, tj. %86%100 50 43 = . Chybně tedy bylo zařazeno 2+5=7, tj. %14%100 50 7 = rodin. Zařazení nového případu podle jeho kanonického skóre Předpokládejme nyní, že jsme prozkoumali další rodinu, která má roční příjem 51,8 tisíc dolarů, k cestování zaujímá postoj ohodnocený 6 body, rodinné dovolené přičítá význam ohodnocený 7 body, má 4 členy a nejstaršímu členovi je 51 let. Na základě těchto údajů se pokusíme pomocí kanonické diskriminace zařadit tuto rodinu do skupiny rodin, které buď navštěvují nebo nenavštěvují danou rekreační oblast. Do datové tabulky přidáme další případ a vyplníme hodnoty proměnných X1 až X5. Přepočítáme proměnné skore a zarazeni. Proměnná skore nabývá hodnoty 0,749452, tedy tato rodina je zařazena do skupiny 1, tj. do skupiny rodin, které navštěvují danou rekreační oblast. Řešení pro tři skupiny (třídění podle ID2): Posouzení úrovně a variability proměnných X1, …, X5 v daných třech skupinách Proměnná ID2 N platných Průměr Sm.odch. X1 X2 X3 X4 X5 X1 X2 X3 X4 X5 X1 X2 X3 X4 X5 malá 12 38,1 6,16 malá 12 3,8 1,59 malá 12 4,7 1,83 malá 12 3,7 1,37 malá 12 51,8 5,85 střední 24 48,2 5,46 střední 24 4,4 1,77 střední 24 4,5 1,84 střední 24 3,9 1,10 střední 24 46,0 8,46 velká 14 63,0 9,94 velká 14 5,6 1,22 velká 14 5,7 1,49 velká 14 4,4 1,39 velká 14 54,4 7,48 Krabicový graf z více proměnných seskupený ID2 dovolena_ID1.sta 9v*50c Průměr; Krabice: Průměr±SmOdch; Svorka: Min-Max X1 X2 X3 X4 X5 malá střední velká ID2 -3 -2 -1 0 1 2 3 Ověření normality proměnných X1, …, X5 v daných třech skupinách Souhrnné výsledky Testy normality (dovolena.sta) Proměnná ID2 N W p X1: roční příjem v tisících dolarů X2: postoj k cestování (škála 9 bodů) X3: význam rodinné dovolené (škála 9 bodů) X4: počet členů rodiny X5: věk nejstaršího člena X1: roční příjem v tisících dolarů X2: postoj k cestování (škála 9 bodů) X3: význam rodinné dovolené (škála 9 bodů) X4: počet členů rodiny X5: věk nejstaršího člena X1: roční příjem v tisících dolarů X2: postoj k cestování (škála 9 bodů) X3: význam rodinné dovolené (škála 9 bodů) X4: počet členů rodiny X5: věk nejstaršího člena malá 12 0,706875 0,000982 malá 12 0,867375 0,060535 malá 12 0,955130 0,712720 malá 12 0,907871 0,200341 malá 12 0,976999 0,968796 střední 24 0,947240 0,235912 střední 24 0,943681 0,196939 střední 24 0,962008 0,480070 střední 24 0,877051 0,007252 střední 24 0,882154 0,009185 velká 14 0,897737 0,104575 velká 14 0,922488 0,238745 velká 14 0,909165 0,153244 velká 14 0,958259 0,694341 velká 14 0,933244 0,338619 Boxův test shody variančních matic Boxův M test (dovolena.sta) Efekt: "ID2" (Vypočteno pro všechny proměnné) Boxovo M Chí-kv. SV p Boxovo M 51,55790 42,84879 30 0,060418 Linearita vztahů proměnných X1, …, X5 v daných třech skupinách Maticový graf dovolena.sta 9v*50c Zahrnout jestliže: ID2=1 X1 X2 X3 X4 X5 Maticový graf dovolena.sta 9v*50c Zahrnout jestliže: ID2=2 X1 X2 X3 X4 X5 Maticový graf dovolena.sta 9v*50c Zahrnout jestliže: ID2=3 X1 X2 X3 X4 X5 Odhad korelační matice R1 ID2=malá Korelace (dovolena.sta) Proměnná X1 X2 X3 X4 X5 X1 X2 X3 X4 X5 1,000000 -0,355157 -0,016436 0,001794 -0,316554 -0,355157 1,000000 0,104656 0,139401 0,298939 -0,016436 0,104656 1,000000 0,133199 -0,059597 0,001794 0,139401 0,133199 1,000000 0,612379 -0,316554 0,298939 -0,059597 0,612379 1,000000 Odhad korelační matice R2 ID2=střední Korelace (dovolena.sta) Proměnná X1 X2 X3 X4 X5 X1 X2 X3 X4 X5 1,000000 -0,011874 0,229254 0,396716 0,120127 -0,011874 1,000000 -0,219377 -0,205006 -0,448942 0,229254 -0,219377 1,000000 -0,062614 0,079421 0,396716 -0,205006 -0,062614 1,000000 0,019072 0,120127 -0,448942 0,079421 0,019072 1,000000 Odhad korelační matice R3 ID2=velká Korelace (dovolena.sta) Proměnná X1 X2 X3 X4 X5 X1 X2 X3 X4 X5 1,000000 0,209917 0,640122 0,439641 0,322421 0,209917 1,000000 0,236607 0,535452 0,175842 0,640122 0,236607 1,000000 0,015888 0,216954 0,439641 0,535452 0,015888 1,000000 -0,190425 0,322421 0,175842 0,216954 -0,190425 1,000000 Testování hypotézy o shodě vektorů středních hodnot pomocí MANOVY Vícerozměrné testy významnosti. (dovolena.sta) Sigma-omezená parametrizace Dekompozice efektivní hypotézy Efekt Test Hodnota F Efekt SV Chyba SV p Abs. člen "ID2" Wilksův 0,01010 842,8765 5 43 0,000000 Pillaiův 0,98990 842,8765 5 43 0,000000 Hotellng 98,00890 842,8765 5 43 0,000000 Royův 98,00890 842,8765 5 43 0,000000 Wilksův 0,26322 8,1626 10 86 0,000000 Pillaiův 0,86784 6,7455 10 88 0,000000 Hotellng 2,30122 9,6651 10 84 0,000000 Royův 2,05945 18,1231 5 44 0,000000 Odlišnost vektorů středních hodnot ve sledovaných třech skupinách je prokázána na hladině významnosti 0,05. Nyní provedeme simultánní testy o složkách vektorů středních hodnot. Matice E reziduální variability Matice SSCP (Z' Z) reziduí (dovolena.sta) Sigma-omezená parametrizace Dekompozice efektivní hypotézy Efekt proměnné X1 X2 X3 X4 X5 Chyba X1 2386,662 -7,821 174,1762 134,0548 313,738 X2 -7,821 118,714 -7,5119 5,9524 -103,131 X3 174,176 -7,512 143,4821 1,1786 52,887 X4 134,055 5,952 1,1786 73,7143 32,298 X5 313,738 -103,131 52,8869 32,2976 2750,423 Matice T celkové variability Matice SSCP (Z' Z) odchylek (dovolena.sta) Matice SSCP (Z' Z) odchylek vektorů matice v matici schématu X Efekt Sloup.4 X1 Sloup.5 X2 Sloup.6 X3 Sloup.7 X4 Sloup.8 X5 X1 X2 X3 X4 X5 6535,025 299,6500 371,2500 250,2500 1026,550 299,650 141,7800 8,1000 14,6200 -37,940 371,250 8,1000 156,5000 6,9000 131,700 250,250 14,6200 6,9000 76,9800 54,740 1026,550 -37,9400 131,7000 54,7400 3425,620 Hodnoty testových statistik K1 až K5 a kritický obor: 1 K1 2 K2 3 K3 4 K4 5 K5 6 kvantil 1 45,3276196 7,99016946 3,90805746 1,95069769 9,87874916 18,3070381 Na hladině významnosti 0,05 se prokázalo, že rozdíl mezi skupinami způsobuje X1. Provedení kanonické diskriminační analýzy pro tři skupiny Najdeme vlastní čísla matice 1− BE : Test chí-kvadrát po odstranění post. kořenů (dovolena.sta) Kořeny odstraněny Vlastní číslo Kan. R Wilk. Lambda Chi-kv. sv p-hodn. 0 1 2,059446 0,820453 0,263219 60,06468 10 0,000000 0,241769 0,441245 0,805303 9,74416 4 0,044965 Dále vypočítáme prosté a standardizované koeficienty 1. a 2. kanonické proměnné: Prosté koeficienty (dovolena.sta) pro kanonické proměnné Proměnná Kořen1 Kořen2 X1 X2 X3 X4 X5 Konstant Vlastní KumPodíl -0,141007 -0,04449 -0,220270 0,15736 0,060049 0,19118 0,163157 0,01824 -0,015944 0,12414 7,910380 -5,68856 2,059446 0,24177 0,894939 1,00000 Standardiz. koeficienty (dovolena.sta) pro kanonické proměnné Proměnná Kořen1 Kořen2 X1 X2 X3 X4 X5 Vlastní KumPodíl -1,00482 -0,317069 -0,35007 0,250083 0,10492 0,334027 0,20433 0,022838 -0,12197 0,949651 2,05945 0,241769 0,89494 1,000000 Y1 = -0,141007*X1-0,22027*X2+0,060049*X3+0,163157*X4-0,015944*X5+7,91038 Y2 = -0,04449*X1+0,15736*X2+0,19118*X3+0,01824*X4+0,12414*X5-5,68856 Z tabulky standardizovaných koeficientů plyne, že největší vliv na zařazování do skupin má X1 a X5. Koeficienty korelace mezi jednotlivými proměnnými a dvěma kanonickými proměnnými Faktorová strukturní matice (dovolena.sta) Korelační proměnné - Kanonické kořeny (vnitřní korelace) Proměnná Kořen1 Kořen2 X1 X2 X3 X4 X5 -0,918077 -0,097736 -0,306332 0,065573 -0,181935 0,305471 -0,146634 0,009360 -0,158338 0,895448 Pro 1. kanonickou proměnnou je charakteristický silný nepřímý lineární vztah s X1, zatímco pro 2. kanonickou proměnnou je charakteristický silný přímý lineární vztah s X5. Výpočet kanonických skóre jednotlivých objektů a znázornění jejich rozmístění na ploše prvních dvou kanonických proměnných: Bodový graf z Kořen2 proti Kořen1; kategorizovaný Skup. Nestandardizovaná kanonická skóre (dovolena.sta) v PS2 3v*50c Kořen1 Kořen2 Skup.: malá Skup.: střední Skup.: velká-5 -4 -3 -2 -1 0 1 2 3 -3 -2 -1 0 1 2 3 Zobrazení histogramů kanonických skóre v 1., 2. a 3. skupině Kořen 1,Skupina:malá Očekávané normální -5,0 -4,5 -4,0 -3,5 -3,0 -2,5 -2,0 -1,5 -1,0 -0,5 0,0 0,5 1,0 1,5 2,0 2,5 3,0 0 1 2 3 4 5 poč.poz. Kořen 1,Skupina:střední Očekávané normální -5,0 -4,5 -4,0 -3,5 -3,0 -2,5 -2,0 -1,5 -1,0 -0,5 0,0 0,5 1,0 1,5 2,0 2,5 3,0 0 1 2 3 4 5 6 7 8 poč.poz. Kořen 1,Skupina:velká Očekávané normální -5 -4 -3 -2 -1 0 1 2 3 0 1 2 3 4 5 poč.poz. Výpočet skupinových centroidů 1. a 2. kanonické proměnné Průměry kan. proměnných (dovolena.sta) Skup. Kořen1 Kořen2 malá střední velká 1,74468 0,601934 0,31396 -0,484385 -2,03367 0,314432 Zařazování objektů do skupin není v tomto případě tak jednoduché jako v předešlé situaci, kdy jsme měli jen dvě skupiny. Zařazování se děje na základě kvadrátu Mahalanobisovy vzdálenosti kanonických skóre jednotlivých objektů od skupinových centroidů kanonických proměnných, kterou musíme vypočítat pro každou skupinu. Návrat do Kanonická analýza – záložka Kanonická skóre – Uložit kanonická skóre – vybereme ID2 – OK. Ke vzniklé tabulce přidáme 11 nových proměnných. V prvních šesti budou souřadnice skupinových centroidů pro 1., 2. a 3. skupinu. Nazveme je centroid11, centroid12, centroid21, centroid22, centroid31, centroid32. Do jejich Dlouhých jmen postupně napíšeme průměry kanonických proměnných, tj. =1,74468 =0,601934 =0,31396 =-2,03367 =0,314432 Další tři proměnné nazveme d1, d2, d3 a uložíme do nich kvadráty Mahalanobisových vzdáleností kanonických skóre jednotlivých objektů od skupinových centroidů kanonických proměnných. Do Dlouhého jména proměnné d1 napíšeme: =(v2-v4)^2+(v3-v5)^2 Do Dlouhého jména proměnné d2 napíšeme: =(v2-v6)^2+(v3-v7)^2 Do Dlouhého jména proměnné d3 napíšeme: =(v2-v8)^2+(v3-v9)^2 13. proměnnou nazveme minimum a uložíme do ní nejmenší z kvadrátů Mahalanobisových vzdáleností. Do jejího Dlouhého jména napíšeme: =min(d1;min(d2;d3)) V poslední proměnné, kterou nazveme zarazeni, bude uloženo zařazení do skupin. Vznikne překódováním proměnné minimum. Nastavíme se kurzorem na proměnnou zarazeni – Data – Překódovat – Kategorie 1: Zahrnout, pokud v13=v10, Nová hodnota 1 – Kategorie 2: Zahrnout, pokud v13=v11, Nová hodnota 2 – Kategorie 3: Zahrnout, pokud v13=v12, Nová hodnota 3 – OK Posouzení účinnosti diskriminace Vytvoříme kontingenční tabulku proměnných ID2 a zarazeni: ID2 zarazeni2 1 zarazeni2 2 zarazeni2 3 Řádk. součty malá 10 2 0 12 střední 3 19 2 24 velká 1 1 12 14 Vš.skup. 14 22 14 50 Na hlavní diagonále jsou správně zařazené případy: 10+19+12=41, tj. %82%100 50 41 = . Chybně tedy bylo zařazeno 2+2+3+1+1=9, tj. %18%100 50 9 = rodin.