Lineární diskriminační analýza (Předpoklad – varianční matice jsou ve všech skupinách shodné.) Odvození bayesovského rozhodovacího pravidla pro dvě skupiny objektů Nechť v 1. skupině je n1 objektů, ve 2. skupině n2 objektů. Každý objekt je charakterizován p-rozměrným vektorem pozorování X = (X1, …, Xp)'. Předpokládáme, že v h-té skupině má náhodný vektor X hustotu φh(x), h = 1, 2. Nechť Hh je jev „objekt patří do h-té skupiny“. Apriorní pravděpodobnost P(Hh) příslušnosti objektu k h-té skupině označíme πh, h = 1, 2. Známe-li u nějakého objektu vektor pozorování x, můžeme podle Bayesova vzorce vypočítat aposteriorní pravděpodobnost příslušnosti objektu ke skupině: ( ) ( ) ( ) ( ) 21,h,/HP 2211 hh h = ϕπ+ϕπ ϕπ == xx x xX Rozhodovací pravidlo: nový objekt zařadíme do té skupiny, u níž je aposteriorní pravděpodobnost větší. Objekt s vektorem pozorování x zařadíme do 1. skupiny, když π1φ1(x) > π2φ2(x), jinak ho zařadíme do 2. skupiny. Součin πhφh(x) se nazývá diskriminační skór pro h-tou skupinu. Lze ukázat, že bayesovské rozhodovací pravidlo je optimální v tom smyslu, že minimalizuje celkovou pravděpodobnost mylné klasifikace. Konstrukce Fisherovy lineární diskriminační funkce pro dvě skupiny objektů V diskriminační analýze se předpokládá, že hustota v h-té skupině je normální a má parametry µh, Σh, tj. ( ) ( ) ( ) ( )      −−− π =ϕ − h 1 h ' h h h 2 1 exp 2det 1 µxΣµx Σ x , h = 1, 2. Jestliže zlogaritmujeme diskriminační skór πhφh(x) a vynecháme člen ( )π− 2ln 2 p , který je společný pro obě skupiny, dostaneme tzv. kvadratický diskriminační skór pro h-tou skupinu ve tvaru ( ) ( ) ( ) hh 1 h ' hh ln 2 1 detln 2 1 π+−−−− − µxΣµxΣ , h = 1, 2. Jsou-li varianční matice v obou skupinách stejné (společnou varianční matici označíme Σ), obsahují oba kvadratické diskriminační skóry týž člen ( ) xΣxΣ 1' 2 1 detln 2 1 − −− . Po jeho vynechání obdržíme lineární diskriminační skór pro h-tou skupinu – tzv. Andersonovu diskriminační statistiku - ve tvaru ( ) hh 1' h 1' hh ln 2 1 π+−=λ −− µΣµxΣµx , h = 1, 2. Objekt s vektorem pozorování x tedy zařadíme do 1. skupiny, když λ1(x) > λ2(x), jinak ho zařadíme do 2. skupiny. Vzhledem k tomu, že máme jen dvě skupiny objektů, lze rozhodnutí o zařazení objektu do skupiny učinit na základě rozdílu λ(x) = λ1(x) - λ2(x) = ( ) ( ) 212 1' 21 1' 1 1' 21 lnln 2 1 π−π+−−− −−− µΣµµΣµxΣµµ . Funkce λ(x) se nazývá Fisherova lineární diskriminační funkce. Označíme-li β' = ( ) 2 1 ,1' 21 −=γ− − Σµµ β'(µ1 + µ2) + ln π1 - ln π2, můžeme Fisherovu lineární diskriminační funkci psát ve tvaru λ(x) = β'x + γ. Znamená to, že jsme našli takovou lineární kombinaci vektoru pozorování x, která nám umožní minimalizovat celkovou pravděpodobnost mylného zařazení objektu do skupiny. Objekt s vektorem pozorování x tedy zařadíme do 1. skupiny, když λ(x) > 0, jinak ho zařadíme do 2. skupiny. Modifikace pro případ neznámých parametrů Při praktickém použití diskriminační analýzy většinou neznáme parametry µ1, µ2, Σ ani apriorní pravděpodobnosti π1, π2. V takovém případě používáme odhady: µh → Mh, h = 1, 2 ( ) ( ) 2nn 1n1n 21 2211 −+ −+− =→ SS SΣ n nh h →π , h = 1, 2. Odhad Fisherovy lineární diskriminační funkce λ(x) = β'x + γ: L(x) = b'x + g, kde b' = (M1 - M2)'S-1 , g = 2 1 − b'(M1 + M2) + ln p1 – ln p2. Posouzení účinnosti diskriminace resubstituční metodou Resubstituční metoda spočívá v uplatnění zkonstruovaného rozhodovacího pravidla na objekty se známou příslušností ke skupině. Uvažujeme postupně všechny tyto objekty a jejich zařazení podle rozhodovacího pravidla porovnáme se skutečnou příslušností ke skupině. Stanovíme podíl správně a mylně zařazených objektů. zařazenískutečnost 1. skupina 2. skupina součet 1. skupina n11 n12 n1. = n1 2. skupina n21 n22 n2. = n2 součet n.1 n.2 n Podíl správně zařazených objektů: n nn 2211 + Podíl mylně zařazených objektů: n nn 2112 + Postup při lineární diskriminační analýze 1. Vzhledem k povaze úlohy určíme veličiny X1, ..., Xp a pořídíme n1 + n2 p-rozměrných pozorování tak, aby n1 objektů pocházelo z 1. skupiny a n2 objektů z 2. skupiny. 2. Na zvolené hladině významnosti α testujeme hypotézy o normalitě rozložení v obou skupinách a orientačně posoudíme linearitu vztahů mezi sledovanými proměnnými v obou skupinách. 3. Vypočteme odhady M1, M2, S1, S2, S, p1, p2. 4. Na zvolené hladině významnosti α testujeme hypotézy o shodě variančních matic a vektorů středních hodnot v obou skupinách. 5. Vypočteme odhad L(x) Fisherovy lineární diskriminační funkce. Objekt s vektorem pozorování x přiřadíme k 1. skupině, když L(x) > 0, jinak ho přiřadíme ke 2. skupině. 6. Účinnost diskriminace posoudíme metodou resubstituce. Příklad: V souboru 50 rodin byly zjišťovány tyto údaje: - zda v posledních dvou letech rodina navštívila jistou rekreační oblast (veličina ID1, nabývá hodnoty 0 pro odpověď „ne“, hodnoty 1 pro odpověď „ano“) - částka, kterou je rodina ochotná vydat za dovolenou (veličina ID2, nabývá hodnoty 1 pro variantu „malá“, 2 pro variantu „střední“ a 3 pro variantu „velká“) - roční příjem v tisících dolarů (veličina X1) - postoj k cestování (veličina X2, devítibodová škála, 1 = naprosto odmítavý, 9 = veskrze kladný) - význam přičítaný rodinné dovolené (veličina X3, devítibodová škála, 1 = nejnižší, 9 = nejvyšší) - počet členů rodiny (veličina X4) - věk nejstaršího člena rodiny (veličina X5). Pro uvedená data proveďte lineární diskriminační analýzu pro dvě skupiny objektů, tj. pro třídění podle ID1. (Přistoupíme přímo k provedení LDA, protože ověřování předpokladů o datech a testováním hypotéz o shodě variančních matic a shodě vektorů středních hodnot jsme se již zabývali v přednášce o kanonické diskriminační analýze.) Význam jednotlivých proměnných v modelu Statistiky – Vícerozměrné průzkumné techniky – Diskriminační analýza – Proměnné - Grupovací ID1 – Seznam nezáv. proměnných X1 až X5 – OK – OK – Výpočet: proměnné v modelu. Výsledky diskriminační funkční analýzy (dovolena.sta) Počet prom. v modelu: 5; grupovací: ID1 (2 skup) Wilk. lambda: ,38229 přibliž F (5,44)=14,219 p< ,0000 N=50 Wilk. Lambda Parc. Lambda F na vyj (1,44) p-hodn. Toler. 1-toler. R^2 X1 X2 X3 X4 X5 0,627513 0,609207 28,22504 0,000003 0,879866 0,120134 0,388609 0,983729 0,72778 0,398223 0,934715 0,065285 0,400086 0,955507 2,04884 0,159388 0,977164 0,022836 0,382565 0,999270 0,03215 0,858527 0,921303 0,078697 0,439319 0,870177 6,56444 0,013904 0,956782 0,043218 V záhlaví této tabulky je uvedena Wilksova Lambda (na škále od 0 – nejlepší diskriminace do 1 – žádná diskriminace) a její přepočet na testovou statistiku F pro Hotellingův test shody vektorů středních hodnot (14,219) a odpovídající p-hodnota (je blízká 0). V 1. sloupci (Wilk. Lambda) jsou hodnoty Wilksovy Lambdy při vyřazení dané proměnné z modelu (vyšší hodnoty jsou lepší). 2. sloupec (Parc. Lambda) obsahuje unikátní příspěvky proměnných k diskriminaci. Ve 3. sloupci jsou přepočty parciálních Lambda na testové statistiky a ve 4. sloupci pak odpovídající phodnoty. Podle p-hodnot u jednotlivých proměnných soudíme, že pro diskriminaci jsou významné proměnné X1 a X5. 5. sloupec (Tolerance) udává unikátní variabilitu proměnné nevysvětlenou ostatními proměnnými v modelu. 6. sloupec (1-toler., R2 ) udává variabilitu proměnné vysvětlenou ostatními proměnnými. Mahalanobisova vzdálenost v diskriminační analýze Používá se pro popis vzájemných vzdáleností centroidů jednotlivých skupin. Statistiky – Vícerozměrné průzkumné techniky – Diskriminační analýza - Proměnné – Grupovací proměnná ID, Seznam nezávislých proměnných X1 až X5 –– OK – OK – na záložce Detaily zvolíme Vzdálenosti mezi skupinami. Současně dostaneme i p-hodnoty pro testy hypotéz, že vzdálenosti jsou nulové: Mahalanobisovy vzdálenosti^2 (dovolena.sta) ID1 návštěva ne návštěva ano návštěva ne návštěva ano 0,000000 6,367867 6,367867 0,000000 p-hodnot (dovolena.sta) ID1 návštěva ne návštěva ano návštěva ne návštěva ano 0,000000 0,000000 Lze také získat Mahalanobisovy vzdálenosti jednotlivých objektů od centroidů skupin. Na záložce Klasifikace zvolíme Mahalanobisovy vzdálenosti^2: Stanovení odhadu Fisherovy lineární diskriminační funkce: L(x) = b'x + g, kde b' = (M1 - M2)'S-1 , g = 2 1 − b'(M1 + M2) + ln p1 – ln p2. Odhad vektoru středních hodnot v 1. skupině: Popisné statistiky (dovolena.sta) Zhrnout podmínku: ID=0 Proměnná N platných Průměr X1 X2 X3 X4 X5 29 42,84483 29 4,24138 29 4,27586 29 3,72414 29 46,93103 Odhad vektoru středních hodnot ve 2. skupině: Popisné statistiky (dovolena.sta) Zhrnout podmínku: ID=1 Proměnná N platných Průměr X1 X2 X3 X4 X5 21 59,76190 21 5,14286 21 5,76190 21 4,33333 21 53,61905 Odhad společné varianční matice S: X1 X2 X3 X4 X5 X1 X2 X3 X4 X5 63,53 2,37 1,36 2,60 -7,32 2,37 2,75 -0,17 0,17 -2,32 1,36 -0,17 2,70 -0,09 0,22 2,60 0,17 -0,09 1,51 0,11 -7,32 -2,32 0,22 0,11 60,02 Postup v systému STATISTICA : Statistiky – Vícerozměrné průzkumné techniky – Diskriminační analýza – Proměnné – Grupovací ID, Seznam nezáv. proměnných X1-X5 – OK, zapneme Další možnosti (kroková analýza) – OK – Popisné statistiky – Zobrazit popisné statistiky – Vnitřní kovariance a korelace. Odhady apriorních pravděpodobností: 42,0 50 21 n n p,58,0 50 29 n n p 2 2 1 1 ====== Po dosazení dostaneme: b' = (M1 - M2)'S-1 = (-0,2865 -0,2556 -0,4169 0,0736 -0,1527) g = 2 1 − b'(M1 + M2) + ln p1 – ln p2 = 24,7666 L(x) = b'x + g = -0,2685X1 – 0,2556X2 – 0,4169X3 + 0,0736X4 – 0,1527X5 + 24,7666 Postup v systému STATISTICA : Statistiky – Vícerozměrné průzkumné techniky – Diskriminační analýza - Proměnné – Grupovací proměnná ID, Seznam nezávislých proměnných X1 až X5 –– OK – OK – na záložce Klasifikace zvolíme Klasifikační funkce. Dostaneme tabulku tvaru: Klasifikační funkce; grupovací : ID (dovolena) Proměnná návštěva ne p=,58000 návštěva ano p=,42000 X1 X2 X3 X4 X5 Konstant 0,6369 0,9054 1,7840 2,0395 1,3391 1,7560 1,1866 1,1130 0,9216 1,0743 -44,6709 -69,4375 Abychom získali odhad Fisherovy lineární diskriminační funkce, přidáme do této tabulky novou proměnnou a do jejího Dlouhého jména napíšeme =v1-v2 Klasifikační funkce; grupovací : ID (dovolena) Proměnná návštěva ne p=,58000 návštěva ano p=,42000 NProm =v1-v2 X1 X2 X3 X4 X5 Konstant 0,6369 0,9054 -0,26847 1,7840 2,0395 -0,25557 1,3391 1,7560 -0,41694 1,1866 1,1130 0,073566 0,9216 1,0743 -0,15266 -44,6709 -69,4375 24,76658 Klasifikace nového případu Předpokládejme nyní, že jsme prozkoumali další rodinu, která má roční příjem X1 = 51,8 tisíc dolarů, k cestování zaujímá postoj ohodnocený X2 = 6 body, rodinné dovolené přičítá význam ohodnocený X3 = 7 body, má X4 = 4 členy a nejstaršímu členovi je X5 = 51 let. Na základě těchto údajů se pokusíme pomocí Fisherovy lineární diskriminační funkce zařadit tuto rodinu do skupiny rodin, které buď navštěvují nebo nenavštěvují danou rekreační oblast: L(x) = -0,2685X1 – 0,2556X2 – 0,4169X3 + 0,0736X4 – 0,1527X5 + 24,7666 = = -0,2685*51,8 – 0,2556*6 – 0,4169*7 + 0,0736*4 – 0,1527*51 + 24,7666 = -1,0836. Protože L(x) < 0, zařadíme tuto rodinu do skupiny rodin, které navštěvují danou rekreační oblast. Posouzení účinnosti diskriminace resubstituční metodou: Na záložce Klasifikace zvolíme Klasifikační matice. Klasifikační matice (dovolena) Řádky: pozorované klasifikace Sloupce: předpovězené klasifikace Skup. % správných návštěva ne p=,58000 návštěva ano p=,42000 návštěva ne návštěva ano Celkem 93,10345 27 2 76,19048 5 16 86,00000 32 18 Podíl správně zařazených objektů: 86,0 50 1627 n nn 2211 = + = + Podíl mylně zařazených objektů: 14,0 50 25 n nn 2112 = + = + Pro určení chybně zařazených případů zvolíme na záložce Klasifikace možnost Klasifikace případů. Zjistíme, že v 1. skupině došlo k mylnému zařazení u rodin č. 9 a 10, ve 2. skupině u rodin číslo 30, 33, 36, 43, 45. Výběr proměnných pro klasifikaci krokovou metodou Kroková metoda postupně vyhledává nejvhodnější soubor proměnných pro diskriminaci. Používá se buď jako dopředná nebo jako zpětná. Význam jednotlivých proměnných pro diskriminaci se k každém kroku zkoumá pomocí zaváděcího a odstraňovacího kritéria. Vybírání proměnných či jejich odstraňování skončí, když žádné další proměnné nesplňují zaváděcí nebo odstraňovací kritérium. Upozornění: Před zařazením j-té proměnné do modelu se stanoví její tolerance 2 j R1− ( 2 j R je čtverec vícenásobného koeficientu korelace, tj. koeficientu, který měří těsnost lineární závislosti veličiny Xj na ostatních veličinách). Tolerance je implicitně nastavená na 0,01. Příklad: Použijte krokovou dopřednou (a poté zpětnou) metodu pro zařazování rodin do dvou skupin. Řešení: Statistika – Vícerozměrné průzkumné techniky – Diskriminační analýza – Proměnné Grupovací ID1 – Seznam nezáv. proměnných X1 až X5 – OK – zaškrtneme Další možnosti (kroková analýza) – OK – Metoda – zvolíme kroková dopředná. Na záložce Detaily můžeme změnit Možnosti kroku (ponecháme implicitní nastavení) a také pomocí tlačítka Výsledky můžeme zvolit, zda chceme zobrazovat výsledky po každém kroku nebo chceme pouze shrnutí (ponecháme shrnutí) – OK. Zvolíme-li tlačítko Výpočet: proměnné v modelu, dostaneme tabulku Výsledky diskriminační funkční analýzy (dovolena.sta) krok 3, poč. prom. v modelu: 3; grupovací: ID1 (2 skup) Wilk. lambda: ,38880 přibliž F (3,46)=24,104 p< ,0000 N=50 Wilk. Lambda Parc. Lambda F na vyj (1,46) p-hodn. Toler. 1-toler. R^2 X1 X5 X3 0,719493 0,540386 39,12429 0,000000 0,974791 0,025209 0,441811 0,880024 6,27128 0,015879 0,985042 0,014958 0,405987 0,957678 2,03285 0,160683 0,988398 0,011602 Vidíme, že algoritmus skončil po třech krocích a vybral proměnné X1, X5 a X3. Zvolíme-li tlačítko Proměnné neobsažené v modelu, zjistíme, že jde o proměnné X2 a X4. Na záložce Klasifikace vybereme Klasifikační funkce. Dostaneme lineární diskriminační skóry pro 1. a 2. skupinu objektů. Do vzniklé tabulky přidáme novou proměnnou L, do jejíhož Dlouhého jména napíšeme =v1-v2 a tím získáme odhad Fisherovy lineární diskriminační funkce: Klasifikační funkce; grupovací : ID1 (dovolena.sta) Proměnná návštěva ne p=,58000 návštěva ano p=,42000 L =v1-v2 X1 X5 X3 Konstant 0,7504 1,0247 -0,2742808 0,8693 1,0128 -0,1434212 1,1355 1,5365 -0,4009242 -39,4479 -63,0649 23,6170025 Vidíme, že L(x) = -0,2743*X1 – 0,1434*X5 – 0,4009*X3 + 23,617 Klasifikační matice je stejná jako v případě diskriminace podle všech proměnných a chybně zařazené případy jsou také stejné. Klasifikační matice (dovolena.sta) Řádky: pozorované klasifikace Sloupce: předpovězené klasifikace Skup. % správnýc návštěva ne p=,58000 návštěva ano p=,42000 návštěva ne návštěva ano Celkem 93,10345 27 2 76,19048 5 16 86,00000 32 18 Použijeme-li krokovou zpětnou metodu, je vybrána pouze proměnná X1 a účinnost diskriminace poklesne na 80 %. Porovnání s náhodnou klasifikací Kdybychom zařazovali rodiny do skupin náhodně, pouze s ohledem na apriorní pravděpodobnosti π1, π2, tak bychom s pravděpodobností π1 našli rodinu patřící do 1. skupiny, avšak s pravděpodobností π2 bychom ji mylně zařadili do 2. skupiny. Naopak s pravděpodobností π2 najdeme rodinu patřící do 2. skupiny, kterou s pravděpodobností π1 mylně zařadíme do 1. skupiny. Celková pravděpodobnost mylné klasifikace je tedy: π1π2 + π2π1 = 2π1(1- π1). Nahradíme-li apriorní pravděpodobnosti π1, π2 jejich odhady p1, p2 , dostaneme odhad celkové pravděpodobnosti mylné klasifikace 2p1(1- p1) = 50 21 50 29 2 ⋅⋅ = 0,4872. Použitím diskriminační analýzy jsme tedy dosáhli výrazného zlepšení, pravděpodobnost mylné klasifikace klesla na 0,14. Klasifikace pomoci LDA pro r ≥ 3 skupin Opět předpokládáme, že ve všech r skupinách se vektory pozorování řídí p-rozměrným normálním rozložením, varianční matice jednotlivých skupin jsou shodné a vztahy mezi sledovanými p proměnnými jsou přibližně lineární. Lineární diskriminační skór pro h-tou skupinu (Andersonova diskriminační statistika) má tvar: ( ) hh 1' h 1' hh ln 2 1 π+−=λ −− µΣµxΣµx , h = 1, …, r Její odhad získáme dosazením Mh, S a ph: ( ) hh 1' h 1' hh pln 2 1 L +−= −− MSMxSMx Objekt neznámého původu, jehož vektor pozorování je x, bude zařazen do skupiny s nejvyšší hodnotou Lh(x). Příklad: Soubor rodin nyní roztřiďte do tří skupin podle proměnné ID2, tj. podle toho, jak velkou částku je rodina ochotna vydat z dovolenou (varianty „malá“, „střední“, „velká“). Řešení: Předběžné analýzy již byly provedeny, přistoupíme proto přímo k LDA pro tři skupiny objektů. Při zadávání proměnných zvolíme jako grupovací proměnnou ID2. Zvolíme-li Výpočet: proměnné v modelu, dostaneme tabulku: Výsledky diskriminační funkční analýzy (dovolena.sta) Počet prom. v modelu: 5; grupovací: ID2 (3 skup) Wilk. lambda: ,26322 přibliž F (10,86)=8,1626 p< ,0000 N=50 Wilk. Lambda Parc. Lambda F na vyj (2,43) p-hodn. Toler. 1-toler. R^2 X1 X2 X3 X4 X5 0,602832 0,436636 27,74006 0,000000 0,805704 0,194297 0,289522 0,909148 2,14852 0,129016 0,959666 0,040334 0,270302 0,973794 0,57859 0,564991 0,899531 0,100469 0,269947 0,975075 0,54960 0,581183 0,883696 0,116304 0,319480 0,823896 4,59552 0,015533 0,948842 0,051158 V záhlaví této tabulky je uvedena testová statistika pro Wilksův test shody vektorů středních hodnot (8,1626) a odpovídající p-hodnota (je blízká 0). Podle p-hodnot u jednotlivých proměnných soudíme, že pro diskriminaci jsou významné proměnné X1 a X5. Na záložce Klasifikace zvolíme Klasifikační funkce: Klasifikační funkce; grupovací : ID2 (dovolena.sta) Proměnná malá p=,24000 střední p=,48000 velká p=,28000 X1 X2 X3 X4 X5 Konstant 0,5525 0,8026 1,0981 2,3285 2,4727 3,1155 0,6466 0,3530 0,3648 0,7459 0,4926 0,1242 0,8874 0,7754 0,9120 -42,2581 -45,1663 -70,7708 Zde jsou uvedeny koeficienty pro odhady Andersonových diskriminačních skórů pro 1., 2. a 3. skupinu: L1(x) = 0,5525*X1 + 2,3285*X2 + 0,6466*X3 + 0,7459*X4 + 0,8874*X5 – 42,2581 L2(x) = 0,8026*X1 + 2,4727*X2 + 0,3530*X3 + 0,4926*X4 + 0,7754*X5 – 45,1663 L3(x) = 1,0981*X1 + 3,1155*X2 + 0,3648*X3 + 0,1242*X4 + 0,9120*X5 – 70,7708 Klasifikační matice: Klasifikační matice (dovolena.sta) Řádky: pozorované klasifikace Sloupce: předpovězené klasifikace Skup. % správnýc malá p=,24000 střední p=,48000 velká p=,28000 malá střední velká Celkem 66,66666 8 4 0 91,66666 1 22 1 78,57143 0 3 11 82,00000 9 29 12 Správně zařazeno bylo %82%100 50 11228 =⋅ ++ případů, chybně 18 % případů. V 1. skupině rodin byly chybně zařazeny případy 8, 10, 19, 20 ( %3,33 12 4 = ), ve 2. skupině případy 4, 47 ( %3,8 24 2 = ) a ve 3. skupině případy 24, 34, 43 ( %4,21 14 3 = ) Zařazení nového případu Nyní podle těchto skórů zařadíme do jedné ze tří skupin rodinu, která má roční příjem X1 = 51,8 tisíc dolarů, k cestování zaujímá postoj ohodnocený X2 = 6 body, rodinné dovolené přičítá význam ohodnocený X3 = 7 body, má X4 = 4 členy a nejstaršímu členovi je X5 = 51 let. Otevřeme nový datový soubor s osmi proměnnými a jedním případem. Do prvních pěti proměnných napíšeme zadané hodnoty a do Dlouhých jmen posledních tří proměnných napíšeme vyjádření pro odhady diskriminačních skórů. 1 X1 2 X2 3 X3 4 X4 5 X5 6 L1 7 L2 8 L3 1 51,8 6 7 4 51 53,0996 55,23138 54,36618 Největší hodnotu má skór ve 2. skupině, tedy zkoumaná rodina vydá za dovolenou střední část- ku. Dále v LDA použijeme pro výběr proměnných krokovou metodu. Výsledky pro krokovou dopřednou metodu Proměnné obsažené v modelu Výsledky diskriminační funkční analýzy (dovolena.sta) krok 3, poč. prom. v modelu: 3; grupovací: ID2 (3 skup) Wilk. lambda: ,27663 přibliž F (6,90)=13,519 p< ,0000 N=50 Wilk. Lambda Parc. Lambda F na vyj (2,45) p-hodn. Toler. 1-toler. R^2 X1 X5 X2 0,652311 0,424084 30,55552 0,000000 0,984948 0,015052 0,338537 0,817147 5,03482 0,010635 0,953070 0,046930 0,303098 0,912692 2,15236 0,128024 0,967370 0,032630 Klasifikační funkce Klasifikační funkce; grupovací : ID2 (dovolena.sta) Proměnná malá p=,24000 střední p=,48000 velká p=,28000 X1 X5 X2 Konstant 0,6401 0,8551 1,1311 0,8991 0,7824 0,9163 2,3409 2,4846 3,1046 -41,3768 -44,8553 -70,5840 Klasifikační matice Klasifikační matice (dovolena.sta) Řádky: pozorované klasifikace Sloupce: předpovězené klasifikace Skup. % správnýc malá p=,24000 střední p=,48000 velká p=,28000 malá střední velká Celkem 75,00000 9 3 0 83,33334 3 20 1 78,57143 0 3 11 80,00000 12 26 12 Úspěšnost klasifikace poklesla z 82 % na 80 %. Výsledky pro krokovou zpětnou metodu Proměnné obsažené v modelu Výsledky diskriminační funkční analýzy (dovolena.sta) krok 4, poč. prom. v modelu: 1; grupovací: ID2 (3 skup) Wilk. lambda: ,36521 přibliž F (2,47)=40,846 p< ,0000 N=50 Wilk. Lambda Parc. Lambda F na vyj (2,47) p-hodn. Toler. 1-toler. R^2 X1 1,000000 0,365211 40,84639 0,000000 1,000000 0,00 Klasifikační funkce Klasifikační funkce; grupovací : ID2 (dovolena.sta) Proměnná malá p=,24000 střední p=,48000 velká p=,28000 X1 Konstant 0,7506 0,9498 1,2413 -15,7327 -23,6411 -40,3976 Klasifikační matice Klasifikační matice (dovolena.sta) Řádky: pozorované klasifikace Sloupce: předpovězené klasifikace Skup. % správnýc malá p=,24000 střední p=,48000 velká p=,28000 malá střední velká Celkem 83,3333 10 2 0 100,0000 0 24 0 78,5714 1 2 11 90,0000 11 28 11 Je-li ke klasifikaci rodin do skupin použita pouze proměnná X1, je úspěšnost klasifikace nejvyšší, a to 90 %. Aplikujeme-li toto klasifikační pravidlo na rodinu s vektorem pozorování (51,8 6 7 4 51)’, dostaneme výsledek 1 X1 2 X2 3 X3 4 X4 5 X5 6 L1 7 L2 8 L3 1 51,8 6 7 4 51 23,14838 25,55854 23,90174 Mahalanobisovy vzdálenosti mezi skupinami a jejich statistická významnost V systému STATISTICA lze vypočítat kvadrát Mahalanobisovy vzdálenosti mezi všemi dvojicemi skupin a získat p-hodnotu pro test hypotézy, že tyto vzdálenosti jsou nulové. V panelu Diskriminační analýza vybereme záložku Detaily a poté Vzdálenosti mezi skupinami. (Uvedené výsledky jsou pro případ, kdy k diskriminaci použijeme všechny proměnné) Mahalanobisovy vzdálenosti^2 (dovolena.sta) ID2 malá střední velká malá střední velká 0,00000 3,227044 14,35858 3,22704 0,000000 6,14948 14,35858 6,149479 0,00000 p-hodnot (dovolena.sta) ID2 malá střední velká malá střední velká 0,001585 0,000000 0,001585 0,000002 0,000000 0,000002 Všechny tři dvojice skupin se liší na hladině významnosti 0,05, nejvíce pak skupina 1 a 3. Poznámka o klasifikaci objektů pomocí umělých neuronových sítích Diskriminaci objektů je možno provádět také pomocí neuronových sítí. Ty nekladou žádné předběžné požadavky na data (normalita, homogenita variančních matic, linearita vztahů). Použití neuronových sítí v systému STATISTICA ukážeme na datovém souboru dovolena.sta, a to jak pro klasifikaci do dvou skupin, tak do tří skupin. Statistiky – Automatizované neuronové sítě – Nová analýza – Klasifikace – OK – Proměnné – Kategorická cílová proměnná: ID1, Spojité prediktory: X1 až X5 – OK. Na záložce Vzorkování zadáme velikost trénovací množiny 100 % (kvůli porovnání výsledků s výsledky kanonické DA nebo lineární DA). Velikosti zbylých dvou množin jsou pak 0 %. Následně zvolíme tlačítko Trénovat. Zjistíme, že všechny sítě poskytly trénovací výkon 100 %. Pomocí tlačítka Výběr aktivních sítí vybereme např. síť s indexem 1 – OK. Na záložce Detaily vybereme Matice záměn: ID1 (Souhrn klasifikací) (dovolena) Vzorky: Trénovací ID1-návštěva ano ID1-návštěva ne ID1-Všechny 1.MLP 5-9-2 Celkem 21,0000 29,0000 50,0000 Správné 21,0000 29,0000 50,0000 Chybné 0,0000 0,0000 0,0000 Správné (%) 100,0000 100,0000 100,0000 Chybné (%) 0,0000 0,0000 0,0000 Vidíme, že všechny rodiny byly správně klasifikovány, což je lepší výsledek než poskytla LDA. Na záložce Vlastní predikce můžeme zadat vektory pozorování objektů s neznámou příslušností ke skupině. Použijeme údaje o rodině, jejíž vektor pozorování je 51,8 6 7 4 51. Získáme tabulku Vlastní predikce: Tabulka s uživatelskými predikcemi (dovolena) Případy 1.ID1_(t) X1 X2 X3 X4 X5 1 návštěva ano 51,80000 6,000000 7,000000 4,000000 51,00000 Neuronová síť zařadila tuto rodinu do skupiny rodin, které danou oblast navštěvují. Stejný postup zopakujeme pro klasifikaci rodin do tří skupin podle proměnné ID2. První čtyři sítě mají trénovací výkon 100 %, pátá 98 %. Vybereme první síť. Matice záměn (tj. klasifikační matice): ID1 (Souhrn klasifikací) (dovolena) Vzorky: Trénovací ID1-návštěva ano ID1-návštěva ne ID1-Všechny 1.MLP 5-9-2 Celkem 21,0000 29,0000 50,0000 Správné 21,0000 29,0000 50,0000 Chybné 0,0000 0,0000 0,0000 Správné (%) 100,0000 100,0000 100,0000 Chybné (%) 0,0000 0,0000 0,0000 Neuronová síť opět dosáhla lepšího výsledku než LDA. Poznámka o kvadratické diskriminační analýze Kvadratické diskriminační analýza se používá v situacích, kdy p-rozměrné vektory pozorování objektů v daných r skupinách pocházejí z normálních rozložení, která mají rozdílné varianční matice. Při klasifikaci objektů se používají kvadratické diskriminační skóry ( ) ( ) ( ) ( ) hh 1 h ' hhh ln 2 1 detln 2 1 Q π+−−−−= − µxΣµxΣx , h = 1, …, r, přičemž v praxi neznámé parametry hµ , hΣ a hπ nahradíme jejich odhady Mh, Sh a ph. Tím získáme odhad kvadratického diskriminačního skóru ( ) ( ) ( ) ( ) hh 1 h ' hhh plnMSM 2 1 Sdetln 2 1 Qˆ +−−−−= − xxx Objekt s neznámou příslušností, jehož vektor pozorování je x, zařadíme do té skupiny, pro niž je ( )xhQˆ maximální. QDA je velmi citlivá na porušení předpokladu normality. V systému STATISTICA není implementována.