Příklad V souboru 50 rodin byly zjišťovány tyto údaje: - zda v posledních dvou letech rodina navštívila jistou rekreační oblast (veličina ID, nabývá hodnoty 0 pro odpověď „ne“, hodnoty 1 pro odpověď „ano“) - roční příjem v tisících dolarů (veličina X1) - postoj k cestování (veličina X2, devítibodová škála, 1 = naprosto odmítavý, 9 = veskrze kladný) - význam přičítaný rodinné dovolené (veličina X3, devítibodová škála, 1 = nejnižší, 9 = nejvyšší) - počet členů rodiny (veličina X4) - věk nejstaršího člena rodiny (veličina X5). Pro uvedená data sestrojte Fisherovu lineární diskriminační funkci, která pomocí veličin X1, …, X5 umožní rozlišit rodiny navštěvující uvedenou rekreační oblast od rodin, které do této oblasti nejezdí. Datový soubor: číslo ID X1 X2 X3 X4 X5 číslo ID X1 X2 X3 X4 X5 1. 0 32,1 5 4 6 58,0 26. 0 48,2 3 5 4 43,0 2. 0 40,0 4 4 3 42,0 27. 0 54,5 7 3 3 37,0 3. 0 36,2 4 3 2 55,0 28. 0 38,2 2 5 3 49,0 4. 0 43,2 2 5 2 57,0 29. 0 41,7 4 2 3 40,0 5. 0 50,4 5 2 4 37,0 30. 1 50,2 5 8 3 43,0 6. 0 45,2 4 4 4 42,0 31. 1 70,3 6 7 4 61,0 7. 0 44,1 6 6 3 42,0 32. 1 62,9 7 5 6 52,0 8. 0 38,3 6 6 2 45,0 33. 1 48,5 7 5 5 36,0 9. 0 55,0 1 5 4 57,0 34. 1 52,7 6 6 4 55,0 10. 0 56,1 3 5 5 51,0 35. 1 75,0 8 7 5 68,0 11. 0 48,2 4 3 6 47,0 36. 1 46,2 5 3 3 62,0 12. 0 35,0 6 4 5 64,0 37. 1 57,0 2 4 6 51,0 13. 0 37,3 2 7 3 54,0 38. 1 64,1 4 5 4 57,0 14. 0 41,8 5 1 5 56,0 39. 1 68,1 4 6 5 45,0 15. 0 57,0 8 3 4 36,0 40. 1 73,4 6 7 5 44,0 16. 0 33,4 6 8 4 50,0 41. 1 71,6 5 8 4 64,0 17. 0 41,5 5 6 3 38,0 42. 1 56,2 1 8 6 54,0 18. 0 39,8 4 5 4 42,0 43. 1 49,3 4 2 3 56,0 19. 0 37,5 3 2 3 48,0 44. 1 62,0 5 6 2 58,0 20. 0 41,3 3 3 2 42,0 45. 1 50,8 4 7 3 45,0 21. 0 35,0 4 3 4 54,0 46. 1 63,6 7 4 7 55,0 22. 0 49,6 5 5 5 39,0 47. 1 54,0 6 7 4 58,0 23. 0 45,5 4 4 4 41,0 48. 1 49,0 5 4 3 60,0 24. 0 39,4 6 5 3 44,0 49. 1 68,0 6 6 6 46,0 25. 0 37,0 2 6 5 51,0 50. 1 62,1 5 6 3 56,0 Řešení: Testování normality náhodných veličin X1, …, X5 v daných dvou skupinách rodin pomocí S - W testu: Pro skupinu rodin, které danou rekreační oblast nenavštěvují: Statistiky – Základní statistiky/tabulky – Select cases – ID=0 – OK – Tabulky četností – Proměnné X1 až X5 – OK – Normalita – zaškrtneme S-W test – Testy normality Testy normality (dovolena.sta) Zhrnout podmínku: ID=0 Proměnná N W p X1: roční příjem v tisících dolarů X2: postoj k cestování (škála 9 bodů) X3: význam rodinné dovolené (škála 9 bodů) X4: počet členů rodiny X5: věk nejstaršího člena 29 0,940188 0,101411 29 0,964071 0,412187 29 0,964432 0,420319 29 0,917696 0,026668 29 0,944508 0,131598 Pro skupinu rodin, které danou rekreační oblast navštěvují: Statistiky – Základní statistiky/tabulky – Select cases – ID=1 – OK – Tabulky četností – Proměnné X1 až X5 – OK – Normalita – zaškrtneme S-W test – Testy normality Testy normality (dovolena.sta) Zhrnout podmínku: ID=1 Proměnná N W p X1: roční příjem v tisících dolarů X2: postoj k cestování (škála 9 bodů) X3: význam rodinné dovolené (škála 9 bodů) X4: počet členů rodiny X5: věk nejstaršího člena 21 0,935874 0,180430 21 0,930271 0,139382 21 0,934717 0,171087 21 0,928224 0,126815 21 0,967589 0,679311 Na hladině významnosti 0,05 zamítáme hypotézu o normalitě u veličiny X4 ve skupině rodin, které danou rekreační oblast nenavštěvují. N-P ploty: Grafy – 2D Grafy – Normální pravděpodobnostní grafy – Proměnné X1 až X5 – OK – na záložce Kategorizovaný zaškrtneme Kategorie X Zapnuto – Změnit proměnnou – ID – OK – OK Normální p-graf z X1; kategorizovaný ID dovolena.sta 6v*50c ID: návštěva ne 30 35 40 45 50 55 60 65 70 75 80 -2,5 -2,0 -1,5 -1,0 -0,5 0,0 0,5 1,0 1,5 2,0 2,5 Očekávanánormálníhodnota ID: návštěva ano 30 35 40 45 50 55 60 65 70 75 80 Normální p-graf z X2; kategorizovaný ID dovolena.sta 6v*50c ID: návštěva ne 0 1 2 3 4 5 6 7 8 9 -2,5 -2,0 -1,5 -1,0 -0,5 0,0 0,5 1,0 1,5 2,0 2,5 Očekávanánormálníhodnota ID: návštěva ano 0 1 2 3 4 5 6 7 8 9 Normální p-graf z X4; kategorizovaný ID dovolena.sta 6v*50c ID: návštěva ne 1 2 3 4 5 6 7 8 -2,5 -2,0 -1,5 -1,0 -0,5 0,0 0,5 1,0 1,5 2,0 2,5 Očekávanánormálníhodnota ID: návštěva ano 1 2 3 4 5 6 7 8 Normální p-graf z X3; kategorizovaný ID dovolena.sta 6v*50c ID: návštěva ne 0 1 2 3 4 5 6 7 8 9 -2,5 -2,0 -1,5 -1,0 -0,5 0,0 0,5 1,0 1,5 2,0 2,5 Očekávanánormálníhodnota ID: návštěva ano 0 1 2 3 4 5 6 7 8 9 Normální p-graf z X5; kategorizovaný ID dovolena.sta 6v*50c ID: návštěva ne 30 35 40 45 50 55 60 65 70 -2,5 -2,0 -1,5 -1,0 -0,5 0,0 0,5 1,0 1,5 2,0 2,5 Očekávanánormálníhodnota ID: návštěva ano 30 35 40 45 50 55 60 65 70 Odhad vektorů středních hodnot M1 a M2 lze získat více způsoby, uvedeme např. tento: Statistiky – Základní statistiky/tabulky – Select cases – ID=0 - Popisné statistiky – Proměnné X1 až X5 – Grupovací proměnná ID=0 – OK – Detailní výsledky – zaškrtneme pouze N a průměr – Souhrn Popisné statistiky (dovolena.sta) Zhrnout podmínku: ID=0 Proměnná N platných Průměr X1 X2 X3 X4 X5 29 42,84483 29 4,24138 29 4,27586 29 3,72414 29 46,93103 Krabicové grafy: Grafy – 2D Grafy – Krabicové grafy – Vícenásobný – Závisle proměnné X1 až X5 – OK – OK Krabicový graf z více proměnných dovolena.sta 6v*50c Zahrnout jestliže: ID=0 Medián; Krabice: 25%-75%; Svorka: Rozsah neodleh. Medián 25%-75% Rozsah neodleh. Odlehlé Extrémy X1 X2 X3 X4 X5 -10 0 10 20 30 40 50 60 70 Nyní změníme podmínku ID = 1 Popisné statistiky (dovolena.sta) Zhrnout podmínku: ID=1 Proměnná N platných Průměr X1 X2 X3 X4 X5 21 59,76190 21 5,14286 21 5,76190 21 4,33333 21 53,61905 Krabicový graf z více proměnných dovolena.sta 6v*50c Zahrnout jestliže: ID=1 Medián; Krabice: 25%-75%; Svorka: Rozsah neodleh. Medián 25%-75% Rozsah neodleh. Odlehlé Extrémy X1 X2 X3 X4 X5 -10 0 10 20 30 40 50 60 70 80 Odhad varianční matice S1: Statistiky – Vícerozměrná regrese – Select cases ID=0 – OK – Proměnné - Závislá proměnná X5, Seznam nezávisle proměnných X1 až X4 – OK – OK - Residua/předpoklady/předpovědi – Popisné statistiky – Další statistiky - Kovariance Kovariance (dovolena.sta) Zhrnout podmínku: ID=0 Proměnná X1 X2 X3 X4 X5 X1 X2 X3 X4 X5 49,1947 0,99594 -2,24138 1,094951 -24,1647 0,9959 2,76108 -0,31897 0,140394 -4,7328 -2,2414 -0,31897 2,63547 -0,171182 1,1268 1,0950 0,14039 -0,17118 1,278325 1,9446 -24,1647 -4,73276 1,12685 1,944581 57,2808 Odhad varianční matice S2: Změníme podmínku ID=1 Kovariance (dovolena.sta) Zhrnout podmínku: ID=1 Proměnná X1 X2 X3 X4 X5 X1 X2 X3 X4 X5 83,59048 4,300714 6,39048 4,70333 16,25476 4,30071 2,728571 0,03571 0,20000 1,05714 6,39048 0,035714 2,79048 0,03333 -1,04524 4,70333 0,200000 0,03333 1,83333 -2,46667 16,25476 1,057143 -1,04524 -2,46667 63,84762 Odhad společné varianční matice S: Statistiky – Vícerozměrné průzkumné techniky – Diskriminační analýza – Proměnné – Grupovací ID, Seznam nezáv. proměnných X1-X5 – OK, zapneme Další možnosti (kroková analýza) – OK – Popisné statistiky – Zobrazit popisné statistiky – Vnitřní kovariance a korelace. X1 X2 X3 X4 X5 X1 X2 X3 X4 X5 63,53 2,37 1,36 2,60 -7,32 2,37 2,75 -0,17 0,17 -2,32 1,36 -0,17 2,70 -0,09 0,22 2,60 0,17 -0,09 1,51 0,11 -7,32 -2,32 0,22 0,11 60,02 Boxův test shody variančních matic: Statistika M = (n1 + n2 – 2) ln (det S) – (n1 – 1) ln (det S1) - (n2 – 1) ln (det S2) = 26,6179 Konstanta zlepšující aproximaci ( )       −+ − − + −+ −+ −= 2nn 1 1n 1 1n 1 1p6 1p3p2 1C 2121 2 p =0,8847 Testová statistika MCp = 23,5468 Kritický obor: W = ( ) )∞      + χ α− , 2 1pp 1 2 = ( ) ) )∞=∞ ,9958,24,1095,0 2 χ . Protože testová statistika neleží v kritickém oboru, nezamítáme na asymptotické hladině významnosti 0,05 hypotézu o shodě variančních matic Σ1, Σ2. Provedení testu v systému STATISTICA: Statistiky – Pokročilé lineární/nelineární modely – Obecné lineární modely – Typ analýzy: Jednofaktorová ANOVA - Metoda specifikace: Rychlé nastavení – OK – Proměnné – Seznam závislých proměnných: X1 – X5, Kategor. nezávislá proměnná (faktor): ID – OK – OK – Více výsledků – Boxův M-test. Boxův M test (dovolena.sta) Efekt: ID (Vypočteno pro všechny proměnné) Boxovo M Chí-kv. sv p Boxovo M 26,61690 23,54681 15 0,073200 Protože p-hodnota je větší než hladina významnosti 0,05, hypotézu o shodě variančních matic nezamítáme na asymptotické hladině významnosti 0,05. Linearita vztahů mezi proměnnými ve skupině rodin navštěvujících danou oblast Maticový graf dovolena.sta 7v*50c Zahrnout jestliže: ID1=1 X1 X2 X1 X3 X4 X5 X1X2 X3 X3 X4 X4 X5X1 X2 X3 X4 X5 Linearita vztahů mezi proměnnými ve skupině rodin nenavštěvujících danou oblast Maticový graf dovolena.sta 7v*50c Zahrnout jestliže: ID1=0 X1 X2 X1 X3 X4 X5 X1X2 X3 X3 X4 X4 X5X1 X2 X3 X4 X5 Upozornění: Test shody vektorů středních hodnot lze v systému STATISTICA provést i jinak: Statistiky – Základní statistiky/tabulky – t-test, nezávislé, dle skupin – OK – Proměnné – Závisle proměnné X1 až X5, Grupovací proměnná ID – OK – na záložce Možnosti zaškrtneme Vícerozměrný test. V záhlaví výstupní tabulky se zobrazí realizace testové statistiky a příslušná p-hodnota. t-testy; grupováno: ID (dovolena.sta) Skup. 1: návštěva ne; Skup. 2: návštěva ano Hotellingovo 77,5606 F(5,44)=14,219 p<,00000 Proměnná Průměr návštěva ne Průměr návštěva ano t sv p Poč.plat návštěva ne Poč.plat. návštěva ano Sm.odch. návštěva ne Sm.odch. návštěva ano X1 X2 X3 X4 X5 42,84483 59,76190 -7,40751 48 0,000000 29 21 7,013894 9,142783 4,24138 5,14286 -1,89805 48 0,063712 29 21 1,661651 1,651839 4,27586 5,76190 -3,15623 48 0,002760 29 21 1,623412 1,670472 3,72414 4,33333 -1,73042 48 0,089980 29 21 1,130630 1,354006 46,93103 53,61905 -3,01289 48 0,004122 29 21 7,568407 7,990471 Vidíme, že na hladině významnosti 0,05 jsou odlišné střední hodnoty proměnných X1, X3, X5. U proměnných X2 a X4 se odlišnost neprokázala, z dalšího zpracování je však vyřazovat nebudeme. Význam jednotlivých proměnných v modelu Statistiky – Vícerozměrné průzkumné techniky – Diskriminační analýza – Proměnné - Grupovací ID1 – Seznam nezáv. proměnných X1 až X5 – OK – OK – Výpočet: proměnné v modelu. Výsledky diskriminační funkční analýzy (dovolena.sta) Počet prom. v modelu: 5; grupovací: ID1 (2 skup) Wilk. lambda: ,38229 přibliž F (5,44)=14,219 p< ,0000 N=50 Wilk. Lambda Parc. Lambda F na vyj (1,44) p-hodn. Toler. 1-toler. R^2 X1 X2 X3 X4 X5 0,627513 0,609207 28,22504 0,000003 0,879866 0,120134 0,388609 0,983729 0,72778 0,398223 0,934715 0,065285 0,400086 0,955507 2,04884 0,159388 0,977164 0,022836 0,382565 0,999270 0,03215 0,858527 0,921303 0,078697 0,439319 0,870177 6,56444 0,013904 0,956782 0,043218 V záhlaví této tabulky je uvedena Wilksova Lambda (na škále od 0 – nejlepší diskriminace do 1 – žádná diskriminace) a její přepočet na testovou statistiku F pro Hotellingův test shody vektorů středních hodnot (14,219) a odpovídající p-hodnota (je blízká 0). V 1. sloupci (Wilk. Lambda) jsou hodnoty Wilksovy Lambdy při vyřazení dané proměnné z modelu (vyšší hodnoty jsou lepší). 2. sloupec (Parc. Lambda) obsahuje unikátní příspěvky proměnných k diskriminaci. Ve 3. sloupci jsou přepočty parciálních Lambda na testové statistiky a ve 4. sloupci pak odpovídající phodnoty. Podle p-hodnot u jednotlivých proměnných soudíme, že pro diskriminaci jsou významné proměnné X1 a X5. 5. sloupec (Tolerance) udává unikátní variabilitu proměnné nevysvětlenou ostatními proměnnými v modelu. 6. sloupec (1-toler., R2 ) udává variabilitu proměnné vysvětlenou ostatními proměnnými. Stanovení odhadu Fisherovy lineární diskriminační funkce: L(x) = b'x + g, kde b' = (M1 - M2)'S-1 , g = 2 1 − b'(M1 + M2) + ln p1 – ln p2. Odhad vektoru středních hodnot v 1. skupině: Popisné statistiky (dovolena.sta) Zhrnout podmínku: ID=0 Proměnná N platných Průměr X1 X2 X3 X4 X5 29 42,84483 29 4,24138 29 4,27586 29 3,72414 29 46,93103 Odhad vektoru středních hodnot ve 2. skupině: Popisné statistiky (dovolena.sta) Zhrnout podmínku: ID=1 Proměnná N platných Průměr X1 X2 X3 X4 X5 21 59,76190 21 5,14286 21 5,76190 21 4,33333 21 53,61905 Odhad společné varianční matice S: X1 X2 X3 X4 X5 X1 X2 X3 X4 X5 63,53 2,37 1,36 2,60 -7,32 2,37 2,75 -0,17 0,17 -2,32 1,36 -0,17 2,70 -0,09 0,22 2,60 0,17 -0,09 1,51 0,11 -7,32 -2,32 0,22 0,11 60,02 Postup v systému STATISTICA : Statistiky – Vícerozměrné průzkumné techniky – Diskriminační analýza – Proměnné – Grupovací ID, Seznam nezáv. proměnných X1-X5 – OK, zapneme Další možnosti (kroková analýza) – OK – Popisné statistiky – Zobrazit popisné statistiky – Vnitřní kovariance a korelace. Odhady apriorních pravděpodobností: 42,0 50 21 n n p,58,0 50 29 n n p 2 2 1 1 ====== Po dosazení dostaneme: b' = (M1 - M2)'S-1 = (-0,2865 -0,2556 -0,4169 0,0736 -0,1527) g = 2 1 − b'(M1 + M2) + ln p1 – ln p2 = 24,7666 L(x) = b'x + g = -0,2685X1 – 0,2556X2 – 0,4169X3 + 0,0736X4 – 0,1527X5 + 24,7666 Postup v systému STATISTICA : Statistiky – Vícerozměrné průzkumné techniky – Diskriminační analýza - Proměnné – Grupovací proměnná ID, Seznam nezávislých proměnných X1 až X5 –– OK – OK – na záložce Klasifikace zvolíme Klasifikační funkce. Dostaneme tabulku tvaru: Klasifikační funkce; grupovací : ID (dovolena) Proměnná návštěva ne p=,58000 návštěva ano p=,42000 X1 X2 X3 X4 X5 Konstant 0,6369 0,9054 1,7840 2,0395 1,3391 1,7560 1,1866 1,1130 0,9216 1,0743 -44,6709 -69,4375 Abychom získali odhad Fisherovy lineární diskriminační funkce, přidáme do této tabulky novou proměnnou a do jejího Dlouhého jména napíšeme =v1-v2 Klasifikační funkce; grupovací : ID (dovolena) Proměnná návštěva ne p=,58000 návštěva ano p=,42000 NProm =v1-v2 X1 X2 X3 X4 X5 Konstant 0,6369 0,9054 -0,26847 1,7840 2,0395 -0,25557 1,3391 1,7560 -0,41694 1,1866 1,1130 0,073566 0,9216 1,0743 -0,15266 -44,6709 -69,4375 24,76658 Klasifikace nového případu Předpokládejme nyní, že jsme prozkoumali další rodinu, která má roční příjem X1 = 51,8 tisíc dolarů, k cestování zaujímá postoj ohodnocený X2 = 6 body, rodinné dovolené přičítá význam ohodnocený X3 = 7 body, má X4 = 4 členy a nejstaršímu členovi je X5 = 51 let. Na základě těchto údajů se pokusíme pomocí Fisherovy lineární diskriminační funkce zařadit tuto rodinu do skupiny rodin, které buď navštěvují nebo nenavštěvují danou rekreační oblast: L(x) = -0,2685X1 – 0,2556X2 – 0,4169X3 + 0,0736X4 – 0,1527X5 + 24,7666 = = -0,2685*51,8 – 0,2556*6 – 0,4169*7 + 0,0736*4 – 0,1527*51 + 24,7666 = -1,0836. Protože L(x) < 0, zařadíme tuto rodinu do skupiny rodin, které navštěvují danou rekreační oblast. Posouzení účinnosti diskriminace resubstituční metodou: Na záložce Klasifikace zvolíme Klasifikační matice. Klasifikační matice (dovolena) Řádky: pozorované klasifikace Sloupce: předpovězené klasifikace Skup. % správných návštěva ne p=,58000 návštěva ano p=,42000 návštěva ne návštěva ano Celkem 93,10345 27 2 76,19048 5 16 86,00000 32 18 Podíl správně zařazených objektů: 86,0 50 1627 n nn 2211 = + = + Podíl mylně zařazených objektů: 14,0 50 25 n nn 2112 = + = + Pro určení chybně zařazených případů zvolíme na záložce Klasifikace možnost Klasifikace případů. Zjistíme, že v 1. skupině došlo k mylnému zařazení u rodin č. 9 a 10, ve 2. skupině u rodin číslo 30, 33, 36, 43, 45. Porovnání s náhodnou klasifikací Kdybychom zařazovali rodiny do skupin náhodně, pouze s ohledem na apriorní pravděpodobnosti π1, π2, tak bychom s pravděpodobností π1 našli rodinu patřící do 1. skupiny, avšak s pravděpodobností π2 bychom ji mylně zařadili do 2. skupiny. Naopak s pravděpodobností π2 najdeme rodinu patřící do 2. skupiny, kterou s pravděpodobností π1 mylně zařadíme do 1. skupiny. Celková pravděpodobnost mylné klasifikace je tedy: π1π2 + π2π1 = 2π1(1- π1). Nahradíme-li apriorní pravděpodobnosti π1, π2 jejich odhady p1, p2 , dostaneme odhad celkové pravděpodobnosti mylné klasifikace 2p1(1- p1) = 50 21 50 29 2 ⋅⋅ = 0,4872. Použitím diskriminační analýzy jsme tedy dosáhli výrazného zlepšení, pravděpodobnost mylné klasifikace klesla na 0,14. Grafické znázornění případů na ploše prvních dvou hlavních komponent Jako aktivní vstup použijeme Faktorová skóre podle korelací z analýzy hlavních komponent. Grafy – Kategorizované grafy – Bodové grafy – Rozložení Přes sebe – Proměnné X: Faktor 1, Y: Faktor 2, X_Kategorie: ID - OK Bodový graf z Faktor 2 proti Faktor 1; kategorizovaný ID Faktorová skóre podle korelací (dovolena.sta) v PS 1 3v*50c Faktor 1 Faktor2 ID: návštěva ne ID: návštěva ano -3,0 -2,5 -2,0 -1,5 -1,0 -0,5 0,0 0,5 1,0 1,5 2,0 -3 -2 -1 0 1 2 3 Příklad: Použijte krokovou dopřednou (a poté zpětnou) metodu pro zařazování rodin do dvou skupin. Řešení: Statistika – Vícerozměrné průzkumné techniky – Diskriminační analýza – Proměnné Grupovací ID1 – Seznam nezáv. proměnných X1 až X5 – OK – zaškrtneme Další možnosti (kroková analýza) – OK – Metoda – zvolíme kroková dopředná. Na záložce Detaily můžeme změnit Možnosti kroku (ponecháme implicitní nastavení) a také pomocí tlačítka Výsledky můžeme zvolit, zda chceme zobrazovat výsledky po každém kroku nebo chceme pouze shrnutí (ponecháme shrnutí) – OK. Zvolíme-li tlačítko Výpočet: proměnné v modelu, dostaneme tabulku Výsledky diskriminační funkční analýzy (dovolena.sta) krok 3, poč. prom. v modelu: 3; grupovací: ID1 (2 skup) Wilk. lambda: ,38880 přibliž F (3,46)=24,104 p< ,0000 N=50 Wilk. Lambda Parc. Lambda F na vyj (1,46) p-hodn. Toler. 1-toler. R^2 X1 X5 X3 0,719493 0,540386 39,12429 0,000000 0,974791 0,025209 0,441811 0,880024 6,27128 0,015879 0,985042 0,014958 0,405987 0,957678 2,03285 0,160683 0,988398 0,011602 Vidíme, že algoritmus skončil po třech krocích a vybral proměnné X1, X5 a X3. Zvolíme-li tlačítko Proměnné neobsažené v modelu, zjistíme, že jde o proměnné X2 a X4. Na záložce Klasifikace vybereme Klasifikační funkce. Dostaneme lineární diskriminační skóry pro 1. a 2. skupinu objektů. Do vzniklé tabulky přidáme novou proměnnou L, do jejíhož Dlouhého jména napíšeme =v1-v2 a tím získáme odhad Fisherovy lineární diskriminační funkce: Klasifikační funkce; grupovací : ID1 (dovolena.sta) Proměnná návštěva ne p=,58000 návštěva ano p=,42000 L =v1-v2 X1 X5 X3 Konstant 0,7504 1,0247 -0,2742808 0,8693 1,0128 -0,1434212 1,1355 1,5365 -0,4009242 -39,4479 -63,0649 23,6170025 Vidíme, že L(x) = -0,2743*X1 – 0,1434*X5 – 0,4009*X3 + 23,617 Klasifikační matice je stejná jako v případě diskriminace podle všech proměnných a chybně zařazené případy jsou také stejné. Klasifikační matice (dovolena.sta) Řádky: pozorované klasifikace Sloupce: předpovězené klasifikace Skup. % správnýc návštěva ne p=,58000 návštěva ano p=,42000 návštěva ne návštěva ano Celkem 93,10345 27 2 76,19048 5 16 86,00000 32 18 Použijeme-li krokovou zpětnou metodu, je vybrána pouze proměnná X1 a účinnost diskriminace poklesne na 80 %. Příklad Soubor rodin nyní roztřiďte do tří skupin podle proměnné ID2, tj. podle toho, jak velkou částku je rodina ochotna vydat z dovolenou (varianty „malá“, „střední“, „velká“). Řešení: Posouzení úrovně a variability proměnných X1, …, X5 v daných třech skupinách Proměnná ID2 N platných Průměr Sm.odch. X1 X2 X3 X4 X5 X1 X2 X3 X4 X5 X1 X2 X3 X4 X5 malá 12 38,1 6,16 malá 12 3,8 1,59 malá 12 4,7 1,83 malá 12 3,7 1,37 malá 12 51,8 5,85 střední 24 48,2 5,46 střední 24 4,4 1,77 střední 24 4,5 1,84 střední 24 3,9 1,10 střední 24 46,0 8,46 velká 14 63,0 9,94 velká 14 5,6 1,22 velká 14 5,7 1,49 velká 14 4,4 1,39 velká 14 54,4 7,48 Krabicový graf z více proměnných seskupený ID2 dovolena_ID1.sta 9v*50c Průměr; Krabice: Průměr±SmOdch; Svorka: Min-Max X1 X2 X3 X4 X5 malá střední velká ID2 -3 -2 -1 0 1 2 3 Ověření normality proměnných X1, …, X5 v daných třech skupinách Souhrnné výsledky Testy normality (dovolena.sta) Proměnná ID2 N W p X1: roční příjem v tisících dolarů X2: postoj k cestování (škála 9 bodů) X3: význam rodinné dovolené (škála 9 bodů) X4: počet členů rodiny X5: věk nejstaršího člena X1: roční příjem v tisících dolarů X2: postoj k cestování (škála 9 bodů) X3: význam rodinné dovolené (škála 9 bodů) X4: počet členů rodiny X5: věk nejstaršího člena X1: roční příjem v tisících dolarů X2: postoj k cestování (škála 9 bodů) X3: význam rodinné dovolené (škála 9 bodů) X4: počet členů rodiny X5: věk nejstaršího člena malá 12 0,706875 0,000982 malá 12 0,867375 0,060535 malá 12 0,955130 0,712720 malá 12 0,907871 0,200341 malá 12 0,976999 0,968796 střední 24 0,947240 0,235912 střední 24 0,943681 0,196939 střední 24 0,962008 0,480070 střední 24 0,877051 0,007252 střední 24 0,882154 0,009185 velká 14 0,897737 0,104575 velká 14 0,922488 0,238745 velká 14 0,909165 0,153244 velká 14 0,958259 0,694341 velká 14 0,933244 0,338619 Boxův test shody variančních matic Boxův M test (dovolena.sta) Efekt: "ID2" (Vypočteno pro všechny proměnné) Boxovo M Chí-kv. SV p Boxovo M 51,55790 42,84879 30 0,060418 Linearita vztahů proměnných X1, …, X5 v daných třech skupinách Maticový graf dovolena.sta 9v*50c Zahrnout jestliže: ID2=1 X1 X1X2 X1 X2 X3 X3 X4 X5 X3 X4 X4 X5 X1 X2 X3 X4 X5 Maticový graf dovolena.sta 9v*50c Zahrnout jestliže: ID2=2 X1 X2 X1 X3 X4 X5 X1X2 X3 X3 X4 X4 X5 X1 X2 X3 X4 X5 Maticový graf dovolena.sta 9v*50c Zahrnout jestliže: ID2=3 X1 X2 X1 X3 X4 X5 X1X2 X3 X3 X4 X4 X5 X1 X2 X3 X4 X5 Testování hypotézy o shodě vektorů středních hodnot pomocí MANOVY Vícerozměrné testy významnosti. (dovolena.sta) Sigma-omezená parametrizace Dekompozice efektivní hypotézy Efekt Test Hodnota F Efekt SV Chyba SV p Abs. člen "ID2" Wilksův 0,01010 842,8765 5 43 0,000000 Pillaiův 0,98990 842,8765 5 43 0,000000 Hotellng 98,00890 842,8765 5 43 0,000000 Royův 98,00890 842,8765 5 43 0,000000 Wilksův 0,26322 8,1626 10 86 0,000000 Pillaiův 0,86784 6,7455 10 88 0,000000 Hotellng 2,30122 9,6651 10 84 0,000000 Royův 2,05945 18,1231 5 44 0,000000 Odlišnost vektorů středních hodnot ve sledovaných třech skupinách je prokázána na hladině významnosti 0,05. Nyní provedeme simultánní testy o složkách vektorů středních hodnot. Matice E reziduální variability Matice SSCP (Z' Z) reziduí (dovolena.sta) Sigma-omezená parametrizace Dekompozice efektivní hypotézy Efekt proměnné X1 X2 X3 X4 X5 Chyba X1 2386,662 -7,821 174,1762 134,0548 313,738 X2 -7,821 118,714 -7,5119 5,9524 -103,131 X3 174,176 -7,512 143,4821 1,1786 52,887 X4 134,055 5,952 1,1786 73,7143 32,298 X5 313,738 -103,131 52,8869 32,2976 2750,423 Matice T celkové variability Matice SSCP (Z' Z) odchylek (dovolena.sta) Matice SSCP (Z' Z) odchylek vektorů matice v matici schématu X Efekt Sloup.4 X1 Sloup.5 X2 Sloup.6 X3 Sloup.7 X4 Sloup.8 X5 X1 X2 X3 X4 X5 6535,025 299,6500 371,2500 250,2500 1026,550 299,650 141,7800 8,1000 14,6200 -37,940 371,250 8,1000 156,5000 6,9000 131,700 250,250 14,6200 6,9000 76,9800 54,740 1026,550 -37,9400 131,7000 54,7400 3425,620 Hodnoty testových statistik K1 až K5 a kritický obor: 1 K1 2 K2 3 K3 4 K4 5 K5 6 kvantil 1 45,3276196 7,99016946 3,90805746 1,95069769 9,87874916 18,3070381 Na hladině významnosti 0,05 se prokázalo, že rozdíl mezi skupinami způsobuje X1. Test shody vektorů středních hodnot a posouzení významu proměnných můžeme ve STATISTICE provést přímo v Diskriminační analýze. Při zadávání proměnných zvolíme jako grupovací proměnnou ID2. Zvolíme-li Výpočet: proměnné v modelu, dostaneme tabulku: Výsledky diskriminační funkční analýzy (dovolena.sta) Počet prom. v modelu: 5; grupovací: ID2 (3 skup) Wilk. lambda: ,26322 přibliž F (10,86)=8,1626 p< ,0000 N=50 Wilk. Lambda Parc. Lambda F na vyj (2,43) p-hodn. Toler. 1-toler. R^2 X1 X2 X3 X4 X5 0,602832 0,436636 27,74006 0,000000 0,805704 0,194297 0,289522 0,909148 2,14852 0,129016 0,959666 0,040334 0,270302 0,973794 0,57859 0,564991 0,899531 0,100469 0,269947 0,975075 0,54960 0,581183 0,883696 0,116304 0,319480 0,823896 4,59552 0,015533 0,948842 0,051158 V záhlaví této tabulky je uvedena testová statistika pro Wilksův test shody vektorů středních hodnot (8,1626) a odpovídající p-hodnota (je blízká 0). Podle p-hodnot u jednotlivých proměnných soudíme, že pro diskriminaci jsou významné proměnné X1 a X5. Na záložce Klasifikace zvolíme Klasifikační funkce: Klasifikační funkce; grupovací : ID2 (dovolena.sta) Proměnná malá p=,24000 střední p=,48000 velká p=,28000 X1 X2 X3 X4 X5 Konstant 0,5525 0,8026 1,0981 2,3285 2,4727 3,1155 0,6466 0,3530 0,3648 0,7459 0,4926 0,1242 0,8874 0,7754 0,9120 -42,2581 -45,1663 -70,7708 Zde jsou uvedeny koeficienty pro odhady Andersonových diskriminačních skórů pro 1., 2. a 3. skupinu: L1(x) = 0,5525*X1 + 2,3285*X2 + 0,6466*X3 + 0,7459*X4 + 0,8874*X5 – 42,2581 L2(x) = 0,8026*X1 + 2,4727*X2 + 0,3530*X3 + 0,4926*X4 + 0,7754*X5 – 45,1663 L3(x) = 1,0981*X1 + 3,1155*X2 + 0,3648*X3 + 0,1242*X4 + 0,9120*X5 – 70,7708 Klasifikační matice: Klasifikační matice (dovolena.sta) Řádky: pozorované klasifikace Sloupce: předpovězené klasifikace Skup. % správnýc malá p=,24000 střední p=,48000 velká p=,28000 malá střední velká Celkem 66,66666 8 4 0 91,66666 1 22 1 78,57143 0 3 11 82,00000 9 29 12 Správně zařazeno bylo %82%100 50 11228 =⋅ ++ případů, chybně 18 % případů. V 1. skupině rodin byly chybně zařazeny případy 8, 10, 19, 20 ( %3,33 12 4 = ), ve 2. skupině případy 4, 47 ( %3,8 24 2 = ) a ve 3. skupině případy 24, 34, 43 ( %4,21 14 3 = ) Zařazení nového případu Nyní podle těchto skórů zařadíme do jedné ze tří skupin rodinu, která má roční příjem X1 = 51,8 tisíc dolarů, k cestování zaujímá postoj ohodnocený X2 = 6 body, rodinné dovolené přičítá význam ohodnocený X3 = 7 body, má X4 = 4 členy a nejstaršímu členovi je X5 = 51 let. Otevřeme nový datový soubor s osmi proměnnými a jedním případem. Do prvních pěti proměnných napíšeme zadané hodnoty a do Dlouhých jmen posledních tří proměnných napíšeme vyjádření pro odhady diskriminačních skórů. 1 X1 2 X2 3 X3 4 X4 5 X5 6 L1 7 L2 8 L3 1 51,8 6 7 4 51 53,0996 55,23138 54,36618 Největší hodnotu má skór ve 2. skupině, tedy zkoumaná rodina vydá za dovolenou střední část- ku. Dále v LDA použijeme pro výběr proměnných krokovou metodu. Výsledky pro krokovou dopřednou metodu Proměnné obsažené v modelu Výsledky diskriminační funkční analýzy (dovolena.sta) krok 3, poč. prom. v modelu: 3; grupovací: ID2 (3 skup) Wilk. lambda: ,27663 přibliž F (6,90)=13,519 p< ,0000 N=50 Wilk. Lambda Parc. Lambda F na vyj (2,45) p-hodn. Toler. 1-toler. R^2 X1 X5 X2 0,652311 0,424084 30,55552 0,000000 0,984948 0,015052 0,338537 0,817147 5,03482 0,010635 0,953070 0,046930 0,303098 0,912692 2,15236 0,128024 0,967370 0,032630 Klasifikační funkce Klasifikační funkce; grupovací : ID2 (dovolena.sta) Proměnná malá p=,24000 střední p=,48000 velká p=,28000 X1 X5 X2 Konstant 0,6401 0,8551 1,1311 0,8991 0,7824 0,9163 2,3409 2,4846 3,1046 -41,3768 -44,8553 -70,5840 Klasifikační matice Klasifikační matice (dovolena.sta) Řádky: pozorované klasifikace Sloupce: předpovězené klasifikace Skup. % správnýc malá p=,24000 střední p=,48000 velká p=,28000 malá střední velká Celkem 75,00000 9 3 0 83,33334 3 20 1 78,57143 0 3 11 80,00000 12 26 12 Úspěšnost klasifikace poklesla z 82 % na 80 %. Výsledky pro krokovou zpětnou metodu Proměnné obsažené v modelu Výsledky diskriminační funkční analýzy (dovolena.sta) krok 4, poč. prom. v modelu: 1; grupovací: ID2 (3 skup) Wilk. lambda: ,36521 přibliž F (2,47)=40,846 p< ,0000 N=50 Wilk. Lambda Parc. Lambda F na vyj (2,47) p-hodn. Toler. 1-toler. R^2 X1 1,000000 0,365211 40,84639 0,000000 1,000000 0,00 Klasifikační funkce Klasifikační funkce; grupovací : ID2 (dovolena.sta) Proměnná malá p=,24000 střední p=,48000 velká p=,28000 X1 Konstant 0,7506 0,9498 1,2413 -15,7327 -23,6411 -40,3976 Klasifikační matice Klasifikační matice (dovolena.sta) Řádky: pozorované klasifikace Sloupce: předpovězené klasifikace Skup. % správnýc malá p=,24000 střední p=,48000 velká p=,28000 malá střední velká Celkem 83,3333 10 2 0 100,0000 0 24 0 78,5714 1 2 11 90,0000 11 28 11 Je-li ke klasifikaci rodin do skupin použita pouze proměnná X1, je úspěšnost klasifikace nejvyšší, a to 90 %. Aplikujeme-li toto klasifikační pravidlo na rodinu s vektorem pozorování (51,8 6 7 4 51)’, dostaneme výsledek 1 X1 2 X2 3 X3 4 X4 5 X5 6 L1 7 L2 8 L3 1 51,8 6 7 4 51 23,14838 25,55854 23,90174