Cvičení č. 4.: Lineární diskriminační analýza pro dvě skupiny Příklad: Třídění lebek Tibeťanů (Příklad je převzat z knihy Meloun M., Militký J., Hill, M.: Počítačová analýza vícerozměrných dat v příkladech. Academia Praha 2005) Datový soubor lebky.sta obsahuje údaje o 32 lebkách nalezených na pohřebištích v Tibetu. Sledují se tyto proměnné: ID … identifikátor (1 pro lebky z okolí Sikkimu, 2 pro lebky z okolí Lhasy) Ldelka … největší délka lebky (v mm) Lsirka … největší horizontální šířka lebky (v mm) Lvyska … výška lebky (v mm) Ovyska … výška horní části obličeje (v mm) Osirka … šířka obličeje mezi body lícních kostí (v mm) Úkolem je najít Fisherovu lineární diskriminační funkci, která pomocí proměnných Ldelka až Osirka umožní rozlišit lebky z okolí Sikkimu od lebek z okolí Lhasy. Výsledky (s částečným návodem) Testování hypotézy o normalitě sledovaných proměnných v daných dvou skupinách pomocí Lilieforsovy varianty K-S testu a pomocí S-W testu: Vidíme, že ve 2. skupině zamítá S-W test hypotézu o normalitě proměnné Osirka na hladině významnosti 0,05, Lilieforsův test nikoli. N-P plot pro proměnnou Osirka v 1. a 2. skupině Odhad vektorů středních hodnot v 1. skupině: Krabicové grafy všech proměnných v 1. skupině: Odhad vektorů středních hodnot ve 2. skupině: Krabicové grafy všech proměnných ve 2. skupině: Rozmístění objektů na ploše prvních dvou hlavních komponent: Odhad varianční matice v 1. skupině: Odhad varianční matice ve 2. skupině: Odhad společné varianční matice Boxův test shody variančních matic: Hypotézu o shodě variančních matic nezamítáme na asymptotické hladině významnosti 0,05, protože p-hodnota = 0,242 je větší než 0,05. Test shody vektorů středních hodnot: Statistiky – Základní statistiky/tabulky – t-test, nezávislé, dle skupin – OK – Proměnné – Závisle proměnné Ldelka až Osirka, Grupovací proměnná ID – OK – na záložce Možnosti zaškrtneme Vícerozměrný test – Výpočet Testová statistika se realizuje hodnotou 2,4377, odpovídající p.hodnota je menší než 0,06127, tedy na hladině významnosti 0,056 nezamítáme hypotézu o shodě vektorů středních hodnot. Individuální t-testy však prokázaly, že na hladině významnosti 0,05 se liší střední hodnoty proměnných Ldelka a Ovyska. Stanovení odhadů apriorních pravděpodobností: Stanovení odhadu Fisherovy lineární diskriminační funkce: Statistiky – Vícerozměrné průzkumné techniky – Diskriminační analýza - Proměnné – Grupovací proměnná ID, Seznam nezávislých proměnných Ldelka až Osirka – OK – OK – na záložce Klasifikace zvolíme Klasifikační funkce. Do výstupní tabulky přidáme novou proměnnou, do jejíhož Dlouhého jména napíšeme =v1-v2 Posouzení účinnosti diskriminace resubstituční metodou: Na záložce Klasifikace zvolíme Klasifikační matice. Pro určení chybně zařazených případů zvolíme na záložce Klasifikace možnost Klasifikace případů. Zjistíme, že v 1. skupině došlo k mylnému zařazení u lebek č. 5, 8, 9 a 13, ve 2. skupině u lebek číslo 15, 16, 17. Porovnání s náhodnou klasifikací: Odhad celkové pravděpodobnosti mylné klasifikace je 2p[1](1- p[1]) = = 0,4824. Použitím diskriminační analýzy jsme tedy dosáhli značného zlepšení, pravděpodobnost mylné klasifikace klesla na 0,22.