Zaraďovacie kritéria Hodnotenie úspešnosti kritérií Spracovanie a hľadanie klasifikačného kritéria Analýza a klasifikace dat Bayesov klasifikátor Institut biostatistiky a analýz Masarykova univerzita 7. října 2012 Analýza a klasifikace dat Zaraďovacie kritéria Hodnotenie úspešnosti kritérií Spracovanie a hľadanie klasifikačného kritéria Bayesov vzorec Bayesov vzorec P(ωi |x) = p(x|ωi)P(ωi) p(x) = fi(x)πi k j=1 fj(x)πj skupiny ω1, ω2, . . . , ωk πi - apriórna pravdepodobnosť skupiny ωi fi - hustota skupiny ωi Kritéria klasifikácie minimalizovať očakávanú cenu za chybnú klasifikáciu (minimalizovať strednú stratu) minimalizovať celkovú pravdepodobnosť chybného zaradenia maximalizovať aposteriórne pravdepodobnosti maximalizovať pravdepodobnosti Analýza a klasifikace dat Zaraďovacie kritéria Hodnotenie úspešnosti kritérií Spracovanie a hľadanie klasifikačného kritéria Minimalizovanie strednej straty Označme Ri ako množinu tých výsledkov, ktoré zaradíme do skupiny ωi Označme c(ωi |ωj ) ako cenu, ktorú zaplatíme, keď prvok zo skupiny ωj nesprávne zaradíme do skupiny ωi , c(ωi |ωi ) = 0 Podmienené očakávanie ceny za chybné zaradenie pre skupinu ωi ECM(i) = k j=1 c(ωj |ωi )P(X ∈ Rj |X ∈ ωi ) Očakávaná cena chybného zaradenia je ECM = k i=1 πi ECM(i) = k i=1 πi ( k j=1 c(ωj |ωi )P(X ∈ Rj |X ∈ ωi )) Analýza a klasifikace dat Zaraďovacie kritéria Hodnotenie úspešnosti kritérií Spracovanie a hľadanie klasifikačného kritéria Minimalizovanie strednej straty Zaraďovacie pravidlo x0 zaradíme do skupiny ωi , i = 1, 2, . . . , k, pre ktorú bude mať funkcia gi (x0) najmenšiu hodnotu gi (x0) = k j=1 πj c(ωi |ωj )fj (x0) Analýza a klasifikace dat Zaraďovacie kritéria Hodnotenie úspešnosti kritérií Spracovanie a hľadanie klasifikačného kritéria Minimalizovanie celkovej pravdepodobnosti chybného zaradenia V tomto prípade berieme cenu za chybné zaradenie rovnakú pre všetky skupiny, c(ω2|ω1) = c(ω3|ω1) = · · · = c(ωk−1|ωk) = 1 Ale c(ωi |ωi ) = 0 Zaraďovacie pravidlo x0 zaradíme do skupiny ωi , i = 1, 2, . . . , k, pre ktorú bude mať funkcia gi (x0) najmenšiu hodnotu gi (x0) = k j=1,j=i πj fj (x0) Analýza a klasifikace dat Zaraďovacie kritéria Hodnotenie úspešnosti kritérií Spracovanie a hľadanie klasifikačného kritéria Maximalizovanie aposteriórnych pravdepodobností Zaraďovacie pravidlo x0 zaradíme do skupiny ωi , i = 1, 2, . . . , k, pre ktorú bude mať funkcia gi (x0) najväčšiu hodnotu gi (x0) = fi (x0) Analýza a klasifikace dat Zaraďovacie kritéria Hodnotenie úspešnosti kritérií Spracovanie a hľadanie klasifikačného kritéria Maximalizovanie pravdepodobnosti Nepoznáme apriórne pravdepodobnosti, preto ich zvolíme rovnaké πi = 1 k Ďalší výpočet je rovnaký ako pre minimalizovanie strednej straty Analýza a klasifikace dat Zaraďovacie kritéria Hodnotenie úspešnosti kritérií Spracovanie a hľadanie klasifikačného kritéria Hodnotenie úspešnosti klasifikácie Keby sme prvok zaraďovali náhodne len na základe apriórnych pravdepodobností, celková pravdepodobnosť mylnej klasifikácie by bola p = k i=1 πi (1 − πi ) pre k = 2 je p = 0, 5, pre k = 3 je p = 0, 67 Využitie informácie obsiahnutej v dátach a použitie vhodného zaraďovacieho kritéria by malo túto pravdepodobnosť chybného zaradenia podstate znížiť Pravdepodobnosť chybnej klasifikácie je preto užitočnou informáciou o kvalite zaraďovacieho kritéria Analýza a klasifikace dat Zaraďovacie kritéria Hodnotenie úspešnosti kritérií Spracovanie a hľadanie klasifikačného kritéria Resubstitúcia Najjednoduchší odhad chybnej klasifikácie Zaraďovanie kritéria použijeme na dáta, z ktorých sme ich získali Vedie k podhodnoteniu odhadovaných pravdepodobností Ak kritérium nedosahuje dobré výsledky na dátach, z ktorých bolo odvodené, môžeme očakávať, že u nových dát bude pracovať ešte horšie Analýza a klasifikace dat Zaraďovacie kritéria Hodnotenie úspešnosti kritérií Spracovanie a hľadanie klasifikačného kritéria Cross-validation Rozdelenie súboru na dve skupiny použitím dát jednej skupiny určíme zaraďovacie kritéria dáta druhej skupiny klasifikujeme pomocou týchto odvodených kritérií a porovnáme so skutočným zaradením do jednotlivých skupín Dostaneme nestranný odhad pravdepodobnosti mylnej klasifikácie Nevýhodou je, že množstvo dát, ktoré máme k dispozícii musí byť dostatočne veľké, lebo časť z neho nepoužijeme na určenie klasifikačného kritéria Takto odhadnuté kritéria budú horšie, ako keby sme na ich určenie použili celý súbor dát Analýza a klasifikace dat Zaraďovacie kritéria Hodnotenie úspešnosti kritérií Spracovanie a hľadanie klasifikačného kritéria Krížové overovanie: "Jackknife procedure" Kritérium je odhadnuté na základe údajov o všetkých prvkoch okrem i-tého, i = 1, 2, . . . , n Následne je i-tý prvok zaradený pomocou tohto kritéria a toto zaradenie je porovnané so skutočným Odhad je takmer nestranný Analýza a klasifikace dat Zaraďovacie kritéria Hodnotenie úspešnosti kritérií Spracovanie a hľadanie klasifikačného kritéria Pravdepodobnosť chybnej klasifikácie Pravdepodobnosť chybnej klasifikácie odhadujeme ako pomer chybne zaradených prvkov ku celkovému počtu prvkov p = n i=1 n ˆi=1 niˆi n , i = ˆi Konfusná matica matica typu kxk na diagonále má správne zaradené prvky, mimo nesprávne zaradené s ohľadom na klasifikáciu Analýza a klasifikace dat Zaraďovacie kritéria Hodnotenie úspešnosti kritérií Spracovanie a hľadanie klasifikačného kritéria Upravenie súboru, odstránenie rušenia,... Grafické zobrazenie dát Určenie rozloženia pravdepodobnosti jednotlivých skupín, testy dobrej zhody pre jednotlivé rozloženia Určenie parametrov rozložení a mnohorozmerného rozloženia pre jednotlivé skupiny Výber vhodného klasifikačného kritéria Úspešnosť klasifikácie Porovnanie s iným možným použiteľným klasifikačným kritériom Analýza a klasifikace dat