logo-IBA logo-MU © Institut biostatistiky a analýz INVESTICE DO ROZVOJE VZDĚLÁVÁNÍ logo-MU ANALÝZA A KLASIFIKACE DAT prof. Ing. Jiří Holčík, CSc. logo-IBA logo-MU © Institut biostatistiky a analýz V. KLASIFIKACE PODLE MINIMÁLNÍ VZDÁLENOSTI – pokračování — levy-panel-IBA-se-zavojem logo-IBA-transparent logo-MU © Institut biostatistiky a analýz PRAVDĚPODOBNOSTNÍ METRIKY þpoužívají kompletní informaci o struktuře klasifikačních tříd danou pomocí podmíněných hustot pravděpodobnosti p(x|ω1) a p(x|ω2); þmetriky tohoto typu splňují následující podmínky: 1.J = 0, pokud jsou si hustoty pravděpodobnosti rovny, tj. èp(x|ω1) = p(x|ω2); 2.J ³ 0 3.J nabývá maxima, pokud jsou klasifikační třídy disjunktní, tj. p(x|ω1) = 0 a p(x|ω2) ¹ 0 a naopak. levy-panel-IBA-se-zavojem logo-IBA-transparent logo-MU © Institut biostatistiky a analýz PRAVDĚPODOBNOSTNÍ METRIKY þzákladní myšlenka: þklasifikační chyba: þ þ þintegrál v tomto vztahu þ þ þse nazývá Kolmogorovova variační vzdálenost þChyba bude maximální, když integrand bude nulový, tj. když obě váhované funkce hustoty pravděpodobnosti budou totožné. Naopak chyba bude nulová, pokud se obě hustoty nebudou překrývat Þ čím větší vzdálenost mezi třídami, tím je menší chyba klasifikace a naopak. levy-panel-IBA-se-zavojem logo-IBA-transparent logo-MU © Institut biostatistiky a analýz þPodobně jsou definovány další pravděpodobnostní míry vzdálenosti obecně vztahem þ þChceme, aby J(x) byla nezáporná funkce, pro kterou je J(x)=0, když jsou obě hustoty pravděpodobnosti totožné a je maximální, když se obě hustoty nepřekrývají. þ þ PRAVDĚPODOBNOSTNÍ METRIKY levy-panel-IBA-se-zavojem logo-IBA-transparent logo-MU © Institut biostatistiky a analýz þChernoffova vzdálenost þ þBhattacharyyova vzdálenost þ þDivergence þ þ þPatrickova-Fisherova vzdálenost PRAVDĚPODOBNOSTNÍ METRIKY levy-panel-IBA-se-zavojem logo-IBA-transparent logo-MU © Institut biostatistiky a analýz þresp. tzv. zprůměrněné verze, zahrnující i apriorní pravděpodobnost jednotlivých klasifikačních tříd þzprůměrněná Chernoffova vzdálenost þ þzprůměrněná Bhattacharyyova vzdálenost þ þzprůměrněná divergence þ þ þzprůměrněná Patrickova-Fisherova vzdálenost PRAVDĚPODOBNOSTNÍ METRIKY levy-panel-IBA-se-zavojem logo-IBA-transparent logo-MU © Institut biostatistiky a analýz þuvedené výrazy se liší zejména pracností výpočtu a vazbou k hodnotám chybné klasifikace. Tato vazba je vyjádřena hodnotami D(x) a H(x) – dolním a horním odhadem pravděpodobnosti chybného zařazení. þ þ þV případě, že známe dichotomické pravděpodobnostní míry a je třeba řešit problém klasifikace do více tříd, lze definovat kritérium, např. podle vztahu þ PRAVDĚPODOBNOSTNÍ METRIKY levy-panel-IBA-se-zavojem logo-IBA-transparent logo-MU © Institut biostatistiky a analýz þzákladní nevýhodou pravděpodobnostních metrik je požadavek na znalost hustot pravděpodobnosti a jejich integrace (numerické?) þza určitých předpokladů o typu rozložení mohou být tyto vztahy integrovány analyticky PRAVDĚPODOBNOSTNÍ METRIKY levy-panel-IBA-se-zavojem logo-IBA-transparent logo-MU © Institut biostatistiky a analýz þza předpokladu normálního rozložení (μi jsou střední hodnoty a Σi kovarianční matice) þChernoffova vzdálenost þ þ kde Σs = (1-s).Σ1 + s.Σ2 þBhattacharyyova vzdálenost je pro s=0,5 þDivergence þ þ þPatrickova-Fisherova vzdálenost þ PRAVDĚPODOBNOSTNÍ METRIKY levy-panel-IBA-se-zavojem logo-IBA-transparent logo-MU © Institut biostatistiky a analýz þpokud Σ1 = Σ2 = Σ, pak se vztahy pro Bhattacharyyovu a divergenční vzdálenost zjednoduší na þ þ þcož je výraz pro Mahalanobisovu vzdálenost. þ þ PRAVDĚPODOBNOSTNÍ METRIKY levy-panel-IBA-se-zavojem logo-IBA-transparent logo-MU © Institut biostatistiky a analýz þPříprava nových učebních materiálů þoboru Matematická biologie þje podporována projektem ESF þč. CZ.1.07/2.2.00/07.0318 þ„VÍCEOBOROVÁ INOVACE STUDIA MATEMATICKÉ BIOLOGIE“ INVESTICE DO ROZVOJE VZDĚLÁVÁNÍ logo-MU