Bayesův klasifikátor – příklad Bylo provedeno měření objemu hipokampu a amygdaly (v cm^3) u 3 pacientů s Alzheimerovou chorobou ( ) a 3 kontrolních subjektů ( ) (označení D – diseased, H – healthy). Naměřené hodnoty objemu hipokampu a amygdaly u pacientů ( resp. ) a kontrol ( resp. ) byly zaznamenány do matic resp. : Určete, zda testovací subjekt patří do skupiny pacientů či kontrolních subjektů pomocí Bayesova klasifikátoru. Řešení: Nejprve si data znázorníme (Obrázek 1). Obrázek 1. Vizualizace dat pacientů, kontrolních subjektů a testovacího subjektu. Vyjdeme z Bayesova vzorce: , kde je aposteriorní pravděpodobnost, je podmíněná hustota pravděpodobnosti výskytu obrazu ve třídě ; je apriorní pravděpodobnost třídy a je celková hustota pravděpodobnosti rozložení obrazu v celém obrazovém prostoru. Nejprve vypočteme apriorní pravděpodobnosti třídy pacientů a kontrol: a Dále vypočteme vícerozměrné průměry , a kovarianční matice , (předpokládáme, že data mají vícerozměrné normální rozdělení). Vícerozměrné průměry pro třídu pacientů a kontrol: Výběrové kovarianční matice: a . Dílčí výpočty jednotlivých prvků výběrových kovariančních matic: Rozptyl objemu hipokampu u pacientů: Druhý způsob výpočtu: 1 Rozptyl objemu amygdaly u pacientů: Kovariance objemu hipokampu a objemu amygdaly u pacientů: Rozptyl objemu hipokampu u kontrol: Rozptyl objemu amygdaly u kontrol: Kovariance objemu hipokampu a objemu amygdaly u kontrol: Výběrové kovarianční matice: a . Pokud bychom kovarianční matici pacientů chtěli spočítat maticově: Na závěr vypočteme výběrový (Pearsonův) korelační koeficient objemu hipokampu a amygdaly u pacientů ( ) a kontrolních subjektů ( ): Kritérium maximální aposteriorní pravděpodobnosti 1. Klasifikace podle objemu amygdaly: Nejprve si znázorníme objem amygdaly u jednotlivých subjektů (Obrázek 2). Obrázek 2. Vizualizace objemu amygdaly u jednotlivých subjektů. Spočteme aposteriorní pravděpodobnosti a s využitím Bayesova vzorce, tudíž a , a zařadíme testovací subjekt do třídy s větší aposteriorní pravděpodobností. Výpočet , podmíněné hustoty pravděpodobnosti výskytu obrazu ve třídě , a , podmíněné hustoty pravděpodobnosti výskytu obrazu ve třídě (grafické znázornění podmíněných hustot pravděpodobnosti viz Obrázek 3): Výpočet celkové hustoty pravděpodobnosti: Aposteriorní pravděpodobnosti: a (tzn. s pravděpodobností 44,6% bude subjekt zařazen do třídy pacientů a s pravděpodobností 55,4% do třídy kontrolních subjektů). Protože , zařadíme testovací subjekt do třídy kontrolních subjektů. Poznámka: součet aposteriorních pravděpodobností je roven 1. Obrázek 3. Vizualizace hustoty pravděpodobnosti pacientů (znázorněna červeně) a kontrolních subjektů (znázorněna černě). Podmíněné hustoty pravděpodobnosti výskytu testovacího subjektu v jednotlivých třídách jsou znázorněny modře. Je patrné, že subjekt bude zařazen do třídy pacientů. 2. Klasifikace podle objemu hipokampu: Spočteme aposteriorní pravděpodobnosti a s využitím Bayesova vzorce, tudíž a , a zařadíme testovací subjekt do třídy s větší aposteriorní pravděpodobností. Nejprve si znázorníme objem hipokampu u jednotlivých subjektů (Obrázek 4). Obrázek 4. Vizualizace objemu hipokampu u jednotlivých subjektů. Výpočet podmíněné hustoty pravděpodobnosti výskytu obrazu ve třídě : Výpočet podmíněné hustoty pravděpodobnosti výskytu obrazu ve třídě : Grafické znázornění podmíněných hustot pravděpodobnosti je znázorněno na Obrázku 5. Výpočet celkové hustoty pravděpodobnosti: Aposteriorní pravděpodobnosti: a . Protože , nelze jednoznačně určit, do které třídy máme testovací subjekt zařadit. V takovém případě často klasifikační algoritmy náhodně zvolí jednu ze skupin. Obrázek 5. Vizualizace hustoty pravděpodobnosti pacientů (znázorněna červeně) a kontrolních subjektů (znázorněna černě). Podmíněné hustoty pravděpodobnosti výskytu testovacího obrazu v jednotlivých třídách jsou znázorněny modře. Je patrné, že nelze rozhodnout, do jaké třídy máme testovací subjekt zařadit. 3. Klasifikace podle obou proměnných: Spočteme aposteriorní pravděpodobnosti a , přičemž a , a zařadíme testovací subjekt do třídy s větší aposteriorní pravděpodobností. Výpočet podmíněné hustoty pravděpodobnosti výskytu obrazu ve třídě : Výpočet podmíněné hustoty pravděpodobnosti výskytu obrazu ve třídě : Grafické znázornění podmíněných hustot pravděpodobnosti je znázorněno na Obrázku 6. Výpočet celkové hustoty pravděpodobnosti: Aposteriorní pravděpodobnosti: a . Protože , zařadíme testovací subjekt do třídy kontrolních subjektů. Výpočet hranice pomocí diskriminačních funkcí: → kritérium maximální aposteriorní pravděpodobnosti Levá strana je rovna a pravá strana rovna 1. Protože věrohodnostní poměr (na levé straně) je menší než výraz na pravé straně, subjekt zařadíme do třídy kontrolních subjektů. Obrázek 6. Vizualizace hustoty pravděpodobnosti pacientů (znázorněna červenou plochou) a kontrolních subjektů (znázorněna šedou plochou). Podmíněná hustota pravděpodobnosti výskytu testovacího obrazu v jednotlivých třídách je znázorněna žlutě. Je patrné, že subjekt bude zařazen do třídy kontrolních subjektů. Kritérium minimální pravděpodobnosti chybného rozhodnutí Vyjdeme z výpočtu hranice pomocí diskriminačních funkcí (pro hranici je rozdíl diskriminačních funkcí roven 0). Můžeme vykrátit , protože celková hustota pravděpodobnosti je stejná pro obě diskriminační funkce: → kritérium minimální pravděpodobnosti chybného rozhodnutí Výpočet pomocí dosazení do obecného vzorce pro výpočet věrohodnostního poměru, přičemž předpokladem je matice ztrátových funkcí ve tvaru , potom získáváme: → kritérium minimální pravděpodobnosti chybného rozhodnutí Levá strana je rovna a pravá strana rovna . Protože věrohodnostní poměr (na levé straně) je menší než výraz na pravé straně, subjekt zařadíme do třídy kontrolních subjektů. Poznámka: Kdyby byly apriorní pravděpodobnosti jiné (v našem případě by se museli velmi lišit), např. , v takovém případě by byl testovací subjekt zařazen do třídy pacientů. Kritérium minimální střední ztráty Pokud do výpočtu hranice pomocí diskriminačních funkcí zahrneme ztrátové funkce dané maticí ztrátových funkcí , kde je ztráta při klasifikaci kontrolního subjektu jako pacienta a je ztráta při klasifikaci pacienta jako kontrolního subjektu etc. (přičemž vycházíme ze vztahu 2.23 na str. 17 ze skript), získáváme: → kritérium minimální střední ztráty Levá strana je rovna . Pravá strana je při různém nastavení vah rovna: A) (tzn., více penalizuji, pokud je pacient nesprávně zařazen do třídy kontrolních subjektů, než když je kontrolní subjekt nesprávně zařazen do třídy pacientů), pak pravá strana je rovna a subjekt zařadím do třídy kontrolních subjektů. Museli bychom velmi penalizovat nesprávné zařazení pacienta do kontrolních subjektů (např. , aby byl testovaný subjekt vyhodnocen jako pacient. B) (penalizuji shodně nesprávné zařazení do třídy kontrolních subjektů i pacientů – kritérium minimální pravděpodobnosti chybného rozhodnutí), pak pravá strana je rovna a subjekt zařadím do třídy kontrolních subjektů. C) (tzn., více penalizuji, pokud je kontrolní subjekt nesprávně zařazen do třídy pacientů, než když je pacient nesprávně zařazen do třídy kontrolních subjektů), pak pravá strana je rovna a subjekt zařadím do třídy kontrolních subjektů. Kritérium maximální pravděpodobnosti Předpokladem je rovnoměrné zastoupení tříd, tzn. , a nulové ztráty při správném rozhodnutí, tzn. , pak získáváme po dosazení do obecného vzorce pro výpočet věrohodnostního poměru: → kritérium maximální pravděpodobnosti Levá strana je rovna . Pravá strana je při různém nastavení vah rovna: A) (tzn., více penalizuji, pokud je pacient nesprávně zařazen do třídy kontrolních subjektů, než když je kontrolní subjekt nesprávně zařazen do třídy pacientů), pak pravá strana je rovna a subjekt zařadím do třídy kontrolních subjektů. B) (penalizuji shodně nesprávné zařazení do třídy kontrolních subjektů i pacientů), pak pravá strana je rovna a subjekt zařadím do třídy kontrolních subjektů. C) (tzn., více penalizuji, pokud je kontrolní subjekt nesprávně zařazen do třídy pacientů, než když je pacient nesprávně zařazen do třídy kontrolních subjektů), pak pravá strana je rovna a subjekt zařadím do třídy kontrolních subjektů.