INTERPRETACE
ODLEHLÝCH BODŮ
LEONA NEZVALOVÁ
JAK INTERPRETOVAT ODLEHLÉ BODY
DVĚ JEDNODIMENZIONÁLNÍ INTERPRETACE
instance kladení
vajec
zuby třída
lev ne ano savec
antilopa ne ano savec
delfín ne ano savec
sviňucha ne ano savec
ptakopysk ano ne savec
včela ano ne hmyz
moucha ano ne hmyz
vosa ano ne hmyz
JEDNA DVOUDIMENZIONÁLNÍ INTERPRETACE
zvíře srst žije ve
vodě
třída
lev ano ne savec
antilopa ano ne savec
delfín ne ano savec
sviňucha ne ano savec
sphynx ne ne savec
včela ne ne hmyz
moucha ne ne hmyz
vosa ne ne hmyz
RF-OEX (RANDOM FOREST-OUTLIER
EXPLANATION)
•Rozšiřuje systém weka-peka1 => pracuje s klasikovanými daty
•2 metody interpretace
• metoda založená na prořezávání náhodných stromů
• metoda založená na častých vzorech
•Výsledná interpretace ve tvaru disjunktivní normální formy
•Každé konjunkci atributů interpretující odlehlost bodu je přiřazena váha, s jakou tyto atributy
přispívají do celkové interpretace
1. PEKARČÍKOVÁ, Z. Detekce odlehlých bodů v klasifikovaných datech. Diplomová práce FI MU, 2013.
RF-OEX
•Metody pracují s množinou těch stromů, které
klasifikovaly zkoumaný bod do jiné třídy, než
kterou je bod popsán
•Každý takový strom musí obsahovat alespoň v
jednom uzlu atribut, který dělá zkoumaný bod
více podobný instancím z jiné třídy
•Otázka: které uzly to jsou?
Instance rejnoka
INTERPRETACE PROŘEZÁVÁNÍM NÁHODNÝCH
STROMŮ
1. Nahrazení původních tříd dvěma novými
• N označuje třídu, kterou je bod popsán
• O označuje všechny třídy ostatní
2. Odstranění irelevantních podstromů
3. Zkoumání vlivu na klasifikaci při postupné změně atributů v uzlech, kterými klasifikace
prochází
INTERPRETACE PROŘEZÁVÁNÍM
NÁHODNÝCH STROMŮ
•Klasifikací zkoumaného bodu na uprveném stromě získáme množinu atributů, jejich operátorů a
hodnot
•Konjunkce prvků této množiny je součástí interpretace zkoumaného budu
•Váha, s jakou konjuknce do celkové interpretace přispívá, je dána četností jejího výskytu ve všech
upravených stromech
NUMERICKÉ ATRIBUTY
•Zatímco nominální atribut je vždy s hodnotou svázán operátorem ’=’, hodnota takového atributu
v interpretaci nabývá vždy hodnoty, která je dána zkoumanou instancí
•Dělení uzlu s numerickým atributem att a hodnotou y generuje vždy dvě větve :
• větev pro hodnoty atributu att < y
• Větev pro hodnoty atributu att ≥ y
•Hodnota numerického atributu v interpretační konjuknci je tvořena z průměru hodnot tohoto
atributu, které se vyskytovali ve stromech obsahující danou interpretaci a daný operátor
INTERPRETACE NA ZÁKLADĚ HLEDÁNÍ
ČASTÝCH VZORŮ
•Pokud by stromy byly generovány náhodně, nalezené časté konjuknce atributů ve stromech
bychom mohli považovat za výslednou interpretaci
•Při stavbě stromů v systému weka-peka je však zohledněn informační zisk atributu, čím vyšší
infromační zisk, tím pravděpodobněji bude atribut do uzlu stromu vybrán
•Ve stromech, se kterými metody RF-OEX pracují, se opakovaně vyskytují ty atributy, které mají
vysoký informační zisk
•Otázka: Které nalezené konjuknce atributů jsou opravdu součástí interpretace?
INTERPRETACE NA ZÁKLADĚ HLEDÁNÍ
ČASTÝCH VZORŮ
• Relevantní konjunkce atributů zjistíme znovuvyhodnocením faktoru odlehlosti na instancích
popsaných pouze zkoumanými atributy
• Výsledky ze všech častých vzorů standardizujeme a porovnáme
• Faktor odlehlosti zjišťovaný na libovolné množině atributů je zpravidla větší nebo roven faktoru
odlehlosti zjišťovanému na libovolné menší podmnožině těchto atributů
• Příklad: Faktor odlehlosti instance rejnoka na atributu jed je 7,21. Na atributech jed a páteř je 7,47.
• Váha interpretace je měřena jako rozdíl faktoru odlehlosti na dané množině atributů a faktoru
odlehlosti na takové podmnožině těcho atributů, která dosahuje maximálního faktoru odlehlosti
ze všech podmnožin menších o jeden prvek.
• Příklad – pokračování: doplňme že faktor odlehlosti rejnoka na atributu páteř je 1,04.
Protože 7,21 > 1,04, váha interpretace (jed ∧ páteř) je 7,47 – 7,21 = 0,26. Můžeme říci že rejnoka
interpretuje samostatný atribut jed. Kombinace (jed ∧ páteř) má pro interpretaci minimální význam.
instance metoda proř. stromů metoda častých vzorů ILP2
ptakopysk (savec)
vejce = ano (0,59)
zuby = ne (0,41)
vejce = ano (0,46)
zuby = ne (0,54)
vejce = ano
rejnok (ryba) jedovatý = ano (0,97) jedovatý = ano (0,66) -----------------
škorpión (bezobratlý) vzduch = ano (0,29) vzduch = ano (0,27)
ocas = ano (0,32)
-----------------
želva (plaz) zuby = ne (0,79) zuby = ne (0,22)
páteř = ano (0,23)
-----------------
mořský had (plaz) vodní = ano (0,38)
vzduch = ne (0,35)
vodní = ano (0,36)
-----------------
slimák (bezobratlý) predátor = ne (0,4)
vzduch = ano (0,33)
predátor = ne (0,27)
vzduch = ano (0,39)
-----------------
...
čolek (obojživelník) ocas = ano (0,99) ocas = ano (0,21) ocas = ano
slunéčko sedmitečné
(hmyz)
predátor = ano (0,62)
srst = ne (0,28)
predátor = true (0,58) predátor = ano
VÝSLEDKY - ZOO
2. BLAHUT, V. Detekce odlehlých bodů a jejich vysvětlení. Bakalářská práce FI MU, 2015.
instance metoda proř. stromů metoda častých vzorů metoda mělkých
stromů3
270 p1 = ne (0,88) p1 = ne (1) p1 = ne (0,95)
396 ---------||--------- ---------||--------- ---------||--------
389
p8 = ne ∧ p16 = ne ∧ p17 = ne (0,26)
p8 = ne (0,24)
p8 = ne ∧ p17 = ne (0,2)
p8 = ne (0,39) p1 = ne (1)
187 p14 = ano (0,91) p14 = ano (0,54)
p14 = ano ∧ p18 = ne ∧ p17 = ne (0,24)
p14 = ano ∧ p18 = ne ∧ p16 = ne (0,22)
p14 = ano (1)
236 p14 = ano (0,91) p14 = ano (0,54)
p14 = ano ∧ p18 = ne ∧ p17 = ne (0,24)
p14 = ano ∧ p18 = ne ∧ p16 = ne (0,22)
p14 = ano (1)
438 p8 = ne ∧ p17 = ne (0,31)
p1 = ano ∧ p8 = ne ∧ p17 = ne (0,2)
p8 = ne (0,48) p16 = ano (1)
82 p2 = ano (0,76) p2 = ano (1)
VÝSLEDKY – REZOLUČNÍ STROMY
3. KOPP, M. – PEVNÝ, T. – HOLEŇA, M. Interpreting and Clustering Outliers with Sapling Random Forests. In ITAT 2014. Information Technologies –
aaApplications and Theory, s. 61 – 67, Prague, 2014. Institutue of Computer Science AS CR.
RF-OEX: SROVNÁNÍ
INTERPRETACE PROŘEZÁVÁNÍM NÁHODNÝCH
STROMŮ
+ rychlost
+ minimálnost
+ podrobnější informace o numerických
a atributech
- interpretace nemusí být úplná
INTERPRETACE NA ZÁKLADĚ HLEDÁNÍ
ČASTÝCH VZORŮ
+ úplnost
- časová náročnost
- interprtace může obsahovat irelevantní a a a
a atributy