Proximity Tomáš Gregorovič Proximity http: //kd I. cs. u mass. ed u/p roxi m ity ♦ systém pro dobývání znalostí z relačních dat ♦ open-source, Java ♦ vyvíjí laboratoř pro dobývání znalostí na University of Amherst, Massachusetts ♦ správa dat - databázový server MonetDB http://www.monetdb.nl/ ♦ open-source, multiplatformní ♦ vertikální databázový model ♦ relační databáze v podobě sítě ♦ objekty (Objects) ♦ vazby (Links) - orientované spojení mezi dvěma objekty ♦ kontejnery (Containers) - kolekce podgrafů sítě ♦ pro objekty, vazby i kontejnery ♦ umožňují reprezentovat různé typy objektů a odkazů v rámci jedné sítě ♦ typy - celé a desetinné číslo, řetězec, datum ♦ vícehodnotové - pro zaznamenání relačních atributů typu 1:N ♦ grafický dotazovací jazyk, pro přípravu dat pro dolování ♦ označkovaný graf - uzly odpovídají objektům, hrany vazbám 'profile ♦ omezující podmínky, VeBy^ 10country"31.country=2) anotace rw*f frienite = 1 [1..] ♦ výsledkem kontejner podgrafů splňujících dotaz ♦ pravděpodobnostní statistické modely ♦ skripty v Pythonu, Java API Proximity ♦ relační Bayesovský klasifikátor ♦ relační závislostní sítě ♦ relační pravděpodobnostní stromy RPT ♦ pravděpodobnostní rozhodovací strom, klasifikace atributu ♦ nastavení: ♦ soubor instancí pro učení - kontejner podgrafů ♦ soubor instancí pro testování ♦ třídní atribut centrálního objektu podgrafů ♦ zvolení uvažovaných atributů pro učení ♦ maximální hloubka, min. počet podgrafů v uzlu ♦ propozicionalizace relačních dat => vytváření atributových tabulek pomocí agregátových funkcí: ♦ průměr, počet, stupeň, součet 'minimum, maximum, majorita, proporce ♦ výběr atributu a binárního dělení uzlu stromu ♦ podle statistické metriky chi-squared ♦ pro zjištění významnosti dělení - p-hodnota ♦ rozhodovací strom count ([profil e.interests] = 3)> = 1 ■ 3: 7.27 2: 39.24 1: 115.29 0: 1.09 count.distinc tflprofile.in terests])> =4 ■ 3: 51.51 2: 329.46 1: 400.76 0: 1.35 count ([profil e.interests] = 3)> = 1 3: 4.07 3: 123.06 2: 57.49 2: 1500.8 1: 108.77 1: 1197.19 0: 0.22 0: 11.34 ♦ celková úspěšnost (accuracy) ♦ podle experimentálního pozorování ♦ lineární vzhledem k počtu podgrafů ♦ lineární vzhledem k počtu vytvořených atributových tabulek ♦ obvykle pro počet tabulek podle typu atributu platí: obyčejný « vícehodnotový « atribut necentrálního objektu ♦ pouze binární větvení - růst hloubky, roste výpočetní náročnost, klesá přehlednost, těžší hledání zajímavých cest ♦ chybí automatické prořezávání výsledného stromu