Weka Weka - úvod • kolekce algoritmů strojového učení pro dolování z dat • University of Waikato, Nový Zéland • 1993 TCL/TK, C, Makefiles • 1997 rozhodnutí přejít na čistou Javu • integrována – RapidMiner – Petaho (systém business intelligence) • GNU General Public License Ovládání • spuštění java -Xmx1024m -jar weka.jar • grafické rozhraní – Explorer – jednotlivé činnosti na kliknutí – Experimenter – systematické srovnání – Knowledge flow – činnosti jako tok • příkazový řádek • Java API Ukázka – grafické rozhraní ... ... příkazový řádek ... java –classpath weka.jar weka.classifiers.bayes.NaiveBayes –t data/iris.arff ... Java API 1. Attribute-Relation File Format (ARFF) 2. Předzpracování dat Histogramy užitečný číselný atribut Filtry Unsupervised • Remove –V –R 1-5,8 (V = inverze, zachovej pouze tyto atributy) • Discretize – některé algoritmy nepracují s čísly – urychlení – někdy i zvýšení přesnosti • StringToWordVector Supervised • Discretize • AddClassification • AttributeSelection Multifilter – aplikuje několik filtrů po sobě StringToWordVector Tab Classify - možnosti • textový výstup • vizualizace klasifikátoru • More options – Output predictions • parametry klasifikátoru – SMO - buildLogisticModels Tab Classify - algoritmy • rules – ZeroR • bayes – NaiveBayes – Adaptive One Dependence Estimators (AODE) • functions – support vector machine: SMO, SMOreg, LibSVM – neuronová síť: MultilayerPerceptron • trees – J48, RandomForest • meta – boosting, bagging – FilteredClassifier, CVParameterSelection, AttributeSelectedClassifier, CostSensitiveClassifier Optimalizace parametrů • meta.CVParameterSelection –P "C 1 100 20" ... Cross-validation Parameter: '-C' ranged from 1.0 to 100.0 with 20.0 steps Classifier Options: -C 25.0 ... Vážení chyb TP Rate 0.81 0.915 • meta.CostSensitiveClassifier % Rows Columns 2 2 % Matrix elements 0 2 1 0 • cena za špatně klasifikovaný P je 2x větší než za N Tab Select attributes • metoda hodnocení podmnožiny atributů – CfsSubsetEval – prediktivní schopnost jednotlivých atributů a jejich redundance – ClassifierSubsetEval, WrapperSubsetEval nebo • metoda hodnocení jednotlivých atributů – ChiSquaredAttributeEval • prohledávací metoda – ExhaustiveSearch, BestFirst, GeneticSearch • validace – křížová – filtr AttributeSelectedClassifier Experimenter Knowledge Flow Vizualizace hranic • jen pro nominální třídu Zdroje