Weka

                                            Weka - úvod

•         kolekce algoritmů strojového učení pro dolování z dat

•         University of Waikato, Nový Zéland

•         1993 TCL/TK, C, Makefiles

•         1997 rozhodnutí přejít na čistou Javu

•         integrována

–     RapidMiner

–     Petaho (systém business intelligence)

•         GNU General Public License


                                             Ovládání

•         spuštění

     java -Xmx1024m -jar weka.jar

•         grafické rozhraní

–     Explorer – jednotlivé činnosti na kliknutí

–     Experimenter – systematické srovnání

–     Knowledge flow – činnosti jako tok

•         příkazový řádek

•         Java API

                                  Ukázka – grafické rozhraní ...

                                      ... příkazový řádek ...

java –classpath weka.jar

     weka.classifiers.bayes.NaiveBayes

     –t data/iris.arff

                                           ... Java API

                             1. Attribute-Relation File Format (ARFF)

                                       2. Předzpracování dat

                                            Histogramy

užitečný číselný atribut

                                              Filtry

Unsupervised

•         Remove –V –R 1-5,8 (V = inverze, zachovej pouze tyto atributy)

•         Discretize

–      některé algoritmy nepracují s čísly

–      urychlení

–      někdy i zvýšení přesnosti

•         StringToWordVector

Supervised

•         Discretize

•         AddClassification

•         AttributeSelection

Multifilter – aplikuje několik filtrů po sobě

                                        StringToWordVector

                                      Tab Classify - možnosti

•          textový výstup

•          vizualizace klasifikátoru

•          More options – Output predictions

•          parametry klasifikátoru

–      SMO - buildLogisticModels

                                     Tab Classify - algoritmy

•          rules

–      ZeroR

•          bayes

–      NaiveBayes

–      Adaptive One Dependence Estimators (AODE)

•          functions

–      support vector machine: SMO, SMOreg, LibSVM

–      neuronová síť: MultilayerPerceptron

•          trees

–      J48, RandomForest

•          meta

–      boosting, bagging

–      FilteredClassifier, CVParameterSelection, AttributeSelectedClassifier,
CostSensitiveClassifier

                                      Optimalizace parametrů

•          meta.CVParameterSelection –P "C 1 100 20" ...

    Cross-validation Parameter: '-C' ranged from 1.0 to 100.0 with 20.0 steps

    Classifier Options: -C 25.0 ...

                                            Vážení chyb

       TP Rate

   0.81

   0.915


•          meta.CostSensitiveClassifier

   % Rows Columns

   2 2

   % Matrix elements

   0 2

   1 0


•          cena za špatně klasifikovaný P je 2x větší než za N

                                       Tab Select attributes

•          metoda hodnocení podmnožiny atributů

–      CfsSubsetEval – prediktivní schopnost jednotlivých atributů a jejich redundance

–      ClassifierSubsetEval, WrapperSubsetEval

                                               nebo

•          metoda hodnocení jednotlivých atributů

–      ChiSquaredAttributeEval


•          prohledávací metoda

–      ExhaustiveSearch, BestFirst, GeneticSearch


•          validace

–      křížová

–      filtr AttributeSelectedClassifier


                                           Experimenter

                                          Knowledge Flow

                                        Vizualizace hranic


•          jen pro nominální třídu

                                              Zdroje