Domáca úloha č.l k predmetu PV056 Prerekvizity: Nainštalovaný program Weka 3, ktorý si môžete stiahnuť na adrese: http: //www. cs. waikato. ac.nz/ml/weka/ Datasety: Datasety si môžete stiahnuť na adrese: http://archive.ics.uci.edu/ml/datasets.html. Každý z vás má svoju vlastnú sadu datasetov. Pridelené datasety nájdete v tabuľke: uco DATASETY 256699 Breast Cancer Wisconsin (Original) Data Set 374595 Balance Scale Data Set 395607 Blood Transfusion Service Center Data Set 410345 Census Income Data Set 374368 Dermatology Data Set 359305 Echo-cardiogram Data Set 356530 Flags Data Set 359185 Heart Disease Data Set 325154 Hepatitis Data Set 417148 Horse Colic Data Set 395986 Hill-Valley Data Set 106451 Ionosphere Data Set 359747 Internet Advertisements Data Set 396273 Japanese Credit Screening Data Set 395881 Libras Movement Data Set 396477 Lung Cancer Data Set 359789 Mammographie Mass Data Set 72665 Parkinsons Data Set 207622 Soybean (Large) Data Set 359331 SPECT Heart Data Set 256365 Tic-Tac-Toe Endgame Data Set 359226 Wall-Following Robot Navigation Data 359860 Wine Data Set 324751 Wine Quality Data Set 255651 Yeast Data Set 409930 Chess (King-Rook vs. King) Data Set 324709 Pima Indians Diabetes Data Set 113869 Car Evaluation Data Set 255838 Chess (King-Rook vs. King-Pawn) Data Set 333617 Lymphography Data Set 388433 Mushroom Data Set 1 Zadanie: 1. Stiahnite si pridelené datasety. Ak sa tam nachádza viac datasetov, vyberte si jeden lubovolný (nie príliš velký, ani nie malý). Súbory majú obvykle príponu *.names a *.data. Skontrolujte súbor *.data či je vo formáte hodnôt oddelených čiarkou a či má triedu ako poslednú hodnotu. Ak nie, preveďte súbor do tohto formátu. 2. Vytvorte odpovedajúce súbory *.names, tak aby zodpovedali požadovanému formátu C4.5 popísanom nižšie. V stiahnutom súbore *.names môže byt popis jednotlivých parametrov. Ak nie, je potrbné súbor prejst a parametre popísat. Taktiež môžete súbor *.data přeměňovat na *.csv. Na prvý riadok tohto súboru napíšete mená atribútov oddelené čiarkou a importujete ho do Weky. Weka sama zabezpečí koverziu. Skontrolujte, či Weka rozpoznala správne dátové typy. Ak aj budete používat tento typ konverzie, tak aj v tomto prípade sa predpokladá, že odovzdáte súbor *.names. 3. Klasifikáciu datasetu vykonajte s defaultným nastavením parametrov klasifikátora. Na testovanie použite cross-validation (10). 4. Po ukončení výpočtu uložte celý výstup do súboru dataset_algoritmus.log, kde algoritmus G {NB, IB1, IB3, JRip, DS, J48, SMO, PART, M LP}. Do prehíadnej tabulky zapíšte v skratke výsledky. Tabulka by mala mat nasledovný formát: Algoritmu Accuracy Weig. Avg Precision Weig. Avg. Recall Cas výpočtu J48 XX.x XX.x XX.x XX 5. Vytvorte súbor unexpected.txt a zaznamenajte do neho poznámky o netypickom priebehu, ak napríklad algoritmus nedobehne, alebo o prípadných dodatočných úpravách dát (odstránenie ID adtribútu..). 6. Pre najlepší algoritmus ktorý správne klasifikoval najviac inštancií (max accuracy) vyskúšajte aj beh s inými vstupnými parametrami a snažte sa ešte zvýšit accuracy. Všimnite si, ako jednotlivé nastavenia ovplyvňujú výsledok, prípadne dobu výpočtu. Tri najlepšie nastavenia parametrov si zapamätajte a uložte výstup aj s parametrami do súboru: cislo_dataset_algoritmus.log kde cislo označuje poradie. 7. Vypracovanú úlohu (dataset.names, dataset.data, 9x dataset_algoritmus.log, tabulka s výsledkami, unexpected.txt, 3x cislo_dataset_algoritmus.log) odovzdajte do Odevzdávárny zazipované v jednom súbore do 10.4.2012 23:59. 8. Súbory prosím odovzdávajte v plain-texte v kódovaní UTF-8 (Windows defaultne používa cpl250/2) alebo vo formáte PDF. 9. Informácie o splnení úlohy vám zadám do poznámkového bloku. 10. V prípade nesplnenia úlohy vám budem nútený zadat mínusové body, ktoré sa vám odpočítajú od bodov získaných v záverečnej skúške. 11. Ak by ste mali nejaké nejasnosti, alebo by ste si nevedeli rady, napíšte mi stručný e-mail na 173001@mail.muni.cz a do predmetu mailu zadajte aspoň kód predmetu. Všeobecné otázky prosím riešte cez diskusné fórum. 2 Formát C4.5 dataset.data - čo riadok, to záznam. Hodnoty atribútov sú oddelené čiarkou, posledná hodnota je trieda. Záznam nie je ukončený bodkou. Každý atóm (nenumerická hodnota atribútu) musí byt v zozname hodnôt (popise) korešpondujúceho atribútu. Atómy nesmú byt v úvodzovkách, obsahovat medzery ani iné biele znaky. Chýbajúcu hodnotu vyjadruje otáznik. Záznamy s chýbajúcou triedou nie sú povolené. Napr. a2,39,a4,c2 a4,30,al,c2 al,9,a2,cl dataset.names - popis atribútov a ich hodnôt. Prvý riadok obsahuje zoznam možných hodnôt triedy oddelených čiarkou a ukončených bodkou. Tieto musia korespondovat s poslednými hodnotami na riadkoch v súbore dataset.data. Všetky riadky obsahujú popis atribútov v poradí, v akom sa nachádzajú v dataset.data. Chýbajúca hovnota (?) sa do výčtu nezahŕňa. Popis atribútov je nasledujúci: meno_atribútu: [continuous | CSV zoznam hodnôt pri ordinálnom atribúte]. Napr. cl,c2. atl: al,a2,a3,a4. at2: continuous. at3: a0,al,a2,a3,a4. Žiadne komentáre ani prázdne riadky nie sú povolené. Poznámky môžete umiestnit do samostatného súboru dataset.info. dataset.data, dataset.names, dataset.info musia byt umiestnené v tom istom adresári. Pozn. 1: Pri použití automatickej konverzie Weky by príklad vyzeral takto (uložené ako súbor CSV): atl,at2,at3,class a2,39,a4,c2 a4,30,al,c2 al,9,a2,cl Pozn. 2: Ak obsahuje váš dataset stĺpec unikátnych hodnôt (id), odstráňte ho. Algoritmy Klasifikačné algoritmy nájdete vo Weke na záložke classify: • NB - Naive Bayes • IB1 • IB3 - IBk (pre k = 3, nastavit ako parameter KNN) 3 JRip DS - DecisionStump J48 PART SMO MLP - Multilayer Percept: