Domáca úloha č.l k predmetu PV056
Prerekvizity:
Nainštalovaný program Weka 3, ktorý si môžete stiahnuť na adrese: http: //www. cs. waikato. ac.nz/ml/weka/
Datasety:
Datasety si môžete stiahnuť na adrese: http://archive.ics.uci.edu/ml/datasets.html.
Každý z vás má svoju vlastnú sadu datasetov. Pridelené datasety nájdete v tabuľke:
uco	DATASETY
256699	Breast Cancer Wisconsin (Original) Data Set
374595	Balance Scale Data Set
395607	Blood Transfusion Service Center Data Set
410345	Census Income Data Set
374368	Dermatology Data Set
359305	Echo-cardiogram Data Set
356530	Flags Data Set
359185	Heart Disease Data Set
325154	Hepatitis Data Set
417148	Horse Colic Data Set
395986	Hill-Valley Data Set
106451	Ionosphere Data Set
359747	Internet Advertisements Data Set
396273	Japanese Credit Screening Data Set
395881	Libras Movement Data Set
396477	Lung Cancer Data Set
359789	Mammographie Mass Data Set
72665	Parkinsons Data Set
207622	Soybean (Large) Data Set
359331	SPECT Heart Data Set
256365	Tic-Tac-Toe Endgame Data Set
359226	Wall-Following Robot Navigation Data
359860	Wine Data Set
324751	Wine Quality Data Set
255651	Yeast Data Set
409930	Chess (King-Rook vs. King) Data Set
324709	Pima Indians Diabetes Data Set
113869	Car Evaluation Data Set
255838	Chess (King-Rook vs. King-Pawn) Data Set
333617	Lymphography Data Set
388433	Mushroom Data Set
1
Zadanie:
1. Stiahnite si pridelené datasety. Ak sa tam nachádza viac datasetov, vyberte si jeden lubovolný (nie príliš velký, ani nie malý). Súbory majú obvykle príponu *.names a *.data. Skontrolujte súbor *.data či je vo formáte hodnôt oddelených čiarkou a či má triedu ako poslednú hodnotu. Ak nie, preveďte súbor do tohto formátu.
2. Vytvorte odpovedajúce súbory *.names, tak aby zodpovedali požadovanému formátu C4.5 popísanom nižšie. V stiahnutom súbore *.names môže byt popis jednotlivých parametrov. Ak nie, je potrbné súbor prejst a parametre popísat. Taktiež môžete súbor *.data přeměňovat na *.csv. Na prvý riadok tohto súboru napíšete mená atribútov oddelené čiarkou a importujete ho do Weky. Weka sama zabezpečí koverziu. Skontrolujte, či Weka rozpoznala správne dátové typy. Ak aj budete používat tento typ konverzie, tak aj v tomto prípade sa predpokladá, že odovzdáte súbor *.names.
3. Klasifikáciu datasetu vykonajte s defaultným nastavením parametrov klasifikátora. Na testovanie použite cross-validation (10).
4. Po ukončení výpočtu uložte celý výstup do súboru dataset_algoritmus.log, kde algoritmus G {NB, IB1, IB3, JRip, DS, J48, SMO, PART, M LP}. Do prehíadnej tabulky zapíšte v skratke výsledky. Tabulka by mala mat nasledovný formát:
Algoritmu	Accuracy	Weig. Avg Precision	Weig. Avg. Recall	Cas výpočtu
J48	XX.x	XX.x	XX.x	XX
5. Vytvorte súbor unexpected.txt a zaznamenajte do neho poznámky o netypickom priebehu, ak napríklad algoritmus nedobehne, alebo o prípadných dodatočných úpravách dát (odstránenie ID adtribútu..).
6. Pre najlepší algoritmus ktorý správne klasifikoval najviac inštancií (max accuracy) vyskúšajte aj beh s inými vstupnými parametrami a snažte sa ešte zvýšit accuracy. Všimnite si, ako jednotlivé nastavenia ovplyvňujú výsledok, prípadne dobu výpočtu. Tri najlepšie nastavenia parametrov si zapamätajte a uložte výstup aj s parametrami do súboru: cislo_dataset_algoritmus.log kde cislo označuje poradie.
7. Vypracovanú úlohu (dataset.names, dataset.data, 9x dataset_algoritmus.log, tabulka s výsledkami, unexpected.txt, 3x cislo_dataset_algoritmus.log) odovzdajte do Odevzdávárny zazipované v jednom súbore do 10.4.2012 23:59.
8. Súbory prosím odovzdávajte v plain-texte v kódovaní UTF-8 (Windows defaultne používa cpl250/2) alebo vo formáte PDF.
9. Informácie o splnení úlohy vám zadám do poznámkového bloku.
10. V prípade nesplnenia úlohy vám budem nútený zadat mínusové body, ktoré sa vám odpočítajú od bodov získaných v záverečnej skúške.
11. Ak by ste mali nejaké nejasnosti, alebo by ste si nevedeli rady, napíšte mi stručný e-mail na 173001@mail.muni.cz a do predmetu mailu zadajte aspoň kód predmetu. Všeobecné otázky prosím riešte cez diskusné fórum.
2
Formát C4.5
dataset.data - čo riadok, to záznam. Hodnoty atribútov sú oddelené čiarkou, posledná hodnota je trieda. Záznam nie je ukončený bodkou. Každý atóm (nenumerická hodnota atribútu) musí byt v zozname hodnôt (popise) korešpondujúceho atribútu. Atómy nesmú byt v úvodzovkách, obsahovat medzery ani iné biele znaky. Chýbajúcu hodnotu vyjadruje otáznik. Záznamy s chýbajúcou triedou nie sú povolené.
Napr.
a2,39,a4,c2 a4,30,al,c2 al,9,a2,cl
dataset.names - popis atribútov a ich hodnôt. Prvý riadok obsahuje zoznam možných hodnôt triedy oddelených čiarkou a ukončených bodkou. Tieto musia korespondovat s poslednými hodnotami na riadkoch v súbore dataset.data. Všetky riadky obsahujú popis atribútov v poradí, v akom sa nachádzajú v dataset.data. Chýbajúca hovnota (?) sa do výčtu nezahŕňa. Popis atribútov je nasledujúci:
meno_atribútu: [continuous | CSV zoznam hodnôt pri ordinálnom atribúte].
Napr.
cl,c2.
atl: al,a2,a3,a4. at2: continuous. at3: a0,al,a2,a3,a4.
Žiadne komentáre ani prázdne riadky nie sú povolené. Poznámky môžete umiestnit do samostatného súboru dataset.info.
dataset.data, dataset.names, dataset.info musia byt umiestnené v tom istom adresári. Pozn. 1: Pri použití automatickej konverzie Weky by príklad vyzeral takto (uložené ako súbor CSV):
atl,at2,at3,class a2,39,a4,c2 a4,30,al,c2 al,9,a2,cl
Pozn. 2: Ak obsahuje váš dataset stĺpec unikátnych hodnôt (id), odstráňte ho. Algoritmy
Klasifikačné algoritmy nájdete vo Weke na záložke classify:
• NB - Naive Bayes
• IB1
• IB3 - IBk (pre k = 3, nastavit ako parameter KNN)
3
JRip
DS - DecisionStump
J48
PART
SMO
MLP - Multilayer Percept: