Domáca úloha č.l k predmetu PV056
Prerekvizity:
Nainštalovaný program Weka 3, ktorý si môžete stiahnuť na adrese: http: //www. cs. waikato. ac.nz/ml/weka/
Datasety:
Datasety si môžete stiahnuť na adrese: http://archive.ics.uci.edu/ml/datasets.html.
Každý z vás má svoju vlastnú sadu datasetov. Pridelené datasety nájdete v tabuľke:
207622	Internet Advertisements Data Set
211069	Mammographie Mass Data Set
324426	Tic-Tac-Toe Endgame Data Set
324573	Wine Data Set
324751	Parkinsons Data Set
333279	Hepatitis Data Set
356530	Flags Data Set
357886	Ionosphere Data Set
359305	Echo-cardiogram Data Set
359441	SPECT Heart Data Set
359721	Libras Movement Data Set
359789	Hill-Valley Data Set
359940	Heart Disease Data Set
373924	Lung Cancer Data Set
374346	Balance Scale Data Set
374454	Chess (King-Rook vs. King) Data Set
374513	Wall-Following Robot Navigation Data
374595	Breast Cancer Wisconsin (Original) Data Set
396136	Census Income Data Set
409040	Yeast Data Set
409717	Soybean (Large) Data Set
410034	Dermatology Data Set
410345	Blood Transfusion Service Center Data Set
410446	Japanese Credit Screening Data Set
418142	Horse Colic Data Set
432053	Wine Quality Data Set
Zadanie:
• Stiahnite si pridelené datasety. Ak sa tam nachádza viac datasetov, vyberte si jeden ľubovolný (nie príliš veľký, ani nie malý). Súbory majú obvykle príponu *.names a *.data. Skontrolujte súbor *.data či je vo formáte hodnôt oddelených čiarkou a či má triedu ako poslednú hodnotu. Ak nie, preveďte súbor do tohto formátu.
• Vytvorte odpovedajúce súbory *.names, tak aby zodpovedali požadovanému formátu C4.5 popísanom nižšie. V stiahnutom súbore *.names môže byť popis jednotlivých parametrov. Ak nie, je potrbné súbor prejsť a parametre popísať. Taktiež môžete súbor
1
*.data premenovať na *.csv. Na prvý riadok tohto súboru napíšete mená atribútov oddelené čiarkou a importujete ho do Weky. Weka sama zabezpečí koverziu. Skontrolujte, či Weka rozpoznala správne dátové typy. Ak aj budete používat tento typ konverzie, tak aj v tomto prípade sa predpokladá, že odovzdáte súbor *.names.
• Klasifikáciu datasetu vykonajte s defaultným nastavením parametrov klasiŕikátora. Na testovanie použite cross-validation (10).
• Po ukončení výpočtu uložte celý výstup do súboru dataset_algoritmus.log, kde algoritmus G G NB, IB1, IB3, JRip, DS, J48, SMO, PART, MLP. Do prehľadnej tabuľky zapíšte v skratke výsledky. Tabuľka by mala mať nasledovný formát:
Algoritmu   Accuracy   Weig. Avg Precision   Weig. Avg. Recall   Cas výpočtu J48 XX.x        XX.x XX.x XX
• Vytvorte súbor unexpected.txt a zaznamenajte do neho poznámky o netypickom priebehu, ak napríklad algoritmus nedobehne, alebo o prípadných dodatočných úpravách dát (odstránenie ID adtribútu..).
• Pre najlepší algoritmus ktorý správne klasifikoval najviac inštancií (max accuracy) vyskúšajte aj beh s inými vstupnými parametrami a snažte sa ešte zvýšit accuracy. Všimnite si, ako jednotlivé nastavenia ovplyvňujú výsledok, prípadne dobu výpočtu. Tri najlepšie nastavenia parametrov si zapamätajte a uložte výstup aj s parametrami do súboru: cislo_dataset_algoritmus.log kde číslo označuje poradie.
• Vypracovanú úlohu (dataset.names, dataset.data, 9x dataset_algoritmus.log, tabulka s výsledkami, unexpected.txt, 3x cislo_dataset_algoritmus.log) odovzdajte do Odevzdávárny zazipované v jednom súbore do 16.5.2012 13:00.
• Súbory prosím odovzdávajte v plain-texte v kódovaní UTF-8 (Windows defaultne používa cpl250/2) alebo vo formáte PDF.
• Informácie o splnení úlohy vám zadám do poznámkového bloku.
• V prípade nesplnenia úlohy vám budem nútený zadat mínusové body, ktoré sa vám odpočítajú od bodov získaných v záverečnej skúške.
• Ak by ste mali nejaké nejasnosti, alebo by ste si nevedeli rady, napíšte mi stručný e-mail na 173001@mail.muni.cz a do predmetu mailu zadajte aspoň kód predmetu. Všeobecné otázky prosím riešte cez diskusné fórum.
Formát C4.5
dataset.data - čo riadok, to záznam. Hodnoty atribútov sú oddelené čiarkou, posledná hodnota je trieda. Záznam nie je ukončený bodkou. Každý atóm (nenumerická hodnota atribútu) musí byť v zozname hodnôt (popise) korešpondujúceho atribútu. Atómy nesmú byť v úvodzovkách, obsahovať medzery ani iné biele znaky. Chýbajúcu hodnotu vyjadruje otáznik. Záznamy s chýbajúcou triedou nie sú povolené. Napr. a2,39,a4,c2 a4,30,al,c2 al,9,a2,cl
dataset.names - popis atribútov a ich hodnôt. Prvý riadok obsahuje zoznam možných hodnôt triedy oddelených čiarkou a ukončených bodkou. Tieto musia korespondovat s poslednými hodnotami na riadkoch v súbore dataset.data. Všetky riadky obsahujú popis atribútov
2
v poradí, v akom sa nachádzajú v dataset.data. Chýbajúca hovnota (?) sa do výčtu nezahŕňa. Popis atribútov je nasledujúci: meno_atribútu: [continuous — CSV zoznam hodnôt pri ordinálnom atribúte].
Napr. cl,c2. atl: al,a2,a3,a4. at2: continuous. at3: a0,al,a2,a3,a4.
Žiadne komentáre ani prázdne riadky nie sú povolené. Poznámky môžete umiestnit do samostatného súboru dataset.info.
dataset.data, dataset.names, dataset.info musia byt umiestnené v tom istom adresári. Pozn. 1: Pri použití automatickej konverzie Weky by príklad vyzeral takto (uložené ako súbor CSV):
atl,at2,at3,class a2,39,a4,c2 a4,30,al,c2 al,9,a2,cl
Pozn. 2: Ak obsahuje váš dataset stĺpec unikátnych hodnôt (id), odstráňte ho. Algoritmy
Klasifikačné algoritmy nájdete vo Weke na záložke classify:
• NB - Naive Bayes
• IB1
• IB3 - IBk (pre k = 3, nastavit ako parameter KNN)
• JRip
• D S - DecisionStump
• J48
• PART
• SMO
• MLP - Multilayer Perceptron
3