Domácí úkol č. 1 do předmětu PV056 Prerekvizity: Nainstalovaný program WEKA 3, lze stáhnout na adrese http://www.cs.waikato.ac.nz/ml/weka/ Datasety: Datasety ke stahnutí na http://archive.ics.uci.edu/ml/datasets.html. Datasety oznaCene hvezdiCkou jsou v archivu metal-data.tar ve studijních materiýlech https://is.muni.cz/auth/el/1433/jaro2011/PV056/?fakulta=1433;obdobi=5105;predmet=585450 Kazdý student mý jinou sadu datasetu viz tabulka. UCO DATASETY 255496 Abalone, ann* 374580 Post-Operative Patient, adult* 356530 Balance Scale, allbp* 325073 Teaching Assistant Evaluation, australian* 269281 Car Evaluation, diabetes* 255821 Chess (King-Rook vs. King-Pawn), fluid* 374386 Chess (King-Rook vs. King), german_cont* 208013 SpamBase, german_f* 256726 Contraceptive Method Choice, german_n* 359312 Cylinder Bands, Statlog Project (Heart) 255756 Dermatology, segment* 255658 Echocardiogram (vymazat sloupec name), Wine (1. atribut class label) 324899 Glass Identification, letter* 172564 Zoo, yeast* 374160 Congressional Voting Records(class label je 1. atribut), optical* 348646 Ionosphere, Connectionist Bench (Sonar, Mines vs. Rocks, all data) 173390 Soybean (Small), page* 374370 Mammographic Mass, pendigits* 324545 Poker Hand (pracovat pouze s trenovacimi daty), vaw40* 143357 Lung Cancer (atribut 1 je class label), vehicle* 256368 MAGIC Gamma Telescope, quisclas* 325001 Nursery, Blood Transfusion Service Center, vowel* 389924 Libras Movement (movement libras.data), satimages* 359500 Acute Inflammations, vaw21* Zadání: 1. Stáhněte si přidělené datasety. Mají obvykle dva soubory *.names a *.data. Soubory *.data zkontrolujte, zda jsou ve formátu hodnot oddelených Carkou a třídu mají jako 1 poslední hodnotu, popř. je do něj převedte. 2. Vytvořte odpovídající soubory *.names, aby odpovídaly požadovanemu formátu C4.5 popsanemu dale. Ve staženem souboru *.names muže být popis jednotlivých pařametřU, v opaCnem případe je potřeba souboř přojít a pařametřy popsat. Je možne take impoř-tovat souboř *.data jako *.csv do WEKY, kde na první řadek napísete jmena atřibutu oddelení Cařkou, poslední jmeno bude třída. WEKA provede konveřži. Zkontřolujte, žda datove typy jsou spřívne řožpožnane. I v tomto případe se oCekíva odevždaní soubořu *.names. 3. U každeho datasetu proveclte klasifikaci s defaultním nastavením pařametřu, použijte cřoss-validation (10). 4. Po dobehnutí algoritmu uložte cely vístup do soubořu dataset_algoritmus.log, kde al-gořitmus G {NB,IB1,IB3, JRip,DS, J48,SMO,PART,MLP} Povsimete si celkove spřavnosti (accuřacy, pocet spřavne klasifikovanych příkladu) a casu potřebneho přo sestavení modelu. Vytvořte souboř řesults.txt, tam žažnamenejte požnamky o netypickem přubehu, např. pokud algořitmus nedobehne a o případních dodatecních ípřavach dat, jako vymažaní sloupce id... 5. U algoritmu s nejvyssí celkovou spřívností (accuřacy), při více stejních vybeřte ten s nejnidždsím dcasem (je-li i dcas stejnyí, vybeřte si) a žkuste nastavit jiníe vstupní pařametřy. Sledujte tendence vyvoje celkove spřavnosti. Naležnete nejlepsí nastavení pařametřu. Zažnamenejte postup a kombinace pařametřu do soubořu řesults. Uložte celí vístup WEKY do soubořu cislo_dataset_algoritmus.log přo přvní tři nejlepsí vísledky, kde cislo ožnadcuje podřadí. 6. Vypřacovaní domací íkol (logy, řesults.txt) uložte do odevždavařny vcetne soubořu s koncovkou .names (tech, kteře jste sami vytvořili) do adřesaře se svím jmenem do 7.4.2011. 7. Infořmace o splnení se objeví v požnamkovem bloku. 8. Konkřetní dotažy řeste střucním mailem na 208230@mail.muni.cž, do předmetu napiste minimalne kíd PV056. Případne nejasnosti obecneho řažu přes diskusní fořum předmetu. Formát C4.5 Soubor.data - co řadek to žížnam, hodnoty atřibutu oddelene cařkou, poslední hodnota na říadku je t říída. Zaížnam neníí ukoncen teckou. Každíy atom (nenumeřickía hodnota atřibutu) musíí bíyt v sežnamu hodnot (popisu) kořespondujíícíího atřibutu. Atomy nesmíí byít v uvo- žovkaích, obsahovat mežeřy ani jiníe bíílíe žnaky. Chybejíícíí hodnotu vyjad řuje otažníík. Zíažnamy s chybejíícíí tříídou nejsou povoleny. Nap ř. a2,39,a4,c2 a4,30,a1,c2 a1,9,a2,c1 Soubor.names - popis atřibutu a jejich hodnot.Přvní řídek obsahuje sežnam možních hodnot třídy oddelenych cířkou a ukoncenych teckou. Tyto musí kořespondovat s posledními 2 hodnotami na řádcích v Soubor.data. Všechny řádky obsahují popis atributů v pořadí, v jakem se nachazejí v Soubor.data. Chybějící hodnota (?) se do výCtu nezahrnuje. Popis atributu je nýsledující: jmeno_atribůtů: [continuous | CSV seznam hodnot u odinýrního atributu]. Napr. c1,c2. atl: a1,a2,a3,a4. at2: continuous. at3: a0,a1,a2,a3,a4. Zadne komentíre ani prazdne radky nejsou povoleny. Poznamky lze umístit do samostatneho souboru Soubor.info. Soubor.data, Soubor.names, popr. Soubor.info musí byt ve stejnem adresari. Poznímka 1: Pri pouzití automaticke konverze WEKY by vypadal príklad takto (ulozeno jako Soubor.csv): at1,at2,at3,class a2,39,a4,c2 a4,30,a1,c2 a1,9,a2,c1 Poznamka 2: Obsahuje-li vís dataset sloupec unikatních hodnot (id), odstraňte ho. algoritmy Pouze klasifikacní algoritmy, ve WECE zalozka classify. • Naive Bayes • IB1 • IBk (pro k = 3, nastavit jako parametr KNN) • JRip • DecisionStump • J48 • PART • SMO • Multilayer Perceptron 3