Témata projektů z M8DM1 Datový soubor Adult 1. Predikujte, zda příjem dané osoby překročí 50 000 USD. Data nejprve rozdělte na trénovací a testovací a poté váš model vyzkoušejte na testovacích datech. Datový soubor Airline 2. Které letecké společnosti jsou nejbezpečnější? A které naopak nejvíce nebezpečné? Datový soubor Auto 3. Predikujte spotřebu auta v závislosti na zadaných veličinách. Na kterých z nich nejvíce závisí? Data nejprve rozdělte na trénovací a testovací a poté váš model vyzkoušejte na testovacích datech. 4. Která auta jsou si nejvíce podobná? Která se naopak nejvíce liší? Dají se mezi auty nalézt nějaké charakteristické skupiny aut? Datový soubor Boston 5. Predikujte cenu domu (medián) v Bostonu na základě socio-ekonomických ukazatelů. Na jakých atributech závisí? Data nejprve rozdělte na trénovací a testovací a poté váš model vyzkoušejte na testovacích datech. 6. Predikujte koncentraci oxidů dusíku v různých částech Bostonu na základě socio-ekonomických ukazatelů. Na jakých atributech závisí? Data nejprve rozdělte na trénovací a testovací a poté váš model vyzkoušejte na testovacích datech. Datový soubor Cars93 7. Dá se pro každého výrobce najít typický vůz, který vyrábí? Jak se různí výrobci liší? 8. Která auta jsou si nejvíce podobná? Která se naopak nejvíce liší? Dají se mezi auty nalézt nějaké charakteristické skupiny aut? Datový soubor CMC 9. Na základě dat odhadněte druh antikoncepce, který daná žena užívá. Data nejprve rozdělte na trénovací a testovací a poté váš model vyzkoušejte na testovacích datech. 10. Najděte v datech skupiny žen, které jsou si podobné. Používají stejnou antikoncepci? 1 Datový soubor Companies 11. Dá se na základě ekonomických ukazatelů firmy rozhodnout, jakým odvětvím se firma zabývá? Datový soubor Dermatology 12. Na základě symptomů a rodinné historie najděte pacienty s podobným onemocněním. Datový soubor Fertility 13. Identifikujte rizikové faktory neplodnosti u mužů. Datový soubor Flags 14. Na základě údajů o zemi a její vlajce predikujte nejrozšířenější náboženství v zemi. Data nejprve rozdělte na trénovací a testovací a poté váš model vyzkoušejte na testovacích datech. 15. Vlajky kterých zemí jsou si nejvíce podobné? Dají se nalézt skupiny zemí, které mají podobné vlajky? Datový soubor Geopol 16. Najděte v datech skupiny zemí, které jsou si podobné z hlediska ekonomicko-politického. Datový soubor Health 17. Porovnejte státy USA z hlediska zdraví. Které státy jsou na tom podobně? 18. Souvisí geografická poloha státu se zdravím? Datový soubor Heart 19. Na základě údajů o pacientech rozhodněte, jestli daná osoba trpí onemocněním srdce. Data nejprve rozdělte na trénovací a testovací a poté váš model vyzkoušejte na testovacích datech. Datový soubor Internet 20. Jaká je situace v ČR z hlediska využívání internetu? Jaké služby nejčastěji lidé využívají? 21. Popište skladbu a charakteristické skupiny, které využívají internet a jednotlivé jeho služby. 2 Datový soubor Jobs 22. Najděte v datech skupiny zemí podobných ve smyslu zaměstnanosti. Datový soubor Kabelovka 23. Jaké je využívaní TV a různých technologií příjmu signálu v ČR? 24. Liší se nějak častý TV divák od běžného? Jak? 25. Nová televizní stanice chce vstoupit na český trh. Jak by se měla profilovat, aby odpovídala častým a typickým potřebám české populace? Datový soubor Mazlíčci 26. Jaká je situace v ČR z pohledu domácích mazlíčků? Kde pro ně lidé nejčastěji nakupují krmení? 27. Kdo je typický chovatel? Liší se chovatelé koček od chovatelů psů? 28. Chcete uvést do prodeje nový produkt pro kočky a psy. Jaka je cílová skupina spotřebitelů? V jaké distribuční síti byste výrobek prodávali? Datový soubor Mushroom 29. Na základě údajů o houbách rozhodněte, jestli je daná houba jedovatá nebo jedlá. Data nejprve rozdělte na trénovací a testovací a poté váš model vyzkoušejte na testovacích datech. Datový soubor Postoje 30. Analyzujte výroky = charakteristiky dosavadního života. Jaké výroky jsou si „blízko" a jaké jsou naopak opačné? Lze výroky zredukovat do menšího počtu tvrzení? 31. Najděte v populaci skupiny lidí s podobnými postoji podle analyzovaných výroků. 32. Lze vysledovat nějaký vztah mezi výroky a demografickými charakteristikami? Datový soubor Protein 33. Najděte v datech skupiny zemí podobných ve smyslu spotřeby bílkovin. Datový soubor Records 34. Najděte v datech skupiny zemí s podobnými atletickými rekordy. 3 Datový soubor Saheart 35. Odhalte rizikové faktory pro onemocnění srdce. 36. Lze v datech odhalit podobné skupiny lidí? Které z nich mají problémy s onemocněním srdce? Datový soubor Salaries 37. Najděte faktory, na kterých závisí výše průměrného akademického platu. Datový soubor Sleep 38. Na základě údajů o spánku zvířat najděte nejvíce podobná/nepodobná zvířata. Dají se mezi zvířaty nalézt nějaké skupiny podobných zvířat? Datový soubor Sport 39. Popište využívání různých druhů sportu v ČR. Dají se v populaci vypozorovat nějaké vztahy mezi provozovanými sporty? 40. Existuje rozdíl mezi sportováním bohatších a chudších klientů? Jak se bohatší klienti odlišují od běžné populace? 41. Existují v populaci nějaké typické skupiny věnující se určitým sportům? Datový soubor States 42. Najděte americké státy, ve kterých je podobná situace z hlediska vzdělání. Existuje nějaký stát, ve kterém je situace diametrálně odlišná od zbytku USA? Datový soubor Student Performance 43. Jak se liší studenti školy Gabriel Pereira (GP) od studentů školy Mousinho da Silveira (MS)? 44. Můžeme v datech najít nějaké typické skupiny studentů? Jsou tyto skupiny stejné na obou školách? 45. Existuje souvislost mezi konzumací alkoholu a sociálními a školními atributy? Datový soubor Swiss 46. Najděte faktory, na kterých závisí plodnost v Švýcarsku. 47. Najděte švýcarské provincie, které jsou si podobné z hlediska socio-ekonomických ukazatelů. Je u nich podobnost i z hlediska plodnosti? 4 Datový soubor TimeBudget 48. Najděte v datech skupiny lidí, které tráví podobně svůj volný čas. Které skupiny lidí tráví svůj volný čas nejvíce rozdílným způsobem? Datový soubor Tips 49. Na čem záleží velikost dýška? Jaký zákazník dá největší a jaký nejmenší dýško? Datový soubor USCrime 50. Porovnejte státy USA z hlediska kriminality? Které státy jsou na tom podobně? 51. Souvisí geografická poloha státu s jeho kriminalitou? Datový soubor VolnyCas 52. Jaký podíl volného času věnuje průměrný člověk různým činnostem? Liší se v trávení volného času muži od žen? Jakou roli hraje věk? 53. Liší se v nějakých aspektech lidé trávící různě svůj volný čas? Lze nějak popsat typického jedince věnujícího se různým volno-časovým aktivitám? Datový soubor Wine 54. Na základě výsledků chemické analýzy odhalte různé typy vína. Která vína jsou si nejvíce podobná? Čím se naopak nejvíce liší? 55. Na základě výsledků chemické analýzy predikujte obsah alkoholu v daném víně. Datový soubor WineQualityRed 56. Na základě výsledků chemické analýzy predikujte kvalitu červeného vína. Data nejprve rozdělte na trénovací a testovací a poté váš model vyzkoušejte na testovacích datech. Datový soubor WineQualityWhite 57. Na základě výsledků chemické analýzy predikujte kvalitu bílého vína. Data nejprve rozdělte na trénovací a testovací a poté váš model vyzkoušejte na testovacích datech. Datový soubor Zoo 58. Na základě vlastností zvířat najděte nejvíce podobná/nepodobná. Dají se mezi zvířaty nalézt nějaké skupiny podobných zvířat? 5