Témata projektů z M8DM1 Datový soubor Adult 1. Predikujte, zda příjem dané osoby překročí 50 000 USD. Data nejprve rozdělte na tréninková a testovací a poté Váš model vyzkoušejte na testovacích datech. Datový soubor Auto 2. Predikujte spotřebu auta v závislosti na zadaných veličinách. Data nejprve rozdělte na tréninková a testovací a poté Váš model vyzkoušejte na testovacích datech. 3. Která auta jsou si nejvíce podobná? Která se naopak nejvíce liší? 4. Dají se mezi auty nalézt nějaké charakteristické skupiny aut? Datový soubor Bakalári 5. Rozhodněte, jestli je ve všech regionech Francie stejná skladba bakalářských studentů. Kde se tato skladba nejvíce odlišuje od průměru? Jak? Datový soubor Banknotes 6. Podle výsledků měření rozhodněte, která bankovka je pravá a která falešná. Datový soubor Boston 7. Odhadněte cenu domu (medián) v Bostonu na základě socio-ekonomických ukazatelů. Data nejprve rozdělte na tréninková a testovací a poté Váš model vyzkoušejte na testovacích datech. 8. Odhadněte koncentraci oxidů dusíku v různých částech Bostonu na základě socio-ekonomických ukazatelů. Data nejprve rozdělte na tréninková a testovací a poté Váš model vyzkoušejte na testovacích datech. Datový soubor CMC 9. Na základě dat odhadněte druh antikoncepce, který daná žena užívá. Data nejprve rozdělte na tréninková a testovací a poté Váš model vyzkoušejte na testovacích datech. 10. Najděte v datech skupiny žen, které jsou si podobné. Používají stejnou antikoncepci? Datový soubor Companies 11. Dá se na základě ekonomických ukazatelů firmy rozhodnout, jakým odvětvím se firma zabývá? 1 Datový soubor Dermatology 12. Na základě symptomů a rodinné historie najděte pacienty s podobným onemocněním. Datový soubor Fertility 13. Identifikujte rizikové faktory neplodnosti u mužů. Datový soubor Flags 14. Na základě údajů o zemi a její vlajce predikujte nejrozšířenější náboženství v zemi. Data nejprve rozdělte na tréninková a testovací a poté Váš model vyzkoušejte na testovacích datech. 15. Vlajky kterých zemí jsou si nejvíce podobné? Dají se nalézt skupiny zemí, které mají podobné vlajky? Datový soubor Geopol 16. Které země jsou si podobné z hlediska ekonomicko-politického? Které se nejvíce liší? 17. Najděte v datech skupiny zemí, které jsou si podobné z hlediska ekonomicko-politického. Datový soubor Health 18. Porovnejte státy USA z hlediska zdraví. Které státy jsou na tom podobně? 19. Souvisí geografická poloha státu se zdravím? Datový soubor Heart 20. Na základě údajů o pacientech rozhodněte, jestli daná osoba trpí onemocněním srdce. Data nejprve rozdělte na tréninková a testovací a poté Váš model vyzkoušejte na testovacích datech. Datový soubor Internet 21. Jaká je situace v ČR z hlediska využívání internetu? Jaké služby nejčastěji lidé využívají? 22. Popište skladbu a charakteristické skupiny, které využívají internet a jednotlivé jeho služby. 23. Přicházíte do ČR jako nová internetová firma. Jakou marketingovou strategii pro svoji revoluční službu „Come'n'Play" pro poslouchání hudby přes internet byste zvolili? 2 Datový soubor Jobs 24. Najděte v datech skupiny zemí podobných ve smyslu zaměstnanosti. Datový soubor Kabelovka 25. Jaké je využívaní TV a různých technologií příjmu signálu v ČR? 26. Liší se nějak častý TV divák od běžného? Jak? 27. Nová televizní stanice chce vstoupit na český trh. Jak by se měla profilovat, aby odpovídala častým a typickým potřebám české populace? Datový soubor Mazlíčci 28. Jaká je situace v ČR z pohledu domácích mazlíčků? Kde pro ně lidé nejčastěji nakupují krmení? 29. Kdo je typický chovatel? Liší se chovatelé koček od chovatelů psů? 30. Chcete uvést do prodeje nový produkt pro kočky a psy. Jaka je cílová skupina spotřebitelů? V jaké distribuční síti byste výrobek prodávali? Datový soubor Mushroom 31. Na základě údajů o houbách rozhodněte, jestli je daná houba jedovatá nebo jedlá. Data nejprve rozdělte na tréninková a testovací a poté Váš model vyzkoušejte na testovacích datech. Datový soubor Postoje 32. Analyzujte výroky = charakteristiky dosavadního života. Jaké výroky jsou si „blízko" a jaké jsou naopak opačné? Lze výroky zredukovat do menšího počtu tvrzení? 33. Vytvořte segmentaci populace podle analyzovaných výroků. 34. Lze vysledovat nějaký vztah mezi výroky a demografickými charakteristikami? Datový soubor Protein 35. Najděte v datech skupiny zemí podobných ve smyslu spotřeby bílkovin. Datový soubor Records 36. Najděte v datech skupiny zemí s podobnými atletickými rekordy. 3 Datový soubor Saheart 37. Odhalte rizikové faktory pro onemocnění srdce. 38. Lze v datech odhalit podobné skupiny lidí? Které z nich mají problémy s onemocněním srdce? Datový soubor Sleep 39. Na základě údajů o spánku zvířat najděte nejvíce podobná/nepodobná zvířata. Dají se mezi zvířaty nalézt nějaké skupiny podobných zvířat? 40. Predikujte, jestli je dané zvíře nebezpečné (index 3-5) či nikoliv (index 1-2) na základě údajů o spánku zvířat. Datový soubor Sport 41. Popište využívání různých druhů sportu v ČR. Které sporty jsou provozovány klienty současně? 42. Existuje rozdíl mezi sportováním bohatších a chudších klientů? Jak se bohatší klienti odlišují od běžné populace? 43. Existují v populaci nějaké typické skupiny věnující se určitým sportům? Datový soubor Student Performance 44. Jak se liší studenti školy Gabriel Pereira (GP) od studentů školy Mousinho da Silveira (MS)? 45. Můžeme v datech najít nějaké typické skupiny studentů? Jsou tyto skupiny stejné na obou školách? 46. Na základě dat predikujte známku studenta na konci 3. období (G3). Uvažujte modely, které uvažují, resp. neuvažují proměnné popisující známky na konci 1. a 2. období (Gl a G2). 47. Existuje souvislost mezi konzumací alkoholu a sociálními a školními atributy? Datový soubor TimeBudget 48. Najděte v datech skupiny lidí, které tráví podobně svůj volný čas. 49. Které skupiny lidí tráví svůj volný čas nejvíce rozdílným způsobem? Datový soubor TVSales 50. Porovnejte americké televizní stanice z finančního hlediska. Které stanice jsou na tom podobně? 51. Modelujte prodejní cenu pomocí ostatních finančních faktorů. 4 Datový soubor USCrime 52. Porovnejte státy USA z hlediska kriminality? Které státy jsou na tom podobně? 53. Souvisí geografická poloha státu s jeho kriminalitou? Datový soubor VolnyCas 54. Jaký podíl volného času věnuje průměrný člověk různým činnostem? Liší se v trávení volného času muži od žen? Jakou roli hraje věk? 55. Liší se v nějakých aspektech lidé trávící různě svůj volný čas? Lze nějak popsat typického jedince věnujícího se různým volno-časovým aktivitám? Datový soubor Wine 56. Na základě výsledků chemické analýzy odhalte různé typy vína. Která vína jsou si nejvíce podobná? Čím se naopak nejvíce liší? 57. Na základě výsledků chemické analýzy odhadněte obsah alkoholu v daném víně. Datový soubor WineQualityRed 58. Na základě výsledků chemické analýzy predikujte kvalitu červeného vína. Data nejprve rozdělte na tréninková a testovací a poté Váš model vyzkoušejte na testovacích datech. Datový soubor WineQualityWhite 59. Na základě výsledků chemické analýzy predikujte kvalitu bílého vína. Data nejprve rozdělte na tréninková a testovací a poté Váš model vyzkoušejte na testovacích datech. Datový soubor Zoo 60. Na základě vlastností zvířat najděte nejvíce podobná/nepodobná. Dají se mezi zvířaty nalézt nějaké skupiny podobných zvířat? 5