Úvod do zpracování a analýzy dat
Příklady dobré praxe práce s daty, čištění dat a "špinavá" data
1/ Typický proces čištění dat jsem zachytil v tomto sešitu, na kterém zároveň lépe než na ukázkách v hodině vidíte, jak lze v tomto nástroji kombinovat kód a popisy: https://github.com/michalkasparek/cisteni-dat-fss/blob/main/001_ukazka_cisteni_dat.ipynb
2/ Pokud byste se někdo chtěl učit reálně pracovat s Pythonem a pak s pandas, tohle mi stále přijde jako nejsrozumitelnější úvod: https://www.youtube.com/watch?v=rfscVS0vtbw
3/ Vynikající tréninková data jsou vaše osobní data: výpisy z banky nebo třeba informace o poloze telefonu, které si lze stáhnout z Google Takeaway. Tam si totiž nejsnáz všimnete, že něco nesedí. (Zároveň je cosi zábavného na tom zjistit, do kterého obchodu chodíte nejčastěji a kolik tam za rok strávíte času a utratíte peněz.)
4/ Zapomněl jsem zdůraznit jednu velkou výhodu číslování sešitů 001-099 a atd.: výsledky jsou v ideálním případě replikovatelné, tzn. pokud si někdo stáhne repozitář a vše spustí v abecedním počasí, na konci bude mít stejné výsledky jako vy.
Následující