Proč si zapsat tento předmět
Co se v tomto kurzu naučíte: html, pdf; zdrojový kódAdministrativa
- hodnocení předmětu a jiná nudná administrativa- přehled hromadných mailů, které jsme vám poslali
Studijní materiály
- kniha: pdf, html- video nahrávky přednášek: po týdnech dole
- návod, jak zpracovat domácí úkol
Probíraná témata
Týden 1: Úvod do R
Témata:- základy práce s R a RStudiem, slides, kniha kap. 1 a 2
Materiály na cvičení:
- zadání
- cheatsheet: práce s RStudiem
Domácí úkol:
- zadání, kód, data, odevzdávárna
Týden 2: Proměnné, datové typy, vektory
Témata:
- proměnné: videa 01, 02, 03, 04, kniha kap. 3
- základní datové typy: videa 01, 02, 03, 04, 05, kniha kap. 4
- přehled základních datových struktur: videa 01, kniha kap. 5 úvod
- atomické vektory: videa 01, 02, 03, 04, 05, kniha kap. 5, oddíl 5.1
Test na semináři:
- odkaz na test
Materiály na cvičení:
- zadání, data
Domácí úkol:
- zadání, kód, data, odevzdávárna
Týden 3: Další datové struktury a speciální datové typy
Témata:
- atomické matice: videa 01, 02, 03, 04, kap. 5, oddíl 5.2
- seznamy: videa 01, 02, kniha kap. 5, oddíl 5.3
- datasety třídy data.frame: videa 01, 02, 03, kniha kap. 5, oddíl 5.4
- datasety třídy tibble: videa 01, kniha kap. 5, oddíl 5.5
- volba datové struktury: videa 01, kniha kap. 5, oddíl 5.7
- operátor trubka: videa 01, kniha 5.6
- faktory: videa 01, 02, kniha kap. 6, oddíl 6.1
- (volitelně) třídy pro záznam data: videa 01, kap. 6, oddíl 6.2
Test na semináři:
- odkaz na test
Materiály na cvičení:
- zadání, data
Domácí úkol:
- zadání, kód, data, odevzdávárna
Týden 4: Řídící struktury, funkce a iterace nad prvky vektorů, seznamů a matic
Témata:- řídící struktury: videa 01, 02, 03, 04, 05a, 05b, 05c, kniha kap. 7
- funkce: videa 01, 02, 03, 04, kniha kap. 8
- iterace: videa 01, 02, 03, 04, 05, 06, kniha kap. 10
Test na semináři:
- odkaz na test
Materiály na cvičení:
- zadání, cheatsheet purrr, advancedR
Domácí úkol:
- zadání, kód, data, odevzdávárna
Týden 5: Načítání a ukládání dat
Témata:
- úvod, cesta k souborům: videa 01, kniha kap. 11
- textový delimitovaný tabulární formát: videa 02, 03, 04, 05, kniha kap. 11.1
- textové nedelimitované formáty: videa 06, kniha kap. 11.2
- nativní binární formát R a data v balících: videa 07, kniha kap. 11.3 a 11.4
- excelové soubory: videa 08, kniha kap. 11.5
- data z jiných statistických softwarů: videa 09, kniha kap. 11.6
- rychlé načtení a uložení dat pomocí balíku rio: videa 10, kniha kap. 11.7
- kontrola integrity načtených dat: videa 11, kniha kap. 11.8
Test na semináři:
- tento týden test není
Materiály na cvičení:
- zadání, data (zazipovaná), cheatsheet
Domácí úkol:
- zadání, kód, data, odevzdávárna
Týden 6: Práce s řetězci
Témata:
- úvod do práce s řetězci: videa 01, kniha kap. 12 a 12.1
- základní operace v balíku stringr: videa 02, 03, 04, kniha kap. 12.2
- regulární výrazy: videa 05a a 05b, kniha kap. 12.3
- práce s řetězci pomocí regulárních výrazů v balíku stringr: videa 06, 07, 08 a 09, kniha kap. 12.4
- modifikace chování regulárních výrazů v balíku stringr: videa 10, kniha 12.5
Test na semináři:
- odkaz na test
Materiály na cvičení:
- zadání, data (zazipovaná), cheatsheet
Domácí úkol:
- zadání, kód, data, odevzdávárna
Týden 7: Správně formátovaná data a balík tidyr
Témata:- úvod: videa 01, kniha kap. 13
- správně formátovaná (tidy) data: videa 01, kniha kap. 13.1
- základní nástroje pro formátování tabulek: videa 02 03 04, kniha kap. 13.2
- pokročilejší nástroje: videa 05 06, kniha kap. 13.3
- chybějící pozorování: videa 07 08 09 10, kniha 13.4
- konstrukce vlastních tabulek: videa 11, kniha 13.5
Data použitá v knize: zip
Test na semináři
- odkaz na test
Materiály na cvičení
- zadání, data (zazipovaná), cheatsheet
Domácí úkol
- zadání, kód, data, odevzdávárna
Týden 8: Manipulace s daty s nástroji z balíku dplyr
Témata:
- úvod: videa 01, kniha kap. 14
- slovesa pracující s jednou tabulkou: videa 02 03 04, kniha kap. 14.1
- tvorba a úprava obsahu: videa 05 06, kniha kap. 14.2
- další užitečné funkce: videa 07, kniha kap. 14.3
- Operace prováděné po skupinách (zgrupované operace): videa 08, kniha kap. 14.4
- do(): kniha kap. 14.5
- slovesa pracující s více tabulkami, videa 09 10, kniha kap. 14.6
Test na semináři
- odkaz na test
Materiály na cvičení
- zadání, data (zazipovaná), cheatsheet
Domácí úkol
- zadání, kód, data, odevzdávárna
Týden 9: Vizualizace dat s balíkem ggplot2
Témata:- Úvod: videa 01, kniha kap. 15
- Logika fungování ggplot2: videa 02, kniha kap. 15.1
- Základní vizualizace: vrstva po vrstvě: videa 03, kniha kap. 15.2
- Mapování a nastavování estetik: videa 04 05 06 07 08, kniha kap. 15.3
- Grupování: videa 09, kniha kap. 15.4
- Statistické transformace: videa 10, kniha kap. 15.5
- Pozicování: videa 11 12, kniha kap. 15.6
- Souřadnicové systémy: videa 13, kniha kap. 15.7
- Vzhled obrázků: videa 14 15, kniha kap. 15.8
- Ukládání obrázků: videa 16, kniha kap. 15.9
- Co dělat a co nedělat: kniha kap. 15.10
Test na semináři
- odkaz na test
Materiály na cvičení
- zadání, data (zazipovaná), cheatsheet
Video k poslednímu komplexnímu příkladu.
Domácí úkol
- zadání, kód, odevzdávárna
Týden 10: Ekonometrie v R
Kniha
Témata (video) :
Úvod: 01
Specifikace modelu a třída formula: 02
Odhad modelu: 03
Práce s výsledky odhadu: 04, 05
Diagnostika: 06
Odhad více modelů: 07
Tvorba regresních tabulek: 08
Test na semináři
- odkaz na test
Materiály na cvičení
- zadání, data (zazipovaná)
Domácí úkol
- zadání, kód, odevzdávárna
Týden 11 a 12: Exploratory data analysis (EDA)
V týdnu 10 a 11 budou probíhat pouze cvičení. Jejich obsahem je praktické využití tidyr, dplyr a ggplot2 v EDA.Materiály na cvičení
- zadání, data (zazipovaná, pozor, mají přes 200 MB)
- zadání 2, data 2
Domácí úkol
Není. Fňuk.
Týden 13: Reprodukovatelný výzkum
Témata:
- co je reproducible research
- jak zajistit, aby vaše analýza byla reprodukovatelná
- R Markdown (co to je a k čemu to je, jak se to udělá, hlavní značky, hlavní parametry )
- slides
Materiály na cvičení:
- reproducible research: Hennigsen's Guidelines a Ten Simple Rules
- R Markdown: cheatsheet, starší cheatsheet, reference, výukový web, knitr a bookdown
- cílem je vytvořit Rmd, který půjde zkompilovat na pdf a html (zdrojový kód, UTF-8)
Další zdroje
Knihy
- Hadley Wickham: R for Data Science -- kniha o tom, co zde děláme; zatím ve vývoji; zdarma jako web.
- Winston Chang: R Graphics Cookbook -- úvod do R a hlavně skvělé příklady grafů v R; zdarma jako web. Hlavně kapitola Graphs.
- Robert I. Kabacoff: R in Action: Data analysis and graphics with R, 2nd ed. -- skvělá kniha o analýze a vizualizaci dat v R; za peníze.
- John Verzani: Using R for Introductory Statistics, 2nd ed. -- skvělý úvod do statistiky v R; za peníze; hodně starší verze je zdarma.
- Roger D. Peng: R Programming for Data Science -- úvod do R a transofrmace dat zhruba na naší úrovni; nejnižší cena ze zdarma.
- Roger D. Peng: Exploratory Data Analysis with R -- grafika v R, méně pokročilá, ale zato víc možností; nejnižší cena ze zdarma.
- Roger D. Peng and Elizabeth Matsui: The Art of Data Science: A Guide for Anyone Who Works with Data; nejnižší cena ze zdarma.
- Hadley Wickham: Advanced R -- nejlepší kniha o tom, jak R funguje "vevnitř"; pokročilé čtení, ale první kapitoly byste si měli přečíst; zdarma jako web.
- Hadley Wickham: ggplot2: Elegant Graphics for Data Analysis, 2nd ed. -- kniha o moderní grafice (balíku ggplot2) v R, Amazon, knihovna ESF
- Constantin Colonescu: Principles of Econometrics with R -- kniha o tom, jak dělat ekonometrii v R, zdarma na webu; odpovídá učebnici Hill--Griffith--Lim: Principles of Econometrics, 4th ed.
Web
- tidyverse -- dokumentace k balíkům ze skupiny tidyverse
- tidyverse: ggplot2 -- dokumentace k balíku ggplot2
- RStudio cheatsheets -- cheatsheets k RStudiu, balíkům ze skupiny tidyverse a další
- Stack Overflow -- komunitní web s otázkami a jejich řešením (Pozor, pro některé problémy existují nová a lepší řešení. Sledujte rok položení dotazu a odpovědí.)
- R-bloggers -- zajímavé problémy a novinky ze světa R
- RStudio Blog -- novinky v RStudiu a zejména v balících, které tým RStudia vyvíjí
- Econometrics Academy -- základní vysvětlení různých ekonometrických technik s ukázkami v R a dalších statistických softwarech; pozor: návody k R obsahují různé drobné chyby!