Analýza a vizualizace ekonomických dat
Ing. Michal Kvasnička, Ph.D.
Analýza a vizualizace ekonomických dat

Proč si zapsat tento předmět

Co se v tomto kurzu naučíte: html, pdfzdrojový kód
   

Administrativa

- hodnocení předmětu a jiná nudná administrativa
- přehled hromadných mailů, které jsme vám poslali
   

Studijní materiály

- kniha: pdf, html
- video nahrávky přednášek: po týdnech dole
- návod, jak zpracovat domácí úkol
   

Probíraná témata

Týden 1: Úvod do R

Témata:
- základy práce s R a RStudiem, slides, kniha kap. 1 a 2
Materiály na cvičení:
- zadání
- cheatsheet: práce s RStudiem
Domácí úkol:
zadání, kód, data, odevzdávárna
 

Týden 2: Proměnné, datové typy, vektory

Témata:
- proměnné: videa 01, 02, 03, 04, kniha kap. 3
- základní datové typy: videa 01, 02, 03, 04, 05, kniha kap. 4
- přehled základních datových struktur: videa 01, kniha kap. 5 úvod
- atomické vektory: videa 01, 02, 03, 04, 05, kniha kap. 5, oddíl 5.1
Test na semináři:
- odkaz na test
Materiály na cvičení:
- zadání, data
Domácí úkol:
-
 zadání, kód, data, odevzdávárna
 

Týden 3: Další datové struktury a speciální datové typy

Témata:
- atomické matice: videa 01, 02, 03, 04, kap. 5, oddíl 5.2
- seznamy: videa 01, 02, kniha kap. 5, oddíl 5.3
- datasety třídy data.frame: videa 01, 02, 03, kniha kap. 5, oddíl 5.4
- datasety třídy tibble: videa 01, kniha kap. 5, oddíl 5.5
- volba datové struktury: videa 01, kniha kap. 5, oddíl 5.7
- operátor trubka: videa 01, kniha 5.6
- faktory: videa 01, 02, kniha kap. 6, oddíl 6.1
- (volitelně) třídy pro záznam data: videa 01, kap. 6, oddíl 6.2
Test na semináři:
- odkaz na test
Materiály na cvičení:
- zadání, data
Domácí úkol:
zadání, kód, data, odevzdávárna
 

Týden 4: Řídící struktury, funkce a iterace nad prvky vektorů, seznamů a matic

Témata:
- řídící struktury: videa 01, 02, 03, 04, 05a, 05b, 05c, kniha kap. 7
- funkce: videa 01, 02, 03, 04, kniha kap. 8
- iterace: videa 01, 02, 03, 04, 05, 06,  kniha kap. 10
Test na semináři:
- odkaz na test
Materiály na cvičení:
- zadání, cheatsheet purrr, advancedR
Domácí úkol: 
- zadání, kód, data, odevzdávárna
 

Týden 5: Načítání a ukládání dat

Témata:
- úvod, cesta k souborům: videa 01, kniha kap. 11
- textový delimitovaný tabulární formát: videa 02, 03, 04, 05, kniha kap. 11.1
- textové nedelimitované formáty: videa 06, kniha kap. 11.2
- nativní binární formát R a data v balících: videa 07, kniha kap. 11.3 a 11.4
- excelové soubory: videa 08, kniha kap. 11.5
- data z jiných statistických softwarů: videa 09, kniha kap. 11.6
- rychlé načtení a uložení dat pomocí balíku rio: videa 10, kniha kap. 11.7
- kontrola integrity načtených dat: videa 11, kniha kap. 11.8
Test na semináři:
- tento týden test není
Materiály na cvičení:
- zadání, data (zazipovaná), cheatsheet
Domácí úkol:
zadání, kód, data, odevzdávárna
 

Týden 6: Práce s řetězci

Témata:
- úvod do práce s řetězci: videa 01, kniha kap. 12 a 12.1
- základní operace v balíku stringr: videa 02, 03, 04, kniha kap. 12.2
- regulární výrazy: videa 05a a 05b, kniha kap. 12.3
- práce s řetězci pomocí regulárních výrazů v balíku stringr: videa 06, 07, 08 a 09, kniha kap. 12.4
- modifikace chování regulárních výrazů v balíku stringr: videa 10, kniha 12.5
Test na semináři:
- odkaz na test
Materiály na cvičení:
- zadání, data (zazipovaná), cheatsheet
Domácí úkol:
zadání, kód, data, odevzdávárna


Týden 7: Správně formátovaná data a balík tidyr

Témata:
- úvod: videa 01, kniha kap. 13 
- správně formátovaná (tidy) data: videa 01, kniha kap. 13.1 
- základní nástroje pro formátování tabulek: videa 02 03 04, kniha kap. 13.2
- pokročilejší nástroje: videa 05 06, kniha kap. 13.3
- chybějící pozorování: videa 07 08 09 10, kniha 13.4
- konstrukce vlastních tabulek: videa 11, kniha 13.5 
Data použitá v knize: zip 
Test na semináři
- odkaz na test
Materiály na cvičení
- zadání, data (zazipovaná), cheatsheet
Domácí úkol
- zadání, kód, data, odevzdávárna


Týden 8: Manipulace s daty s nástroji z balíku dplyr

Témata:
- úvod: videa 01, kniha kap. 14
- slovesa pracující s jednou tabulkou: videa 02 03 04, kniha kap. 14.1 
- tvorba a úprava obsahu: videa 05 06, kniha kap. 14.2
- další užitečné funkce: videa 07, kniha kap. 14.3
- Operace prováděné po skupinách (zgrupované operace): videa 08, kniha kap. 14.4
- do(): kniha kap. 14.5
- slovesa pracující s více tabulkami, videa 09 10, kniha kap. 14.6 
Test na semináři
- odkaz na test
Materiály na cvičení
- zadání, data (zazipovaná), cheatsheet
Domácí úkol
- zadání, kód, data, odevzdávárna

Týden 9: Vizualizace dat s balíkem ggplot2

Témata: 
- Úvod: videa 01, kniha kap. 15
- Logika fungování ggplot2: videa 02, kniha kap. 15.1
- Základní vizualizace: vrstva po vrstvě: videa 03, kniha kap. 15.2
- Mapování a nastavování estetik: videa 04 05 06 07 08, kniha kap. 15.3
- Grupování: videa 09, kniha kap. 15.4
- Statistické transformace: videa 10, kniha kap. 15.5
- Pozicování: videa 11 12, kniha kap. 15.6
- Souřadnicové systémy: videa 13, kniha kap. 15.7
- Vzhled obrázků: videa 14 15, kniha kap. 15.8
- Ukládání obrázků: videa 16, kniha kap. 15.9
- Co dělat a co nedělat: kniha kap. 15.10
Test na semináři
- odkaz na test
Materiály na cvičení
- zadání, data (zazipovaná), cheatsheet
Video k poslednímu komplexnímu příkladu.
Domácí úkol
- zadání, kód, odevzdávárna
 

Týden 10: Ekonometrie v R

Kniha
Témata (video) :
Úvod: 01
Specifikace modelu a třída formula: 02
Odhad modelu: 03
Práce s výsledky odhadu: 04, 05
Diagnostika: 06
Odhad více modelů: 07
Tvorba regresních tabulek: 08

Test na semináři
- odkaz na test
Materiály na cvičení
- zadání, data (zazipovaná)
Domácí úkol
- zadání, kód, odevzdávárna


Týden 11 a 12: Exploratory data analysis (EDA)

V týdnu 10 a 11 budou probíhat pouze cvičení. Jejich obsahem je praktické využití tidyr, dplyr a ggplot2 v EDA.
Materiály na cvičení
- zadání, data (zazipovaná, pozor, mají přes 200 MB)
- zadání 2, data 2

Domácí úkol
Není. Fňuk.

Týden 13: Reprodukovatelný výzkum

Témata: 
- co je reproducible research
- jak zajistit, aby vaše analýza byla reprodukovatelná
- R Markdown (co to je a k čemu to je, jak se to udělá, hlavní značky, hlavní parametry )
- slides
Materiály na cvičení:
- reproducible research: Hennigsen's Guidelines a Ten Simple Rules
- R Markdown: cheatsheet, starší cheatsheet, reference, výukový webknitr a bookdown
- cílem je vytvořit Rmd, který půjde zkompilovat na pdf a html (zdrojový kód, UTF-8)

   

Další zdroje

Knihy

Web

  • tidyverse -- dokumentace k balíkům ze skupiny tidyverse
  • tidyverse: ggplot2 -- dokumentace k balíku ggplot2
  • RStudio cheatsheets -- cheatsheets k RStudiu, balíkům ze skupiny tidyverse a další
  • Stack Overflow -- komunitní web s otázkami a jejich řešením (Pozor, pro některé problémy existují nová a lepší řešení. Sledujte rok položení dotazu a odpovědí.)
  • R-bloggers -- zajímavé problémy a novinky ze světa R
  • RStudio Blog -- novinky v RStudiu a zejména v balících, které tým RStudia vyvíjí
  • Econometrics Academy -- základní vysvětlení různých ekonometrických technik s ukázkami v R a dalších statistických softwarech; pozor: návody k R obsahují různé drobné chyby!
Předchozí
Následující