# Balíčky ----------------------------------------------------------------- library(tidyverse) # challange --------------------------------------------------------------- # Zkuste správně importovat soubor z této url adresy # https://raw.githubusercontent.com/tidyverse/readr/main/inst/extdata/challenge.csv # Nazvěte nový objekt challange challange <- # Kterou funkci byste použili, kdybyste měli importovat soubor, který by jako # Oddělovač hodnot používal “|” "a|b|c\n 1|2|3\n 4|5|6" # Problémy při importu ---------------------------------------------------- # Někdy .csv soubory obsahují čárky. # Aby nedělaly problémy, musejí být uvazřeny nějakým typem uvozovek. # Defaultně funkce read_csv předpokládá použití dvojitých uvozovek. # Jak bychom správně načetli tento .csv soubor "x,y\n1, 'a,b'" # V textovém editoru by vypadal takto: # Protože \n je v R speciální symbol pro nový řádek writeLines("x,y\n1, 'a,b'") # Identifikujte, co je zřejmě špatně při tomto importu? writeLines("a,b\n1,2,3\n4,5,6") read_csv("a,b\n1,2,3\n4,5,6") writeLines("a,b,c\n1,2\n1,2,3,4") read_csv("a,b,c\n1,2\n1,2,3,4") writeLines("a,b\n\"1") read_csv("a,b\n\"1") writeLines("a,b\n1,2\na,b") read_csv("a,b\n1,2\na,b") writeLines("a;b\n1;3") read_csv("a;b\n1;3") # mymsa ------------------------------------------------------------------- # Zvolte správnou funkci k načtení tohoto flat file: # https://raw.githubusercontent.com/nt246/NTRES-6100-data-science/main/datasets/janitor_mymsa_subset.txt # Importujte jej pod jménem mymsa # Zkuste nastavit nová jména sloupců, abychom měly standardní názvy bez # speciálních znaků # WWCFIFA ----------------------------------------------------------------- # Stáhněte si dataset 2019_WWCFIFA_summary.csv ze studijních materiálů # a uložte si ho do vhodné složky # Zkuste to udělat pomocí funkce download.file() # Importujte pomocí vhodné funkce stažený dataset a nazvěte nový objekt wwc_raw # Zkuste import opakovat, ale ručně specifikujte typy sloupců # aby sloupec Date byl typu "date" a slpoupce "Round" a "Venue" typu factor # Aplikujte vhodné funkce, abyste získali přehled o datech # (souhrnné statistiky a strukturu dat) # Vytvořte nový objekt wwc_1, jehož základem bude wwc_raw: # pomocí funkce str_to_lower() změňte jména sloupců na lowercase # Použijte na wwc_1 funkce dim(), nrow() a ncol(). # Co tyto funkce dělají? # Použijte vhodné funkce k ispekci prvních a posledních 10 řádků wwc_1 # Vyřadťe řádky, kde jsou jen missing values, a vytvořte tak objekt wwc_2 # Ve sloupci date a venue by měla zbýt jedna chybějící hodnota # Ve sloupci date ji nahraďte "2019-06-09" # Ve sloupci "venue" ji nahraďte "Groupama Stadium" # Podívejte se na nápovědu k funkci separater() a zkuste sloupe # score pomocí ní rozdělit na dva ("home_score" a "away_score") # Totéž udělejte pro sloupec pks (rozdělte ho na dva sloupce # "home_pks" a "away_pks" # Nahradťe chybějící hodnoty ve sloupcích "home_pks" a "away_pks" nulami