M9DM2 Data mining 2 Databázové operace s datovými tabulkami v R Ondřej Pokora Ústav matematiky a statistiky, Přírodovědecká fakulta, Masarykova univerzita 8. 10. 2019 Relační data pomocí veličin v datových tabulkách popisují vztahy mezi pozorováními v tabulkách databázový jazyk SQL (Structured Query Language) knihovna dplyr přidává příkazy pro databázové operace nad datovými tabulkami v R knihovna sqldf přidává příkaz pro zápis SQL příkazů nad datovými tabulkami v R: sqldf("SQL_prikaz") 2/12 Relační data Proměnné (sloupce) v datových tabulkách se speciálním relačním významem: primary key – proměnná ve vlastní tabulce, unikátní identifikátor pozorování (řádku) foreign key – proměnná ve vlastní tabulce, unikátní identifikátor pozorování v jiné tabulce (tabulkách) jedna proměnná může být zároveň primary key i foreign key surrogate key – uměle doplněný primární klíč 3/12 Joins 4/12 Binds 5/12 Spojování tabulek pomocí knihovny dplyr Mutating joins – doplňují proměnné z y na konec x: inner_join(x, y, by = "_") left_join(x, y, by = "_"), right_join (x, y, by = "_") full_join(x, y, by = "_") Filtering joins – vybírají pozorování z x: semi_join(x, y, by = "_") anti_join(x, y, by = "_") Množinové operace: union(x, y) intersect(x, y) setdiff(x, y) Svazování tabulek: bind_rows(x, y), rbind(x, y) bind_cols(x, y), cbind(x, y) 6/12 Inner join 7/12 Outer joins 8/12 Inner join / Outer joins 9/12 Duplicitní hodnoty klíčů 10/12 Semi join / Anti join 11/12 Příklad 12/12