# https://cran.r-project.org/web/packages/rvest/index.html # Autor: Hadley Wickham library(rvest) library(stringr) url <- 'https://www.csfd.cz/zebricky/specificky-vyber/?type=0&origin=&genre=&year_from=2011&year_to=&actor=&director=&ok=Zobrazit&_form_=charts&show=complete' webpage <- read_html(url) x <- 1 data <- data.frame(stringsAsFactors = F) seznam_url <- webpage %>% html_nodes('.film') %>% html_nodes("a") %>% html_attr("href") seznam_url <- str_c("https://www.csfd.cz", seznam_url) repeat { page <- read_html(seznam_url[x]) titul <- page %>% html_nodes('.header') %>% html_nodes('h1') %>% html_text() titul <- titul %>% str_trim() zanr <- page %>% html_nodes('.genre') %>% html_text() puvod <- page %>% html_nodes('.origin') %>% html_text() puvod <- str_split(puvod, ", ")[[1]] produkce <- puvod[1] rok <- puvod[2] delka <- puvod[3] rezie <- page %>% html_nodes('.creators') %>% html_nodes('div') %>% html_nodes('span') %>% html_text() rezie <- rezie %>% str_remove_all("\t") %>% str_remove_all("\n") rezie <- rezie[1] hodnoceni <- page %>% html_nodes('.average') %>% html_text() hodnoceni <- hodnoceni %>% str_remove("%") hodnoceni <- as.numeric(hodnoceni) n_hodnoceni <- page %>% html_nodes('.count') %>% html_text() n_hodnoceni <- n_hodnoceni[1] n_hodnoceni <- n_hodnoceni %>% str_trim() %>% str_remove("všechna hodnocení\\(") %>% str_remove("\\)") data = rbind (data, c(x, titul, zanr, produkce, rok, delka, rezie, hodnoceni, n_hodnoceni), stringsAsFactors = F) x <- x + 1 if (x == 301) { break } } colnames(data) <- c("id", "titul", "žánr", "produkce", "rok", "délka", "režie", "hodnocení", "počet hodnocení") head(data)