#symboly v R - tyto znaky nikdy nepouzivejte ve jmenech sloupcu, je take vhodne, aby se nobjeovovaly v datech # # pro komentare # ? zisk napovedy napr ?read.csv # $ oddeleni datasetu a promenne # % procenta, v nekterých knihovnách slouzi k oddelování casti operace (to se nas bude tykat u stahovani) # ^ umocneni # & ma funkci AND ve formulaci vyberu # * nasobeni, interakce v regresi,... # () obvykle zahrnuje detaily operace (viz napr. otevirani souboru) # [] urceni nejake casti dat # {} smycky # - odecitani, potreba do kombinace <- # + scitani, v tvorbe grafu oddeluje kroky tvorby grafu # , oddeluje jednotlive prvky operaci # <> vetsi, mensi, obvykle v kombinaci s = # \ oddelovace v ceste k souborum, umoznuji zapsat nejaky specialni znak, tak aby nemel svou funkci # / deleno, oddelovace v ceste k souborum # | funkce OR, potreba pro nektere dalsi formulace # "" obvykle definuji nejaky znak nebo text # pro pouziti v nazvech tedy zbyva _ a . ##### Otevreni dat z volby.cz ################### ## kandidati v obecnich volbach ################ ## vsechny soubory a slozky, ke kterym pristupujete pres R, musi mit uvedenou cestu, kdyz pracujete jen s jednou slozkou, ###jde to zjednosit nastavenim pracovni slozky, ale to muze zkomplikovat postup, kdyz potrebujete neco odjinud ### cestu zjistite tak, ze kliknete pravym na soubor a pote na vlastnosti na konci nabidky #### ve windows jsou jednotlive urovne oddeleny pomoci \ ale r pouziva \\ nebo /, takze to je potreba vzdy upravit ## soubory ktere nahrajete do r neprjemovavejte v jinych softwarech a nepresouvejte, pokud ano, pak jmeno a cestu zmente i v R #nacteni souboru ##r je objektovy jazyk, takze pro vetsinu operaci je vhodne rict, ze ma vzniknout objekt, ten se v tomto pripade jmenuje kandidati # nacteni souboru je slozeno z funkce read.csv, cesty k souboru a urceni oddelovace sloupců (sep=";"), v tomto pripade je oddelovacem strednik, nekdy to byva carka # do R lze nacist i jine formaty jako .xls, .sav, .dta apod., bude ukazano pozdeji #stáhněte si a rozbalte soubory z https://www.volby.cz/opendata/kv2022/KV2022reg20230218_csv.zip #objekt #funkce #funkce cesta k souboru oddelovac kandidati_2022 <- read.csv("C:\\Users\\petrh\\Documents\\politologie\\vyuka\\datamanagment\\kvrk.csv", sep=";") #zobrazeni datasetu View(kandidati_2022) #zobrazeni několika horních řádků datasetu head(kandidati_2022) #zobrazeni vlastností datasetu str(kandidati_2022) #zobrazeni statistickeh popisu datasetu summary(kandidati_2022) #Min. : #1st Qu.: čtvrtina případů má menší hodnotu #Median : polovina případů má menší hodnotu #Mean : aritmetický průměr (geometricý střed) #3rd Qu.: tři čtvrtiny případů maji menší hodnotu #Max. : #NA's : NA označuje chybějící hodnoty, tedy řádky, kde není žádna informace ##nakladani s chybejicimi hodnotami ###odstraneni ###nahrazeni nulou ###nahrazeni nejvice pravdepodobnou hodnotou #stahnete vysledky krajskych voleb 2016 pomoci prohlizece #https://www.volby.cz/opendata/kz2016/KZ2016data20161008_xlsx.zip #aktivujte knihovnu umoznujici otevrit excel, zatimco .csv soubory umi R otevrit bez pomoci, tak pro otvirani excelu potrebuje nainstalovat a spustit rozsireni remove.packages(rlang) install.packages("rlang") install.packages("readxl") #nainstalovane rozsireni je pak potreba spustit library(readxl) #seznam "oficialnich" packegu je mozne prohlednout v pravem dolnim okne, zde je mozne se proklikat k napovede a navodum #nactete soubory kzt6p-1 - kzt6p-13 pod jmeny k1, k2, ..., k13 k1 <- read_excel("C:\\Users\\petrh\\Documents\\politologie\\vyuka\\datamanagment\\KZ2016data20161008_xlsx\\kzt6p-1.xlsx") #v okne environmentje napsano, ze nactena data jsou ve formatu tbl_df, pouzijeme tedy napovedu co to znamena, v principu jde o to, ze nazvy sloupcu jsou oddeleny od dat ?tbl_df #pro nacteni umoznujici spravne provedeni doplnime prikaz o as.data.frame, ktery upravi format z tbl_df na data.frame, což je format, ktery potrebujeme #pozor na zavorky as.data.frame je operace, takze to na co operaci aplikujeme musi byt v zavorce. Pozor zejmena na uzavereni zavorky k1 <- as.data.frame(read_excel("C:\\Users\\petrh\\Documents\\politologie\\vyuka\\datamanagment\\KZ2016data20161008_xlsx\\kzt6p-1.xlsx")) k2 <- as.data.frame(read_excel("C:\\Users\\petrh\\Documents\\politologie\\vyuka\\datamanagment\\KZ2016data20161008_xlsx\\kzt6p-2.xlsx")) k3 <- as.data.frame(read_excel("C:\\Users\\petrh\\Documents\\politologie\\vyuka\\datamanagment\\KZ2016data20161008_xlsx\\kzt6p-3.xlsx")) k4 <- as.data.frame(read_excel("C:\\Users\\petrh\\Documents\\politologie\\vyuka\\datamanagment\\KZ2016data20161008_xlsx\\kzt6p-4.xlsx")) k5 <- as.data.frame(read_excel("C:\\Users\\petrh\\Documents\\politologie\\vyuka\\datamanagment\\KZ2016data20161008_xlsx\\kzt6p-5.xlsx")) k6 <- as.data.frame(read_excel("C:\\Users\\petrh\\Documents\\politologie\\vyuka\\datamanagment\\KZ2016data20161008_xlsx\\kzt6p-6.xlsx")) k7 <- as.data.frame(read_excel("C:\\Users\\petrh\\Documents\\politologie\\vyuka\\datamanagment\\KZ2016data20161008_xlsx\\kzt6p-7.xlsx")) k8 <- as.data.frame(read_excel("C:\\Users\\petrh\\Documents\\politologie\\vyuka\\datamanagment\\KZ2016data20161008_xlsx\\kzt6p-8.xlsx")) k9 <- as.data.frame(read_excel("C:\\Users\\petrh\\Documents\\politologie\\vyuka\\datamanagment\\KZ2016data20161008_xlsx\\kzt6p-9.xlsx")) k10 <- as.data.frame(read_excel("C:\\Users\\petrh\\Documents\\politologie\\vyuka\\datamanagment\\KZ2016data20161008_xlsx\\kzt6p-10.xlsx")) k11 <- as.data.frame(read_excel("C:\\Users\\petrh\\Documents\\politologie\\vyuka\\datamanagment\\KZ2016data20161008_xlsx\\kzt6p-11.xlsx")) k12 <- as.data.frame(read_excel("C:\\Users\\petrh\\Documents\\politologie\\vyuka\\datamanagment\\KZ2016data20161008_xlsx\\kzt6p-12.xlsx")) k13 <- as.data.frame(read_excel("C:\\Users\\petrh\\Documents\\politologie\\vyuka\\datamanagment\\KZ2016data20161008_xlsx\\kzt6p-13.xlsx")) #zobrazeni několika horních řádků datasetu head(k1) #zobrazeni statistickeho popisu datasetu #zobrazeni vlastnosti tabulky a sloupcu str(k1) str(k2) #... #sloupcu je vzdy 86, radky je od 5252 do 24820 #jak se sloupce jmenuji? Jsou nazvy stejne v tabulce k1 a k13 names(k1) names(k13) #jake jmeno ma 5 sloupec names(k1)[5] #jak se jmenuje prvnich 10 sloupcu names(k1)[1:10] k1[0, 1:10] #jak se jmenuje poslednich 10 sloupcu names(k1)[77:86] #pridani oznaceni kraje do tabulky k1$kraj <- "stredocesky" k2$kraj <- "jihocesky" k3$kraj <- "plzensky" k4$kraj <- "karlovarsky" k5$kraj <- "ustecky" k6$kraj <- "liberecky" k7$kraj <- "kralovehradecky" k8$kraj <- "pardubicky" k9$kraj <- "vysocina" k10$kraj <- "jihomoravsky" k11$kraj <- "olomoucky" k12$kraj <- "zlinsky" k13$kraj <- "moravskoslezsky" #kdyz mame v kazde tabulce stejne mnozstvi sloupcu se stejnymi nazvy, tak muzeme tabulku spojit pomoci prikazu rbind ?rbind k1a2 <- rbind(k1,k2) kraje <- rbind(k1, k2,k3, k4,k5,k6, k7,k8, k9,k10,k11, k12,k13) #rozdeleni tabulky pomoci pozic sloupcu prvni_pulka <- kraje[,1:43] # funguje podobne jako lode, jen sloupce i rdky jsou oznaceny cisly a lze strilet do vetsi plochy, pred carkou jsou radky, za carkou sloupce, kdyz zustane prazdne, zamena to vyber vseho #vytvorte soubor druha pulka, která bude obsahovat druhou polovinu sloupcu druha_pulka <- kraje[,44:86] #pripojeni sloupcu pomoci cbind kraje_znovu <- cbind(prvni_pulka, druha_pulka) #rozdil mezi cbind a rbind #cbind: -- + -- = ---- #rbind: ---- # + = ---- # ---- ---- names(kraje) ######################################### ## Vyber sloupcu z tabulky ############# ######################################## #vyber dle nazvu sloupcu obec <- kraje["OBEC"] #kdyz mame jeden prvek, tak jej napiseme do hranate zavorky krajeok <- kraje[c("kraj", "OBEC", "OKRSEK", "KSTRANA" , "POC_HLASU")] #kdyz mame prvku vice, musime je zapsat do kulate zavorky a pred ni napsat pismeno c, to urcuje, ze v zavorce je list hodnot #vyber dle pozice sloupcu names(kraje)[c(6, 9, 10)] krajeok_jinak <- kraje[c(6, 9, 10)] #vyber dle pozice sloupcu #smazani sloupce kraje$TYP_FORM <- NULL #pozor, jde o nevratnou operaci, pokud se chcete vratit zpet, je nutne provest prikaz vyrabejici objekt kraje #smazani vice sloupcu kraje[c("ID_OKRSKY","TYP_FORM","OPRAVA","CHYBA","OKRES")] <- list(NULL) #pozor, jde o nevratnou operaci, pokud se chcete vratit zpet, je nutne provest prikaz vyrabejici objekt kraje #obnova puvodni podoby tabulky kraje kraje <- rbind(k1, k2,k3, k4,k5,k6, k7,k8, k9,k10,k11, k12,k13) #vyberte sloupce obec, poc_hlasu, a hlasy_01 - hlasy_05 z tabulky kraje kraje_vyber <- kraje[c( "OBEC", "POC_HLASU", "HLASY_01", "HLASY_02", "HLASY_03", "HLASY_04", "HLASY_05")] #smazte poslednich 70 sloupcu z tabulky kraje, korme posledniho sloupce kraje[,c(17:86)]<- NULL kraje <- rbind(k1, k2,k3, k4,k5,k6, k7,k8, k9,k10,k11, k12,k13) ##################################### ## vyber radku z tabulky ############ ##################################### #vyber dle pozice krajeok[20:30,] #vyber dle hodnot ods <- subset(krajeok, krajeok$KSTRANA == 2) kromeods <- subset(krajeok, krajeok$KSTRANA != 2) ods_jmk <- subset(krajeok, krajeok$KSTRANA == 2 & krajeok$kraj == "jihomoravsky") table(krajeok$kraj) ods_morava <- subset(krajeok, krajeok$KSTRANA == 2 & (krajeok$kraj == "jihomoravsky" |krajeok$kraj == "olomoucky"| krajeok$kraj == "zlinsky" |krajeok$kraj == "moravskoslezsky" )) #