#symboly v R - tyto znaky nikdy nepouzivejte ve jmenech sloupcu, je take vhodne, aby se nobjeovovaly v datech # # pro komentare # ? zisk napovedy napr ?read.csv # $ oddeleni datasetu a promenne # % procenta, v nekterých knihovnách slouzi k oddelování casti operace (to se nas bude tykat u stahovani) # ^ umocneni # & ma funkci AND ve formulaci vyberu # * nasobeni, interakce v regresi,... # () obvykle zahrnuje detaily operace (viz napr. otevirani souboru) # [] urceni nejake casti dat # {} smycky # - odecitani, potreba do kombinace <- # + scitani, v tvorbe grafu oddeluje kroky tvorby grafu # , oddeluje jednotlive prvky operaci # <> vetsi, mensi, obvykle v kombinaci s = # \ oddelovace v ceste k souborum, umoznuji zapsat nejaky specialni znak, tak aby nemel svou funkci # / deleno, oddelovace v ceste k souborum # | funkce OR, potreba pro nektere dalsi formulace # "" obvykle definuji nejaky znak nebo text # pro pouziti v nazvech tedy zbyva _ a . #stahnete vysledky krajskych voleb 2016 pomoci prohlizece #https://www.volby.cz/opendata/kz2016/KZ2016data20161008_xlsx.zip #aktivujte knihovnu umoznujici otevrit excel, zatimco .csv soubory umi R otevrit bez pomoci, tak pro otvirani excelu potrebuje nainstalovat a spustit rozsireni install.packages("readxl") #nainstalovane rozsireni je pak potreba spustit library(readxl) #seznam "oficialnich" packegu je mozne prohlednout v pravem dolnim okne, zde je mozne se proklikat k napovede a navodum #nactete soubory kzt6p-1 - kzt6p-13 pod jmeny k1, k2, ..., k13 k1 <- read_excel("C:\\Users\\petrh\\Documents\\politologie\\vyuka\\datamanagment\\KZ2016data20161008_xlsx\\kzt6p-1.xlsx") #v okne environmentje napsano, ze nactena data jsou ve formatu tbl_df, pouzijeme tedy napovedu co to znamena, v principu jde o to, ze nazvy sloupcu jsou oddeleny od dat ?tbl_df #pro nacteni umoznujici spravne provedeni doplnime prikaz o as.data.frame, ktery upravi format z tbl_df na data.frame, což je format, ktery potrebujeme #pozor na zavorky as.data.frame je operace, takze to na co operaci aplikujeme musi byt v zavorce. Pozor zejmena na uzavereni zavorky k1 <- as.data.frame(read_excel("C:\\Users\\petrh\\Documents\\politologie\\vyuka\\datamanagment\\KZ2016data20161008_xlsx\\kzt6p-1.xlsx")) #nactete k2- k13 #zobrazeni několika horních řádků datasetu head(k1) #zobrazeni statistickeho popisu datasetu summary(k1) #Min. : #1st Qu.: čtvrtina případů má menší hodnotu #Median : polovina případů má menší hodnotu #Mean : aritmetický průměr (geometricý střed) #3rd Qu.: tři čtvrtiny případů maji menší hodnotu #Max. : #NA's : NA označuje chybějící hodnoty, tedy řádky, kde není žádna informace ##nakladani s chybejicimi hodnotami ###odstraneni ###nahrazeni nulou ###nahrazeni nejvice pravdepodobnou hodnotou #kolik maji jednotlive tabulky sloupcu a radku ##vidime v environment pripadne str(k1) str(k2) #... #sloupcu je vzdy 86, radky je od 5252 do 24820 #jak se sloupce jmenuji? Jsou nazvy stejne v tabulce k1 a k13 names(k1) names(k13) #jake jmeno ma 5 sloupec names(k1)[5] #jak se jmenuje prvnich 10 sloupcu names(k1)[1:10] k1[0, 1:10] #jak se jmenuje poslednich 10 sloupcu names(k1)[77:86] #pridani oznaceni kraje do tabulky k1$kraj <- "stredocesky" k2$kraj <- "jihocesky" k3$kraj <- "plzensky" k4$kraj <- "karlovarsky" k5$kraj <- "ustecky" k6$kraj <- "liberecky" k7$kraj <- "kralovehradecky" k8$kraj <- "pardubicky" k9$kraj <- "vysocina" k10$kraj <- "jihomoravsky" k11$kraj <- "olomoucky" k12$kraj <- "zlinsky" #13. kraj pojemnujte slovem "moravskoslezsky" #kdyz mame v kazde tabulce stejne mnozstvi sloupcu se stejnymi nazvy, tak muzeme tabulku spojit pomoci prikazu rbind ?rbind k1a2 <- rbind(k1,k2) kraje <- rbind(k1, k2,k3, k4,k5,k6, k7,k8, k9,k10,k11, k12,k13) #rozdeleni tabulky pomoci pozic sloupcu prvni_pulka <- kraje[,1:43] # funguje podobne jako lode, jen sloupce i rdky jsou oznaceny cisly a lze strilet do vetsi plochy, pred carkou jsou radky, za carkou sloupce, kdyz zustane prazdne, zamena to vyber vseho #vytvorte soubor druha pulka, která bude obsahovat druhou polovinu sloupcu druha_pulka <- #pripojeni sloupcu pomoci cbind kraje_znovu <- cbind(prvni_pulka, druha_pulka) #rozdil mezi cbind a rbind #cbind: -- + -- = ---- #rbind: ---- # + = ---- # ---- ---- names(kraje) ######################################### ## Vyber sloupcu z tabulky ############# ######################################## #vyber dle nazvu sloupcu obec <- kraje["OBEC"] #kdyz mame jeden prvek, tak jej napiseme do hranate zavorky krajeok <- kraje[c("kraj", "OBEC", "OKRSEK", "KSTRANA" , "POC_HLASU")] #kdyz mame prvku vice, musime je zapsat do kulate zavorky a pred ni napsat pismeno c, to urcuje, ze v zavorce je list hodnot #vyber dle pozice sloupcu names(kraje)[c(6, 9, 10)] krajeok_jinak <- kraje[c(6, 9, 10)] #vyber dle pozice sloupcu #smazani sloupce kraje$TYP_FORM <- NULL #pozor, jde o nevratnou operaci, pokud se chcete vratit zpet, je nutne provest prikaz vyrabejici objekt kraje #smazani vice sloupcu kraje[c("ID_OKRSKY","TYP_FORM","OPRAVA","CHYBA","OKRES")] <- list(NULL) #pozor, jde o nevratnou operaci, pokud se chcete vratit zpet, je nutne provest prikaz vyrabejici objekt kraje #obnova puvodni podoby tabulky kraje kraje <- rbind(k1, k2,k3, k4,k5,k6, k7,k8, k9,k10,k11, k12,k13) #vyberte sloupce obec, poc_hlasu, a hlasy_01 - hlasy_05 z tabulky kraje #smazte poslednich 70 sloupcu z tabulky kraje, korme posledniho sloupce kraje <- rbind(k1, k2,k3, k4,k5,k6, k7,k8, k9,k10,k11, k12,k13) ##################################### ## vyber radku z tabulky ############ ##################################### #vyber dle pozice krajeok[20:30,] #vyber dle hodnot ods <- subset(krajeok, krajeok$KSTRANA == 2) kromeods <- subset(krajeok, krajeok$KSTRANA != 2) ods_jmk <- subset(krajeok, krajeok$KSTRANA == 2 & krajeok$kraj == "jihomoravsky") table(krajeok$kraj) ods_morava <- subset(krajeok, krajeok$KSTRANA == 2 & (krajeok$kraj == "jihomoravsky" |krajeok$kraj == "olomoucky"| krajeok$kraj == "zlinsky" |krajeok$kraj == "moravskoslezsky" )) #