#symboly v R - tyto znaky nikdy nepouzivejte ve jmenech sloupcu, je take vhodne, aby se nobjeovovaly v datech
# # pro komentare
# ? zisk napovedy napr
?read.csv
# $ oddeleni datasetu a promenne
# % procenta, v nekterých knihovnách slouzi k oddelování casti operace (to se nas bude tykat u stahovani)
# ^ umocneni
# &  ma funkci AND ve formulaci vyberu
# *  nasobeni, interakce v regresi,...
# () obvykle zahrnuje detaily operace (viz napr. otevirani souboru)
# [] urceni nejake casti dat
# {} smycky
# -  odecitani, potreba do kombinace  <-
# + scitani, v tvorbe grafu oddeluje kroky tvorby grafu
# ,  oddeluje jednotlive prvky operaci
# <> vetsi, mensi, obvykle v kombinaci s =
# \ oddelovace v ceste k souborum, umoznuji zapsat nejaky specialni znak, tak aby nemel svou funkci
# / deleno, oddelovace v ceste k souborum
# | funkce OR, potreba pro nektere dalsi formulace
# "" obvykle definuji nejaky znak nebo text
# pro pouziti v nazvech tedy zbyva _ a .

#stahnete vysledky krajskych voleb 2016 pomoci prohlizece
#https://www.volby.cz/opendata/kz2016/KZ2016data20161008_xlsx.zip



#aktivujte knihovnu umoznujici otevrit excel, zatimco .csv soubory umi R otevrit bez pomoci, tak pro otvirani excelu potrebuje nainstalovat a spustit rozsireni
install.packages("readxl")
#nainstalovane rozsireni je pak potreba spustit
library(readxl)
#seznam "oficialnich" packegu je mozne prohlednout v pravem dolnim okne, zde je mozne se proklikat k napovede a navodum

#nactete soubory kzt6p-1 - kzt6p-13 pod jmeny k1, k2, ..., k13
k1 <- read_excel("C:\\Users\\petrh\\Documents\\politologie\\vyuka\\datamanagment\\KZ2016data20161008_xlsx\\kzt6p-1.xlsx")
#v okne environmentje napsano, ze nactena data jsou ve formatu tbl_df, pouzijeme tedy napovedu co to znamena, v principu jde o to, ze nazvy sloupcu jsou oddeleny od dat 
?tbl_df
#pro nacteni umoznujici spravne provedeni doplnime prikaz o as.data.frame, ktery upravi format z tbl_df na data.frame, což je format, ktery potrebujeme
#pozor na zavorky as.data.frame je operace, takze to na co operaci aplikujeme musi byt v zavorce. Pozor zejmena na uzavereni zavorky
k1 <- as.data.frame(read_excel("C:\\Users\\petrh\\Documents\\politologie\\vyuka\\datamanagment\\KZ2016data20161008_xlsx\\kzt6p-1.xlsx"))
#nactete k2- k13












#zobrazeni několika horních řádků datasetu
head(k1)

#zobrazeni statistickeho popisu datasetu
summary(k1)

#Min.   :  
#1st Qu.:     čtvrtina případů má menší hodnotu
#Median :     polovina případů má menší hodnotu
#Mean   :     aritmetický průměr (geometricý střed)
#3rd Qu.:     tři čtvrtiny případů maji menší hodnotu
#Max.   :
#NA's   :      NA označuje chybějící hodnoty, tedy řádky, kde není žádna informace 
##nakladani s chybejicimi hodnotami
###odstraneni
###nahrazeni nulou
###nahrazeni nejvice pravdepodobnou hodnotou

#kolik maji jednotlive tabulky sloupcu a radku
##vidime v environment pripadne
str(k1)
str(k2)
#...
#sloupcu je vzdy 86, radky je od 5252 do 24820
#jak se sloupce jmenuji? Jsou nazvy stejne v tabulce k1 a k13
names(k1)
names(k13)

#jake jmeno ma 5 sloupec
names(k1)[5]

#jak se jmenuje prvnich 10 sloupcu
names(k1)[1:10]
k1[0, 1:10]
#jak se jmenuje poslednich 10 sloupcu
names(k1)[77:86]

#pridani oznaceni kraje do tabulky
k1$kraj <- "stredocesky"
k2$kraj <- "jihocesky"
k3$kraj <- "plzensky"
k4$kraj <- "karlovarsky"
k5$kraj <- "ustecky"
k6$kraj <- "liberecky"
k7$kraj <- "kralovehradecky"
k8$kraj <- "pardubicky"
k9$kraj <- "vysocina"
k10$kraj <- "jihomoravsky"
k11$kraj <- "olomoucky"
k12$kraj <- "zlinsky"
#13. kraj pojemnujte slovem "moravskoslezsky"


#kdyz mame v kazde tabulce stejne mnozstvi sloupcu se stejnymi nazvy, tak muzeme tabulku spojit pomoci prikazu rbind
?rbind
k1a2 <- rbind(k1,k2)
kraje <- rbind(k1, k2,k3, k4,k5,k6, k7,k8, k9,k10,k11, k12,k13)

#rozdeleni tabulky pomoci pozic sloupcu
prvni_pulka <- kraje[,1:43] # funguje podobne jako lode, jen sloupce i rdky jsou oznaceny cisly a lze strilet do vetsi plochy, pred carkou jsou radky, za carkou sloupce, kdyz zustane prazdne, zamena to vyber vseho
#vytvorte soubor druha pulka, která bude obsahovat druhou polovinu sloupcu
druha_pulka <- 


#pripojeni sloupcu pomoci cbind
kraje_znovu <- cbind(prvni_pulka, druha_pulka)

#rozdil mezi cbind a rbind
#cbind: -- + -- = ----
#rbind: ----
#        +    = ---- 
#       ----    ----

names(kraje)
#########################################
## Vyber sloupcu z tabulky #############
########################################


#vyber dle nazvu sloupcu 
obec <- kraje["OBEC"] #kdyz mame jeden prvek, tak jej napiseme do hranate zavorky
krajeok <- kraje[c("kraj", "OBEC", "OKRSEK", "KSTRANA" ,  "POC_HLASU")] #kdyz mame prvku vice, musime je zapsat do kulate zavorky a pred ni napsat pismeno c, to urcuje, ze v zavorce je list hodnot
#vyber dle pozice sloupcu
names(kraje)[c(6, 9, 10)]
krajeok_jinak <- kraje[c(6, 9, 10)]
#vyber dle pozice sloupcu
#smazani sloupce
kraje$TYP_FORM <- NULL #pozor, jde o nevratnou operaci, pokud se chcete vratit zpet, je nutne provest prikaz vyrabejici objekt kraje
#smazani vice sloupcu
kraje[c("ID_OKRSKY","TYP_FORM","OPRAVA","CHYBA","OKRES")] <- list(NULL) #pozor, jde o nevratnou operaci, pokud se chcete vratit zpet, je nutne provest prikaz vyrabejici objekt kraje

#obnova puvodni podoby tabulky kraje
kraje <- rbind(k1, k2,k3, k4,k5,k6, k7,k8, k9,k10,k11, k12,k13)
#vyberte sloupce obec, poc_hlasu, a hlasy_01 - hlasy_05 z tabulky kraje

#smazte poslednich 70 sloupcu z tabulky kraje, korme posledniho sloupce


kraje <- rbind(k1, k2,k3, k4,k5,k6, k7,k8, k9,k10,k11, k12,k13)
#####################################
## vyber radku z tabulky ############
#####################################

#vyber dle pozice

krajeok[20:30,]

#vyber dle hodnot

ods <- subset(krajeok, krajeok$KSTRANA == 2)
kromeods <- subset(krajeok, krajeok$KSTRANA != 2)
ods_jmk <- subset(krajeok, krajeok$KSTRANA == 2 & krajeok$kraj == "jihomoravsky")
table(krajeok$kraj)
ods_morava <- subset(krajeok, krajeok$KSTRANA == 2 & (krajeok$kraj == "jihomoravsky"  |krajeok$kraj == "olomoucky"| krajeok$kraj == "zlinsky" |krajeok$kraj == "moravskoslezsky" ))
#