# 02 Charakteristiky výběrového souboru # nejmenší a největší hodnota v řadě čísel, nebo ve znacích (!řazení znaků) min(delka) max(delka) min(c("a", "1", ".", "A")) max(c("a", "1", ".", "A")) min(barva) # -> Error = nemá smysl pro faktory # aritmetický průměr mean(delka) mean(c("a", "1", ".", "A")) # -> NA = Not Available, nemá čísla, nemůže počítat # totéž "ručně": sečti čísla v proměnné "delka" a poděl počtem měření sum(delka)/length(delka) # modus: v R není přímý příkaz; poradíme si např. takto sort(table(delka),decreasing = T) # medián = prostřední hodnota median(delka) # také oklikou: length(delka) # -> 10, tedy prostřední hodnota je (5.+6.)/2 rank(delka) which(rank(delka)==5) which(rank(delka)==6) (delka[...]+delka[...])/2 # kvantil, kvartil # první kvartil odděluje čtvrtinu (25 %) nejmenších hodnot: quantile(delka,probs = 0.25) # třetí kvartil odděluje 3/4 malých hodnot od 1/4 největších hodnot: quantile(delka,probs = 0.75) # proveď součin všech hodnot v proměnné (součin anglicky = product) prod(delka) # rozsah, rozpětí range(delka) # vrátí MIN a MAX max(delka)-min(delka) # mezikvartilové rozpětí quantile(delka, 0.75) - quantile(delka,0.25) # spočítá správně, ale ve výstupu zůstane matoucí popisek 75 % # rozptyl var(delka) # "ruční" varianta na procvičení. Hlídej závorky! sum((delka-mean(delka))^2)/(length(delka)-1) # entropie cet.ba<-table(barva) # ulož četnosti jednotlivých barev do nové proměnné "cet.ba" -sum((cet.ba/length(barva))*log(cet.ba/length(barva))) # směrodatná odchylka sd(delka) # variační koeficient sd(delka)/mean(delka) # porovnáme délku pastelek tlustých a tenkých tluste<-subset(pastelky, tloustka=="tlusta") tenke<-subset(pastelky, tloustka=="tenka") sd(tluste$delka)/mean(tluste$delka) sd(tenke$delka)/mean(tenke$delka) # jiný způsob bez tvoření nových objektů: with(subset(pastelky, tloustka=="tlusta"),sd(delka)/mean(delka)) with(subset(pastelky, tloustka=="tenka"),sd(delka)/mean(delka)) # z-skóry, normování delka delka-mean(delka) delka.norm<-(delka-mean(delka))/sd(delka) # !! POZOR "norm" i "dnorm" jsou názvy funkcí, nechceme si je přemazat našimi čísly! mean(delka.norm) round(mean(delka.norm),2) var(delka.norm) # GRAFY ============================================== # krabicový diagram boxplot # --> do HELPU, také pomocí F1 boxplot(delka, main="Délka pastelek",ylab="délka [cm]") title(sub = "outlier - min - Q1 - median - Q3 - max") boxplot(delka, horizontal = T, main="Délka pastelek",xlab="délka [cm]") boxplot(delka~ostrost) boxplot(delka~ostrost, varwidth=T) # histogram četností hist(delka, ylab="četnosti", main="Histogram délek pastelek") table(delka) # výsečový diagram pie(rep(1, 24), col = rainbow(24), radius = 0.9) # sloupcový diagram barplot(delka) barplot(barva) # takhle to nefunguje ... barplot(table(barva), main="Četnosti pastelek podle barvy") # barvičky barplot(table(barva), main="Četnosti pastelek podle barvy", col=c("brown","blue","pink","gray", "green", "yellow"))