MA 0008 – teorie psti cvičení 02: popisná statistika šRobová, Hála, Calda: Komplexní čísla, kombinatorika, pravděpodobnost, statistika š šČást STATISTIKA: str. 148-194, neučte se pojem výběrového rozptylu a výběrové směrodatné odchylky na str. 180-182 š šJazyk R je pouze pro zájemce, všechno lze počítat i s kalkulačkou!! Příklady viz nová učebnice pro SŠ: Příklad A, str. 150: šJsou zadány četnosti jednotlivých typů SŠ, odkud jsou studenti š a) sestavte histogram četností z těchto dat š b) spočtěte relativní četnosti a zobrazte je v kruhovém diagramu š š Řešení v R: š Øbarplot(c(48,20,160,92)) # nakreslí obdélníčky dané výšky Øpie(c(48,20,160,92)) # nakreslí koláčový graf š Ørelc<- (1/320)* c(48,20,160,92) # relativní četnosti Øpie(relc) # nakreslí koláč četností relativních š Příklad B, str. 152: šJsou zadány velikosti prodaných obleků během jednoho týdne v dané prodejně … š a) sestavte histogram četností a polygon četností z těchto dat, š b) sestavte tabulku relativních četností, kumulativních absolutních četností, kumulativních relativních četností pro tato data š c) určete modus a medián, průměr, rozptyl a směrodatnou odchylku velikostí obleku šd) Určete variační rozpětí a mezikvartilové rozpětí velikosti obleků š v R: š Øobleky<- c(39,41,40,42,41,40,42,42,40,43,42,41,43,39,42,41,42,39,41,37,43, 41,38,43,42,41,40,41,38,40,40,39,41,40,42,40,41,42,40,43,38,39,41,41,42,45) š Øhist(obleky,col=6:7,breaks=36.5:45.5) # histogram, strida barvy 6-7 š# a středy obdélníčků umístí do celočíselných hodnot, hranice jsou posunuty Øtable(obleky) # spocte cetnosti š Øx<- c(37,38,39,40,41,42,43,45) # opiseme hodnoty znaku do vektoru x Øy<- c(1,3,5,9,12,10,5,1) # opiseme cetnosti do y Øplot(x,y,pch=16) # nakresli body v modu 16 = vyplnene kolecko Ølines(x,y) # spoji nakreslene body … najedeme na file – lze ulozit obrazek v jpg, pdf v R, pokračování příkladu: Ørely<- (1/length(obleky))*y # spocte rel cetnosti Økumy<- y # do promenne kumy si pripravime vektor cetnosti, Øfor (i in 2:length(kumy)) kumy[i]<- kumy[i]+kumy[i-1] # kum cetnosti jsou hotovy!!!! Ørelkumy<- (1/length(obleky))*kumy # rel kum cetnosti š šc) Modus = 41 = median … vidíme z tabulky četností Ømean(obleky) # vypocte prumer Ørozptyl <- function (x) ((length(x)-1)/length(x))*var(x) # definuje funkci rozptylu š Ørozptyl(obleky) # vypocte rozptyl merenych hodnot 2.534972 Øsqrt(rozptyl(obleky)) # vypocte smerodatnou odchylku mereni 1.592159 v R, dokončení příkladu: šd) Určete variační rozpětí a mezikvartilové rozpětí velikosti obleků: š Ømax(obleky)-min(obleky) # variacni rozpeti Øquantile(obleky, c(0.25,0.75)) # najde dolni a horni kvartil š# odectenim obou hodnot mame mezikvartilove rozpeti š Příklad o 75 učitelích z Hindlse (str.23): šJsou zadány počty let praxe jednotlivých 75 učitelů… š a) sestavte intervalové rozdělení četností pro tato data, š b) vypočtěte vážený průměr, vážený rozptyl a směrodatnou odchylku jen zhruba pomocí těchto četností. š Příklad o 75 učitelích z Hindlse (str.23): šZadání tabulky dat: š Ømojedata<- data.frame(trida=numeric(0),praxe=numeric(0)) Ømojedata<-edit(mojedata) š# a) nadefinujeme sloupce „platová třída“ a „délka praxe“ š# b) edit(moje data) vyvolá tabulku, do které data napíšeme š> attach(mojedata) # tento příkaz aktivizuje práci s tabulkou Příklad o 75 učitelích z Hindlse (str.23): Øtable(praxe) # rozdeleni cetnosti je nedostatecne, protoze ve vetsine skupin je malo mereni … musime nektere cetnosti sloucit š Øhist(praxe) # program si sam slouci cetnosti do interval delky 5 jednotek Øhist(praxe, col=6:7, breaks= c(0,10,20,30,40,50)) š# slouci cetnosti do intervalu delky 10 š šAbychom získali i četnosti číselně, musíme „nasekat“ hodnoty do intervalů: Ømeze<- c(0,10,20,30,40,50) Øintervaly<- cut(praxe, meze) Øtable(intervaly] # získáme četnosti (21,29,15,8,2) A zbývá vypočíst průměr, rozptyl a odchylku: Příklad D, str. 159: Domácí úkol – nastudujte (řešení v R viz následující tři slajdy) šJsou zadány kupní ceny bytů ve velkých městech v roce 2007 … š a) proveďte pro ně intervalové rozdělení četností š b) sestavte tabulku relativních četností, kumulativních absolutních četností, kumulativních relativních četností pro tato data š Příklad D v jazyce R: Příklad D v jazyce R, druhá část: šUrčíme meze s krokem 5400, které pokrývají všechna měření: Øbmeze<- c(12700, 18100, 23500, 28900, 34300, 39700, 45100) š nasekáme hodnoty do daných intervalů pomocí funkce cut: Øbintervaly <- cut(byty,bmeze) Øtable (bintervaly) # ziskali jsme cetnosti (11,11,3,1,0,1) Øcetnost <- c(11,11,3,1,0,1) šRelativni a kumulativni cetnosti budou ted uz malina š š Příklad D v jazyce R, třetí část: šRelativní četnosti v jazyku R: Ørcetnost <- (1/length(byty))* cetnost škumulativni cetnosti: Økcetnost <- cetnost # jen priprava vektoru na kum cetnosti Øfor (i in 2:length(kcetnost)) kcetnost[i]<-kcetnost[i]+kcetnost[i-1] Ørkcetnost <- (1/length(byty))*kcetnost škcetnost … vector kum cetnosti, š rkcetnost … vector rel kum cetnosti š š Příklady H a I (í), str. 170: Domácí úkol – nastudujte (řešení v R máte na násl dvou slajdech) šJsou zadány míry inflace v deseti následných letech š a) jaká je průměrná jednoroční míra inflace? š b) o kolik procent se zvýšila inflace celkově za 10 let? š V jazyku R, ad příklad H: Øinflace<- c(1.021, 1.039, 1.047, 1.018, 1.001, 1.028, 1.019, 1.025, 1.028,1.063) š# musíme inflaci přeložit do přesahů sta procent, ale v řeči desetinného čísla blízkého jedné šgeometric(inflace) # vypocte geom prumer š(pokud jste ulozili workspace ze cviceni 1, R si nadefinovanou funkci geometric „pamatuje“ při svém dalším spuštění) šgeometric(inflace)^(10) # procentualni narust za 10 let š Jazyk R, Ad příklad I (í), str. 170: šZ hodnot čistého zisku Øzisk <- c(1,2.5,4.4,9.2,18.0) švypočteme hodnoty růstů řetězitým dělením šrust <- c(1,1,1,1) # jen si předdefinujeme čtyrprvkovy vektor šfor (i in 1:4) rust[i]<- zisk[i+1]/zisk[i] # spocte podily zisku šgeometric(rust) # vypocte se zhruba 2.06 … každý rok se zisk firmy více než zdvojnásobí (poroste o 106 %) š Příklad L, str. 173: šPro daná data určete všechny kvartily a 85-procentní kvantil a 13-procentní kvantil V jazyku R: šVytvoříme soubor všech měření (zadáme 70 hodnot): ØprikladL<- c(1, 1, 2, 2, 2, 3, 3, 3, 3, 4, 4, 4, 4, 4, 5, 5, 5, 5, 5, 5, 6,6,6,6,6,6,6,7,7,7,7,7,7,7,7,7,7,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,9,9,9,9,9,9,9,9,9,10,10,10,10,10,10 ,10,10,11) š Øquantile(prikladL,c(0.13,0.25,0.75,0.85)) š# najde dane kvantily Hindls, str. 44-45 (nebo uč. Pro SŠ, př. J-str.184): šPodle variačního koeficientu porovnejte denní produkci ve dvou firmách: ve které firmě je denní produkce rovnoměrnější (= vykazuje menší výkyvy)? výpočet: menší výkyvy bude vykazovat soubor s menším variačním koeficientem Øxx<- c(1,2,2,3,2,4,2,1,2,4) Øyy<- c(6,6,5,8,9,4,4,6,5,7) Øsqrt(rozptyl(xx))/mean(xx) # variacni koef souboru xx Øsqrt(rozptyl(yy))/mean(yy) # variacni koef souboru yy š šVýznam: variační koef udává v jedné hodnotě míru rozptylu měření ve srovnání s průměrem měření