2 Výpočet číselných charakteristik - OSNOVA • Minulá hodina —y bodové/intervalové rozložení četností. — důvod: pilotní analýza; seznámení s daty • Nová látka: Motivace — Karolína s Markétou se domluví na výzkumu. Půjdou na dvě různé školy —y 20 žáků —y u každého zjistí známku z matiky a anginy —y výsledky roztřídí do variační tabulky —y 2 variační řady —y porovnávání absolutních četností pro každou dvojici známek? ... nepřehledné a neefektivní. • Potřebujeme jednodušší charakteristiky, které nám řeknou o datech ty nej důležitější informace a budou dostatečně jednoduché na to, aby se dali snadno vypočítat a interpretovat. • Různá data —y různé charakteristiky: • Typy dat: — Nomiální — Ordinální — Intervalová • Tři základní typy charakteristik: — polohy — variability — závislosti — + nesymetrie (intervalové znaky) Nominální znaky Příklad 2.1. U 100 náhodně vybraných domácností byl zjišťován způsob zásobování bramborami (znak X, varianty 1 = vlastní sklep, 2 = jinde, 3 = nákup) a bydliště (znak Y, varianty 1 = velké město, 2 = malé město, 3 = vesnice). • = jednotlivé varianty znaku jsou neporovnatelné: — zvíře u veterináře: kočka, pes, papoušek, želva — oblast výzkumu: dolní Věstonice, pohansko, klášterec — barva očí: modrá, zelená, hnědá • Charakteristika polohy — varianty jsou navzájem neporovnatelné —y můžeme vybrat pouze nej četnější variantu ... modus. 1 (data <- data.frame(velké.město = c(13,11 , 19) , male.mesto = c(15,7,9) , vesnice=c(14,2,10), row.names = c('sklep' , 'j inde' , 'nakup'))) apply(data,1,sum) apply(data,2,sum) • Charakteristika závislosti — Cramérův koeficient rc - slouží k určení těsnosti závislosti u nominálních veličin - rcE (0;1). library(lsr) round(cramersV(data), digits=3) [1] 0.179 Ordinální znaky Příklad 2.2. Otevřeme datový soubor znamky.txt. a) Pro známky z matematiky a angličtiny vypočteme medián, dolní a horní kvartil, kvartilovou odchylku a vytvoříme krabicový diagram. b) Vypočteme Spearmanův korelační koeficient známek z matematiky a angličtiny pro všechny studenty. • Získaná data můžeme porovnávat, ale nemůžeme říci, jaký je mezi nimi rozdíl. — 10 pacientů ... pořadí podle závažnosti onemocnění — Známky studentů - výborně, chvalitebně, dobře, dostatečně a nedostatečně. Mezi výborně a chvalitebně je jiný rozdíl než mezi dostatečně a nedostatečně. • Charakteristika polohy — a-kvantil ... xa * medián rr0.5 * dolní kvartil rro.25 * horní kvartil rco.75 — na = celé číslo c —y xn X(c) + X(c+1) 2 — na = necelé číslo —y zaokrouhlíme nahoru na nejbližší celé číslo c —y xa = Charakteristika variability: — kvartilové rozpětí — q = X0.75 — Xo.25 — v intervalu leží 50 % dat. 2 data <- read.delim('známky.txt', sep='\t', dec='.',header=F) sourče('AS-funkce.R') head(data) names(data) <- c('matematika ' , 'angličtina', 'pohlavi') f3 <- factor(data$pohlavi, levels=c(0,1), labels=c('zena','muz')) data[,3] <- f3 head(data) matematika <- data$matematika angličtina <- data$anglictina pohlavi <- data$pohlavi q.M <- quantile(matematika, probs=c(0.5,0.25,0.75), type=2) #type=5 iqr.M <- q. M [3]-q. M [2] (tabulka<-data.frame(median = q.M[1] , kvl = q.M [2] , kv3 = q.M[3], IQR=iqr.M, row.names='matematika')) boxplot(matematika, angličtina, main='Krabicovyugrafudvouupromennych', names=c('matematika','angličtina'), ylab='známka', ylim=c(0,5), border='darkgreen', col='darkolivegreenl') • Charakteristika závislosti: — Spearmanův koeficient pořadové korelace r$ — máme dva znaky: X - známka z matematiky, Y známka z angličtiny — existuje mezi znaky X a Y závislost a když, jak silná? -rse(-l;l>. * r s > 0 ... přímá závislost (s rostoucí hodnotou znaku X roste i hodnota znaku Y) * r,s < 0 ... nepřímá závislost (s rostoucí hodnotou znaku X hodnota znaku Y klesá) * r,s = 0 ... nezávislost Prima závislost Neprima závislost cor(matematika, angličtina, method='spearman') cor(matematika[pohlavi=='zena'], angličtina[pohlavi=='zena'], method=' spearman') 3 Nakreslete tečkový graf dotplot(matematika[pohlavi=='zena'], angličtina[pohlavi=='zena'], main='Teckovyugrafuznameku-uZeny', xlab='matematika', ylab=' angli ct ina' , col='darkgreen', bg='darkolivegreenl', xlim=c(l,4), ylim=c(l,4)) abline(v=seq(1,4,by=0.5), col='grey80', lty=2) abline(h=seq(1,4,by=0.5), col='grey80', lty=2) Intervalové znaky Příklad 2.3. Otevřeme datový soubor lebky.txt. a) Pro největší délku a největší šířku mozkovny mužů vypočteme aritmetický průměr, rozptyl, směrodatnou odchylku, koeficient variace, šikmost a špičatost. b) Vypočítejte Pearsonův koeficient korelace největší délky a největší šířky mozkovny mužů. Dále vypočtěte kovarianci těchto dvou znaků a nakreslete dvourozměrný tečkový diagram. • Hodnoty znaků můžeme nejen vzájemně porovnat, ale můžeme též říci, o kolik se liší: • Výška/váha dětí, věk pacienta, hodnota glukózy v krvi, množství vyplaveného testosteronu, šířka lebky mužů/žen/neandrtálců, ... • Charakteristika polohy: — aritmetický průměr: m = ^ Y^t=i xí — součet podprůměrných hodnot je stejný, jako součet nadprůměrných hodnot — silně ovlivněn vybočujícími hodnotami —y vhodný máme-li symetrická data • Charakteristika polohy: 1. rozptyl: • Charakteristika nesymetrie: 1. šikmost «3 — «3 = 0 —>• rozložení dat je symetrické — «3 < 0 —y záporně zešikmené rozložení —y prosloužený levý — «3 > 0 —y kladně zešikmené rozložení —y prosloužený pravý konec — průměrná kvadratická odchylka hodnot od jejich aritmetického průměru. — s2 > 0 — je ovlivněn vybočujícími hodnotami —y je vhodný, máme-li symetrická data — oproti jednotkám původních dat tato data jsou v jednotkách na druhou. 2 směrodatná odchylka převádí rozptyl do původních jednotek 4 2. špičatost «4 — «4 = 0 —>• normální rozložení dat — a4 > 0 —> strmé rozložení dat — «4 < 0 —> ploché rozložení dat (Říp) library(el07l) data <- read.delim('lebky.txt' , sep='\t', dec='.', header=F) names(data) <- c('delka', 'sirka', 'pohlavi') head(data) délka.M <- data$délka[data$pohlavi=='muz'] n <- length(délka.M) prumer.D <- mean(délka.M) rozptyl.D <- l/n*sum((délka.M-prumer.D)~2) sm.odch.D <- sqrt(rozptyl.D) koef.var.D <- srn.odch.D/mean(délka.M)* 100 sikmost.D <- skewness(délka.M, type=2) spicatost.D <- kurtosis(délka.M, type=2) (tab.D <- round(data.frame(n=n, prumer=prumer.D, rozptyl=rozptyl.D, odch=sm.odch.D, koef.var=koef.var.D, sikmost=sikmost.D, spicatost= spicatost.D), digits=4)) • Charakteristika těsnosti závislosti: — máme dva intervalové znaky - existuje mezi nimi nějaká závislost a když, tak jak silná? 1. Pearsonův koeficient korelace * r = — xi-'mi yi-'m2 12 n Z-ři=l sl S2 * nabývá hodnot mezi -1 a 1 * r 12 > 0 ... přímá závislost * ri2 < 0 ... nepřímá závislost * r 12 = 0 ... nezávislost 2. kovariance cor(delka.M, sirka.M, method='pearson') kovariance <- sum((délka.M-prumer.D)*(sirka.M-prumer.S))/n round(kovariance, 4) plot(délka.M, sirka.M, main='Teckovyugrafudelkyuausirkyulebkyumuzu', pch=21, xlab='delkaulebky', ylab='sirkaulebky', col='darkgreen', bg=' darkolivegreenl') abline(v=seq(160,200,by=5), col='grey80', lty=2) abline(h=seq(120,145,by=5), col='grey80', lty=2) 5