2 Výpočet číselných charakteristik - OSNOVA • Minulá hodina —y bodové/intervalové rozložení četností. — důvod: pilotní analýza; seznámení s daty • Nová látka: Motivace — Karolína s Janou se domluví na výzkumu. Půjdou na dvě různé školy —y 20 žáků —y u každého zjistí známku z matiky a anginy —y výsledky roztřídí do variační tabulky —y 2 variační řady —y porovnávání absolutních četností pro každou dvojici známek? ... nepřehledné a neefektivní. • Potřebujeme jednodušší charakteristiky, které nám řeknou o datech ty nej důležitější informace a budou dostatečně jednoduché na to, aby se dali snadno vypočítat a interpretovat. • Různá data —y různé charakteristiky: • Typy dat: — Nomiální — Ordinální — Intervalová • Tři základní typy charakteristik: — polohy — variability — závislosti — + nesymetrie (intervalové znaky) Nominální znaky Příklad 2.1. Ve vzorku, který tvořilo 200 studentů (100 mužů a 100 žen) byly snímány dematoglyfy dlaně (Býmová, 1990). Na otiscích bylo hodnoceno zakončení tří hlavních dlaňových linií. Podle vzorce zakončení byly jednotliví studenti rozděleni do tří kategorií: vysoká (Hi), střední (Mi) a nízká (Lo). Současně byla zhodnocena barva vlasů studentů podle standardní Fisher-Sallerové stupnice (Martin a Saller, 1957-1966, s. 391), na zákadě které byli studenti rozděleni do tří skupin: Světlá (LoH), střední (MH) a tmavá (DaH). K dispozici máme početnosti jedinců v jednotlivých kategoriích, zvlášť pro muže a zvlášť pro ženy. A) Početnosti v jednotlivých kategoriích pro muže Hi Mi Lo LiH MH DaH 6 20 18 6 15 12 4 7 12 1 1. Určete modus zakončení dlaňových linií a modus barvy vlasů pro muže. 2. Pomocí Cramérova koeficientu stanovte stupeň závisloti mezi zakončením dlaňových linií a barvy vlasů u mužů. • = jednotlivé varianty znaku jsou neporovnatelné: — zvíře u veterináře: kočka, pes, ara, želva — oblast výzkumu: dolní Věstonice, pohansko, klášterec — barva očí: modrá, zelená, hnědá • Charakteristika polohy — varianty jsou navzájem neporovnatelné —y můžeme vybrat pouze nej četnější variantu ... modus. data <- data.frame(vysoke = c(6,20 , 18) , stredni = c(6,15, 12) , nizke = c(4,7, 12) , row.names=c('svetle', 'strední', 'tmavé')) apply(data,2,sum) apply(data,1,sum) • Charakteristika závislosti — Cramérův koeficient tq - slouží k určení těsnosti závislosti u nominálních veličin — rcE (0;1). library(lsr) round(cramersV(data), digits=3) [1] 0.101 Ordinální znaky Příklad 2.2. Otevřeme datový soubor znamky_me.txt. a) Pro známky z angličtiny a matematiky vypočtěte medián, dolní a horní kvartil, kvartilovou odchylku a vytvoříme krabicový diagram. b) Vypočtěte Spearmanův korelační koeficient známek z angličtiny a matematiky pro všechny studenty. • Hodnoty můžeme porovnávat, ale nemůžeme říci, jaký je mezi nimi rozdíl. — 10 pacientů ... pořadí podle závažnosti onemocnění — Známky studentů - výborně, chvalitebně, dobře, dostatečně a nedostatečně. Mezi výborně a chvalitebně je jiný rozdíl než mezi dostatečně a nedostatečně. • Charakteristika polohy — a-kvantil ... xn 2 * medián rco.5 * dolní kvartil rr0.25 * horní kvartil rco.75 — na = celé číslo c —y xn = ^ — 2 — na = necelé číslo —y zaokrouhlíme nahom na nejbližší celé číslo c —y xa = x^ Charakteristika variability: — kvartilové rozpětí — q = x0 75 — X0 25 — v intervalu leží 50 % dat. data <- read.delim('znamky_me.txt' , sep='\t', dec=' . ' ,header = T) source('AS-funkce.R') matematika <- data$math angličtina <- data$english pohlavi <- data$sex qA <- quantile(angličtina, probs=c(0.5,0.25,0.75), type=2) # type=5 iqrA <- qA[3]-qA[2] (tabA<-data . f rame (median = qA [1] , kvl = qA[2], kv3 = qA [3] , IQR=iqrA, row.names='angličtina')) boxplot(matematika, angličtina, main='Krabicovyugraf', names=c('matematikaangličtina'), ylab='známka', ylim=c(0,5), border='darkgreen', col='darkolivegreenl') Charakteristika závislosti: — Spearmanuv koeficient pořadové korelace r$ — máme dva znaky: X - známka z matematiky, Y známka z angličtiny — existuje mezi znaky X a, Y závislost a když, jak silná? -rse(-l;l>. * r s > 0 ... přímá závislost * r,s < 0 ... nepřímá závislost * r s = 0 ... nezávislost 3 cor(matematika, angličtina, method='spearman') • Nakreslete tečkový graf dotplot(matematika, angličtina, main='Teckovyugraf', xlab='matematika', ylab='angličtina', col='darkgreen', bg='darkolivegreenl', xlim=c(l,4), ylim=c(1,4)) abline(v=seq(1,4,by=0.5), col='grey80 ' , lty=2) abline(h=seq(1,4,by=0.5), col='grey80 ' , lty=2) Příklad 2.3. Vypočítejte medián, dolní a horní kvartil, kvartilovou odchylku a vytvořte krabicový diagram pro známky z angličtiny, když víte, že absolutní četnosti známek byly známka_|| 1 2 3 4 absolutní četnost II 4 47 5 angličtina <- c (1 , 1 ,1 , 1 , 2 , 2 , 2 , 2 , 3 , 3 , 3 , 3 , 3 , 3 , 3 , 4 ,4 , 4 , 4 ,4) q.A <- quantile(angličtina, probs = c(0.5 , 0.25,0.75) , type=2) #type=5 iqrA <- qA[3]-qA[2] (tabA<-data . f rame (median = qA [1] , kvl = qA[2], kv3 = qA[3], IQR=iqrA, row.names = 'angličtina')) Intervalové znaky Příklad 2.4. Otevřeme datový soubor lebky.txt. a) Pro největší délku a největší šířku mozkovny mužů vypočteme aritmetický průměr, rozptyl, směrodatnou odchylku, koeficient variace, šikmost a špičatost. b) Vypočítejte Pearsonův koeficient korelace největší délky a největší šířky mozkovny mužů. Nakreslete dvourozměrný tečkový diagram. • Hodnoty znaků můžeme nejen vzájemně porovnat, ale můžeme též říci, o kolik se liší: • Výška/váha dětí, hodnota glukózy v krvi, množství vyplaveného testosteronu, šířka lebky mužů/žen/neandrtálců, ... • Charakteristika polohy: — aritmetický průměr: m = ^ Y^í=i xí — ovlivněn vybočujícími hodnotami —y vhodný máme-li symetrická data • Charakteristika polohy: 1. rozptyl: - s2 = ^Eľ=i(^ ~m? - průměrná kvadratická odchylka hodnot od jejich aritmetického průměru. - s2 > 0 4 — ovlivněn vybočujícími hodnotami —y je vhodný, máme-li symetrická data — oproti jednotkám původních dat je rozptyl v jednotkách A 2. 2. směrodatná odchylka — s = y/š^ — převádí rozptyl do původních jednotek • Charakteristika nesymetrie: 1. šikmost «3 — «3 = 0 —>• symetrické rozdělení dat — «3 < 0 —> záporně zešikmené rozdělení —y prodloužený levý — «3 > 0 —> kladně zešikmené rozdělení —y prodloužený pravý konec Negative Skew Positive Skew ĺ — mode \ — median \ — mean \ o = 0.25 0 = 1 i \J . ^^™^'»l«l«N,N,, 0.0 02 04 06 03 10 12 14 L5 LB 2D 2.2 2. špičatost «4 — «4 = 0 —>• normální rozdělení dat — «4 > 0 —y strmé rozdělení dat — a4 < 0 —y ploché rozdělení dat (Říp) 5 library(el071) data <- read.delim('lebky.txt' , sep='\t', dec='.', header=F) names(data) <- c('delka', 'sirka', 'pohlaví') #head(data) delka.M <- data$delka[data$pohlaví=='muz'] n <- length(delka.M) mean.D <- mean(delka.M) s2 . D <- 1/n* sum((delka.M-mean.D)~2) s . D <- sqrt(s2.D) koef.var.D <- s.D/mean.D*100 sikmost . D <- skewness(delka.M, type=2) spicatost .D <- kurtosis(delka.M, type=2) tab . D <- round(data.frame(n=n, prumer=mean.D, rozptyl=s2.D, sm.odch=s. D, koef. var =koef.var.D, sikmost=sikmost.D, spicatost=spicatost.D), digits =4) Charakteristika těsnosti závislosti: — máme dva intervalové znaky - existuje mezi nimi nějaká závislost a když, tak jak silná? 1. Pearsonův koeficient korelace 12 n Z-/i=l sl s2 * nabývá hodnot mezi -1 a 1 * ri2 > 0 ... přímá závislost * r 12 < 0 ... nepřímá závislost * ri2 = 0 ... nezávislost 2. kovariance * S12 = \ YJí=ÁXí - ml)(Vi - m2) cor(delka.M, sirka.M, method='pearson') plot(delka.M, sirka.M, main='Teckovyugraf', pch=21, xlab='delkaulebky', ylab='sirkaulebky', col='darkgreen', bg=' darkolivegreenl') abline(v=seq(160,200,by=5), col='grey80', lty=2) abline(h=seq(120,145,by=5), col='grey80', lty=2) 6