Ustav matematiky a statistiky Prírodovedecká fakulta Masarykova univerzita Aplikovaná statistika I Téma 2: Bodové a intervalové rozložení četností Veronika Bendová bendova.veroonika@gmail.com Uvod a motivace • = pilotní analýza • motivace: seznámení s daty, prvotní náhled na data, grafické znázornění • různé typy dat —> různé způsoby jejich reprezentace a vizualizace • kategoriální data • pohlaví, vzdělání, počet sourozenců, . . . • spojitá data • výška (v cm), porodní hmotnost (v g), největší šířka/délka mozkovny (v mm), poměr obvodu pasu a boků (bez jednotky) . . . • můžeme je kategorizovat • jedna vlastnost / více vlastností najednou • —> jednorozměrné/vícerozměrné bodové/intervalové rozložení četností 1 / 18 Jednorozměrné bodové rozložení četností Dataset: 17-anova-newborns-2.txt Máme k dispozici údaje o porodní hmotnosti novorozenců z okresní nemocnice získané v období jednoho roku a současně máme k dispozici údaje o počtu starších biologických sourozenců novorozence, pohlaví novorozence a vzdělání matky (Alanova, 2008; soubor 17-anova-newborns-2.txt). Popis proměnných v datasetu: • edu.M — vzdělání matky (1 - základní, 2 — střední bez maturity, 3 — střední s maturitou, 4 vysokoškolské); • prch.N - počet biologických starších sourozenců (0-9); • sex.C - pohlaví dítěte (m - muž, f - žena); • weight.C - porodní hmotnost dítěte (g); • weight.K - porodní hmotnost dítěte (1 = nízká (nižší než 2 500g), 2 = norma (2 500 -4 200g), 3 = vysoká (větší než 4 200g)) Příklad 2.1. Načtení datového souboru Načtěte dataset 17-anova-newborns-2.txt do proměnné data a vypište prvních 5 řádků z načteného souboru. Zjistěte, zda soubor obsahuje neznámé (NA) hodnoty a pokud ano, tak je odstraňte. Potom zjistěte dimenzi datové tabulky. Řešení příkladu 2.1 data <- read head(data , n delim ( ' = 5) 17-anova-newborns -2.txt ' , sep = »\ť , dec = ' . ') edu.M prch N sex . C weight.C weight. K 3 1 2 0 m 3470 2 4 2 2 0 m 3240 2 5 3 2 0 f 2980 2 6 4 1 0 m 3280 2 7 5 3 0 m 3030 2 8 Rozbor příkladu • jedna porodnice, novorozenci; údaje o vzdělání matky, počtu starších sourozenců, pohlaví a porodní hmotnosti novorozence • řádek ... údaje o jednom novorozenci (objekt) • sloupec . . . pôrodní hmotnost, vzdělání, pohlaví, počet st. sourozenců (znaky) • znak • konkrétni číslo, které má samo o sobě výpovědní hodnotu (pôrodní hmotnost (v g)) • kódování (0-žena, 1-muž); (1-ZS, 2-SS, 3-SSm, 4-VS) 3/18 Ošetření NA hodnot a dimenze datové tabulky 9 sum ( i s . na ( dat a ) ) # 30 10 data <- na.omit(data) 11 dim(data) # 1381 x 5 Načtená datová tabulka obsahuje údaje o znacích: vzdělání matky (edu.M), počet starších sourozenců novorozence (prch.N), pohlaví novorozence (sex.C), porodní hmotnost novorozence (weight.C) a kategoriální porodní hmotnost novorozence (weight.K). Datový soubor obsahuje celkem .............. NA hodnot. Tabulka data má po odstranění NA hodnot celkem .............. řádků a .............. sloupců. V tabulce jsou tedy po odstranění NA hodnot uloženy údaje o .............. objektech, přičemž u každého objektu máme záznamy o .............. znacích. Příklad 2.2. Úprava datového souboru Upravte označení jednotlivých variant kategorického znaku porodní hmotnost tak, aby bylo na první pohled zřejmé, jakou hmotnost novorozenec má (1 = nizka, 2 = norma, 3 = vysoká). Analogicky upravte označení jednotlivých variant znaku vzdělání matky (1 - ZS, 2 - SS, 3 - SSm, 4 - VS). 12 data$weight.K <- factor(data$weight . K , labels = c('nizka', 'noria', 'vysoká')) 13 data$edu.M <- factor(data$edu.M, labels = c(>ZS 5 , 'SS', 'SSm', 'VS')) 14 head(data, n = 5) Řešení příkladu 2.2 1 2 3 4 5 edu.M prch.N SS 0 SS 0 SS 0 ZS 0 SSm 0 sex . C we ight.C m 3470 m 3240 f 2980 m 3280 m 3030 we i ght .K norma norma norma norma norma 15 16 17 18 19 20 4/18 Příklad 2.3. Variační řada Vytvořte variační řadu znaku X — vzdělání matky ä variační řadu kategorického znaku Y porodní hmotnost novorozence. Řešení příkladu 2.3 Znaky vzdělání a kateg. porodní hmotnost . . . kategoriální proměnné —>■ bodové rozložení četností Variační řada .. .tabulka obsahující pro každou (y-tou) variantu znaku X. • absolutní četnost nj • kolik matek má ZŠ vzdělání • relativní četnost pj • poměr matek se ZŠ vzděláním ku celkovému počtu matek • pj # 100 - kolik % matek má ZŠ vzdělání? • absolutní kumulativní četnost Nj • kolik matek má SŠm vzdělání nebo nižší • relativní kumulativní četnost Fj • poměr matek se SŠm vzděláním nebo nižším ku celkovému počtu matek • Fj * 100 - kolik % matek má SŠm vzdělání nebo nižší? Zaměřme se nejprve na znak X — vzdělání matky. Znak má celkem čtyři varianty: ............................................, ............................................, ............................................ a ............................................. Variační řada je tabulka obsahující pro každou (y-tou) variantu znaku X (a) absolutní četnost .............. ; (b) relativní četnost ..............; (c) absolutní kumulativní četnost ..............; (d) relativní kumulatiní četnost ............... 5/18 21 edu < - data$edu. M 22 nl < - sum(edu == 'ZS') # 417 23 n2 <- sum(edu == 3SS') # 448 24 n3 < - sum(edu == 'SSm5) # 435 25 n4 <- sum(edu == ' VS ' ) #81 26 nj <- c (nl , n2 , n3, n4) 27 28 nJ <- as.numeric (table(edu)) 29 n < - sum(nj) 30 PJ <- nj / n 31 Nj <- cumsum(nj) 32 Fj <- cumsum(pj) 33 edu. name <- cCZS1, 'SS>, 5 SSm' , 'VS') 34 edu.rada <- data.frame(nj, pj, Nj, Fj, row.names = edu.name) 35 round(edu.rada, digits = 4) nj PJ Nj Fj 36 zs 417 0.3020 417 0.3020 37 ss 448 0.3244 865 0.6264 38 SSm 435 0.3150 1300 0.9413 39 VS 81 0.0587 1381 1.0000 40 Interpretace výsledků: Datový soubor obsahuje údaje o celkovém počtu .............. novorozenců, přičemž v 417 případech (30.20%) bylo nejvyšší dosažené vzdělání matky ................................... v .............. případech (..............%) bylo nejvyšší dosažené vzdělání matky středoškolské bez maturity, apod. Celkem .............. (..............%) matek novorozenců v datovém souboru získalo středoškolské vzdělání bez maturity nebo nižší, celkem 1300 (94.13%) matek novorozenců získalo ............................................................................ nebo ............................... vzdělání. 6/18 41 42 43 44 45 Zaměřme se nyní na znak Y = porodní hmotnost novorozence. Protože variační řadu má smysl sestrojovat pouze pro kategoriální / spojitý znak, použijeme k vytvoření variační řady proměnnou weight.C / weight.K. Znak Y má .............. varianty: nízká porodní hmotnost, norma a vysoká pôrodní hmotnost. source(' Sbírka-AS-I-2018-funkce.R 5) wei <- data$weight.K wei.name <- cí'nizka', 'noria', 'vysoká') wei.rada <- variacni.rada(wei, row.names = wei.name) round(wei.rada , digits = 4) nj PJ Nj Fj nizka 266 0 1926 266 0 1926 norma 1071 0 7755 1337 0 9681 vysoká 44 0 0319 1381 1 0000 46 47 48 49 Interpretace výsledků: Porodní hmotnost novorozenců v datovém souboru se v .............. případech (..............%) pohybovala v normě. Celkem .............. novorozenců (..............%) mělo porodní hmotnost nižší nebo rovnu normě a .............. novorozenců (..............%) mělo porodní hmotnost vysokou, v normě, nebo nižší. 7/18 Příklad 2.4. Sloupcový diagram absolutních a relativních četností Nakreslete sloupcový diagram absolutních četností a sloupcový diagram relativních četností pro znak X = vzdělání matky. Řešení příkladu 2.4 50 barvy <- cCyellow' , 'gold', 'orange', ' orange3 ' ) 51 par(mar = c(4, 4, 2, 2)) 52 barplot(edu.rada$nj, ylim = c(0, 500), density = 50, col = barvy, 53 border = 'tomato4', xlab = 'nejvyssi dosazena uroven vzděláni', 54 ylab = 'absolutni četnost', names = edu.name, las = 1) 55 box(bty = 'o') 56 rel.barplot(edu.rada$nj, xlim = c(0.2, 1.8), density = 40, col = barvy, 57 xlab = 'vzděláni matky', names = edu.name, axes = T) 58 box(bty = 'o') 500 ZS SS SSm VS nejvyssi dosazena uroven vzděláni 1.0 0.8 - C/5 O B 0 6 o 1 0.4 0.2 - o.o - ..... 81:5.87% 5; 31.5% 448; 32.44% 417; 30.2% vzděláni matky m VS □ SSm □ SS □ ZS 8/18 12385^ Dvourozměrné bodové rozložení četností Příklad 2.5. Kontingenční tabulka absolutních a relativních simultánních četností Zaměřme se nyní na oba znaky X = vzdělání matky a Y = kategorizovaná porodní hmotnost novorozence najednou. Z předchozího textu víme, že znak X má čtyři varianty, znak Y má tři varianty. Celkem tedy můžeme získat 4 * 3 = 12 různých kombinací variant znaků X a V. Sestrojte kontingenční tabulku simultánních absolutních četností a kontingenční tabulku simultánních relativních četností znaků X a Y. Řešení příkladu 2.5 • dva znaky X (r variant x^], ... , X[rj) a Y (s variant y^j, . . . , y^) • —> r x s kombinací variant znaků X a V • kontingenční tabulka absolutních četností y\i] ■ suma X[l] nn ms "i. X\r] n4i suma n.i n.3 n • rijk . . . simultánní absolutní četnost dvojice znaků xyj a y^ • n/. .. . marginální absolutní četnost varianty xryj • n^ ... marginální absolutní četnost varianty y^j KT relativních četností . . . KT absolutních četností dělená celkovým počtem objektů n 9/18 V tomto příkladě 2.5 bude kontingenční tabulka absolutních četností velikosti (4 + 1) x (3 + 1) 5 X 4, a to konkrétně ve tvaru nizka norma vysoká suma zs #?n "12 "13 "i. ss "21 "22 "23 "2. SSm "31 "32 "33 "3. VS "41 "42 "43 "4. suma ".i ".2 ".3 n • n j k je simultánní absolutní četnost j-té varianty znaku X a k-té varianty znaku Y • "ii ... počet novorozenců s nízkou porodní hmotností a matkou se ZŠ vzděláním • n,, je marginální absolutní četnost j-té varianty znaku X • r?i, . . . počet novorozenců, jejichž matka má ZS vzdělání bez ohledu na jejich porodní hmotnost • n.k je marginální absolutní četnost k-té varianty znaku Y • ".i . . . počet novorozenců s nízkou porodní hmotností bez ohledu na vzdělání matky • n je celkový počet objektů v datovém souboru Kontingenční tabulka absolutních četností nll <- sum(edu == 'ZS' & wei == 'nizka') # 97 # (...) n41 <- sum(edu == 'VS' & wei == 'vysoká') # 13 KT.abs <- table(edu, wei) nj . <- apply (KT. abs , MARGIN = 1, FUN = sum) KT.abs <- cbind(KT.abs, suma = nj.) n.k <- apply (KT . abs , MARGIN = 2, FUN = sum) KT.abs <- rbind(KT.abs, suma = n.k) 68 KT.abs nizka norma vysoká suma 69 ZS 97 312 8 417 70 SS 82 346 20 448 71 SSm 74 349 12 435 72 VS 13 64 4 81 73 suma 266 1071 44 1381 74 Interpretace výsledků: V datovém souboru se vyskytuje celkem 97 novorozenců, kteří mají ............................ porodní hmotnost a jejichž matka má ............................ vzdělání, a .......... novorozenců, jejichž porodní hmotnost je v normě a jejichž matka má středoškolské vzdělání s maturitou. Celkem 81 novorozenců se narodilo matkám s .......................................vzděláním. Kontingenční tabulka relativních četností 75 KT.rel <- KT.abs / n 76 round(KT.rel, digits = 4) nizka norma vysoká suma 77 ZS 0.0702 0.2259 0.0058 0 3020 78 SS 0 . 0594 0.2505 0.0145 0 3244 79 SSm 0.0536 0.2527 0.0087 0 3150 80 VS 0 . 0094 0.0463 0.0029 0 0587 81 suma 0.1926 0.7755 0.0319 1 0000 82 Interpretace výsledků: V datovém souboru se vyskytuje celkem 7.02% novorozenců, kteří mají ............................ porodní hmotnost a jejichž matka má ............................ vzdělání. V datovém souboru se vyskytuje celkem ..............% novorozenců, jejichž porodní hmotnost je v normě a jejichž matka má středoškolské vzdělání s maturitou. Celkem 3.19% novorozenců v datovém souboru má ................................ porodní hmotnost. 11 / 18 Příklad 2.6. Kontingenční tabulka řádkově a sloupcově podmíněných relativních četností Zaměřte se nyní opět na oba znaky X = vzdělání matky a Y = kategorizovaná porodní hmotnost novorozence najednou. Vytvořte kontingenční tabulku řádkově podmíněných relativních četností a kontingenční tabulku sloupcově podmíněných relativních četností. Řešení příkladu 2.6 • p/f^-j .. .řádkově podmíněná relativní četnost varianty y^j za předpokladu varianty • poměr novorozenců s nízkou porodní hmotností vzhledem k počtu novorozenců se ZS vzděláním matky • pj(k) .. .sloupcově podmíněná relativní četnost varianty xy\ za předpokladu varianty y^j nik • Pj(k) = —k • poměr novorozenců se SS vzděláním matky vzhledem k počtu novorozenců s porodní hmotností v normě. Kontingenční tabulka řádkově podmíněných relativních četností KT.abs <- table(edu, wei) RP.abs <- prop.table(KT.abs, margin = 1) 85 round(RP.abs, digits = 4) we i edu nizka norma vysoká ZS 0.2326 0 . 7482 0.0192 SS 0.1830 0.7723 0.0446 SSm 0.1701 0.8023 0.0276 VS 0.1605 0.7901 0.0494 86 87 88 89 90 91 Interpretace výsledků: Ze všech novorozenců v datovém souboru, jejichž matka má dokončené středoškolské vzdělání zakončené maturitou, má 17.01% ............................ porodní hmotnost a 2.76% ............................ porodní hmotnost. Ze všech novorozenců v datovém souboru, jejichž matka má dokončené vysokoškolské vzdělání, má ..............% nízkou porodní hmotnost a ..............% vysokou porodní hmotnost. Kontingenční tabulka sloupcově podmíněných relativních četností 92 93 SP.abs <- prop.table(KT.abs , margin = round(SP.abs, digits = 4) = 2) wei edu nizka norma vysoka ZS 0.3647 0.2913 0.1818 SS 0.3083 0.3231 0.4545 SSm 0.2782 0.3259 0.2727 VS 0.0489 0.0598 0.0909 Interpretace výsledků: Ze všech novorozenců v datovém souboru, jejichž porodní hmotnost byla nízká, se 36.47% narodilo matkám s ukončeným ............................ vzděláním. Ze všech novorozenců v datovém souboru, jejichž porodní hmotnost byla v normě, se ..............% se narodilo matkám s dokončeným středoškolským vzděláním bez maturity. 94 95 96 97 98 99 13 / 18 Jednorozměrné intervalové rozložení četností Dataset: 01-one-sample-mean-skull-mf.txt Z archivních materiálů (Schmidt, 1888; soubor 01-one-sample-mean-skull-mf.txt) máme k dispozici původní kraniometrické údaje o délce a šířce mozkovny a ze starověké egyptské populace. Popis proměnných v datasetu: • id - pořadové číslo; • pop - populace (egant - egyptská starověká); • sex - pohlaví (m - muž, f - žena); • skull.L - největší délka mozkovny (mm), t.j. přímá vzdálenost kraniometrických bodů glabella a opisthocranion; • skull.B — největší šířka mozkovny (mm), t.j. vzdálenost obou kraniometrických bodů euryon. 14 / 18 100 101 102 Příklad 2.7. Načtení datového souboru Načtěte dataset 01-one-sample-mean-skull-mf.txt a vypište první čtyři řádky z načteného souboru. Prozkoumejte, zda soubor obsahuje neznámé hodnoty a případně je ze souboru odstraňte. Potom zjistěte dimenzi datové tabulky. Řešení příkladu 2.7 rmClist = IsO) data <- read.delim('01-one-sample-mean-skull-mf.txt') head(data , n = 4) id P°P sex skuli . L skull . B 103 1 416 egant m 188 145 104 2 417 egant m 172 139 105 3 420 egant m 176 138 106 4 421 egant m 184 128 107 Rozbor příkladu • skelety ze starověké egyptské populace; údaje o id, populaci (starověká egyptská), pohlaví, největší délce mozkovny (v mm), největší šířce mozkovny (v mm) 108 109 110 Ošetření NA hodnot a dimenze datové tabulky sum ( is . na (dat a)) # 5 data <- na.omit(data) dim(data) # 325 x 5 V datovém souboru se vyskytuje celkem ............. neznámých (NA) hodnot. Po odstranění NA pozorování nám zůstala datová tabulka o velikosti .............řádků a ............. sloupců. Celkem tedy máme údaje o 325 .......................... přičemž pro každý objekt máme .............. identifikační proměnnou id a údaje o .............. znacích: populaci (pop), pohlaví skeletu (sex), největší délce mozkovny (skuli.L) a největší šířce mozkovny (skuli.B). 15 / 18 Príklad 2.8. Histogram a krabicový diagram V následující analýze se zaměříme primárně na znak X = největší šírka mozkovny u skeletu mužského pohlaví. Proveďte prvotní náhled na znak X = největší šířka mozkovky u mužů pomocí (a) histogramu; (b) krabicového diagramu. Řešení příkladu 2.8 111 skuli.BM <- data[data$sex == 'm', 'skuli.B'] 112 n.M <- length(skull.BM) # 216 113 range(skull.BM) # 124-149 Celkem máme údaje o největší šířce mozkovny u ............. mužských skeletů. Hodnoty největší šířky mozkovny v datovém souboru se pohybují v rozmezí.............-.............mm. Rozbor příkladu • největší šířka mozkovny u mužů . . . spojitá proměnná —> intervalové rozložení četností • spojitá data —^ třídíme je do stejně dlouhých třídicích intervalů (oo; ui) (ur; ur+i), (t/r+i; oo) , (t/i; u2), • (uj\ uj+i) .. -j-tý třídicí interval • optimální počet intervalů ... Sturgesovo pravidlo r 1 + 3.3 log10(n) —> jednoho intervalu —> hranice třídicích intervalů optimální šířka Sturgessovo pravidlo r <- roundCl + 3.3 * loglO(n.M)) # 9 16 / 18 Podle Sturgersova pravidla je optimální počet třídicích intervalů pro znak X = největší šířka mozkovny roven ............... Minimální naměřená hodnota znaku X je .............mm, maximální hodnota je ..............mm. Rozsah hodnot mezi minimální a maximální hodnotou je .......................mm. Optimální šířka třídicího intervalu pro znak X je ..............mm. Vynásobíme-li počet třídicích intervalů optimálním rozsahem jednoho intervalu, zjistíme, že rozsah třídicích intervalů je 9x3 = 27. Rozsah hodnot 124-149 je však pouze 25. Proto dolní hranici prvního třídicího intervalu u\ stanovíme jako 123, U2 = 126, ... , ug = 150. Histogram a krabicový diagram 115 b <- seq(123, 150, by = 3) 116 centr <- seq(124.5, 148.5, by = 3) 117 118 par(mar = c(4, 4, 1, 2)) 119 hist(skuli.BM , breaks = b, ylim = c(0, 52), 120 col = 'dodgerblue', border = ' slateblue4', 121 density = 40, xlab = 'nejvetsi sirka mozkovny (mm) - muzi', 122 ylab = 'absolutní četnosti', main = '', axes = F) 123 box(bty = 'o') 124 axis(side = 1, centr) 125 axis(side = 2, las = 1) 17 / 18 126 127 128 boxplot(skuli.BM, type = 2, horizontál = T, col = 'aliceblue', border = 5slateblue4J, medcol = 'deepskyblue4', xlab = 'nejvetsi sirka mozkovny (mm) - muži') I I I I I 124.5 130.5 136.5 —I-1-1— 142.5 148.5 nejvetsi sirka mozkovny (mm) - muzi 125 130 135 140 145 150 nejvetsi sirka mozkovny (mm) - muzi 18/18 7316370173306773 99999999999999999999999