M5VM05 Statistické modelování 1. Průzkumová analýza dat Jan Koláček (kolacek@niath.niuni.cz) Ústav matematiky a statistiky, Přírodovědecká fakulta, Masarykova univerzita, Brno Jan Koláček (PřF MU) M5VM05 Statistické modelování 1/37 Průzkumová analýza jednorozměrných dat Průzkumová analýza dat je odvětví statistiky, které pomocí různých postupů odhaluje zvláštnosti v datech. Při zpracování dat se často používají metody, které jsou založeny na předpokladu, že data pocházejí z nějakého konkrétního rozložení, nejčastěji normálního. Tento předpoklad nemusí být vždy splněn, protože data mohou pocházet z jiného rozložení mohou být zatížena hrubými chybami ► mohou pocházet ze směsi několika rozložení. Proto je důležité provést průzkumovou analýzu dat, abychom se vyvarovali neadekvátního použití statistických metod. Funkcionální charakteristiky datového souboru Označení Na množině objektů {e^,... ,£„} zjišťujeme hodnoty znaku X. Hodnotu znaku X na objektu £,• označíme x-v i = 1,... ,n. V teorii pravděpodobnosti se jim také říká realizace náhodné veličiny X. Tyto hodnoty zaznamenáme do jednorozměrného datového souboru: x = {xi,..., xn) . Uspořádané hodnoty x^ < X(2) < ... < X(n-) tvoří uspořádaný datový soubor: >x{n))'- Vektor X[.] = (*[!],...,*[,.])', kde x^j < ... < X[r], r < n, jsou navzájem různé hodnoty znaku X, se nazývá vektor variant. Jan Koláček (PřF MU) M5VM05 Statistické modelování 3/37 Bodové rozložení četností indikátor množiny : IB(x) = [ 1 x E B, 10 x i B. Pro datový soubor x = (x\,... ,x„)' definujeme následující pojmy • absolutní četnost varianty x^: n nJ = ĽI{*\j\}W i=l • relativní četnost varianty x^: Pi = ~ • absolutní kumulativní četnost prvních j variant: Nj = n1 + ... + tij Jan Koláček (PŕF MU) M5VM05 Statistické modelování 4/37 • relativní kumulativní četnost prvních j variant: F; = -^=Pl + ...+, • četnostní funkce : p{x) = » empirická distribuční funkce Pj pro x = x^, j = 1, 0 jinak n FM = iEJ(-oo^>(^) i=l Absolutní či relativní četnosti znázorňujeme graficky např. pomocí sloupkového diagramu či polygonu četností. Jan Koláček (PřF MU) M5VM05 Statistické modelování 5/37 Příklad U 30 domácností byl zjišťován počet členů. Počet členů_1 2 3 4 5 6 Počet domácností 2 6 4 10 5 3 Vytvořte tabulku rozložení četností. Nakreslete grafy četnostní funkce a empirické distribuční funkce. Dále nakreslete sloupkový diagram a polygon četností počtu členů domácnosti. Řešení. Tabulka rozložení četností: x\f\ ni P) Ni Fj 1 2 2/30 2 2/30 2 6 6/30 8 8/30 3 4 4/30 12 12/30 4 10 10/30 22 22/30 5 5 5/30 27 27/30 6 3 3/30 30 1 Příklad - pokračování počet členů domácnosti počet členů domácnosti Obr. : Graf četnostní funkce Obr. : Graf empirické distribuční funkce Koláček (PřF MU) M5VM05 Statistické ] Příklad - pokračování Intervalové rozložení četností ► třídicí intervaly (u\, 112), ■ ■ ■, (ur, ur+i) ► doporučuje se volit r blízke ^Jn. Cetnostní hustota /-tého třídicího intervalu je definována vztahem f> ~ d j kde dj = Uj+i — Uj. Soustava obdélníků sestrojených nad třídicími intervaly, jejichž plochy jsou rovny relativním četnostem, se nazývá histogram . • hustota četnosti: f(x) \fj pro Uj < x < Uj+i, j = 1,..., r I 0 jinak (grafem hustoty četnosti je schodovitá čára shora omezující histogram) Intervalová empirická distribuční funkce : F(x)= Jf(t)dt. Příklad U 70 domácností byly zjišťovány týdenní výdaje na nealkoholické nápoje (v Kč). Výdaje_(35,65) (65,95) (95,125) (125,155) (155,185) (185,215) Počet domácností 7 16 27 14 4 2 Sestavte tabulku rozložení četností, nakreslete histogram a graf intervalové empirické distribuční funkce. Řešení. Tabulka rozložení četností («/,«/+l) ni P; N,- Fi (35,65) 7 7/70 7/2100 7 7/70 (65,95) 16 16/70 16/2100 23 23/70 (95,125) 27 27/70 27/2100 50 50/70 (125,155) 14 14/70 14/2100 64 64/70 (155,185) 4 4/70 4/2100 68 68/70 (185,215) 2 2/70 2/2100 70 1 Příklad - pokračování 50 100 150 200 výdaje 5 35 65 95 125 155 185 215 235 výdaje Obr. : Histogram Obr. : Graf intervalové empirické distribuční funkce Jan Koláček (PřF MU) M5VM05 Statistické modelování 11 / 37 Číselné charakteristiky datového souboru Znaky nominálního typu Nominální škála klasifikuje objekty do určitých předem vymezených tříd či kategorií. Hodnoty v nominální škále se dají vyjádřit slovně a mezi různými hodnotami není definováno žádné uspořádání. Pokud jsou hodnoty nominální škály někdy označovány číselně, mějme na paměti, že toto číslo je pouze jakousi zkratkou (kódem) slovní hodnoty. O znacích měřených v nominální škále hovoříme jako o znacích nominálního typu. Příklady znaků nominálního typu mohou být např.: pohlaví (s možnými hodnotami mužské, ženské) • barva očí (modrá, hnědá, černá) • výsledek léčby (uzdraven, zemřel) • národnost (česká, slovenská, polská, německá, ...) Charakteristikou polohy je modus - nejčetnější varianta či střed nejčetnějšího intervalu. (Modus je jediná charakteristika polohy vhodná pro nominální veličiny). Číselné charakteristiky datového souboru Znaky ordinálního typu Znaky ordinálního typu lze podle sledované vlastnosti nejen rozlišovat, ale také uspořádat ve smyslu vztahů ,je větší", „je menší" nebo „předchází", „následuje", aniž bychom však byli schopni vyjádřit číselně vzdálenost mezi větším a menším či mezi předcházejícím a následujícím. Znaky ordinálního typu mohou být např.: • dosažené vzdělání (základní, střední, vysokoškolské) • prospěch ve školním předmětu (výborně, velmi dobře, dobře, nevyhověl) • stav pacienta (vyléčen, remise, recidíva) • hodnocení funkce technických zařízení (stupně závažnosti poruchy jaderné elektrárny) • hodnocení postojů v sociologických průzkumech (škála má hodnoty např. souhlasím, spíše souhlasím, spíše nesouhlasím, nesouhlasím) • četnost výskytu (často, občas, zřídka, nikdy) Vhodnou charakteristikou polohy je a-kvantil. Je-li a E (0; 1), pak a-kvantil xa je číslo, které rozděluje uspořádaný datový soubor na dolní úsek, obsahující aspoň podíl a všech dat a na horní úsek obsahující aspoň podíl 1 — a všech dat. Číselné charakteristiky datového souboru Pro výpočet a-kvantilu slouží algoritmus: (celé číslo c xa = *(c>+*(c+1> necelé číslo =>■ zaokrouhlíme nahoru na nejbližší celé číslo Pro speciálně zvolená a užíváme názvů: • x0,50 ~~ medián • x0,25 ~~ dolní kvartil • x0,75 ~ horní kvartil • Xgi,... ,Xo,9 ~~ decily • x0fll> • • • /*0,99 ~~ percentily. Jako charakteristika variability slouží kvartilová odchylka : q = Xgj$ — Xo,25 ■ Příklad Během semestru se studenti podrobili písemnému testu z matematiky, v němž bylo možno získat 0 až 10 bodů. Výsledky jsou uvedeny v tabulce: Počet bodů 01234 5 6 7 89 10 Počet studentů 1 4 6 7 11 15 19 17 12 6 3 Zjistěte modus, medián, l.decil, 9.decil a kvartilovou odchylku počtu bodů. Řešení. Modus je nejčetnější varianta znaku, v tomto případě tedy 6. Vypočtěme rozsah datového souboru: n = l+ 4+ -- -+ 3 = 101. Výpočty uspořádáme do tabulky. OL na c 0,50 50,5 51 0,10 10,1 11 0,90 90,9 91 0,25 25,25 26 0,75 75,75 76 6 2 8 4 7 Kvartilová odchylka: q = 7 — A = 3. Jal Koláček (PřF MU) M5VM05 Statistické .odel 15 / 37 Znaky intervalového a poměrového typu U znaků intervalového typu lze stanovit vzdálenost mezi hodnotami měřené veličiny. Je zde definována jednotka měření, avšak nula je definována pouze relativně. To nám dovoluje proto počítat s rozdíly naměřených hodnot, nikoliv s jejich podíly. Typickým příkladem je teplota, která se dá měřit v různých stupnicích (Celsiova, Fahrenheitova). U znaků poměrového typu lze určit nejen rozdíly (intervaly) mezi hodnotami, ale i podíly hodnot, neboť tyto znaky mají nulu stanovenu absolutně a jednoznačně. Charakteristiky polohy: • Aritmetický průměr x: 1 " x=-Yxí (1) nt~[ U poměrových znaků, které nabývají pouze kladných hodnot, lze použít • geometrický průměr : Vxl ■ ' ' ' ' X« (2) Znaky intervalového a poměrového typu Charakteristiky variability: • rozptyl: 1 " • směrodatná odchylka: s = V^š2 • koeficient variace (pro poměrové znaky): s x n Rozptyl se zpravidla počítá podle vzorce s2 = i £ xf — z'=l Jan Koláček (PŕF MU) M5VM05 Statistické modelování Znaky intervalového a poměrového typu Známe-li absolutní či relativní četnosti variant x^j,... ,x^, můžeme spočítat • vážený průměr : 1 = -Ľnix\j] •;'=i nebo • vážený rozptyl: 1 r s2=-Ľn)(x\j] -~x? •;'=i Vážený rozptyl se zpravidla počítá podle vzorce s2 = ^ n,-x2., — x2. 7=1 (6) (7) Jan Koláček (PřF MU) M5VM05 Statistické modelo Znaky intervalového a poměrového typu Aritmetický průměr a rozptyl jsou speciální případy tzv. momentů. V následující definici obecně zavedeme k-tý počáteční a centrální moment. k-tý počáteční moment: / 1 r m -T x), kdefc= 1,2,... z=l • k-tý centrální moment : 1 " wij. = — (xi — m)k> kde k = 1,2,... n i=l Znaky intervalového a poměrového typu Pomoci 3. a 4. centrálního momentu se definuje šikmost a špičatost: • šikmost : m3 só Šikmost měří nesouměrnost rozložení četností kolem průměru. • špičatost: mi .4 = ^-3 Špičatost měří koncentraci rozložení četností kolem průměru. Jan Koláček (PřF MU) M5VM05 Statistické modelovaní Příklad Pro údaje z příkladu o domácnostech vypočtěte průměr a rozptyl počtu členů domácnosti. Řešení 1=^(1- 2 + 2-6 + 3-4 + 4-10+ 5-5 + 6-3) = ^ = 3,63 s2 = ^ (l2 ■ 2 + 22 ■ 6 + 32 ■ 4 + 42 ■ 10 + 52 ■ 5 + 62 ■ 3) - f ±22^ V 30 ; 1769 900 1,965 Jan Koláček (PřF MU) M5VM05 Statistické modelo Příklad Nechť x je průměr a rozptyl hodnot X\,... ,xn. Nechť a, b jsou reálné konstanty. Položme y,- = a + bxi, i = 1,..., n. Vypočtěte průměr y a rozptyl s| hodnot x/i, ... ,y„. Řešení n n n y=lĽyi = lĽ{a + bxi) =a + b\ 1£xi = a + bx, z'=l z'=l z'=l s22 = lí (Vi -y)2 = lĽ(a + bxi - a - bxf = b11- £ (z* - xf = b2s\. i=l i=l i=l Jan Koláček (PřF MU) M5VM05 Statistické modelování 22 / 37 Diagnostické grafy Krabicový diagram (Box plot) Umožňuje posoudit symetrii a variabilitu datového souboru a existenci odlehlých či extrémních hodnot. Můžete se setkat i z názvem box plot. Krabicový diagram je specifikován těmito pojmy: • Dolní vnitřní hradba : Horní vnitřní hradba: Dolní vnější hradba: Horní vnější hradba: *0,25 - 1/ 5í? *0,75 + 1,5í? xo,25 — 3<7 *0,75 + 3í? Odlehlá hodnota je hodnota, která leží mezi vnitřními a vnějšími hradbami. Extrémní hodnota je hodnota, která leží za vnějšími hradbami. Diagnostické grafy Způsob konstrukce krabicového diagramu: o o o odlehlá pozorovaní horní vnitřní hradba %75 + l-5f Příklad Pro data z příkladu o domácnostech sestrojte krabicový diagram. Počet členů_1 2 3 4 5 6 Počet domácností 2 6 4 10 5 3 Řešení. Rozsah souboru n = 30. Výpočty potřebných kvantilů uspořádáme do tabulky. a na c 0,25 7,5 8 X(c) = X(g) 2 0,50 15 15 *(15)+*(16) 4 0,75 22,5 23 X(c) = X(23) 5 í/ = 5 — 2 = 3 Dolní vnitřní hradba: Xo,25 — í,5q = 2 — 1,5.3 = —2,5 Horní vnitřní hradba: + 1,5^ = 5 + 1,5.3 = 9,5 Jan Koláček (PřF MU) M5VM05 Statistické modelování 25 / 37 Příklad 2 3 Obr. : Krabicový diagram Jan Koláček (PřF MU) M5VM05 Statistické modelován Diagnostické grafy Normál probability plot (N-P plot) N-P plot konstruujeme tak, že na vodorovnou osu vynášíme uspořádané hodnoty X(!j < ■ ■ ■ < X svislou osu kvantily normálního rozdělení ««., kde ' - 3i~1 3n + ľ , Jsou-li některé hodnoty x^ < ■ ■ ■ < x^ stejné, pak za j bereme průměrné pořadí odpovídající takové skupince. • Pocházejí-li data z normálního rozložení, pak budou všechny dvojice ix^,ua.) ležet na přímce. • Pro data z rozložení s kladnou šikmostí se budou dvojice yx^yua.J řadit do konkávni křivky. • Pro data z rozložení se zápornou šikmostí se budou dvojice [x^,ua. řadit do konvexní křivky. Diagnostické grafy Quantile - quantile plot (Q-Q plot) Q-Q plot konstruujeme tak, že na svislou osu vynášíme uspořádané hodnoty *(i) < ' ' ' < ^(n) a na vodorovnou osu kvantily Ka.(X) vybraného rozložení, kde ' ;' " radj ' n + nadj přičemž ra^ a na^ jsou korigující faktory < 0,5. Implicitně se klade ra^ = 0,375 a nadj = 0,25. Pokud vybrané rozložení závisí na nějakých parametrech, pak se tyto parametry odhadují z dat, nebo se volí na základě teoretického modelu. Body (KXj(X),X(j}) se metodou nejmenších čtverců proloží přímka. Čím méně se body odchylují od této přímky, tím lepší je soulad mezi empirickým a teoretickým rozložením. Jsou-li některé hodnoty x^ < ■ ■ ■ < x^ stejné, pak za j bereme průměrné pořadí odpovídající takové skupince. Příklad Desetkrát nezávisle na sobě byla změřena jistá konstanta. Výsledky měření: 2 1,8 2,1 2,4 1,9 2,1 2 1,8 2,3 2,2. Pomocí N-P plotu a Q-Q plotu ověřte, zda se tato data řídí normálním rozložením. Řešení usp. hodnoty 1,8 1,8 1,9 2 2 2,1 2,1 2,2 2,3 2,4 pořadí 1 2 3 4 5 6 7 8 9 10 průměrné pořadí 1,5 1,5 3 4,5 4,5 6,5 6,5 8 9 10 • N-P plot: ;'= (1,5; 3; 4,5; 6,5; 8; 9; 10) oij = fgf = (0,1129; 0,2581; 0,4032; 0,5968; 0,7419; 0,8387; 0,9355) ua = (-1,2112; -0,6493; -0,245; 0,245; 0,6493; 0,9892; 1,5179) Příklad • Q-Q plot: ;'= (1,5; 3; 4,5; 6,5; 8; 9; 10) aj = ;—^ = (0,1098; 0,2561; 0,4024; 0,5976; 0,7439; 0,8415; 0,939) ua = (-1,2278; -0,6554; -0,247; 0,247; 0,6554; 1,0005; 1,566) Diagnostické grafy Probability - probability plot (P-P plot) Spočtou se standardizované hodnoty Z(J) = JŘ^' j=1.....n- Na vodorovnou osu se vynesou hodnoty teoretické distribuční funkce (z^) a na svislou osu hodnoty empirické distribuční funkce F(z^) = j/n. Pokud se body (^>(z^),F(z(j^)) řadí kolem hlavní diagonály čtverce (0,1) x (0,1), lze usuzovat na dobrou shodu empirického a teoretického rozložení. Jsou-li některé hodnoty x^ < ... < x^ stejné, pak za j bereme průměrné pořadí odpovídající takové skupince. Diagnostické grafy Histogram Umožňuje porovnat tvar hustoty četnosti s tvarem hustoty pravděpodobnosti vybraného teoretického rozložení. Např. normálního, Pearsonova, Studentova a jiných. Diagnostické grafy Vzhled diagnostických grafů pro rozložení s různou šikmostí Vlastnosti rozložení četností datového souboru se projeví ve vzhledu histogramu, N-P plotu a krabicového diagramu, jak ukazují následující obrázky: Rozložení s kladnou Normální rozložení Rozložení se zápornou šikmostí šikmostí Obr. : Histogramy Jal Koláček (PřF MU) M5VM05 Statistické .odel 33 / 37 Obr. : Box plot Jan Koláček (PřF MU) M5VM05 Statistické modelován Úlohy k procvičení Příklad 1.1 U 20 studentů 1. ročníku byla zjišťována známka z matematiky na prvním zkušebním termínu. Známka_12 3 4 Počet studentů 7 3 2 8~ Vytvořte tabulku rozložení četností. Nakreslete grafy četnostní funkce a empirické distribuční funkce. Dále nakreslete sloupkový diagram a polygon četností známek. Úlohy k procvičení Příklad 1.2 U 60 vzorků oceli byla zjišťována mez plasticity. Mez plasticity (30,50) (50,70) (70,90) (90,110) (110,130) (130,150) (150,170) Počet vzorků 8 4 13 15 9 7 4 Sestavte tabulku rozložení četností, nakreslete histogram a graf intervalové empirické distribuční funkce. Příklad 1.3 Pro údaje z příkladu 1.2 vypočtěte průměr a rozptyl meze plasticity. [X = 96,67, s2 = 1148,89] Úlohy k procvičení Příklad 1.4 V datovém souboru, z něhož byl vypočten průměr 110 a rozptyl 800, byly zjištěny 2 chyby: místo 85 má být 95 a místo 120 má být 150. Ostatních 18 údajů je správných. Opravte průměr a rozptyl. [x = 112, s2 = 851] Příklad 1.5 Pro údaje z příkladu 1.1 sestrojte krabicový diagram. 1*0,50 = 2,5, Xo,25 = 1, xo,75 = 4, c\ = 3, dolní vnitřní hradba = —3,5, horní vnitřní hradba = 8,5]