Průzkumová analýza jednorozměrných dat, diagnostické grafy Motivace Průzkumová analýza dat je odvětví statistiky, které pomocí různých postupů odhaluje zvláštnosti v datech. Při zpracování dat se často používají metody, které jsou založeny na předpokladu, že data pocházejí z nějakého konkrétního rozložení, nejčastěji normálního. Tento předpoklad nemusí být vždy splněn, protože data - mohou pocházet z jiného rozložení - mohou být zatížena hrubými chybami - mohou pocházet ze směsi několika rozložení. Proto je důležité provést průzkumovou analýzu dat, abychom se vyvarovali neadekvátního použití statistických metod. Data zkoumáme pomocí funkcionálních a číselných charakteristik a pomocí diagnostických grafů. Osnova: - datový soubor - bodové a intervalové rozložení četností - typy znaků, číselné charakteristiky znaků - krabicový diagram, N-P plot, P-P plot, Q-Q plot, histogram Funkcionální charakteristiky datového souboru Označení Na množině objektů {e1,...,en} zjišťujeme hodnoty znaku X (např. u 6 domácností zjišťujeme počet členů). Hodnotu znaku X na objektu e; označíme xi? i = 1, n. i Tyto hodnoty zaznamenáme do jednorozměrného datového souboru (např. 2 3 1 v2y Uspořádané hodnoty x(1) < x(2) < ... < x(n) tvoří uspořádaný datový soubor , v našem případě 1 2 2 2 v3y Vektor x, [i] , kde X[ij < ... < x[r] jsou navzájem různé hodnoty znaku X, se nazývá vektor variant, v našem případě 2 v3y Bodové rozložení četností Je-li počet variant znaku X malý, přiřazujeme četnosti jednotlivým variantám a hovoříme o bodovém rozložení četností. Uj - absolutní četnost varianty pj = — - relativní četnost varianty n Nj = ni + ... + Uj - absolutní kumulativní četnost prvních j variant N. Fj = —1=pi + ...+pj- relativní kumulativní četnost prvních j variant Absolutní a relativní četnosti zapisujeme do tabulky rozložení četností nebo je znázorňujeme graficky např. pomocí sloupkového diagramu či polygonu četností. íp. prox = xm, j = l, ...,r : p(x) = ' [0 jinak 0 pro x < xfl] Empirická distribuční funkce: F(x) = <{ Fj pro xa] s x < xQ+1], j = 1,r -1 lprox>x[r] Příklad 1.: U 30 domácností byl zjišťován počet členů. Počet členů 1 2 3 4 5 6 Počet domácností 2 6 4 10 5 3 Vytvořte tabulku rozložení četností. Nakreslete grafy četnostní funkce a empirické distribuční funkce. Dále nakreslete sloupkový diagram a polygon četností počtu členů domácnosti. v Řešení: Tabulka rozložení četností xm ni Pí Fj 1 2 2/30 2 2/30 2 6 6/30 8 8/30 3 4 4/30 12 12/30 4 10 10/30 22 22/30 5 5 5/30 27 27/30 6 3 3/30 30 1 Graf četnostní funkce Graf empirické distribuční funkce Sloupkový diagram Polygon četností Intervalové rozložení četností Je-li počet variant znaku X velký, přiřazujeme četnosti nikoli jednotlivým variantám, ale třídicím intervalům (upu2), (ur,ur+1) a hovoříme o intervalovém rozložení četností. Názvy četností jsou podobné jako u bodového rozložení četností, navíc zavádíme četnostní hustotu j-tého třídicího intervalu fj = kde dj = uj+i - Uj. Stanovení počtu třídicích intervalů je dosti subjektivní záležitost. Často se doporučuje volit r blízké Vň. íf pro u < x < u. j, j = 1, r Hustota četnosti: f(x) = <^ (grafem hustoty četnosti je histogram) [0 jinak X Intervalová empirická distribuční funkce: F(x) = [f(t)dt. Příklad 2.: U 70 domácností byly zjišťovány týdenní výdaje na nealkoholické nápoje (v Kč). Výdaje (35,65) (65,95) (95,125) (125,155) (155,185) (185,215) Počet dom. 7 16 27 14 4 2 Sestavte tabulku rozložení četností, nakreslete histogram a graf intervalové empirické distribuční funkce. Řešení: Tabulka rozložení četností (Uj,Uj+l] Pi Ni (35,65) 7 7/70 7/2100 7 7/70 (65,95) 16 16/70 16/2100 23 23/70 (95,125) 27 27/70 27/2100 50 50/70 (125,155) 14 14/70 14/2100 64 64/70 (155,185) 4 4/70 4/2100 68 68/70 (185,215) 2 2/70 2/2100 70 1 Histogram Graf intervalové empirické distribuční funkce 0,014 0,012 0,010 0,008 0,006 0,004 0,002 0,000 Číselné charakteristiky datového souboru Znaky nominálního typu Tyto znaky umožňují obsahovou interpretaci pouze u relace rovnosti. Příklady nominálních znaků: lékařská diagnóza, typ profese, barva očí, rodinný stav, národnost, ... Charakteristikou polohy je modus, tj. nejčetnější varianta či střed nejčetnějšího intervalu. Znaky ordinálního typu Lze u nich navíc obsahově interpretovat relaci uspořádání. Příklad ordinálního znaku: školní klasifikace vyjadřuje menší nebo větší znalosti zkoušených žáků - jedničkář je lepší než dvojkař, ale intervaly mezi známkami nemají obsahovou interpretaci. Nelze tvrdit, že rozdíl ve znalostech mezi jedničkářem a dvojkařemje stejný jako mezi trojkařem a čtyřkařem. Další příklady: Různá bodování ve sportovních a uměleckých soutěžích, posuzování různých rysů sociálního chování, posuzování stavu pacientů, hodnocení postojů respondentů k různým otázkám, ... Charakteristikou polohy je a-kvantil. Je-li a e (0;l), pak a-kvantil xa je číslo, které rozděluje uspořádaný datový soubor na dolní úsek, obsahující aspoň podíl a všech dat a na horní úsek obsahující aspoň podíl 1 - a všech dat. Pro výpočet a-kvantilu slouží algoritmus: \ necelé číslo => zaokrouhlíme nahoru na nejbližší celé číslo c=>xa=x(c) Pro speciálně zvolená a užíváme názvů: x0,5o - medián, x0,25 - dolní kvartil, x0,75 - horní kvartil, x0,i, x0,9 - decily, x0,oi, x0,99 - percentily. Jako charakteristika variability slouží kvartilová odchylka: q = x0,75 - x0,25- Příklad 3.: Během semestru se studenti podrobili písemnému testu z matematiky, v němž bylo možno získat 0 až 10 bodů. Výsledky jsou uvedeny v tabulce: Počet bodů 0 1 2 3 4 5 6 7 8 9 10 Počet studentů 1 4 6 7 11 15 19 17 12 6 3 Zjistěte modus, medián, 1. decil, 9. decil a kvartilovou odchylku počtu bodů. Řešení: Modus je nejčetnější varianta znaku, v tomto případě tedy 6. a na c xa—x(c) 0,50 50,5 51 6 0,10 10,1 11 2 0,90 90,9 91 8 0,25 25,25 26 4 0,75 75,75 76 7 + 3 = 101. Výpočty uspořádáme do tabulky. q=7-4=3 Výpočet pomocí systému STATISTICA: Otevřeme nový datový soubor o 2 proměnných a 11 případech. První proměnnou nazveme X, druhou četnost a zapíšeme do nich počet bodů a odpovídající absolutní četnosti. Statistiky - Základní statistiky/tabulky - Popisné statistiky - zapneme proměnnou vah četnost - OK - OK - Proměnné X -OK - Detailní výsledky - vybereme Medián, Dolní a horní kvartily, Kvantilové hranice - Výpočet - ve výstupní tabulce upravíme počet desetinných míst. Popisné statistiky (počet bodu.sta) N platných 1 Medián Spodní Horní Kvantil Kvantil Proměnná kvartil kvartil 10,00000 90,00000 X 101 6 4 7 2 8 Znaky intervalového a poměrového typu U těchto znaků lze navíc obsahově interpretovat operaci rozdílu resp. podílu. Příklad intervalového znaku: teplota měřená ve stupních Celsia. Např. naměříme-li ve čtyřech po sobě jdoucích dnech polední teploty 0, 2, 4, 6 °C, znamená to, že každým dnem stouply teploty o 2 °C. Nelze však říci, že z druhého na třetí den vzrostla teplota dvojnásobně, kdežto ze třetího na čtvrtý den pouze jeden a půl krát. Další příklady: kalendářní systémy, směr větru, inteligenční kvocient, ... Společný znak intervalových znaků: nula byla stanovena uměle, pouhou konvencí. Příklad poměrového znaku: délka předmětu měřená v cm. Má-li jeden předmět délku 8 cm a druhý 16 cm, má smysl prohlásit, že druhý předmět je dvakrát delší než první předmět. Další příklady: počet dětí v rodině, výška kapesného v Kč, hmotnost osoby, ... Společný znak poměrových znaků: poměrový znak má přirozený počátek, ke kterému jsou vztahovány všechny další hodnoty znaku. 1 n Charakteristika polohy: aritmetický průměr m = — YV . n i=i U poměrových znaků, které nabývají pouze kladných hodnot, lze použít geometrický průměr ^]xl xn. Pomocí průměru zavedeme i-tou centrovanou hodnotu Xi - m (podle znaménka poznáme, zda i-tá hodnota je podprůměrná či nadprůměrná). Znázornění rozložení četností dvou datových souborů, které se liší aritmetickým průměrem Rozdělení s různými polohami 500 1 0 1 5 20 hodnota znaku Vlastnosti aritmetického průměru - Aritmetický průměr si lze představit jako těžiště dat - součet podprůměrných hodnot je stejný jako součet nadprůměrných hodnot - oba součty jsou v rovnováze. 1 n 1 n 1 n 1 - Průměr centrovaných hodnot je nulový, protože — T (x; - m) = — V x; —V m =m---n ■ m = 0 =0. n - Výraz ^(x; - a)2 (tzv. kvadratická odchylka) nabývá svého minima pro a = m. Uvedený výraz charakterizuje celkovou i=l chybu, které se dopustíme, když datový soubor nahradíme jedinou hodnotou a. Tato chyba je tedy nejmenší, když datový soubor nahradíme aritmetickým průměrem, přičemž za míru chyby považujeme kvadratickou odchylku. - Pokud každou hodnotu xt podrobíme lineární transformaci yi = a + bxi5 pak průměr transformovaných hodnot je roven lineární transformaci původního průměru, tj. m2 = a + bmi. - Mají-li znaky X, Y průměry ml5 m2, pak znak Z = X + Y má průměr + m2. - Aritmetický průměr je silně ovlivněn extrémními hodnotami. - Aritmetický průměr je vhodné použít, pokud je rozložení dat přibližně symetrické. Příklad na vlastnosti aritmetického průměru: U skupiny 20 pracovníků v určité dílně byly zjišťovány měsíční mzdy. Průměr mezd činil 15 500 Kč. Určete průměr mezd, jestliže mzdy všech pracovníků se zvýší a) o 300 Kč, b) 1,1 krát, c) o 20%. Řešení: Označme m: průměr hodnot x1? ..., xn a m2 průměr hodnot y1? ..., yn, přičemž y{ - a + bxi, i = 1, ..., n. Pak m2 = a + bm^ ad a) m2 = 300 + m: = 15 800 Průměr se zvýšil o 300 Kč na 15 800 Kč. ad b)m2= l,l.mi = 17 050 Průměr se zvýšil na 17 050 Kč. ad c)m2= l,2.mi = 18 600 Průměr se zvýšil na 18 600 Kč. Charakteristiky variability intervalových a poměrových znaků Variační rozpětí R = x(n) - x(1) (nevýhoda - bere v úvahu pouze nejmenší a největší hodnotu datového souboru), 2 1 n rozptyl s = — Y(x -m)2 (nevýhoda - vychází ve druhých mocninách jednotek, v nichž byl měřen znak X) n tí směrodatná odchylka s = Vš2" . x — m Pomocí směrodatné odchylky zavedeme i-tou standardizovanou hodnotu —- (vyjadřuje, o kolik směrodatných odchylek s se i-tá hodnota odchýlila od průměru). U poměrových znaků se jako charakteristika variability používá též: koeficient variace — (často se udává v procentech a udává, kolika procent průměru dosahuje směrodatná odchylka), m Znázornění rozložení četností dvou datových souborů, které se liší rozptylem: Rozdělení s různými variabilitami 5 0 0 -i-1 0 5 10 15 20 25 hodnota znaku Vlastnosti rozptylu: - Rozptyl je nulový pouze tehdy, když jsou všechny hodnoty stejné, jinak je kladný. 1 n 1 n - Rozptyl centrovaných hodnot je roven původnímu rozptylu, neboť — T[(x; -m)-0]2 =— Y(x; -m)2 = s2. 1 n íx — m V 1 1 n s2 - Rozptyl standardizovaných hodnot je 1, protože — Y —1--0 =—r- — Y U; - m)2 =— = \. n s Jsn~ŕ s 2 1 n - Rozptyl se zpravidla počítá podle vzorce s = - Yx;2 - m2. - Pokud každou hodnotu xi podrobíme lineární transformaci yi = a + bxÍ5 pak rozptyl transformovaných hodnot je roven původnímu rozptylu vynásobenému b2, tj. s22 = b2 Si2. - Rozptyl je stejně jako průměr silně ovlivněn extrémními hodnotami. - Rozptyl se nehodí jako charakteristika variability, je-li rozložení dat nesymetrické. Príklad 4.: Kurzy akcií společnosti AAA Auto Group v průběhu 23 dní v měsíci srpnu 2010 byly následující: 17,75; 17,74; 17,85; 17,59; 17,92; 17,98; 18,39; 18,25; 18,30; 18,00; 18,15; 18,15; 18,22; 18,40; 18,25; 17,95; 18,25; 18,23; 17,95; 17,90; 17,80; 17,87; 17,87. Vypočtěte charakteristiky variability. v Řešení: Nejprve vypočítáme variační rozpětí: R = x(n) - x(1) = 18,4-17,59 = 0,81. Před výpočtem dalších charakteristik variability musíme získat aritmetický průměr: m = (17,75 +17,74 +... +17,87) = 18,033. Rozptyl: s2 =-Tx;2 - m2 = — (l7,752 + 17,742 + ... + 17,872)-18,0332 =0,049 n ~~{ 23 Směrodatná odchylka: s = Vš7 = ^0,049 = 0,2213 r\ oo 1 o. Koeficient variace: —100% =--100% = 1,23% m 18,033 Výpočet pomocí systému STATISTICA: Otevřeme nový datový soubor o jedné proměnné X a 23 případech. Do proměnné X zapíšeme zjištěné kurzy akcií. Statistiky - Základní statistiky/tabulky - Popisné statistiky - OK - Proměnné X - OK - Detailní výsledky - vybereme Průměr, Rozptyl, Rozpětí - Výpočet. Ve výstupní tabulce přidáme za proměnnou Rozptyl tři nové proměnné nazvané rozptyl, směr. odch. a koef. variace. Do Dlouhého jména proměnné rozptyl napíšeme =v3*22/23, Dlouhého jména proměnné směr. odch. napíšeme =sqrt(v4) a do Dlouhého jména proměnné koef. variace napíšeme =100*v5/vl. Proměnná Průměr Rozpětí Rozptyl rozptyl =v3*22/2 směr. odch. =sqrt(v4) koef. variace =100*v5/v1 X 18,03304 0,810000 0,051231 0,049004 0,221367976 1,22756858 Vážené číselné charakteristiky Známe-li absolutní četnosti nl5 ..., nr či relativní četnosti pi, ..., pr variant x[1]5x[r], můžeme spočítat 1 1 1 vážený průměr m = -£njX[J] = XPjxu]' 1 r . r . ^ r r vážený rozptyl s2 = -Xnj(xu] _m)2 = ZPj(xm _m)2 (výpočetní vzorec: s2 = -Xnjx[j]2 _m2 = ZPjxu]2 _m2)- n H j=i n j=1 H Příklad 5.: U 35 zaměstnanců byl zjištěn počet odpracovaných hodin za měsíc. Počet odpracovaných hodin 184 185 186 187 188 189 Počet zaměstnanců 4 6 7 6 7 5 Vypočtěte průměr, směrodatnou odchylku a koeficient variace počtu odpracovaných hodin. v Řešení: Vážený průměr: m = -^n^ = — (4■ 184 + 6■ 185 + 7■ 186 + 6■ 187 + 7■ 188 + 5■ 189) = 186,6 n j_j 3 5 Vážený rozptyl: s2 =-^njx[j]2 -m2 = — (4-1842 +6-1852 +7-1862 +6-1872 +7-1882 +5■ 1892)-186,62 =2,5257 n j_j 3 5 Vážená směrodatná odchylka: s = Vš^ = -v/2,5257 = l,59h = lh 35 min s 1 59 Koeficient variace: —100% = ^^100% = 0,85% m 186,6 Vidíme, že zaměstnanci odpracovali za měsíc v průměru 186,6 h, přičemž směrodatná odchylka dosahuje 0,85 % průměrné odpracované doby. Výpočet pomocí systému STATISTICA: Otevřeme nový datový soubor o 2 proměnných a 6 případech. První proměnnou nazveme X, druhou četnost a zapíšeme do nich počet odpracovaných hodin a odpovídající počty zaměstnanců. Statistiky - Základní statistiky/tabulky - Popisné statistiky - zapneme proměnnou vah četnost - OK - OK - Proměnné X -OK - Detailní výsledky - vybereme Průměr, Rozptyl - Výpočet. Ve výstupní tabulce přidáme za proměnnou Rozptyl dvě nové proměnné nazvané směr. odch. a koef. variace. Do Dlouhého jména proměnné směr. odch. napíšeme =sqrt(v2*34/35) a do Dlouhého jména proměnné koef. variace napíšeme =100*v3/vl. Proměnná Průměr 1 Rozptyl směr.odch. I koef. variace =sqrt(v2*34/35)| =100*v3/v1 X 186,6 2,6 1,5892496 0,851687888 Převod desetinných částí hodiny na minuty můžeme provést např. pomocí aplikace na adrese http://www.prevody-jednotek.cz/. Počáteční a centrální momenty Aritmetický průměr a rozptyl jsou speciální případy momentů. Zavedeme 1 n k-tý počáteční moment mk = — Y xtk , k = 1, 2, ... , k-tý centrální moment 1 n mk =-Y{xi-m)k , k = 1, 2, ... Pomocí 3. a 4. počátečního momentu se definuje šikmost a špičatost. Šikmost: oc3 = —p - měří nesouměrnost rozložení četností kolem průměru. Je-li rozložení dat symetrické kolem aritmetického průměru, pak (X3 = 0. Má-li rozložení dat prodloužený pravý konec, jde o kladně zešikmené rozložení, (X3 > 0. Má-li rozložení dar prodloužený levý konec, jde o záporně zešikmené rozložení, (X3 < 0. Znázornění rozložení četností dvou datových souborů, které se liší aritmetickým průměrem a šikmostí Rozdělení s různými polohami a šikmostmi 500 t-1 0 5 10 15 20 25 hodnota znaku Špičatost: oc4 = - 3 - měří koncentraci rozložení četností kolem průměru. s Je-li rozložení dat normální (Gaussovo), pak a4 = 0. Je-li rozložení dat strmé, pak a4 > 0. Je-li rozložení dat ploché, pak a4 < 0. Znázornění rozložení četností dvou datových souborů, které se liší špičatostí Rozdělení s různými špičatostmi 250 7 2 7 12 17 22 hodnota znaku Diagnostické grafy Krabicový diagram Umožňuje posoudit symetrii a variabilitu datového souboru a existenci odlehlých či extrémních hodnot. Způsob konstrukce odlehlá hodnota horní vnitřní hradba nebo max. hodnota horní kvartil medián dolní kvartil dolní vnitřní hradba nebo min. hodnota ■fr extrémní hodnota Odlehlá hodnota leží mezi vnějšími a vnitřními hradbami, tj. v intervalu (x0,75 + l,5q, x0,75 + 3q) či v intervalu (x0,25 - 3q, x0,25 - l,5q). Extrémní hodnota leží za vnějšími hradbami, tj. v intervalu (xqjs + 3q, oo) či v intervalu (-00, x0,25 - 3q). Příklad 6.: Pro údaje z příkladu 1 sestrojte krabicový diagram. Řešení: Počet členů 1 2 3 4 5 6 Počet domácností 2 6 4 10 5 3 Rozsah souboru n = 30. Výpočty potřebných kvantilů uspořádáme do tabulky. a na c Xa 0,25 7,5 8 X(c)-X(8) 2 0,50 15 15 X(15) + X(16)) 4 2 0,75 22,5 23 X(C)=X(23) 5 q=5-2=3 Dolní vnitřní hradba: x0,25 - l,5q = 2 - 1,5.3 = -2,5 Horní vnitřní hradba: x0j5 + l,5q = 5 + 1,5.3 = 9,5 Vidíme, že datový soubor vykazuje určitou nesymetrii - medián je posunut směrem k hornímu kvartilu, soubor je tedy záporně sešikmen. V souboru se nevyskytují žádné odlehlé ani extrémní hodnoty. Výpočet pomocí systému STATISTICA: Otevřeme nový datový soubor o 2 proměnných a 6 případech. První proměnnou nazveme počet, druhou četnost a zapíšeme do nich počet členů domácnosti a odpovídající absolutní četnosti. Zvolíme Grafy - 2D Grafy - Krabicové grafy. Zapneme proměnnou vah četnost, zadáme závisle proměnnou počet a dostaneme krabicový diagram: 3 Medián = 4 □ 25%-75% - =(2.5) I Rozsah neodletí. = 0.6) o Odlehlé * Extrémy Upozornění: Máme-li data intervalového či poměrového charakteru, o nichž lze předpokládat, že pocházejí z nějakého symetrického rozložení (například normálního), je možné použít jinou variantu krabicového diagramu: bod či čára uvnitř krabice reprezentuje průměr, vodorovné hrany krabice jsou ve výšce průměr ± směrodatná odchylka a svorky končí v minimu či maximu. V našem případě dostaneme krabicový diagram: Krabicový grafz počet Tabull8 12 °- 10 8 6 4 2 0 35 65 95 125 155 185 215 X Na rozdíl od histogramu konstruovaného ručně jsou na svislé ose absolutní četnosti, nikoliv četnostní hustoty. V porovnání s grafem hustoty normálního rozložení je vidět, že naše rozložení četností je lehce kladně zešikmené. Naše data tedy nepocházejí z normálního rozložení. Vzhled diagnostických grafů pro rozložení s různou šikmostí Pro ilustraci se podívejme, jak se různá šikmost rozložení projeví na histogramu, N-P plotu a na krabicovém diagramu. Rozložení s kladnou šikmostí Normální rozložení Rozložení se zápornou šikmostí Histogram Histogram Histogram „ 2, • i mm —P -.,4 0.0 0,4 0,0 1,2 1,0 2,0 2,4 -0,0 -2.« -2,0 -,,[ -1,0 -0.« 0,0 0.1 1,0 ,.[ 2,0 2.« 0,0 -0,0 -0,2 0,2 0,0 1,0 1,4 1,8 2,2 NP plot NP plot NP plot • • • • j r it r / • 2 0,0 0,2 0,4 0,6 0,8 1,0 1,2 1,4 1,6 1,8 2,0 2,2 2 8-2-1012 4 -0,2 0,0 0,2 0,4 0,0 0,0 1,0 1,2 1,4 1,6 1,8 2,0 2 Krabicový diagram Krabicový diagram Krabicový diagram • \_ • •