Průzkumová analýza jednorozměrných dat, diagnostické grafy Motivace Průzkumová analýza dat je odvětví statistiky, které pomocí různých postupů odhaluje zvláštnosti v datech. Při zpracování dat se často používají metody, které jsou založeny na předpokladu, že data pocházejí z nějakého konkrétního rozložení, nejčastěji normálního. Tento předpoklad nemusí být vždy splněn, protože data - mohou pocházet z jiného rozložení - mohou být zatížena hrubými chybami - mohou pocházet ze směsi několika rozložení. Proto je důležité provést průzkumovou analýzu dat, abychom se vyvarovali neadekvátního použití statistických metod. Data zkoumáme pomocí funkcionálních a číselných charakteristik a pomocí diagnostických grafů. Osnova: - datový soubor - bodové a intervalové rozložení četností - typy znaků, číselné charakteristiky znaků - krabicový diagram, N-P plot, P-P plot, Q-Q plot, histogram Funkcionální charakteristiky datového souboru Označení Na množině objektů {e1,...,en} zjišťujeme hodnoty znaku X (např. u 6 domácností zjišťujeme počet členů). Hodnotu znaku X na objektu e; označíme xi? i = 1, n. 1 Tyto hodnoty zaznamenáme do jednorozměrného datového souboru (např. 2 3 1 v2y Uspořádané hodnoty x(1) < x(2) < ... < x(n) tvoří uspořádaný datový soubor , v našem případě 1 2 2 2 Vektor , kde X[ij < ... < x[r] jsou navzájem různé hodnoty znaku X, se nazývá vektor variant, v našem případě 2 Bodové rozložení četností Je-li počet variant znaku X malý, přiřazujeme četnosti jednotlivým variantám a hovoříme o bodovém rozložení četností. Uj - absolutní četnost varianty x^ pj = — - relativní četnost varianty Nj = ni + ... + nj - absolutní kumulativní četnost prvních j variant N- Fj = —1 - pi + ... + pj - relativní kumulativní četnost prvních j variant Absolutní a relativní četnosti zapisujeme do tabulky rozložení četností nebo je znázorňujeme graficky např. pomocí sloupkového diagramu či polygonu četností. [pjprox = xLj],j = l, ...,r 10 jinak Četnostní funkce: p(x) = Empirická distribuční funkce: F(x) = 0 pro x < Xrjj Fjprox[j]x[r] Příklad 1.: U 30 domácností byl zjišťován počet členů. Počet členů 1 2 3 4 5 6 Počet domácností 2 6 4 10 5 3 Vytvořte tabulku rozložení četností. Nakreslete grafy četnostní funkce a empirické distribuční funkce. Dále nakreslete sloupkový diagram a polygon četností počtu členů domácnosti. v Řešení: Tabulka rozložení četností xm ni Pí Fj 1 2 2/30 2 2/30 2 6 6/30 8 8/30 3 4 4/30 12 12/30 4 10 10/30 22 22/30 5 5 5/30 27 27/30 6 3 3/30 30 1 Graf četnostní funkce Graf empirické distribuční funkce Sloupkový diagram Polygon četností Intervalové rozložení četností Je-li počet variant znaku X velký, přiřazujeme četnosti nikoli jednotlivým variantám, ale třídicím intervalům (upu2), (ur,ur+1) a hovoříme o intervalovém rozložení četností. Názvy četností jsou podobné jako u bodového rozložení četností, navíc zavádíme četnostní hustotu j-tého třídicího intervalu fj = kde dj = Uj+i - Uj. Stanovení počtu třídicích intervalů je dosti subjektivní záležitost. Často se doporučuje volit r blízké Vň. íf pro u < x < u. j, j = 1, r Hustota četnosti: f(x) - < (grafem hustoty četnosti je histogram) [0 jinak X Intervalová empirická distribuční funkce: F(x) = [f(t)dt. Příklad 2.: U 70 domácností byly zjišťovány týdenní výdaje na nealkoholické nápoje (v Kč). Výdaje (35,65) (65,95) (95,125) (125,155) (155,185) (185,215) Počet dom. 7 16 27 14 4 2 Sestavte tabulku rozložení četností, nakreslete histogram a graf intervalové empirické distribuční funkce. Řešení: Tabulka rozložení četností (Uj,U1+1] Pi fi Ni (35,65) 7 7/70 7/2100 7 7/70 (65,95) 16 16/70 16/2100 23 23/70 (95,125) 27 27/70 27/2100 50 50/70 (125,155) 14 14/70 14/2100 64 64/70 (155,185) 4 4/70 4/2100 68 68/70 (185,215) 2 2/70 2/2100 70 1 Histogram Graf intervalové empirické distribuční funkce 0,014 0,012 0,010 0,008 0,006 0,004 0,002 0,000 Číselné charakteristiky datového souboru Znaky nominálního typu Tyto znaky umožňují obsahovou interpretaci pouze u relace rovnosti. Příklady nominálních znaků: lékařská diagnóza, typ profese, barva očí, rodinný stav, národnost, ... Charakteristikou polohy je modus, tj. nejčetnější varianta či střed nejčetnějšího intervalu. Znaky ordinálního typu Lze u nich navíc obsahově interpretovat relaci uspořádání. Příklad ordinálního znaku: školní klasifikace vyjadřuje menší nebo větší znalosti zkoušených žáků - jedničkář je lepší než dvojkař, ale intervaly mezi známkami nemají obsahovou interpretaci. Nelze tvrdit, že rozdíl ve znalostech mezi jedničkářem a dvojkařemje stejný jako mezi trojkařem a čtyřkařem. Další příklady: Různá bodování ve sportovních a uměleckých soutěžích, posuzování různých rysů sociálního chování, posuzování stavu pacientů, hodnocení postojů respondentů k různým otázkám, ... Charakteristikou polohy je a-kvantil. Je-li a e (0;l), pak a-kvantil xa je číslo, které rozděluje uspořádaný datový soubor na dolní úsek, obsahující aspoň podíl a všech dat a na horní úsek obsahující aspoň podíl 1 - a všech dat. Pro výpočet a-kvantilu slouží algoritmus: \ necelé číslo ^> zaokrouhlíme nahoru na nejbližší celé číslo c^>xa=x(c) Pro speciálně zvolená a užíváme názvů: x0,5o - medián, x0,25 - dolní kvartil, x0j5 - horní kvartil, x0,i, x0,9 - decily, x0,oi, x0,99 - percentily. Jako charakteristika variability slouží kvartilová odchylka: q = x0,75 - x0,25- Příklad 3.: Během semestru se studenti podrobili písemnému testu z matematiky, v němž bylo možno získat 0 až 10 bodů. Výsledky jsou uvedeny v tabulce:_ Počet bodů 0 1 2 3 4 5 6 7 8 9 10 Počet studentů 1 4 6 7 11 15 19 17 12 6 3 Zjistěte modus, medián, 1. decil, 9. decil a kvartilovou odchylku počtu bodů. v Řešení: Modus je nejčetnější varianta znaku, v tomto případě tedy 6. Pro výpočet kvantilů musíme znát rozsah datového souboru: n = 1 + 4 + ... + 3 = 101. Výpočty uspořádáme do tabulky. a na c xa—x(c) 0,50 50,5 51 6 0,10 10,1 11 2 0,90 90,9 91 8 0,25 25,25 26 4 0,75 75,75 76 7 q=7-4=3 Výpočet pomocí systému STATISTICA: Otevřeme nový datový soubor o 2 proměnných a 11 případech. První proměnnou nazveme X, druhou četnost a zapíšeme do nich počet bodů a odpovídající absolutní četnosti. Statistiky - Základní statistiky/tabulky - Popisné statistiky - zapneme proměnnou vah četnost - OK - OK - Proměnné X -OK - Detailní výsledky - vybereme Medián, Dolní a horní kvartily, Kvantilové hranice - Výpočet - ve výstupní tabulce upravíme počet desetinných míst. Proměnná Popisné statistiky (počet bodu.sta) N platných 1 Medián Spodní kvartil Horní kvartil Kvantil I Kvantil 10,00000 190,00000 X 101 6 4 7 2 8 Znaky intervalového a poměrového typu U těchto znaků lze navíc obsahově interpretovat operaci rozdílu resp. podílu. Příklad intervalového znaku: teplota měřená ve stupních Celsia. Např. naměříme-li ve čtyřech po sobě jdoucích dnech polední teploty 0, 2, 4, 6 °C, znamená to, že každým dnem stouply teploty o 2 °C. Nelze však říci, že z druhého na třetí den vzrostla teplota dvojnásobně, kdežto ze třetího na čtvrtý den pouze jeden a půl krát. Další příklady: kalendářní systémy, směr větru, inteligenční kvocient, ... Společný znak intervalových znaků: nula byla stanovena uměle, pouhou konvencí. Příklad poměrového znaku: délka předmětu měřená v cm. Má-li jeden předmět délku 8 cm a druhý 16 cm, má smysl prohlásit, že druhý předmět je dvakrát delší než první předmět. Další příklady: počet dětí v rodině, výška kapesného v Kč, hmotnost osoby, ... Společný znak poměrových znaků: poměrový znak má přirozený počátek, ke kterému jsou vztahovány všechny další hodnoty znaku. 1 n Charakteristika polohy: aritmetický průměr m = — YV . n i=i U poměrových znaků, které nabývají pouze kladných hodnot, lze použít geometrický průměr ^]xl xn. Pomocí průměru zavedeme i-tou centrovanou hodnotu Xj - m (podle znaménka poznáme, zda i-tá hodnota je podprůměrná či nadprůměrná). Znázornění rozložení četností dvou datových souborů, které se liší aritmetickým průměrem Rozdělení s různými polohami 500 0 5 10 15 20 hodnota znaku Vlastnosti aritmetického průměru - Aritmetický průměr si lze představit jako těžiště dat - součet podprůměrných hodnot je stejný jako součet nadprůměrných hodnot - oba součty jsou v rovnováze. 1 n 1 n 1 n 1 - Průměr centrovaných hodnot je nulový, protože — T (x; - m) = — V x; —V m =m---n ■ m = 0 =0. n i=i n i=1 n i=1 n n - Výraz ^(x; - a)2 (tzv. kvadratická odchylka) nabývá svého minima pro a = m. Uvedený výraz charakterizuje celkovou i=l chybu, které se dopustíme, když datový soubor nahradíme jedinou hodnotou a. Tato chyba je tedy nejmenší, když datový soubor nahradíme aritmetickým průměrem, přičemž za míru chyby považujeme kvadratickou odchylku. - Pokud každou hodnotu Xj podrobíme lineární transformaci yi = a + bxi? pak průměr transformovaných hodnot je roven lineární transformaci původního průměru, tj. m2 = a + brrii. - Mají-li znaky X, Y průměry m1? m2, pak znak Z = X + Y má průměr + m2. - Aritmetický průměr je silně ovlivněn extrémními hodnotami. - Aritmetický průměr je vhodné použít, pokud je rozložení dat přibližně symetrické. Příklad na vlastnosti aritmetického průměru: U skupiny 20 pracovníků v určité dílně byly zjišťovány měsíční mzdy. Průměr mezd činil 15 500 Kč. Určete průměr mezd, jestliže mzdy všech pracovníků se zvýší a) o 300 Kč, b) 1,1 krát, c) o 20%. v Řešení: Označme m: průměr hodnot x1? ..., xn a m2 průměr hodnot y1? ..., yn, přičemž y{ - a + bxj, i = 1, ..., n. Pak m2 = a + bm^ ad a) m2 = 300 + m: = 15 800 Průměr se zvýšil o 300 Kč na 15 800 Kč. ad b) m2 = l,l.mi = 17 050 Průměr se zvýšil na 17 050 Kč. ad c)m2= l,2.mi = 18 600 Průměr se zvýšil na 18 600 Kč. Charakteristiky variability intervalových a poměrových znaků Variační rozpětí R = x(n) - x(1) (nevýhoda - bere v úvahu pouze nejmenší a největší hodnotu datového souboru), 2 1 n rozptyl s = — Y(x -m)2 (nevýhoda - vychází ve druhých mocninách jednotek, v nichž byl měřen znak X) n tt směrodatná odchylka s = Vš^. x — m Pomocí směrodatné odchylky zavedeme i-tou standardizovanou hodnotu —1- (vyjadřuje, o kolik směrodatných odchylek s se i-tá hodnota odchýlila od průměru). U poměrových znaků se jako charakteristika variability používá též: koeficient variace — (často se udává v procentech a udává, kolika procent průměru dosahuje směrodatná odchylka), m Znázornění rozložení četností dvou datových souborů, které se liší rozptylem: Rozdělení s různými variabilitami 5 0 0 -i— —i 0 5 10 15 20 25 hodnota znaku Vlastnosti rozptylu: - Rozptyl je nulový pouze tehdy, když jsou všechny hodnoty stejné, jinak je kladný. 1 n 1 n - Rozptyl centrovaných hodnot je roven původnímu rozptylu, neboť — Y[(x; -m)-0]2 =— Y(x; -m)2 = s2. n i=i n i=1 1 n íx —m V 1 1 n s2 - Rozptyl standardizovaných hodnot je 1, protože — Y —--0 =—7- — Y(x; -m)2 =— = \. n i=A s J s n i=1 s 1 n - Rozptyl se zpravidla počítá podle vzorce s = — Y x;2 - m2. - Pokud každou hodnotu x; podrobíme lineární transformaci y; = a + bxÍ5 pak rozptyl transformovaných hodnot je roven původnímu rozptylu vynásobenému b2, tj. s22 = b2 Si2. - Rozptyl je stejně jako průměr silně ovlivněn extrémními hodnotami. - Rozptyl se nehodí jako charakteristika variability, je-li rozložení dat nesymetrické. Příklad 4.: Kurzy akcií společnosti AAA Auto Group v průběhu 23 dní v měsíci srpnu 2010 byly následující: 17,75; 17,74; 17,85; 17,59; 17,92; 17,98; 18,39; 18,25; 18,30; 18,00; 18,15; 18,15; 18,22; 18,40; 18,25; 17,95; 18,25; 18,23; 17,95; 17,90; 17,80; 17,87; 17,87. Vypočtěte charakteristiky variability. v Řešení: Nejprve vypočítáme variační rozpětí: R = x(n) - x(1) = 18,4-17,59 = 0,81. Před výpočtem dalších charakteristik variability musíme získat aritmetický průměr: m = ^-(17,75 + 17,74 + . .. + 17,87) = 18,033. Rozptyl: s2 = -Yx;2-m2 = — (l7,752 + 17,742 +... + 17,872)-18,0332 =0,049 n i=1 23 Směrodatná odchylka: 8 = 7^ = tJÔŠW) = °>2213 Koeficient variace: —100% =--100% = 1,23% m 18,033 Výpočet pomocí systému STATISTICA: Otevřeme nový datový soubor o jedné proměnné X a 23 případech. Do proměnné X zapíšeme zjištěné kurzy akcií. Statistiky - Základní statistiky/tabulky - Popisné statistiky - OK - Proměnné X - OK - Detailní výsledky - vybereme Průměr, Rozptyl, Rozpětí - Výpočet. Ve výstupní tabulce přidáme za proměnnou Rozptyl tři nové proměnné nazvané rozptyl, směr. odch. a koef. variace. Do Dlouhého jména proměnné rozptyl napíšeme =v3*22/23, Dlouhého jména proměnné směr. odch. napíšeme =sqrt(v4) a do Dlouhého jména proměnné koef. variace napíšeme =100*v5/vl. Proměnná Průměr Rozpětí Rozptyl rozptyl =v3*22/2 směr. odch. koef. variace =sqrt(v4) =100*v5/v1 X 18,03304 0,810000 0,051231 0,049004 0,221367976 1,22756858 Vážené číselné charakteristiky Známe-li absolutní četnosti ni, ..., nr či relativní četnosti pi, ..., pr variant X[i],x[r], můžeme spočítat 1 1 1 vážený průměr m = -^nJx[J] = XPjx[j] . n j=i j=i vážený rozptyl s2 = —Xnj(xtj] _m)2 = ŽPj(xm _m)2 (výpočetní vzorec: s2 = —Xnjxu]2 ~m2 = ŽPjxu]2 _m2)- n j=1 j=i n j=1 J=i Příklad 5.: U 35 zaměstnanců byl zjištěn počet odpracovaných hodin za měsíc. Počet odpracovaných hodin 184 185 186 187 188 189 Počet zaměstnanců 4 6 7 6 7 5 Vypočtěte průměr, směrodatnou odchylku a koeficient variace počtu odpracovaných hodin. v Řešení: Vážený průměr: m = -^njX[j] = — (4 -184 + 6 -185 + 7 -186 + 6 -187 + 7 -188 + 5 -189) = 186,6 n j_j 3 5 Vážený rozptyl: s2 = njX[j]2 -m2 = — (4 ■ 1842 + 6 ■ 1852 + 7 ■ 1862 + 6■ 1872 + 7 ■ 1882 + 5 ■ 1892)-186,62 = 2,5257 n j_j 3 5 Vážená směrodatná odchylka: s = Vš^ = ^2,5251 = l,59h = lh 35 min s 1 59 Koeficient variace: —100% = ^—100% = 0,85% m 186,6 Vidíme, že zaměstnanci odpracovali za měsíc v průměru 186,6 h, přičemž směrodatná odchylka dosahuje 0,85 % průměrné odpracované doby. Výpočet pomocí systému STATISTICA: Otevřeme nový datový soubor o 2 proměnných a 6 případech. První proměnnou nazveme X, druhou četnost a zapíšeme do nich počet odpracovaných hodin a odpovídající počty zaměstnanců. Statistiky - Základní statistiky/tabulky - Popisné statistiky - zapneme proměnnou vah četnost - OK - OK - Proměnné X -OK - Detailní výsledky - vybereme Průměr, Rozptyl - Výpočet. Ve výstupní tabulce přidáme za proměnnou Rozptyl dvě nové proměnné nazvané směr. odch. a koef. variace. Do Dlouhého jména proměnné směr. odch. napíšeme =sqrt(v2*34/35) a do Dlouhého jména proměnné koef. variace napíšeme =100*v3/vl. Proměnná Průměr 1 Rozptyl směr.odch. I koef. variace =sqrt(v2*34/35)| =100*v3/v1 X 186,6 2,6 1,5892496 0,851687888 Převod desetinných částí hodiny na minuty můžeme provést např. pomocí aplikace na adrese http://www.prevody-jednotek.cz/. Počáteční a centrální momenty Aritmetický průměr a rozptyl jsou speciální případy momentů. Zavedeme 1 11 k-tý počáteční moment mk = — Y x;k , k = 1, 2, ... , n tí k-tý centrální moment 1 11 mk =-Y(x; -m)k , k = 1, 2, ... n tí Pomocí 3. a 4. počátečního momentu se definuje šikmost a špičatost. Šikmost: oc3 = —p - měří nesouměrnost rozložení četností kolem průměru. Je-li rozložení dat symetrické kolem aritmetického průměru, pak (X3 = 0. Má-li rozložení dat prodloužený pravý konec, jde o kladně zešikmené rozložení, (X3 > 0. Má-li rozložení dar prodloužený levý konec, jde o záporně zešikmené rozložení, (X3 < 0. Znázornění rozložení četností dvou datových souborů, které se liší aritmetickým průměrem a šikmostí Rozdělení s různými polohami a šikmostmi 500 -1-1 0 5 10 15 20 25 hodnota znaku Špičatost: cc4 = —^--3 - měří koncentraci rozložení četností kolem průměru. s Je-li rozložení dat normální (Gaussovo), pak a4 = 0. Je-li rozložení dat strmé, pak a4 > 0. Je-li rozložení dat ploché, pak a4 < 0. Znázornění rozložení četností dvou datových souborů, které se liší špičatostí Rozdělení s různými špičatostmi 250 2 7 12 17 22 hodnota znaku Diagnostické grafy Krabicový diagram Umožňuje posoudit symetrii a variabilitu datového souboru a existenci odlehlých či extrémních hodnot. Způsob konstrukce — odlehlá hodnota horní vnitřní hradba nebo max. hodnota horní kvartil medián dolní kvartil dolní vnitřní hradba nebo min. hodnota iš extrémní hodnota Odlehlá hodnota leží mezi vnějšími a vnitřními hradbami, tj. v intervalu (x0,75 + l,5q, x0,75 + 3q) či v intervalu (x0,25 - 3q, x0,25 - l,5q). Extrémní hodnota leží za vnějšími hradbami, tj. v intervalu (x0j5 + 3q, oo) či v intervalu (-00, x0,25 - 3q). Příklad 6.: Pro údaje z příkladu 1 sestrojte krabicový diagram. Řešení: Počet členů 1 2 3 4 5 6 Počet domácností 2 6 4 10 5 3 Rozsah souboru n = 30. Výpočty potřebných kvantilů uspořádáme do tabulky. a na c 0,25 7,5 8 2 0,50 15 15 X(15) + X(16)) 4 2 0,75 22,5 23 5 q=5-2=3 Dolní vnitřní hradba: x0,25 - l,5q = 2 - 1,5.3 = -2,5 Horní vnitřní hradba: x0j5 + l,5q = 5 + 1,5.3 = 9,5 Vidíme, že datový soubor vykazuje určitou nesymetrii - medián je posunut směrem k hornímu kvartilu, soubor je tedy záporně sešikmen. V souboru se nevyskytují žádné odlehlé ani extrémní hodnoty. Výpočet pomocí systému STATISTIC A: Otevřeme nový datový soubor o 2 proměnných a 6 případech. První proměnnou nazveme počet, druhou četnost a zapíšeme do nich počet členů domácnosti a odpovídající absolutní četnosti. Zvolíme Grafy - 2D Grafy - Krabicové grafy. Zapneme proměnnou vah četnost, zadáme závisle proměnnou počet a dostaneme krabicový diagram: Krabicový graf z počet Tabulka14 2v"6c □ Medián = 4 □ S5%-75% = (2.5) I Rozsah neodletí. = (1,6) o Odlehlé * Extrémy Upozornění: Máme-li data intervalového či poměrového charakteru, o nichž lze předpokládat, že pocházejí z nějakého symetrického rozložení (například normálního), je možné použít jinou variantu krabicového diagramu: bod či čára uvnitř krabice reprezentuje průměr, vodorovné hrany krabice jsou ve výšce průměr ± směrodatná odchylka a svorky končí v minimu či maximu. V našem případě dostaneme krabicový diagram: Krabicový grafz počet TabulkaH 2v'6c Q Průměr = 3,63: □ PrůmértSmOc = (2,2074,5,05 iMin-Max = (1,5) o Odlehlé 5 3 Před uvedením dalších diagnostických grafů je nutné zavést pojem pořadí čísla v posloupnosti čísel. Pojem pořadí Nechť x1? ..., xn je posloupnost reálných čísel. a) Jsou-li čísla navzájem různá, pak pořadím Rj čísla x} rozumíme počet těch čísel x1? ..., xn, která jsou menší nebo rovna Číslu Xj. b) Vyskytují-li se mezi danými čísly skupinky stejných čísel, pak každé takové skupince přiřadíme průměrné pořadí. Příklad na stanovení pořadí a) Jsou dána čísla 9, 4, 5, 7, 3, 1. Stanovte pořadí těchto čísel. b) Jsou dána čísla 6, 7, 7, 9, 6, 10, 8, 6, 6, 9. v Řešení ad a) _ usp. čísla 1 3 4 5 7 9 pořadí 1 2 3 4 5 6 ad b) usp. čísla 6 6 6 6 7 7 8 9 9 10 pořadí 1 2 3 4 5 6 7 8 9 10 prům. pořadí 2,5 2,5 2,5 2,5 5,5 5,5 7 8,5 8,5 10 Normální pravděpodobnostní graf (N-P plot) N- P plot umožňuje graficky posoudit, zda data pocházejí z normálního rozložení. Způsob konstrukce: Na vodorovnou osu vynášíme uspořádané hodnoty xa) < ... < x(n), na svislou osu kvantily ua standardizovaného normálního rozložení, kde a, =——- , přičemž j je pořadí j-té uspořádané J 3n + l hodnoty (jsou-li některé hodnoty stejné, pak za j bereme průměrné pořadí odpovídající takové skupince). Pocházejí-li data z normálního rozložení, pak všechny dvojice (x(j) ,ua ) budou ležet na přímce. Pro data z rozložení s kladnou šikmostí se dvojice (x(j),ua ) budou řadit do konkávni křivky, pro data z rozložení se zápornou šikmostí se dvojice (x(j) ,ua ) budou řadit do konvexní křivky. Příklad na konstrukci N - P plotu: Desetkrát nezávisle na sobě byla změřena jistá konstanta. Výsledky měření: 2 1,8 2,1 2,4 1,9 2,1 2 1,8 2,3 2,2. Pomocí normálního pravděpodobnostního grafu posuďte, zda se tato data řídí normálním rozložením. Řešení: usp. hodnoty 1,8 1,8 1,9 2 2 2,1 2,1 2,2 2,3 2,4 pořadí 1 2 3 4 5 6 7 8 9 10 průměrné pořadí 1,5 1,5 3 4,5 4,5 6,5 6,5 8 9 10 Vektor hodnot průměrného pořadí: j = (1,5 3 4,5 6,5 8 9 10), vektor hodnot a= = -2Ľ = (0,1129;0,2581;0,4032;0,5968;0,7419;0,8387;0,9355), J 3n +1 vektor kvantilů u „. = (-1,2112;-0,6493;-0,245;0,245;0,6493;0,9892;l,5179). Normální pravděpodobnostní graf 1 1.2 1.4 1.6 1.8 2 2.2 2.4 2.6 2.8 3 Protože dvojice (x(j),ua ) téměř leží na přímce, lze usoudit, že data pocházejí z normálního rozložení. Výpočet pomocí systému STATISTIC A: Otevřeme nový datový soubor o jedné proměnné a 10 případech. Zjištěné hodnoty zapíšeme do proměnné X. Grafy - 2D Grafy - Normální pravděpodobnostní grafy - Proměnná X - OK - odškrtneme Neurčovat průměrnou pozici zaných pozorování - OK. Normální p-graf zx Tabulka21 1v*10c E to > 1,7 1,8 1,9 2,0 2,1 2,2 2,3 2,4 2,5 Pozorovaná hodnota Quantile - quantile plot (Q-Q plot) Umožňuje graficky posoudit, zda data pocházejí z nějakého známého rozložení (např. STATISTICA nabízí 8 typů rozložení: beta, exponenciální, Gumbelovo, gamma, log-normální, normální, Rayleighovo a Weibulovo). Způsob konstrukce: na svislou osu vynášíme uspořádané hodnoty xa) < ... < x(n), j —^* na vodorovnou osu kvantily K„ (X) vybraného rozložení, kde a, =-—, přičemž radj a nadj jsou korigující faktory < 0,5, n + nadj implicitně radj = 0,375 a nadj = 0,25. (Jsou-li některé hodnoty x(1) < ... < x(n) stejné, pak za j bereme průměrné pořadí odpovídající takové skupince.) Pokud vybrané rozložení závisí na nějakých parametrech, pak se tyto parametry odhadnou z dat nebo je může zadat uživatel Body (Ka (X), x(j)) se metodou nejmenších čtverců proloží přímka. Čím méně se body odchylují od této přímky, tím je lepší soulad mezi empirickým a teoretickým rozložením. Příklad na konstrukci Q-Q plotu: Desetkrát nezávisle na sobě byla změřena jistá konstanta. Výsledky měření: 2 1,8 2,1 2,4 1,9 2,1 2 1,8 2,3 2,2. Pomocí Q-Q plotu ověřte, zda se tato data řídí normálním rozložením. v Řešení: usp.hodnoty 1,8 1,8 1,9 2 2 2,1 2,1 2,2 2,3 2,4 pořadí 1 2 3 4 5 6 7 8 9 10 průměrné pořadí 1,5 1,5 3 4,5 4,5 6,5 6,5 8 9 10 Vektor hodnot průměrného pořadí: j = (1,5 3 4,5 6,5 8 9 10) vektor hodnot ct: =ÍZ^75 = (0,1098;0,2561;0,4024;0,5976;0,7439;0,8415;0,939) J n + 0,25 vektor kvantilů u = (-l,2278;-0,6554;-0,247;0,247;0,6554;l,0005;l,566) 3 p-,-,-,-,-,-,-r 2.8 -2.6 -2.4 -2.2 -2 -1.8 -1.6 -1.4 -1.2 - Vzhled grafu nasvědčuje tomu, že data pocházejí z normálního rozložení. Výpočet pomocí systému STATISTICA: Otevřeme nový datový soubor o jedné proměnné a 10 případech. Zjištěné hodnoty zapíšeme do proměnné X. Grafy - 2D Grafy - Grafy typu Q-Q- Proměnná X - OK - odškrtneme Neurčovat průměrnou pozici svázaných pozorování - OK. Graf kvantil-kvantil z X mereni konst.sta 1v*10c Rozdělení:Normální X = 2,058+0,2198*x 0,10 0,25 0,50 0,75 0,90 0,95 1,7 1-1-1-1-1-1-1-1-1-1-1 -1,5 -1,0 -0,5 0,0 0,5 1,0 1,5 2,0 Teoretický kvantil Probability - probability plot (P-P plot) Používá se ke stejným účelům jako Q-Q plot, ale jinak se konstruuje. Způsob konstrukce: spočtou se standardizované hodnoty z(j) =———, j = 1, n. Na vodorovnou osu se vynesou hodnoty teoretické distribuční funkce ^(zq)) a na svislou osu hodnoty empirické distribuční funkce F(z,j)) = j/n. (Jsou-li některé hodnoty X(i) < ... < X(n) stejné, pak za j bereme průměrné pořadí odpovídající takové skupince.)Pokud se body (®(zu*l) XK dj nj Pj Nj Fj fj (35,65) 50 30 7 7/70=0,1 7 7/70=0,1 7/2100=0,0033 (65,95) 80 30 16 16/70=0,23 23 23/70=0,33 16/2100=0,0076 (95,125) 110 30 27 27/70=0,38 50 50/70=0,71 23/2100=0,0109 (l 25,155) 140 30 14 14/70=0,2 64 64/70=0,91 14/2100=0,0067 (l 55,185) 170 30 4 4/70=0,06 68 68/70=0,97 4/2100=0,0019 (185,215) 200 30 2 2/70=0,03 70 70/70=1 2/2100=0,00010 S pomocí této tabulky sestrojíme histogram: 0,014i...............................i 0,012----------------------------------------------------1 I------------------------------------------------------------------------------ 0,010 0,008 ----------------------- 0,006 | 0,004 0,002 —-r 0,000 ii ■ i ■ i ■ i ■ i ■ i ■ l 35 65 95 125 155 185 215 Výpočet pomocí systému STATISTIC A: Otevřeme nový datový soubor o dvou proměnných a 6 případech. První proměnnou nazveme X, druhou četnost. Do pro- X 2 četnost 1 50 7 2 80 16 3 110 27 4 140 14 5 170 4 6 200 2 Grafy - Histogramy - zadáme proměnnou vah četnost - Proměnná X - zaškrtneme Hranice - Určit hranice - zaškrtneme Zadejte hraniční rozmezí: Minimum 35, Krok 30, Maximum 215 - OK - OK. Dostaneme graf: Histogram z X Tabulka8 2v'6c X- 70'30'normal(x; 109,1429; 34,6303) 30 28 26 24 22 ,_ 20 1 18 o 16 a. 14 >o 12 °- 10 8 6 4 2 0 35 65 95 125 155 185 215 X Na rozdíl od histogramu konstruovaného ručně jsou na svislé ose absolutní četnosti, nikoliv četnostní hustoty. V porovnání s grafem hustoty normálního rozložení je vidět, že naše rozložení četností je lehce kladně zešikmené. Naše data tedy nepocházejí z normálního rozložení. Vzhled diagnostických grafů pro rozložení s různou šikmostí Pro ilustraci se podívejme, jak se různá šikmost rozložení projeví na histogramu, N-P plotu a na krabicovém diagramu. Rozložení s kladnou šikmostí Normální rozložení Rozložení se zápornou šikmostí Histogram Histogram Histogram NP plot NP plot i NP plot Krabicový diagram Krabicový diagram Krabicový diagram