Průzkumová analýza jednorozměrných dat, diagnostické grafy
Motivace
Průzkumová analýza dat je odvětví statistiky, které pomocí různých postupů odhaluje zvláštnosti v datech. Při zpracování dat se často používají metody, které jsou založeny na předpokladu, že data pocházejí z nějakého konkrétního rozložení, nejčastěji normálního. Tento předpoklad nemusí být vždy splněn, protože data
- mohou pocházet z jiného rozložení
- mohou být zatížena hrubými chybami
- mohou pocházet ze směsi několika rozložení. Proto je důležité provést průzkumovou analýzu dat, abychom se vyvarovali neadekvátního použití statistických metod.
Data zkoumáme pomocí funkcionálních a číselných charakteristik a pomocí diagnostických grafů.
Osnova:
- datový soubor
- bodové a intervalové rozložení četností
- typy znaků, číselné charakteristiky znaků
- krabicový diagram, N-P plot, P-P plot, Q-Q plot, histogram
Funkcionální charakteristiky datového souboru
Označení
Na množině objektů {e1,...,en} zjišťujeme hodnoty znaku X (např. u 6 domácností zjišťujeme počet členů). Hodnotu znaku X na objektu e; označíme xi? i = 1, n.
(2\
Tyto hodnoty zaznamenáme do jednorozměrného datového souboru
(např.
1
2
3 1
v2y
Uspořádané hodnoty x(1) < x(2) < ... < x(n) tvoří uspořádaný datový soubor
, v našem případě
1
2 2 2
v3y
v[i]
Vektor
, kde xm < ... < x[r] jsou navzájem různé hodnoty znaku X, se nazývá vektor variant, v našem případě
Bodové rozložení četností
Je-li počet variant znaku X malý, přiřazujeme četnosti jednotlivým variantám a hovoříme o bodovém rozložení četností.
nj - absolutní četnost varianty x^
pj = — - relativní četnost varianty x
Nj = ni + ... + nj - absolutní kumulativní četnost prvních j variant
N.
Fj = — = pí + ... + pi — relativní kumulativní četnost prvních j variant n
Absolutní a relativní četnosti zapisujeme do tabulky rozložení četností nebo je znázorňujeme graficky např. pomocí sloupkového diagramu či polygonu četností.
[pjprox = xU],j = l, ...,r
funkce: p(x) -
10 jinak
Empirická distribuční funkce: F(x) =
0 pro x < Xrjj <FJproxU]<x<xQ+1],j = l,...,r-l lprox>xrrl
Intervalové rozložení četností
Je-li počet variant znaku X velký, přiřazujeme četnosti nikoli jednotlivým variantám, ale třídicím intervalům (upu2), (ur,ur+1) a hovoříme o intervalovém rozložení četností. Názvy četností jsou podobné jako u bodového rozložení četností, na-
víc zavádíme četnostní hustotu j-tého třídicího intervalu fj = kde dj = Uj+i - Uj. Stanovení počtu třídicích intervalů je dosti subjektivní záležitost. Často se doporučuje volit r blízké Vň.
Hustota četnosti: f(x) =
[fj prouj <x<uj+1, j = l,---,r [O jinak
(grafem hustoty četnosti je histogram)
nkce: F(x) = J*f(t)dt.
Příklad 2.: U 70 domácností byly zjišťovány týdenní výdaje na nealkoholické nápoje (v Kč).
Výdaje	(35,65)	(65,95)	(95,125)	(125,155)	(155,185)	(185,215)
Počet dom.	7	16	27	14	4	2
estavte tabulku rozložení četností, nakreslete histogram a graf intervalové empirické distribuční funkce. Řešení:
Tabulka rozložení četností
(Uj,U1+1]		Pi	fi	Ni	
(35,65)	7	7/70	7/2100	7	7/70
(65,95)	16	16/70	16/2100	23	23/70
(95,125)	27	27/70	27/2100	50	50/70
(125,155)	14	14/70	14/2100	64	64/70
(155,185)	4	4/70	4/2100	68	68/70
(185,215)	2	2/70	2/2100	70	1
Histogram
0,014 0,012 0,010 0,008 0,006 0,004 0,002 0,000
Graf intervalové empirické distribuční funkce
(35,65] (95,125] (155,185]
(65,95] (125,155] (185,215]
Číselné charakteristiky datového souboru
Znaky nominálního typu
Tyto znaky umožňují obsahovou interpretaci pouze u relace rovnosti.
Příklady nominálních znaků: lékařská diagnóza, typ profese, barva očí, rodinný stav, národnost, ... Charakteristikou polohy je modus, tj. nejčetnější varianta či střed nejčetnějšího intervalu.
Znaky ordinálního typu
Lze u nich navíc obsahově interpretovat relaci uspořádání.
Příklad ordinálního znaku: školní klasifikace vyjadřuje menší nebo větší znalosti zkoušených žáků - jedničkář je lepší než dvojkař, ale intervaly mezi známkami nemají obsahovou interpretaci. Nelze tvrdit, že rozdíl ve znalostech mezi jedničkářem a dvojkařemje stejný jako mezi trojkařem a čtyřkařem.
Další příklady: Různá bodování ve sportovních a uměleckých soutěžích, posuzování různých rysů sociálního chování, posuzování stavu pacientů, hodnocení postojů respondentů k různým otázkám, ...
Charakteristikou polohy je a-kvantil. Je-li a e (0;l), pak a-kvantil xa je číslo, které rozděluje uspořádaný datový soubor na dolní úsek, obsahující aspoň podíl a všech dat a na horní úsek obsahující aspoň podíl 1 - a všech dat. Pro výpočet a-kvantilu slouží algoritmus:
celé číslo c:
X(c) + X(c+1)
na=/ u 2
i necelé číslo ^> zaokrouhlíme nahoru na nejbližší celé číslo c^>xa=x( Pro speciálně zvolená a užíváme názvů:
x0,5o - medián, x0,25 - dolní kvartil, x0j5 - horní kvartil, x0,i, x0,9 - decily, x0,oi, x0,99 - percentily. Jako charakteristika variability slouží kvartilová odchylka: q = x0,75 - x0,25-
Příklad 3.: Během semestru se studenti podrobili písemnému testu z matematiky, v němž bylo možno získat 0 až 10 bodů. Výsledky jsou uvedeny v tabulce:
Počet bodů	0	1	2	3	4	5	6	7	8	9	10
Počet studentů	1	4	6	7	11	15	19	17	12	6	3
Zjistěte modus, medián, 1. decil, 9. decil a kvartilovou odchylku počtu bodů.
Řešení:
Modus je nejčetnější varianta znaku, v tomto případě tedy 6. Pro výpočet kvantilů musíme znát rozsah datového souboru: n = 1 + 4 +
a	na	c	xa—x(c)
0,50	50,5	51	6
0,10	10,1	11	2
0,90	90,9	91	8
0,25	25,25	26	4
0,75	75,75	76	7
+ 3 = 101. Výpočty uspořádáme do tabulky.
q=7-4=3
Výpočet pomocí systému STATISTICA:
Otevřeme nový datový soubor o 2 proměnných a 11 případech. První proměnnou nazveme X, druhou četnost a zapíšeme do nich počet bodů a odpovídající absolutní četnosti.
Statistiky - Základní statistiky/tabulky - Popisné statistiky - zapneme proměnnou vah četnost - OK - OK - Proměnné X OK - Detailní výsledky - vybereme Medián, Dolní a horní kvartily, Kvantilové hranice - Výpočet - ve výstupní tabulce upravíme počet desetinných míst.
Proměnná	Popisné statistiky (počet bodu.sta)			
	N platných 1 Medián	Spodní kvartil	Horní kvartil	Kvantil  I Kvantil 10,00000 190,00000
X	101 6	4	7	2 8
Znaky intervalového a poměrového typu
U těchto znaků lze navíc obsahově interpretovat operaci rozdílu resp. podílu.
Příklad intervalového znaku: teplota měřená ve stupních Celsia. Např. naměříme-li ve čtyřech po sobě jdoucích dnech po lední teploty 0, 2, 4, 6 °C, znamená to, že každým dnem stouply teploty o 2 °C. Nelze však říci, že z druhého na třetí den vzrostla teplota dvojnásobně, kdežto ze třetího na čtvrtý den pouze jeden a půl krát. Další příklady: kalendářní systémy, směr větru, inteligenční kvocient, ... Společný znak intervalových znaků: nula byla stanovena uměle, pouhou konvencí. Příklad poměrového znaku: délka předmětu měřená v cm. Má-li jeden předmět délku 8 cm a druhý 16 cm, má smysl prohlásit, že druhý předmět je dvakrát delší než první předmět. Další příklady: počet dětí v rodině, výška kapesného v Kč, hmotnost osoby, ...
Společný znak poměrových znaků: poměrový znak má přirozený počátek, ke kterému jsou vztahovány všechny další hodnoty znaku.
1 n
Charakteristika polohy: aritmetický průměr m = — YV .
n i=i
U poměrových znaků, které nabývají pouze kladných hodnot, lze použít geometrický průměr ^/x7
Pomocí průměru zavedeme i-tou centrovanou hodnotu x} - m (podle znaménka poznáme, zda i-tá hodnota je podprůměrná či nadprůměrná).
Znázornění rozložení četností dvou datových souborů, které se liší aritmetickým průměrem
Rozdělení s různými polohami
hodnota znaku
Vlastnosti aritmetického průměru
- Aritmetický průměr si lze představit jako těžiště dat - součet podprůměrných hodnot je stejný jako součet nadprůměrných hodnot - oba součty jsou v rovnováze.
1 n 1 n      1 n 1
- Průměr centrovaných hodnot je nulový, protože — ^ (x; - m) = — ^ x; —^ m =m---n ■ m = 0 =0.
n —
i=l
n —
i=l
n —
i=l
Výraz ^(x; - a)2 (tzv. kvadratická odchylka) nabývá svého minima pro a = m. Uvedený výraz charakterizuje celkovou
i=l
chybu, které se dopustíme, když datový soubor nahradíme jedinou hodnotou a. Tato chyba je tedy nejmenší, když datový soubor nahradíme aritmetickým průměrem, přičemž za míru chyby považujeme kvadratickou odchylku.
- Pokud každou hodnotu Xj podrobíme lineární transformaci Ví = a + bxi? pak průměr transformovaných hodnot je roven lineární transformaci původního průměru, tj. m2 = a + bmi.
- Mají-li znaky X, Y průměry m1? m2, pak znak Z = X + Y má průměr ni! + m2.
- Aritmetický průměr je silně ovlivněn extrémními hodnotami.
- Aritmetický průměr je vhodné použít, pokud je rozložení dat přibližně symetrické.
Příklad na vlastnosti aritmetického průměru:
U skupiny 20 pracovníků v určité dílně byly zjišťovány měsíční mzdy. Průměr mezd činil 15 500 Kč. Určete průměr mezd, jestliže mzdy všech pracovníků se zvýší a) o 300 Kč, b) 1,1 krát, c) o 20%.
v
Řešení:
Označme m: průměr hodnot x1? ..., xn a m2 průměr hodnot y1? ..., yn, přičemž y{ - a + bxj, i = 1, ..., n. Pak m2 = a + bm^
ad a) m2 = 300 + m: = 15 800 Průměr se zvýšil o 300 Kč na 15 800 Kč.
ad b) m2 = l,l.mi = 17 050 Průměr se zvýšil na 17 050 Kč.
ad c)m2= l,2.mi = 18 600 Průměr se zvýšil na 18 600 Kč.
Charakteristiky variability intervalových a poměrových znaků
' rozpětí R = x(n) - X(i) (nevýhoda - bere v úvahu pouze nejmenší a největší hodnotu datového souboru),
2      1 n
rozptyl s = — Y(x -m)2 (nevýhoda - vychází ve druhých mocninách jednotek, v nichž byl měřen znak X) n tí
směrodatná odchylka s = Vš^.
x — m
Pomocí směrodatné odchylky zavedeme i-tou standardizovanou hodnotu —1-      (vyjadřuje, o kolik směrodatných odchylek
s
se i-tá hodnota odchýlila od průměru).
U poměrových znaků se jako charakteristika variability používá též:
koeficient variace — (často se udává v procentech a udává, kolika procent průměru dosahuje směrodatná odchylka), m
Znázornění rozložení četností dvou datových souborů, které se liší rozptylem:
r
Rozdělení s různými variabilitami
5 0 0
40 0 -
hodnota znaku
Vlastnosti rozptylu:
- Rozptyl je nulový pouze tehdy, když jsou všechny hodnoty stejné, jinak je kladný.
1 n 1 n
Rozptyl centrovaných hodnot je roven původnímu rozptylu, neboť — Y[(x; -m)-0]2 =— Y(x; -m)2 =
n ~ŕ n j-f
i=l
Rozptyl standardizovaných hodnot je 1, protože — ^
1 ■   x. -m
1   1 ^
n ;=
i=l
s     n :
i=l
1^
Rozptyl se zpravidla počítá podle vzorce s = — ^x; -m .
i=l
- Pokud každou hodnotu x; podrobíme lineární transformaci y; = a + bxÍ5 pak rozptyl transformovaných hodnot je roven původnímu rozptylu vynásobenému b2, tj. s22 = b2 Si2.
- Rozptyl je stejně jako průměr silně ovlivněn extrémními hodnotami.
- Rozptyl se nehodí jako charakteristika variability, je-li rozložení dat nesymetrické.
Příklad 4.: Kurzy akcií společnosti AAA Auto Group v průběhu 23 dní v měsíci srpnu 2010 byly následující: 17,75; 17,74; 17,85; 17,59; 17,92; 17,98; 18,39; 18,25; 18,30; 18,00; 18,15; 18,15; 18,22; 18,40; 18,25; 17,95; 18,25; 18,23; 17,95; 17,90; 17,80; 17,87; 17,87. Vypočtěte charakteristiky variability.
Řešení:
Nejprve vypočítáme variační rozpětí: R = x(n) - x(1) = 18,4-17,59 = 0,81.
Před výpočtem dalších charakteristik variability musíme získat aritmetický průměr: m =—(17,75 +17,74 +... +17,87) = 18,033,
23
Rozptyl: s2 =-Jxi2-m2 = ^(l7,752 +17,742 +... + 17,872)-18,0332 =0,049
n i=
Směrodatná odchylka: s = vs2 = ^0,049 =0,2213 Koeficient variace: —100% =--100% = 1,23%
m
18,033
Výpočet pomocí systému STATISTICA:
Otevřeme nový datový soubor o jedné proměnné X a 23 případech. Do proměnné X zapíšeme zjištěné kurzy akcií. Statistiky - Základní statistiky/tabulky - Popisné statistiky - OK - Proměnné X - OK - Detailní výsledky - vybereme Průměr, Rozptyl, Rozpětí - Výpočet. Ve výstupní tabulce přidáme za proměnnou Rozptyl tři nové proměnné nazvané rozptyl, směr. odch. a koef. variace. Do Dlouhého jména proměnné rozptyl napíšeme =v3*22/23, Dlouhého jména proměnné směr. odch. napíšeme =sqrt(v4) a do Dlouhého jména proměnné koef. variace napíšeme =100*v5/vl.
Proměnná	Průměr Rozpětí 1 1	Rozptyl I rozptyl I směr. odch. I | =v3*22/2| =sqrt(v4)	koef. variace =100*v5/v1
X	18,03304 0,810000|	0,051231 0,049004 0,221367976	1,22756858
Příklad 5.: U 35 zaměstnanců byl zjištěn počet odpracovaných hodin za měsíc.
Počet odpracovaných hodin	184	185	186	187	188	189
Počet zaměstnanců	4	6	7	6	7	5
Vypočtěte průměr, směrodatnou odchylku a koeficient variace počtu odpracovaných hodin.
v
Řešení:
Vážený průměr: m = -^njX[j] = — (4 -184 + 6 -185 + 7 -186 + 6 -187 + 7 -188 + 5 -189) = 186,6
n j_j 3 5
Vážený rozptyl: s2 =      njX[j]2 -m2 = — (4 ■ 1842 + 6 ■ 1852 + 7 ■ 1862 + 6■ 1872 + 7 ■ 1882 + 5 ■ 1892)-186,62 = 2,5257
n j_j 3 5
Vážená směrodatná odchylka: s = Vš^ = ^2,5251 = l,59h = lh 35 min
s 1 59
Koeficient variace: —100% = ^—100% = 0,85%
m 186,6
Vidíme, že zaměstnanci odpracovali za měsíc v průměru 186,6 h, přičemž směrodatná odchylka dosahuje 0,85 % průměrné odpracované doby.
Výpočet pomocí systému STATISTICA:
Otevřeme nový datový soubor o 2 proměnných a 6 případech. První proměnnou nazveme X, druhou četnost a zapíšeme do nich počet odpracovaných hodin a odpovídající počty zaměstnanců.
Statistiky - Základní statistiky/tabulky - Popisné statistiky - zapneme proměnnou vah četnost - OK - OK - Proměnné X -OK - Detailní výsledky - vybereme Průměr, Rozptyl - Výpočet. Ve výstupní tabulce přidáme za proměnnou Rozptyl dvě nové proměnné nazvané směr. odch. a koef. variace. Do Dlouhého jména proměnné směr. odch. napíšeme =sqrt(v2*34/35) a do Dlouhého jména proměnné koef. variace napíšeme =100*v3/vl.
Proměnná	Průměr 1 Rozptyl	směr.odch.   I koef. variace =sqrt(v2*34/35)| =100*v3/v1
X	186,6         2,6       1,5892496 0,851687888	
Převod desetinných částí hodiny na minuty můžeme provést např. pomocí aplikace na adrese http://www.prevody-jednotek.cz/.
Počáteční a centrální momenty
Aritmetický průměr a rozptyl jsou speciální případy momentů. Zavedeme
1 A
k-tý počáteční moment mk = — Y x;k , k = 1, 2, ... ,
n tí
k-tý centrální moment
1 ^
= -X(x1-m)k,k=l,2,...
i=l
Pomocí 3. a 4. počátečního momentu se definuje šikmost a špičatost.
m
iikmost: oc3 = —p - měří nesouměrnost rozložení četností kolem průměru.
Je-li rozložení dat symetrické kolem aritmetického průměru, pak (X3 = 0. Má-li rozložení dat prodloužený pravý konec, jde o kladně zešikmené rozložení, (X3 > 0. Má-li rozložení dar prodloužený levý konec, jde o záporně zešikmené rozložení, (X3 < 0.
Znázornění rozložení četností dvou datových souborů, které se liší aritmetickým průměrem a šikmostí
í
Rozdělení s různými polohami a šikmostmi
500 -1
400 -
g 300 c
,2 200 _ 100 -
1 o
15
20
25
hodnota znaku
Špičatost: a4
m.
3 - měří koncentraci rozložení četností kolem průměru.
Je-li rozložení dat normální (Gaussovo), pak a4 = 0. Je-li rozložení dat strmé, pak a4 > 0. Je-li rozložení dat ploché, pak a4 < 0.
Znázornění rozložení četností dvou datových souborů, které se liší špičatostí
Rozdělení s různými špičatostmi
250 -
200 -
g 150 H C
«5 ioo >o
50 -0 -
7 12 17
hodnota znaku
Diagnostické grafy Krabicový diagram
Umožňuje posoudit symetrii a variabilitu datového souboru a existenci odlehlých či extrémních hodnot. Způsob konstrukce
odlehlá hodnota
horní vnitřní hradba nebo max. hodnota
horní kvartil medián
dolní kvartil
dolní vnitřní hradba nebo min. hodnota extrémní hodnota
Odlehlá hodnota leží mezi vnějšími a vnitřními hradbami, tj. v intervalu (x0,75 + l,5q, x0,75 + 3q) či v intervalu (x0,25 - 3q, x0,25 - l,5q).
Extrémní hodnota leží za vnějšími hradbami, tj. v intervalu (x0,75 + 3q, oo) či v intervalu (-00, x0,25 - 3q).
Příklad 6.: Pro údaje z příkladu 1 sestrojte krabicový diagram. Řešení:
Počet členů	1	2	3	4	5	6
Počet domácností	2	6	4	10	5	3
Rozsah souboru n = 30. Výpočty potřebných kvantilů uspořádáme do tabulky.
a	na	c		
0,25	7,5	8		2
0,50	15	15	X(15) + X(16))	4
			2	
0,75	22,5	23		5
q=5-2=3 Dolní vnitřní hradba: x0,25 - l,5q = 2 - 1,5.3 = -2,5 Horní vnitřní hradba: x0j5 + l,5q = 5 + 1,5.3 = 9,5
Vidíme, že datový soubor vykazuje určitou nesymetrii - medián je posunut směrem k hornímu kvartilu, soubor je tedy záporně sešikmen. V souboru se nevyskytují žádné odlehlé ani extrémní hodnoty.
Výpočet pomocí systému STATISTIC A:
Otevřeme nový datový soubor o 2 proměnných a 6 případech. První proměnnou nazveme počet, druhou četnost a zapíšeme do nich počet členů domácnosti a odpovídající absolutní četnosti. Zvolíme Grafy - 2D Grafy - Krabicové grafy. Zapneme proměnnou vah četnost, zadáme závisle proměnnou počet a dostaneme krabicový diagram:
□ Medián =4
□ 25%-75% = (2, 5)
I Rozsah neodletí.
= 0.6) o Odlehlé * Extrémy
Upozornění: Máme-li data intervalového či poměrového charakteru, o nichž lze předpokládat, že pocházejí z nějakého symetrického rozložení (například normálního), je možné použít jinou variantu krabicového diagramu: bod či čára uvnitř krabice reprezentuje průměr, vodorovné hrany krabice jsou ve výšce průměr ± směrodatná odchylka a svorky končí v minimu či maximu.
V našem případě dostaneme krabicový diagram:
Před uvedením dalších diagnostických grafů je nutné zavést pojem pořadí čísla v posloupnosti čísel. Pojem pořadí
Nechť x1? ..., xn je posloupnost reálných čísel.
a) Jsou-li čísla navzájem různá, pak pořadím Rj čísla x} rozumíme počet těch čísel x1? ..., xn, která jsou menší nebo rovna
Číslu Xj.
b) Vyskytují-li se mezi danými čísly skupinky stejných čísel, pak každé takové skupince přiřadíme průměrné pořadí. Příklad na stanovení pořadí
a) Jsou dána čísla 9, 4, 5, 7, 3, 1. Stanovte pořadí těchto čísel.
b) Jsou dána čísla 6, 7, 7, 9, 6, 10, 8, 6, 6, 9.
v
Řešení
ad a) _
usp. čísla	1	3	4	5	7	9
pořadí	1	2	3	4	5	6
ad b)
usp. čísla	6	6	6	6	7	7	8	9	9	10
pořadí	1	2	3	4	5	6	7	8	9	10
prům. pořadí	2,5	2,5	2,5	2,5	5,5	5,5	7	8,5	8,5	10
Normální pravděpodobnostní graf (N-P plot)
N- P plot umožňuje graficky posoudit, zda data pocházejí z normálního rozložení.
Způsob konstrukce:
Na vodorovnou osu vynášíme uspořádané hodnoty xa) < ... < x(n),
na svislou osu kvantily ua standardizovaného normálního rozložení, kde a, =——- , přičemž j je pořadí j-té uspořádané
J 3n + l
hodnoty (jsou-li některé hodnoty stejné, pak za j bereme průměrné pořadí odpovídající takové skupince). Pocházejí-li data z normálního rozložení, pak všechny dvojice (x(j) ,ua ) budou ležet na přímce.
Pro data z rozložení s kladnou šikmostí se dvojice (x(j),ua ) budou řadit do konkávni křivky,
pro data z rozložení se zápornou šikmostí se dvojice (x(j) ,ua ) budou řadit do konvexní křivky.
Příklad na konstrukci N - P plotu:
Desetkrát nezávisle na sobě byla změřena jistá konstanta. Výsledky měření: 2 1,8 2,1 2,4 1,9 2,1 2 1,8 2,3 2,2. Pomocí normálního pravděpodobnostního grafu posuďte, zda se tato data řídí normálním rozložením.
Řešení:
usp. hodnoty	1,8	1,8	1,9	2	2	2,1	2,1	2,2	2,3	2,4
pořadí	1	2	3	4	5	6	7	8	9	10
průměrné pořadí	1,5	1,5	3	4,5	4,5	6,5	6,5	8	9	10
Vektor hodnot průměrného pořadí: j = (1,5 3 4,5 6,5 8 9 10),
= (0,H29;0,2581;0,4032;0,5968;0,7419;0,8387;0,9355),
vektor hodnot a, = ——-
J    3n + l
vektor kvantilů u a ^ = (-1,2112;-0,6493;-0,245;0,245;0,6493;0,9892;l,5179). Normální pravděpodobnostní graf
1       1.2      1.4     1.6     1.8       2      2.2     2.4     2.6      2.8 3
Protože dvojice (x(j),ua ) téměř leží na přímce, lze usoudit, že data pocházejí z normálního rozložení.
Výpočet pomocí systému STATISTIC A:
Otevřeme nový datový soubor o jedné proměnné a 10 případech. Zjištěné hodnoty zapíšeme do proměnné X.
Grafy - 2D Grafy - Normální pravděpodobnostní grafy - Proměnná X - OK - odškrtneme Neurčovat průměrnou pozici svázaných pozorování - OK.
Normální p-graf zx Tabulka21 1v*10c
2,0 1,5
I  1,0 K
"D
0
_ÍZ
1 0,5
■CD
E
b
0,0
CC >
-CC
O
8 -0.5 -1,0
-1,5
1,7
1,9 2,0 2,1 2,2
Pozorovaná hodnota
							
							
							
							
							
	C						
							
2,3
2,4
2,5
Quantile - quantile plot (Q-Q plot)
Umožňuje graficky posoudit, zda data pocházejí z nějakého známého rozložení (např. STATISTICA nabízí 8 typů rozložení: beta, exponenciální, Gumbelovo, gamma, log-normální, normální, Rayleighovo a Weibulovo).
ukce:
na svislou osu vynášíme uspořádané hodnoty xa) < ... < x(n),
J —^*
na vodorovnou osu kvantily K„ (X) vybraného rozložení, kde a, =-—, přičemž radj a nadj jsou korigující faktory < 0,5,
n + nadj
implicitně radj = 0,375 a nadj = 0,25. (Jsou-li některé hodnoty x(1) < ... < x(n) stejné, pak za j bereme průměrné pořadí odpovídající takové skupince.)
Pokud vybrané rozložení závisí na nějakých parametrech, pak se tyto parametry odhadnou z dat nebo je může zadat uživatel Body (Ka (X), x(j)) se metodou nejmenších čtverců proloží přímka. Čím méně se body odchylují od této přímky, tím je lepší
soulad mezi empirickým a teoretickým rozložením.
Příklad na konstrukci Q-Q plotu: Desetkrát nezávisle na sobě byla změřena jistá konstanta. Výsledky měření: 2 1,8 2,1 2,4 1,9 2,1 2 1,8 2,3 2,2. Pomocí Q-Q plotu ověřte, zda se tato data řídí normálním rozložením.
Řešení:
usp.hodnoty	1,8	1,8	1,9	2	2	2,1	2,1	2,2	2,3	2,4
pořadí	1	2	3	4	5	6	7	8	9	10
průměrné pořadí	1,5	1,5	3	4,5	4,5	6,5	6,5	8	9	10
Vektor hodnot průměrného pořadí: j = (1,5 3 4,5 6,5 8 9 10)
vektor hodnot ct: =ÍZ^7_5 = (0,1098;0,2561;0,4024;0,5976;0,7439;0,8415;0,939) J    n + 0,25
vektor kvantilů ua = (-l,2278;-0,6554;-0,247;0,247;0,6554;l,0005;l,566)
-2        -1.5 -1 -0.5 0 0.5 1 1.5 2
Vzhled grafu nasvědčuje tomu, že data pocházejí z normálního rozložení
Výpočet pomocí systému STATISTICA:
Otevřeme nový datový soubor o jedné proměnné a 10 případech. Zjištěné hodnoty zapíšeme do proměnné X. Grafy - 2D Grafy - Grafy typu Q-Q- Proměnná X - OK - odškrtneme Neurčovat průměrnou pozici svázaných pozorování OK.
Probability - probability plot (P-P plot)
Používá se ke stejným účelům jako Q-Q plot, ale jinak se konstruuje.
Způsob konstrukce: spočtou se standardizované hodnoty z(j) =———, j = 1,    n. Na vodorovnou osu se vynesou hodnoty
teoretické distribuční funkce ®(zq)) a na svislou osu hodnoty empirické distribuční funkce F(z,j)) = j/n. (Jsou-li některé hodnoty X(i) < ... < X(n) stejné, pak za j bereme průměrné pořadí odpovídající takové skupince.)Pokud se body (®(z<j)), F(z,j))) řadí kolem hlavní diagonály čtverce [0,1] x [0,1], lze usuzovat na dobrou shodu empirického a teoretického rozložení.
Příklad na konstrukci P-P plotu pomocí systému STATISTICA: Desetkrát nezávisle na sobě byla změřena jistá konstan ta. Výsledky měření: 2 1,8 2,1 2,4 1,9 2,1 2 1,8 2,3 2,2. Pomocí P-P plotu ověřte, zda se tato data řídí normálním rozložením.
Výpočet pomocí systému STATISTICA:
Otevřeme nový datový soubor o jedné proměnné a 10 případech. Zjištěné hodnoty zapíšeme do proměnné X. Grafy - 2D Grafy - Grafy typu P-P - Proměnná X - OK - odškrtneme Neurčovat průměrnou pozici svázaných pozorování -OK.
Histogram
Umožňuje porovnat tvar hustoty četnosti s tvarem hustoty pravděpodobnosti vybraného teoretického rozložení. (Ve STATISTICE je pojem histogramu širší, skrývá se za ním i sloupkový diagram.)
Způsob konstrukce: na vodorovnou osu vynášíme meze třídicích intervalů. Nad každým třídicím intervalem sestrojíme obdélník o ploše odpovídající relativní četnosti příslušného třídicího intervalu, tj. výška obdélníku je rovna četnostní hustotě třídicího intervalu (četnostní hustota je relativní četnost třídicího intervalu dělená délkou tohoto intervalu).
Způsob konstrukce ve STATISTICE: na vodorovnou osu se vynášejí třídicí intervaly (implicitně 10, jejich počet lze změnit, stejně tak i meze třídicích intervalů) či varianty znaku a na svislou osu absolutní nebo relativní četnosti třídicích intervalů či variant. Do histogramu se zakreslí tvar hustoty (či pravděpodobnostní funkce) vybraného teoretického rozložení.
Příklad na konstrukci histogramu:
U 70 domácností byly zjišťovány týdenní výdaje na nealkoholické nápoje (v Kč).
.....
Výdaje	(35,65)	(65,95)	(95,125)	(125,155)	(155,185)	(185,215)
Počet dom.	7	16	27	14	4	2
Nakreslete histogram.
v
Řešení:
Nejprve sestavíme tabulku rozložení četností:
(uj>u*l)	XK	dj	nj	Pj	Nj	Fj	fj
(35,65)	50	30	7	7/70=0,1	7	7/70=0,1	7/2100=0,0033
(65,95)	80	30	16	16/70=0,23	23	23/70=0,33	16/2100=0,0076
(95,125)	110	30	27	27/70=0,38	50	50/70=0,71	23/2100=0,0109
(l 25,155)	140	30	14	14/70=0,2	64	64/70=0,91	14/2100=0,0067
(l 55,185)	170	30	4	4/70=0,06	68	68/70=0,97	4/2100=0,0019
(185,215)	200	30	2	2/70=0,03	70	70/70=1	2/2100=0,00010
S pomocí této tabulky sestrojíme histogram:
0,014 0,012 0,010 0,008 0,006 0,004 0,002 0,000
35     65     95    125   155   185 215
Výpočet pomocí systému STATISTIC A:
Otevřeme nový datový soubor o dvou proměnných a 6 případech. První proměnnou nazveme X, druhou četnost. Do pro-
		
	X	2 četnost
1	50	7
2	80	16
3	110	27
4	140	14
5	170	4
6	200	2
Grafy - Histogramy - zadáme proměnnou vah četnost - Proměnná X - zaškrtneme Hranice - Určit hranice - zaškrtneme Zadejte hraniční rozmezí: Minimum 35, Krok 30, Maximum 215 - OK - OK. Dostaneme graf:
Histogram z X Tabulka8 2v'6c X- 70'30'normal(x; 109,1429; 34,6303)
					
					
					
					
............/					
		/			
					
					
					
					
					v
					\ .......
					
35 65 95 125 155 185 215
Na rozdíl od histogramu konstruovaného ručně jsou na svislé ose absolutní četnosti, nikoliv četnostní hustoty. V porovnání s grafem hustoty normálního rozložení je vidět, že naše rozložení četností je lehce kladně zešikmené. Naše data tedy nepocházejí z normálního rozložení.
Vzhled diagnostických grafů pro rozložení s různou šikmostí
Pro ilustraci se podívejme, jak se různá šikmost rozložení projeví na histogramu, N-P plotu a na krabicovém diagramu.
Rozložení s kladnou šikmostí	Normální rozložení	Rozložení se zápornou šikmostí
Histogram	Histogram	Histogram
NP plot
NP plot
Krabicový diagram
Krabicový diagram
Krabicový diagram
j