Základní pojmy matematické statistiky
Motivace
Matematická statistika je věda, která analyzuje a interpretuje data především za účelem získání předpovědi a zlepšení rozhodování v různých oborech lidské činnosti. Přitom se řídí principem statistické indukce, tj. na základě znalostí o náhodném výběru z určitého rozložení pravděpodobností se snaží učinit závěry o vlastnostech tohoto rozložení. Ústředním pojmem matematické statistiky je tedy pojem náhodného výběru.
Definice náhodného výběru:
a) Nechť Xx,Xn jsou stochasticky nezávislé náhodné veličiny, které mají všechny stejné rozložení L(a). Řekneme, že Xi,Xn je náhodný výběr rozsahu n z rozložení L(a). (Číselné realizace xx,xn náhodného výběru Xi,Xn uspořádané do sloupcového vektoru odpovídají datovému souboru zavedenému v popisné statistice.)
b) Nechť (Xi,Yi),(Xn,Yn) jsou stochasticky nezávislé dvourozměrné náhodné vektory, které mají všechny stejné dvourozměrné rozložení L20). Řekneme, že (Xi,Yi),(Xn,Yn) je dvourozměrný náhodný výběr rozsahu n z dvourozměrného rozložení L2(#). (Číselné realizace (xi,yi),(xn,yn) náhodného výběru (Xi,Yi),(Xn,Yn) uspořádané do matice typu nx2 odpovídají dvourozměrnému datovému souboru zavedenému v popisné statistice.)
c) Analogicky lze definovat p-rozměrný náhodný výběr rozsahu n z p-rozměrného rozložení LpO)-
Důsledek
Je-li Xi,Xn náhodný výběr z rozložení s distribuční funkcí O(x), pak simultánní distribuční funkce náhodného vektoru (Xi,Xn) je O(xi)... 0(xn).
Definice statistiky:
Libovolná funkce T = T(XX,Xn) náhodného výběru Xi,Xn (resp. T = T(Xi,Yi,Xn,Yn)) náhodného výběru (Xi,Yi),(Xn,Yn)) se nazývá (výběrová) statistika.
Definice důležitých statistik:
a) Nechť Xi,Xn je náhodný výběr, n > 2. Označme 1 n
^ ~~ ~ S     ... výběrový průměr, n [-\
1 n
s2 = 1
iZ^i   ^)   ... výběrový rozptyl,
ÍA     J- i=l
S = VŠ2" ... výběrová směrodatná odchylka
Pro libovolné, ale pevně dané reálné číslo x je statistikou též hodnota výběrové distribuční funkce FnW = -caidfcXi < x}
b) Nechť je dáno r > 2 stochasticky nezávislých náhodných výběrů o rozsazích nx > 2, ..., nr > 2.
r
Celkový rozsah je n _ Xnj .
Označme Mi, ..., Mr výběrové průměry a Si2, ..Sr2 výběrové rozptyly jednotlivých výběrů. Nechť Ci,     cr jsou reálné konstanty, aspoň jedna nenulová.
r
S c    j ... lineární kombinace výběrových průměrů,
o 2 J=l_
^* ... vážený průměr výběrových rozptylů.
n -r
c) Nechť (Xi,Yi),(Xn,Yn) je náhodný výběr z dvourozměrného rozložení o rozsahu n.
1 n 1 n
Označme , ^2 _~SYi výběrové průměry,
1   ^       ,. x,   _ , 1
n
Si2 -^7jZ(Xi ~Mi)2 , S2^ -^3yZ(Yí ~m2)2 výběrové rozptyly. 1 n
^12 =     1 X (Xí _ ^ 1 X^i - M 2)     výběrová kovariance,
íl     J- i=l
1   ^Xi-M1  Y.-M2     S12       cc n
Rj2 = < ^ _ ^ i=l ^1
0 jinak
Pro libovolnou, ale pevně zvolenou dvojici reálných čísel x,y je statistikou též hodnota
Fn(x,y) = -card{i;Xi < x a Y{ < y}
1   ^rXi-Ml  Yj — M2 _ S12
2 výběrový koeficient korelace.
výběrové simultánní distribuční funkce
Upozornení: Číselné realizace statistik M, S2, S, S12, R12 odpovídají číselným charakteristikám m, s2, s, s12,1*12 zavedeným v popisné statistice, ale u rozptylu, směrodatné odchylky, kovariance
1 1
a koeficientu korelace je multiplikativní konstanta        nikoliv —, jak tomu bylo v popisné statistice. Jak uvidíme později, uvedené číselné realizace mohou být považovány za odhady číselných realizací náhodných veličin zavedených v počtu pravděpodobnosti.
Charakteristika	Počet	Matematická	Popisná	
vlastnosti	pravděpodobnosti	statistika	statistika	
poloha	e(X) = jí	M	m	
variabilita	D(X) = o2	S2	n	n
variabilita	Vd(x)=g	S	i	n-1 -s n
společná	C(Xi, X2) = o12	S12	n	-1
variabilita				n
těsnost vztahu	R(Xx, X2) = p	R12	ľl2	
rozložení	O(x)	Fn(x)	F(x)	
Příklad (výpočet realizací výběrového průměru, výběrového rozptylu a hodnot výběrové distribuční funkce):
Desetkrát nezávisle na sobě byla změřena jistá konstanta jí. Výsledky měření byly: 2 1,8 2,1 2,4 1,9 2,1 2 1,8 2,3 2,2.
Tyto výsledky považujeme za číselné realizace náhodného výběru Xi,Xi0. Vypočtěte realiza-
9 9
ci m výběrového průměru M, realizaci s výběrového rozptylu S , realizaci s výběrové směrodatné odchylky S a hodnoty výběrové distribuční funkce Fi0(x).
Řešení: 1 x
n
1
22 +1,82 +... + 2,22 -10 • 2,062) = 0,0404
s = ^ = V0,0404 = 0,2011
Pro usnadnění výpočtu hodnot výběrové distribuční funkce Fi0(x) uspořádáme měření podle velikosti:
1,8 1,8 1,9 2 2 2,1 2,1 2,2 2,3 2,4.
x<1.8:F1()(x) = 0 '-2|-■-■-■-■-■-■-■-
1.8<x<1.9:F1()(x) = -^ = 0.2 '° -1
1 U 0.8 -1
1.9<x<2:Fl(.(x)= —= 0.3 o.6 I
0       10 |-1
2<x<2,l:F10(x)=-^- = 0,5        J" I-1
10 ~0'2      i-j
2,1 < x < 2,2:1-„(x)-^-0,7        °'°-'                 - j
-0,2 I-■-•-•-■-•-•-•-
O 1,7         1,8         1,9         2,0         2,1 2,2         2,3 2,4 2,5
2,2<x<2,3:F10(x) = —= 0,8
2,3<x<2,4:F10(x) = ^ = 0,9 x>2,4:F10(x) = l
Příklad (výpočet realizace výběrového koeficientu korelace):
U 11 náhodně vybraných aut jisté značky bylo zjišťováno jejich stáří (náhodná veličina X - v letech) a cena (náhodná veličina Y - v tisících Kč). Výsledky:
(5, 85), (4, 103), (6, 70), (5, 82), (5, 89), (5, 98), (6, 66), (6, 95), (2, 169), (7, 70), (7, 48). Vypočtěte a interpretujte číselnou realizaci r12 výběrového koeficientu korelace Ri2.
v
Řešení:
1=-Jxi=-í-(5 + 4 + ... + 7) = 5,28
= -Y y. = — (85+ 103+ ... + 48) = 88,63 n m 11
m
2
Sl =
S2 =
í n
n -1 ^ i=i
2 2
-nm,
= —(52 +42 +... + 72 -ll-5,282)=2,02
10
1
n-1 1
I*
2 2
-nm,
V i=i
= — (852 +1032 +... + 482 -11 • 88,632) = 970,85
10
S12
n-ll i
■nm1m2
V i=i
'12
-40,82
= —(5-85 + 4-103 + ... + 7-48-11-5,28-88,63) = -40,89 10
= -0,92
12   srs2 V^Ô2--\/970,85
Mezi náhodnými veličinami X a Y existuje silná nepřímá lineární závislost. Čím starší auto, tím nižší cena.
Vlastnosti důležitých statistik
a) Případ jednoho náhodného výběru:
Nechť Xi,Xnje náhodný výběr z rozložení se střední hodnotou jí, rozptylem o a distribuční funkcí <3>(x). Nechť n > 2. Označme Mn výběrový průměr, Sn výběrový rozptyl a pro libovolné, ale pevně dané x e r označme Fn(x) hodnotu výběrové distribuční funkce. Pak pro libovolné hodnoty parametrů jí , o2 a libovolné, ale pevně dané reálné číslo x platí: e(mn) = jí,
D(M) = -
n
2\ _2
E(Snz) = <r,
v " ' n n(n-l) > kde y4 je 4. centrální moment, E(F„(x)) = O(x),
D(Fn(x)) = ^lL^Wl
n
b) Případ r > 2 stochasticky nezávislých náhodných výběrů:
Nechť Xn,..., Xlnj s _s Xrl,..., Xrn je r stochasticky nezávislých náhodných výběrů o rozsazích nx > 2,    nr > 2 z rozložení se středními hodnotami \iu     |ir a rozptylem o2. Celkový rozsah je
"É.,.Nec„f c......c,jS» ^»p„„ *«,„,„e„,„, P,t P„ „0*0-
j=l
ty parametrů     ..., |ir a o2 platí:
E Zc.iM.i =2>.^,
E(S*2) = o2.
c) Případ jednoho náhodného výběru z dvourozměrného rozložení:
Nechť (Xi,Yi),(Xn,Yn) je náhodný výběr z dvourozměrného rozložení s kovariancí oí2 a koeficientem korelace p. Pak pro libovolné hodnoty parametrů ai2 a p platí:
E(Si2) = g12,
E(R12) ~ p (shoda je vyhovující pro n > 30).
Základní typy uspořádání pokusů
Metody matematické statistiky často slouží k vyhodnocování výsledků pokusů. Aby mohl být pokus správně vyhodnocen, musí být dobře naplánován. Uvedeme zde nej jednodušší typy uspořádání pokusů
Předpokládejme například, že sledujeme hmotnostní přírůstky selat téhož plemene při různých výkrmných dietách.
a) Jednoduché pozorování: Náhodná veličina X je pozorována za týchž podmínek. Situace je charakterizována jedním náhodným výběrem Xi,Xn.
Náhodně vylosujeme n selat téhož plemene, podrobíme je jediné výkrmné dietě a zjistíme u každého selete hmotnostní přírůstek. Tím dostaneme realizaci jednoho náhodného výběru.
b) Dvojné pozorování: Náhodná veličina X je pozorována za dvojích různých podmínek. Existují dvě odlišná uspořádání tohoto pokusu.
Dvouvýběrové porovnávání: situace je charakterizována dvěma nezávislými náhodnými výběry xu,...,xlni a x21,...,x2n2.
Náhodně vylosujeme ni a n2 selat téhož plemene, náhodně je rozdělíme na dva soubory o ni a n2 jedincích, první podrobíme výkrmné dietě č. 1 a druhý výkrmné dietě číslo 2. Tak dostaneme realizace dvou nezávislých náhodných výběrů.
Párové porovnávání: situace je charakterizována jedním náhodným výběrem (xn,X12),...,(Xnl,Xn2) z dvourozměrného rozložení. Přejdeme k rozdílovému náhodnému výběru Zj = Xji - Xi2, i = 1, ..., n a tím dostaneme jednoduché pozorování.
Náhodně vylosujeme n vrhů stejně starých selat téhož plemene, z každého odebereme dva sourozence a náhodně jim přiřadíme první a druhou výkrmnou dietu. Tak dostaneme realizaci jednoho dvourozměrného náhodného výběru, kde první složka odpovídá první dietě a druhá složka druhé dietě.
(Párové porovnávání je efektivnější, protože skutečný rozdíl v účinnosti obou diet je překrýván pouze náhodnými vlivy při samotném krmení a trvání, kdežto vliv různých dědičných vloh, který byl losováním znáhodněn, je u sourozeneckého páru selat částečně vyloučen.)
c) Mnohonásobné pozorování: Náhodná veličina X je pozorována za r > 3 různých podmínek. Existují dvě odlišná uspořádání tohoto pokusu.
Mnohovýběrové porovnávání: situace je charakterizována r nezávislými náhodnými výběry
xu,...,xlniaž xrl,..., xrnr.
Náhodně vylosujeme ni, n2, ..., nr selat téhož plemene, náhodně je rozdělíme na r souborů o ni, n2, ..., nr jedincích, první podrobíme výkrmné dietě č. 1, druhý výkrmné dietě číslo 2 atd. až r-tý podrobíme výkrmné dietě číslo r. Tak dostaneme realizace r nezávislých náhodných výběrů.
Blokové porovnávání: situace je charakterizována jedním náhodným výběrem (xn,..., Xlr),..., (Xnl,..., Xnr) z r-rozměrného rozložení.
Náhodně vylosujeme n vrhů stejně starých selat téhož plemene, z každého odebereme r sourozenců a náhodně jim přiřadíme první až r-tou výkrmnou dietu. Tak dostaneme realizaci jednoho r-rozměrného náhodného výběru, kde první složka odpovídá první dietě, druhá složka druhé dietě atd. až r-tá složka odpovídá r-té dietě.
Diagnostické grafy Motivace
Diagnostické grafy slouží především k tomu, aby nám pomohly orientačně posoudit povahu dat a určit směr další statistické analýzy. Při zpracování dat se často předpokládá splnění určitých podmínek.
V případě jednoho náhodného výběru je to především normalita (posuzujeme ji pomocí NP plotu, Q-Q plotu, histogramu) a nepřítomnost vybočujících hodnot (odhalí je krabicový diagram).
U dvou či více nezávislých náhodných výběrů sledujeme kromě normality též shodu středních hodnot nebo shodu rozptylů - homoskedasticitu (porovnáváme vzhled krabicových diagramů).
V případě jednoho dvourozměrného náhodného výběru často posuzujeme dvourozměrnou normalitu dat (použijeme dvourozměrný tečkový diagram s proloženou 100(l-a)% elipsou konstantní hustoty pravděpodobnosti).
Krabicový diagram
Umožňuje posoudit symetrii a variabilitu datového souboru a existenci odlehlých či extrémních hodnot.
Způsob konstrukce
c
odlehlá hodnota
horní vnitřní hradba nebo max. hodnota
— horní kvartil
— medián
— dolní kvartil
— dolní vnitřní hradba nebo min. hodnota
ír - extrémní hodnota
Odlehlá hodnota leží mezi vnějšími a vnitřními hradbami, tj. v intervalu
(x0,75 + l,5q, x0,75 + 3q) či v intervalu (x0,25 - 3q, x0,25 - l,5q). Extrémní hodnota leží za vnějšími hradbami, tj. v intervalu (x0,75 + 3q, oo) či v intervalu (-00, x0,25 - 3q).
Pro speciálně zvolená a užíváme názvů: x0,5o - medián, x0,25 - dolní kvartil, x0,75 - horní kvartil, x0,i,x0,9 - decily, x0,oi, x0,99 - percentily. Jako charakteristika variability slouží kvartilová odchylka: q = x0,75 - Xo,25-
Příklad
U 30 domácností byl zjišťován počet členů.
Počet členů	1	2	3	4	5	6
Počet domácností	2	6	4	10	5	3
Pro tyto údaje sestrojte krabicový diagram.
v
Řešení:
Připomeneme nejprve definici a-kvantilu. Je-li oce (0;0, pak a-kvantil xa je číslo, které rozděluje uspořádaný datový soubor na dolní úsek, obsahující aspoň podíl a všech dat a na horní úsek obsahující aspoň podíl 1 - a všech dat. Pro výpočet a-kvantilu slouží algoritmus:
X(c) + X(c+1)
/ celé číslo c => x„ = noc = ( a 2
\ necelé číslo => zaokrouhlíme nahoru na nejbližší celé číslo c => xa = x
(c)
Algoritmus:
Data:
celé číslo c => x„ = ——-
ncc = ( a 2
i necelé číslo => zaokrouhlíme nahoru na nejbližší celé číslo c ^> xa = x
Počet členů	1	2	3	4	5	6
Počet domácností	2	6	4	10	5	3
(c)
V našem případě rozsah souboru n = 30. Výpočty potřebných kvantilů uspořádáme do tabulky.
a	na	c		Xa
0,25	7,5	8	X(c)-X(8)	2
0,50	15	15	X(15) + x(16)) 2	4
0,75	22,5	23	X(c)=X(23)	5
Dolní kvartil je 2, tedy aspoň čtvrtina domácností má nejvýše dva členy.
Medián je 4, tedy aspoň polovina domácností má nejvýše 4 členy.
Horní kvartil je 5, tedy aspoň tři čtvrtiny domácností mají nejvýše 5 členů.
Vypočteme kvartilovou odchylku: q = x0,75 - x0,25 = 5 - 2 = 3. Dolní vnitřní hradba: x0,25 - l,5q = 2- 1,5.3 = -2,5 Horní vnitřní hradba: x0,75 + l,5q = 5 + 1,5.3 = 9,5
Nakonec sestrojíme krabicový diagram:
i- -1-
oj_
Vidíme, že datový soubor vykazuje určitou nesymetrii - medián je posunut směrem k hornímu kvartilu, soubor je tedy záporně zešikmen. V souboru se nevyskytují žádné odlehlé ani extrémní hodnoty.
Řešení pomocí systému STATISTIC A:
Vytvoříme datový soubor se dvěma proměnnými Počet členů a Počet domácností a šesti případy. Vytvoření krabicového diagramu: Grafy - 2D Grafy - Krabicové grafy. Aktivujeme váhy -v okénku Váhy případů pro analýzu/graf zaškrtneme Status Zapnuto a zadáme Proměnná vah Počet domácností, OK. Na panelu 2D Krabicové grafy zadáme Proměnné - Závisle proměnné Počet členů, OK. Dostaneme krabicový diagram
Krabicový graf (Tabulkal 2v*6c)
5
4
3
D Medián =4 □ 25%-75% = (2, 5)
Rozsah neodleh. = (1.6) Odlehlé r Extrémy
Z obrázku lze vyčíst, že medián je 4 (aspoň polovina domácností má nejvýš 4 členy), dolní kvartil 2 (aspoň čtvrtina domácností má nejvýš 2 členy), horní kvartil 5 (aspoň tři čtvrtiny domácností mají nejvýš 5 členů), minimum 1, maximum 6. Kvartilová odchylka je 5-2 = 3. Datový soubor vykazuje určitou nesymetrii - medián je posunut směrem k hornímu kvartilu, soubor je tedy záporně zešikmen. Odlehlé ani extrémní hodnoty se nevyskytují.
Normální pravděpodobnostní graf (NP-plot)
NP-plot umožňuje graficky posoudit, zda data pocházejí z normálního rozložení.
Způsob konstrukce: na vodorovnou osu vynášíme uspořádané hodnoty x(i} < ... < x(n) a na
_ 3j-l
svislou osu kvantily uaj, kde aj    3n +1 > přičemž j je pořadí j-té uspořádané hodnoty (jsou-li některé hodnoty stejné, pak za j bereme průměrné pořadí odpovídající takové skupince). Pocházejí-li data z normálního rozložení, pak všechny dvojice (x(j) 'uWj) budou ležet na přímce.
Pro data z rozložení s kladnou šikmostí se dvojice (x(j)'uJ budou řadit do konkávni křivky,
zatímco pro data z rozložení se zápornou šikmostí se dvojice (x<j)'uJ budou řadit do konvexní křivky.
Příklad
Desetkrát nezávisle na sobě byla změřena jistá konstanta. Výsledky měření: 2 1,8 2,1 2,4 1,9 2,1 2 1,8 2,3 2,2. Pomocí NP plotu posuďte, zda se tato data řídí normálním rozložením.
v
Řešení:
uspořádané hodnoty	1,8	1,8	1,9	2	2	2,1	2,1	2,2	2,3	2,4
pořadí	1	2	3	4	5	6	7	8	9	10
průměrné pořadí	1,5	1,5	3	4,5	4,5	6,5	6,5	8	9	10
Vektor hodnot průměrného pořadí: j = (1,5 3 4,5 6,5 8 9 10),
vektor hodnot aj =       [ = (0>1129'0>2581'°>40^
vektor kvantilůu a J   = (" 1,2112;-0,6493;-0,245;0,245;0,6493;0,9892;l,5179). Normální pravděpodobnostní graf Závěr:
,5H. ' ' I Protože dvojice (x(j) > uWj) téměř leží na přímce, lze
usoudit, že data pocházejí z normálního rozložení.
Řešení pomocí systému STATISTIC A:
Vytvoříme datový soubor s jednou proměnnou X a deseti případy.
Grafy - 2D Grafy - Normální pravděpodobnostní grafy - Proměnné X, OK.
Normální p-graf Měření ( 1v*10c)
Pozorovaná hodnota
Protože dvojice (x(j) 'uWj) téměř leží na přímce, lze usoudit, že data pocházejí z normálního rozložení.
Kvantil-kvantilový graf (Q-Q plot)
Umožňuje graficky posoudit, zda data pocházejí z nějakého známého rozložení (např. systém STATISTICA nabízí 8 typů rozložení: normální, beta, exponenciální, extrémních hodnot, gamma, log-normální, Rayleighovo a Weibulovo). Pro nás je nej důležitější právě normální rozložení.
Způsob konstrukce: na svislou osu vynášíme uspořádané hodnoty x(i) < ... < x(n) a na
_ J_radj
vodorovnou osu kvantily Kaj (X) vybraného rozložení, kde ai ~ n + n ď , přičemž racy a nacy
jsou korigující faktory < 0,5, implicitně racy = 0,375 a nacy = 0,25. (Jsou-li některé hodnoty X(i) < ... < X(n) stejné, pak za j bereme průměrné pořadí odpovídající takové skupince.) Pokud vybrané rozložení závisí na nějakých parametrech, pak se tyto parametry odhadnou z dat nebo je
může zadat uživatel. Body
(K«,(X),x(j))
se metodou nejmenších čtverců proloží přímka. Cím
méně se body odchylují od této přímky, tím je lepší soulad mezi empirickým a teoretickým rozložením.
Příklad
Pro údaje o měření konstanty posuďte pomocí kvantil - kvantilového grafu, zda pocházejí z normálního rozložení.
Řešení:
Na základě tabulky vytvořené při řešení předešlého příkladu stanovíme: vektor hodnot průměrného pořadí: j = (1,5 3 4,5 6,5 8 9 10),
vektor hodnot aj = = (0,1098;0,2561;0,4024;0,5976;0,7439;0,8415;0,939)í
vektor kvantilů u0j = (-l,2278;-0,6554;-0,247;0,247;0,6554;l,0005;l,566) Kvantil - kvantilový graf
3r-i-(-1-1-1-1-1-
2.8 -2.6 -
2.4 - ■
2.2 - • -
2 -1.8 -1.6 ■ 1.4 -1.2 ^
Vzhled grafu nasvědčuje tomu, že data pocházejí z normálního rozložení.
Řešení pomocí systému STATISTICA:
Zvolíme Grafy - 2D Grafy - Grafy typu Q-Q - ponecháme implicitní nastavení na normální rozložení (pokud bychom chtěli změnit nastavení na jiný typ rozložení, zvolili bychom ho na záložce Detaily) - Proměnné Měření, OK.
Q-Q graf Měření { 1v"10c)
Rozdělení:Normální Měření = 2,058+0,2198"x
-1,5 -1,0 -0,5 0,0 0,5 1,0 1,5 2,0
Teoretický kvantil
Vzhled grafu nasvědčuje tomu, že data pocházejí z normálního rozložení.
Histogram
Umožňuje porovnat tvar hustoty četnosti s tvarem hustoty pravděpodobnosti vybraného teoretického rozložení. (Ve STATISTICE je pojem histogramu širší, skrývá se za ním i sloupkový diagram.)
Způsob konstrukce ve STATISTICE: na vodorovnou osu se vynášejí třídicí intervaly (implicitně 10, jejich počet lze změnit, stejně tak i meze třídicích intervalů) či varianty znaku a na svislou osu absolutní nebo relativní četnosti třídicích intervalů či variant. Do histogramu se zakreslí tvar hustoty (či pravděpodobnostní funkce) vybraného teoretického rozložení. Kromě 8 typů rozložení uvedených u Q-Q plotu umožňuje STATISTICA použít ještě další 4 rozložení: Laplaceovo, logistické, geometrické, Poissonovo.
Příklad
U 70 domácností byly zjišťovány týdenní výdaje na nealkoholické nápoje (v Kč).
Výdaje	(35,65)	(65,95)	(95,125)	(125,155)	(155,185)	(185,215)
Počet domácností	7	16	27	14	4	2
Nakreslete histogram.
Řešení pomocí systému STATISTICA:
Vytvoříme nový datový soubor s dvěma proměnnými Výdaje a Počet domácností. Do proměnné Výdaje zapíšeme středy třídicích intervalů, do proměnné Počet domácností odpovídající absolutní četnosti třídicích intervalů. V menu zvolíme Grafy - Histogramy - pomocí tlačítka s obrázkem závaží zadáme proměnnou vah Počet domácností - OK, Proměnná Výdaje -zapneme volbu Všechny hodnoty - OK. Dostaneme histogram:
Histogram ( 2v*6c)
30 i-■-■-■-■-■-■-
28 -------
26 -------
24-------
22 ■ -------
20 -------
£ 18 § 16
10 -------
s —       ^^^^^^^^^^^^^^^^H —
6 —     ^^^^^^^^^^^^^^^^^^^^^^H ------""
4 -------
0 '-^-1-'-'-'-'-1-
50 80 110 140 1 70 200
Výdaje
Vidíme, že tvar histogramu není symetrický. Malé hodnoty jsou četnější než velké - datový soubor je kladně zešikmen.
Vlastnosti rozložení četností datového souboru se projeví ve vzhledu diagnostických grafů:
Rozložení s kladnou šikmostí							Normální rozložení				Rozložení se zápornou šikmostí					
Histogram							Histogram				Histogram					
	F77]															
																
							12 :::::::::									
	111111						pTpifiii									
							4___ _ :::::::::::::									
							u i::::i::::ř::::i:::::i::::									
N-P plot							N-P plot				N-P plot					
•					---						•					
									ji*						J	
																
																
	1												...			
	•											-				
	Crabicový diag		ram				Krabicový diagram					Crabicový diagram				
														.....		
•		•									•					
	■															
																
													•			
																
Dvourozměrný tečkový diagram
Máme dvourozměrný datový soubor (xi, yO, ... , (xn, yn), který je realizací dvourozměrného náhodného výběru (Xx, Yi), ... , (Xn, Yn) z dvourozměrného rozložení. Na vodorovnou osu vyneseme hodnoty Xj, na svislou hodnoty yk a do příslušných průsečíků nakreslíme tolik teček, jaká je absolutní četnost dvojice (xj, yk). Jedná-li se o náhodný výběr z dvourozměrného normálního rozložení, měly by tečky zhruba rovnoměrně vyplnit vnitřek elipsovitého obrazce. Vrstevnice hustoty dvourozměrného normálního rozložení jsou totiž elipsy - viz následující obrázek.
Graf hustoty a vrstevnice dvourozměrného normálního rozložení s parametry jii = 0, |i2 = 0, ai2=l,a22=l,p = -0,75:
Do dvourozměrného tečkového diagramu můžeme ještě zakreslit 100(l-a)% elipsu konstantní hustoty pravděpodobnosti. Bude-li více než 100a% teček ležet vně této elipsy, svědčí to o porušení dvourozměrné normality. Bude-li mít hlavní osa elipsy kladnou resp. zápornou směrnici, znamená to, že mezi veličinami X a Y existuje určitý stupeň přímé resp. nepřímé lineární závislosti.
Příklad
V dílně pracuje 15 dělníků. Byl u nich zjištěn počet směn odpracovaných za měsíc (náhodná veličina X) a počet zhotovených výrobků (náhodná veličina Y):
X 20 21 18 17 20 18 19 21 20 14 16 19 21 15 15
Y 92 93 83 80 91 85 82 98 90 60 73 86 96 64 81.
Pomocí dvourozměrného tečkového diagramu se zakreslenou 95% elipsou konstantní hustoty pravděpodobnosti posuďte, zda tato data lze považovat za realizace náhodného výběru z dvourozměrného normálního rozložení.
Řešení pomocí systému STATISTICA:
Vytvoříme nový datový soubor se dvěma proměnnými X a Y a 15 případy. Nakreslíme dvourozměrný tečkový diagram: Grafy - 2D Grafy - Bodové grafy. Vypneme lineární proložení. Zadáme Proměnné - X-X, Y-Y - OK. Dostaneme dvourozměrný tečkový diagram.
Nyní do diagramu zakreslíme 95% elipsu konstantní hustoty pravděpodobnosti: 2x klikneme na pozadí grafu a otevře se okno s názvem Vš. možnosti. Vybereme Graf: Elipsa, zvolíme Přidat novou elipsu.
Po vykreslení elipsy změníme měřítko: na vodorovné ose bude minimum 10, maximum 26, na svislé ose bude minimum 40, maximum 120. (Stačí 2x kliknout na číselný popis osy a na záložce Měřítka vybrat manuální mód.)
Bodový graf z Y proti X smeny a výrobky .sta 2v*15c
120
110
100
90
80
70
60
50
10 12 14 16 18 20 22 24
X
26
Obrázek svědčí o tom, že předpoklad dvourozměrné normality je oprávněný a že mezi počtem směn a počtem výrobků bude existovat určitý stupeň přímé lineární závislosti, tzn., že u dělníků, kteří odpracovali vysoký resp. nízký počet směn, lze očekávat vysoký resp. nízký počet zhotovených výrobků.