Osnova přednášky Opakování statistických pojmů
I. Jednorozměrný a vícerozměrný datový soubor
1. Pořízení jednorozměrného datového souboru
2. Bodové rozložení četností
3. Intervalové rozložení četností
4. Číselné charakteristiky datového souboru
5. Diagnostické grafy
II. Uvod do testování hypotéz
1. Nulová a alternativní hypotéza
2. Chyba 1. a 2. druhu
3. Tři způsoby testování hypotéz
4. Testy normality dat
1. Pořízení jednorozměrného a vícerozměrného datového souboru
Jednorozměrný soubor: Na množině objektů {ep...,en} zjišťujeme hodnoty znaku X (např. u 6 domácností zjišťujeme počet členů).
Hodnotu znaku X na objektu e; označíme Xj, i = 1, n.
Tyto hodnoty zaznamenáme do jednorozměrného datového souboru
Uspořádané hodnoty x(i} < x(2) < ... < x(n) tvoří uspořádaný datový soubor
Vektor
\,X[rl J
X(l)
, v našem případě
, kde X[i] < ... < X[r] jsou navzájem různé hodnoty znaku X, se nazývá vektor variant, v našem
případě 2 .
Vícerozměrný datový soubor: Vzniká v situacích, kdy na n objektech sledujeme hodnoty p znaků (Xi, XP)T. Má tvar matice n x p:
f \ xn   "' xip
x      • • • x
y   nl np J
Radky charakterizují objekty, sloupce znaky.
Např. máme n sportovců, u každého sledujeme tyto znaky: pohlaví (0 - žena, 1 - muž), tělesná výška (v cm), tělesná hmotnost (v kg), nejlepší výkon ve skoku do dálky (v cm), nejlepší výkon ve skoku do výšky (v cm), nejlepší výkon v běhu na 100 m (v s).
2. Bodové rozložení četností
Je-li počet variant znaku X malý, přiřazujeme četnosti jednotlivým variantám a hovoříme o bodovém rozložení četností.
nj - absolutní četnost varianty x^
pj = — - relativní četnost varianty x
Nj = n: + ... + ^ - absolutní kumulativní četnost prvních j variant
N-
Fj = — = pi + ... + pj - relativní kumulativní četnost prvních j variant
Absolutní a relativní četnosti zapisujeme do tabulky rozložení četností nebo je znázorňujeme graficky např. pomocí sloupkového diagramu či polygonu četností.
Četnostní funkce: p(x) =     pr° X X°]' *
[0 jinak nkce: F(x) =
0 pro x < Xrjj Fjprox0]<x<x|j+1], j = l,...,r-l lprox>xm
Příklad 1.: U 30 domácností byl zjišťován počet členů.
Počet členů	1	2	3	4	5	6
Počet domácností	2	6	4	10	5	3
Vytvořte tabulku rozložení četností. Nakreslete grafy četnostní funkce a empirické distribuční funkce. Dále nakreslete sloupkový diagram a polygon četností počtu členů domácnosti.
v
Řešení:
Tabulka rozložení četností
xm	ni	Pi	Nj	
1	2	2/30	2	2/30
2	6	6/30	8	8/30
3	4	4/30	12	12/30
4	10	10/30	22	22/30
5	5	5/30	27	27/30
6	3	3/30	30	1
Graf četnostní funkce       Graf empirické distribuční funkce Sloupkový diagram Polygon četností
3. Intervalové rozložení četností
Je-li počet variant znaku X velký, přiřazujeme četnosti nikoli jednotlivým variantám, ale třídicím intervalům (u[,u2), (ur,ur+1) a hovoříme o intervalovém rozložení četností. Názvy četností jsou podobné jako u bodového rozložení četností, navíc zavádíme četnostr   lustotu j-tého třídicího intervalu fj = ^, kde dj = Uj+i - Uj. Stanovení počtu třídicích intervalů je dosti
subjektivní záležitost. Často se doporučuje volit r blízké Vn .
Hustota četnosti: f(x) =
[fj proUj <x<uj+1, j = l,---,r [O jinak
(grafem hustoty četnosti je histogram)
A
Intervalová empirická distribuční funkce: F(x) = j"f(t)dt
Příklad 2.: U 70 domácností byly zjišťovány týdenní výdaje na nealkoholické nápoje (v Kč).
Výdaje	(35,65)	(65,95)	(95,125)	(125,155)	(155,185)	(185,215)
Počet dom.	7	16	27	14	4	2
Sestavte tabulku rozložení četností, nakreslete histogram a graf intervalové empirické distribuční funkce. Řešení:
Tabulka rozložení četností
(Uj,Ui+i]		Pi			
(35,65)	7	7/70	7/2100	7	7/70
(65,95)	16	16/70	16/2100	23	23/70
(95,125)	27	27/70	27/2100	50	50/70
(125,155)	14	14/70	14/2100	64	64/70
(155,185)	4	4/70	4/2100	68	68/70
(185,215)	2	2/70	2/2100	70	1
Histogram
0,014 0,012 0,010 0,008 0,006 0,004 0,002 0,000
Graf intervalové empirické distribuční funkce
(35,65] (95,125] (155,185]
(65,95] (125,155] (185,215]
v
4. Číselné charakteristiky datového souboru
Znaky nominálního typu
Tyto znaky umožňují obsahovou interpretaci pouze u relace rovnosti. Příklady nominálních znaků: lékařská diagnóza, typ profese, barva očí, rodinný stav, národnost, ... Charakteristikou polohy je modus, tj. nejčetnější varianta či střed nejčetnějšího intervalu.
Znaky ordinálního typu
Lze u nich navíc obsahově interpretovat relaci uspořádání. Příklad ordinálního znaku: školní klasifikace vyjadřuje menší nebo větší znalosti zkoušených žáků - jedničkář je lepší než dvojkař, ale intervaly mezi známkami nemají obsahovou interpretaci. Nelze tvrdit, že rozdíl ve znalostech mezi jedničkářem a dvojkařem je stejný jako mezi trojkařem a čtyřkařem.
Další příklady: Různá bodování ve sportovních a uměleckých soutěžích, posuzování různých rysů sociálního chování, posuzování stavu pacientů, hodnocení postojů respondentů k různým otázkám, ...
Charakteristikou polohy je a-kvantil. Je-li a e (0;l), pak a-kvantil xa je číslo, které rozděluje uspořádaný datový soubor na dolní úsek, obsahující aspoň podíl a všech dat a na horní úsek obsahující aspoň podíl 1 - a všech dat. Pro výpočet a-kvantilu slouží algoritmus:
celé číslo c:
X(c) + X(c+1)
na=/ u 2
mecelé číslo => zaokrouhlíme nahoru na nejbližší celé číslo c=>xa = x( Pro speciálně zvolená a užíváme názvů:
x0 so - medián, x0 25 - dolní kvartil, x075 - horní kvartil, x0,i, x0 9 - decily, x0 01, x0 99 - percentily. Jako charakteristika variability slouží kvartilová odchylka: q = x0j5 - x0,25-
Příklad 3.: Během semestru se studenti podrobili písemnému testu z matematiky, v němž bylo možno získat 0 až 10 bodů. Výsledky jsou uvedeny v tabulce:
Počet bodů	0	1	2	3	4	5	6	7	8	9	10
Počet studentů	1	4	6	7	11	15	19	17	12	6	3
Zjistěte modus, medián, 1. decil, 9. decil a kvartilovou odchylku počtu bodů.
v
Řešení:
Modus je nej četnější varianta znaku, v tomto případě tedy 6. Pro výpočet kvantilů musíme znát rozsah datového souboru: n=l+4 + ... + 3 = 101. Výpočty uspořádáme do tabulky.
a	na	c	xa—x(c)
0,50	50,5	51	6
0,10	10,1	11	2
0,90	90,9	91	8
0,25	25,25	26	4
0,75	75,75	76	7
=7-4=3
Znaky intervalového a poměrového typu
U těchto znaků lze navíc obsahově interpretovat operaci rozdílu resp. podílu.
Příklad intervalového znaku: teplota měřená ve stupních Celsia. Např. naměříme-li ve čtyřech po sobě jdoucích dnech polední teploty 0, 2, 4, 6 °C, znamená to, že každým dnem stouply teploty o 2 °C. Nelze však říci, že z druhého na třetí den vzrostla teplota dvojnásobně, kdežto ze třetího na čtvrtý den pouze jeden a půl krát. Další příklady: kalendářní systémy, směr větru, inteligenční kvocient, ... Společný znak intervalových znaků: nula byla stanovena uměle, pouhou konvencí. Příklad poměrového znaku: délka předmětu měřená v cm. Má-li jeden předmět délku 8 cm a druhý 16 cm, má smysl prohlásit, že druhý předmět je dvakrát delší než první předmět. Další příklady: počet dětí v rodině, výška kapesného v Kč, hmotnost osoby, .. Společný znak poměrových znaků: poměrový znak má přirozený počátek, ke kterému jsou vztahovány všechny další hodnoty znaku.
1 n
Charakteristika polohy: aritmetický průměr m = — YV .
n i=i
U poměrových znaků, které nabývají pouze kladných hodnot, lze použít geometrický průměr ^/x7
Pomocí průměru zavedeme i-tou centrovanou hodnotu Xi - m (podle znaménka poznáme, zda i-tá hodnota je podprůměrná či nadprůměrná).
Znázornění rozložení četností dvou datových souborů, které se liší aritmetickým průměrem
Rozdělení s různými polohami
hodnota znaku
Vlastnosti aritmetického průměru
- Aritmetický průměr si lze představit jako těžiště dat - součet podprůměrných hodnot je stejný jako součet nadprůměrných hodnot - oba součty jsou v rovnováze.
1 n 1 n      1 n 1
- Průměr centrovaných hodnot je nulový, protože — ^ (x; - m) = — ^ x; —^]m=m---n ■ m = 0 = 0.
n —
i=l
n —
i=l
n —
i=l
Výraz ^(x; - a)2 (tzv. kvadratická odchylka) nabývá svého minima pro a = m. Uvedený výraz charakterizuje celkovou
i=l
chybu, které se dopustíme, když datový soubor nahradíme jedinou hodnotou a. Tato chyba je tedy nejmenší, když datový soubor nahradíme aritmetickým průměrem, přičemž za míru chyby považujeme kvadratickou odchylku.
- Pokud každou hodnotu Xi podrobíme lineární transformaci yi = a + bxi? pak průměr transformovaných hodnot je roven lineární transformaci původního průměru, tj. m2 = a + bmi.
- Mají-li znaky X, Y průměry m1? m2, pak znak Z = X + Y má průměr mi + m2.
- Aritmetický průměr je silně ovlivněn extrémními hodnotami.
- Aritmetický průměr je vhodné použít, pokud je rozložení dat přibližně symetrické.
Charakteristiky variability intervalových a poměrových znaků
Variační rozpětí R = x(n) - x(i} (nevýhoda - bere v úvahu pouze nejmenší a největší hodnotu datového souboru),
2      1 n
rozptyl s = — Y (x - m)2 (nevýhoda - vychází ve druhých mocninách jednotek, v nichž byl měřen znak X)
směrodatná odchylka s = Vš^.
x. -m
Pomocí směrodatné odchylky zavedeme i-tou standardizovanou hodnotu —1-      (vyjadřuje, o kolik směrodatných odchylek
s
se i-tá hodnota odchýlila od průměru).
U poměrových znaků se jako charakteristika variability používá též:
koeficient variace — (často se udává v procentech a udává, kolika procent průměru dosahuje směrodatná odchylka),
m
Znázornění rozložení četností dvou datových souborů, které se liší rozptylem:
Rozdělení s různými variabilitami
5 0 0
Upozornění: Pohlížíme-li na datový soubor jako na výběrový soubor, bude ve jmenovateli vzorce pro rozptyl n-1, nikoliv n a výběrový rozptyl budeme považovat za nestranný odhad populačního rozptylu o2.
Vlastnosti rozptylu:
Rozptyl je nulový pouze tehdy, když jsou všechny hodnoty stejné, jinak je kladný.
1 n 1 n
Rozptyl centrovaných hodnot je roven původnímu rozptylu, neboť — Y[(x; -m)-0]2 =— Y(x; -m)2 =
n ~ŕ n j-f
i=l
Rozptyl standardizovaných hodnot je 1, protože — ^
1 ■   x. -m
-0
n ;=
i=l
s   n ~T s
1^
Rozptyl se zpravidla počítá podle vzorce s = — ^ x; - m .
i=l
- Pokud každou hodnotu Xi podrobíme lineární transformaci yi = a + bxi? pak rozptyl transformovaných hodnot je roven původnímu rozptylu vynásobenému b2, tj. s22 = b2 Si2.
- Rozptyl je stejně jako průměr silně ovlivněn extrémními hodnotami. Rozptyl se nehodí jako charakteristika variability, je-li rozložení dat nesymetrické.
Vážené číselné charakteristiky
Známe-li absolutní četnosti nu ..., nr či relativní četnosti pi, ..., pr variant x^,x[r], můžeme spočítat
něr m = -Xnjx[j]=Xpjx[j],
n j=1 ,_,
vážený rozptyl s2=-&j(xIJ]-m)2=Xp)k)]-m)2 (výpočetní vzorec: s2 =-Xnjx[j]2-m2 =XpJx[J]2-m2)
Příklad 4.: U 35 zaměstnanců byl zjištěn počet odpracovaných hodin za měsíc.
Počet odpracovaných hodin	184	185	186	187	188	189
Počet zaměstnanců	4	6	7	6	7	5
Vypočtěte průměr, směrodatnou odchylku a koeficient variace počtu odpracovaných hodin.
v
Řešení:
Vážený průměr: m = -JnjX[j] = —(4 184 + 6 185 + 7 186 + 6 187 + 7 188 + 5 189) = 186,6
n j=i
35
Vážený rozptyl: s2 =-XnjX[j]2-m2 = —(4-1842 +6 1852 +7 1862 +6 1872 +7 1882 +5 1892)-186,62 =2,5257
n j_j 35
Vážená směrodatná odchylka: s = Vš7 = 72,5257 =1,59h = lh 35 min Koeficient variace: —100% = -^-100% = o,85%
m 186,6
Vidíme, že zaměstnanci odpracovali za měsíc v průměru 186,6 h, přičemž směrodatná odchylka dosahuje 0,85 % průměrné odpracované doby.
v
Sikmost
- měří nesouměrnost rozložení četností kolem průměru.
Je-li rozložení dat symetrické kolem aritmetického průměru, pak a3 = 0. Má-li rozložení dat prodloužený pravý konec, jde o kladně zešikmené rozložení, a3 > 0. Má-li rozložení dar prodloužený levý konec, jde o záporně zešikmené rozložení, a3 < 0.
Znázornění rozložení četností dvou datových souborů, které se liší aritmetickým průměrem a šikmostí
0 5 10 15 20 25
hodnota znaku
Spičatost
a.
n —
i=l
-3 - měří koncentraci rozložení četností kolem průměru.
Je-li rozložení dat normální (Gaussovo), pak a4 = 0. Je-li rozložení dat strmé, pak a4 > 0. Je-li rozložení dat ploché, pak a4 < 0.
Znázornění rozložení četností dvou datových souborů, které se liší špičatostí
Rozdělení s různými špičatostmi
250 -i
200
150
0) 100
50
12 17
hodnota znaku
22
1 n
V případě vícerozměrného datového souboru pro znak Xj zavedeme průměr mj = — Xxy, rozptyl
n i=i
sj2 -— Ž(xíj _mj)2 a pro dvojici znaků (X, Xk) zavedeme kovarianci sjk -— X(xy — mj Xxit n í=i n í=i
mi<)
a koeficient korelace rjk - — X
n i=i
1 n x.._m. Xik_mk _ sjk
Průměry uspořádáme do vektoru průměrů (mi,      mp)T, rozptyly a kovariance do varianční
matice
f 2 Si
p J
f
a koeficienty korelace do korelační matice
1
Vrpi
Tyto matice jsou
symetrické, protože kovariance a koeficient korelace jsou symetrické.
Koeficient korelace rjk nás informuje o síle lineární závislosti mezi znaky Xj, Xk.
5. Diagnostické grafy a) Krabicový diagram
Umožňuje posoudit symetrii a variabilitu datového souboru a existenci odlehlých či extrémních hodnot.
Způsob konstrukce
odlehlá hodnota
horní vnitřní hradba nebo max. hodnota
— horní kvartil
— medián
— dolní kvartil dolní vnitřní hradba nebo min. hodnota
extrémní hodnota
Odlehlá hodnota leží mezi vnějšími a vnitřními hradbami, tj. v intervalu
(x0,75 + l,5q, x0,75 + 3q) či v intervalu (x0,25 - 3q, x0,25 - l,5q). Extrémní hodnota leží za vnějšími hradbami, tj. v intervalu (x0,75 + 3q, oo) či v intervalu (-00, x0,25 - 3q). Pro speciálně zvolená a užíváme názvů: x0,5o - medián, x0,25 - dolní kvartil, x0,75 - horní kvartil, x0,i,x0,9 - decily, x0,oi, x0,99 - percentily. Jako charakteristika variability slouží kvartilová odchylka: q = x0,75 - *o,25.
Příklad
U 30 domácností byl zjišťován počet členů.
Počet členů	1	2	3	4	5	6
Počet domácností	2	6	4	10	5	3
Pro tyto údaje sestrojte krabicový diagram.
Řešení:
Připomeneme nejprve definici a-kvantilu. Je-li oce (0;0, pak a-kvantil xa je číslo, které rozděluje uspořádaný datový soubor na dolní úsek, obsahující aspoň podíl a všech dat a na horní úsek obsahující aspoň podíl 1 - a všech dat. Pro výpočet a-kvantilu slouží algoritmus:
/ celé číslo c => x„ =
X(c) + X(c+1)
na =
\ necelé číslo => zaokrouhlíme nahoru na nejbližší celé číslo c => xa = x
(c)
Algoritmus:
Data:
celé číslo c => x „ =
X(c) + X(c+1)
na = ( " 2
^necelé číslo => zaokrouhlíme nahoru na nejbližší celé číslo c ^> xa = x(c)
Počet členů	1	2	3	4	5	6
Počet domácností	2	6	4	10	5	3
V našem případě rozsah souboru n = 30. Výpočty potřebných kvantilů uspořádáme do tabulky.
a	na	c		
0,25	7,5	8	X(c)-X(8)	2
0,50	15	15	X(15) + x(16)) 2	4
0,75	22,5	23	X(c)=X(23)	5
Dolní kvartil je 2, tedy aspoň čtvrtina domácností má aspoň dva členy.
Medián je 4, tedy aspoň polovina domácností má aspoň 4 členy.
Horní kvartil je 5, tedy aspoň tři čtvrtiny domácností mají aspoň 5 členů.
Vypočteme kvartilovou odchylku: q = x0,75 - x0,25 = 5 - 2 = 3. Dolní vnitřní hradba: x0,25 - l,5q = 2 - 1,5.3 = -2,5 Horní vnitřní hradba: x0,75 + l,5q = 5 + 1,5.3 = 9,5
Nakonec sestrojíme krabicový diagram:
Vidíme, že datový soubor vykazuje určitou nesymetrii - medián je posunut směrem k hornímu kvartilu, soubor je tedy záporně zešikmen. V souboru se nevyskytují žádné odlehlé ani extrémní hodnoty.
b) Normální pravděpodobnostní graf (NP-plot)
NP-plot umožňuje graficky posoudit, zda data pocházejí z normálního rozložení.
Způsob konstrukce: na vodorovnou osu vynášíme uspořádané hodnoty x(i} <... < x(n) a na
_ 3j-l
svislou osu kvantily uaj, kde aj    3n +1 > přičemž j je pořadí j-té uspořádané hodnoty (jsou-li některé hodnoty stejné, pak za j bereme průměrné pořadí odpovídající takové skupince). Pocházejí-li data z normálního rozložení, pak všechny dvojice (x(j) 'uttj) budou ležet na přímce
Pro data z rozložení s kladnou šikmostí se dvojice (x<j)'uJ budou řadit do konkávni křivky,
zatímco pro data z rozložení se zápornou šikmostí se dvojice (x(j)'uJ budou řadit do konvexní křivky.
Příklad
Desetkrát nezávisle na sobě byla změřena jistá konstanta. Výsledky měření: 2 1,8 2,1 2,4 1,9 2,1 2 1,8 2,3 2,2. Pomocí NP plotu posuďte, zda se tato data řídí normálním rozložením.
v
Řešení:
uspořádané hodnoty	1,8	1,8	1,9	2	2	2,1	2,1	2,2	2,3	2,4
pořadí	1	2	3	4	5	6	7	8	9	10
průměrné pořadí	1,5	1,5	3	4,5	4,5	6,5	6,5	8	9	10
Vektor hodnot průměrného pořadí: j = (1,5 3 4,5 6,5 8 9 10), vektor hodnot aj = = (04129;0,2581;0,4032;0,5968;0,7419;0,8387;0,9355)?
vektor kvantilůu a J   = (" 1,2112;-0,6493;-0,245;0,245;0,6493;0,9892;l,5179). Normální pravděpodobnostní graf Závěr:
. ' ' I Protože dvojice (x(j) > ua ) téměř leží na přímce, lze
usoudit, že data pocházejí z normálního rozložení.
c) Dvourozměrný tečkový diagram
Slouží ke grafickému znázornění vztahu mezi dvěma znaky Xj, Xk. Na vodorovnou osu vyneseme hodnoty Xj, na svislou hodnoty xk a do příslušných průsečíků nakreslíme tolik teček, jaká je absolutní četnost dvojice (Xj, xk). Jedná-li se o náhodný výběr z dvourozměrného normálního rozložení, měly by tečky zhruba rovnoměrně vyplnit vnitřek elipsovitého obrazce. Vrstevnice hustoty dvourozměrného normálního rozložení jsou totiž elipsy.
Příklad
V dílně pracuje 15 dělníků. Byl u nich zjištěn počet směn odpracovaných za měsíc (náhodná veličina X) a počet zhotovených výrobků (náhodná veličina Y):
X 20 21 18 17 20 18 19 21 20 14 16 19 21 15 15
Y 92 93 83 80 91 85 82 98 90 60 73 86 96 64 81.
Pomocí dvourozměrného tečkového diagramu se zakreslenou 95% elipsou konstantní hustoty pravděpodobnosti posuďte, zda tato data lze považovat za realizace náhodného výběru z dvourozměrného normálního rozložení.
Obrázek svědčí o tom, že předpoklad dvourozměrné normality je oprávněný a že mezi počtem směn a počtem výrobků bude existovat určitý stupeň přímé lineární závislosti, tzn., že u dělníků, kteří měli vysoký resp. nízký počet směn, lze očekávat vysoký resp. nízký počet výrobků.
d) Maticový graf
Používá se ke grafickému znázornění p-rozměrného datového souboru, obsahuje p x p grafů uspořádaných do čtvercového schématu. Na hlavní diagonále jsou histogramy znaků Xi, Xp, mimo hlavní diagonálu pak dvourozměrné tečkové diagramy dvojic znaků. Ukázka maticového grafu:
Maticový graf Lide.sta 10v*32c
i,
						
						
				■ ■ ■		
						
		■				
1		"I*				
						
					-■- ■
				■ ■	i
			m		
			■		
	■	1 ■ ■			
1	■-				
															
															
					■S									■	
				■ :								■■	■ ■ ■		
			■								■	■ 1			
	■f	■							■	■:					
	r								■	m "					
															
Hmotnost H n								i							i
												1 ■	1-		
												■ ■ ■			
											■				
								—i		■					
				r—											
															
	J							Boty							
															
									1						
	■														
	■ l ■														
	■ i														
II. Uvod do testování hypotéz
Motivace: Častým úkolem statistika je na základě dat ověřit předpoklady o parametrech nebo typu rozložení, z něhož pochází náhodný výběr. Takovému předpokladu se říká nulová hypotéza. Nulová hypotéza vyjadřuje nějaký teoretický předpoklad, často skeptického rázu a uživatel ji musí stanovit předem, bez přihlédnutí k datovému souboru. Proti nulové hypotéze stavíme alternativní hypotézu, která říká, co platí, když neplatí nulová hypotéza. Alternativní hypotéza je formulována tak, aby mohla platit jenom jedna z těchto dvou hypotéz. Pravdivost alternativní hypotézy by znamenala objevení nějakých nových skutečností, nebo zásadnější změnu v dosavadních představách.
Např. výzkumník by chtěl na základě dat prověřit tezi (nový objev), že pasivní kouření škodí zdraví. Jako nulovou hypotézu tedy položí tvrzení, že pasivní kouření neškodí zdraví a proti nulové hypotéze postaví alternativní, že pasivní kouření škodí zdraví.
Testováním hypotéz se myslí rozhodovací postup, který je založen na daném náhodném výběru a s jehož pomocí rozhodneme o zamítnutí či nezamítnutí nulové hypotézy.
1. Nulová a alternativní hypotéza
Nechť Xi,Xn je náhodný výběr z rozložení L($), kde parametr ůe. S neznáme. Nechť h($) je parametrická funkce a c daná reálná konstanta.
a) Oboustranná alternativa: Tvrzení H0: h(i3) = c se nazývá jednoduchá nulová hypotéza. Proti nulové hypotéze postavíme složenou oboustran í hypotézu Hi: h($) * c.
b) Levostranná alternativa: Tvrzení H0: h($) > c se nazývá složená pravostran hypotéza. Proti jednoduché nebo složené pravostranné nulové hypotéze postavíme složenou
íypotézu Hi: h(i3) < c.
c) Pravostranná alternativa: Tvrzení H0: h($) < c se nazývá složená levostran hypotéza. Proti jednoduché nebo složené levostranné nulové hypotéze postavíme složenou
íypotézu Hi: h(i3) > c. m H0 proti Hi rozumíme rozhodovací postup založený na náhodném výběru Xi, X s jehož pomocí zamítneme či nezamítneme platnost nulové hypotézy.
2. Chyba 1. a 2. druhu
Při testování H0 proti Hi se můžeme dopustit jedné ze dvou chyb: chyba 1. druhu spočívá v tom, že H0 zamítneme, ač ve skutečnosti platí a chyba 2. druhu spočívá v tom, že H0 nezamítneme, ač ve skutečnosti neplatí. Situaci přehledně znázorňuje tabulka:
skutečnost	rozhodnutí	
	H0 nezamítáme	H0 zamítáme
H0 platí	správné rozhodnutí	chyba 1. druhu
H0 neplatí	chyba 2. druhu	správné rozhodnutí
Pravděpodobnost chyby 1. druhu se značí a a nazývá se hladina významnosti testu (většinou bývá a = 0,05, méně často 0,1 či 0,01). Pravděpodobnost chyby 2. druhu se značí p. Číslo 1-0 se nazývá síla testu a vyjadřuje pravděpodobnost, že bude H0 zamítnuta za předpokladu, že neplatí. Obvykle se snažíme, aby síla testu byla aspoň 0,8. Obě hodnoty, a i l-(3, závisí na velikosti efektu, který se snažíme detekovat. Čím drobnější efekt, tím musí být větší rozsah náhodného výběru.
skutečnost	rozhodnutí	
	zdravý	nemocný
jsem zdravý	zdravý a neléčený	zdravý a léčený
jsem nemocný	nemocný a neléčený	nemocný a léčený
3. Tři způsoby testování hypotéz a) Testování pomocí kritického oboru
Najdeme statistiku T0 = T0(Xi,Xn), kterou nazveme testovým kritériem. Množina všech hodnot, jichž může testové kritérium nabýt, se rozpadá na obor nezamítnutí nulové hypotézy (značí se V) a obor zamítnutí nulové hypotézy (značí se W a nazývá se též kritický obor). Tyto dva obory jsou odděleny kritickými hodnotami (pro danou hladinu významnosti a je lze najít ve statistických tabulkách).
Jestliže číselná realizace t0 testového kritéria T0 padne do kritického oboru W, pak nulovou hypotézu zamítáme na hladině významnosti a a znamená to skutečné vyvrácení testované hypotézy. Jestliže t0 padne do oboru nezamítnutí V, pak jde o pouhé mlčení, které platnost nulové hypotézy jenom připouští.
Pravděpodobnosti chyb 1. a 2. druhu nyní zapíšeme takto: P(T0 e W/Ho platí) = a, P(T0 e V /Hi platí) = p.
Stanovení kritického oboru pro danou hladinu významnosti a: Označme tmin (resp. tmax) nejmenší (resp. největší) hodnotu testového kritéria. Kritický obor v případě oboustranné alternativy má tvar
W = (t min ' K a/2 , kde Ka/2(T) a Ki_a/2(T) jsou kvantily rozložení,
řídí testové kritérium T0, je-li nulová hypotéza pravdivá. Kritický obor v případě levostranné alternativy má tvar:
W = (tmin,Ka(T)}.
Kritický obor v případě pravostranné alternativy má tvar: W = (K1_a(T),tmax).
b) Testování pomocí intervalu spolehlivosti
Sestrojíme 100(l-a)% empirický interval spolehlivosti pro parametrickou funkci h(ů). Pokryje-li tento interval hodnotu c pak H0 nezamítáme na hladině významnosti a, v opačném případě H0 zamítáme na hladině významnosti a. Pro test H0 proti oboustranné alternativě sestrojíme oboustranný interval spolehlivosti.
\-i i-
Pro test H0 proti levostranné alternativě sestrojíme pravostranný interval spolehlivosti.
Pro test H0 proti pravostranné alternativě sestrojíme levostranný interval spolehlivosti.
c) Testování pomocí p-hodnoty
p-hodnota udává nejnižší možnou hladinu významnosti pro zamítnutí nulové hypotézy. Je to riziko, že bude zamítnuta H0 za předpokladu, že platí (riziko planého poplachu). Jestliže p-hodnota < a, pak H0 zamítáme na hladině významnosti a, je-li p-hodnota > a, pak H0 nezamítáme na hladině významnosti a. Způsob výpočtu p-hodnoty:
Pro oboustrannou alternativu p = 2 min{P(T0 < t0), P(T0 > to)}. Pro levostrannou alternativu p = P(T0 < t0). Pro pravostrannou alternativu p = P(T0 > t0).
Ilustrace významu p-hodnoty pro test nulové hypotézy proti oboustranné, levostranné a pravostranné alternativě:
p-hodnota
(Zvonovitá křivka reprezentuje hustotu rozložení, kterým se řídí testové kritérium, je-li nulová hypotéza pravdivá.)
p-hodnota vyjadřuje pravděpodobnost, s jakou číselné realizace xi,xn náhodného výběru Xi,Xn podporují H0, je-li pravdivá. Statistické programové systémy poskytují ve svých výstupech p-hodnotu. Její výpočet vyžaduje znalost distribuční funkce rozložení, kterým se řídí testové kritérium T0, je-li H0 pravdivá.
Doporučený postup při testování hypotéz
1. Stanovíme nulovou hypotézu a alternativní hypotézu. Pňtom je vhodné zvolit jako alternativní hypotézu ten předpoklad, jehož pňjetí znamená závažné opatření a mělo by k němu dojít jen s malým rizikem omylu.
2. Zvolíme hladinu významnosti a. Zpravidla volíme a = 0,05, méně často 0,1 nebo 0,01.
3. Najdeme vhodné testové kritérium a na základě zjištěných dat vypočítáme jeho realizaci.
4.
a) Testujeme-li pomocí kritického oboru, pak ho stanovíme. Jestliže realizace testového kritéria padla do kritického oboru, nulovou hypotézu zamítáme na hladině významnosti a a přijímáme alternativní hypotézu. V opačném případě nulovou hypotézu nezamítáme na hladině významnosti a.
b) Testujeme-li pomocí intervalu spolehlivosti, vypočteme empirický 100(l-a)% interval spolehlivosti pro parametrickou funkci h(ů). Pokud číslo c padne do tohoto intervalu, nulovou hypotézu nezamítáme na hladině významnosti a. V opačném případě nulovou hypotézu zamítáme na hladině významnosti a a přijímáme alternativní hypotézu.
c) Testujeme-li pomocí p-hodnoty, vypočteme ji a porovnáme ji s hladinou významnosti a. Jestliže p < a, pak nulovou hypotézu zamítáme na hladině významnosti a a přijímáme alternativní hypotézu. Je-li p > a, pak nulovou hypotézu nezamítáme na hladině významnosti a.
5. Na základě rozhodnutí, které jsme učinili o nulové hypotéze, provedeme nějaké konkrétní opatření, např. seřídíme obráběcí stroj.
(Při testování hypotéz musíme mít k dispozici odpovídající nástroje, nejlépe vhodný statistický software. Nemáme-li ho k dispozici, musíme znát příslušné vzorce. Dále potřebujeme statistické tabulky a kalkulačku.)
4. Testy normality dat
K ověřování normality dat slouží celá řada testů, které jsou podrobně popsány ve statistické literatuře. Zde se omezíme na tři testy, které jsou implementovány v systému STATISTICA, a to
Kolmogorovův - Smirnovův test a jeho Lilieforsovu variantu, Shapirův - Wilkův test a Andersonův - Darlingův test. K závěrům těchto testů však přistupujeme s určitou opatrností. Máme-li k dispozici rozsáhlejší datový soubor (orientačně n > 30) a test zamítne na obvyklé hladině významnosti 0,01 nebo 0,05 hypotézu o normalitě, i když vzhled diagnostických grafů svědčí jenom o lehkém porušení normality, nedopustíme se závažné chyby, pokud použijeme statistickou metodu založenou na normalitě dat.
a) Kolmogorovův - Smirnovův test a jeho Lilieforsova varianta
Testujeme hypotézu, která tvrdí, že náhodný výběr Xx,Xn pochází z normálního rozložení s parametry jí a o2.
Distribuční funkci tohoto rozložení označme Ot (x). Nechť Fn(x) je výběrová distribuční funkce.
Testovou statistikou je statistika ^n = SUP Fn (x) - <Í>T (x)
—oo<x<oo
Nulovou hypotézu zamítáme na hladině významnosti a, když Dn > Dn(a), kde Dn(a) je tabelovaná kritická hodnota.
Pro n > 30 lze Dn(a) aproximovat výrazem v 2n
a
Upozornění: Nulová hypotéza musí specifikovat distribuční funkci zcela přesně, včetně všech jejích případných parametrů. Např. K-S test lze použít pro testování hypotézy, že náhodný výběr Xi,Xn pochází z rozložení Rs(0,l), což se využívá při testování generátorů náhodných čísel. Pokud však parametry distribuční funkce odhadujeme z výběru, změní se rozložení testové statistiky Dn a jde o Lilieforsův test. Příslušné modifikované kvantily byly určeny pomocí simulačních studií.
b) Shapirův - Wilkův test
Testujeme hypotézu, že náhodný výběr Xi,Xn pochází z normálního rozložení N(|i, o2). Testová statistika má tvar:
Xa/n)[x(n_l+1)-X(l)f
W =
i=l
m
£(X,-M):
i=l
kde m = n/2 pro n sudé a m = (n-l)/2 pro n liché. Koeficienty ai(n) jsou tabelovány. Na testovou statistiku W lze pohlížet jako na korelační koeficient mezi uspořádanými pozorováními a jim odpovídajícími kvantily standardizovaného normálního rozložení. V případě, že data vykazují perfektní shodu s normálním rozložením, bude mít W hodnotu 1. Hypotézu o normalitě tedy zamítneme na hladině významnosti a, když se na této hladině neprokáže korelace mezi daty a jim odpovídajícími kvantily rozložení N(0,1).
Lze také říci, že S - W test je založen na zjištění, zda body v Q-Q grafu jsou významně odlišné od regresní přímky proložené těmito body.
c) Andersonův - Darlingův test
Testujeme hypotézu, že náhodný výběr Xi,Xn pochází z normálního rozložení N(|i, a2). Testová statistika má tvar:
£(2i-l)J ln<í>
^x(i)-m^
i=l
V
f
+ ln
J
l-4>
xn+1_(i) m
v
V
J)
- n ,
kde X(i) jsou vzestupně uspořádané realizace náhodného výběru, Oje distribuční funkce rozložení N(0,1).
Hypotéza H0 se zamítá na hladině významnosti a, je-li vypočítaná hodnota testové statistiky AD větší než kritická hodnota Di_a. Pro velký rozsah výběru se přibližná 95% kritická hodnota počítá podle vzorce
D
0,95
1,0348
1,013 0,93^
1-V n
n2 J
Příklad:
Jsou dány hodnoty 10, 12, 8, 9, 16. Pomocí Lilieforsova testu, S - W testu a A - D testu testujte na hladině významnosti 0,05 hypotézu, že tato data pocházejí z normálního rozložení.
Řešení:
Vytvoříme nový datový soubor o jedné proměnné nazvané X a pěti případech. Do proměnné X zapíšeme uvedené hodnoty. Provedení Lilieforsova a S-W testu:
V menu vybereme Statistiky - Základní statistiky/tabulky - Tabulky četností - OK, Proměnné X - OK. Na záložce zvolíme
Proměnná	Testy normality (Tabulkal)	
	N	max D  1 Lilliefors 1    W p 1     P     1 1
X	5	0,224085    p>.20 0,912401 0,482151
Vidíme, že testová statistika K-S testuje d = 0,22409, odpovídající Lilieforsova p-hodnota je větší než 0,2, tedy hypotézu o normalitě nezamítáme na hladině významnosti 0,05.
Testová statistika S-W testuje W = 0,9124, odpovídající p-hodnota je 0,48215, tedy hypotézu o normalitě nezamítáme na hladině významnosti 0,05. Provedení A - D testu:
Statistiky - Rozdělení & simulace - proložení dat rozděleními - OK - Proměnné Spojité: X - na záložce Spojité proměnné ponecháme zaškrtnuté pouze Normální, na záložce Možnosti vybereme Anderson - Darling - OK - Souhrnné statistiky rozdělení.
	Souhrn rozdělení for Proměnná: x (Tabulka4				)			
	K-S d	K-S p-hodn.	AD stat.	AD p-hodn.	Chí-kvadrát	Chí-kvadr. p-hodn.	Chí-kvadr. SV	Posun (práh/poloha)
Normální (poloha,měřítko)	0,224085	0,915101	0,295219	0,940172				I
Testová statistika A - D testu je 0,2952, odpovídající p-hodnota je 0,9402, tedy hypotézu o normalitě nezamítáme na hladině významnosti 0,05.