Kapitola 2.: Diagnostické grafy a testy normality dat
Cíl kapitoly
Po prostudování této kapitoly budete
- znát způsob konstrukce krabicového diagramu, normálního pravděpodobnostního grafu,
kvantil-kvantilového grafu, histogramu a dvourozměrného tečkového diagramu a
budete umět tyto grafy vytvořit v systému STATISTICA
- schopni pomocí těchto diagnostických grafů orientačně posoudit povahu dat
- umět v systému STATISTICA provádět testy normality dat
Časová zátěž
Na prostudování této kapitoly a splnění úkolů s ní spojených budete potřebovat asi 14 hodin
studia.
2.1. Motivace
Diagnostické grafy slouží především k tomu, aby nám pomohly orientačně posoudit povahu
dat a určit směr další statistické analýzy. Při zpracování dat se často předpokládá splnění
určitých podmínek. V případě jednoho náhodného výběru je to především normalita (posuzujeme
ji pomocí N-P plotu, Q-Q plotu, histogramu) a nepřítomnost vybočujících hodnot (odhalí
je krabicový diagram). U dvou či více nezávislých náhodných výběrů sledujeme kromě
normality též shodu středních hodnot nebo shodu rozptylů - homoskedasticitu (porovnáváme
vzhled krabicových diagramů). V případě jednoho dvourozměrného náhodného výběru často
posuzujeme dvourozměrnou normalitu dat (použijeme dvourozměrný tečkový diagram
s proloženou 100(1-)% elipsou konstantní hustoty pravděpodobnosti).
Vzhledem k důležitosti předpokladu normality se vedle grafického posouzení doporučuje
též použití některého testu normality, např. Kolmogorovova ­ Smirnovova testu nebo Shapirova
­ Wilksova testu. K závěrům těchto testů však přistupujeme s určitou opatrností. Máme-li
k dispozici rozsáhlejší datový soubor (orientačně n > 30) a test zamítne na obvyklé hladině
významnosti 0,01 nebo 0,05 hypotézu o normalitě, i když vzhled diagnostických grafů
svědčí jenom o lehkém porušení normality, nedopustíme se závažné chyby, pokud použijeme
statistickou metodu založenou na normalitě dat.
2.2. Krabicový diagram
2.2.1. Popis diagramu
Umožňuje posoudit symetrii a variabilitu datového souboru a existenci odlehlých či extrémních
hodnot. Způsob konstrukce je zřejmý z obrázku:
odlehlá hodnota
horní vnitřní hradba nebo max. hodnota
horní kvartil
medián
dolní kvartil
dolní vnitřní hradba nebo min. hodnota
extrémní hodnota
Odlehlá hodnota leží mezi vnějšími a vnitřními hradbami, tj. v intervalu
(x0,75 + 1,5q, x0,75 + 3q) či v intervalu (x0,25 - 3q, x0,25 ­ 1,5q).
Extrémní hodnota leží za vnějšími hradbami, tj. v intervalu (x0,75 + 3q, ) či v intervalu
(-, x0,25 - 3q).
2.2.2. Příklad
U 30 domácností byl zjišťován počet členů.
Počet členů 1 2 3 4 5 6
Počet domácností 2 6 4 10 5 3
Pro tyto údaje sestrojte krabicový diagram.
Řešení pomocí systému STATISTICA:
Data zapíšeme do datového okna programu STATISTICA. Po spuštění programu zadáme
Soubor ­ Nový ­ Počet proměnných 2, Počet případů 6, OK. První proměnnou přejmenujeme
na Počet členů, druhou na Počet domácností. (Přejmenování uskutečníme tak, že 2x klikneme
myší na název proměnné a tím se otevře okno se specifikacemi proměnné.)
Vytvoření krabicového diagramu: Grafy ­ 2D Grafy ­ Krabicové grafy. Abychom systému
STATISTICA sdělili, že pracujeme s údaji, pro které známe absolutní četnosti, klikneme myší
na tlačítko s obrázkem závaží ­ na obrázku je v kroužku.
V okénku Váhy případů pro analýzu/graf zaškrtneme Status Zapnuto a zadáme Proměnná vah
Počet domácností, OK. Na panelu 2D Krabicové grafy zadáme Proměnné ­ Závisle proměnné
Počet členů, OK. Dostaneme krabicový diagram
Krabicový graf (Tabulka1 2v*6c)
Medián = 4
25%-75%
= (2, 5)
Rozsah neodleh.
= (1, 6)
Odlehlé
Extrémy
Počet členů
0
1
2
3
4
5
6
7
Z obrázku lze vyčíst, že medián je 4 (aspoň polovina domácností má aspoň 4 členy), dolní
kvartil 2 (aspoň čtvrtina domácností má aspoň 2 členy), horní kvartil 5 (aspoň tři čtvrtiny domácností
mají aspoň 5 členů), minimum 1, maximum 6. Kvartilová odchylka je 5 ­ 2 = 3.
Datový soubor vykazuje určitou nesymetrii ­ medián je posunut směrem k hornímu kvartilu,
soubor je tedy záporně zešikmen. Odlehlé ani extrémní hodnoty se nevyskytují.
2.3. Normální pravděpodobnostní graf (N-P plot)
Před popisem tohoto grafu se musíme seznámit s pojmem pořadí čísla v posloupnosti čísel:
Nechť x1, ..., xn je posloupnost reálných čísel.
a) Jsou-li čísla navzájem různá, pak pořadím Ri čísla xi rozumíme počet těch čísel x1, ..., xn,
která jsou menší nebo rovna číslu xi.
b) Vyskytují-li se mezi danými čísly skupinky stejných čísel, pak každé takové skupince přiřadíme
průměrné pořadí.
2.3.1. Příklad
a) Jsou dána čísla 9, 4, 5, 7, 3, 1.
b) Jsou dána čísla 6, 7, 7, 9, 6, 10, 8, 6, 6, 9.
Stanovte pořadí těchto čísel.
Řešení
ad a)
usp. čísla 1 3 4 5 7 9
pořadí 1 2 3 4 5 6
ad b)
usp. čísla 6 6 6 6 7 7 8 9 9 10
pořadí 1 2 3 4 5 6 7 8 9 10
prům. pořadí 2,5 2,5 2,5 2,5 5,5 5,5 7 8,5 8,5 10
2.3.2. Popis grafu
N-P plot umožňuje graficky posoudit, zda data pocházejí z normálního rozložení.
Způsob konstrukce: na vodorovnou osu vynášíme uspořádané hodnoty x(1)  ...  x(n) a na
svislou osu kvantily j
u , kde
1n3
1j3
j
+
=
, přičemž j je pořadí j-té uspořádané hodnoty (jsouli
některé hodnoty stejné, pak za j bereme průměrné pořadí odpovídající takové skupince).
Pocházejí-li data z normálního rozložení, pak všechny dvojice ( )j
u,x )j(  budou ležet na přím-
ce.
Pro data z rozložení s kladnou šikmostí se dvojice ( )j
u,x )j(  budou řadit do konvexníkřivky,
zatímco pro data z rozložení se zápornou šikmostí se dvojice ( )j
u,x )j(  budou řadit do
konkávní křivky.
Rozložení
s kladnou šikmostí
Normální rozložení Rozložení
se zápornou šikmostí
Histogram
-0,4 0,0 0,4 0,8 1,2 1,6 2,0 2,4
0
5
10
15
20
25
30
35
Histogram
-3,0 -2,5 -2,0 -1,5 -1,0 -0,5 0,0 0,5 1,0 1,5 2,0 2,5 3,0
0
2
4
6
8
10
12
14
16
18
20
22
Histogram
-0,6 -0,2 0,2 0,6 1,0 1,4 1,8 2,2
0
5
10
15
20
25
30
35
N-P plot
-0,2 0,0 0,2 0,4 0,6 0,8 1,0 1,2 1,4 1,6 1,8 2,0 2,2 2,4
-3
-2
-1
0
1
2
3
N-P plot
-3 -2 -1 0 1 2 3
-3
-2
-1
0
1
2
3
N-P plot
-0,4 -0,2 0,0 0,2 0,4 0,6 0,8 1,0 1,2 1,4 1,6 1,8 2,0 2,2
-3
-2
-1
0
1
2
3
Krabicový diagram
-0,2
0,0
0,2
0,4
0,6
0,8
1,0
1,2
1,4
1,6
1,8
2,0
2,2
2,4
Krabicový diagram
-3
-2
-1
0
1
2
3
Krabicový diagram
-0,4
-0,2
0,0
0,2
0,4
0,6
0,8
1,0
1,2
1,4
1,6
1,8
2,0
2,2
2.3.3. Příklad
Desetkrát nezávisle na sobě byla změřena jistá konstanta. Výsledky měření: 2 1,8 2,1
2,4 1,9 2,1 2 1,8 2,3 2,2. Pomocí normálního pravděpodobnostního grafu posuďte, zda se
tato data řídí normálním rozložením.
Řešení:
Po zapsání dat do proměnné nazvané Měření zvolíme Grafy ­ 2D Grafy ­ Normální pravděpodobnostní
grafy ­ Proměnné Měření, OK.
Normální p-graf Měření ( 1v*10c)
1,7 1,8 1,9 2,0 2,1 2,2 2,3 2,4 2,5
Pozorovaná hodnota
-1,5
-1,0
-0,5
0,0
0,5
1,0
1,5
2,0
Očekávanánormálníhodnota
Protože dvojice ( )j
u,x )j(  téměř leží na přímce, lze usoudit, že data pocházejí z normálního
rozložení.
2.4. Kvantil-kvantilový graf (Q-Q plot)
2.4.1. Popis grafu
Umožňuje graficky posoudit, zda data pocházejí z nějakého známého rozložení (např.
systém STATISTICA nabízí 8 typů rozložení: beta, exponenciální, Gumbelovo, gamma, lognormální,
normální, Rayleighovo a Weibulovo). Pro nás je nejdůležitější právě normální roz-
ložení.
Způsob konstrukce: na svislou osu vynášíme uspořádané hodnoty x(1)  ...  x(n) a na vodorovnou
osu kvantily )X(K j vybraného rozložení, kde
adj
adj
j
nn
rj
+
=
, přičemž radj a nadj
jsou korigující faktory  0,5, implicitně radj = 0,375 a nadj = 0,25. (Jsou-li některé hodnoty x(1)
 ...  x(n) stejné, pak za j bereme průměrné pořadí odpovídající takové skupince.) Pokud vybrané
rozložení závisí na nějakých parametrech, pak se tyto parametry odhadnou z dat nebo je
může zadat uživatel. Body ( )( )jx),X(K j se metodou nejmenších čtverců proloží přímka. Čím
méně se body odchylují od této přímky, tím je lepší soulad mezi empirickým a teoretickým
rozložením.
2.4.2. Příklad
Pro data z příkladu 2.3.3. posuďte pomocí kvantil ­ kvantilového grafu, zda pocházejí
z normálního rozložení.
Řešení:
Zvolíme Grafy ­ 2D Grafy ­ Grafy typu Q-Q ­ ponecháme implicitní nastavení na normální
rozložení (pokud bychom chtěli změnit nastavení na jiný typ rozložení, zvolili bychom ho na
záložce Detaily) ­ Proměnné Měření, OK.
Q-Q graf Měření ( 1v*10c)
Rozdělení:Normální
Měření = 2,058+0,2198*x
-1,5 -1,0 -0,5 0,0 0,5 1,0 1,5 2,0
Teoretický kvantil
0,10 0,25 0,50 0,75 0,90 0,95
1,7
1,8
1,9
2,0
2,1
2,2
2,3
2,4
2,5
Pozorovanýkvantil
Vzhled grafu nasvědčuje tomu, že data pocházejí z normálního rozložení.
2.5. Histogram
2.5.1. Popis grafu
Umožňuje porovnat tvar hustoty četnosti s tvarem hustoty pravděpodobnosti vybraného
teoretického rozložení. (Ve STATISTICE je pojem histogramu širší, skrývá se za ním i sloupkový
diagram.)
Způsob konstrukce ve STATISTICE: na vodorovnou osu se vynášejí třídicí intervaly
(implicitně 10, jejich počet lze změnit, stejně tak i meze třídicích intervalů) či varianty znaku
a na svislou osu absolutní nebo relativní četnosti třídicích intervalů či variant. Do histogramu
se může zakreslit tvar hustoty (či pravděpodobnostní funkce) vybraného teoretického rozložení.
Kromě osmi typů rozložení uvedených u Q-Q plotu umožňuje STATISTICA použít ještě
další čtyři rozložení: Laplaceovo, logistické, geometrické, Poissonovo.
2.5.2. Příklad
U 70 domácností byly zjišťovány týdenní výdaje na nealkoholické nápoje (v Kč).
Výdaje ( 65,35 ( 95,65 ( 125,95 ( 155,125 ( 185,155 ( 215,185
Počet dom. 7 16 27 14 4 2
Nakreslete histogram
Řešení pomocí systému STATISTICA:
Vytvoříme nový datový soubor s dvěma proměnnými Výdaje a Počet domácností. Do proměnné
Výdaje zapíšeme středy třídicích intervalů, do proměnné Počet domácností odpovídající
absolutní četnosti třídicích intervalů. V menu zvolíme Grafy ­ Histogramy ­ pomocí tlačítka
s obrázkem závaží zadáme proměnnou vah Počet domácností ­ OK, Proměnná Výdaje
­ zapneme volbu Všechny hodnoty ­ OK. Dostaneme histogram:
Histogram ( 2v*6c)
50 80 110 140 170 200
Výdaje
0
2
4
6
8
10
12
14
16
18
20
22
24
26
28
30
Početpozorování
Vidíme, že tvar histogramu není symetrický. Malé hodnoty jsou četnější než velké ­ datový
soubor je kladně zešikmen.
2.6. Dvourozměrný tečkový diagram
2.6.1. Popis diagramu
Máme dvourozměrný datový soubor (x1, y1), ... , (xn, yn), který je realizací dvourozměrného
náhodného výběru (X1, Y1), ... , (Xn, Yn) z dvourozměrného rozložení. Na vodorovnou
osu vyneseme hodnoty xj , na svislou hodnoty yk a do příslušných průsečíků nakreslíme
tolik teček, jaká je absolutní četnost dvojice (xj, yk). Jedná-li se o náhodný výběr
z dvourozměrného normálního rozložení, měly by tečky zhruba rovnoměrně vyplnit vnitřek
elipsovitého obrazce. Vrstevnice hustoty dvourozměrného normálního rozložení jsou totiž
elipsy ­ viz následující obrázek.
Graf hustoty a vrstevnice dvourozměrného normálního rozložení s parametry 1 = 0, 2 = 0,
1
2
= 1, 2
2
= 1,  = -0,75:
Do dvourozměrného tečkového diagramu můžeme ještě zakreslit 100(1-)% elipsu konstantní
hustoty pravděpodobnosti. Bude-li více než 100 % teček ležet vně této elipsy, svědčí to o
porušení dvourozměrné normality. Bude-li mít hlavní osa elipsy kladnou resp. zápornou
směrnici, znamená to, že mezi veličinami X a Y existuje určitý stupeň přímé resp. nepřímé
lineární závislosti.
2.6.2. Příklad
Máme k dispozici výsledky testů ze dvou předmětů zjištěné u osmi náhodně vybraných
studentů určitého oboru.
Číslo studenta 1 2 3 4 5 6 7 8
Počet bodů v 1. testu 80 50 36 58 42 60 56 68
Počet bodů ve 2. testu 65 60 35 39 48 44 48 61
Pomocí dvourozměrného tečkového diagramu se zakreslenou 95% elipsou konstantní hustoty
pravděpodobnosti a histogramy pro počty bodů v 1. a 2. testu posuďte, zda tato data lze považovat
za realizace náhodného výběru z dvourozměrného normálního rozložení.
Řešení pomocí systému STATISTICA:
Vytvoříme nový datový soubor se dvěma proměnnými Test1 a Test2 a osmi případy. Nyní
nakreslíme dvourozměrný tečkový diagram: Grafy ­ 2D Grafy - Bodové grafy s histogramy.
V typu proložení pro bodový graf vypneme lineární proložení. Proměnné ­ X ­ Test1, Y Test2
­ OK. Dostaneme dvourozměrný tečkový diagram pro vektorovou proměnnou (Test1,
Test2) a histogramy pro Test1 a Test2. Nyní do diagramu zakreslíme 95% elipsu konstantní
hustoty pravděpodobnosti: 2x klikneme na pozadí grafu a otevře se okno s názvem Vš. možnosti.
Vybereme Graf: Elipsa, zvolíme Přidat novou elipsu. Po vykreslení elipsy změníme
měřítko: na vodorovné ose bude minimum 0, maximum 120, na svislé ose bude minimum 0,
maximum 100. (Stačí 2x kliknout na číselný popis osy a na záložce Měřítka vybrat manuální
mód.)
Bodový graf s histogramy ( 2v*8c)
0
2
4
0 20 40 60 80 100 120
Test1
0
20
40
60
80
100
Test2
0 2 4
Obrázek svědčí o tom, že předpoklad dvourozměrné normality je oprávněný a že mezi počty
bodů z 1. a 2. testu bude existovat určitý stupeň přímé lineární závislosti, tzn., že u studentů,
kteří měli vysoký resp. nízký počet bodů v 1. testu, lze očekávat vysoký resp. nízký počet
bodů ve 2. testu.
2.7. Testy normality dat
K ověřování normality dat slouží celá řada testů, které jsou podrobně popsány ve statistické
literatuře. Zde se omezíme na dva testy, které jsou implementovány v systému STATISTICA,
a to Kolmogorovův ­ Smirnovův test a Shapirův ­ Wilksův test. V systému STATISTICA
lze hypotézu o normalitě testovat také pomocí testu dobré shody, kterým se budeme
zabývat v 11. kapitole.
2.7.1. Kolmogorovův ­ Smirnovův test a jeho Lilieforsova varianta
Testujeme hypotézu, která tvrdí, že náhodný výběr X1, ..., Xn pochází z normálního rozložení
s parametry  a 2
. Distribuční funkci tohoto rozložení označme T (x). Nechť Fn(x) je
výběrová distribuční funkce. Testovou statistikou je statistika )x()x(FsupD Tn
x
n -=
<<-
.
Nulovou hypotézu zamítáme na hladině významnosti , když Dn  Dn(), kde Dn() je tabelovaná
kritická hodnota. Pro n  30 lze Dn() aproximovat výrazem

2
ln
n2
1
.
V případě, že neznáme parametry  a 2
normálního rozložení, musíme je odhadnout
z dat (střední hodnotu odhadneme pomocí m a rozptyl pomocí s2
). Tím se změní rozložení
testové statistiky Dn. Příslušné modifikované kvantily byly určeny pomocí simulačních studií.
V této situaci používáme Lilieforsovu variantu Kolmogorovova ­ Smirnovova testu.
2.7.2. Shapirův ­ Wilksův test normality dat
Testujeme hypotézu, která tvrdí, že náhodný výběr X1, ..., Xn pochází z normálního rozložení
N(, 2
).
Testová statistika má tvar:
( )
( ) ( )[ ]
( )

=
=
+-
-
=
m
1i
2
i
m
1i
2
i1in
n
i
MX
XXa
W ,
kde m = n/2 pro n sudé a m = (n-1)/2 pro n liché. Koeficienty ai
(n)
jsou tabelovány.
Na testovou statistiku W lze pohlížet jako na korelační koeficient mezi uspořádanými
pozorováními a jim odpovídajícími kvantily standardizovaného normálního rozložení.
V případě, že data vykazují perfektní shodu s normálním rozložením, bude mít W hodnotu 1.
Hypotézu o normalitě tedy zamítneme na hladině významnosti , když se na této hladině neprokáže
korelace mezi daty a jim odpovídajícími kvantily rozložení N(0,1).
Lze také říci, že S ­ W test je založen na zjištění, zda body v Q-Q grafu jsou významně odlišné
od regresní přímky proložené těmito body.
(S-W test se používá především pro výběry menších rozsahů, n < 50, ale v systému STATISTICA
je implementováno jeho rozšíření i na výběry velkých rozsahů, kolem 2000.)
2.7.3. Příklad
Jsou dány hodnoty 10, 12, 8, 9, 16. Pomocí K- S testu a S ­ W testu zjistěte na hladině
významnosti 0,05, zda tato data pocházejí z normálního rozložení.
Řešení pomocí systému STATISTICA:
Vytvoříme nový datový soubor o jedné proměnné nazvané X a pěti případech. Do proměnné
X zapíšeme uvedené hodnoty. V menu vybereme Statistika ­ Základní statistiky/tabulky Tabulky
četností ­ OK, Proměnné X ­ OK. Na záložce zvolíme Normalita a zaškrtneme Lilieforsův
test a Shapiro ­ Wilksův W test ­ Testy normality.
Testy normality (Tabulka1)
Proměnná
N max D Lilliefors
p
W p
X 5 0,224085 p > .20 0,912401 0,482151
Vidíme, že testová statistika K-S testu je d = 0,22409, odpovídající Lilieforsova p-hodnota je
větší než 0,2, tedy hypotézu o normalitě nezamítáme na hladině významnosti 0,05.
Testová statistika S-W testu je W = 0,9124, odpovídající p-hodnota je 0,48215, tedy hypotézu
o normalitě nezamítáme na hladině významnosti 0,05.
2.8. Vzorový příklad
Zadání příkladu:
Vedení pojišťovny (zaměřené na pojištění automobilů) požádalo manažera oddělení
marketingového výzkumu o provedení průzkumu, který by ukázal názory zákazníků na uvažovaný
nový systém pojištění aut.
Náhodně bylo vybráno 110 současných zákazníků pojišťovny a ti byli telefonicky seznámeni
s následujícím textem:
,,Naše pojišťovna nabízí nový systém pojištění aut výhradně pro cesty nad 300 km. Za roční
poplatek 12 tisíc Kč budete pojištěni pro případ libovolných potíží s autem při všech
cestách nad 300 km. V případě nehody pojišťovna uhradí opravu, cestovní náklady a popř. i
některé další výlohy, jako je ubytování a stravování v hotelu, telefon atd.
Stupnicí od 1 (jednoznačný nezájem) do 5 (jednoznačný zájem) laskavě vyjádřete svůj postoj
k nabízenému novému typu pojištění. Dále uveďte svůj věk, počet cest nad 300 km
v loňském roce, stáří vašeho auta a váš rodinný stav. Děkujeme."
Získané odpovědi byly zaznamenány do datového souboru a zakódovány takto:
POSTOJ ... postoj k novému typu pojištění (jednoznačný nezájem = 1, lehký nezájem = 2,
neutrální postoj = 3, lehký zájem = 4, jednoznačný zájem = 5).
RODSTAV ... rodinný stav (svobodný = 1, rozvedený, ovdovělý = 2, ženatý = 3).
VEK ... věk v dokončených letech.
STARIAUT ... stáří auta v letech.
CESTY ... počet cest nad 300 km v předešlém roce.
Ukázka části datového souboru:
Úkol 1. Zjistěte absolutní a relativní četnosti a absolutní a relativní kumulativní četnosti proměnných
POSTOJ a RODSTAV.
Návod:
V menu zvolíme položku Statistika ­ Základní statistiky/tabulky ­ Tabulky četností ­ OK.
Pro analýzu vybereme proměnné POSTOJ, RODSTAV ­ OK. Zvolíme Výpočet: Tabulky
četností. Získáme tabulku četností pro POSTOJ
Tabulka četností:POSTOJ: Postoj k novému typu pojištění (pojist)
Kategorie
Četnost Kumulativní
četnost
Rel.četnost Kumulativní
rel.četnost
jednoznačný nezájem
lehký nezájem
neutrální postoj
lehký zájem
jednoznačný zájem
ChD
8 8 7,27273 7,2727
21 29 19,09091 26,3636
23 52 20,90909 47,2727
34 86 30,90909 78,1818
24 110 21,81818 100,0000
0 110 0,00000 100,0000
a pro RODSTAV
Tabulka četností:RODSTAV: Rodinný stav (pojist)
Kategorie
Četnost Kumulativní
četnost
Rel.četnost Kumulativní
rel.četnost
svobodný
rozvedený, ovdovělý
ženatý
ChD
48 48 43,63636 43,6364
16 64 14,54545 58,1818
46 110 41,81818 100,0000
0 110 0,00000 100,0000
Úkol 2. Absolutní četnosti proměnných POSTOJ a RODSTAV znázorněte graficky pomocí
výsečového diagramu.
Návod:
V menu zvolíme Grafy ­ 2D grafy ­ Výsečové grafy.
Vybereme proměnné POSTOJ, RODSTAV a dostaneme následující grafy:
Výsečový graf(pojist5v*110c)
POSTOJ
jednoznačný nezájem
lehký nezájem
neutrálnípostoj
jednoznačný zájem
lehký zájem
Výsečový graf(pojist5v*110c)
RODSTAV
svobodný
ženatý
rozvedený,ovdovělý
Z prvního diagramu je zřejmé, že nejméně zákazníků projevilo jednoznačný nezájem o
nový typ pojištění. Ostatní varianty jsou zastoupeny vcelku rovnoměrně.
Co se týká rodinného stavu zákazníků, vidíme, že v daném souboru jsou s přibližně stejnou
četností zastoupeni ženatí a svobodní zákazníci. Rozvedených či ovdovělých je nejméně.
Všechny tabulky a grafy se ukládají do pracovního sešitu. Listovat v nich lze pomocí
stromové struktury v levém okně.
Úkol 3. Vypočtěte následující číselné charakteristiky:
a) POSTOJ (ordinální proměnná) ­ modus, medián, dolní a horní kvartil, kvartilová odchylka.
b) RODSTAV (nominální proměnná) ­ modus.
c) VEK, STARIAUT, CESTY (poměrové proměnné) ­ průměr, směrodatná odchylka, šikmost,
špičatost.
Návod:
ad a) Statistika ­ Základní statistiky/tabulky ­ Popisné statistiky ­ Proměnné POSTOJ ­ OK.
Na záložce Detaily vybereme Medián, Modus, Dolní & horní kvartily, Kvartilové rozpětí Souhrn.
Dostaneme tabulku
Popisné statistiky (pojist)
Proměnná
Medián Modus Četnost
modu
Spodní
kvartil
Horní
kvartil
Kvartilové
rozpětí
POSTOJ 4,000000 4,000000 34 2,000000 4,000000 2,000000
Vidíme, že medián, modus a horní kvartil jsou stejné ­ je to varianta 4 ,,lehký zájem". Dolním
kvartilem je varianta 2 ,,lehký nezájem".
ad b) V tabulce Popisné statistiky změníme proměnnou na RODSTAV ­ OK. Na záložce Detaily
vybereme Modus ­ Souhrn. Dostaneme tabulku
Popisné statistiky (pojist)
Proměnná
Modus Četnost
modu
RODSTAV 1,000000 48
V našem datovém souboru je nejčetnější variantou rodinného stavu varianta 1 ,,svobodný".
ad c) V tabulce Popisné statistiky změníme proměnné na VEK, STARIAUT, CESTY ­ OK.
Na záložce Detaily vybereme Průměr, Směrodat. odchylka, Šikmost, Špičatost ­ Souhrn.
Dostaneme tabulku
Popisné statistiky (pojist)
Proměnná Průměr Sm. odch. Šikmost Špičatost
VEK
STARIAUT
CESTY
39,58182 8,823844 0,191625 -0,59532
4,16364 2,359938 0,905405 0,35924
7,16364 5,304537 3,150711 15,99807
Průměrný věk zákazníků je 39,6 roku, směrodatná odchylka věku činí 8,8 roku. Rozložení
věku vykazuje kladnou šikmost (podprůměrné hodnoty věku jsou četnější než nadprůměrné) a
zápornou špičatost (rozložení věku je plošší než normální rozložení).
Průměrné stáří auta je 4,2 roku se směrodatnou odchylkou 2,4 roku. Rozložení stáří aut je
kladně zešikmené a špičatější než normální rozložení.
Průměrný počet cest v předešlém roce činil 7,2 se směrodatnou odchylkou 5,3. Rozložení
počtu cest je značně kladně zešikmené a podstatně špičatější než normální rozložení.
Poznámka: Pokud bychom chtěli porovnat variabilitu uvedených tří proměnných, mohli bychom
vypočítat koeficienty variace (koeficient variace je podíl směrodatné odchylky a průměru).
Do tabulky s vypočítanými číselnými charakteristikami přidáme další proměnnou nazvanou
CV: Proměnné ­ Přidat ­ Kolik 1 ­ Za Špičatost ­ Jméno CV ­ do okénka Dlouhé jméno
napíšeme =v2/v1 ­ OK. Dostaneme tabulku
Popisné statistiky (pojist)
Proměnná Průměr Sm. odch. Šikmost Špičatost CV
VEK
STARIAUT
CESTY
39,58182 8,823844 0,191625 -0,59532 0,222927
4,16364 2,359938 0,905405 0,35924 0,566797
7,16364 5,304537 3,150711 15,99807 0,740481
Vidíme, že nejvyšší variabilitu má proměnná CESTY, nejnižší VEK.
Úkol 4. Vytvořte histogram proměnné VEK se šesti třídicími intervaly
( ((( ( 59,53,35,47,47,41,41,35,35,29,29,23 .
Návod:
V menu vybereme Grafy ­ Histogramy ­ Proměnné VEK, OK. Odškrtneme Typ proložení:
Normální. V záložce Detaily vybereme Hranice ­ Určit hranice ­ zadáme horní meze intervalů,
tj. 29 35 41 47 53 59, OK, OK.
Dostaneme histogram v tomto tvaru:
Histogram ( 5v*110c)
29 35 41 47 53 59
VEK
0
2
4
6
8
10
12
14
16
18
20
22
24
26
28
Početpozorování
Ze vzhledu histogramu lze soudit, že v souboru zákazníků jsou nejvíce zastoupeni lidé
od 35 do 47 let. Soubor vykazuje kladné zešikmení.
Úkol 5. Vytvořte kategorizovaný histogram proměnné VEK podle proměnné RODSTAV.
Návod
Postupujeme stejně jako v předešlém případě, jenom na záložce Kategorizovaný zvolíme Kategorie
X ­ Zapnuto, Změnit proměnnou ­ RODSTAV, OK, OK Dostaneme tři histogramy:
Histogram ( 5v*110c)
VEK
Početpozorování
RODSTAV: 1
29 35 41 47 53 59
0
2
4
6
8
10
12
14
16
18
RODSTAV: 2
29 35 41 47 53 59
RODSTAV: 3
29 35 41 47 53 59
0
2
4
6
8
10
12
14
16
18
Úkol 6. Sestrojte krabicový diagram proměnné CESTY. S jeho pomocí zjistěte, zda proměnná
CESTY obsahuje odlehlé či extrémní hodnoty.
Návod:
V menu Grafy zvolíme 2D Grafy ­ Krabicové grafy ­ Proměnné ­ Závisle proměnné ­ CESTY
­ OK, OK.
Krabicový graf ( 5v*110c)
Medián = 6
25%-75%
= (4, 9)
Rozsah neodleh.
= (0, 16)
Odlehlé
ExtrémyCESTY
-5
0
5
10
15
20
25
30
35
40
45
Medián je posunut k dolnímu kvartilu, což svědčí o kladně zešikmeném rozložení. Vyskytují
se odlehlé i extrémní hodnoty, jedná se tedy o špičaté rozložení.
Úkol 7. Pro proměnnou STARIAUT sestrojte N-P graf a s jeho pomocí posuďte normalitu
této proměnné.
Návod:
Grafy ­ 2D Grafy ­ Normální pravděpodobnostní grafy ­ Proměnné STARIAUT ­ OK.
Normální p-graf STARIAUT ( 5v*110c)
0 2 4 6 8 10 12 14
Pozorovaná hodnota
-2,0
-1,5
-1,0
-0,5
0,0
0,5
1,0
1,5
2,0
2,5
3,0
Očekávanánormálníhodnota
Tečky v NP grafu se značně odchylují od zakreslené přímky a řadí se do konvexního
tvaru. Datový soubor vykazuje kladné zešikmení, nejedná se tedy o normální rozložení.
Úkol 8. Rozhodněte pomocí K-S testu a S-W testu na hladině významnosti 0,05, zda lze údaje
o věku zákazníků považovat za realizace náhodného výběru z normálního rozložení.
Návod:
Statistika ­ Základní statistiky/tabulky ­ Tabulky četností ­ OK, Proměnné X ­ OK. Na záložce
zvolíme Normalita a zaškrtneme Lilieforsův test a Shapiro ­ Wilksův W test ­ Testy
normality
Ve výstupu se objeví tabulka, v níž je uvedena hodnota testové statistiky pro K-S test
(d = 0,11222) a S-W test (W = 0,96695) a odpovídající p-hodnoty. U K-S testu uvažujeme
Lilieforsovo p, které je počítáno na základě parametrů odhadnutých z dat. V našem případě
p < 0,01 a pro S-W test p = 0,00783, tedy oba testy zamítají na hladině významnosti 0,05 hypotézu
o normalitě. Výpočet je vhodné doplnit NP grafem:
Normální p-graf VEK ( 5v*110c)
20 25 30 35 40 45 50 55 60 65
Pozorovaná hodnota
-3
-2
-1
0
1
2
3
Očekávanánormálníhodnota
Úkol 9. Pomocí dvourozměrného tečkového diagramu posuďte, zda mezi věkem zákazníka a
počtem cest nad 300 km v předešlém roce existuje nějaká lineární závislost.
Návod:
Grafy ­ Bodové grafy ­ Proměnné X ­ VEK, Y ­ CESTY ­ OK. OK. Dostaneme tento graf:
Bodový graf ( 5v*110c)
CESTY = 10,2021-0,0768*x
20 25 30 35 40 45 50 55 60 65
VEK
-5
0
5
10
15
20
25
30
35
40
45
CESTY
Vidíme, že s rostoucím věkem zákazníka poněkud klesá počet cest, mezi proměnnými VEK a
CESTY tedy dosti slabá nepřímá lineární závislost.
Shrnutí
Při určení směru statistické analýzy dat používáme diagnostické grafy, které umožní po-
soudit
- normalitu dat či tvar rozložení (N-P plot, Q- Q plot, histogram)
- existenci odlehlých či extrémních hodnot (krabicový graf)
- dvourozměrnou normalitu dat (dvourozměrný tečkový diagram)
Kromě grafického znázornění dat používáme testy normality dat, např. Kolmogorovův Smirnovův
test (ve většině reálných situací jeho variantu poskytující Lilieforsovu p-hodnotu)
nebo Shapirův ­ Wilksův test. Musíme si být ovšem vědomi toho, že pro výběry větších rozsahů
(orientačně n > 30) i malé odchylky od normality mohou být statisticky významné, i
když věcně nikoliv. V takovém případě se nedopustíme závažné chyby, pokud použijeme
metodu založenou na předpokladu normality dat.
Kontrolní otázky
1. K čemu slouží diagnostické grafy?
2. Popište způsob konstrukce krabicového diagramu.
3. Jak budete interpretovat situaci, kdy v krabicovém diagramu je medián posunut směrem
k dolnímu kvartilu?
4. V dvourozměrném tečkovém diagramu jsou tečky zhruba rovnoměrně rozptýleny uvnitř
kruhového obrazce. Co lze říci o vztahu veličin X a Y?
5. Jak se liší provedení K-S testu normality dat v případě, kdy známe parametry normálního
rozložení od případu, kdy je neznáme?
6. Jak souvisí S-W test normality dat s kvantil-kvantilovým grafem?
7. Pro datový soubor o rozsahu n = 50 byl vytvořen normální pravděpodobnostní graf a kvantil-kvantilový
graf. Pomocí těchto grafů posuďte, zda se data mohou řídit normálním rozlože-
ním.
NP plot
0 1 2 3 4 5 6 7 8 9
0.003
0.01
0.02
0.05
0.10
0.25
0.50
0.75
0.90
0.95
0.98
0.99
0.997
Q-Q plot
-3 -2 -1 0 1 2 3
-4
-2
0
2
4
6
8
10
Výsledek: Data nepocházejí z normálního rozložení, vzhled obou diagramů svědčí o značném
kladném zešikmení.
Autokorekční test
1. Z 99 hodnot byl sestrojen histogram. Určete, který ze tří uvedených krabicových diagramů
byl sestrojen ze stejných hodnot jako tento histogram.
-0,4 0,0 0,4 0,8 1,2 1,6 2,0 2,4
0
5
10
15
20
25
30
35
Medián
25%-75%
Rozsah neodleh.
Odlehlé
Extrémy
-3
-2
-1
0
1
2
3
a) První krabicový diagram.
b) Druhý krabicový diagram.
c) Třetí krabicový diagram.
2. Určete, která tvrzení jsou pravdivá:
a) Odlehlá hodnota v datovém souboru leží za vnějšími hradbami.
b) Extrémní hodnota v datovém souboru leží mezi vnitřními a vnějšími hradbami.
c) Extrémní hodnota je více vzdálena od mediánu než odlehlá hodnota.
3. Určete, která tvrzení jsou pravdivá:
a) Pocházejí-li data z normálního rozložení, budou se tečky v normálním pravděpodobnostním
grafu řadit do přímky.
b) Pocházejí-li data z rozložení s kladnou šikmostí, budou se tečky v normálním pravděpodobnostním
grafu řadit do konkávní křivky.
c) Pocházejí-li data z rozložení se zápornou šikmostí, budou se tečky v normálním pravděpodobnostním
grafu řadit do konvexní křivky.
4. Určete, která tvrzení jsou pravdivá:
a) Pokud se v dvourozměrném tečkovém diagramu seskupují tečky do protáhlého elipsovitého
útvaru, jehož hlavní osa je přímka s kladnou směrnicí, lze usoudit, že mezi veličinami X a Y
existuje určitý stupeň přímé lineární závislosti.
b) Pokud se v dvourozměrném tečkovém diagramu seskupují tečky do kruhovitého útvaru, lze
usoudit, že mezi veličinami X a Y existuje určitý stupeň nelineární závislosti.
c) Pokud v dvourozměrném tečkovém diagramu leží všechny tečky na přímce se zápornou
směrnicí, lze usoudit, že mezi veličinami X a Y existuje úplná nepřímá lineární závislost.
Správné odpovědi: 1b) 2c) 3a) 4a), c)
Příklady
1. Během semestru se studenti podrobili písemnému testu z matematiky, v němž bylo možno
získat 0 až 10 bodů. Výsledky jsou uvedeny v tabulce:
Počet bodů 0 1 2 3 4 5 6 7 8 9 10
Počet studentů 1 4 6 7 11 15 19 17 12 6 3
Pro počet bodů sestrojte krabicový diagram. Je počet bodů symetricky rozložen kolem mediánu?
Vyskytují se v datech odlehlé nebo extrémní hodnoty?
Výsledek: x0,25 = 1, x0,50 = 6, x0,75 = 7, medián je posunut k hornímu kvartilu, data vykazují
zápornou šikmost. Odlehlé ani extrémní hodnoty se nevyskytují.
2. Pro počet bodů z 1. příkladu sestrojte normální pravděpodobnostní graf.
3. Pro počet bodů z 1. příkladu sestrojte kvantil-kvantilový graf pro normální rozložení.
4. Pro počet bodů z 1. příkladu testujte pomocí K-S testu na hladině významnosti 0,05 hypotézu,
že se řídí normálním rozložením. Zjistěte hodnotu testové statistiky a odpovídající p-
hodnotu.
Výsledek:
Testová statistika = 0,12895, Liliefors p < 0,01, hypotézu o normalitě zamítáme na hladině
významnosti 0,05.
5. Pro počet bodů z 1. příkladu testujte pomocí S-W testu na hladině významnosti 0,05 hypotézu,
že se řídí normálním rozložením. Zjistěte hodnotu testové statistiky a odpovídající p-
hodnotu.
Výsledek:
Testová statistika = 0,96906, p < 0,01784, hypotézu o normalitě zamítáme na hladině významnosti
0,05.
6. Na 10 automobilech stejného typu se testovaly dva druhy benzínu lišící se oktanovým
číslem. U každého automobilu se při průměrné rychlosti 90 km/h měřil dojezd (tj. dráha, kterou
ujede na dané množství benzínu) při použití každého z obou druhů benzínu. Výsledky:
číslo auta 1 2 3 4 5 6 7 8 9 10
benzín A 17,5 20 18,9 17,9 16,4 18,9 17,2 17,5 18,5 18,2
benzín B 17,8 20,8 19,5 18,3 16,6 19,5 17,5 17,9 19,1 18,6
Pro uvedená data sestrojte dvourozměrný tečkový diagram se zakreslenou 95% elipsou konstantní
hustoty pravděpodobnosti. Mohou data pocházet z dvourozměrného normálního rozlo-
žení?
Výsledek: ano.