Cvičení 1.: Základy práce se systémem STATISTICA
Vedení pojišťovny (zaměřené na pojištění automobilů) požádalo manažera oddělení
marketingového výzkumu o provedení průzkumu, který by ukázal názory zákazníků na
uvažovaný nový systém pojištění aut.
Náhodně bylo vybráno 110 současných zákazníků pojišťovny a ti byli telefonicky
seznámeni s následujícím textem:
„Naše pojišťovna nabízí nový systém pojištění aut výhradně pro cesty nad 300 km. Za
roční poplatek 12 tisíc Kč budete pojištěni pro případ libovolných potíží s autem při všech
cestách nad 300 km. V případě nehody pojišťovna uhradí opravu, cestovní náklady a popř. i
některé další výlohy, jako je ubytování a stravování v hotelu, telefon atd.
Stupnicí od 1 (jednoznačný nezájem) do 5 (jednoznačný zájem) laskavě vyjádřete svůj
postoj k nabízenému novému typu pojištění. Dále uveďte svůj věk, počet cest nad 300 km
v loňském roce, stáří vašeho auta a váš rodinný stav. Děkujeme.“
Získané odpovědi byly zaznamenány do datového souboru pojist.sta a zakódovány takto:
POSTOJ ... postoj k novému typu pojištění (jednoznačný nezájem = 1, lehký nezájem = 2,
neutrální postoj = 3, lehký zájem = 4, jednoznačný zájem = 5) – proměnná ordinálního typu
RODSTAV ... rodinný stav (svobodný = 1, rozvedený, ovdovělý = 2, ženatý = 3) – proměnná
nominálního typu
VEK ... věk v dokončených letech – proměnná poměrového typu
STARIAUT ... stáří auta v letech – proměnná poměrového typu
CESTY ... počet cest nad 300 km v předešlém roce – proměnná poměrového typu
Ukázka části datového souboru:
Úkol 1.: Datový soubor pojist.sta načtěte do systému STATISTICA. Všem proměnným vytvořte
návěští a popište význam jednotlivých variant proměnných POSTOJ a RODSTAV.
Návod: Soubor – Otevřít – pojist.sta – Otevřít.
Názvy a vlastnosti proměnných se upravují v okně, do něhož vstoupíme, když 2x klikneme
myší na název proměnné. Návěští se píše do Dlouhého jména, význam variant do Text.
hodnot.
Úkol 2. Zjistěte absolutní a relativní četnosti a absolutní a relativní kumulativní četnosti
proměnných POSTOJ a RODSTAV.
Návod: Statistiky – Základní statistiky/Tabulky – Tabulky četností – OK – Proměnné
POSTOJ, RODSTAV – OK – Výpočet.
Tabulky se uloží do pracovního sešitu, listovat v nich můžeme pomocí stromové struktury
v levé části okna.
Tabulka četností pro POSTOJ
Tabulka četností:POSTOJ: postoj k novému typu pojišt (pojist.sta)
Kategorie
Četnost Kumulativní
četnost
Rel.četnost Kumulativní
rel.četnost
jednoznačný nezájem
lehký nezájem
neutrální postoj
lehký zájem
jednoznačný zájem
ChD
24 24 21,81818 21,8182
34 58 30,90909 52,7273
23 81 20,90909 73,6364
21 102 19,09091 92,7273
8 110 7,27273 100,0000
0 110 0,00000 100,0000
Tabulka četností pro RODSTAV
Tabulka četností:RODSTAV: rodinný stav zákazníka (pojist.sta)
Kategorie
Četnost Kumulativní
četnost
Rel.četnost Kumulativní
rel.četnost
svobodný
rozvedený
ženatý
ChD
48 48 43,63636 43,6364
16 64 14,54545 58,1818
46 110 41,81818 100,0000
0 110 0,00000 100,0000
Úkol 3. Absolutní četnosti proměnných POSTOJ a RODSTAV znázorněte graficky pomocí
výsečového diagramu.
Návod: V menu zvolíme Grafy – 2D Grafy – Výsečové grafy.
Vybereme proměnné POSTOJ, RODSTAV a dostaneme následující grafy:
Výsečový graf z POSTOJ
pojist.sta 6v*110c
POSTOJ
jednoznačný nezájem
jednoznačný zájem
lehký zájem
neutrální postoj lehký nezájem
jednoznačný nezájem
jednoznačný zájem
lehký zájem
neutrální postoj lehký nezájem
Výsečový graf z RODSTAV
pojist.sta 6v*110c
RODSTAV
svobodný
ženatý
rozvedený
svobodný
ženatý
rozvedený
Z prvního diagramu je zřejmé, že nejméně zákazníků projevilo jednoznačný zájem o nový typ
pojištění. Ostatní varianty jsou zastoupeny vcelku rovnoměrně.
Co se týká rodinného stavu zákazníků, vidíme, že v daném souboru jsou s přibližně stejnou
četností zastoupeni ženatí a svobodní zákazníci. Rozvedených či ovdovělých je nejméně.
Úkol 4. Vytvořte histogram proměnné VEK se šesti třídicími intervaly <23,29>, (29,35>,
(35,41>, (41,47>, (47,53>, (53,59>.
Návod: V menu vybereme Grafy – Histogramy – Proměnné VEK, OK, Detaily – zaškrtneme
Hranice – Určit hranice – zaškrtneme Zadejte hraniční rozmezí, Minimum 23, Krok 6,
Maximum 59 – OK – Vypneme normální proložení – OK. Dostaneme histogram v tomto
tvaru:
Histogram ( 5v*110c)
29 35 41 47 53 59
VEK
0
2
4
6
8
10
12
14
16
18
20
22
24
26
28
Početpozorování
Ze vzhledu histogramu lze soudit, že v souboru zákazníku jsou nejvíce zastoupeni lidé od 35
do 47 let. Soubor vykazuje kladné zešikmení, protože mladší věkové kategorie jsou
zastoupeny s vyšší četností než starší věkové kategorie.
Úkol 5.: Vytvořte kategorizovaný histogram proměnné VEK podle proměnné RODSTAV.
Návod: Postupujeme stejně jako v předešlém případě a zvolíme Kategorizovaný – Kategorie
X – Zapnuto – Změnit proměnnou RODSTAV – OK - OK.
Histogram z VEK; kategorizovaný RODSTAV
pojist.sta 6v*110c
VEK
Početpozorování
RODSTAV: svobodný
23 29 35 41 47 53 59
0
2
4
6
8
10
12
14
16
18
RODSTAV: rozvedený
23 29 35 41 47 53 59
RODSTAV: ženatý
23 29 35 41 47 53 59
0
2
4
6
8
10
12
14
16
18
Úkol 6.: Vypočtěte následující číselné charakteristiky:
POSTOJ (ordinální proměnná) – modus, medián, dolní a horní kvartil, kvartilová odchylka.
RODSTAV (nominální proměnná) – modus.
VEK, STARIAUT, CESTY (poměrové proměnné) – průměr, směrodatná odchylka, koeficient
variace, šikmost, špičatost.
Návod: Statistiky – Základní statistiky/tabulky – Popisné statistiky – OK, Proměnné –
zadáme název příslušné proměnné, Detailní výsledky – vybereme příslušné charakteristiky.
Popisné statistiky (pojist.sta)
Proměnná
Medián Modus Četnost
modu
Spodní
kvartil
Horní
kvartil
Kvartilové
rozpětí
POSTOJ 2 2 34 2 4 2
Vidíme, že medián, modus a dolní kvartil jsou stejné – je to varianta 2 „lehký nezájem“.
Horním kvartilem je varianta 4 „lehký zájem“.
Popisné statistiky (pojist.sta)
Proměnná
Modus Četnost
modu
RODSTAV 1 48
V našem datovém souboru je nejčetnější variantou rodinného stavu varianta 1 „svobodný“.
Popisné statistiky (pojist.sta)
Proměnná Průměr Sm.odch. Koef.prom. Šikmost Špičatost
VEK
STARIAUT
CESTY
39,58182 8,823844 22,29267 0,191625 -0,59532
4,16364 2,359938 56,67974 0,905405 0,35924
7,16364 5,304537 74,04811 3,150711 15,99807
Průměrný věk zákazníka je 39 let a 7 měsíců se směrodatnou odchylkou 8 let a 10 měsíců.
Rozložení věku vykazuje kladnou šikmost (podprůměrné hodnoty věku jsou četnější než
nadprůměrné) a zápornou špičatost (rozložení věku je plošší než normální rozložení).
Průměrné stáří auta je 4 roky a 2 měsíce se směrodatnou odchylkou 2 roky a 4 měsíce.
Rozložení stáří aut je kladně zešikmené a špičatější než normální rozložení.
Průměrný počet cest nad 300 km je 7,2 se směrodatnou odchylkou 5,3. Rozložení počtu cest
na 300 km je značně kladně zešikmené a podstatně špičatější než normální rozložení.
Z porovnání variability uvedených tří proměnných pomocí koeficientů variace (koeficient
variace je podíl směrodatné odchylky a průměru, často se udává v procentech) vyplývá, že
nejvyšší variabilitu má proměnná CESTY, nejnižší VEK.
Úkol 7.: Zjistěte, jaký je průměrný počet cest nad 300 km pro svobodné, rozvedené , ženaté
zákazníky pojišťovny. Výpočet doplňte krabicovým diagramem.
Návod: Statistiky – Základní statistiky/tabulky – Rozklad&jednofakt. ANOVA – OK –
Proměnné – Závisle proměnné CESTY, Grupovací proměnná RODSTAV – OK – OK –
Popisné statistiky – ponecháme jen N platných – Výpočet
Rozkladová tabulka popisných statistik (pojist.sta)
N=110 (V seznamu záv. prom. nejsou ChD)
RODSTAV CESTY
průměr
CESTY
N
svobodný 7,895833 48
rozvedený 5,750000 16
ženatý 6,891304 46
Vš.skup. 7,163636 110
Vidíme, že nejvyšší průměrný počet cest nad 300 km mají svobodní zákazníci pojišťovny.
Vytvoření krabicového grafu: Grafy – 2D Grafy – Krabicové grafy – Proměnné – Závisle
proměnné CESTY, Grupovací proměnná RODSTAV – OK – OK
Krabicový graf z CESTY seskupený RODSTAV
pojist.sta 6v*110c
Medián
25%-75%
Rozsah neodleh.
Odlehlé
Extrémy
svobodný rozvedený ženatý
RODSTAV
-5
0
5
10
15
20
25
30
35
40
45
CESTY
Ve všech třech variantách rodinného stavu se vyskytují odlehlé hodnoty, u svobodných
zákazníků pojišťovny jsou dokonce i extrémní hodnoty.
Úkol 8.: Pro proměnnou STARIAUT sestrojte N-P graf a s jeho pomocí posuďte normalitu
této proměnné.
Návod: Grafy – 2D Grafy – Normální pravděpodobnostní grafy – Proměnné STARIAUT –
OK.
Normální p-graf STARIAUT (pojist 5v*110c)
0 2 4 6 8 10 12 14
Pozorovaná hodnota
-2,0
-1,5
-1,0
-0,5
0,0
0,5
1,0
1,5
2,0
2,5
3,0
Očekávanánormálníhodnota
Tečky v NP grafu se značně odchylují od zakreslené přímky a řadí se do konkávního tvaru.
Datový soubor vykazuje kladné zešikmení, nejedná se tedy o normální rozložení.
Úkol 9.: Pro proměnnou STARIAUT nakreslete histogram s proloženou hustotou normálního
rozložení. Ponechte implicitní počet třídicích intervalů.
Návod: Grafy – Histogramy – Proměnné STARIAUT – OK.
Histogram z STARIAUT
pojist.sta 6v*110c
STARIAUT = 110*1*normal(x; 4,1636; 2,3599)
1 2 3 4 5 6 7 8 9 10 11 12
STARIAUT
0
5
10
15
20
25
30
35
Početpozorování
Tvar histogramu svědčí o kladně zešikmeném rozložení, jehož hustota neodpovídá hustotě
normálního rozložení.
Úkol 10.: Vytvořte kontingenční tabulku absolutních četností znaků POSTOJ a RODSTAV.
Návod: Statistiky – Základní statistiky/tabulky – Kontingenční tabulky – OK – Specif.
tabulky - List 1 POSTOJ, List 2 RODSTAV - OK, Výpočet.
Kontingenční tabulka (pojist.sta)
Četnost označených buněk > 10
(Marginální součty nejsou označeny)
POSTOJ RODSTAV
svobodný
RODSTAV
rozvedený
RODSTAV
ženatý
Řádk.
součty
ne 11 3 10 24
asi ne 11 5 18 34
nevím 12 3 8 23
asi ano 9 4 8 21
ano 5 1 2 8
Vš.skup. 48 16 46 110
Vidíme, že ve výběrovém souboru bylo např. 11 zákazníků, kteří neměli vůbec zájem o nový
typ pojištění a současně byli svobodní.
Vytvoření grafu simultánní četnostní funkce: Na liště aktivujeme Výsledky: kontingenční
tabulky – Detaily - 3D histogramy. Vzniklý graf je třeba upravit: 2x klikneme myší na pozadí
grafu – Graf: Vzhled – Typ – Špičky – OK.
Úkol 10.: Vytvořte kontingenční tabulku sloupcově a řádkově podmíněných relativních
četností znaků POSTOJ a RODSTAV.
Návod: Aktivujeme na liště Výsledky: kontingenční tabulky – Možnosti - zaškrtneme ve
sloupci Výpočet tabulek volbu Procenta z počtu ve sloupci (resp. Procenta z počtu v řádku) –
Výpočet.
Kontingenční tabulka sloupcově podmíněných relativních četností:
Kontingenční tabulka (pojist.sta)
Četnost označených buněk > 10
(Marginální součty nejsou označeny)
POSTOJ RODSTAV
svobodný
RODSTAV
rozvedený
RODSTAV
ženatý
Řádk.
součty
Četnost
Sloupc. četn.
Četnost
Sloupc. četn.
Četnost
Sloupc. četn.
Četnost
Sloupc. četn.
Četnost
Sloupc. četn.
Četnost
ne 11 3 10 24
22,92% 18,75% 21,74%
asi ne 11 5 18 34
22,92% 31,25% 39,13%
nevím 12 3 8 23
25,00% 18,75% 17,39%
asi ano 9 4 8 21
18,75% 25,00% 17,39%
ano 5 1 2 8
10,42% 6,25% 4,35%
Vš.skup. 48 16 46 110
Z rozvedených zákazníků pojišťovny projevuje 25 % lehký zájem o nový typ pojištění.
Kontingenční tabulka řádkově podmíněných relativních četností:
Kontingenční tabulka (pojist.sta)
Četnost označených buněk > 10
(Marginální součty nejsou označeny)
POSTOJ RODSTAV
svobodný
RODSTAV
rozvedený
RODSTAV
ženatý
Řádk.
součty
Četnost
Řádk. četn.
Četnost
Řádk. četn.
Četnost
Řádk. četn.
Četnost
Řádk. četn.
Četnost
Řádk. četn.
Četnost
ne 11 3 10 24
45,83% 12,50% 41,67%
asi ne 11 5 18 34
32,35% 14,71% 52,94%
nevím 12 3 8 23
52,17% 13,04% 34,78%
asi ano 9 4 8 21
42,86% 19,05% 38,10%
ano 5 1 2 8
62,50% 12,50% 25,00%
Vš.skup. 48 16 46 110
Z těch zákazníků pojišťovny, kteří mají jednoznačný zájem o nový typ pojištění, jich je 25 %
ženatých.
Příklad k samostatnému řešení:
Načtěte datový soubor lide.sta.
1. Vytvořte tabulku absolutních a relativních četností proměnné SEX. Četnosti znázorněte
pomocí výsečového diagramu.
Tabulka četností:Sex (Lide.sta)
Kategorie Četnost Rel.četnost
muž
žena
16 50
16 50
Výsečový graf z Sex
Lide.sta 5v*32c
Sex
mužžena mužžena
2. Vytvořte histogram proměnné VEK se šesti třídicími intervaly (16,23>, (23,30>, (30,37>,
(37,43>, (43,50>, (50,57> a zakreslenou Gaussovou křivkou.
Histogram z Vek
Lide.sta 5v*32c
Vek = 32*7*normal(x; 34,4375; 9,5172)
16 23 30 37 44 51 58
Vek
0
1
2
3
4
5
6
7
8
9
10
Početpozorování
3. Vytvořte kategorizované histogramy proměnné BMI pro muže a pro ženy.
Histogram z BMI; kategorizovaný Sex
Lide.sta 5v*32c
Sex: muž BMI = 16*1*normal(x; 23,6091; 1,3199)
Sex: žena BMI = 16*1*normal(x; 18,741; 1,1113)
BMI
Početpozorování
Sex: muž
16 17 18 19 20 21 22 23 24 25 26 27
0
1
2
3
4
5
6
7
8
9
Sex: žena
16 17 18 19 20 21 22 23 24 25 26 27
4. Vypočtěte průměr, směrodatnou odchylku, koeficient variace, šikmost a špičatost
proměnné BMI pro muže a pro ženy. Výsledky udávejte na dvě desetinná místa.
Pro muže:
Popisné statistiky (Lide.sta)
Zhrnout podmínku: Sex=1
Proměnná N platných Průměr Sm.odch. Koef.prom. Šikmost Špičatost
BMI 16 23,61 1,32 5,59 -0,78 -0,25
Pro ženy
Popisné statistiky (Lide.sta)
Zhrnout podmínku: Sex=2
Proměnná N platných Průměr Sm.odch. Koef.prom. Šikmost Špičatost
BMI 16 18,74 1,11 5,93 1,39 2,65
5. Sestrojte N-P plot pro proměnnou Hmotnost.
Normální p-graf z Hmotnost
Lide.sta 5v*32c
40 50 60 70 80 90 100
Pozorovaná hodnota
-2,5
-2,0
-1,5
-1,0
-0,5
0,0
0,5
1,0
1,5
2,0
2,5
Očekávanánormálníhodnota
6. Vytvořte kategorizované krabicové diagramy pro proměnnou Vyska pro muže a pro ženy.
Krabicový graf z Vyska seskupený Sex
Lide.sta 5v*32c
Medián
25%-75%
Rozsah neodleh.
Odlehlé
Extrémy
muž žena
Sex
155
160
165
170
175
180
185
190
195
200
Vyska
7. K extrémní hodnotě výšky umístěte jméno muže, kterému tato výška přísluší.
(Jan)