Cvičení 1.: Základní informace o systému STATISTICA, bodové rozložení četností


Základní informace  o programovém systému STATISTICA


Systém má modulární stavbu. V multilicenci pro Masarykovu univerzitu jsou k dispozici moduly:
Základní statistiky/tabulky, Vícerozměrná regrese, ANOVA, Neparametrická statistika, Prokládání
rozdělení, Pokročilé linární/nelineární modely, Vícerozměrné průzkumné techniky, Průmyslová
statistika & Six Sigma, Analýza síla testu, Automatizované neuronové sítě.


Velké množství informací o systému STATISTICA lze najít na webové stránce společnosti StatSoft,
která je jejím distributorem v České republice (www.statsoft.cz). Z této stránky vede rovněž odkaz
na elektronickou učebnici statistiky.


Instalace systému STATISTICA 9.1 je dostupná na https://inet.muni.cz/app/soft/licence


STATISTICA  má několik typů oken:

·        Datové okno (spreadsheet) (má příponu sta, jeho obsah však lze exportovat i v jiných
formátech). Do datového okna lze načítat datové soubory nejrůznějších typů (např. z tabulkových
procesorů, databázové soubory, ASCII soubory).

Ukázka datového okna:


·        Pracovní sešit (workbook) (má příponu stw). Do pracovního sešitu se ukládají výstupy, tj.
tabulky a grafy. Skládá se ze dvou oken, v levém okně je znázorněna stromová struktura výstupů,
v pravém jsou samotné výstupy. V levém okně se lze pohybovat myší nebo kurzorem, mazat, přesouvat,
editovat apod. Výstupy mohou sloužit jako vstupy pro další analýzy a grafy.

Ukázka pracovního sešitu:


·        Protokol (report) (má příponu str, lze ho uložit i ve formátu rtf, txt, htm či pdf). Pokud
požadujeme, aby se výstupy ukládaly nejen do Pracovního sešitu, ale i do Protokolu či Wordu,
postupujeme takto: Soubor – Správce výstupů – vybereme Výstup protokolu či Výstup MS Word – OK.
Protokol se podobně jako Pracovní sešit skládá ze dvou oken. Do Protokolu můžeme vkládat vlastní
text, vysvětlující komentáře, poznámky apod. Tabulky a grafy lze v Protokolu i Pracovním sešitu
dále upravovat.

Ukázka protokolu:


·        Okno grafů (přípona stg, lze ho uložit i jako bmp, jpg, png, tif a wmf či pdf). Získá se
tak, že v Pracovním sešitu klikneme pravým tlačítkem na graf a vybereme Klonovat graf.

Ukázka okna grafů:


·        Programovací okno (přípona svb). Slouží pro zápis programů v jazyku STATISTICA Visual
Basic. Vyvolá se z menu Nástroje – Makro.

Ukázka programovacího okna:


Mezi jednotlivými typy oken se přepínáme pomocí položky Okno v hlavním menu.


Od verze 8.0 je možno používat Projekty. Tento prvek umožňuje uložit soubor STATISTICA Projekt, a
"zmrazit" tak doposud provedenou práci včetně umístění všech oken s objekty na obrazovce. Po
otevření tohoto souboru se může přímo navázat na již provedenou část analýzy. Lze také uložit
zaznamenané makro analýzy.


Vytvoření datového okna

Po spuštění systému STATISTICA zavřeme všechna okna, která se objeví.

Vytvoření nového souboru: Soubor – Nový – na liště Tabulka dat zvolíme potřebný počet proměnných
(sloupce) a případů (řádky). Zde lze také zvolit formát dat, délku jmen případů atd. (tyto
vlastnosti můžeme upravit i později).

Nastavení vlastností proměnné: 2x klikneme na název proměnné. Objeví se nové okno. Zde je možnost
změny jména proměnné, formátu dat, nastavení kódu pro chybějící data apod. V položce „Dlouhé jméno“
lze nastavit dlouhý popis (tzv. návěští proměnné, např. X – známka z matematiky) a informace
vztahujíci se k proměnné, ale spíše se „Dlouhé jméno“ používá pro vytvoření vzorců a transformaci
proměnné (například: =v3/v2*100). Některé funkce jsou předem vložené – položka „Funkce“.


V položce „Textové hodnoty“ lze nastavit k variantám proměnné textový popis  (např. 1 – výborně, 2
- velmi dobře, atd).


Poté můžeme přímo v datovém okně (ikona štítku v horní liště) měnit způsob zobrazení hodnot
proměnné (buď číselný nebo slovní).


Položka Hodn/Statist udává celkové informace o proměnné (počet údajů, průměr, směrodatná odchylka
atd).


Úkol 1.: Načtěte soubor znamky.sta. Proměnným X, Y, Z vytvořte návěští (X - známka z matematiky, Y
- známka z angličtiny, Z - pohlaví studenta). Popište, co znamenají jednotlivé varianty (u znaků X
a Y: 1 - výborně, 2 - velmi dobře, 3 - dobře, 4 - neprospěl, u znaku Z: 0 - žena, 1 - muž).

Návod: Soubor – Otevřít – vybereme příslušný adresář se souborem znamky.sta – Otevřít. Kurzor
nastavíme na Prom1 – 2x klikneme myší  – Jméno X – Dlouhé jméno známka z matematiky, Text. hodnoty
– 1 výborně, 2 velmi dobře, 3 dobře, 4 neprospěl, OK. U proměnné Y lze textové hodnoty okopírovat
z proměnné X – v Editoru textových hodnot zvolíme Kopírovat z proměnné X.

Přepínání mezi číselnými hodnotami a jejich textovým popisem se děje pomocí tlačítka s ikonou
štítku.


Úkol  2.: Vytvořte

a) tabulku rozložení četností známek z matematiky a známek z angličtiny,

b) sloupkový diagram absolutních četností znaků X a Y,

c) polygon absolutních četností znaků X a Y

Návod:

ad a) Statistiky – Základní statistiky a tabulky – Tabulky četností – OK – Proměnné X, Y – OK -
Výpočet.


Tabulka rozložení četností známek z matematiky


Tabulka rozložení četností známek z angličtiny


ad b) Grafy – Histogramy – Proměnné X, Y – OK- vypneme Normální proložení – Detaily–zaškrtneme
Mezery mezi sloupci - OK.


Sloupkový diagram pro znak X


                            Sloupkový diagram pro znak Y


ad c) V pracovním sešitu vstoupíme do tabulky rozložení četností proměnné X resp. Y. Nastavíme se
na řádek označený ChD. Pomocí Případy – Odstranit vymažeme tento řádek. Nastavíme se kurzorem na
Četnost - klikneme pravým tlačítkem – Grafy bloku dat – Spojnicový graf: celé sloupce. Vykreslí se
polygon absolutních četností.


Polygon absolutních četností pro znak X


                                       Polygon absolutních četností pro znak Y


Úkol  3.: Vytvořte  tabulky rozložení četností známek z matematiky a angličtiny pouze

a) pro ženy,

b) pro muže.

Návod:

ad a) Statistiky – Základní statistiky a tabulky – Tabulky četností – OK – Proměnné X, Y – OK –
vybereme Select Cases - zaškrtneme Zapnout filtr – do okénka některé, vybrané pomocí výrazu
zapíšeme Z = 0, OK, Výpočet.


Tabulka rozložení četností známek z matematiky pro ženy:


Tabulka rozložení četností známek z angličtiny pro ženy:


ad b) Statistiky – Základní statistiky a tabulky – Tabulky četností – OK – Proměnné X, Y – OK –
vybereme Select Cases - zaškrtneme Zapnout filtr – do okénka některé, vybrané pomocí výrazu
zapíšeme Z = 1, OK, Výpočet.


Tabulka rozložení četností známek z matematiky pro muže:


Tabulka rozložení četností známek z angličtiny pro muže:


Úkol  4.: Nadále budeme pracovat s celým datovým souborem. Vytvoříme kontingenční tabulku
simultánních absolutních četností znaků X a Y a graf simultánní četnostní funkce.

Návod:  Statistiky – Základní statistiky/tabulky – odškrtneme Zapnout filtr – OK - Kontingenční
tabulky – OK –  Select cases –– Specif. tabulky - List 1 X, List 2 Y, OK, Výpočet.


Vidíme, že ve výběrovém souboru byli 4 studenti, kteří měli z obou předmětů „výborně“, jeden
student, který měl z matematiky „výborně“ a z angličtiny „velmi dobře“ atd. až 4 studenti, kteří
z obou předmětů neprospěli.


Úkol  5.: Vytvořte kontingenční tabulku sloupcově a řádkově podmíněných relativních četností znaků
X a Y.

Návod:  Aktivujeme na liště Výsledky: kontingenční tabulky – Možnosti - zaškrtneme ve sloupci
Výpočet tabulek volbu Procenta z počtu ve sloupci  (resp. Procenta z počtu v řádku) – Výpočet.


Kontingenční tabulka sloupcově podmíněných relativních četností :


Interpretace např. 4. řádku ve 2. sloupci: V souboru byli 4 studenti, kteří měli velmi dobře z
angličtiny. Mezi nimi byl jeden, který neprospěl z matematiky, což představuje 1/4 = 25%.


Kontingenční tabulka řádkově podmíněných relativních četností:


Interpretace např. 2. sloupce ve 4. řádku: V souboru bylo 8 studentů, kteří neprospěli
z matematiky. Mezi nimi byl jeden, který měl velmi dobře z angličtiny, což představuje 1/8 = 12,5%.


Úkol 6.: Zápis dat zadaných pomocí absolutních četností

U 30 domácností byl zjišťován počet členů. 2 domácnosti měly 1 člen, 6 domácností 4 členy, 4
domácnosti 3 členy, 10 domácností 4 členy, 5 domácností 5 členů a 3 domácnosti měly 6 členů.
Zapište tato data do systému STATISTICA, vytvořte variační řadu a zodpovězte následující otázky:

a) Kolik procent domácností má právě 5 členů?

b) Kolik procent domácností má nejvýše 5 členů?

c) Kolik procent domácností má aspoň 5 členů?

d) Kolik procent domácností má aspoň 2 a nejvýše 5 členů?


Návod: Vytvoříme nový datový soubor o 6 případech a dvou proměnných, jednu nazveme X a druhou
četnost. Do proměnné X napíšeme čísla 1, …, 6 (lze též vyplnit tak, že do Dlouhého jména této
proměnné napíšeme =v0) a do proměnné četnost napíšeme čísla 2, 6, 4, 10, 5, 3.

Statistika – Základní statistiky/tabulky – Tabulky četností – Proměnné X – OK – klikneme na ikonu
závaží – Proměnná vah četnost – OK – Stav Zapnuto – OK – Výpočet.

Dostaneme tabulku:


Z této tabulky lze vyčíst odpovědi na všechny výše položené otázky.

Ad a) 16,7%, ad b) 90%, ad c) 26,7%, ad d) 83,3%


Úkol 7.: Zápis dat zadaných pomocí kontingenční tabulky

221 žáků 2. stupně základní školy bylo dotázáno, zda v současné době drží nějakou dietu. Výsledky
průzkumu jsou uvedeny v kontingenční tabulce. Znak X udává pohlaví žáka (1 – hoch, 2 – dívka), znak
Y nabývá varianty 1, když respondent drží dietu a 2, když dietu nedrží.


                                                 X

                                                 Y

                                              n[j][.]

                                            drží dietu

                                           nedrží dietu

                                              hoch[]

                                                 9

                                                100

                                                109

                                               dívka

                                                57

                                                55

                                                112

                                               n[.k]

                                                66

                                                155

                                                221


Zapište tato data do systému STATISTICA a zodpovězte následující otázky:

a) Kolik procent hochů drží dietu?

b) Kolik procent dívek drží dietu?

c) Kolik procent těch žáků, kteří drží dietu, jsou hoši?

d) Kolik procent těch žáků, kteří nedrží dietu, jsou dívky?


Návod: Vytvoříme nový datový soubor o třech proměnných X, Y, četnost a čtyřech případech. Do
proměnné X napíšeme dvakrát pod sebe 1 (hoch) a dvakrát pod sebe 2 (dívka).  Do proměnné Y napíšeme
jedničku (1 – drží dietu) a dvojku (2 – nedrží dietu) a znovu jedničku a dvojku. D proměnné četnost
napíšeme uvedené četnosti, tj. 94, 15, 57, 55. Popíšeme, co znamenají proměnné X, Y a co znamenají
jejich varianty.

Výsledný soubor:


Statistiky – Základní statistiky/tabulky – Kontingenční tabulky -  Specif. tabulky – List 1 X, List
2 Y, OK, Váhy  - četnost, Stav zapnuto – OK. Na záložce Možnosti zaškrtneme Procenta z počtu
v řádku a Procenta z počtu ve sloupci – Výpočet. Tím získáme kontingenční tabulku řádkově a
sloupcově podmíněných relativních četností.


Ad a) 8,3 % hochů drží dietu, ad b) 50,9 % dívek drží dietu, ad c) z těch žáků, kteří drží dietu,
je 86,4 % dívek, ad d) z těch žáků, kteří nedrží dietu, je 35,5 % dívek.