Cvičení 2.: Intervalové rozložení četností, výpočet číselných charakteristik nominálních a ordinálních znaků Úkol 1.: Datový soubor vysvah.sta obsahuje údaje o hmotnosti (znak X, v kg), výšce (znak Y, v cm) a pohlaví (znak Z, 0 – žena, 1 – muž) 50 náhodně vybraných studentů. Načtěte tento soubor do systému STATISTICA. Proměnným X, Y, Z vytvořte návěští „hmotnost“, „výška“ a „pohlaví“. Popište, co u znaku Z znamenají varianty 0, 1. Podle Sturgesova pravidla najděte optimální počet třídicích intervalů pro znaky X a Y a vhodně stanovíte meze třídicích intervalů. Návod: Soubor – Otevřít – vybereme příslušný adresář se souborem vysvah.sta – Otevřít. Kurzor nastavíme na X – 2x klikneme myší – Dlouhé jméno hmotnost – OK, kurzor nastavíme na Y – 2x klikneme myší – Dlouhé jméno výška – OK, kurzor nastavíme na Z - 2x klikneme myší – Dlouhé jméno pohlaví, Text. hodnoty – 0 žena, 1 – muž - OK. Protože případů je 50, podle Sturgersova pravidla je optimální počet třídicích intervalů 7. Musíme zjistit minimum a maximum, abychom vhodně stanovili třídicí intervaly: Statistiky - Základní statistiky/tabulky – Popisné statistiky - OK - Proměnné X,Y – OK – Detailní výsledky – ponecháme zaškrtnuté pouze Minimum&maximum – Výpočet. Pro X je minimum 51 a maximum 90, tedy dolní mez prvního třídicího intervalu volíme 50, horní mez posledního třídicího intervalu 92. Celkem tedy třídicí intervaly pro znak X budou: (50,56>, (56,62>, (62,68>, (68,74>, (74,80>, (80,86>, (86,92>. Pro Y je minimum 160 a maximum 192, tedy dolní mez prvního třídicího intervalu volíme 159, horní mez posledního třídicího intervalu 194. Celkem tedy třídicí intervaly pro znak Y budou: (159,164>, (164,169>, (169,174>, (174,179>, (179,184>, (184,189>, (189,194>. Úkol 2.: Vytvořte histogram pro X a pro Y. Návod: Grafy – Histogramy – Proměnné X – vypneme Normální proložení – Detaily – zaškrtneme Hranice – Určit hranice – zvolíme Zadejte hraniční rozmezí – Minimum = 50, Krok = 6, Maximum = 92 - OK – OK. Po vykreslení histogramu lze 2 x klepnout na pozadí grafu a ve volbě Všechny možnosti měnit různé vlastnosti grafu. Analogicky pro Y. Histogram pro znak X Histogram pro znak Y Úkol 3.: Proveďte zakódování hodnot proměnných X a Y do příslušných třídicích intervalů. Všem hodnotám proměnné X, které leží v intervalu (50,56>, přiřaďte hodnotu 53 atd. až všem hodnotám proměnné X, které leží v intervalu (86,92>, přiřaďte hodnotu 89. Analogicky pro proměnnou Y, tj. všem hodnotám výšky, které leží v intervalu (159,164>, přiřaďte hodnotu 161,5 atd. až všem hodnotám výšky, které leží v intervalu (189,194> přiřaďte hodnotu 191,5. Návod: Vytvoříme dvě nové proměnné: Vložit – Přidat proměnné – 2 – Za Y – OK – přejmenujeme je na RX a RY. Nastavíme se kurzorem na RX – Data – Překódovat - vyplníme podmínky pro všech 7 kategorií. (Pozor – podmínky píšeme ve tvaru X > 50 and X <= 56 atd.). Pak klepneme na OK. Analogicky překódujeme hodnoty proměnné Y do proměnné RY. Úkol 4.: Sestavte kontingenční tabulky absolutních četností (relativních četností, sloupcově a řádkově podmíněných relativních četností) dvourozměrných třídicích intervalů pro (X,Y). Graficky znázorněnte simultánní absolutní četnosti. Návod: Při tvorbě kontingenčních tabulek musí být proměnné celočíselné. Proto proměnnou RY vynásobíme 10 (do jejího Dlouhého jména napíšeme =10*RY). Tím vlastně dostaneme středy třídicích intervalů pro výšku vyjádřenou v mm. Statistiky – Základní statistiky/tabulky – OK - Kontingenční tabulky – OK – Specif. tabulky - List 1 RX, List 2 RY, OK, Výpočet. Kontingenční tabulka absolutních četností: Chceme-li získat kontingenční tabulku relativních četností, resp. sloupcově či řádkově podmíněných relativních četností, na záložce Možnosti zaškrtneme Procenta celkového počtu resp. Procenta z počtu ve slouci či Procenta z počtu v řádku. Simultánní absolutní četnosti graficky znázorníme tak, že na záložce Detailní výsledky klikneme na 3D histogramy. Výsledný graf můžeme natáčet nebo sklápět. Úkol 5.: Nakreslete dvourozměrný tečkový diagram pro (X,Y). Návod: Grafy – Bodové grafy – Proměnné X,Y – OK - vypneme Lineární proložení – OK. Vidíme, že mezi oběma proměnnými existuje určitý stupeň přímé lineární závislosti – s růstem hmotnosti vesměs rostou hodnoty výšky a naopak. Samostatná práce: úkoly 1 až 5 proveďte zvlášť pro muže a zvlášť pro ženy. Úkol 6.: U 100 náhodně vybraných domácností byl zjišťován způsob zásobování bramborami (znak X, varianty 1 = vlastní sklep, 2 = jinde, 3 = nákup) a bydliště (znak Y, varianty 1 = velké město, 2 = malé město, 3 = vesnice). způsob zásobování bydliště velké město malé město vesnice vlastní sklep 13 15 14 jinde 11 7 2 nákup 19 9 10 a) Pro oba znaky určíme modus. b) Vypočteme Cramérův koeficient znaků X, Y. Návod: Otevřeme nový datový soubor se třemi proměnnými X, Y, četnost a devíti případy. Do proměnné X napíšeme 3 jedničky, 3 dvojky a 3 trojky, do proměnné Y napíšeme 3 krát pod sebe 1, 2, 3 a do proměnné četnost napíšeme odpovídající simultánní absolutní četnosti dvojic variant (X, Y), tj. 13, 15, 14, 11, 7, 2, 19, 9, 10. Proměnným vytvoříme návěští a popíšeme význam jednotlivých variant. ad a) Výpočet modu: Statistiky – Základní statistiky/tabulky – Popisné statistiky – OK – klikneme na tlačítko se závažím – zaškrtneme Stav zapnuto, vybereme proměnnou vah četnost – OK - Proměnné X, Y – OK – Detailní výsledky – zaškrtneme Modus. Proměnná X má modus 1, tj. nejvíce domácností skladuje brambory ve vlastním sklepě a proměnná Y má také modus 1, tj. nejvíce domácností bydlí ve velkém městě. ad b) Výpočet Cramérova koeficientu: Statistiky – Základní statistiky/tabulky – Kontingenční tabulky – OK – Specif. tabulky - List 1 X, List 2 Y - OK – na záložce Možnosti ve Statistikách 2 rozměrných tabulek zaškrtneme Fí (tabulky 2x2) & Cramérovo V & C – přejdeme na záložku Detailní výsledky – Detailní 2-rozm. tabulky. Na posledním řádku najdeme, že Cramérův koeficient nabývá hodnoty 0,179, tedy mezi způsobem zásobování bramborami a bydlištěm domácnosti exisuje jen slabá závislost – viz následující tabulka: Cramérův koeficient interpretace mezi 0 až 0,1 zanedbatelná závislost mezi 0,1 až 0,3 slabá závislost mezi 0,3 až 0,7 střední závislost mezi 0,7 až 1 silná závislost Úkol 7.: Datový soubor znamky.sta obsahuje údaje o 20 studentech 1. ročníku ekonomicky zaměřené vysoké školy. Znak X – známka z matematiky v 1. zkušebním termínu (má varianty 1, 2, 3, 4), znak Y – známka z angličtiny v 1. zkušebním termínu (má rovněž varianty 1, 2, 3, 4), znak Z – pohlaví studenta (0 – žena, 1 – muž). Otevřeme datový soubor znamky.sta. a) Pro známky z matematiky a angličtiny vypočteme medián, dolní a horní kvartil, kvartilovou odchylku a vytvoříme krabicový diagram. b) Vypočteme Spearmanův korelační koeficient známek z matematiky a angličtiny pro všechny studenty, pak zvlášť pro muže a zvlášť pro ženy. Získané výsledky budeme interpretovat. Návod: ad a) Statistiky – Základní statistiky/tabulky – Popisné statistiky – OK – Proměnné X, Y – OK – Detailní výsledky - zaškrtneme Medián, Dolní & horní kvartily, Kvartil. rozpětí – Výpočet. Vytvoření krabicového diagramu: Grafy – 2D Grafy – Krabicové grafy – vybereme Vícenásobný – Proměnné X, Y – OK. ad b) Statistiky – Neparametrická statistika – Korelace – OK – Proměnné X, Y – OK – Spearman R. Pro všechny: Počítáme-li Spearmanův korelační koeficient pro ženy (resp. pro muže), použijeme filtr: tlačítko Select Cases – Zapnout filtr – včetně případů – některé, vybrané pomocí výrazu Z=0 (resp. Z=1). Pro ženy: Pro muže: Vidíme, že nejsilnější přímá pořadová závislost mezi známkami z matematiky a angličtiny je u žen, r[S] = 0,86. U mužů je tato závislost mnohem slabší, r[S] = 0,37. U žen tedy dochází k tomu, že se sdružují podobné známky z obou předmětů, zatímco u mužů se projevuje spíše tendence k různým známkám. Je to zřetelně vidět na dvourozměrných tečkových diagramech. Tečkový diagram pro ženy Tečkový diagram pro muže