Téma č. 1.: Tabulkové a grafické zpracování vícerozměrných dat Popis situace: V souboru staty1979 jsou uloženy sociálně ekonomické údaje o 26 evropských zemích. Data pocházejí z roku 1979, tedy z doby, kdy Evropa byla rozdělena na demokratické státy, socialistické státy a kapitalistické státy s diktaturami. Máme k dispozici údaje o procentuálním zastoupení pracovně činného obyvatelstva v různých odvětvích národního hospodářství: X[1] … zemědělství X[2] … těžba nerostných surovin X[3] … průmyslová výroba X[4] … energetika X[5] … stavebnictví X[6] … místní hospodářství X[7] … finance X[8] … služby X[9] … doprava a komunikace Úkol 1.: Pro všechny proměnné vytvořte tabulku číselných charakteristik (průměr, medián, minimum, maximum, směrodatná odchylka) Návod pro systém STATISTICA: Statistiky – Základní statistiky/tabulky – Popisné statistiky – OK – Proměnné 2-10, OK – Detailní výsledky – navíc zaškrtneme Medián – OK. Ve vytvořené tabulce upravíme výsledky na 1 desetinné místo. Proměnné se výrazně liší jak úrovní, tak variabilitou. V průměru ve sledovaných evropských zemích pracuje nejvíce obyvatelstva v průmyslové výrobě (27,1%), nejméně v energetice (0,9%). Nejvyšší variabilitu vykazuje proměnná X[1] … procentuální podíl pracovně činného obyvatelstva v zemědělství. Návod pro systém SPSS: Analyze – Descriptive Statistics – Descriptives – Variables X1 – X9 – OK Poznámka: Pokud bychom chtěli navíc ještě spočítat medián, museli bychom místo Descriptives zvolit Explore a dostali bychom u každé proměnné celou řadu číselných charakteristik. Úkol 2.: Vytvořte korelační matici pro proměnné X[1] až X[9]. Návod pro systém STATISTICA: Statistika – Základní statistiky/tabulky – Korelační matice – OK – 1 seznam proměnných – Proměnné 2 – 10 – OK. Na záložce Možnosti odškrtneme Včetně průměrů a sm. odch. – Výpočet. Vidíme, že nejsilnější lineární závislost (nepřímá) je mezi proměnnými X[1] (zemědělství) a X[8] (služby). Čím více pracovníků je v zemědělství, tím méně pracovníků je ve službách. Návod pro systém SPSS: Analyze – Correlate – Bivariate – Variables X1-X9 – OK Úkol 3.: Vytvořte matici euklidovských vzdáleností pro sledovaných 26 zemí. Návod pro systém STATISTICA: Statistiky – Vícerozměrné průzkumné techniky – Shluková analýza – Spojování (hierarchické shlukování) – OK – Proměnné 2- 10 – OK – na záložce Detaily vybereme Shlukovat Případy (řádky) – OK – na záložce Detaily vybereme Matice vzdáleností. Matice vzdáleností je příliš velká, nebudeme ji zde uvádět. Poznamenáme pouze, že největší euklidovská vzdálenost (72,2) je mezi Východním Německem a Tureckem. Naopak nejmenší euklidovská vzdálenost (4,2) je mezi Belgií a Velkou Británií.. Návod pro systém SPSS: Analyze – Classify – Hierarchical Cluster – Variables X1- X9 – Label Cases by stát - Method – Measure Euclidean distance – Continue – Statistics – zaškrtneme Proximity matrix – Continue – OK Úkol 4.: Pomocí krabicového diagramu zjistěte, zda proměnné X[1] až X[9] obsahují odlehlá či extrémní pozorování. Pokud ano, zjistěte názvy zemí, kterým tato pozorování náleží. Návod pro systém STATISTICA: Grafy – 2D Grafy – Krabicové grafy – zvolíme Vícenásobný – Proměnné – Závislé proměnné 2 – 10 – OK. 2x klikneme na některou z odlehlých hodnot proměnné X[1], otevře se okno Rozložení grafu, vybereme záložku Popisy bodů a zaškrtneme Zobrazovat popisy bodů – OK. Podobně postupujeme u dalších proměnných. Návod pro systém SPSS: Graphs – Legacy Dialogs – Boxplot – zaškrtneme Data in Chart are Summaries of separate variables – Define – Boxes Represent X1 – X9, Label cases by stát, OK Úkol 5.: Pro proměnné X[1] až X[9] vytvořte maticový graf. Návod pro systém STATISTICA: Grafy – Maticové grafy – Proměnné 2 – 10, OK Návod pro systém SPSS: Graphs – Legacy Dialogs – Scatter/dot – Matrix Scatter – Define – Matrix Variables X1 – X9 – OK Úkol 6.: V systému STATISTICA vytvořte bag plot pro proměnné X[1] (zemědělství) a X[3] (průmysl). Návod: Grafy – 2D Grafy – Bag Ploty – Proměnné X1a X3, OK. Ve vytvořeném grafu 2x klikneme na některou z odlehlých hodnot, otevře se okno Rozložení grafu, vybereme záložku Popisy bodů a zaškrtneme Zobrazovat popisy bodů – OK. Úkol 7.: Pomocí systému STATISTICA vytvořte profily a Chernoffovy tváře pro proměnné X[1] až X[9]. Návod: Grafy – Ikonové grafy – Proměnné 2-10 – OK, Typ grafu Profily – Možnosti 1 – zapnout Zobrazit popisy případů, zvolit Jména případů Pro Chernoffovy tváře zvolíme typ grafu Chernoffovy tváře.