Statistické metody a zpracování dat 1 (podzim 2016) Klára Čížková, Martin Lulák •Cvičení 1: • •Úvod do programu STATISTICA • Tipy a triky na úvod •Pokud budete pracovat na univerzitním počítači, noste si s sebou na cvičení flashku nebo externí disk, případně mějte dost místa na cloudu (google disk,…) •Ideální by bylo nosit si vlastní notebook (univerzitní počítače jsou pomalé) – STATISTICU nainstalujete zdarma ze stránek školy (viz návod v zadání 1. cvičení). Pro instalaci programu STATISTICA musíte mít nainstalovaný i program Daemon Tools (k dostání zdarma třeba zde: http://www.slunecnice.cz/sw/daemon-tools/) •STATISTICA je dostupná i v knihovně PřF na počítačích sekce Vědy o Zemi Tipy a triky na úvod •Co udělat, když se okna špatně zobrazují a nejde mezi nimi přepínat: –Domů – Okna – Uspořádat na sebe –Nebo: –Zobrazit – Okna – Uspořádat na sebe • Spuštění programu •Spustíme program (ikonka s černým grafem), na školních PC odmítneme integraci s jiným software a zavřeme všechna otevřená okna Úkol 1 – nový datový soubor 1.Vytvořte nový datový soubor o 5 proměnných a 7 případech –Domů – Nový – Tabulka dat; vypsat správný počet proměnných a případů – OK • Úkol 1 – nový datový soubor •2. Správně pojmenujeme všechny proměnné •Dvakrát kliknout na název proměnné (např. Prom1), pak do kolonky Jméno vypsat správný název dle zadání •Proměnná 1 = stanice, proměnná 2 = index, proměnná 3 = t1, proměnná 4 = t2, proměnná 5 = t_prumer Úkol 1 – nový datový soubor •3. Ze zadání správně opíšeme hodnoty proměnných 1–4 •Podobně jako v Excelu klikneme do prázdné buňky a zadáme hodnotu •Pozor u názvů stanic – je potřeba povolit textové popisky Úkol 1 – nový datový soubor •4. K indexu přidáme textové hodnoty •Dvakrát klikneme na název proměnné index a vybereme textové hodnoty •Vyplníme dle zadání, OK Úkol 1 – nový datový soubor •4. K indexu přidáme textové hodnoty •V tabulce se nyní místo číselných indexů objeví textové hodnoty •Kdo přijde na to, jak lze přepínat mezi textovými hodnotami a číselnými indexy, ať nám to prosím řekne J Úkol 1 – nový datový soubor •5. Vypočítáme průměr z t1 a t2 •Dvakrát klikneme na název proměnné t_prumer a do dlouhého jména zadáme vzorec pro výpočet průměru (symbol v značí proměnnou, takže třeba v1 je první proměnná), OK •=(v3+v4)/2 •Pak je nutné odkliknout, že chceme pokračovat, a spočítá se průměr Úkol 1 – nový datový soubor •6. Výslednou tabulku uložíme a dáme do protokolu •Nejrychlejší způsob ukládání – označit všechno, kliknout pravým tlačítkem a zvolit Kopírovat se záhlavími, pak vložit do Excelu •Tato tabulka je výstupem úkolu 1 ve vašem protokolu. Úkol 2 – datový soubor Obce 1.Ze studijních materiálů předmětu stáhneme soubor Obce.xls a uložíme ho někam, kde ho najdeme (složka s prvním cvičením, plocha,…) –Pozor, soubor je nutné stáhnout jako sešit .xls, ne jako text nebo jako PDF Úkol 2 – datový soubor Obce •2. Načteme soubor Obce.xls do programu Statistica –Domů – Otevřít – vyhledat v adresáři soubor Obce.xls Úkol 2 – datový soubor Obce •2. Načteme soubor Obce.xls do programu Statistica –Importujeme vybraný list – List 1 – OK –Zbytek nastavení necháme implicitní (údaje z prvního řádku se převedou na názvy proměnných) a potvrdíme OK – Úkol 2 – datový soubor Obce •3. Odstraníme poslední dva případy –Označíme případy 8 a 9 a zvolíme Odstranit případy –Od případu 8 do případu 9 – Úkol 2 – datový soubor Obce •4. Pomocí Správce jmen případů převedeme jména obcí na názvy případů –Ve Feature Finderu („lupa“ v pravém horním rohu) si najdeme Jména případů – •Klikneme až na druhá „Jména případů“ –Otevře se okno Správce jmen případů –Zvolíme Přenést jména případů z proměnné 1, OK Úkol 2 – datový soubor Obce •4. Pomocí Správce jmen případů převedeme jména obcí na názvy případů –Zdá se, jako by se nic nestalo – musíme zobrazit názvy případů –Klikneme pravým, zvolíme Označení buněk – Zobrazit – •Pak dvakrát klikneme na první případ a jména případů se zobrazí, sloupec se jmény případů vhodně roztáhneme •Do protokolu můžete (ale nemusíte) dát print screen vaší tabulky na důkaz, že se povedlo J Úkol 3 – datový soubor Teplota 1.Ze studijních materiálů předmětu stáhneme soubor teplota.xls a uložíme ho někam, kde ho najdeme (složka s prvním cvičením, plocha,…) –Pozor, soubor je nutné stáhnout jako sešit .xls, ne jako text nebo jako PDF – Úkol 3 – datový soubor Teplota •2. Načteme soubor teplota.xls do programu Statistica –Domů – Otevřít – vyhledat v adresáři soubor teplota.xls – Úkol 3 – datový soubor Teplota •2. Načteme soubor teplota.xls do programu Statistica –Importujeme vybraný list – List 1 – OK –Kromě 1. řádku jako názvy proměnných zadáme i 1. řádek jako názvy případů (abychom to nemuseli převádět manuálně) – OK – Úkol 3 – datový soubor Teplota •3. Přidáme proměnnou, kterou nazveme Rok –Klikneme pravým tlačítkem na název jedné z proměnných a zvolíme Přidat proměnné – –Přidáme 1 proměnnou za proměnnou XII a pojmenujeme ji Rok Úkol 3 – datový soubor Teplota •4. Vypočítáme průměrnou roční teplotu vzduchu –V dialogovém okně proměnné Rok (pokud jsme ho zavřeli, otevřeme ho dvoukliknutím na název proměnné) napíšeme do dlouhého jména vzorec pro roční průměr – OK – •Máme několik možností: • •Analogicky s úkolem 1: •= (v1+v2+v3+v4+v5+v6+v7+v8+v9+ v10+v11+v12)/12 • •Nebo: •=mean(v1:v12) •STATISTICA se nás může obdobně jako v případě úkolu 1 zeptat, zda chceme pokračovat, zvolíme Ano Úkol 3 – datový soubor Teplota •5. Vypočítáme průměr, směrodatnou odchylku, minimum a maximum pro každý měsíc –Na kartě Statistiky zvolíme Základní statistiky – Popisné statistiky – OK – Úkol 3 – datový soubor Teplota •5. Vypočítáme průměr, směrodatnou odchylku, minimum a maximum pro každý měsíc –V okně popisných statistik přepneme na kartu Detailní výsledky, kde zvolíme, co chceme vypočítat: necháme vše kromě Počet platných, který nepotřebujeme – Úkol 3 – datový soubor Teplota •5. Vypočítáme průměr, směrodatnou odchylku, minimum a maximum pro každý měsíc –Vybereme proměnné: všechny měsíce, proměnnou Rok nepotřebujeme (lze buď označit, nebo vypsat jako 1–12), výběr potvrdíme OK, pak dáme Výpočet –Výslednou tabulku zkopírujeme do Excelu (viz úkol 1) a přidáme do protokolu – Úkol 3 – datový soubor Teplota •6. Pomocí „statistik bloku dat“ vypočítáme průměr pro všechny měsíce –Vrátíme se zpět na původní tabulku (teploty pro každý měsíc a pro rok) –Označíme všechny proměnné kromě proměnné Rok, klikneme pravým, zvolíme Statistiky bloku dat – Blok sloupců – Průměry –Otevře se nové datové okno s průměrnou teplotou pro každý měsíc – •TIP: V protokolu můžete zmínit, jestli vám vyšla průměrná teplota v jednotlivých měsících stejně jako při použití popisných statistik . Úkol 3 – datový soubor Teplota •7. Pomocí „statistik bloku dat“ vypočítáme maximální teplotu pro každý rok –Vrátíme se zpět na původní tabulku (teploty pro každý měsíc a pro rok) –Označíme všechny případy (roky), klikneme pravým, zvolíme Statistiky bloku dat – Blok řádků – Maxima –Otevře se nové datové okno s maximální teplotou pro každý rok – •TIP: Tabulku maximálních teplot v jednotlivých letech můžete uložit a přidat do protokolu. Úkol 4 – grafy •Spojnicový graf pro leden 1961–2000 •Opět pracujeme se souborem teplota.xls •Dáme grafy->spojnice->vybereme proměnné (v1 - leden) •Úkol 4 – grafy •2x poklikáme na názvy os a dle zadání vypíšeme v záložce název – teplota [°C] pro osu y a rok pro osu x Úkol 4 – grafy •Opět poklikáme na osu x a v záložce Hodnoty měřítka upravíme zobrazit každý 5 rok dle zadání Úkol 4 – grafy •Pro odstranění bodů 2x klikneme na vybraný bod (jedno jaký) a v záložce značky vypíšeme velikost na 0, poté zavřeme Úkol 4 – grafy •Obdobně upravíme barvu a velikost spojnice – 2x kliknout na linii, vybrat spojnice a upravit barvu a velikost čáry Úkol 4 – grafy •Vložení lineárního trendu – dvakrát poklikejte třeba vedle nadpisu – poté spojnice – proložení – nové proložení, vybrat lineární a ve vzoru nastavit barvu a tloušťku dle zadání (1,1, zelená, čárkovaná) •Graf zkopírujete klasicky pravým tlačítkem, zkopírovat graf a vložíte do wordu do svého protokolu Úkol 4 – grafy •V pokračování zadání se podívejte znovu na slide 26 a vypočtěte průměry za všechny měsíce podle něj •Průměrnou hodnotu za leden si zkopírujte, budete jí potřebovat •Vytvořte novou proměnnou dif_leden a do ní vypočítejte diferenci teploty od průměru viz obrázek na dalším slideu Úkol 4 – grafy Úkol 4 – grafy •Sloupcový grafy vytvoříte klikem na záložku grafy – 2D – sloupcové/pruhové grafy •Opět vyberete proměnnou – v tomto případě dif_leden a upravíte názvy os dle zadání Úkol 4 – grafy •Osu y, aby se protínala dle zadání, upravíme tak, že 2x klikneme opět třeba vedle nadpisu grafu, vybereme záložku sloupce a nastavíme úroveň odchylky na 0 •Následně graf upravte (barvu, tloušťku) dle zadání: tloušťka 0,5, žlutá barva sloupců, stejně jako u předchozího grafu, viz slide 32 • Úkol 4 – grafy •Graf jako jpeg uložíte jednoduše kliknutím pravým tlačítkem opět např. vedle nadpisu, uložit graf, formát jpeg. Ten pak vložíte do protokolu Úkol 4 – grafy Do protokolu •Zadání (alespoň stručně) •Úkol 1: tabulka včetně průměrné teploty •Úkol 2: print-screen tabulky (není nutné) •Úkol 3: tabulka popisných statistik •Úkol 3: tabulka maximálních teplot (není nutné) •Úkol 4: spojnicový graf (můžete okomentovat vývoj teploty) •Úkol 4: sloupcový graf (taky můžete okomentovat) •Závěr (v prvním protokolu ještě není nutný) •TIP: ve studijních materiálech máte ukázkový protokol PROCHAZKA_cv1.pdf