logo-IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek, M. Cvanová ASTAc/01 Vyučující: Mgr. Lucie Brožová; kontakt: brozova@iba.muni.cz ASTAc/02 Vyučující: Mgr. Lucie Panáčková; kontakt: panackova@iba.muni.cz ASTAc/03 Vyučující: Mgr. Petra Kovalčíková; kontakt: kovalcikova@iba.muni.cz ASTAc/04 Vyučující: Mgr. Ivana Svobodová; kontakt: svobodova@iba.muni.cz ASTAc Biostatistika - cvičení logo-IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek, M. Cvanová Důležité informace!!! —Maximálně 1 absence —Úspěšné splnění zápočtu na konci semestru (17.12.) —Aktivita v hodinách —Materiály v ISu —Software: Microsoft Office - Excel 2010, Statistica 12 (EN) —Možnost pracovat na vlastním počítači (složky se z univerzitních počítačů po vypnutí počítače mažou) — —Setkáme se: 1.10., 15.10., 29.10., 12.11., 26.11., 10.12. —Výuka: 17:50-19:30 logo-IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek Osnova •Excel: příprava dat, základní vzorce a funkce v Excelu •Základy popisné statistiky, kontingenční tabulky v excelu •Základní rozdělení pravděpodobnosti, testování hypotéz •Parametrické a neparametrické testy •Analýza rozptylu •Analýza kontingenčních tabulek, testy dobré shody •Základy korelační analýzy a lineární regrese • logo-IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek, M. Cvanová Motivace —Současná statistická analýza se neobejde bez zpracování dat pomocí statistických software. Předpokladem úspěchu je správné uložení dat ve formě „databázové“ tabulky umožňující jejich zpracování v libovolné aplikaci. — —Neméně důležité je věnovat pozornost čištění dat předcházející vlastní analýze. Každá chyba, která vznikne nebo není nalezena ve fázi přípravy dat se promítne do všech dalších kroků a může zapříčinit neplatnost výsledků a nutnost opakování analýzy. logo-IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek, M. Cvanová Datová tabulka Zásady správné tvorby dat Představení MS Excel I. Příprava dat, MS Excel logo-IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek, M. Cvanová Parametry (znaky) DATA – ukázka uspořádání datového souboru logo-IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek, M. Cvanová —Správné a přehledné uložení dat je základem jejich pozdější analýzy. —Je vhodné rozmyslet si předem jak budou data ukládána. —Pro počítačové zpracování dat je nezbytné ukládat data v tabulární formě. —Nejvhodnějším způsobem je uložení dat ve formě databázové tabulky. ¡Každý sloupec obsahuje pouze jediný typ dat, identifikovaný hlavičkou sloupce; ¡Každý řádek obsahuje minimální jednotku dat (např. pacient, jedna návštěva pacienta apod.); ¡Je nepřípustné kombinovat v jednom sloupci číselné a textové hodnoty; ¡Komentáře jsou uloženy v samostatných sloupcích; ¡U textových dat je nezbytné kontrolovat překlepy v názvech kategorií; ¡Specifickým typem dat jsou data, u nichž je nezbytné kontrolovat, zda jsou uloženy v korektním formátu. — —Takto uspořádaná data je v tabulkových nebo databázových programech možné převést na libovolnou výstupní tabulku. —Pro základní uložení a čištění dat menšího rozsahu je možné využít aplikací MS Excel. Zásady pro ukládání dat logo-IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek, M. Cvanová —Tabulkový procesor. —Aktualizace každé 2 až 3 roky; nové funkce, rozšíření počtu řádků —a sloupců, změna formátu. —Starší formát: .xls, novější: .xlsx. —Aktuální verze 2013 umožňuje ukládat tabulku až o 1 048 576 —řádcích a 16 384 sloupcích. —Maximální velikost buňky je 32 767 znaků. MS Excel http://www.functionx.com/excel/images/excel1.gif logo-IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek, M. Cvanová Možnosti MS Excel — Správa a práce s tabulárními daty. — Řazení dat, výběry z dat, přehledy dat. — Formátování a přehledné zobrazení dat. — Zobrazení dat ve formě grafů. — Různé druhy výpočtů pomocí zabudovaných funkcí. — Tvorba tiskových sestav. — Makra – zautomatizování častých činností. — Tvorba aplikací (Visual Basic for Aplications). — logo-IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek, M. Cvanová Import a export dat Struktura dat Manuální zadávání nových dat Tipy a triky jak se v datech pohybovat Editace listů II. Tvorba dat v MS Excel logo-IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek, M. Cvanová Import a export dat —Import dat ¡Manuální zadávání ¡Import – podpora importu ze starších verzí Excelu, textových souborů, databází apod. ¡Kopírování přes schránku Windows – vkládání z nejrůznějších aplikací – MS Office, Statistica atd. — —Export dat ¡Ukládáním souborů ve formátech podporovaných jinými SW, časté jsou textové soubory, dbf soubory nebo starší verze Excelu ¡Přímé kopírování přes schránku Windows — logo-IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek, M. Cvanová Databázová struktura dat v Excelu Jednotlivé záznamy (taxon, lokalita, pacient atd.) Sloupce tabulky = parametry záznamů, hlavička udává obsah sloupce – stejný údaj v celém sloupci logo-IBA Formáty buněk Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek, M. Cvanová • Obecný (bez formátu) • Číslo (desetinná místa, oddělení 1000) • Měna (desetinná místa, jednotky - symbol) • Datum (různé formátování – 24.9.2015, 24. září 2015, 24-9-15, ...) • Čas • Procenta • Text • Další (vč. nastavení vlastního formátu)... logo-IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek, M. Cvanová Automatický zadávací formulář I. —Aplikaci automaticky zadávaného formuláře je nutné aktivovat ¡„Tlačítko Office“ → „Možnosti aplikace Excel“ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡ ¡Automatický zadávací formulář spustíme pomocí nové ikonky na panelu nástrojů Rychlý přístup logo-IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek, M. Cvanová Automatický zadávací formulář II. —Slouží k usnadnění zadávání dat do databázových tabulek —Po označení načítá automaticky hlavičky sloupců jako zadávané položky 1. Označíme názvy sloupců datové matice 2. Klikneme na novou ikonu Formulář v panelu nástrojů 3. Vyplníme údaje pro hodnocený subjekt 4. Do datové tabulky se doplní zadané údaje Vyzkoušej !!! logo-IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek, M. Cvanová Automatické seznamy —Vytváří se z hodnot buněk v daném sloupci a umožňují vložit hodnotu výběrem ze seznamu již zadaných hodnot – usnadnění zadávání — Vyzkoušej !!! logo-IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek, M. Cvanová Automatická kontrola dat —Umožňuje ověřit typ, rozsah nebo povolit pouze určitý seznam hodnot zadávaných do sloupce databázové tabulky Co je povoleno – definiční obory čísel, seznamy, vzorce atd. Rozsahy hodnot, načtení seznamů apod. komunikace s uživatelem Vyzkoušej !!! logo-IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek, M. Cvanová Seznamy I. ¡„Tlačítko Office“ → „Možnosti aplikace Excel“ ¡ —Skupiny hodnot zachovávající logické pořadí, některé jsou zabudované (např. dny v týdnu, měsíce v roce), další je možné uživatelsky vytvořit, slouží pro účely řazení a automatického vyplňování dat logo-IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek, M. Cvanová Seznamy II. Zápis jedné hodnoty ze seznamu a protažení do dalších buněk Automaticky byly doplněny následující složky seznamu ¡Upravit vlastní seznamy → 2) Využití při tvorbě dat 1) Definice seznamu Vyzkoušej !!! logo-IBA Automatické dokončování hodnot buněk Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek, M. Cvanová —Vhodné pro textová pole; následně není nutné vypisovat celé slovo či slovní spojení, ale jen zvolit nabízené, již dříve použité slovo či slovní spojení —Automatické dokončování hodnot buněk je nutné nastavit ¡„Tlačítko Office“ → „Možnosti aplikace Excel“ — — logo-IBA —Výběr buněk ¡CTRL+HOME – přesunutí na levý horní roh tabulky ¡CTRL+END – přesunutí na pravý dolní roh tabulky ¡CTRL+A – výběr celého listu ¡CTRL + klepnutí myší do buňky – výběr jednotlivých buněk ¡SHIFT + klepnutí myší na jinou buňku – výběr bloku buněk ¡SHIFT + šipky – výběr sousedních buněk ve směru šipky ¡SHIFT+CTRL+END (HOME) – výběr do konce (začátku) oblasti dat v listu ¡SHIFT+CTRL+šipky – výběr souvislého řádku nebo sloupce buněk ¡SHIFT + klepnutí na objekty – výběr více objektů — Kopírování a vkládání ¡CTRL+C – zkopírování označené oblasti buněk ¡CTRL+V – vložení obsahu schránky – oblast buněk, objekt, data z jiné aplikace —Myš a okraje buňky ¡Chycení myší za okraj umožňuje přesun buňky nebo bloku buněk ¡ ¡ ¡Při chycení čtverečku v pravém dolním rohu výběru je tažením možno vyplnit více buněk hodnotami původní buňky (ve vzorcích se mění relativní odkazy, je také možné vyplnění hodnotami ze seznamu – např. po sobě jsoucí názvy měsíců. ¡ Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek, M. Cvanová Tipy a triky jak se v datech pohybovat logo-IBA Editace listů Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek, M. Cvanová —Excelovský soubor (sešit) se skládá z více listů, kde každý list může obsahovat na sobě nezávislá data a výstupy. —Možnosti editace listu: vytvářet nový list/kopii existujícího listu, mazat, pojmenovat, obarvit záložku listu, uzamknout http://www.efektivne.eu/images/stories/images/obrazky/Excel/ms-excel-2007-manual/BarvaKarty.png Klik pravým tlačítkem myši na záložku listu logo-IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek, M. Cvanová Seřazení dat Filtrovaní Ukotvení příček Podmíněné formátování III. Práce s daty v MS Excel aneb jak se v datech vyznat logo-IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek, M. Cvanová Řazení dat —Řazení dat je nejjednodušším způsobem jejich zpřehlednění, užitečným hlavně u menších/výsledkových tabulek Zkontrolujte, zda seřazení nezničí vazby mezi buňkami = kontrola oblasti, kterou řadíte. Proměnná podle které bude soubor seřazen Styl seřazení: Sestupně/ vzestupně/vlastní seznam logo-IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek, M. Cvanová Automatický filtr —Pomocí automatického filtru je snadné vybírat úseky dat pro další zpracování na základě hodnot ve sloupcích databázové tabulky, výběr je možný i podle více sloupců (např. určitá skupina pacientů) —Funkce automaticky rozezná hlavičky sloupců v souvislé oblasti buněk —Výhodné pro čištění dat (vyhledávání překlepů, kombinace textu a čísel) Výběr hodnot pro filtraci 1. Zapnutí filtru (alternativa klávesová zkratka CTRL+SHIFT+L) 2. Objeví se rozbalovací šipka s výčtem všech unikátních hodnot v daném sloupci dat logo-IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek, M. Cvanová Rozšířený filtr —Funguje podobně jako automatický filtr, ale seznam povolených hodnot není nutné vybírat ručně – je uveden v oblasti jinde na listu (nebo i na jiném listu). —Podmínkou jsou shodná záhlaví filtrované oblasti a oblasti povolených hodnot. —Prázdné buňky odpovídají prázdné podmínce – tj. je-li v oblasti povolených hodnot nějaká buňka prázdná, splní podmínku libovolná buňka filtrované oblasti. —Čísla řádků filtrované oblasti jsou zobrazena modře. Tlačítko Upřesnit na kartě Data Výběr oblasti cílových hodnot (přefiltrovaných) Původní seznam včetně záhlaví Oblast kritérií včetně záhlaví logo-IBA Ukotvení příček Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek, M. Cvanová —Umožňuje ukotvení libovolných řádků a sloupců pro pohodlné vkládání a prohlížení dat v tabulce. —Umožňuje číst řádky/sloupce ze začátku tabulky i po přesunutí se dále. —Záložka „Zobrazení“ → „Ukotvit příčky“. —Nabízené možnosti: — — — — — — — — — — —Odstranění ukotvení: Po ukotvení příček se automaticky možnost „Ukotvit příčky “ změní na „Uvolnit příčky“ Ukotví řádky nad označenou buňkou a sloupce vlevo od označené buňky logo-IBA Podmíněné formátování Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek, M. Cvanová —Záložka „Domů“ → „Podmíněné formátování“. —Barevné označení buněk nebo výplň buňky symbolem podle námi zadaných kritérií, např: onumerická hodnota větší/menší než průměr odatum z konkrétního období opodobná slova oduplicitní údaje o •Co s barevnými buňkami? •Použijeme filtr! logo-IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek, M. Cvanová Tvorba vzorců Absolutní a relativní odkazy Kopírování vzorců IV. Vzorce v Excelu logo-IBA logomuni Vzorce — vpisují se do buněk sešitu — vzorce jsou vždy uvozeny = (lze též + -) — aritmetické operátory + zabudované funkce Excelu — pro „sčítání“ nečíselných položek se používá & — výpočet je založen buď na číselných konstantách nebo odkazech na buňky — =3*odmocnina(A1) uvození vzorce konstanta zabudovaný vzorec Excelu odkaz na buňku logo-IBA logomuni Vzorce – odkaz na buňku —Relativní odkazy — A1 = sloupec A, 1. řádek — A1:B6 = blok buněk – levý horní roh: buňka A1, pravý dolní: buňka B6 — relativní odkaz se při automatickém vyplnění buněk vzorcem posune — mění se s kopírováním, při vložení a odstranění řádku nebo sloupce — —Absolutní odkaz —odkaz na buňku je pevně dán, při kopírování nebo automatickém vyplnění se nemění —lze uzamknout jak řádky, tak sloupce samostatně — $A$1 uzamčení sloupce uzamčení řádku Pamatuj: Adresu upevníme pomocí znaku $ logo-IBA logomuni Vzorce – využití seznamu vzorců Funkce a její stručný popis Kategorie vzorců průvodce funkcí logo-IBA logomuni Tvorba a závislosti vzorců Výběr funkce z konkrétních knihoven Označení a odznačení předchozích a následných vzorců Zpřehlednění vzorců: ALT+ENTER Výběr funkce Zobrazí místo výsledné hodnoty vzorec logo-IBA logomuni komentare.jpg Komentáře, sledování změn Komentáře k jednotlivým buňkám vzorce_2.jpg možnost zamknout list či sešit dvojicí hesel sledování změn a jejich schvalování nebo zamítání —karta „Revize“ logo-IBA logomuni Vzorce – užitečné funkce Celkem 408 funkcí ve verzi MS Excel 2010, ve verzi 2013 přidáno 50 nových funkcí • SUMA – součet číselných hodnot oblasti; • SUMIF – podmíněný součet (podmínky v doplňkové oblasti); • PRŮMĚR – aritmetický průměr číselných hodnot oblasti; • GEOMEAN – geometrický průměr číselných hodnot oblasti; • COUNTIF – počet hodnot oblasti splňujících zadanou podmínku; • KDYŽ – logická podmínka (if); • MAX, MIN – maximum/minimum číselných hodnot oblasti; • MEDIAN – výpočet mediánu; • PERCENTILE – výpočet percentilů; • DATUM (ROK, MĚSÍC, DEN) – práce s kalendářními daty; • ABS – absolutní hodnota; logo-IBA logomuni Statistické funkce v MS Excel Od verze 2007 obsahuje MS Excel některé pokročilé statistické funkce • ZLEVA, ZPRAVA, ČÁST – funkce pro ořezávání textových řetězců; • STANDARDNÍ MATEMATICKÉ FUNKCE (SIN, COS, LOG, LOGZ, EXP) – a mnoho dalších. • CONFIDENCE – výpočet intervalu spolehlivosti (při normálním rozdělení); • CORREL, PEARSON – výpočet Pearsonova korelačního koeficientu; • COVAR – výpočet kovariance dvou množin dat; • COUNTIF – počet hodnot oblasti splňujících zadanou podmínku; • DEVSQ – součet čtverců odchylek od výběrového průměru; • FDIST, GAMMADIST, CHIDIST, TDIST, NORMDIST aj. – různá rozdělení pravděpodobnosti; • PRŮMODCHYLKA – průměrná hodnota absolutních odchylek; • SLOPE – směrnice lineárního modelu; • TTEST, ZTEST, CHITEST – statistické testy shodnosti; ŘADU DALŠÍCH FUNKCÍ VŠAK EXCEL POSTRÁDÁ A JE TŘEBA VYUŽÍT SILNĚJŠÍHO NÁSTROJE. Vyzkoušej !!! logo-IBA Kopírování / Vkládání Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek, M. Cvanová —Kopírování vzorců, textů, celých sloupců (zkopírování pomocí CTRL+C; dále „Vložit jinak...“) — — — — — — — — — — —Kopírování grafů z Excelu do Wordu: Vložit jinak → Typ: Obrázek (rozšířený metasoubor) — logo-IBA Vytvořil Institut biostatistiky a analýz, Masarykova univerzita J. Jarkovský, L. Dušek, M. Cvanová V. Samostatné cvičení logo-IBA logomuni Úkoly I.Vytvořte kopii listu zadání a nazvěte ji výsledky. (nápověda: přesunout nebo zkopírovat list → vytvořit kopii) II.Ukotvěte ID pacientů a názvy proměnných ve sloupcích. (nápověda: funkce ukotvení příček) III.Pomocí filtru zkontrolujte kvalitu zadaných dat. Nalezněte alespoň 3 překlepy. Kolik pacientů má jedno osteolytické ložisko („Osteolytic lesions X-ray“ = 1 osteolytic lesion)? IV.Seřaďte datový soubor dle proměnné „Date of diagnosis“. V.Pomocí podmíněného formátování nalezněte duplicitní záznamy. (nápověda: označ sloupec ID → karta „Domů“→podmíněné formátování → zvýraznit pravidla buněk → duplicitní hodnoty → filtrovat podle barvy). Duplicitní údaj smažte. VI.Spojte „M-protein type“ a „Light chain type“ do nového sloupce s názvem „Heavy-light chain type“ tak, aby bylo odděleno pomlčkou (např. IgG-kappa). (nápověda: využijte např. funkce & a pro oddělení slov pomlčkou “-”) VII.Spočítejte stáří pacienta při diagnóze (z „Date of diagnosis“ a „Date of birth“). VIII.Z data „Date of diagnosis“ vyberte pouze rok. (nápověda: využijte funkci z Knihovny – Datum a čas) IX.Sloupec „Hemoglobin level (g/l)” překódujte pomocí funkce „když“ následovně: >120 g/l = 0, ≤120 g/l = 1. X.Převeďte „Hemoglobin level (g/l)“ na „Hemoglobin level (g/dl)“. XI.Spočítejte minimální, maximální a průměrnou hodnotu „Hemoglobin level (g/dl)“