ANALÝZA DAT Základy analýzy kvantitativních dat Metodologie pro ISK – podzim 2015 http://qph.is.quoracdn.net/main-qimg-28b58fe77cd279307ebd4f8f975cd901?convert_to_webp=true Začínáme s analýzou (v Excelu) •Nejprve pár termínů: •Proměnná (znak) - vzdělání •Hodnota proměnné – ZŠ, SŠ, VŠ … •Četnost – 46, 62, 307… Proměnné •Nominální •nabývají nečíselných hodnot a nelze je uspořádat hierarchicky či podle velikosti (nemůžeme určit, která hodnota proměnné je vyšší než jiná. Speciálním případem nominálních hodnot jsou dichotomické proměnné (muž/žena, ano/ne). Nominální proměnnou může být např. stav, bydliště, oblíbená barva apod. •Ordinální •nabývají hodnot, u kterých můžeme s jistotou tvrdit, že jedna je vyšší než druhá, nemůžeme však s jistotou tvrdit, o kolik je vyšší. Ordinální proměnnou je například vzdělání, volně formulované frekvence činností. •Kardinální •nabývají skutečných měřitelných číselných hodnot – kardinální proměnnou je například věk, počet dětí, výše platu. Speciálním případem kardinálních proměnných jsou intervalové proměnné (např. výše platu měřená intervaly 0-10000, 10001-20000, 20001-30000…) Statistická analýza •Deskriptivní •zabývá se sběrem, sumarizací a prezentací souborů dat. Je to ta „lehčí“ statistika, která je dostupná pomocí běžných nástrojů •Jaká je průměrná délka života žen? •Jaká je mediánová hodnota platu knihovníků v ČR? •Jaký je minimální a maximální počet knih, který průměrně za rok přečte student KISKu? • •Induktivní •Zabývá se zobecňováním výsledků výzkumu na vzorku na populaci Toužíte-li po kráse à Vizualizace dat (Boček, Marek, Málek, Pospíšil), Datová analytika (Mayer) + celá datová větev Obrázek CC: Jan Boček Zdroje dat •Český statistický úřad •otevřená data z výsledků voleb •Databáze Eurostatu •http://ec.europa.eu/eurostat/data/database •ČSDA - Český sociálněvědní datový archiv •ČSDA poskytuje přístupk vybraným českým datovým souborům reprezentativních výzkumů. Bez registrace je možné procházet stránky Webu a informace o archivovaných datech.V archivu najdete například datové soubory z realizovaných měsíčních šetření Centra pro výzkum veřejného mínění (CVVM). •Instituce a jejich repozitáře •Datacite •www.otevrenadata.cz • Datové matice Datové matice Validní a chybějící hodnoty •Validní hodnoty jsou ty hodnoty, které započítáváme do analýzy. Jsou to všechny varianty odpovědí, které pro nás mají vysokou informační hodnotu. •Chybějící hodnoty jsou ty hodnoty, kdy respondent zvolí odpověď typu „nevím / nemohu se rozhodnout / nemohu odpovědět“ nebo otázku přeskočí a odpověď vůbec neposkytne. I tyto druhy odpovědí pro nás mohou mít informační hodnotu (např. pokud existuje na některou otázku vysoký počet odpovědí „nevím“ nebo neodpovědí, měli bychom se zamyslet nad tím, zda respondenti otázce rozumí). •Nevalidní hodnoty – chybné hodnoty (outliers, chyby) Zásady pro práci s daty 1.Zálohovat! 2.Zálohovat! 3.Zálohovat! 4. 4.Kontrolovat! 5.Popisovat! 6.GIGO! 7. GIGO! •Gabrage in à garbage out L •Slučování a rozdělování sloupců •Hledání a nahrazování textu (CTRL+H) •Odebrání duplicitních řádků (DATA – Odebrat duplicity) •Příkazy ZLEVA, ZPRAVA, DOSADIT a další •Malá/velká písmena: MALÁ, VELKÁ, VELKÁ2 •Odebrání mezer a netisknutelných znaků z textu ( ): PROČISTIT, VYČISTIT •Úpravy formátování čísel (datum, čas, procenta) •Transpozice •Více info – nápověda Excelu •Tip: projděte si základní operátory v Excelu • • • • • • První pohled na data •Různé datové formáty: •XLS, XLSX •CSV, TSV, TXT •XML •SAV •JSON, GEOJSON • •https://www.czso.cz/csu/czso/otevrena_data_pro_vysledky_scitani_lidu_domu_a_bytu_2011_-sldb_2011- •CSV •popisy dat •čištění •tabulka •první pohled na data •Kraje – okresy – obce •Podmíněné formátování • Cvičení •Otevřete si seznam studentů Metodologie •Rozdělte jméno a příjmení do samostatných sloupců •Vytvořte nové sloupce ze sloupečku Studium: •Studijní obor •Forma studia •Semestr • Cvičení •Otevřete si seznam studentů Metodologie •Rozdělte jméno a příjmení do samostatných sloupců •Vytvořte nové sloupce ze sloupečku Studium: •Studijní obor •Forma studia •Semestr •---------------------------------------- •MÁTE? •Jaké je nejnižší a nejvyšší UČO? •Kolik je v souboru kombinovaných a prezenčních studentů? •V jakém semestru se nacházejí studenti? •Aritmetický průměr •Medián •Modus • Základní statistické operace •COUNTIF(oblast;“hodnota“) • Základní statistické operace •MEDIAN(oblast) •MODE(oblast) •PRŮMĚR(oblast) • •MIN(oblast) •MAX(oblast) •