Práce s hromadnými daty před analýzou 2.1 Stručné seznámení s programem IBM SPSS Statistics V naši učebnici budeme všechny statistické postupy provádět prostřednictvím statistického programu IBM SPSS Statistics.38 Ve druhé kapitole se proto seznámíme se základními prvky tohoto softwaru, abychom byli schopni jej efektivně a smysluplně využívat.5' Veškeré postupy budeme ilustrovat na příkladech, které obsahují data z reálných výzkumů. Příslušné datové soubory jsou k dispozici na disku (CD), který je součástí knihy. Čtenářům vřele doporučujeme, aby si při pročítání těchto příkladů spustili program SPSS a příklady si sami vyzkoušeli. Ano, víme, je to pak náročné čtení, ale věřte, skutečně se to vyplatí. SPSS je pouze jeden z řady programů pro statistické zpracování hromadných dat - o jiných statistických balících informujeme v dodatku III. Před zahájením prací v SPSS je vhodné si nejdříve nastavit prostředí programu. Pod tlačítkem Edit se skrývá volba Opiions (viz obr. 2.1), kde lze navolit zejména podobu výstupů (výsledků výpočtů) - například grafickou podobu tabulek, popisky proměnných, lze také naučit program správné češtině apod.40 Tento software má poměrně dlouhou historii. Byl vyvinut ještě v době před existencí osobních počítačů (PC) - v éře velkých sálových počítačů. Jeho původní název zněl prostě: Statistical Package for Soeial Sciences neboli SPSS- My se této historie budeme držet a program budeme i nadále pro zjednodušení zkráceně nazývat SPSS. Pro finální práce na této učebnici (mimochodem vznikala několik let) jsme používali většinou verzi SPSS 18.0, některé úpravy jsme pak zpracovávali ve verzi SPSS 22.0. Zmiňujeme se o tom z toho důvodu, že některé obrázky a výstupy se mohou, pokud bude čtenář používat verze jiné, graficky lehce odlišovat. Ničemu to nevadí, neboť principy a postupy analýzy zůstávají v procedurách, které obsahuje tato učebnice, nezměněny. Všechny obrázky a výstupy v této kapitole pracují s datovým souborem „EVS99-cvicny.sav". 51 KAPITOLA 2 '- *« m om> Jm t _ :=tr oh; J Oj* cm a—«»"IHK*! íi ■<•: j101«? •soi'o »«170 8V170 IM170 f J : ' »'.• * "A-' "A.* « 2 i. i » i í t I 11 111)412 2 32 MM UM Bom *■—( O wi o JJjUÉ s ■ ■ ktoiuAmM Mami IM^^^mSJ mhimi1h Hliijn .»».--». (MOV H Úl r. Ampi OUMoMn-MMi MM. •MM Sott B na* UM SouM Shh Ofclnniiii hum SB ■ r ... Obr. 2.1 Okno pro nastavení vnitřního prostředí programu Každá analýza dat začíná nahráváním dat. Abychom data mohli nahrávat, musíme 1) nejdříve definovat jednotlivé proměnné, jimž pak 2) přiřazujeme výzkumem zjištěné konkrétní hodnoty. K operacím 1) a 2) slouží okna Data View a Variable View. Obě okna jsou interaktivní, takže do nich můžeme psát. Duta I lew (viz obr. 2.2) obsahuje matici dat, v níž řádky znamenají případy (cases) výzkumné jednotky - většinou jde o osoby (respondenty), ale výzkumnými jednotkami mohou být i skupiny osob, územní celky, předměty jako texty apod. Sloupce matice jsou proměnné neboli charakteristiky těchto zkoumaných jednotek, jejich vlastnosti. Každá jednotka tedy představuje vektor a číslice v něm představují kódy hodnot proměnných (u nominálních a ordinálních proměnných) nebo čísla (u spojité, to je kardinální proměnné) popisující vlastnosti/charakteristiky jednotky.41 Pozici fádků a sloupců lze měnit pomoci menu Data - Tramponse. Děláme to například tehdy, když je výstupní tabulka příliš široká a nevešla by se na šířku tisku. Operace transponování může být užitečná i pro některé pokročilé statistické procedury, např. pro shlukovou analýzu, jak uvidíme v kapitole 14. PRÁCE S HROMADNÝMI DATY PRED ANALÝZOU ' k ■ ■ «it.*» h na.iaa..^t.< ' *t_» %K< «'_* n1-»* * Obr. 2.2 Datová matice (Data View) Okno Variable View (viz obr 2.3) představuje popis proměnných. Je to v SPSS zabudovaný speciální tabulkový procesor, který tento popis umožňuje. Bez popisu proměnných bychom konkrétní hodnoty proměnných nemohli nahrávat, proto popis proměnných musí vždy předcházet nahrávání dat. Při popisu proměnných vlastně převádíme náš dotazník, jeho jednotlivé otázky či položky, do formalizovane podoby, kterou vyžaduje SPSS. Nwwn qí>a10 N'j'TTPiii ijlOronai s lnou) * r, . ■ :-ji t "u -' Dl* jm s en«'i <> (MMiekýen wnaiaeh Č*«I pf prg ocKtou UtOtnlrio prHttMI r .A--: dam pro ochrání ' ■ : •■ VIKU tr* cmMt ■MflMMfl IrvomiNs picitlaa. StuibyoinpfeMárteihenittep Obt**t -2.-3 b .-2.-3 s .-í.-s a .-2.-3 s .-2.-3 5 1,4-3 5 i. -2. -3 b i..j.-3 b .lOnVH ' JOrgrnai ' jlOrdinal ' jos-* ■ R.gM .lOrQiral Obr. 2.3 Tabulkový procesor pro popis proměnných (Variable View) 52 53 kapitola 2 Jednotlivé proměnné, což jsou zkratkovitě vyjádřené jednotlivé otázky z dotazníku, jsou zde - na rozdíl od datové matice - umístěny v řádcích. Sloupce tohoto procesoru pak udávají jejich základní charakteristiky: technické jméno proměnné, její popisek (název), popisky jednotlivých hodnot proměnné, chybějící hodnoty atd. Třetím základním oknem je okno výstupů, Outpul (viz obr. 2.4a a 2.4b), které se automaticky otevře v okamžiku, kdy zadáme nějaký výpočet. Objevují se v něm výsledky požadovaných výpočtů (tabulky, grafy atd.). Ty zde můžeme editovat.42 Klikneme-li dvakrát na výstup (tabulku či graf), který chceme editovat, objeví se poněkud jiná nabídka a my můžeme měnit jeho grafickou podobu, měnit texty popisků apod. Postup je naznačen níže v následujících obrázcích. Editovat můžeme především prostřednictvím menu Edit, Formát nebo také Pivot (méně často), kde se nabízí zejména již zmíněná a užitečná operace záměny sloupců a řádků. -Oupua ICmunMl! - »ASVi !urk, ttt*« Ftt &■ jgg Qa» Tttmtotrn ww Fgttntt Égg Gtita jttntttna Smím Spms tavons mvom Ha* tt ♦ + * - I 3 ■ ■ mu 4 FitauericiťE • Cut ■hmm 43 Dram JÍ SWYSKS OB 3*IA5tľ HUE SataSetl lrIIOC*ř»F7lONT. Frequencies (MaMl] E: AJlrt«=í'.St4Ci»titi^*ltflFM\CVS3ä_meBy.3*T ÍHnjriímlííin vůovvciwlovs MI0uí»m Missing nehodí ta Tetu hun mw Pnátta Obr. 2.4a Ukázka výstupu výpočtu distribuce četnosti (příkaz Frequencies) 42 Pozor, prosím. Pokud máte potřebu editovat své výsledky, veškerou editaci výstupů provádějte zde. Po přenesení výsledků do textového procesoru Word (viz dále) je to již prakticky vyloučeno, a to i v případe, kdy - navzdory varování, která najdete v textu dále - použijete pro přenesení výstupu do Wordu příkazu export. Takto přenesené tabulky/grafy se sice editovat dají. ale při návratu z editačního režimu se tabulka obvykle rozpadne a je nepřehledná až nečitelná. 54 prAce s hromadnými daty před analýzou Edit vt«w kutit PmH c'."" >' fttapn* yiw /Mac* hcid g Outnit IB Log £]T«t B tloWS J3 "O** Dtlattt 4 Statítu -^f»t>-»i«» Tabulka po dvojím kliknuti' v editačním režimu. Všimnete si změněného menu a rámečku okolo tabulky. _ p*sw statues Praawoi uj M ?m ' 322» Obr. 2.4b Editace výstupu Etická vsuvka: hovoříme-li o editování, máme na mysli pochopitelně pouze editování grafické podoby výstupů. V žádném případě není možné v tabulkách editovat, to je měnit, jejich číselné hodnoty! Obsah výstupů neboli výpočtů z analýz je ve vědě nedotknutelný! Přepis hodnot ve vypočtených tabulkách nebo údajích je ve vědě horším zločinem než plagiarismus. Je to hanebný čin, který má pro jeho aktéra závažné důsledky. Výsledky, které se objeví v okně Outptit, lze uložit příkazem Save as. Uloží se v novém souboru s příponou .spo či .spv.43 Jednotlivé výstupy i celek lze také exportovat do Wordu, to však nedoporučujeme, neboť tabulky se často rozpadnou. Lepší je v menu Edit tabulku zablokovat a pomocí Copy Object (nebo také příkazem Ctrl+C) ji vložit jako objekt příkazem Ctrl+V do textu, který píšeme v textovém editoru. Soubor typu *.spo či *.spv lze otevřít jen v SPSS Statistics. Je nutné také upozornil, žejednollivé verze SPSS mají různý formát tohoto souboru, a proto lze soubor typu *.spo či *.spv spolehlivé otevřít jen ve verzi SPSS, v níž byl vytvořen. Pro datové soubory (*.sav, viz dále též část 2.4) tato ncpřenositelnost mezi verzemi neplatí, nejlepší je ovšem data ukládat ve formátu *.por, který umí spolehlivě číst všechny verze SPSS a nadto i mnohé jiné softwary (např. SAS, STATA Transfer apod.). 55 KAPITOLA 2 Syntax a Script SPSS byl původně vyvinut v operačním systému DOS, takže místo klikáním na tlačítka v menu bylo nutno zadávat příkazy ve formě vět, jejichž tvar (syntax) byl předepsán. I ve verzi pracující pod Windows lze příkaz zadat nejen pomocí menu, ale i pomocí psaného příkazu. K tomu slouží okno Syntax (menu Files). Například výpočet rozložení hodnot proměnné rod stav a grafu tohoto rozložení (viz dále) lze zadat příkazem: FREQUENCIES VARIABLES=rod stav /PIECHART. (viz obr. 2.5) Tento příkaz znamená: udělej třídění prvního stupně (=FREQUENCIES) proměnné, která se jmenuje „rod_stav" (neboli rodinný stav respondenta), a přidej koláčový graf (=PIECHART) znázorňující rozložení jejích hodnot.44 11 B »?.»'• * - # © Q, ■ "~ • 1 FREQUENCIES VARIABLES=rod_stav /PIECHART 1,2» Obr. 2.5 Okno pro psaní příkazů ve formě syntaxe Zkuste si tento příkaz provést: vkopírujte jej do okna pro syntax a klikněte na ikonu zeleného trojúhelníku (nebo šipky, chcete-li). PRÁCE S HROMADNÝMI DATY PRED ANALÝZOU Pozor, tečka na konci přikazuje bytostně důležitá. Pokud ji zapomenete, program neví, kde jeden příkaz končí a druhý začíná, takže výpočet odmítne.45 Studenti, kteří s programem teprve začínají, příkazy obvykle zadávají klikáním na příslušné ikonky v rozbalovacích menu. Upozornění na možnost zadávat příkazy prostřednictvím syntaxe je především pro pokročilejší uživatele (více je o syntaxi v dodatku II této učebnice). Pokud si v Edit Option Viewer (tedy v příkazech, jimiž nastavujeme vnitřní prostředí SPSS) zatržením kolonky u Display command in log (v levém dolním rohu interaktivního okna) tuto funkci nastavíte, máte možnost si po každém výpočtu zadaném v menu na prvních řádcích výsledků ve výstupu Output přečíst i text příkazu výpočet zadávající.46 Nová okna Syntax a Script lze otevřít v menu Filc - New a do otevřených oken lze psát konvenčním jazykem SPSS příkazy. Obsah okna lze uložit jako soubor syntaxí s příponou .sps a skriptů s příponou .sbs (jde o běžné textové soubory čitelné ve všech textových editorech). Soubory se syntaxí obsahují příkazy, které umožňují zadávat a spouštět statistické procedury (které jsou jinak v menu Analýze) a příkazy k transformaci dat (které jsou jinak v menu Transform). Skriptové soubory dovolují manipulovat s výstupy (oba typy souboru lze pro práci s daty kombinovat). Prosíme čtenáře, aby se v tuto chvíli neděsili a pokračovali dále ve čtení. Tato nyní naprosto nepochopitelná hatmatilka se vám totiž po několika sezeních nad SPSS a práci s ním natolik dostane do krve, že se stane běžnou součástí vašeho datově analytického žargonu. S psanými příkazy většinou nepracujeme, existují však užitečné výjimky. Zmíníme tři z nich: - Syntax je výhodné použít při transformaci existujících proměnných do nové proměnné za pomoci logických podmínek - viz příslušnou kapitolu o transformaci proměnných a proceduře If. - Je výhodné zapsat si syntakticky zadání rutinně opakovaného výpočtu s různými daty. Například tehdy, když se zabýváte problematikou nezaměstnanosti a úplně stejným způsobem zpracováváte začátkem každého měsíce data, která vám přicházejí ze statistického výkazu úřadu práce o počtech a struktuře nezaměstnaných. Jednou napsaný příkaz (syntax) slouží tak dlouho, jak zůstává výpočet neměnný. Pak stačí, abyste si otevřeli matici s novými daty a na ni pustili syntax uloženou na disku vašeho počítače prostřednictvím příkazu Run. Novější verze jsou ovšem již natolik „inteligentní", že se analytika zeptají, zda náhodou tečku nezapomněl. Pokud chceme zobrazit jen přikaž pro konkrétní operaci, pak po jejím naklikání přes menu stiskneme místo OK volbu Paste. SPSS operaci neprovede, pouze zobrazí příkaz do okna pro syntax. Pokud budeme chtít operaci z okna spustit, stačí tento příkaz označit myší a stisknout Ctrl + R. Můžete se takto alespoň částečně s příkazy naučit pracovat. Vice se o příkazovém jazyce dozvíte ve druhém dodatku učebnice. 56 57 kapitola 2 - U složitějších výpočtu vícerozměrných analýz je potreba, abyste si všechny príkazy k analýzám uchovávali ve svém výpočetním archivu. Nikdy totiž nevíte, kdy si budete muset ověřit, zdali jste postupovali správně - a bez archivace syntaxe výpočtu toho nebudete schopni. SPSS má poměrně rozsáhlou a dobře zpracovanou nápovědu {Help), která obsahuje i základní uvedení do programu (Tutoriál). Rozhodně stojí za prohlédnutí. Společně s ukázkovými daty se totiž lze mnohému naučit sám i bez dotěrného učitele a (špatně) napsané učebnice. 2.2 Data 2.2.1 Matice dat Při statistické analýze dat pracujeme s číslicemi, které mají určitý význam (pracujeme s kategorizovanými daty), nebo s čísly. Abychom mohli analýzu provádět, musíme tato data dostat do počítače a vytvořit v něm datovou matici. Protože jde o zpracování hromadných dat, pracujeme s hodnotami proměnných neboli s kvantifikovanými charakteristikami/vlastnostmi případů - to je respondentů či jiných objektů, popřípadě jevů. Matici tvoří tedy případy (obvykle řádky matice) versus proměnné (obvykle sloupce matice) a obsah matice tvoří hodnoty příslušných proměnných charakterizujících jednotlivé případy. Případy jsou popsány svými vlastnostmi (atributy) - variantami neboli hodnotami proměnných, které jsou jejich logickými uskupeními. Například proměnná vzdělání může být uskupením možných nejvyšších dosažených stupňů vzděláni: základní, středoškolské, vysokoškolské, které lze popřípadě dále členit: vysokoškolské nižšího typu (Bc), vyššího typu (Mgr.). popř. s vědeckou hodností (PhDr., Ph.D. apod.). Každému případu přidělujeme v matici jeho identifikační číslo - ID - a ideální je, máme-li stejným číslem označený i originální dokument, z něhož data o případu (nejčastěji respondentovi/respondentce - tedy dotazníku) čerpáme. Jen tak můžeme v případě nejasností porovnat zdroj dat s jejich záznamem v matici (proto dotazníky nikdy neničíme, ale archivujeme je) a data tak dodatečně kontrolovat. A že se chyby při nahrávání dat vyskytují, je mnohokrát potvrzenou zkušeností.47 Co jsou proměnné, již víme, stejně jako víme, že existují proměnné kategorizované (nominální a ordinální) a proměnné spojité (kardinální). U nominálních proměnných je spojení číslice (numerického kódu) a vlastnosti zcela arbitrami, takže bychom proměnnou „rodinný stav" mohli kódovat např. I = svobodný/á, 5 = ženatý/vdaná, 6 = rozvedený/á a 9 = ovdovělý/á, u ordinálních proměnných číslice označují pozici Což jenom dále nahrává určité skepsi o možnostech míření v sociálních vědách. Je ale pravd že chybám při nahrávání dat do počítače se nevyhnou ani přírodní vědy. 58 PRÄCE 5 HROMADNÝMI DATY PRED ANALÝZOU varianty na škále, aniž by cokoliv říkaly o vzdálenosti mezi těmito pozicemi (vzdělání: základni = 1, střední = 2, vysokoškolské = 3 apod.). Je dobré si toto zvolené přiřazení číslic k charakteristikám pamatovat: je sice již dokumentováno v dotazníku, ale do něho nemůžeme při analýze z časových důvodů neustále nahlížet, a proto při definici matice v SPSS musíme vedle definice proměnných také určit, jak proměnnou pojmenujeme, kolik bude mít - v případě spojitých proměnných - desetinných míst, jaký verbální význam má jméno proměnné a číslice jejích hodnot v případě kategorizovaných proměnných. U spojitých proměnných jsou jejich hodnoty konkrétními čísly, která přímo vyjadřují množství příslušné vlastnosti, takže popisky jejich hodnot nejsou potřebné. Zopakujme si tedy: každý případ představuje vektor obsahující hodnoty příslušných proměnných (každá varianta každé proměnné má přiřazenu číslici).4* Vektory plníme do matice: co řádek, to případ (např. respondent), a co sloupec, to proměnná. Vše ilustruje obr. 2.6. - I Q FUe Erjrt view Data Ttanstorm wialjza Otred Mart«mg GrapM UWiMs A; zde jsme zvolili názvy Qla až Qlf (mohlo by být také Ql J až Ql 6) proto, aby napovídaly, že všech 6 proměnných tvoří jednu společnou baterii otázek, že tedy měří něco společného. Záporné hodnoty u odpovědí „neví" a „neodpověděl(a)" představují svým způsobem chybějící údaje neboli chybějící hodnoty {missing values) -vždycky musíme totiž předpokládat, že někteří respondenti na naše otázky neodpoví. I chybějící údaje je dobré kódovat, volba kóduje libovolná, kód však nesmí mít hodnotu, kterou může nabývat příslušná proměnná. U missing values je navíc někdy užitečné rozlišovat, kdy údaj chybí proto, že respondent na otázku odmítl odpovědět, kdy proto, že se ho netýká (což je případ v naší tabulce), popřípadě že chybějící údaj vznikl opomenutím tazatele apod.50 V některých situacích má totiž smysl analyzovat i tyto chybující odpovědi, zvláště když se jich u některých položek objeví mnoho: analýza nám umožní zjistit, jaký typ respondentů odpověď odmítl, což může být pro intepretaci výsledků důležitá informace. 60 61 KAPITOLA 2 PRÁCE S HROMADNÝMI DATY PfiED ANALÝZOU 2.2.2 Definice jednotlivých proměnných Abychom mohli matici naplnit daty, musíme ji, jakjsme naznačili výše, nejprve definovat. Děje se tak v okně Variabh I iew, které jsme ukázali již na obr. 2.3. Jde o tyto úkony: - Připsání technického jména proměnné, určení jejího místa v matici (sloupce/ sloupců). Definice charakteru proměnné jako číselné (numeric) či textové (string); textovou proměnnou počítač chápe jako označení a neprovádí s ní početní operace, jako je sčítání či násobení. - Připsání širšího/podrobnějšího označení proměnné (variable íabels). - Připsání verbálního označení jednotlivým hodnotám (kategorizované) proměnné (value labels). Ty zpřehledňují tištěné výstupy, neboť přiřazují ke jménům proměnných i vysvětlující popis. Např. q 12 může být jméno proměnné neboli variable name a „důležitost rodiny v životě" může být vysvětlující popisek jména této proměnné neboli variable tabel. Její varianty „velmi důležitá", „dosti důležitá", „nepříliš důležitá", „vůbec nedůležitá" a „neví" jsou pak value labels dané proměnné. Pozor: V případě spojitých proměnných nedávají value labels smysl a nepoužíváme je! - Určení počtu desetinných míst (v případě spojitých proměnných). Definování uživatelských chybějících hodnot (tzv. user missing values)." Někdy do missing value přeřazujeme některé hodnoty proměnných při jejich transformaci. Týká se to například varianty „nevím", která sice někdy může být součástí ordinální proměnné jakožto její středová hodnota (1 = s vládou jsem spokojen, 2 = nevím, 3 = s vládou jsem nespokojen), častější jsou ale případy, kdy ji používáme jen proto, abychom nenutili respondenta/respondentku zaujímat postoj, který nemá. V další analýze se pak často soustřeďujeme jen na ty, kdo postoj zaujali a v modulu Transform - Recode přiřadíme odpovědím „nevím" číslici označující chybějící hodnotu (missing value). Často je to záporná hodnota." - Rozumné je určit u každé proměnné v kolonce Measure úroveň měření. Tato informace totiž u některých statistických operací rozhoduje o volbě počítaných statistik. Některé sloupce v okně Variable view (viz obr. 2.9) můžeme vyplnit přímo vepsáním příslušného textu, jiné nám nabídnou po kliknutí předdefinované volby. Přímo vyplňujeme sloupce Name a Label, v ostatních po kliknutí vyskočí rozbalovací okno. SPSS zná i systémové chybějící hodnoty (systém missing value). Ty se zobrazují v datové matici jako tečky a znamenají, že pro danou proménnou a daný případ není k dispozici žádná hodnota (napr. v dotazníku není zaškrtnuta žádná odpovéď). K tomu, jak se v některých konkrétních statistických technikách zachází s missing value, se ještě vrátíme. Většinou se s případy obsahujícími missing value nepracuje (s výjimkou uvedenou v pozn. 48). 62 hic-- ■ mt.*m iiii-^j«»1» -yw Wwm OKvnaw Lac« vaiuaa Maaaig Cottanna Aign Maaaura Row ■ 0 Rooainy nav foaponoenta (1, avoooaný} None 8 ■ R^ni dOdmai * inpm Obr. 2.9 Okno pro popis proměnných Klikneme-li na sloupec Values, můžeme v rozbalivším se okně vepsat popisky jejich hodnot (viz obr. 2.10). Do kolonky Value vepíšeme číslici hodnoty, tabulátorem či pomoci myši přejdeme do kolonky Label a vepíšeme popisek. Spodní tlačítka nám umožni takto definovaný label přidat (volba .Sál) a v seznamu labels pak provádět změny (volby ( hange či Rcnuive). Nakonec vše odsouhlasíme kliknutím na OK. Value Labels Spelling Laoel: | rozyedenýrá| Add 1 = 'svotjadný" 2 = "ženatý/Vdaná" 3 = "rozvedený/á" Obr. 2.10 Okno pro popis variant znaků [Value Labels) Podobně můžeme definovat i uživatelské chybějící hodnoty (missing values), což jsou hodnoty, které nevcházejí (pokud si to výslovně nepřejeme a nezadáme příkazem) do analýzy. SPSS nám k tomu nabízí speciální okno, jehož ukázku uvádí obr. 2.11. 63 KAPITOLA 2 Zde jsme rozhodli, že pro chybějící hodnoty budeme rezervovat výrazy -1, -2 a -3. Jistě podle ukázky přijdete sami na to, jaké další možnosti, jak definovat missing values, se nabízejí.53 [fľ] Missing Values O No missing values Ě3 @* Discrete rmssing values -1 O Range plus one optional discrete missing value Oisciete value Obr. 2.11 Okno pro definováni chybějících hodnot 2.2.3 Plnění matice dat Data můžeme dostat do matice různými způsoby. Důležité jsou pro nás zejména: - Plnění námi definované matice našimi daty. - Import dat ze souboru jiného typu (z textového editoru, databáze či tabulkového procesoru - spreadsheetu -, např. programu, jako je Excel). Můžeme ovšem také použít i dříve nebo někým jiným vytvořenou matici dat (tzv. systémový soubor). Nejčastějším případem je plnění námi definované matice dat přepisem údajů z dotazníků nebo jiných záznamových archů. 2.3 Práce se systémovými soubory Existující datové soubory otvíráme stejně jako jakékoliv soubory v jiných programech. Tedy po spuštění programu SPSS klikáme postupně na tlačítka Filé Open Dma, v otevřeném okně pak najdeme to správné místo na disku (popř. na externím disku nebo flash disku), kde máme soubor uložen (viz obr. 2.12). Máme-li matici naplněnou našimi daty, snažíme se tuto matici zachovat pro další zpracování tím, že ji uložíme jako systémový soubor. SPSS takovým souborům při jejich uložení přidává příponu .sav - podle ni tyto soubory můžete identifikovat (obr. 2.13). SPSS je v možnosti definovat missing values nesmírné flexibilní, jiné statistické balíky umožňují zpravidla definovat pouze jedinou hodnotu jako chybějící. PRÁCE S HROMADNÝMI DATY PŘED ANALÝZOU g] Onen Pni Loekla I i. dsu ii3':tí ií 3 dmgJH* sav 3 EVS»_«icn) ta. 9 nuivnlj sav 3 MRP-ne* sav 3 piedplaelele sav Fila nam* lovyigjla sav F'las alltpa pas.v Statisbcs <• sav) Minimu* iMif warns aasad on observed vanies Obr. 2.12 Okno pro otvírání souboru uloženého na disku nebo externím nosiči Soubor ukládejte průběžně, to je v každém kroku popisu a plnění matice stejně jako po každé změně, kterou v ní provedete (např. po přidání případu nebo vytvoření nových proměnných - viz kapitolu 6, věnovanou transformaci proměnných). Ponechávejte přitom (samozřejmé pod různými názvy): - pramenný soubor, což je naplněná a zkontrolovaná původní matice, v níž nebyly provedeny žádné další změny; - předposlední podobu souboru (po předposledních provedených změnách); - poslední podobu souboru (po posledních provedených změnách). Q úmgjlla sav 53 EVS99_tMt3ly sav 53 nivtMiiJ sav 33 MRP-nevi sav 3 DiscJciawue sav Keeping 1 oil van atM e S Ftiij nam* InTTffCT Save as ivpt p-vsw suhsiih sa.-i I ,_V'Lh> VaWlltHt rvj-n* : 1o & pilaris heal I ?3vt valu* laiMl* wtifMí deftntd inslpacto* 0*'a vaiut; ■IM Obr. 2.13 Ukládání dat Plnění těchto zásad se vám vyplatí! Někdy se mohou totiž naplnit i katastrofické scénáře a při práci s poslední verzí souboru o něj můžete v důsledku technických potíží programu nebo počítače přijít. Uchovávejte proto raději starší verze souboru i mimo harddisk svého počítače. Nebo se může stát, že omylem provedete při transformaci proměnných v matici nevratné změny, jak ukážeme v lekci o transformaci proměnných. 6-1 55 KAPITOLA 2 PRACE S HROMADNÝMI DATY PRED ANALÝZOU 2.3.1 Slučování souborů (procedura Merge Files) V některých případech potřebujeme k analýze data, která se nacházejí v různých souborech. Tyto soubory je nutné sloučit. Lze tak učinit několika způsoby: a) Procedura Add Variables (přidáni dalších proměnných) Máme v jedné databázi (matici) údaje o osobních charakteristikách studentů a v druhé databázi (matici) údaje o jejich prospěchu. Chceme je dostat do jedné matice, abychom měli o studentech všechny údaje pohromadě. Aby to bylo možné, musí být pořadí studentů v obou maticích shodné (to aby se příslušné údaje připisovaly příslušnému studentovi), nebo musíme mít nějaký znak, který každého studenta jednoznačně definuje (nejlépe ID). Při operaci přidávání proměnných se k proměnným jednoho souboru přidají proměnné dalšího souboru, jak naznačuje následující schéma (viz obr. 2.14 a schéma 2.1). [Třiď *EV599_evicny,j*v IDKaSettl - PA5W StBititK) Date Editor a EOT view Daia Tianstwm viai/a DueO. MarteBrtg Graphs ~ Dttna PfoDMOBB lei Coo* Data Properties &, Dent • Dates -£g Define Multiple Response S> Vsjiaaliorr J ItJentf) Duplicate Cases £J ItMrrtrrv Unusual Cases _j Sort Cases 3 Sort Variables^ ^Transpose SB Restructure Merge Files %, Aggr?gale Orthogonal Design %, CopvDaiaeet Is Adtf-ons _j id . Help i i 6 tí Q3_1 3 2 I «3 3 T q* q5al 1 2 2 1 3 2 2 1 í: i: 2 1 Define Multiple Response Sets 1 2 2 3 4i" 2 2 2 3 2 0 t 3 j Validation 1 2 3 3 3 2 2 3 2: 2: 1 1 * i ', J identify Duplicate Gaset. 3 2 V " áí 2 1 1 3 1 i *■ jq Jdentily Unusual Caies 1 1 2 3 3 2 3 3 D « gjr San Cases. 1 3 3. 3 4 2 2 3- 2 2 0 r US SoriVaiiaoies rSl Trans posa ■ms ReSiAiOU'» 1 " ŕ i; 2 2 2 3 1 3 1 8 1 2 1 J 3 I 2 2 í 2 0 9 1 K í' 3 4 2 1 2 1 3 0 10 i <*■_-i_ 3 4~í 2 2 2 s; 2 0 11 Merge Piles * T Ada Cs&ea 3. d 2 3 3 2. 2 0 12 %. Aggregate ■ '-nr. , äri SOlrjS 2 1 1 1 3 2 0 13 Orthogonal Design 1 2 2 2 3 2; 2 ji>r 1 0 H [ ^CODiDalasel 1 3 3 3 4 2 2 1 3 2 0 PL} SI SM« File. » 2 2: 3 3 2 2 2.: Í;"' 2 0 16 3§ Select Casaa ľ 2 3 1 3 2 2 2 3 3 0 iji Welonl Cases "íl 2 2 3 4 2 2 3 3 2 1 1 2 3 3 3 1 2 2 2 2 íl 53 CZ " 450170 1 1 2 2 3 4< 2 1 2 3 2 0 » £4 CZ 850170 4; 1 2i 2 3 -Z 2! 2 1 2. 2 0 21 s5CZ 550170 ~3j" ~~ 1 2 1 3 2- 2 2 2 3 3: *L 22 J 56 CZ 350170 1 T 2 2 3 t\ I 1 "i; ?; 2 "0T" 23 67 CZ B5017O íj S 2. 2| 2 2 2 2 3 3 2 24 58 CZ 650170 4 1 2 2 3 3 2 3 3: 3i ' ' 3: o' 25 M.CZ 5=10209 V. 1 2 2 3 3: 2 3 2 2 0' - R ti Add Cases PASWStatistics Procassci 15 read* wainnl On Obr. 2.15 Pridávaní nových případů k již existující matici 67 KAPITOLA 2 PRÁCE S HROMADNÝMI DATY PRED ANALÝZOU A1 A2 A3 A4 A5 A6 ______ Ai An Adamec Zemánek + Al A2 A3 A4 AS A6 *.■„•„, Ai............. An Demi Star* V«chtr Schéma 2.2 2.3.2 Záměna řádků a sloupců matice (procedura Transponse) Příkaz Transponse vytváří nový datový soubor, ve kterém jsou: - původní řádky (případy) sloupci (proměnnými); - původní sloupce (proměnné) řádky (případy). Automaticky se vytvářejí nová jména proměnných. Využití je zejména ve složitějších statistických procedurách, případně při převodech do jiných programů (viz obr. 2.16). } LVU ...... .» [„:.,.„}c-.í... v, - - ..(.-- BS Obr. 2.16 Vzájemná záměna řádků a sloupců matice 68 2.4 Výběr případů z výběrového souboru Výběr připadů představuje manipulaci s datovým souborem, která nám umožní pracovat pouze s určitým podsouborem případů. Pomocí procedury Data - SľU'cí Cascs můžeme požadovaný podsoubor definovat: a) Podsoubor náhodně vybraných připadů, máme-li například příliš velký soubor, jako tomu může být v případě dat z mikrocensu apod. Důvod redukce velikosti našeho výběrového souboru může být v tomto případě technický - operace probíhají rychleji. Navíc, kupodivu, mohou být naše výsledky přesnější. b) Podsoubor vybraný na základě výzkumné otázky. Chceme provádět výpočty například jen s lidmi, kteří preferují určitou politickou stranu, nebo s lidmi určité věkové skupiny (například s osobami staršími 60 let) apod. Pozor ale: práce s pod-soubory předpokládá, že výběrový soubor je natolik velký, že má statistický smysl z něj vybírat soubor menší, podsoubor. 2.4.1 Výběr případů prostřednictvím pravděpodobnostního (náhodného) výběru (procedura Random sample ofeases) Operace Random sample of cases dovoluje vytvořit z našeho pracovního (výběrového) souboru pravděpodobnostní náhodný výběr tím, že omezíme počet jeho jednotek. Pokud byl náš původní soubor reprezentativní, bude pří tomto způsobu výběru i náš nově vybraný (pod)soubor reprezentativní, viz obr. 2.17. - ď 01-1 A 01.2 *ou *oi-« A 01-5 A01_6 # q1_5kal dos_i d03_2 JÍo3_3 d 0* do5al Jq5311 dj q5fl12 J 05313 .il „láli -S»l«t- O All cases. O IT conafton is satisfied oi ftarra:m ía~plr :■< .,--.= O Baseo on ume or case range O Use filler variable <♦ I ® Fitter out utiseieaed cases O Copy sei«a«d cases to a new aataser O delete unselederj cases Cuneftl Slams Do not niter cases Obr. 2.17 Výběr náhodného podsouboru z původního souboru 69 KAPITOLA 2 Můžeme buď vybrat přibližný (Approximately) podíl z původního souboru (např. 25 %), nebo určitý počet případů (poJdiknutí na možnost Exactly vypíšeme celkový počet jednotek původního soubqp Ff] Select Cases: Random^Sifnple Sample Size ä>A,,p,,-nS»l, r—J % of all cases O Exactly cases from the first Můžeme zadat procento případů z celku, které chceme do výběru zahrnout, nebo přesný počet případů. Co se týče rozhodnutí, co s nevybranými případy (viz možnosti v rámečku Output na obr. 2.17), doporučujeme používat raději variantu Filter out imseleeledcases (na obrázku je zapnuta), která nevybrané případy nemaže, ponechává je v souboru, ale nepracuje s nimi (v matici dat takové případy poznáme podle toho, že jejich ID je přeškrtnuto). Filtr lze totiž lehce vypnout, takže pokud je potřeba (a ono to většinou potřeba je), lze dále pracovat s celým souborem. Pokud použijeme variantu Delete unselected cases, jsou všechny nevybrané případy odstraněny. Pak ale musíme být velmi opatrní a přemýšlet, zdali takto redukovaný soubor chceme uložit, nebo ne. Pokud ho uložíme pod stejným jménem, původní soubor se přepíše a nám zůstane jen soubor s vybranými jednotkami - a právem také oči pro pláč, pokud bychom neměli předposlední podobu souboru zálohovanou. 2.4.2 Výběr případů za pomoci podmínky (procedura Select cases if) Někdy se může stát, že nás analyticky zajímají jen menší podsoubory (například jen ženy nebo jen osoby se středoškolským vzděláním a vyšším, popřípadě jen osoby bydlící v Praze), a proto si je vybíráme, abychom další analytické výpočty prováděli jen s nimi. Je pochopitelné, že je můžeme vybírat jen podle známých - zjištěných -charakteristik: pokud jsme například v dotazníku nezjišťovali místo bydliště respondenta, nemůžeme vybrat, řekněme, obyvatele Prahy. Podsoubory, s nimiž chceme pracovat, určujeme pomocí podmínky: do okénka vy-klikáme nebo vypíšeme podmínku, např. SEX = 1 (chceme-li pracovat jen s muži a víme, že v proměnné SEX 1 = muž), OBEC = 15 (chceme-li pracovat jen s obyvateli Prahy a víme, že v proměnné OBEC Praha = 15), VZDEL > 2 (chceme-li pracovat s osobami, jež mají středoškolské a vysokoškolské vzdělání, a víme, že v proměnné VZDEL osoba se středoškolským vzděláním = 3 a osoba s vysokoškolským vzděláním = 4). 70 PRAČE S HROMADNÝMI DATY PfiED ANALÝZOU Může nás například zajímat analýza lidí ve věku 60 let a starších. K. výběru takového podsouboru použijeme proceduru Dala Selecí cases Ifcondiiion is satisfied. Po kliknutí na tlačítko If... se objeví dialogové okno, do nějž vepíšeme příslušnou podmínku pro výběr (viz obr. 2.18 a 2.19). V našem případě vybíráme podsoubor respondentů ve věku 60 let a starších. »' q1_2 *IU *«■>-' A& Jq3_1 Jq3_! Jq5a1 d q5a10 d qt*r1 d qsa13 d qsa« dqfia1í • ••••••• Toho dosáhneme, klikneme-li na If a zadáme-li podmínku výběru. i !f pnation is satisfied II" It II • O Rangom sample creases O Based on Dma or case range O Use finer vanaDle BI i Output-- # Filter cul un»eicd*d cases O Copy seiftQtrj casea lo a new aatasei O Delete unsHected cases Current Status Do notfiHer cases liittpjpj Ij^^gJ |^^| Obr. 2.18 Způsob výběru podsouboru jednotek * a'06 A»1°' jr i- ' Anos A quo A j Speaal Vaitatues Obr. 2.19 Zadávání podmínek pro výběr podsouboru 71 ■ KAPITOLA 2 Podmínky lze samozřejmě různě kombinovat, např. by bylo možné získat jen pod-soubor mužů ve věku 60+ let, kteří ještě pracují, apod. Přidání dalších podmínek se řídí pravidly logiky a my si přitom musíme dávat dobrý pozor, co z hlediska výběru pod-souboru znamenají příkazy „nebo" a „a současně" (blíže o tomto detailu v 6. kapitole). Před přechodem k výpočtům opět s celým souborem nesmíme zapomenout filtraci odstranit. Chceme-li v průběhu práce s daty ukončit práci s vybraným podsouborem a vrátit se k celému souboru, klikneme v Selecí cases na Reset (filtr je odstraněn) nebo na AU cases (filtr je pouze vypnut, lze ho opětovně použít)." Někdy se stane, zejména v časové tísni, že na to člověk zapomene, používá stále vybraný podsoubor a výsledky mylně vydává za produkt výpočtů s celým souborem. Pak je samozřejmě překvapen, jaké „neuvěřitelné" věci z analýzy vycházejí.55 Všechny výše uvedené postupy využíváme většinou před samotnou analýzou, takže mají spíše povahu technické manipulace s daty. Pro nás jsou ale samozřejmě mnohem důležitější příslušné statistické procedury a operace, jejichž prostřednictvím získáváme výzkumné výsledky. Program SPSS jich nabízí obrovské množství, které sociolog málokdy detailně zvládne a ne všechny ve své praxi využije - ať je jejich využití limitováno povahou jeho výzkumných dat, nebo rozsahem jeho znalostí statistiky. S některými z nich - s těmi nejfrekventovanějšími a jednoduššími - se postupně seznámíme v následujících kapitolách. Než se do toho pustíme, neodpustíme si ještě několik upozornění, která je třeba mít při práci se statistickým softwarem neustále na paměti: Naše výzkumné otázky (a tedy i charakter získávaných dat) bychom nikdy neměli přizpůsobovat statistickým procedurám, které nabízí náš program, ale naopak bychom měli vyhledávat procedury umožňující maximální využití našich dat. To ale vyžaduje, abychom 1) měli alespoň povědomí o tom, co každá z procedur nabízí, a abychom 2) věděli, jaké má každá procedura požadavky na povahu škál, s nimiž pracuje (tedy jaké jsou podmínky její aplikace). To neruší požadavek důrazu na věcnou stránku výzkumu, upozorňuje nás to však na to, že základní plán analýzy dat musíme mít již při koncipování výzkumu. Abychom mohli použít například faktorovou analýzu (její aplikace ovšem musí vycházet z toho, že nám pomůže smysluplně odpovědět na naše výzkumné otázky, a nikoliv z toho, že jsme seji právě naučili používat nebo že je módní), musíme již ve svém dotazníku pro ni připravit vhodné otázky (položky): tedy že musíme formulovat baterii alespoň 6-10 otázek se stupnicemi o stejném rozsahu s alespoň 5 hodnotami. 3) Musíme mít neustále na paměti, že program spočítá vše, co mu zadáme, a nepřemýšlí (ani nemůže, není to myslící bytost, byť máme někdy tendenci jej personifikovat) Pokud chcete začít pracovat s celým souborem a použili jste volbu Delete unseelcted cases, musíte si původní soubor znovu otevřít! Na tuto chybu občas narážíme v bakalářských pracích. I to je jeden z důvodů, proč po studentech požadujeme, aby s finálním textem práce odevzdávali i datový soubor. Nezdají-li se oponentům některé výsledky, velmi rychle si je zkontrolují. PRACE S HROMADNÝMI DATY PRED ANALÝZOU o smysluplnosti zadání, ani o dodržení určitých požadavků na analýzu. My musíme například vědět (ne ON), že nemá příliš smysl sledovat souvislost dvou proměnných pouze prostřednictvím charakteristiky chí-kvadrát (vysvětlíme v kapitole 8) nebo že není možné počítat z kódů nominální proměnné průměr a že je nemyslitelné, abychom při aplikaci lineární regrese měli naši závisle proměnnou dichotomické povahy. Pokud si některá základní pravidla statistiky nebudeme pamatovat, může se stát, že budeme často počítat (s přesností několika desetinných míst) a pak i sofistikovaně interpretoval naprosté nesmysly. Eufemisticky, abychom neurazili, tomu říkáme „produkovat statistické artefakty".36 Angličtina pro to má pěkný akronym GIGO = garbage in, garbage otit (smetí vevnitř, smetí venku). 72 73