Práce s hromadnými daty před analýzou 2.1 Stručné seznámení s programem IBM SPSS Statistics V naši učebnici budeme všechny statistické postupy provádět prostřednictvím statistického programu IBM SPSS Statistics.18 Ve druhé kapitole se proto seznámíme se základními prvky tohoto softwaru, abychom byli schopni jej efektivně a smysluplně využívat.39 Veškeré postupy budeme ilustrovat na příkladech, které obsahují data z reálných výzkumů. Příslušné datové soubory jsou k dispozici na disku (CD), který je součástí knihy Čtenářům vřele doporučujeme, aby si při pročítání těchto příkladů spustili program SPSS a příklady si sami vyzkoušeli. Ano, víme, je to pak náročné čtení, ale věřte, skutečně se to vyplatí. SPSS je pouze jeden z řady programů pro statistické zpracování hromadných dat - o jiných statistických balících informujeme v dodatku III. Před zahájením prací v SPSS je vhodné si nejdříve nastavit prostředí programu. Pod tlačítkem Edit se skrývá volba Options (viz obr. 2.1), kde lze navolit zejména podobu výstupů (výsledků výpočtů) - například grafickou podobu tabulek, popisky proměnných, lze také naučit program správné češtině apod.40 Tento software má poměrně dlouhou historii. Byl vyvinut ještě v době před existencí osobních počítačů (PC) - v éře velkých sálových počítačů. Jeho původní název zněl prostě: Statistical Package for Sociál Sciences neboli SPSS. My se této historie budeme držet a program budeme i nadále pro zjednodušení zkráceně nazývat SPSS. Pro finální práce na této učebnici (mimochodem vznikala několik let) jsme používali většinou verzi SPSS 18.0, některé úpravy jsme pak zpracovávali ve verzi SPSS 22.0. Zmiňujeme se o tom z toho důvodu, že některé obrázky a výstupy se mohou, pokud bude čtenář používat verze jiné, graficky lehce odlišovat. Ničemu to nevadí, neboť principy a postupy analýzy zůstávají v procedurách, které obsahuje tato učebnice, nezměněny. Všechny obrázky a výstupy v této kapitole pracují s datovým souborem „EVS99-cvicny.sav". 51 CH** JL OetoCaae All 9*t> VIMM 1 JIU ucz M Cř «• a ucz MCI ucz HCl ucz HCl «cz 12 C/ na KCl na 11 '7 HCT »1« «4CZ % "15 1'.' **J «V fl'.S * fl3-2 «P-5 4j* qSalO qSall qSl12 qSalJ 3 ;( M MMl W"2 1020*1 110)62 610IW 610162 JSQ2M isouo MMIi 650170 840170 850170 850170 S402W 440151 1504« 160466 150466 650771 1501-17 150147 160147 150U7 64066S awt» PhOITaMM m U «■am Sonpt» »MM irwuatom Smol EMci 1 - wai Mm 111111—1 «MMbU IM "-- M) Dm«) aäetsj O Owpra, njfw» Mphaoefecal ■Fils OmumnHtlMl Rote» -------- Totai»hm m»mraetogaalow tie use olpi»aalMgieM HhBtoMI • UM p O UM a (Widows LOO* IM IM Open I.-' i ■ ■ -:..-. X Starke Open WH] ;-i dataset J-3T -. jttMMl Encoang lor IMM «M SmUt 3 2 r. 2.1 Okno pro nastavení vnitrního prostředí programu Každá analýza dat začíná nahráváním dat. Abychom data mohli nahrávat, mu-ie 1) nejdříve definovat jednotlivé proměnné, jimž pak 2) přiřazujeme výzkumem jténé konkrétní hodnoty. K operacím 1) a 2) slouží okna Data Viewa Variable View. >č okna jsou interaktivní, takže do nich můžeme psát. / >ata l lew (viz obr. 2.2) obsahuje matici dat, v níž řádky znamenají případy (cases) dcumné jednotky - většinou jde o osoby (respondenty), ale výzkumnými jednotka-mohou být i skupiny osob, územní celky, předměty jako texty apod. Sloupce ma-5 jsou proměnné neboli charakteristiky těchto zkoumaných jednotek, jejich vlast-1ti. Každá jednotka tedy představuje vektor a číslice v něm představují kódy hodnot ►menných (u nominálních a ordinálních proměnných) nebo čísla (u spojité, to je dinální proměnné) popisující vlastnosti/charakteristiky jednotky.41 Pozici řádků a sloupců lze měnit pomocí menu Data - Transponse, Děláme to například tehdy, IcdyŽ je výstupní tabulka příliš široká a nevešla by se na šířku tisku. Operace transponování může být užitečná i pro některé pokročilé statistické procedury, např. pro shlukovou analýzu, jak n\ idíme v kapitole 14. I" M [ qi_i qi_2 qt_3 q1_4 q1_5 q1_» I1-O** <# 5 CZ 6C2 7 CZ 8 CZ 9 CZ 10 CZ 12 CZ 13CZ 14 CZ 16CZ 21 CZ 25 CZ 26 CZ 29 CZ 31 CZ 33 CZ 36 CZ 40 CZ 53 CZ 54 CZ 55 CZ 56 CZ 57 CZ 58 CZ 60 CZ 550602 550602 550602 550602 550602 550602 610161 540480 540480 700001 330202 330202 540209 540209 610162 610162 610162 350234 B50170 850170 850170 B5O170 650170 850170 540209 q5a1 q5a10 q5a11 q5a12 q5a13 q5a14 q5a15 Obr. 2.2 Datová matice (Data View) Okno Variable View (viz obr 2.3) představuje popis proměnných. Je to v SPSS zabudovaný speciální tabulkový procesor, který tento popis umožňuje. Bez popisu proměnných bychom konkrétní hodnoty proměnných nemohli nahrávat, proto popis proměnných musí vždy předcházet nahrávání dat. Při popisu proměnných vlastně převádíme náš dotazník, jeho jednotlivé otázky či položky, do formalizovane podoby, kterou vyžaduje SPSS. a h a rg t gfcaW ma Type Witíoi Dec mau Numeric 4 0 1^-3 m3-*% m_i q1_2 q1_5 q1_6 q1_6kal q3_1 q3_2 q3_3 9* q5a1 q5a10 q5a11 qSai2 q5a13 q5a14 q5a15 q5a16 q5a17 qSalB q5a2 String 24 Numeric 10 Numeric 10 Numeric 10 Numeric 10 Numeric 10 Numeric 10 Numeric 10 Numeric 8 Numeric 10 Numeric 10 Numeric 10 Numeric 10 Numeric 10 Numeric 10 Numeric 10 Numeric 10 Numeric 10 Numeric 10 Numeric 10 Numeric 10 Numeric 10 Numeric 10 Numeric 10 Číslo respondenta Přátele a mami Volny čas Politika Náboženství role náboženství Diskuse s pfáteh o polili c kýcti tématech část prirnu pro ochranu životního prostředí Zvy ten i dani pro ochranu Životního pros Vedl Vlada ml omezit žneeislován) životniho prostredí Pocit stésti celkové Služby pro prestárle a hendikep oocany Prace s mládeži Sport, zábava Ženská hnuti Mírová hnuti Organuace v obi strávi Je ilenemjiné dobrovol org Není cleném žádné dobrovol org Neví ata je cleném dobrovol org NeodpovédéVa zflaie členem dobrovol org Náboženské org Values Missing Columns Align Measure Role None -1-2.-3 6 ■ Right ''Scale •".Input None None 5 » Left ■ Nominal ••Input None ■1-2.-3 B ■ Right ✓ Scale ••Input (-3, ne -1.-2.-3 5 ■ Right L| Ordinal * Input {-3. ne -1,-2.-3 5 * Right • Nominal i. Input {3. M.. -t.-2.-3 5 ■ Right t Nominal s input (-3. ne -1.-2.-3 4 ■ Right 1 Nominal •.Input t-3. ne -1.-2.-3 4 ■ Right • Nominal •.Input {-3. ne.. -1.-2.-3 5 ■ Right t Nominal Mnpul O.důi {-3. ne None 6 ■ Right /Scale ••Input -1.-2.-3 4 ■ Right ..J Ordinal s input (-3. ne. -1.-2.-3 5 ■ Right ,J Ordinal ^ Input (-3, ne -1-2,-3 6 ■ Right A Ordinal n Input (-3. ne -1.-2,-3 e ■ Right J Ordinal Mnput {-3, ne. -t.-2.-3 5 ■ Right .1 Ordinal * Input {■3, ne. -1.-2.-3 6 ■ Right .1 Ordinal s Input (-3. ne. -1,-2.-3 6 • Right .1 Ordinal ••input (-3. ne. -1.-2,-3 5 ■ Right .1 Ordinal N input í-3. ne. -1.-2.-3 6 ■ Right .1 Ordinal Mnput (-3, ne (-3. ne. -1-2.-3 5 ■ Right .J Ordinal ••Input •1.-2. -3 5 ■ Right .1 Ordinal •• Input (-3. ne -1,-2.-3 5 ■ Right . 1 Ordinal s input (-3. ne -1.-2.-3 8 ■ Right . I Ordinal Mnput (-3. ne -1.-2.-3 6 ■ Rigtit .1 Ordinal ••Input {-3. ne 1-3.1» -1.-2.-3 6 ■ Right .1 Ordinal s Input -1.-2,-3 7 ■ Right .JOrdina •.Input Obr. 2.3 Tabulkový procesor pro popis proměnných (Variable View) 53 04 Jednotlivé proměnné, co/.jsou /.kratkovitč vyjádřené jednotlivé Otázky Z dotazníku, m zde na ro/.díl od dulové matice umístěny v řádcích. Sloupce tohoto procesoru k udávají jejich základní charakteristiky: technické jméno proměnné, její popisek a/c\), popisky jednotlivých hodnot proměnné, chybějící hodnoty atd. Třetím základním oknem je okno výstupů, Outpui (viz obr. 2.4a a 2.4b), které automaticky otevře v okamžiku, kdy zadáme nějaký výpočet. Objevují se v něm sledky požadovaných výpočtů (tabulky, grafy atd.). Ty zde můžeme editovat.42 likneme-li dvakrát na výstup (tabulku či graf), který chceme editovat, objeví se mékudjiná nabídka a my můžeme měnit jeho grafickou podobu, měnit texty popisků (ni. Postup je naznačen níže v následujících obrázcích. Editovat můžeme především OStřednictvím menu Edit, Formát nebo také Pivot (méně často), kde se nabízí zej-L-na již zmíněná a užitečná operace záměny sloupců a řádků. 1« Qaa Transloím ttistrt Fgnwat Anafrn Dired uante&nQ Graphs utilities *ao-ons Window Help ♦ 4 + - ir* -m • log |*| I Iřr,,,..(., k •Clin» i*] '■ JQ «Kt Oatastt Ht Room, slav jal1 W12MP,Zx\MMiMtMML\StafciMtilm_akiigtm\M.'9999_e*l.ia$.am*'. FRECOENiľľES VÄR-A31ES=rcd_staT ■* Frequencies [Bffttll E: \i*ai3tei:t'.Stati3tilt*_3kr;pta\E","5?5_cvicny.aftv Statistics Rodinný stav Valid Missing Frequency Percenl Valid Percent Cumulative Percenl Valid ženatý* vdaná 1201 63,0 63,4 63,4 vdovec/vdova 190 10,0 10,0 73,5 rozvedený/á 141 7.4 7.4 80,9 odloučeni 7 .4 ,4 81,3 svobodný/á 354 18,6 187 100.0 Total 1893 99.2 100.0 Missing nehodí se 5 ,3 neodpověděla 10 ,3 Total 15 ,8 Total 1908 100,0 s Processor is read r. 2.4a Ukázka výstupu výpočtu distribuce četnosti (příkaz Frequencies) Pozor, prosím. Pokud máte potřebu editovat své výsledky, veškerou editaci výstupů provádějte zde. !*(> přenesení výsledků do textového procesoru Word (viz dále) je to již prakticky vyloučeno, ;i to i v případě, kdy - navzdory varování, která najdete v textu dále - použijete pro přenesení výstupu do Wordu příkazu export. Takto přenesené tabulky/grafy se sice editovat dají, ale při návratu z editačního režimu se tabulka obvykle rozpadne a je nepřehledná až nečitelná. 1 *Owtputl (0 1 2 89 IV 5 22 Hi Obr. 2.4b Editace výstupu Etická vsuvka: hovoříme-li o editování, máme na mysli pochopitelně pouze editování grafické podoby výstupů. V žádném případě není možné v tabulkách editovat, to je měnit, jejich číselné hodnoty! Obsah výstupů neboli výpočtů z analýz je ve vědě nedotknutelný! Přepis hodnot ve vypočtených tabulkách nebo údajích je ve vědě horším zločinem než plagiarismus. Je to hanebný čin, který má pro jeho aktéra závažné důsledky. Výsledky, které se objeví v okně Output, lze uložit příkazem Save as. Uloží se v novém souboru s příponou .spo či .spv.43 Jednotlivé výstupy i celek lze také exportovat do Wordu, to však nedoporučujeme, neboť tabulky se často rozpadnou. Lepší je v menu Edit tabulku zablokovat a pomocí Copy Object (nebo také příkazem Ctrl i (') ji vložit jako objekt příkazem Ctrl+V do textu, který píšeme v textovém editoru. Soubor typu *.spo či *.spv lze otevřít jen v SPSS Statistics. Je nutné také upozornit, že jednotlivé verze SPSS mají různý formát tohoto souboru, a proto lze soubor typu *.spo či *.spv spolehlivě otevřít jen ve verzi SPSS, v níž byl vytvořen. Pro datové soubory (*.sav, viz dále též část 2.4) tato nepřenositelnost mezi verzemi neplatí, nejlepší je ovšem data ukládat ve formátu *.por, který umí spolehlivě číst všechny verze SPSS a nadto i mnohé jiné softwary (např. SAS, STATA Transfer apod.). I V, Syntax a Scripf SI*SS hyl původně vyvinut v operačním systému DOS, takže místo klikáním na tlačítka V menu bylo nutno zadávat příkazy ve formě vět, jejichž tvar (syntax) byl předepsán. I ve verzi pracující pod Windows lze příkaz zadat nejen pomocí menu, ale i pomocí psaného příkazu. K tomu slouží okno Syntax (menu Files). Například výpočet rozložení hodnot proměnné rodstav a grafu tohoto rozložení (viz dále) lze zadat příkazem: FREQUENCIES VARIABLES=rod_stav /PIECHART. (viz obr. 2.5) Tento příkaz znamená: udělej třídění prvního stupně (=FREQUENCIES) proměnné, která se jmenuje „rodstav" (neboli rodinný stav respondenta), a přidej koláčový graf ( PIECl IART) znázorňující rozložení jejích hodnot.44 1 [FREQUENCIES VARIABLES=rod_stav /PIECHART. 2* lUM Commana CM SPSS Satms Píocessof is r«Qy_UwqxW ON W 2 Col 0 NUU Obr. 2.5 Okno pro psaní příkazů ve formě syntaxe " /kuste si tento příkaz provést: vkopírujtejej do okna pro syntax a klikněte na ikonu zeleného trojúhelníku (nebo šipky, ehcete-li). Pozor, tečka na konci přikazuje bytostne důležitá. Pokud ji zapomenete, program nc\ i, kde jeden příkaz končí a druhý začíná, takže výpočet odmítne.' Studenti, klen s programem teprve začínají, příkazy obvykle zadávají klikáním na příslušné ikonky v rozbalovacích menu. Upozornění na možnost zadávat příkazy prostřednictvím syntaxe je především pro pokročilejší uživatele (více je o syntaxi v dodatku II léto učebnice). Pokud si v Edit Option - Vtewer (tedy v příkazech, jimiž nastavujeme vnitřní prostředí SPSS) zatržením kolonky u Display command in log (v levém dolním rohu interaktivního okna) tuto funkci nastavíte, máte možnost si po každém výpočtu zadaném v menu na prvních řádcích výsledků ve výstupu Ontput přečíst i text příkazu výpočet zadávající.46 Nová okna Syntax a Script lze otevřít v menu Vile Xew a do otevřených oken lze psát konvenčním jazykem SPSS příkazy. Obsah okna lze uložit jako soubor syntaxí s příponou .sps a skriptů s příponou .sbs (jde o běžné textové soubory čitelné ve všech textových editorech). Soubory se syntaxí obsahují příkazy, které umožňují zadávat a spouštět statistické procedury (které jsou jinak v menu Analýze) a příkazy k transformaci dat (které jsou jinak v menu Transform). Skriptové soubory dovolují manipulovat s výstupy (oba typy souboru lze pro práci s daty kombinovat). Prosíme čtenáře, aby se v tuto chvíli neděsili a pokračovali dále ve čtení. Tato nyní naprosto nepochopitelná hatmatilka se vám totiž po několika sezeních nad SPSS a práci s ním natolik dostane do krve, že se stane běžnou součástí vašeho datově analytického žargonu. S psanými příkazy většinou nepracujeme, existují však užitečné výjimky. Zmíníme tři z nich: - Syntax je výhodné použít při transformaci existujících proměnných do nové proměnné za pomoci logických podmínek - viz příslušnou kapitolu o transformaci proměnných a proceduře If. - Je výhodné zapsat si syntakticky zadání rutinně opakovaného výpočtu s různými daty. Například tehdy, když se zabýváte problematikou nezaměstnanosti a úplné stejným způsobem zpracováváte začátkem každého měsíce data, která vám přicházejí ze statistického výkazu úřadu práce o počtech a struktuře nezaměstnaných. Jednou napsaný příkaz (syntax) slouží tak dlouho, jak zůstává výpočet neměnný. Pak stačí, abyste si otevřeli matici s novými daty a na ni pustili syntax uloženou na disku vašeho počítače prostřednictvím příkazu Run. Novější verze jsou ovšem již natolik „inteligentní", že se analytika zeptají, zda náhodou tečku nezapomněl. Pokud chceme zobrazit jen příkaz pro konkrétní operaci, pak po jejím naklikání přes menu stiskneme místo OK volbu Paste. SPSS operaci neprovede, pouze zobrazí příkaz do okna pro syntax, Pokud budeme chtít operaci z okna spustit, stačí tento příkaz označit myší a stisknout Ctrl i R. Můžete se takto alespoň částečně s příkazy naučit pracovat. Více se o příkazovém jazyce dozvíte ve druhém dodatku učebnice. 57 U složitějších výpočtů vícerozměrných analýz je potřeba, abyste si všechny příkazy k analýzám uchovávali vc svém výpočetním archivu. Nikdy loliž nevíte, kdy si budete musel ověřil, zdali jsle postupovali správně - a bez archivace syntaxe výpočtu toho nebudete schopni. SPSS má poměrně rozsáhlou a dobře zpracovanou nápovědu (Help), která obsahuje i základní uvedení do programu {Tutoriál). Rozhodně stojí za prohlédnutí. Společně s ukázkovými daty se totiž lze mnohému naučit sám i bez dotěrného učitele a (špatně) napsané učebnice. 2.2 Data 2.2.1 Matice dat Při statistické analýze dat pracujeme s číslicemi, které mají určitý význam (pracujeme s kategorizovanými daty), nebo s čísly. Abychom mohli analýzu provádět, musíme tato data dostat do počítače a vytvořit v něm datovou matici. Protože jde o zpracování hromadných dat, pracujeme s hodnotami proměnných neboli s kvantifikovanými charakteristikami/vlastnostmi případů - to je respondentů či jiných objektů, popřípadě jevů. Matici tvoří tedy případy (obvykle řádky matice) versus proměnné (obvykle sloupce matice) a obsah matice tvoří hodnoty příslušných proměnných charakterizujících jednotlivé případy. Případy jsou popsány svými vlastnostmi (atributy) - variantami neboli hodnotami proměnných, které jsou jejich logickými uskupeními. Například proměnná vzdělání může být uskupením možných nejvyšších dosažených stupňů vzdělání: základní, středoškolské, vysokoškolské, které lze popřípadě dále členit: vysokoškolské nižšího typu (Bc), vyššího typu (Mgr.), popř. s vědeckou hodností (PhDr., Ph.D. apod.). Každému případu přidělujeme v matici jeho identifikační číslo - ID - a ideální je, máme-li stejným číslem označený i originální dokument, z něhož data o případu (nejčastěji respondentovi/respondentce - tedy dotazníku) čerpáme. Jen tak můžeme v případě nejasností porovnat zdroj dat s jejich záznamem v matici (proto dotazníky nikdy neničíme, ale archivujeme je) a data tak dodatečně kontrolovat. A že se chyby při nahrávání dat vyskytují, je mnohokrát potvrzenou zkušeností.''7 Co jsou proměnné, již víme, stejně jako víme, že existují proměnné kategorizované (nominální a ordinální) a proměnné spojité (kardinální). U nominálních proměnných je spojení číslice (numerického kódu) a vlastnosti zcela arbitrami, takže bychom proměnnou „rodinný stav" mohli kódovat např. 1 = svobodný/á, 5 = ženatý/vdaná, 6 = rozvedený/á a 9 = ovdovělý/á, u ordinálních proměnných číslice označují pozici 47 Což jenom dále nahrává určité skepsi o možnostech měření v sociálních vědách. Je ale pravda, že chyhám při nahrávání dat do počítače se nevyhnou ani přírodní vědy. varianty na Škále, aniž by cokoliv říkaly o vzdálenosti mezi těmito pozicemi (vzděláni: základní I, střední 2, vysokoškolské 3 apod.). Je dobré si loto zvolené přiřazeni číslic k charakteristikám pamatovat: je sice již dokumentováno v dotazníku, ale do něho nemůžeme při analýze z časových důvodů neustále nahlížet, a proto při definici matice v SPSS musíme vedle definice proměnných také určit, jak proměnnou pojmenujeme, kolik bude mít v případě spojitých proměnných - desetinných míst, jaký verbální význam má jméno proměnné a číslice jejích hodnot v případě kategorizovaných proměnných. U spojitých proměnných jsou jejich hodnoty konkrétními čísly, která přímo vyjadřuji množství příslušné vlastnosti, takže popisky jejich hodnot nejsou potřebné. Zopakujme si tedy: každý případ představuje vektor obsahující hodnoty příslušných proměnných (každá varianta každé proměnné má přiřazenu číslici).48 Vektory plníme do matice: co řádek, to případ (např. respondent), a co sloupec, to proměnná. Vše ilustruje obr. 2.6. 7?] -Untitle [0ataS«2] - PASW Statistics Data Editor File Edit View Data Transform Analyze Direct Marketing Graphs Utilities Add-ons Winnow Help y lRi VisiDle 5 ot 5 variables 1 = základni, nevyučen/a 2 = základní, vyučen/a 3 = středoškolské 4 = vysokoškolské 1 = krajní levice 2 = levice 3 = střed 4 = pravice 5 - krajní pravice PŘÍPAD (CASE/RESPONDENT) 1: pořadové číslo (ID) = 1080 žena (pohlaví = 2) věk: 34 let vzdělání: vyučená pozice na škále politická levice či pravice = 1 signalizuje levicovou orientaci PŘÍPAD (CASE/RESPONDENT) 2: pořadové číslo (ID) = 1081 muž (pohlaví = 1) věk: 45 let vzdělání: vysokoškolské pozice na škále politická levice či pravice = 5 signalizuje pravicovou orientaci 3M Data View Vanaole View PASW Statistics Processor is ready Obr. 2.6 Ukázka matice dat s pěti proměnnými a dvěma případy (respondenty) - smyšlený soubor SPSS umožňuje i záznam hodnoty proměnné vc formě textu. S ohledem na to, že tuto variant používáme v sociálních vědách jen okrajově, z našich úvah ji vynecháváme. 58 sí Matice dat je, řečeno jinak, souborem kódů, za nimiž sc skrývají konkrétni kvalitativní nebo kvantitativní vlastnosti jednotek našeho výzkumu, lato data mohou být dále upravována, například pomocí transformací proměnných či výběrem případů a především analyzována. Podíváme-li se nyní na dotazník, jenž je v sociologii obvyklým nástrojem sběru kvantitativních údajů, z hlediska analýzy dat, je nutno každou jeho otázku (položku) a navržený způsob měření (to je k ní přiřazenou stupnici hodnot) vnímat tak, jak ukazuje obr. 2.7. {6. S kým jsou podle Vás větší výdaje, se syny nebo s dcerami anebo je to stejné? Se syny .................................................. 1 s dcerami................................................. 2 je to stejné................................................ 3 NEVl/NEODPOVĚDĚL/A............................... -1 popisky hodnot proměnné (value labels) Obr. 2.7 Demonstrace otázky v dotazníku jako (kategorizované) proměnné z hlediska jazyka SPSS Pozn. Odpovídající jméno proměnné se obvykle neuvádí v dotazníku (proto zde absentuje), dle ; zde jsme zvolili názvy Qla až //'(mohlo by být také Q11 až Ql_6) proto, aby napovídaly, že všech 6 proměnných tvoří jednu společnou baterii otázek, že tedy měří něco společného. Záporné hodnoty u odpovědí „neví" a „neodpověděl(a)" představují svým způsobem chybějící údaje neboli chybějící hodnoty {missing values) vždycky musíme totiž předpokládat, že někteří respondenti na naše otázky neodpoví. I chybějící údaje je dobré kódovat, volba kóduje libovolná, kód však nesmí míl hodnotu, kterou může nabývat příslušná proměnná. U missing values je navíc někdy užitečné rozlišovat, kdy údaj chybí proto, že respondent na otázku odmítl odpovědět, kdy proto, že se ho netýká (což je případ v naší tabulce), popřípadě že chybějící údaj vznikl opomenutím tazatele apod.50 V některých situacích má totiž smysl analyzovat i tyto chybějící odpovědi, zvláště kdy/ sc jich u některých položek objeví mnoho: analýza nám umožní zjistit, jaký typ respondentů odpověď odmítl, což může být pro intepretaci výsledků důležitá informace. (>l 2.2.2 Definice jednotlivých proměnných Abychom mohli matici naplnil daty, musíme ji, jak jsme naznačili výše, nejprve definoval. I )ěje se tak v okně I uriahle i lew, které jsme ukázali již na obr. 2.3. Jde o tyto úkony: Připsání technického jména proměnné, určení jejího místa v matici (sloupce/ sloupců). Definice charakteru proměnné jako číselné (numeric) či textové (string); textovou proměnnou počítač chápe jako označení a neprovádí s ní početní operace, jako je sčítání či násobení. Připsání širšího/podrobnějšího označení proměnné (variable labels). Připsání verbálního označení jednotlivým hodnotám (kategorizované) proměnné (value labels). Ty zpřehledňují tištěné výstupy, neboť přiřazují ke jménům proměnných i vysvětlující popis. Např. ql_2 může být jméno proměnné neboli variable nanic a „důležitost rodiny v životě" může být vysvětlující popisek jména této proměnné neboli variable label. Její varianty „velmi důležitá", „dosti důležitá", „nepříliš důležitá", „vůbec nedůležitá" a „neví" jsou pak valíte labels dané proměnné. Pozor: V případě spojitých proměnných nedávají value labels smysl a nepoužíváme je! Určení počtu desetinných míst (v případě spojitých proměnných). Definování uživatelských chybějících hodnot (tzv. user missing vahtes).^ Někdy do missing value přeřazujeme některé hodnoty proměnných při jejich transformaci. Týká se to například varianty „nevím", která sice někdy může být součástí ordinální proměnné jakožto její středová hodnota (1 = s vládou jsem spokojen, 2 = nevím, 3 = s vládou jsem nespokojen), častější jsou ale případy, kdy ji používáme jen proto, abychom nenutili respondenta/respondentku zaujímat postoj, který nemá. V další analýze se pak často soustřeďujeme jen na ty, kdo postoj zaujali a v modulu Transform - Recode přiřadíme odpovědím „nevím" číslici označující chybějící hodnotu (missing value). Často je to záporná hodnota.52 Rozumné je určit u každé proměnné v kolonce Measure úroveň měření. Tato informace totiž u některých statistických operací rozhoduje o volbě počítaných statistik. Některé sloupce v okně Variable view (viz obr. 2.9) můžeme vyplnit přímo vepsáním příslušného textu, jiné nám nabídnou po kliknutí předdefinované volby. Přímo vyplňujeme sloupce Name a Label, v ostatních po kliknutí vyskočí rozbalovací okno. SPSS zná i systémové chybějící hodnoty (systém missing value). Ty se zobrazují v datové matici jako tečky a znamenají, že pro danou proměnnou a daný případ není k dispozici žádná hodnota (např. v dotazníku není zaškrtnuta žádná odpověď). K tomu, jak se v některých konkrétních statistických technikách zachází s missing value, se ještě vrátíme. Většinou se s případy obsahujícími missing value nepracuje (s výjimkou uvedenou v pozn. 48). 62 t* ť i* u* i-*-- *-»• '»*■»•—"« tř— V"~' —r* r— B"» ..... .aw# m ir\ m±*w h ■ «i m :i n..im.. Type Wuith Declmali Label Values I 1 Rod ilav Numerfc 6 0 Rodinný slav respondenta (1, svobodny) Missing Columns Align None 8 ■ Righl Measure Rots ■lOrdinal * Input ..'•.J K Obr. 2.9 Okno pro popis proměnných Klikneme-li na sloupec Vahtes, můžeme v rozbalivším se okně vepsat popisky jejich hodnot (viz obr. 2.10). Do kolonky Value vepíšeme číslici hodnoty, tabulátorem či pomocí myši přejdeme do kolonky Label a vepíšeme popisek. Spodní tlačítka nám umožní takto definovaný label přidat (volba Add) a v seznamu labels pak provádět /měny (volby Change či Remové). Nakonec vše odsouhlasíme kliknutím na OK. Value Labels-- Value: [4_ , Spelling... j Label: |rozvedený/á| 1 = "svobodný" 2 = "ženatý/vdaná" 3 = "rozvedený/á" Add J í Define Multiple Response Sets validation r£| identify Duplicate Cases rTj identify Unusual Cases Sort Cases 3 Sort Variables ~l Transpose isi Restructure Merge Files ^Aggregate Ormogonal Design Copy Dataset 3! Split File Select Cases, .-ft Weight Cases Lili jH^W visioie 368of368vaiiaoies q1_3 ,1.4 ,1_5 ,1.6 ,2 q3_1 Add Cases Si Add variables 53 CZ 54 CZ 55 CZ 56 CZ 57 CZ 58 CZ 60 CZ 850170 850170 850170 850170 850170 850170 540209 2 2 ,5a1 pasw Statistics Processor is ready Obr. 2.15 Přidávání nových případů k již existující matici 67 Al A2 A3 A4 AS A6 /.m.in.-k Al A2 A3 A4 A5 A6 D«ml chéma 2.2 !.3.2 Záměna řádků a sloupců matice (procedura Transponse) 'iíka/ Transponse vytváří nový datový soubor, ve kterém jsou: původní řádky (případy) sloupci (proměnnými); původní sloupce (proměnné) řádky (případy). Automaticky se vytvářejí nová jména proměnných. Využití je zejména ve složitějších tatistických procedurách, případně při převodech do jiných programů (viz obr. 2.16). 7H 1VW0.(vKny.Hv [0*t»Setl] - PASW SUtšhn D«t> Editor ř"» E«t Wtw Data Transform >nal,ze Direct MaO.eting Graphs UMitw Add-ons Window H«lp 3 1 M H tsi i3 [s [ * : z* 35 Mi visiole 36Bor368variat>les 6 CZ 7CZ 8 CZ 9 CZ 10 CZ 12 CZ 13 CZ 14 CZ 16 CZ 21 CZ 25 CZ 26 CZ 29 CZ 31 CZ 33 CZ 36 CZ 40 CZ 53 CZ 54 CZ 55 CZ 56 CZ 57 CZ 58 CZ 60 CZ MIH VMIlVil. taz 550602 550602 550602 550602 55(y— 551 EE 61( 54! 54( 701 i t ql-2 i 01_3 A 11-4 #> Q1-5 J Ql-6 # q1_6fcat J 02 dj03_1 i 13_S da3.3 A v* .Jq5a1 Jq5a10 dl 05a1l rj °5a12 J|q5a13 ll hc314 Select O Alt cases O If condition is satisfied I Random sample ot cases o Based on time or case range o Use filter variable © Filter out unselected cases o Copy selected cases to a new dataset O Delete unselected cases Current Status Do not filter cases Reset Cancel Help Obr. 2.17 Výběr náhodného podsouboru z původního souboru 68 Můžeme buď vybral přibližný (Approximately) podíl z původního souboru (např. 25 'Mi), nebo určitý počet případů (poskíiknutí na možnost Exactly vypíšeme celkový počet jednotek původního souboj; [7H Select Cases: Random^imple i Sample Size t|Appro*TWte»i r- ] %ota,| cas6S o Exactly cases from the first GD cases Cancel Help Můžeme zadat procento případů z celku, které chceme do výběru zahrnout, nebo přesný počet případů. ( o se týče rozhodnutí, co s nevybranými případy (viz možnosti v rámečku Output na obr. 2.17), doporučujeme používat raději variantu Filter out unselected cases (na obrázku je zapnuta), která nevybrané případy nemaže, ponechává je v souboru, ale nepracuje s nimi (v matici dat takové případy poznáme podle toho, že jejich ID je iřeškrtnuto). Filtr lze totiž lehce vypnout, takže pokud je potřeba (a ono to většinou potřeba je), lze dále pracovat s celým souborem. Pokud použijeme variantu Delete unselected cases, jsou všechny nevybrané případy odstraněny. Pak ale musíme být /dmi opatrní a přemýšlet, zdali takto redukovaný soubor chceme uložit, nebo ne. Pokud ho uložíme pod stejným jménem, původní soubor se přepíše a nám zůstane jen ioubor s vybranými jednotkami - a právem také oči pro pláč, pokud bychom neměli )ředposlední podobu souboru zálohovanou. 2.4.2 Výběr případů za pomoci podmínky (procedura Select cases if) Měkdy se může stát, že nás analyticky zajímají jen menší podsoubory (například jen >eny nebo jen osoby se středoškolským vzděláním a vyšším, popřípadě jen osoby lydlící v Praze), a proto šije vybíráme, abychom další analytické výpočty prováděli en s nimi. Je pochopitelné, že je můžeme vybírat jen podle známých - zjištěných -■harakteristik: pokud jsme například v dotazníku nezjišťovali místo bydliště respon-lenta, nemůžeme vybrat, řekněme, obyvatele Prahy. Podsoubory, s nimiž chceme pracovat, určujeme pomocí podmínky: do okénka vynikáme nebo vypíšeme podmínku, např. SEX = 1 (chceme-li pracovat jen s muži a víme, x v proměnné SEX 1 = muž), OBEC = 15 (chceme-li pracovat jen s obyvateli Prahy i víme, že v proměnné OBEC Praha =15), VZDEL > 2 (chceme-li pracovat s osobami, ež mají středoškolské a vysokoškolské vzdělání, a víme, že v proměnné VZDEL osoba ie středoškolským vzděláním = 3 a osoba s vysokoškolským vzděláním = 4). Může nás například zajímat analýza lidí ve věku 60 let a starších. K výběru takové ho podsouboru použijeme proceduru Dum Select cases U condition is satisfied. Po kliknutí na tlačítko //'... se objeví dialogové okno, do nějž vepíšeme příslušnou podmínku pro výběr (viz obr. 2.18 a 2.19). V našem případě vybíráme podsoubor respondentů ve věku 60 let a starších. /tu Jq1_1 *. m_2 Aiu #>q<-5 #. Jtf ÍA.I A "3.2 A 'ľ ' dl* A T..1 Jq5a10 3*111 lU ľ ■>1- Jq5a13 jjq5a14 O All cases ® if condition is satisfied (Tin vek.= 0 Random sample of cases o Based on time or case range o Use filter vanabie: Toho dosáhneme, klikneme-li na If a zadáme-li podmínku výběru. c I Filter out unselected cases O Copy selected cases to a new dataset O Delete unselected cases Cunent Status Do notfiiter cases Pasle Rasel Canc.1 H.lp Obr. 2.18 Způsob výběru podsouboru jednotek [m stiften«» ED t q106 Í qt07 $ q108 i q109 t «HO t, «110a Q110S 4. Q110C ✓ q1110 *q112 *. qua M. :• /c61 *Tc53 j| vzdelaní I ✓ veit.kaG 4? qi 1_rec 4? du. era f q23_rec f Vo!_pref *ek>=60| Continue I Cancel Help M I Antnmetic CDF & Noncentrat CDF Conversion Current Date/Time Date Arithmetic Date Creation Fundions and Special Vanables Obr. 2.19 Zadávání podmínek pro výběr podsouboru Podmínky lze samozřejmě různě kombinovat, např. by bylo mo/nc získat jen pod-souhoi nuižii ve věku 601 lei, kteří ještě pracují, apod. Přidání dalších podmínek se řídí pravidly logiky a my si přitom musíme dávat dobrý pozor, co z hlediska výběru pod-SOUboru znamenají příkazy „nebo" a „a současně" (blíže o tomto detailu v 6. kapitole). Před přechodem k výpočtům opět s celým souborem nesmíme zapomenout filtraci odstranit. Chceme-li v průběhu práce s daty ukončit práci s vybraným podsouborem i vrátit se k celému souboru, klikneme v Selecí cases na Reseí (filtr je odstraněn) nebo na (// cases (filtr je pouze vypnut, lze ho opětovně použít).54 Někdy se stane, zejména v časové tísni, že na to člověk zapomene, používá stále vybraný podsoubor a výsledky mylně vydává za produkt výpočtů s celým souborem. Pak je samozřejmě překvapen, jaké „neuvěřitelné" věci z analýzy vycházejí.55 Všechny výše uvedené postupy využíváme většinou před samotnou analýzou, takže mají spíše povahu technické manipulace s daty. Pro nás jsou ale samozřejmě mnohem důležitější příslušné statistické procedury a operace, jejichž prostřednictvím získáváme výzkumné výsledky. Program SPSS jich nabízí obrovské množství, které sociolog málokdy detailně zvládne a ne všechny ve své praxi využije - ať je jejich využití limitováno povahou jeho výzkumných dat, nebo rozsahem jeho znalostí statistiky. S některými z nich - s těmi nejfrekventovanějšími a jednoduššími - se postupně seznámíme v následujících kapitolách. Než se do toho pustíme, neodpustíme si ještě několik upozornění, která je třeba mít při práci se statistickým softwarem neustále na paměti: Naše výzkumné otázky |;i kdy i charakter získávaných dat) bychom nikdy neměli přizpůsobovat statistickým procedurám, které nabízí náš program, ale naopak bychom měli vyhledávat procedury umožňující maximální využití našich dat. To ale vyžaduje, abychom 1) měli alespoň povědomí o tom, co každá z procedur nabízí, a abychom 2) věděli, jaké má každá procedura požadavky na povahu škál, s nimiž pracuje (tedy jaké jsou podmínky její aplikace). To neruší požadavek důrazu na věcnou stránku výzkumu, upozorňuje nás to však na to, že základní plán analýzy dat musíme mít již při koncipování výzkumu. Abychom mohli použít například faktorovou analýzu (její aplikace ovšem musí vycházet z toho, že nám pomůže smysluplně odpovědět na naše výzkumné otázky, i nikoliv z toho, že jsme seji právě naučili používat nebo že je módní), musíme již ve ■ivém dotazníku pro ni připravit vhodné otázky (položky): tedy že musíme formulovat lalcrii alespoň 6-10 otázek se stupnicemi o stejném rozsahu s alespoň 5 hodnotami, í) Musíme mít neustále na paměti, že program spočítá vše, co mu zadáme, a nepřemýšlí ani nemůže, není to myslící bytost, byť máme někdy tendenci jej personifikovat) Pokud chcete začít pracovat s celým souborem a použili jste volbu Delele unseelcled cases, musíte si původní soubor znovu otevřít! Na tulo chybu občas narážíme v bakalářských pracích. 1 to je jeden z důvodů, proč po studentech požadujeme, aby s finálním textem práce odevzdávali i datový soubor. Nezdaj í-li se oponentům některé výsledky, velmi rychle šije zkontrolují. 0 smysluplnosti zadání, ani O dodržení určitých požadavku na analýzu. My musíme například věděl (ne ON), že nemá příliš smysl sledovat souvislost dvou proměnných pouze prostřednictvím charakteristiky chĺ-kvadrát (vysvetlíme v kapitole X) nebo že není možné počítat z kódů nominální proměnné průměr a že je nemyslitelné, abychom pi i aplikaci lineární regrese měli naši závisle proměnnou dichotomické povahy. Pokud .i některá základní pravidla statistiky nebudeme pamatovat, může se stát, že budeme Často počítat (s přesností několika desetinných míst) a pak i sofistikovaně interpretoval naprosté nesmysly. Eufemisticky, abychom neurazili, tomu říkáme „produkoval statistické artefakty".56 Angličtina pro to má pěkný akronym GIGO = garbage in, garbage out (smetí vevnitř, smetí venku). I) 73