1 SOC108/708 Lekce 1: POVAHA HROMADNÝCH DAT A LOGIKA SURVEY. PRÁCE S HROMADNÝMI DATY PŘED JEJICH ANALÝZOU (c) Petr Mareš a Ladislav Rabušic 2002 LEKCE01 POVAHA HROMADNÝCH DAT A LOGIKA SURVEY. PRÁCE S HROMADNÝMI DATY PŘED JEJICH ANALÝZOU MATICE DAT Protože jde o zpracování hromadných dat, pracujeme s kvantifikovanými charakteristikami případů (respondentů či jiných objektů, popřípadě aktů - charakterizovat můžeme například komunikaci, jednání apod.). ˙ Případy jsou popsány svými vlastnostmi (atributy) - variantami neboli hodnotami proměnných, které jsou jejich logickými uskupeními. Například proměnná vzdělání může být uskupením možných nejvyšších dosažených stupňů vzdělání: základní, středoškolské, vysokoškolské (které lze popřípadě dále členit: základní nedokončené, základní bez vyučení, základní s vyučením etc.). ˙ Každý případ tak představuje vektor obsahujících hodnoty příslušných proměnných (každá varianta každé proměnné má přiřazenu číslici). ˙ Vektory plníme do matice: co řádek, to případ (např. respondent) a co sloupec, to proměnná. OTÁZKA V DOTAZNÍKU JAKO PROMĚNNÁ číslo otázky v dotazníku 2. Když se setkáte se svými přáteli, řekl(a) byste, že diskutujete o politických tématech často, příležitostně, nebo nikdy? v1 A Často 1 B Příležitostně 2 C Nikdy 3 Neví -1 respektive 9 Neodpověděl(a) -2 99 apod. chybějící hodnota (missing value) jméno labels hodnot proměnné (value labels) hodnoty proměnné přidáme: label proměnné (variable label) Co s variantami ˙ Varianta "nevím" a "neodpověděl/a". ˙ Varianta "nevím" a úroveň měření. BATERIE OTÁZEK V DOTAZNÍKU JAKO SADA PROMĚNNÝCH 1. Řekněte prosím o každé z následujících skutečností, jak je ve Vašem životě důležitá: Vel Dost Ne Vůbe mi důlež příli c ne Nev Neo důle itá š í dpov žitá důlež důlež ěděl itá itá (a) A Práce 1 2 3 4 -1 -2 v1a B Rodina 1 2 3 4 -1 -2 v1b C Přátelé a známí 1 2 3 4 -1 -2 v1c D Volný čas 1 2 3 4 -1 -2 v1d E Politika 1 2 3 4 -1 -2 v1a F Náboženství 1 2 3 4 -1 -2 v1f Zde je každý řádek proměnnou s oborem hodnot <1;4>, záporné hodnoty představují missing value. Možná jména proměnných například: Q1_1 až Q1_6 napovídají, že všech 6 proměnných má něco společného. DEFINICE JEDNOTLIVÝCH PROMĚNNÝCH Abychom mohli matici naplnit, musíme ji nejprve definovat. Děje se tak v modu VARIABLE VIEW. Jde o tyto úkony: ˙ Připsání jména proměnné, určení jejího místa v matici (sloupce/sloupců). ˙ Definice charakteru proměnné jako numerické či stringové (alfaznakové, kterou počítač chápe jako označení a neprovádí s ní početní operace) apd. ˙ Připsání širšího označení proměnné (variable labels). ˙ Připsání širšího označení jednotlivým hodnotám proměnné (value labels). Labels zpřehledňují tištěné výstupy, neboť přiřazují k jménům proměnných (jež mohou mít dle konvence pouze 8 znaků) i vysvětlující popis. Např. q1_2 (jméno proměnné neboli name) Význam rodiny v životě (label proměnné neboli value label). ˙ Určení počtu desetinných míst. Pozor: souvisí s definicí počtu požadovaných sloupců v matici pro proměnnou. ˙ Definování tzv. missing value. Většinou se z analýzy (dočasně - jen pro danou operaci) případy s missing value vyřazují. Vymezení typu proměnné a počtu desetinných míst (v výjimkou kardinálních proměnných desetinných míst nepoužíváme). Vymezení labels Variable label se píše do příslušného sloupce přímo, value labels zapíšeme do vyvolaného formuláře. Vymezení missing value Missing value jsou hodnoty, které nevcházejí (pokud si to výslovně nepřejeme a nezadáme) do analýzy. Jsou to kódy například pro případ, že respondent na otázku neodpověděl, odpověděl variantou nevím etc. PLNĚNÍ MATICE DATY Děje se tak zatím nejčastěji vkládáním jednotlivých hodnot (navedení jednotlivých dotazníků) do prázdné definované matice (definujeme ji popisem proměnných -- viz). Výsledkem je matice dat, která může být dále upravována (například pomocí transformací proměnných nebo výběrem případů) a analyzována. Data ovšem můžete dostat do matice i jinými způsoby. Důležité jsou pro nás zejména: - Otevřeni již existujícího souboru. V SPSS již dříve vytvořené a uložené matice dat neboli systémové soubory mají příponu .sav,, soubory vytvořené ještě v době, kdy program pracoval pod operačním systémem DOS mohou mít přílohu .sys (tyto soubory lze také otevřít, je však třeba při jejich otevírání tuto možnost nastavit). Systémové soubory s příponou sav. Lze ve Wincommandru často spustiti zakliknutím (poku mají definovánu vazbu na SPSS jako prohlížeč (pokud tomu tak není, nezbývá než nejprve spustit SPSS a teprve v něm pomocí FILE OPEN DATA soubor natáhnout. - Import dat ze souboru jiného typu (z textového editoru, databáze či spredsheetového programu jako je Excel). OTEVŘENÍ SYSTÉMOVÉHO SOUBORU FILE > OPEN > DATA Program si pamatuje soubory, s nimiž naposledy pracoval, lze je spustit přímo z FILE. PŘEVOD DATABÁZOVÉHO SOUBORU FILE > OPEN DATABASE > NEW QUERY Zvolíme typ souboru (např. EXCEL files). Najdeme příslušný soubor pomocí Browse: Otevřeme ho a odsouhlasíme (OK v ODBC Driver Login). Pak přetáhnu pomocí myši List z levého do pravého okna. Pomocí Další mohu omezit přetahované případy, nebo mohu Dokončit. Obsah Excelového souboru je přetažen do systémového souboru SPSS. Je to matice dat i se sloupcem představujícím jména bývalých krajů (proměnnou F1 mohu v okně VARIABLES VIEW přejmenovat)) a jmény proměnných (jednotlivá čtvrtletí let 1994 a 1995). Data v matici představují příslušné míry nezaměstnanosti v daných krajích (kraje jsou případy) v těchto čtvrtletích (čtvrtletí jsou proměnnými a data v dané kolonce vždy hodnotou dané proměnné -- svou povahou jsou to kardinální/spojité proměnné). UKLÁDÁNÍ SOUBORŮ Data je třeba uložit (jako soubor s příponou .sav, což je systémový soubor, obsahující popsanou matici neboli definované a popsané proměnné a jejich hodnoty, naplněnou daty). Ukládejte soubor po každé změně (přidání případu nebo vytvoření nových proměnných -- viz lekce věnovaná transformaci proměnných). Ponechávejte (samozřejmě pod různými názvy): - Pramenný soubor (naplněná a zkontrolovaná původní matice, v níž nebyly provedeny žádné další změny). - Předposlední podobu souboru. - Poslední podobu souboru. SLUČOVÁNÍ SOUBORŮ - ADD CASES ÚLOHA Máme personální databáze jednotlivých imatrikulačních ročníků studentů (každý ročník je samostatná matice dat) a chceme vytvořit jednotnou databázi studentů všech ročníků (jednu matici). Struktura matice je stejná: sledují se stejné proměnné (charakteristiky studentů) a v maticích jsou uvedeny ve stejném pořadí. K případům jednoho souboru se přidají případy druhého souboru. A1 A2 A3 A4 A5 A6 ................ Ai ................ An Adamec Blahá ..... Zemina + A1 A2 A3 A4 A5 A6 ................ Ai ................ An Deml Stará ..... Vechtr SLUČOVÁNÍ SOUBORŮ - ADD VARIABLES ÚLOHA Máme v jedné databázi (matici) údaje o osobních charakteristikách studentů a v druhé databázi (matici) údaje o jejich prospěchu. Chceme je dostat do jedné matice všech údajů o studentech. Pořadí studentů musí být ve slučovaných maticích shodné, nebo musíme mít znak, který každého studenta jednoznačně definuje. K proměnných jednoho souboru se přidají proměnné dalšího souboru. O1 O2 ..... Oi ... On P1 P2 .... Pi ... Pn Adamec Adamec Blahá + Blahá ..... ..... Zemina Zemina TRANSPOSE Toto je matice před provedením příkazu TRANSPOSE Příkaz TRANSPOSE vytváří nový datový soubor ve kterém jsou: ? původní řádky (případy) sloupci (proměnnými) ? původní sloupce (proměnné) řádkami (případy) Automaticky se vytvářejí nová jména proměnných VÝBĚR PŘÍPADŮ Nemusíme vždy pracovat s celým výběrovým souborem, ale pomoci procedury SELECT CASES si z můžeme vybrat jen určitým způsobem definovaný podsoubor. If condition is satisfied: Zajímají nás jen menší podsoubory (například jen ženy nebo jen muži, nebo jen osoby s vysokoškolským vzděláním, nebo jen osoby bydlící v Praze, nebo jen osoby deklarující se jako příslušníci střední třídy, nebo jen nezaměstnané osoby apod.) a proto si je vybíráme, abychom další analytické výpočty prováděli jen s těmi případy, které do nich patří. Je pochopitelné, že je můžeme vybírat jen podle známých -- zjištěných -- charakteristik: pokud jsme například v dotazníku nezjišťovali místo bydliště respondenta, nemůžeme obyvatele Prahy vybrat, pokud jsme nerozlišili v dotazníku mezi osobami se základním vzděláním vyučené a nevyučené, nemůžeme ani s jedním takto vymezeným souborem pracovat a musíme se spokojit s podsouborem osob se základním vzděláním. Podsoubory s nimiž chceme pracovat určujeme pomocí podmínky: do okénka vyklikáme nebo vypíšeme podmínku, např. SEX =1 (chceme-li pracovat jen s muži a víme, že v proměnné SEX 1=muž), OBEC=15 (chceme-li pracovat jen s obyvateli Prahy a víme, že v proměnné OBEC Praha=15), VZDEL > 2 (chceme-li pracovat s osobami, jež mají středoškolské a vysokoškolské vzdělání a víme, že v proměnné VZDEL osoba se středoškolským vzděláním=3 a osoba s vysokoškolským vzděláním = 4. Random sample of cases: Dovoluje nám vytvořit z našeho souboru náhodný výběr (omezit počet jeho jednotek při zachování reprezentativity souboru -- samozřejmě, pokud byl reprezentativní původní soubor). Můžete nechat vybrat přibližný podíl z původního souboru, který stanovíme, nebo určitý počet případů (do from the first cases vypíšeme celkový počet jednotek původního souboru nebo někdy -- spíše výjimečně -- výběr omezíme jen na určitý počet případů). Co se týče rozhodnutí co s nevybranými případy, používejte raději variantu: Unselect cases are filtered. Filtr lze odstranit a dále pracovat s celým souborem, pokud použijete variantu Unselect cases are deleted, musíte být velmi opatrní: nesmíte si takto upravený soubor uložit pod stejným jménem -- přepsal by původní soubor a zůstal by Vám jen soubor s vybranými jednotkami (a právem také jen oči pro pláč, pokud byste neměli poslední podobu souboru zálohovanou).