Metodologie pro Informační studia a knihovnictví Transformace proměnných Co se dozvíte v tomto modulu? · Jak vytvořit novou proměnnou pomocí rekódování? · Jak vytvořit novou proměnnou pomocí aritmetických operací? · Jak vytvořit novou proměnnou pomocí sčítání výskytů hodnot proměnné? · Jak vytvořit novou proměnnou pomocí seřazení položek? Obsah Vytváření nových proměnných. 2 Rekódování 2 Aritmetické operace. 4 Aritmetické operace v Excelu. 5 Aritmetické operace v SPSS.. 5 Sčítání výskytů. 6 Sčítání výskytů v Excelu. 6 Sčítání výskytů v SPSS.. 6 Seřazení položek. 7 Seřazení položek v Excelu. 7 Seřazení položek v SPSS.. 8 Vytváření nových proměnných Při analýze někdy potřebujeme zjistit a využít proměnné, které v dotazníku přímo nezkoumáme, ale můžeme si je snadno vytvořit z existujících proměnných. Například pro srozumitelnější analýzu může být výhodné kategorizovat si věkové skupiny. Nebo chceme z proměnné „rok narození“ vytvořit srozumitelnější proměnnou „věk“. Obecně se s proměnnými dá dělat řada jednoduchých operací, my budeme využívat především: · rekódování, · aritmetické operace, · kategorizace dle percentilů, · sčítání výskytů, · seřazení položek. POZOR!!! Nové proměnné vždy vytváříme do nového sloupce – tak, abychom neztratili původní proměnné, kdybychom je ještě k něčemu potřebovali. Rekódování Rekódování nahrazuje kódy hodnot proměnných jinými kódy. Lze jej využít pro vytváření obecnějších kategorií u nominálních, ordinálních i kardinálních proměnných. Rekódování využíváme i pro otočení škály otázky (ve složitějších dotaznících bývají některé škály otočené, abychom udrželi respondentovu pozornost – při výsledné analýze, kdy vytváříme sumační indexy, je nutné reorientovat škály tak, aby byly všechny orientované jedním směrem). Speciální příklad rekódování může být kategorizace dle percentilů. Ta nám umožní rozdělit respondenty na X stejně velkých skupin dle hodnot námi zvolené proměnné – například podle výše příjmů nebo dle věku (například bychom si chtěli respondenty rozdělit na „bohaté“, střední třídu“ a „chudé“). Za bohaté bychom považovali respondenty v horním kvartilu (percentil 75), za chudé respondenty v dolním kvartilu (percentil 25) a za střední třídu respondenty ve středních kvartilech. Příklad: V dotazníku máme otázku zjišťující ekonomickou aktivitu respondentů (otázka č. 15). Třídění v této otázce je však velmi jemné a nás zajímá pouze, zda existují rozdíly v pohledu na knihovníky mezi lidmi, kteří jsou zaměstnáni (do této kategorie si přiřadíme i pracující na částečný úvazek a OSVČ), studenty a ostatními. Potřebujeme proto vytvořit novou proměnnou, která bude rozdělovat respondenty jen na tři kategorie – na ty, kteří pracují (plus OSVČ), na studenty a na ostatní. Kategorie tedy bude nabývat nově dvou validních hodnot: · zaměstnán/a anebo OSVČ 1 · student 2 · ostatní 3 Hodnoty proměnné tedy rekódujeme takto: · 1, 2, 3 à 1 · 8 à 2 · 4, 5, 6, 7, 9 à 3 Rekódování v Excelu Na rekódování v Excelu existuje řada pluginů, ale je možné využít i běžný postup „Najít a nahradit“ (CTRL+H). V našem příkladu by tedy byl postup následující: Pojďme si připomenout, jak vypadala původní otázka v dotazníku: A nyní můžeme rekódovat: 1. Zkopírujeme si sloupec s proměnnou „ekonomická činnost“ (9_ekcinnost) do nového sloupce, kde bude nová proměnná – pojmenujeme si ji třeba 15_ekcinnost-rec 2. Označíme si sloupec (dáváme pozor, abychom neměli označenou celou tabulku či na označení sloupce nezapomněli, v tom případě se nám překódují data z celého souboru). 3. Příkaz CTRL+H nám otevře dialogové okno, kde postupně budeme zadávat hodnoty k nahrazení. Vždy vybereme možnost „Nahradit vše“. 4. Nahrazujeme v pořadí: a. Kód 1 nahrazovat nemusíme, tady bude platit 1 à 1 b. 2 à 1 c. 3 à 1 d. 4 à 3 e. 5 à 3 f. 6 à 3 g. 7 à 3 h. 8 à 2 i. 9 (JIné) à 3 Je potřeba však dávat pozor na to, v jakém pořadí rekódujeme, aby nedošlo k dvojitému překódování. Například pokud bychom nejprve rekódovali 8 à 2 a potom 2 à 1, kategorie studentů by nám úplně zmizela. Rekódování v SPSS Rekódování v SPSS je snadná operace. V záložce „Transform“ zvolíme položku „Recode into different varialbles“. V tabulce poté naklikáme jméno a označení nové proměnné a dále staré a nové hodnoty proměnné: Získáme tím novou proměnnou, kterou je ale potřeba opět popsat, abychom s ní mohli dále pracovat: · zaměstnán/a anebo OSVČ 1 · student 2 · ostatní 3 Aritmetické operace Díky aritmetickým operacím lze snadno vytvářet nové proměnné, ze starých hodnot pomocí zadaného vzorce. Typickým příkladem je vytváření sumačních indexů – sčítání prostých nebo vážených hodnot stejných variant různých znaků. Příklad: Pokud bychom chtěli zjišťovat celkovou spokojenost s knihovnou, kterou jsme si operacionalizovali jako sumu různých měr spokojeností (spokojenosti s personálem, spokojenosti s výběrem fondu a spokojenosti s online službami), sumační index bude tvořit průměrná míra spokojenosti v těchto dílčích oblastech (získáme ji součtem hodnot jednotlivých proměnných, který vydělíme jejich počtem). Příklad: Klasickou Likertovou škálou měříme spokojenost s knihovními službami (s personálem, s výběrem fondu, online službami atd.). U každého respondenta chceme ještě určit jeho celkovou spokojenost, kterou vypočteme na základě hodnocení jednotlivých služeb. Lickertova škála: · velmi spokojen/a 1 · spíše spokojen/a 2 · ani spokojen/a, ani nespokojen/a 3 · spíše nespokojen/a 4 · velmi nespokojen/a 5 Respondent Karel odpovídal v dotazníku takto: · spokojenost s personálem: 1 · spokojenost s výběrem fondu 3 · spokojenost s online službami 2 · spokojenost s MVS 2 Jeho celková spokojenost s knihovními službami se dá vyjádřit jako sumační index (1+3+2+2)/4 (suma hodnocení jednotlivých služeb / počet hodnocení) = 2. Aritmetické operace v Excelu V Excelu zapisujeme vzorec přímo do tabulky. Pokud máme např. v řádku 1 (respondent 1) proměnné spokojenost s personálem (sloupec A), spokojenost s výběrem fondu (sloupec B) a spokojenost s online službami (sloupec C), pak vzoreček pro celkovou spokojenost bude =(A1+B1+C1)/3. Aritmetické operace v SPSS V SPSS slouží k vytváření nových proměnných prostřednictvím aritmetických operací příkaz Compute (záložka Transform). Níže je příklad vytvoření nové proměnné „věk“ z proměnné „rok narození“ (v našem případě zadáváme aktuální rok, tedy rok 2014). Sčítání výskytů Sčítání výskytů je další ze způsobů jak vytvořit novou proměnnou. Někdy nás může zajímat, kolikrát respondenti například na různé otázky odpověděli „ano“. Příklad: V našem datasetu máme otázku, do jakých knihoven respondenti chodí. Nás jako výzkumníky ale může také zajímat, kolik různých druhů knihoven respondenti navštěvují. Sčítání výskytů v Excelu V Excelu slouží pro sčítání výskytů příkaz COUNTIF. Zdroj: Nápověda http://office.microsoft.com Sčítání výskytů v SPSS Příkaz COUNT v SPSS najdeme opět v záložce „Transform“. Tabulka níže ukazuje výpočet počtu zdrojů, ze kterých respondenti získávají knihy (v dotazníku byla baterie otázek zaměřující se na různé zdroje knih, přičemž odpovědi byly vždy „ano“ nebo „ne“). Určení pořadí položek Vytváří novou proměnnou, kde řadí respondenty dle velikosti hodnoty proměnné. Například hledáte TOP 100 největších čtenářů či chcete najít 10 nejúspěšnějších studentů dle percentilu či 20 nejmladších respondentů. Seřazení položek je v tomto případě velmi elegantní řešení. Určení pořadí položek v Excelu V Excelu na seřazení položek používáme příkaz RANK. RANK se zapisuje: RANK(číslo;odkaz;pořadí) · Číslo je číslo, jehož pořadí hledáte. · Odkaz je matice nebo odkaz na seznam čísel. Nečíselné hodnoty jsou ignorovány. · Pořadí je číslo určující, zda se budou hodnoty třídit vzestupně či sestupně. Pokud je pořadí rovno 0 nebo není zadáno, určuje se v aplikaci Microsoft Excel pořadí čísla jako v sestupném seznamu. Pokud je pořadí jakákoliv nenulová hodnota, určuje se v aplikaci Microsoft Excel pořadí čísla jako ve vzestupném seznamu. Zdroj: http://office.microsoft.com Určení pořadí položek v SPSS V Excelu na seřazení položek používá příkaz Rank Cases (opět v záložce Transform).