Metodologie pro Informační studia a knihovnictví 2 Modul VI: Rekódování proměnných Metodologie pro ISK 2, jaro 2014. Ladislava Z. Suchá Metodologie pro Informační studia a knihovnictví 2 Modul 6: Transformace proměnných Co se dozvíte v tomto modulu? • Jak vytvořit novou proměnnou pomocí rekódování? • Jak vytvořit novou proměnnou pomocí aritmetických operací? • Jak vytvořit novou proměnnou pomocí sčítání výskytů hodnot proměnné? • Jak vytvořit novou proměnnou pomocí seřazení položek? Vytváření nových proměnných Při analýze někdy potřebujeme zjistit a využít proměnné, které v dotazníku přímo nezkoumáme, ale můžeme si je snadno vytvořit z existujících proměnných. Například pro srozumitelnější analýzu může být výhodné kategorizovat si věkové skupiny. Nebo chceme z proměnné „roknarození" vytvořit srozumitelnější proměnnou „věk". Obecně se s proměnnými dá dělat řada jednoduchých operací, my budeme využívat především: • rekódování, • aritmetické operace, • kategorizace dle percentilů, • sčítání výskytů, • seřazení položek. POZOR!!! Nové proměnné vždy vytváříme do nového sloupce - tak, abychom neztratili původní proměnné, kdybychom je ještě k něčemu potřebovali. Rekódování Rekódování nahrazuje kódy hodnot proměnných jinými kódy. Lze jej využít pro vytváření obecnějších kategorií u nominálních, ordinálních i kardinálních proměnných. Rekódování využíváme i pro otočení škály otázky (ve složitějších dotaznících bývají některé škály otočené, abychom udrželi respondentovu pozornost - při výsledné analýze, kdy vytváříme sumační indexy, je nutné reorientovat škály tak, aby byly všechny orientované jedním směrem). Speciální příklad rekódování může být kategorizace dle percentilů. Ta nám umožní rozdělit respondenty na X stejně velkých skupin dle hodnot námi zvolené proměnné - například podle výše příjmů nebo dle věku (například bychom si chtěli respondenty rozdělit na „bohaté", střední třídu" a „chudé"). Za bohaté bychom považovali respondenty v horním kvartilu (percentil 75), za chudé respondenty v dolním kvartilu (percentil 25) a za střední třídu respondenty ve středních kvartilech. Příklad: V dotazníku máme otázku zjišťující ekonomickou aktivitu respondentů (otázka č. 15). Třídění v této otázce je však velmi jemné a nás zajímá pouze, zda existují rozdíly v pohledu na knihovníky mezi lidmi, kteří jsou zaměstnáni (do této kategorie si přiřadíme i pracující na částečný úvazek a OSVČ), studenty a ostatními. Potřebujeme proto vytvořit novou proměnnou, která bude rozdělovat respondenty jen na tři kategorie - na ty, kteří pracují (plus OSVČ), na studenty a na ostatní. Kategorie tedy bude nabývat nově dvou validních hodnot: • zaměstnán/a anebo OSVČ 1 • student 2 • ostatní 3 Hodnoty proměnné tedy rekódujeme takto: • 12,3 ->1 • 8 ->2 • 4,5,6,7,9 ->3 Rekódování v Excel u Na rekódování v Excel u existuje rada pluginů, aleje možné využít i běžný postup „Najít a nahradit" (CTRL+H). V našem příkladu by tedy byl postup následující: Pojďme si připomenout, jak vypadala původní otázka v dotazníku: 15. V současnosti jste: • Zaměstnaný/á na plný úvazek (včetně pracujících studentů, pracujících důchodců) 1 • Zaměstnaný/á na částečný úvazek (včetně pracujících studentů, pracujících důchodců) 2 OSVČ 3 Nezaměstnaný/á 4 Na mateřské/rodíčovské dovolené 5 Nepracující důchodce 6 V domácnosti 7 Studující 8 Jiné (prosím doplňte) (doplnit) 9 A nyní můžeme rekódovat: 1. Zkopírujeme si sloupec s proměnnou „ekonomická činnost" (9_ekcinnost) do nového sloupce, kde bude nová proměnná - pojmenujeme šiji třeba 15_ekcinnost-rec 2. Označíme si sloupec (dáváme pozor, abychom neměli označenou celou tabulku či na označení sloupce nezapomněli, v tom případě se nám překódují data z celého souboru). 3. Příkaz CTRL+H nám otevře dialogové okno, kde postupně budeme zadávat hodnoty k nahrazení. Vždy vybereme možnost „Nahradit vše". 4. Nahrazujeme v pořadí: a. Kód 7 nahrazovat nemusíme, tady bude platit 7 ->1 b. 2->1 c. 3 ->1 d. 4->3 e. 5 ->3 f. 6 ->3 g. 7 ->3 h. 8->2 i. 9 (Jiné) ^3 Je potřeba však dávat pozor na to, v jakém pořadí rekódujeme, aby nedošlo k dvojitému překódování. Například pokud bychom nejprve rekódovali 8 2 a potom 2 1, kategorie studentů by nám úplně zmizela. Rekódovánív SPSS Rekódování v SPSS je snadná operace. V záložce „Transform" zvolíme položku „Recode into different varialbles". V tabulce poté naklikáme jméno a označení nové proměnné a dále staré a nové hodnoty proměnné: Recode into Different Variables Numeric Variable -> Output Variable: Ä 12. A« £>12_ fel2_ *12-*12-*12_ A12-A12-fcl3_ fcl4_ ^16. Jekar[@12_l... vedec [@12_... Policista .prodavač .programátor [... .automechani... .ucetni [@12_... .poslanec [(§... .sekretářka [... .knihovník [@... .pohlaví [@13... .vzděláni [@1... SJine .roknarozeni [... Output Variable-Name: 15 ekcinncst-rec Label: Ekonomická činnost Change [old and N ew Values... [if...](optional case selection condition) ] [ Reset ] [Cancel ][ Help~] ^ Recede into Different Variables: Old and New Values OldValue-@ Value: J System-missing J System-or user-missing ) Range: through O Ranae, LOWEST through value: Range, value through HIGHEST: O All overvalues New Value ©Value i System-missing i Cogyoldvalue[s) O Output variables are strings Width: | Convert numeric strings to numbers £5'->5) Continue][ Cancel ~] [ Help Získáme tím novou proměnnou, kterou je ale potřeba opět popsat, abychom s ní mohli dále pracovat: • zaměstnán/a anebo OSVČ 1 • student 2 • ostatní 3 Aritmetické operace Díky aritmetickým operacím lze snadno vytvářet nové proměnné, ze starých hodnot pomocí zadaného vzorce. Typickým příkladem je vytváření sumačních indexů - sčítání prostých nebo vážených hodnot stejných variant různých znaků. Příklad: Pokud bychom chtěli zjišťovat celkovou spokojenost s knihovnou, kterou jsme si operacionalizovali jako sumu různých měr spokojeností (spokojenosti s personálem, spokojenosti s výběrem fondu a spokojenosti s online službami), sumační index bude tvořit průměrná míra spokojenosti v těchto dílčích oblastech (získáme ji součtem hodnot jednotlivých proměnných, který vydělíme jejich počtem). Příklad: Klasickou Likertovou škálou měříme spokojenost s knihovními službami (s personálem, s výběrem fondu, online službami atd.). U každého respondenta chceme ještě určit jeho celkovou spokojenost, kterou vypočteme na základě hodnocení jednotlivých služeb. Lickertova škála: • velmi spokojen/a • spíše spokojen/a • ani spokojen/a, ani nespokojen/a • spíše nespokojen/a • velmi nespokojen/a 2 3 4 5 Respondent Karel odpovídal v dotazníku takto: spokojenost s personálem: 1 spokojenost s výběrem fondu 3 spokojenost s online službami 2 spokojenost sMVS 2 Jeho celková spokojenost s knihovními službami se dá vyjádřit jako sumační index (1 +3+2+2)/4 (suma hodnocení jednotlivých služeb /počet hodnocení) = 2. Aritmetické operace v Excelu V Excelu zapisujeme vzorec přímo do tabulky. Pokud máme např. vřádku 7 (respondent 1) proměnné spokojenost s personálem (sloupec A), spokojenost s výběrem fondu (sloupec B) a spokojenost s online službami (sloupec C), pak vzoreček pro celkovou spokojenost bude =(Al+Bl+C1)/3. Aritmetické operace v SPSS V SPSS slouží k vytváření nových proměnných prostřednictvím aritmetických operací příkaz Compute (záložka Transform). Níže je příklad vytvoření nové proměnné „věk" z proměnné „rok narození" (v našem případě zadáváme aktuální rok, tedy rok 2014). CH Compute Variable Target Variable: Věk [Type A Label...] = "&B5) Number of invoice values greater than or equal to 20,000 [2] Zdroj: Nápověda http://office.microsoft.com Sčítání výskytů v SPSS Príkaz COUNT v SPSS najdeme opět v záložce „Transform". Tabulka níže ukazuje výpočet počtu zdrojů, ze kterých respondenti získávají knihy (v dotazníku byla baterie otázek zaměřující se na různé zdroje knih, přičemž odpovědi byly vždy „ano" nebo „ne"). ^ Count Occurrences of Values within Cases Target Variable: Target Label: kolikknihcven hu knihoven navštěvujete'? Numeric Variables: 1_frekvencenavst.. fa 2_Duvody_nenav.. 3_druh_nevim [... a 3_druh_jina [@3... Qa 4-_znalostknhcvnL fa 5_pomoclidem [... fa 5_radknihy [@5_r. fa 5_Jednoduchapr... £> 5 benefitv rr35 b.. Ü 3_rJruh_mestskakni. Ü 3_druh_ve decka [@. Ü 3_druh_akademick.. Define Values.. If... (optional case selection condition) Paste Count Values within Case;: Values to Count Value- Value: "I O System-missing O System- or user-missing ® Range: through: O Range, LOWEST through value: 1 Range, value through HIGHEST: L Ad d [ Change Remove Values to Count: [continue][ Cancel ~][ Help Určení pořadí položek Vytváří novou proměnnou, kde řadí respondenty dle velikosti hodnoty proměnné. Například hledáte TOP 100 největších čtenářů či chcete najít 10 nejúspěšnějších studentů dle percentilu či 20 nejmladších respondentů. Seřazení položek je v tomto případě velmi elegantní řešení. Určení pořadí položek v Excelu V Excelu na seřazení položek používáme příkaz RANK. RANK se zapisuje: RANK(číslo;odkaz;pořadí) • Číslo je číslo, jehož pořadí hledáte. • Odkaz je matice nebo odkaz na seznam čísel. Nečíselné hodnoty jsou ignorovány. • Pořadí je číslo určující, zda se budou hodnoty třídit vzestupně či sestupně. Pokud je pořadí rovno 0 nebo není zadáno, určuje se v aplikaci Microsoft Excel pořadí čísla jako v sestupném seznamu. Pokud je pořadí jakákoliv nenulová hodnota, určuje se v aplikaci Microsoft Excel pořadí čísla jako ve vzestupném seznamu. A 1 Data "2~ 7 6 3 3,5 4 3,5 1 Vzorec Popis (výsledek) = RANK[A3;A2A6;1) Poradí čísla 3,5 ve výše uvedeném seznamu [3] = RANK(A2;A2:A6;1) Poradí čísla 7 ve výše uvedeném seznamu [5] Zdroj: h ttp://office.microsoft. com Určení pořadí položek v SPSS V Excelu na seřazení položek používá příkaz Rank Cases (opět v záložce Transform). Rank Cases $ uča [Uco] ^ffj Datum vyplnění d.. $ Pokuste se prosí... Vyberte 1 výrok, kt.. Jak knihy získávat. Jak knihy získávat. £j Jak knihy získávat. Jak knihy získávat. 3-. lak knihu7Ígl-"á át Variableres): B Pokuste se prosím . [ Rank Types...) Ties... By: B Assign Rank 1 to— O Smallest value J Largest value □ Display summary tables [ OK )[ Paste ] ["Reset ][ Cancel] [ Help 4ř UCO [UČo] Datum vyplnění d $ Pokuste se fa Vyberte 1 výi fa Jak knihy zí fa Jak knihy zí fa Jak knihy fa Jak knihy zí £K lak Ifnihv7i ." II s ■Assign Rank 1 © Smallest va 3 Variables): Pokuste se prosím . Rank Cases: Ties EU [ Rank Types... ] Ties.. RankAssignedto Ties— ®JMeani ©Low © High ) Sequential ranks to unique values (continue)( Cancel Help ) Largest value ( OK ) f Paste ) fŘěšeT] (Cancel] [ Help