TRANSFORMACEA VYTVÁŘENI NOVÝCH PROMĚNNÝCH + VÝBĚR PŘÍPADŮ Deskriptívni analýza kvantitativních dat Opáčko M O D U S : Nejčastější hodnota SMĚRODATNÁ ODCHYLKA: Vyjadřuje, jak moc jsou jednotlivé hodnoty rozptýleny kolem průměru SD = 3.25 MEDIAN: Střední hodnota 3 4 7 10 11 11 PRUMER: 3 4 7 8 10 11 11 M = 7.71 Jak reportovat základní charakteristiky jednotlivých proměnných v textu/úkolu • N (počet validních hodnot) a navíc: - Nominální/ krátké ordinální: (relativní) četnosti kategorií (tj. Procenta) - Kardinální (škálové): průměr, SD, min- max Cvičení • V datasetu transformacejekce zkuste vyjet četnosti proměnné, která měří míru důvěry k Televizi Barrandov + její modus - Analyze -> Descriptive Statistics -> Frequencies m Tam kliknout na Statistics a naklikat, co potřebujete (viz minulá hodina) Co když tuším, že medián důvěry k Televizi Barrandov by se mohl lišit s ohledem na věk respondenta? A) transformovat proměnnou věk tak, abychom měli menší množství kategorií B) zobrazit tuto proměnnou vzhledem k jiné kategorii Rekódování proměnných 1. Máme jiný typ proměnné, než potřebujeme • Nejčastěji string a potřebujeme numeric 2. Máme proměnnou kardinální a chceme z ní udělat ordinální • Typicky se tento typ transformace používá u věku - shlukujeme do kategorií 3. Proměnná je nakódovaná jinak, než chceme • Nejčastěji měníme orientaci škály - například, kdy chceme, aby se stoupající stupnicí stoupal i postoj k dané proměnné, ale orientaci škály je opačná • Nepsaný zvyk: Čím vyšší skór mám, tím více se u mě projevuje měřená charakteristika (názor, postoj, vlastnost.) 4. Chceme vytvořit průměrnou hodnotu z „příbuzných" proměnných - tj máme několik položek, které nám měří dohromady jednotlivé dimenze nějakého jevu Máme jiný typ proměnné než potřebujeme Procedura Transform recode into different variable (string na numeric) ^QaJS 'zamestnanci.sav [DataSetl] - IBM SPSS Statistics Data Editor File Edit View Data Transform Analyze Direct Marketing Graphs Utilr p Compute Variable... ^ Count Values within Cases... Shift Values... i 1 199: jazyk_ru 0 p Compute Variable... ^ Count Values within Cases... Shift Values... plat I J DornHo intn Como V^riohlDC smet 1 0 14700 IIILU *Dd[Me VdlldLMCD... [ ^ R e c o d e into Different Variables... p 7 ] Automatic Recode... S 2 2 12700 IIILU *Dd[Me VdlldLMCD... [ ^ R e c o d e into Different Variables... p 7 ] Automatic Recode... 6 3 0 12700 2500 IIILU *Dd[Me VdlldLMCD... [ ^ R e c o d e into Different Variables... p 7 ] Automatic Recode... S 4 7 1 2700 2500 []•! Visual Binning... Optimal Binning... Prepare Data for Modeling S 5 0 12700 []•! Visual Binning... Optimal Binning... Prepare Data for Modeling 5 6 2 29G00 []•! Visual Binning... Optimal Binning... Prepare Data for Modeling e 7 9 14500 Uf] Rank Cases... 4 3 1 13300 § Date and Time Wizard... | Create Time Series... 1 1 Replace Missing Values... Random Number Generators... 6 9 9 12900 § Date and Time Wizard... | Create Time Series... 1 1 Replace Missing Values... Random Number Generators... 5 10 8 12900 § Date and Time Wizard... | Create Time Series... 1 1 Replace Missing Values... Random Number Generators... 3 11 2 19300 § Date and Time Wizard... | Create Time Series... 1 1 Replace Missing Values... Random Number Generators... S 12 0 13900 § Date and Time Wizard... | Create Time Series... 1 1 Replace Missing Values... Random Number Generators... 6 13 7 13800 ^ Run Pending Transforms Ctrl+G S 14 5 13500 22 m 1 6 R e c o d e i n t o D i f f e r e n t V a r i a b l e s : O l d a n d N e w V a l u e s X Old Value 0 Value: O System-missing O System- or user-missing O Range through Range, LOWEST through value: O Range value through HIGHEST: O All other values Continue New Value ® Value O System-missing O Co|jy old value(s) M I I Output variables are strings Width: [^1 Convert numeric strings to numbers (S'->S) Cancel Heb Když máme hodnoty v jiném měřítku než v jakém je mít chceme Kterými jazyky se dorozumíte? francouzština ne}.. Kterými jazyky se dorozumíte? ruština {0, ne}.. None None Recode into Different Variables Numeric Variable -> Output Variable: A B $ průměrný měsíční p. a pohlaví [gender] iro Průměrný měsíční p. Sii Jak často používáte . J Kterými jazyky se do. J Kterými jazyky s e do. J Kterými jazyky se do. J Kterými jazyky s e do. J Kterými jazyky s e do. J Kterými jazyky s e do. vek —> vek kat Output Variable - Name: věk kat Label: věkové kategorie Change Old and New Values.. 2 . B(optional case selection condition) [ OK ] f j ( Reset ] [Cancel ] ( Help" Recüdeinto Different Variables: Old and New Values Old Value© V a l u e : ) System-missing ) System- or user-missing 30 through 39 ) Range, LOWEST through va O Range, value through HIGHEST: ) All other values •Jew Value ) Value Sjstsm-missina I Copy oldvalue(s) O l d - > New: Add [ Change" Remove 20 thru 2 9 - s 1 • Output variables are strings Width: onvert numeric strings to numbers C5'->5) [continue] [ Cancel ~] [ Help = I P f t Value Labels Value Labels Value: Label: = ruyrn N n m i n a l \ i Inniit 1 = "18-24" 2 = "25-34" 3 = "35-44" 4 = "4S-S4" 5 = "55-B4" B = "65 a vice" X Spelling. FKJII1TTTH1 OK Cancel Help I I I - L U Když máme proměnnou nakódovanou jinak než jak ji chceme • Standardně platí, že pravidlo, že u delších škál znamená nejmenší hodnota nejmenší míru a největší hodnota největší míru • Často u škálových proměnných používáme několik položek za sebou, protože díky tomu můžeme docílit přesnějšího změření jevu - R12_1: Příjmy domácnosti, ve které žiju, pokrývají všechny její potřeby - R12_2 : Myslím, že se mám finančně lépe než většina lidí v této zemi. - R12_3 : Obávám se, že na tom v budoucnu budu finančně hůř, než jak na tom jsem nyní. • (na 5bodové stupnici, kde 1 znamená „rozhodně nesouhlasím" a 5 znamená rozhodně souhlasím") Komputa položek Když potřebujeme být trochu „kreativní" Umožňuje nám - Comupute variable • Vytvářet/přetvářet položky podle různých matematických vzorců (sčítání, odčítání, násobení...) - Count values u Spočítat hodnoty napříč položkama Compute Variable. hs Utilities Extens Pro g ram m ability Transformation... P .ty Count Values within Cases. *,Ml VilUSi... £ Recode into Same Variables... @ Recode into Different Variables. H I Automatic Recode S Q Create Dummy Variables ^ []•§ Visual Binning... N @(£ Optimal Binning... ^ Prepare Data for Modeling N H Rank Cases... N §§ Date and Time Wizard... ^ Create Time Series... I I Replace Missing Values... Efc Random Number Generators... ^| ^ Run Pending Transforms Numeric z u J ih uvM i Í : Kesrjel Dvě možná řešení Rekódování pomocí procedury „recode" - manuálně převrátíme škálu (1=10, 2=9, . . . ) Rekódování pomocí metody compute - spočítáme pomocí vzorečku - nová hodnota = nejvyšší hodnota +1 - stará hodnota íSjil Compute Variable X t < Target Variable: Numeric Expression: Type & Label.. 5 + 1- R12 3 „ ID $ průměrný měsíční p.. pohlaví [gender] j i Průměrný měsíční p.. j f j Jak často používáte .. J Kterými jazyky se do.. J Kterými jazyky se do.. J Kterými jazyky se do.. J Kterými jazyky se do.. J Kterými jazyky se do.. J Kterými jazyky se do.. Function flroup: * - " • • • • 7 4 1 8 5 9 6 i ( • ] - - o Delete All Arithmetic CDF & Noncentral CDF Conversion Current DatefTime Date Arithmetic Date Creation J S Eunctions and Special Variables: (optional case selection condition) ( OK )( Paste )f~Reset ]( Cancel) f Help ] Když chceme z „příbuzných" proměnných zjistit průměrnou hodnotu (vytvořit tzv. index) • Kdy to potřebujeme: když chceme spočítat skór napříč položkami • Například máme proměnné, které měří jednotlivé aspekty postoje k sexuální liberalizaci a chceme zjistit, jak průměrně je respondent liberální: - Jak moc akceptovatelný je pro vás: • VAL1_1 : Potrat • VAL1_2 : Homosexualita • VAL1_3 : Rozvod • VAL1 4 : Sex bez závazku Numeric Expression: (VAL1_1 +VAL1_2+VAL1_3+VAL1_4)/4| Jak si rozdělit výsledky podle vybrané proměnné File Edit View Data Transform Analyze Direct Marketing Gr Nai 1 ID 2 plat 3 věk 4 město S gender 6 internet 7 jazyk_c 3 jazyk_a 9 jazvk_fr 10 jazyk_n 11 jazyk_n 12 jazyk_p 13 pracel 14 prace2 15 prace3 16 přesčas 17 přesčas 18 přesčas 19 gender_ 20 21 22 23 24 25 26 27 28 29 30 31 3? __J Define Variable Properties... ' j Set Measurement Level for Unknown.. ^ Create Value Labels from Data | g Copy Data Properties... £pi New Custom Attribute... p Define date and time... ~J Define Date from Data... Define Multiple Response Sets... Validation ™ Identify Duplicate Cases... £2 identify U nusual Cases... fF^ Compare Datasets... @r Sort Cases... ^ Sort Variables... ^ j j Transpose... ~J Adjust String Widths Across Files Merge Files ~J Cartesian Product f p ] Restructure... f j Rake Weights... ~J Propensity Score Matching... I I Case Control Matching... H i Aggregate... Orthogonal Design I | Split into Files % Copy Dataset H Split File... f S Select Cases... i f l Weight Cases... ~J Simulate Active Dataset Select cases IVÍ as •mi 'mi 'mi 'mi Select cases 2. If condition is satisfied Co to dělá: • Vybere z našeho celé vzorku takové respondenty, které splňují naše nastavené podmínky • Každé další příkazy (statistiky), které SPSS zadáme, pak provádí pouze na vybrané sub- skupině Select Select Cases: If ^ průměrný měsíční p... ^ věk trvalé bydliště [mesto] ^ pohlaví [gender] £ 5 Jak často používáte ... J Kterými jazyky se do... J Kterými jazyky se do... J Kterými jazyky se do... jj Kterými jazyky se do... jj Kterými jazyky se do... J Kterými jazyky se do... £5 Moje práce mě baví... (fij Moje práce má srny... £b Svoji práci bych jen ... £ j Přesčas v pondělí [p... i5 Přesčas ve středu [... 45 Přesčas v pátek [pře... ^ 5 pohlaví numerická [... Vek_kat = -1 Function cjroup: • • • 0 0 0 • 0 0 0 0 0 0 0 0 0 0 0 0 0 0 AH Arithmetic CDF&Noncentral CDF Conversion Current Date/Time Date Arithmetic Date Creation Delete ! 0 0 Functions and Special Variables: Continue Cancel Help Chceme zobrazit četnosti pro kategorii nejmladších respondentů 1. naklikneme proměnnou Vek_kat pomocí šipky 2. specifikujeme podmínku Vek_kat je numerická • Vek_kat = 1 3. continue a ok 4. následně znovu vyjedeme četnosti (Analyze -> Descriptive Statistics -> Frequencies), které se nyní zobrazí jen pro nejmladší skupinu File Edit View Data Iransform Anaryze D i reel Marketing Graphs Utili ^5 feS Ľ.- -žl \J H Select cases • V datasetu v „Data view" vidíme nepouži respondenty (jsou vyškrtnutí) D plat věk město gender in 1 22900 31 Vyškov m 2 28300 37 Vyškov m 3 3 24300 33 Vyškov f 4 27400 36 Brno m 5 29200 37 Vyškov m 6 13500 22 Brno m 7 32500 +7 Brno m S 90100 +5 Brno m 9 9 17900 26 Brno f 10 10 18300 26 Brno f 11 28200 37 Vyškov m 12 25000 34 Brno m 12-—" 11 -ivis-inn R m n m • Pokud chceme opět pracovat s celým vzorkem, podmínku zrušíme přes příkaz • Data -> Select cases -> All cases File Edit View Data Iransform Analyze Direct Marketing C Split file 1. Data -> Split file 2. Compare groups 3. Vložíme proměnnou, podle které se má output rozdělit - Tj. Pokud podle věkových kategorií, tak vek_kat Co to dělá: - Rozdělí vzorek podle zadané proměnné - V outputu pak vviede výsledek oro sub-skuoinv zvláší ® Split File !• ""^ll 1 ZRUŠENÍZRUŠENÍ Z ® Analyze all cases, do not create groups! $ průměrný měsíčn... © Compare groups 4ř vek jra trvalé bydliště [m... © Organize output by groups ^ 3 Jak často používá... Groups Based on: J~fl Ktervmi iazvkv se ... —^ 1 m £3 IĚ^ fe^ 23 24 26 26 27 28 29 30 ID Define Variable Properties... * j Set Measurement Level for U nknown.. U Create Value Labels from Data | g j Copy Data Properties... ^ New Custom Attribute... ^ Define date and time... I I Define Date from Data... [Hi] Define Multiple Response Sets... Validation ™ Identify Duplicate Cases... ^ identify U nusual Cases... f ^ j Comp_are Datasets... § Sort Cases... ^ SortVariables... Transpose... ^ | Adjust String Widths Across Files Merge Files Cartesian Product fp] Restructure... Rake Weights... Propensity Score Matching... ^ | Case Control Matching... Hi Aggregate... Orthogonal Design Split into Files f^, Copy Dataset H Split File... ffl Select Cases... i f l Weight Cases... 3 Simulate Active Dataset TAKŽE JAKÉ JE ŘEŠENÍ NAŠÍ ÚVODNÍ OTÁZKY, ZDASE PRŮMĚRNÁ DŮVĚRA K TELEVIZI BARRANDOV LIŠÍ S OHLEDEM NA VĚK RESPONDENTA?