TRANSFORMACEA
VYTVÁŘENI NOVÝCH
PROMĚNNÝCH + VÝBĚR
PŘÍPADŮ
Deskriptívni analýza kvantitativních dat
Opáčko
M O D U S :
Nejčastější hodnota
SMĚRODATNÁ ODCHYLKA:
Vyjadřuje, jak moc jsou jednotlivé
hodnoty rozptýleny kolem průměru
SD = 3.25
MEDIAN:
Střední hodnota
3 4 7 10 11 11
PRUMER:
3 4 7 8 10 11 11
M = 7.71
Jak reportovat základní
charakteristiky jednotlivých
proměnných v textu/úkolu
• N (počet validních hodnot) a navíc:
- Nominální/ krátké ordinální: (relativní)
četnosti kategorií (tj. Procenta)
- Kardinální (škálové): průměr, SD, min-
max
Cvičení
• V datasetu transformacejekce zkuste vyjet četnosti proměnné, která měří míru
důvěry k Televizi Barrandov + její modus
- Analyze -> Descriptive Statistics -> Frequencies
m Tam kliknout na Statistics a naklikat, co potřebujete (viz minulá hodina)
Co když tuším, že medián důvěry k
Televizi Barrandov by se mohl lišit s
ohledem na věk respondenta?
A) transformovat proměnnou věk tak, abychom
měli menší množství kategorií
B) zobrazit tuto proměnnou vzhledem k jiné
kategorii
Rekódování proměnných
1. Máme jiný typ proměnné, než potřebujeme
• Nejčastěji string a potřebujeme numeric
2. Máme proměnnou kardinální a chceme z ní udělat ordinální
• Typicky se tento typ transformace používá u věku - shlukujeme do
kategorií
3. Proměnná je nakódovaná jinak, než chceme
• Nejčastěji měníme orientaci škály - například, kdy chceme, aby se
stoupající stupnicí stoupal i postoj k dané proměnné, ale orientaci
škály je opačná
• Nepsaný zvyk: Čím vyšší skór mám, tím více se u mě projevuje
měřená charakteristika (názor, postoj, vlastnost.)
4. Chceme vytvořit průměrnou hodnotu z „příbuzných" proměnných
- tj máme několik položek, které nám měří dohromady jednotlivé
dimenze nějakého jevu
Máme jiný typ proměnné než
potřebujeme
Procedura Transform
recode into different
variable (string na
numeric)
^QaJS 'zamestnanci.sav [DataSetl] - IBM SPSS Statistics Data Editor
File Edit View Data Transform Analyze Direct Marketing Graphs Utilr
p Compute Variable...
^ Count Values within Cases...
Shift Values...
i 1
199: jazyk_ru 0
p Compute Variable...
^ Count Values within Cases...
Shift Values...
plat
I J DornHo intn Como V^riohlDC
smet
1 0 14700 IIILU *Dd[Me VdlldLMCD...
[ ^ R e c o d e into Different Variables...
p 7
] Automatic Recode...
S
2 2 12700
IIILU *Dd[Me VdlldLMCD...
[ ^ R e c o d e into Different Variables...
p 7
] Automatic Recode...
6
3 0 12700
2500
IIILU *Dd[Me VdlldLMCD...
[ ^ R e c o d e into Different Variables...
p 7
] Automatic Recode... S
4 7 1
2700
2500 []•! Visual Binning...
Optimal Binning...
Prepare Data for Modeling
S
5 0 12700
[]•! Visual Binning...
Optimal Binning...
Prepare Data for Modeling
5
6 2 29G00
[]•! Visual Binning...
Optimal Binning...
Prepare Data for Modeling e
7 9 14500 Uf] Rank Cases... 4
3 1 13300
§ Date and Time Wizard...
| Create Time Series...
1 1 Replace Missing Values...
Random Number Generators...
6
9 9 12900
§ Date and Time Wizard...
| Create Time Series...
1 1 Replace Missing Values...
Random Number Generators...
5
10 8 12900
§ Date and Time Wizard...
| Create Time Series...
1 1 Replace Missing Values...
Random Number Generators...
3
11 2 19300
§ Date and Time Wizard...
| Create Time Series...
1 1 Replace Missing Values...
Random Number Generators...
S
12 0 13900
§ Date and Time Wizard...
| Create Time Series...
1 1 Replace Missing Values...
Random Number Generators... 6
13 7 13800 ^ Run Pending Transforms Ctrl+G S
14 5 13500 22 m 1 6
R e c o d e i n t o D i f f e r e n t V a r i a b l e s : O l d a n d N e w V a l u e s X
Old Value
0 Value:
O System-missing
O System- or user-missing
O Range
through
Range, LOWEST through value:
O Range value through HIGHEST:
O All other values
Continue
New Value
® Value
O System-missing
O Co|jy old value(s)
M
I I Output variables are strings Width:
[^1 Convert numeric strings to numbers (S'->S)
Cancel Heb
Když máme hodnoty v jiném měřítku
než v jakém je mít chceme
Kterými jazyky se dorozumíte? francouzština ne}..
Kterými jazyky se dorozumíte? ruština {0, ne}..
None
None
Recode into Different Variables
Numeric Variable -> Output Variable:
A B
$ průměrný měsíční p.
a pohlaví [gender]
iro Průměrný měsíční p.
Sii Jak často používáte .
J Kterými jazyky se do.
J Kterými jazyky s e do.
J Kterými jazyky se do.
J Kterými jazyky s e do.
J Kterými jazyky s e do.
J Kterými jazyky s e do.
vek —> vek kat
Output Variable -
Name:
věk kat
Label:
věkové kategorie
Change
Old and New Values..
2 . B(optional case selection condition)
[ OK ] f j ( Reset ] [Cancel ] ( Help"
Recüdeinto Different Variables: Old and New Values
Old Value©
V a l u e :
) System-missing
) System- or user-missing
30
through
39
) Range, LOWEST through va
O Range, value through HIGHEST:
) All other values
•Jew Value
) Value
Sjstsm-missina
I Copy oldvalue(s)
O l d - > New:
Add
[ Change"
Remove
20 thru 2 9 - s 1
• Output variables are strings Width:
onvert numeric strings to numbers C5'->5)
[continue] [ Cancel ~] [ Help
= I P f t
Value Labels
Value Labels
Value:
Label:
= ruyrn
N n m i n a l \ i Inniit
1 = "18-24"
2 = "25-34"
3 = "35-44"
4 = "4S-S4"
5 = "55-B4"
B = "65 a vice"
X
Spelling.
FKJII1TTTH1
OK Cancel Help
I I I - L U
Když máme proměnnou
nakódovanou jinak než jak ji chceme
• Standardně platí, že pravidlo, že u delších škál znamená nejmenší
hodnota nejmenší míru a největší hodnota největší míru
• Často u škálových proměnných používáme několik položek za
sebou, protože díky tomu můžeme docílit přesnějšího změření jevu
- R12_1: Příjmy domácnosti, ve které žiju, pokrývají všechny její
potřeby
- R12_2 : Myslím, že se mám finančně lépe než většina lidí v této
zemi.
- R12_3 : Obávám se, že na tom v budoucnu budu finančně hůř, než
jak na tom jsem nyní.
• (na 5bodové stupnici, kde 1 znamená „rozhodně nesouhlasím" a 5 znamená
rozhodně souhlasím")
Komputa položek
Když potřebujeme být trochu „kreativní"
Umožňuje nám
- Comupute variable
• Vytvářet/přetvářet položky podle různých
matematických vzorců (sčítání, odčítání,
násobení...)
- Count values
u Spočítat hodnoty napříč položkama
Compute Variable.
hs Utilities Extens
Pro g ram m ability Transformation...
P
.ty
Count Values within Cases.
*,Ml VilUSi...
£ Recode into Same Variables...
@ Recode into Different Variables.
H I Automatic Recode
S Q Create Dummy Variables
^ []•§ Visual Binning...
N
@(£ Optimal Binning...
^ Prepare Data for Modeling
N H Rank Cases...
N
§§ Date and Time Wizard...
^ Create Time Series...
I I Replace Missing Values...
Efc Random Number Generators...
^| ^ Run Pending Transforms
Numeric z u
J
ih
uvM i Í : Kesrjel
Dvě možná řešení
Rekódování pomocí procedury
„recode" - manuálně
převrátíme škálu (1=10, 2=9,
. . . )
Rekódování pomocí metody
compute - spočítáme pomocí
vzorečku
- nová hodnota = nejvyšší
hodnota +1 - stará
hodnota
íSjil Compute Variable X
t
< Target Variable: Numeric Expression:
Type & Label..
5 + 1- R12 3
„ ID
$ průměrný měsíční p..
pohlaví [gender]
j i Průměrný měsíční p..
j f j Jak často používáte ..
J Kterými jazyky se do..
J Kterými jazyky se do..
J Kterými jazyky se do..
J Kterými jazyky se do..
J Kterými jazyky se do..
J Kterými jazyky se do..
Function flroup:
* -
"
• •
• •
7
4
1
8
5
9
6
i
( • ]
- - o Delete
All
Arithmetic
CDF & Noncentral CDF
Conversion
Current DatefTime
Date Arithmetic
Date Creation
J S
Eunctions and Special Variables:
(optional case selection condition)
( OK )( Paste )f~Reset ]( Cancel) f Help ]
Když chceme z „příbuzných" proměnných
zjistit průměrnou hodnotu (vytvořit tzv.
index)
• Kdy to potřebujeme: když chceme spočítat skór napříč
položkami
• Například máme proměnné, které měří jednotlivé aspekty
postoje k sexuální liberalizaci a chceme zjistit, jak průměrně
je respondent liberální:
- Jak moc akceptovatelný je pro vás:
• VAL1_1 : Potrat
• VAL1_2 : Homosexualita
• VAL1_3 : Rozvod
• VAL1 4 : Sex bez závazku
Numeric Expression:
(VAL1_1 +VAL1_2+VAL1_3+VAL1_4)/4|
Jak si
rozdělit výsledky
podle vybrané
proměnné
File Edit View Data Transform Analyze Direct Marketing Gr
Nai
1 ID
2 plat
3 věk
4 město
S gender
6 internet
7 jazyk_c
3 jazyk_a
9 jazvk_fr
10 jazyk_n
11 jazyk_n
12 jazyk_p
13 pracel
14 prace2
15 prace3
16 přesčas
17 přesčas
18 přesčas
19 gender_
20
21
22
23
24
25
26
27
28
29
30
31
3?
__J Define Variable Properties...
' j Set Measurement Level for Unknown..
^ Create Value Labels from Data
| g Copy Data Properties...
£pi New Custom Attribute...
p Define date and time...
~J Define Date from Data...
Define Multiple Response Sets...
Validation
™ Identify Duplicate Cases...
£2 identify U nusual Cases...
fF^ Compare Datasets...
@r Sort Cases...
^ Sort Variables...
^ j j Transpose...
~J Adjust String Widths Across Files
Merge Files
~J Cartesian Product
f p ] Restructure...
f j Rake Weights...
~J Propensity Score Matching...
I I Case Control Matching...
H i Aggregate...
Orthogonal Design
I | Split into Files
% Copy Dataset
H Split File...
f S Select Cases...
i f l Weight Cases...
~J Simulate Active Dataset
Select cases
IVÍ
as
•mi
'mi
'mi
'mi
<mr
•mt\
PO
Pr
3
pr;j
iS^ijI Select Case; £3
^ průměrný měsíční p.
<ŕ věk
£ j Jak často používate .
r f i Kterými jazyky se do.
I-TÍ Kterými jazyky se do.
r f i Kterými jazyky se do.
r f i Kterými jazyky se do.
r f i Kterými jazyky se do.
r f i Kterými jazyky se do.
Moje práce mě baví.
Moje práce má srny..
Svoji práci bych jen ..
£ j Přesčas v pondělí [p.
Přesčas ve stredu [...
^ Přesčas v pátek [pre.
pohlaví numerická [..
SelectI
All cases
i If condition is satisfied
If..
) Random sample of cases
Sample... ]
) Based on time or case range
Range... I
) Use filter variable:
Output —
® Filter out unselected cases
© Copy selected cases to a new dataset
Dataset name: T
1
Delete unselected cases
Current Status: Do not filter cases
OK Paste eset Cancel ) [ Help
1. Data -> Select cases
2. If condition is
satisfied
Co to dělá:
• Vybere z našeho celé
vzorku takové
respondenty, které
splňují naše nastavené
podmínky
• Každé další příkazy
(statistiky), které SPSS
zadáme, pak provádí
pouze na vybrané sub-
skupině
Select
Select Cases: If
^ průměrný měsíční p...
^ věk
trvalé bydliště [mesto]
^ pohlaví [gender]
£ 5 Jak často používáte ...
J Kterými jazyky se do...
J Kterými jazyky se do...
J Kterými jazyky se do...
jj Kterými jazyky se do...
jj Kterými jazyky se do...
J Kterými jazyky se do...
£5 Moje práce mě baví...
(fij Moje práce má srny...
£b Svoji práci bych jen ...
£ j Přesčas v pondělí [p...
i5 Přesčas ve středu [...
45 Přesčas v pátek [pře...
^ 5 pohlaví numerická [...
Vek_kat =
-1 Function cjroup:
• • • 0 0 0
• 0 0 0 0 0
0 0 0 0
0 0 0
0 0
AH
Arithmetic
CDF&Noncentral CDF
Conversion
Current Date/Time
Date Arithmetic
Date Creation
Delete
! 0 0 Functions and Special Variables:
Continue Cancel Help
Chceme zobrazit četnosti
pro kategorii nejmladších
respondentů
1. naklikneme
proměnnou Vek_kat
pomocí šipky
2. specifikujeme
podmínku
Vek_kat je numerická
• Vek_kat = 1
3. continue a ok
4. následně znovu
vyjedeme četnosti
(Analyze -> Descriptive
Statistics ->
Frequencies), které se
nyní zobrazí jen pro
nejmladší skupinu
File Edit View Data Iransform Anaryze D i reel Marketing Graphs Utili
^5 feS
Ľ.- -žl
\J H
Select cases
• V datasetu v „Data view" vidíme nepouži
respondenty (jsou vyškrtnutí)
D plat věk město gender in
1 22900 31 Vyškov m
2 28300 37 Vyškov m
3 3 24300 33 Vyškov f
4 27400 36 Brno m
5 29200 37 Vyškov m
6 13500 22 Brno m
7 32500 +7 Brno m
S 90100 +5 Brno m
9 9 17900 26 Brno f
10 10 18300 26 Brno f
11 28200 37 Vyškov m
12 25000 34 Brno m
12-—" 11 -ivis-inn R m n m
• Pokud chceme opět pracovat s celým vzorkem,
podmínku zrušíme přes příkaz
• Data -> Select cases -> All cases
File Edit View Data Iransform Analyze Direct Marketing C
Split file
1. Data -> Split file
2. Compare groups
3. Vložíme proměnnou, podle které se má output rozdělit
- Tj. Pokud podle věkových kategorií, tak vek_kat
Co to dělá:
- Rozdělí vzorek podle zadané proměnné
- V outputu pak vviede výsledek oro sub-skuoinv zvláší
® Split File !• ""^ll 1
ZRUŠENÍZRUŠENÍ Z
® Analyze all cases, do not create groups!
$ průměrný měsíčn... © Compare groups
4ř vek
jra trvalé bydliště [m...
© Organize output by groups
^ 3 Jak často používá... Groups Based on:
J~fl Ktervmi iazvkv se ... —^ 1 m
£3 IĚ^ fe^
23
24
26
26
27
28
29
30
ID
Define Variable Properties...
* j Set Measurement Level for U nknown..
U Create Value Labels from Data
| g j Copy Data Properties...
^ New Custom Attribute...
^ Define date and time...
I I Define Date from Data...
[Hi] Define Multiple Response Sets...
Validation
™ Identify Duplicate Cases...
^ identify U nusual Cases...
f ^ j Comp_are Datasets...
§ Sort Cases...
^ SortVariables...
Transpose...
^ | Adjust String Widths Across Files
Merge Files
Cartesian Product
fp] Restructure...
Rake Weights...
Propensity Score Matching...
^ | Case Control Matching...
Hi Aggregate...
Orthogonal Design
Split into Files
f^, Copy Dataset
H Split File...
ffl Select Cases...
i f l Weight Cases...
3 Simulate Active Dataset
TAKŽE JAKÉ JE ŘEŠENÍ NAŠÍ ÚVODNÍ
OTÁZKY, ZDASE PRŮMĚRNÁ DŮVĚRA
K TELEVIZI BARRANDOV LIŠÍ S OHLEDEM NA
VĚK RESPONDENTA?