Logika kvantitatívneho výskumu POL181 Metodologie politologie Michal Tóth PODZIM 2017 výskumná otázka hypotézy operacionalizáciazber dát/meranie analýza dát prezentácia výsledkov interpretácie a závery VÝSKUMNÝ PROCES ŠTATISTIKA AKO NÁSTROJ ... ... na zodpovedanie výskumnej otázky Sama o sebe nestačí! - kvalita výstupov závisí na kvalite vstupov - kvalitný výskumný dizajn, korektné meranie (kvalitné dáta), ... - správne pochopenie výsledkov, ich interpretácia a reportovanie Čo však môžme získať? - prekonanie tretej a štvrtej kauzálnej prekážky (?) - na základe malého vzorku usudzovať o celej populácii NEŽ ZAČNEME ANALYZOVAŤ… • potrebujeme dáta - nevyhnutné pre testovanie hypotéz • OTÁZKA: 1) čo merať? » závislá vs. nezávislá premenná (?) 2) ako merať? ÚROVEŇ MERANIA • „level of measurement“ • úroveň merania – určená vzťahom medzi tým, čo sa meria a číslom ktoré reprezentuje výsledok merania • základné rozdelenie: 1) NOMINÁLNE 2) ORDINÁLNE (PORADOVÉ) 3) INTERVALOVÉ 4) POMEROVÉ } KATEGORICKÉ/ KVALITATÍVNE } KONTINUÁLNE/ KVANTITATÍVNE/KARDINÁLNE ÚROVEŇ MERANIA |Nominálne premenné • označujú názvy objektov, oddelené kategórie -> kvalitatívne odlíšenie nameraných hodnôt • namerané hodnoty, ktoré môžeme zaradiť do určitej kategórie, ale nemôžeme ich medzi sebou porovnávať /zoraďovať, • napr. národnosť, kraj v ČR, príslušnosť poslanca k pol. strane, ... • nepracujeme s nimi kvantitatívnom spôsobom, neumožňujú matematické operácie – výnimka (?) (=,<,>,+,-,*,/) • príklad z exit pollu (?) ÚROVEŇ MERANIA |Ordinálne premenné • rovnako ako nominal. označujú kategórie • rozdiel oproti nominal.: hodnoty môžu byť zoradené (podľa určitej charakteristiky) • nevieme však „o koľko“ alebo „koľko krát“ je daná hodnota väčšia/menšia ako iná • napr. miera spokojnosti (1. veľmi spokojný, 2. spokojný, 3. nespokojný), záverečné hodnotenie kurzu POL181 (A, B, C, D, E, F), ... • len niektoré matematické operácie - ktoré (?) (=,<,>,+,-,*,/) • príklad z exit pollu (?) ÚROVEŇ MERANIA |Intervalové premenné • na rozdiel od ordinálnej môžeme u intervalovej premennej vypočítať aj „o koľko“ je jedna hodnota väčšia/menšia ako druhá • hodnotami sú čísla, pri ktorých poznáme jednotku merania, a vzdialenosť medzi jednotlivými možnými hodnotami merania (použitej škály) je rovnaká • nemajú prirodzenú absolútnu nulu (nula neznamená absenciu niečoho, je to len arbitrárne učený bod na škále) • napr. rok narodenia (letopočet), teplota ovzdušia, ... • možné matematické operácie (?) (=,<,>,+,-,*,/) • príklad z exit pollu (?) ÚROVEŇ MERANIA |Pomerové premenné • rovnaké vlastnosti ako intervalová + absolútna nula • „nula“ – skutočná absencia meranej vlastnosti • najvyššia informačná hodnota • všetky matematické operácie (=,<,>,+,-,*,/) • napr. počet bodov zo skúšky, počet hlasov, ktoré strana získala vo voľbách, financie vynaložené na predvolebnú kampaň ... • príklad z exit pollu (?) ÚROVEŇ MERANIA |Test ordinálna nominálna počet úderov za minútu pomerová intervalová ÚROVEŇ MERANIA | Prečo je to dôležité? • dôležité rozlišovať medzi úrovňami merania/typmi premenných -> rôzne typy premenných rôzne štatistické operácie • čim vyššia úroveň, tým lepšie • konverzia intervalová/pomerováordinálnanominálna X ÚROVEŇ MERANIA | Konverzia vek v rokoch: 16, 20, 31, 49, 52 typ premennej ? POMEROVÁ ORDINÁLNA ? NOMINÁLNA ? <20, 20-30, 31-40, 41-50, >50 • mladiství • dospelí • seniori DATOVÁ MATICA stĺpce = hodnoty premennej riadky = jednotlivé prípady DATOVÁ MATICA stĺpce = hodnoty premennej riadky = jednotlivé prípady ANALÝZA DÁT FREKVENCIA VÝSKYTU • grafické znázornenie rozloženia hodnôt premennej (trend) • histogram normálne rozloženie výška žien početžien FREKVENCIA VÝSKYTU • grafické znázornenie rozloženia hodnôt premennej (trend) • histogram FREKVENCIA VÝSKYTU • zošikmené rozloženie ? ? STREDNÉ HODNOTY • základná charakteristiku dát, typická hodnota danej premennej • koncentrácia informácii do jedného čísla + jednoduchý výpočet + rýchla základná informácia o rozložení dát premennej - príliš zjednodušujúce - citlivosť na extrémne hodnoty STREDNÉ HODNOTY MODUS • najčastejšia hodnota danej premennej MEDIÁN • prostredná hodnota danej premennej PRIEMER • súčet hodnôt vydelený počtom hodnôt 13, 18, 13, 14, 13, 16, 14, 21, 1313, 18, 13, 14, 13, 16, 14, 21, 13 13, 18, 13, 14, 13, 16, 14, 21, 1313, 13, 13, 13, 14, 14, 16, 18, 21 NOMINÁLNE: - modus ORDINÁLNE: - modus - medián INTERVALOVÉ: - modus - medián - priemer POMEROVÉ: - modus - medián - priemer STREDNÉ HODNOTY| Priemer • veľmi citlivý na extrémne hodnoty • nemá zmysel pri asymetrickom rozložení dát • môže poskytovať informáciu, ktorá neodpovedá skutočnosti (!) PRÍKLAD • hodnotenie úspešnosti určitej terapie • 20 pacientov prežilo mesiac, 1 pacient prežil 30 rokov (?) • priemer dožitia = 18 mesiacov (1,5 roka) (?) • priemer počtu pív vypitých za jeden týždeň muži: 8 ženy: 2 (?) STREDNÉ HODNOTY| Priemer Jedinec Muži (počet pív) Ženy (počet pív) Jedinec č. 1 Jedinec č. 2 Jedinec č. 3 Jedinec č. 4 Jedinec č. 5 Súčet: Aritmetický priemer: 40 8 40 8 Jedinec Muži (počet pív) Ženy (počet pív) Jedinec č. 1 8 0 Jedinec č. 2 8 0 Jedinec č. 3 8 0 Jedinec č. 4 8 0 Jedinec č. 5 8 40 Súčet: Aritmetický priemer: 40 8 40 8 STREDNÉ HODNOTY vs. FREKVENCIA VÝSKYTU • mesačný príjem jedinec č.1: 17 000,- Kč jedinec č. 2: 18 000,- Kč jedinec č. 3: 18 000,- Kč jedinec č. 4: 19 000,- Kč jedinec č. 5: 19 000,- Kč jedinec č. 6: 19 000,- Kč jedinec č. 7: 20 000,- Kč jedinec č. 8: 20 000,- Kč jedinec č. 9: 21 000,- Kč PRIEMER: 19 000,- Kč MODUS: 19 000,- Kč MEDIÁN: 19 000,- Kč jedinec č.1: 17 000,- Kč jedinec č. 2: 18 000,- Kč jedinec č. 3: 18 000,- Kč jedinec č. 4: 19 000,- Kč jedinec č. 5: 19 000,- Kč jedinec č. 6: 19 000,- Kč jedinec č. 7: 20 000,- Kč jedinec č. 8: 20 000,- Kč jedinec č. 9: 21 000,- Kč jedinec č. 10: 50 000,- Kč jedinec č. 11: 100 000.- Kč PRIEMER: 29 200,- Kč MODUS: 19 000,- Kč MEDIÁN: 19 000,- Kč rozloženie/histogram? STREDNÉ HODNOTY vs. FREKVENCIA VÝSKYTU • niekedy vhodnejšie využiť štatistiky nižšej úrovne • POZOR na homogenitu vzorku! zdroj: ISPV.cz 0 10 20 30 40 50 60 70 80 90 100 110 120 130 140 150 160 170 180 190 200 187 cm 163 cm 165 cm 196 cm 185 cm AKO MERAŤ VARIABILITU? Rozptyl: priemer druhých mocnín vzdialeností hodnôt od ich priemeru → odchýlky od priemeru Smerodatná odchýlka: 𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟 0 10 20 30 40 50 60 70 80 90 100 110 120 130 140 150 160 170 180 190 200 187 cm 163 cm 165 cm 196 cm 185 cm priemer = 187+163+165+196+185 5 = 896 5 = 179,2 0 10 20 30 40 50 60 70 80 90 100 110 120 130 140 150 160 170 180 190 200 187 cm 163 cm 165 cm 196 cm 185 cm 16,8 7,8 5,8 -14,2 -16,2 rozptyl = 7,82+(−16,2)2+(−14,2)2+16,82+5,82 5−1 = 210,2 0 10 20 30 40 50 60 70 80 90 100 110 120 130 140 150 160 170 180 190 200 187 cm 163 cm 165 cm 196 cm 185 cm 16,8 7,8 5,8 -14,2 -16,2 smerodatná odchýlka = 210,2 = 14,5 0 10 20 30 40 50 60 70 80 90 100 110 120 130 140 150 160 170 180 190 200 187 cm 163 cm 165 cm 196 cm 185 cm 193 cm 164 cm VARIABILITA Field2009:38 • načo je to dobré? • vzájomné porovnanie dvoch vzoriek (smerodatná odchýlka) VARIABILITA • 2 vzorky politikov: N = 17 N = 200 • ktorá skupina má väčší rozptyl výšok ? • ktorá skupina má väčší rozptyl výšok ? priemerná výška = 185 priemerná výška = 175 OD POPISOVANIA K VYVODZOVANIU • sociálne vedy → zistenia založené na vzorkách → snaha o generalizáciu na celú populáciu • máme pod kontrolou všetky intervenujúce premenné? • skutočne naše meranie odpovedá konceptu? • výsledky sú zaťažené neistotou • interval spoľahlivosti – interval, v ktorom skutočná hodnota danej charakteristiky leží s určitou pravdepodobnosťou (95%) • príklad: výška 40 náhodne vybraných politikov – priemer: 175 cm – smerodatná odchýlka: 20 cm skutočná priemerná výška politikov INTERVAL SPOĽAHLIVOSTI • exit poll PSP ČR 2017 (Brno) INTERVAL SPOĽAHLIVOSTI • exit poll PSP ČR 2017 (Brno) malé rozdiely nie sú významné INTERVAL SPOĽAHLIVOSTI • reálne výsledky PSP ČR 2017 (Brno) VZŤAHY MEDZI PREMENNÝMI • dvojrozmerná analýza – vzťahy medzi dvomi premennými • kontingenčná tabuľka (crosstabs) – základná vizualizácia vzťahu dvoch štatistických znakov (hodí sa najmú pre kategorické premenné s malým množstvom kategórií) • nerozlišujeme medzi závislou a nezávislou riadky = hodnoty prvého znaku (pohlavie) stĺpce = hodnoty druhého znaku (dominantná ruka) VZŤAHY MEDZI PREMENNÝMI • typický (brnenský) volič ANO ? (exit poll PSP 2017) VZŤAHY MEDZI PREMENNÝMI • typický (brnenský) volič ANO ? (exit poll PSP 2017) VZŤAHY MEDZI PREMENNÝMI • typický (brnenský) volič ANO ? (exit poll PSP 2017) VZŤAHY MEDZI PREMENNÝMI • typický (brnenský) volič ANO ? (exit poll PSP 2017) VZŤAHY MEDZI PREMENNÝMI • kontingenčná tabuľka nám nepovie nič o sile vzťahu • existuje korelácia? – zmeny v jednej premennej sú doprevádzané zmenami v druhej premennej – vzájomná asociácia medzi premennými je lineárna • korelačný koeficient – sila a smer vzťahu – hodnoty <-1,1>, 0 = absencia vzťahu – sila a smer vzťahu čas strávený prípravou na skúšku ziskbodovzoskúšky VZŤAHY MEDZI PREMENNÝMI • korelačný koeficient VZŤAHY MEDZI PREMENNÝMI • korelácia nie je kauzalita! ... korelácia neznamená že jedna vec ovplyvňuje druhú (môžu existovať iné dôvody vzájomnej korelácie). závislá a nezávislá premenná VZŤAHY MEDZI PREMENNÝMI • závislosť dvoch a viac premenných → regresia • vplyv nezávislej X na nezávislú Y • predikcia čas strávený prípravou na skúšku ziskbodovzoskúšky VZŤAHY MEDZI PREMENNÝMI • lineárna regresia – závislá premenná musí byť kardinálna (intervalová, pomerová) príklad: Čo môže ovplyvňovať čas strávený denne na internete? Regresný model dáta: European Social Survey 2016 vysvetľovacia sila modelu štatistická významnosť p < 0,05regresný koeficient VIZUALIZÁCIA DÁT • prezentácia výstupov • posúdenie charakteru dát • uľahčuje porozumieť číslam • „jeden obrázok povie viac než tisíc slov“ • graf rozpráva príbeh • veľmi silný nástroj VIZUALIZÁCIA DÁT • aj jemná zmena môže mať zásadný dopad NAJČASTEJŠIE: • chýbajúci východiskový bod – posunutá Y-os • dve Y-osi v jednom grafe • vynechané osi a ich popisy • chybne nakreslený graf