Prostorová analýza voleb seminář 1 Organizace seminářů •Program v sylabu je orientační –Pokud nebude v předstihu uvedeno jinak, literaturu k seminářům čtěte PŘED seminářem •Dnes: data, příprava dat •Příště: vytváření mapy •Přespříště: popisné statistiky, korelace •Skoro nakonec: regrese •Nakonec: „prostorové“ metody •Úplně nakonec: shrnutí/opakování ??? Semináře •K čemu jsou: –Jak zjistit z agregovaných dat užitečné informace o volebním chování •Prakticky využitelné zejména pro práci s volbami, ke kterým se nedělají průzkumy veřejného mínění –Rozvoj dovedností v oblasti statistických metod •Počítáme s tím, že něco umíte z podzimního kurzu –Seznámení s „kartografickými“ metodami – –Zpracování analýz pro seminární práci – –OBSAH SEMINÁŘŮ ANI LITERATURY URČENÉ K SEMINÁŘŮM NEBUDE SOUČÁSTÍ ZKOUŠKY •Osvojení si dovedností a znalostí bude otestováno seminární prací •Literaturu rozhodně čtěte Seminární práce •Cíl: popsat a vysvětlit rozdíly v podpoře kandidátů v krajských volbách •Jednotlivé kroky –Popis volební podpory pomocí map –Popis volební podpory pomocí deskriptivních statistik –Popis vývoje volební podpory pomocí analýzy souvislosti s předchozími volbami –Vysvětlení rozdílů v podpoře stran v obcích pomocí regresní analýzy – •PRO ZPRACOVÁNÍ PRÁCE BUDOU DŮLEŽITÉ JAK INFORMACE Z TOHOTO KURZU, TAK Z PODZIMNÍHO KURZU O KVANTITATIVNÍCH METODÁCH Seminární práce 2. •Jednotlivé kroky budou konkrétněji zadány na dalších seminářích •Finální práce bude kompilací úkolů + úvod, závěr, literatura, propojení jednotlivých částí vysvětlujícími pasážemi •V hodnocení bude také zohledněno, jakým způsobem byly vyřešeny výtky sdělené v hodnocení úkolů • úkoly •Za účast na seminářích a za odevzdání všech úkolů získáte 10 bodů •Neodevzdání některého z úkolů = 0 bodů •Úkoly samotné nebudou nijak hodnoceny, jen vám přinesou zpětnou vazbu –Odevzdaný úkol, který neřeší zadání, bude považován za neodevzdaný •Neúčast na semináři je možná, ale přístup k materiálům k danému semináři budou mít jen zúčastnění •Termín odevzdání bude sdělen vždy se zadáním úkolu (obvykle půjde o pondělní půlnoc před středečním seminářem) •Zadání úkolu bude zveřejněno vždy na konci semináře • •Odevzdání úkolů vede k vyšší šanci vytvoření kvalitní seminární práce (a tedy k vyšší šanci na dobré bodové hodnocení) •Pokud budou úkoly odevzdány, nebude potřeba prezentací Jak nachystat data? Data – volební výsledky •2 možnosti jejich zisku –Volby.cz –Otevřená data –(žádost na ČSÚ https://www.czso.cz/csu/czso/objednavky_formulare– v případě dat, která nejsou v otevřených datech) – –Data za obce –S okrsky je těžká práce –Je známé jen aktuální vymezení okrsků –https://volby.tmapy.cz/ Volby.cz •Otravná manuální práce •Možnost obejít automatizovaným stahováním (tzv. webscrape) •Skript lze napsat v VBA/pythonu (excel) nebo v R –To se tady učit nebudeme –Pokud chcete stahovat data z volby.cz nebo z jiných serverů se systematicky uspořádanými tabulkami, pak se tato schopnost velmi hodí –http://analystcave.com/web-scraping-tutorial/ –http://analystcave.com/excel-tools/excel-scrape-html-add/ –https://www.promptcloud.com/blog/how-to-use-excel-to-scrape-websites – Otevřená data •Součást serveru volby.cz •http://volby.cz/opendata/opendata.htm •Obsahuje systematizovanou informaci o kandidujících subjektech (registry) a volebních výsledcích (okrsková data) a další informace (číselníky) •Stažení zazipované složky • Úprava excelového souboru •Vyfiltrovat svůj kraj z tabulky kzt6 –Data – filtr – okres – vybrat čísla okresů –Číselník okresů dle krajů: https://www.czso.cz/documents/10180/25385875/13315241+420213p3.pdf/295ebb5e-1e4e-4d50-bd80-379c5527 b911?version=1.0 •ctrl+a – ctrl+c – ctrl+n – ctrl+v •Souhrn dle obce –Data – souhrn – u změny ve sloupci OBEC; použít funkci součet; označit všechny položky od VOL_SEZNAM, kromě KC a ZAKRSTRANA – ok •Výsledek do nového sešitu •ctrl+a – ctrl+c – ctrl+n – klepnout pravým do první buňky a vložit jako hodnoty •Upravit nový sešit –Vložit sloupec za sloupec OBEC – nový sloupec pojmenovat „Celkem“– rozdělit sloupec obec (data – text do sloupců – oddělovač – mezera – ok) – seřadit dle celkem – smazat data v řádcích, které neobsahují slovo celkem - smazat prázdné sloupce, sloupce kde jsou jen nuly a sloupec celkem •ctrl+s – název: jmenokraje_ucast_rok –Před uložením přejmenovat také list –Název sešitu krátký, bez mezer a diakritiky • •Otevřít příslušný sešit z kzt6p-1 až kzt6p-13 •Nechat jen sloupce OBEC, KSTRANA, POC_HLASU •Seřadit dle OBEC •Postupně vyfiltrovat relevantní strany do nových sešitů –Parlamentní strany + ostatní strany nad 5 % •Pro každou stranu souhrn dle obce •Upravit nový sešit –Vložit sloupec za sloupec OBEC – nový sloupec pojmenovat „Celkem“– rozdělit sloupec obec (data – text do sloupců – oddělovač – mezera – ok) – seřadit dle celkem smazat prázdné sloupce, sloupce kde jsou jen nuly a sloupec celkem –Přejmenujte sloupec POC_HLASU na jmeno strany •ctrl+s – název: jmenokraje_strana_rok –Před uložením přejmenovat také list • Spojení účasti a výsledků a přidání dalších dat •SPSS • •Přidání dat –Z předchozích voleb –Ze sčítání lidu –Z jiných zdrojů (MPSV, MŠMT, cokoli,…) – – •Otevřete soubory, které chcete propojit, v SPSS • • • • • •Po otevření tabulek začněte se spojováním. • •Nejprve je nutné seřadit data v každé spojované tabulce podle sloupce OBEC • Spojení dat •Spojování začněte od 1. kola posledních voleb (v úkolu nejlépe od účasti v krajských volbách) •Vyberte • Sčítání lidu •https://www.czso.cz/csu/czso/otevrena_data_pro_vysledky_scitani_lidu_domu_a_bytu_2011_sldb_2011 •Výběr údajů ze SLDB 2011 za obyvatelstvo, domy a byty, domácnosti a vyjížďku –Popis dat –Data - Obyvatelstvo - csv •Po otevření: data – text do sloupců – oddělovač: čárka •Vyfiltrování obcí: data – filtr – typuz_naz: obec •Vykopírování do nového sešitu •Přejmenování sloupců (pomocí souboru popis dat) •Zjednodušení a zkrácení názvů! (jinak problémy v SPSS) •Smazání údajů jen za ženy/muže •Výběr sloupců závisí na teoretických předpokladech •Spojení stejným způsobem jako výše • •Export do excelu • •Vypočtení procent • Nezaměstnanost •https://www.mpsv.cz/web/cz/nezamestnanost-v-obcich •Rovněž ve formátu csv •Data neobsahují identifikační kód •Stažení dat za každý okres kraje •Připsání identifikace okresu do sloupce tabulky •Seřazení dle okresu a obce •Připsání kódu ze struktury území (https://www.czso.cz/csu/czso/i_zakladni_uzemni_ciselniky_na_uzemi_cr_a_klasifikace_cz_nuts) –Vybrat kraj a seřadit dle okresu a obce –Nakopírovat do tabulky s nezaměstnaností Úkol •Vytvořit datovou matici obsahující: –Podporu relevantních stran v krajských volbách 2012 a 2016 –Strany v roce 2016 jsou kritériem výběru pro rok 2012 a poslanecké volby –Pokud koalice obsahuje jednu parlamentní stranu, považujte ji celou za parlamentní –Podporu stran ve volbách do Poslanecké sněmovny v roce 2013 a 2017 (pozor na názvy! – za každý název umístěte něco jako „_PS13“) –Vybraná data ze sčítání lidu a jiných zdrojů •A4 vysvětlující, proč jste zvolili dané proměnné (= teoretické předpoklady/odkazy k teorii) •Odevzdání do 18 hodin 17. 3. 2020. Četba k příštímu semináři •Parker – Asencio: Gis and spatial analysis for social sciences: coding, mapping and modeling –Xiii – xvi: Overview –1 – 24: o GISu –51 – 83: Thematic maps • Data Úvodem •Prostorová analýza x analýza v prostoru –V politologii se prostorové hlasovaní (spatial voting) a prostorová analýza voleb (spatial analysis) týká myšleného politického prostoru –V geografii se prostorová analýza týká fyzického prostoru •Kvantitativní = potřeba vhodných dat •V tradičním pojetí prostorové analýzy se neuplatňují jiné než kvantitativní metody Povaha dat •Agregovaná data • •Kardinální • •Prostorové • a časové zařazení Princip vzniku agregovaných dat •Různě vysocí lidé •V několika místnostech •Agregace dat –Jen jeden údaj za místnost –Různé situace mohou vést ke stejnému výsledku Jméno Adresa věk účast strana vyznání EA Karel J. Údolní 5 18 Ano ČSSD ateista zaměstnanec Jana B. Údolní 2 73 Ano ČSSD ateista důchodce Jiří K. Údolní 12 34 Ne - ateista OSVČ Květa D. Údolní 7 45 Ano ANO ateista zaměstnanec Tomáš V. Marešova 3 98 Ano ODS ateista důchodce Marie H. Marešova 7 26 Ne - katolík zaměstnanec Jan Z. Marešova 5 22 Ano TOP09 ateista OSVČ Eva A. Jaselská 4 73 Ano KSČM ateista důchodce Zdeněk C. Jaselská 9 55 Ne - ateista zaměstnanec Pavel N. Jaselská 24 23 Ano ANO ateista student Anna R. Jaselská 35 64 Ano ANO ateista důchodce Emil M. Obilní trh 2 48 Ano ČSSD ateista zaměstnanec Lucie S. Obilní trh 8 47 Ano KDU ateista zaměstnanec Milan T. Obilní trh 13 49 Ne - katolík OSVČ Údolní Marešova Jaselská Obilní trh ulice Průměrný věk účast ČSSD ANO KSČM ODS TOP KDU katolíci zaměstanci Počet Údolní 42,5 75 66,6 33,3 0 0 0 0 0 50 4 Marešova 48 66,6 0 0 0 50 50 0 33,3 33,3 3 Jaselská 50,1 75 0 66,6 33,3 0 0 0 0 25 4 Obilní trh 48 66,6 50 0 0 0 0 50 33,3 66,6 2 Jméno Adresa věk účast strana vyznání EA Karel J. Údolní 5 18 Ano ČSSD ateista zaměstnanec Jana B. Údolní 2 73 Ano ČSSD ateista důchodce Jiří K. Údolní 12 34 Ne - ateista OSVČ Květa D. Údolní 7 45 Ano ANO ateista zaměstnanec (18+73+34+45)/4 3xAno/4 EKOLOGICKÁ CHYBA •V procesu agregace se ztrácí informace •Nelze hovořit o pozorovaných vztazích jako o platných pro individuální voliče –V našem případě: tam kde je nějaký katolík získala hlas KDU nebo TOP09. Přitom ale oba katolíci nevolili. –V reálném světě nejsme schopni věrohodně z agregovaných dat věrohodně rekonstruovat individuální vztahy • Specifika prostorových dat •Autokorelace (více seminář 3) –„vše souvisí se vším, a co si je blíž, to spolu souvisí více“ –Porušení předpokladu o nezávislosti pozorování •Nestacionarita (více seminář 4) –Volební chování jedné společenské skupiny se může v prostoru lišit (katolíci ve Valašských Klouboucích x katolíci v severních Čechách, podnikatelé v Praze x podnikatelé na Svitavsku) • Velikost polygonu •Malý region = vysoká homogenita/ • vysoký „šum“ •Velký region = nízká homogenita/ • nízký šum • –Funkční x administrativní region •http://apl.czso.cz/irso4/cisel.jsp •Viz http://www.cuzk.cz/Uvod/Produkty-a-sluzby/RUIAN/2-Poskytovani-udaju-RUIAN-ISUI-VDP/Ciselniky-ISUI/N izsi-uzemni-prvky-a-uzemne-evidencni-jednotky.aspx • schéma soustavy Zdroj: google.maps.com Rozdíly mezi měřítky nezaměstnanost vš Počet obyvatel OSVČ min max min max min max min max Brno 9,4 20,6 385913 14,19 1 Městské části 5,8 11,9 11,1 32,5 577 64316 9,2 18,3 29 „Čtvrtě“ 0 23 0 39 5 26781 6 75 59 ZSJ 0 100 0 75 0 12836 0 100 264 - kvůli značným rozdílům ve velikosti jednotek je obvykle vhodné používat váhy Důsledky „měření“ (sběru dat) •V socio-ekonomické analýze obvykle není problém s chybějícími daty za místa •Problém s chybějícími daty pro čas (mnoho údajů je zjišťováno jen z cenzu) • •Bojkot sčítání (např. Řekové v Albánii, Albánci v Makedonii a Srbsku, …) –V ČR otázka víry a vyznání v roce 2011 • Data za obce dostupná každoročně (nebo častěji) •Počet obyvatel •Věkové složení •Pohyb obyvatelstva (narození/zemřelí, přistěhovalí/vystěhovalí) •Bytová výstavba •Nezaměstnanost (měsíčně) •Rozpočty obcí •Školská statistika Shrnutí •Agregovaná data –Nebezpečí ekologické chyby •Kardinální proměnné –Možnosti pro využití řady statistických nástrojů •Prostorová data –Narušení obvyklých předpokladů –Otázka měřítkové úrovně –Otázka spolehlivosti dat –