Data Úvodem •Prostorová analýza x analýza v prostoru –V politologii se prostorové hlasovaní (spatial voting) a prostorová analýza voleb (spatial analysis) týká myšleného politického prostoru –V geografii se prostorová analýza týká fyzického prostoru •Kvantitativní = potřeba vhodných dat •V tradičním pojetí prostorové analýzy se neuplatňují jiné než kvantitativní metody Povaha dat •Agregovaná data • •Kardinální • •Prostorové • a časové zařazení Princip vzniku agregovaných dat •Různě vysocí lidé •V několika místnostech •Agregace dat –Jen jeden údaj za místnost –Různé situace mohou vést ke stejnému výsledku Jméno Adresa věk účast strana vyznání EA Karel J. Údolní 5 18 Ano ČSSD ateista zaměstnanec Jana B. Údolní 2 73 Ano ČSSD ateista důchodce Jiří K. Údolní 12 34 Ne - ateista OSVČ Květa D. Údolní 7 45 Ano ANO ateista zaměstnanec Tomáš V. Marešova 3 98 Ano ODS ateista důchodce Marie H. Marešova 7 26 Ne - katolík zaměstnanec Jan Z. Marešova 5 22 Ano TOP09 ateista OSVČ Eva A. Jaselská 4 73 Ano KSČM ateista důchodce Zdeněk C. Jaselská 9 55 Ne - ateista zaměstnanec Pavel N. Jaselská 24 23 Ano ANO ateista student Anna R. Jaselská 35 64 Ano ANO ateista důchodce Emil M. Obilní trh 2 48 Ano ČSSD ateista zaměstnanec Lucie S. Obilní trh 8 47 Ano KDU ateista zaměstnanec Milan T. Obilní trh 13 49 Ne - katolík OSVČ Údolní Marešova Jaselská Obilní trh ulice Průměrný věk účast ČSSD ANO KSČM ODS TOP KDU katolíci zaměstanci Počet Údolní 42,5 75 66,6 33,3 0 0 0 0 0 50 4 Marešova 48 66,6 0 0 0 50 50 0 33,3 33,3 3 Jaselská 50,1 75 0 66,6 33,3 0 0 0 0 25 4 Obilní trh 48 66,6 50 0 0 0 0 50 33,3 66,6 2 Jméno Adresa věk účast strana vyznání EA Karel J. Údolní 5 18 Ano ČSSD ateista zaměstnanec Jana B. Údolní 2 73 Ano ČSSD ateista důchodce Jiří K. Údolní 12 34 Ne - ateista OSVČ Květa D. Údolní 7 45 Ano ANO ateista zaměstnanec (18+73+34+45)/4 3xAno/4 EKOLOGICKÁ CHYBA •V procesu agregace se ztrácí informace •Nelze hovořit o pozorovaných vztazích jako o platných pro individuální voliče –V našem případě: tam kde je nějaký katolík získala hlas KDU nebo TOP09. Přitom ale oba katolíci nevolili. –V reálném světě nejsme schopni věrohodně z agregovaných dat věrohodně rekonstruovat individuální vztahy • Specifika prostorových dat •Autokorelace (více seminář 3) –„vše souvisí se vším, a co si je blíž, to spolu souvisí více“ –Porušení předpokladu o nezávislosti pozorování •Nestacionarita (více seminář 4) –Volební chování jedné společenské skupiny se může v prostoru lišit (katolíci ve Valašských Klouboucích x katolíci v severních Čechách, podnikatelé v Praze x podnikatelé na Svitavsku) • Velikost polygonu •Malý region = vysoká homogenita/ • vysoký „šum“ •Velký region = nízká homogenita/ • nízký šum • –Funkční x administrativní region •http://apl.czso.cz/irso4/cisel.jsp •Viz http://www.cuzk.cz/Uvod/Produkty-a-sluzby/RUIAN/2-Poskytovani-udaju-RUIAN-ISUI-VDP/Ciselniky-ISUI/N izsi-uzemni-prvky-a-uzemne-evidencni-jednotky.aspx • schéma soustavy Zdroj: google.maps.com Rozdíly mezi měřítky nezaměstnanost vš Počet obyvatel OSVČ min max min max min max min max Brno 9,4 20,6 385913 14,19 1 Městské části 5,8 11,9 11,1 32,5 577 64316 9,2 18,3 29 „Čtvrtě“ 0 23 0 39 5 26781 6 75 59 ZSJ 0 100 0 75 0 12836 0 100 264 - kvůli značným rozdílům ve velikosti jednotek je obvykle vhodné používat váhy Důsledky „měření“ (sběru dat) •V socio-ekonomické analýze obvykle není problém s chybějícími daty za místa •Problém s chybějícími daty pro čas (mnoho údajů je zjišťováno jen z cenzu) • •Bojkot sčítání (např. Řekové v Albánii, Albánci v Makedonii a Srbsku, …) –V ČR otázka víry a vyznání v roce 2011 • Data za obce dostupná každoročně (nebo častěji) •Počet obyvatel •Věkové složení •Pohyb obyvatelstva (narození/zemřelí, přistěhovalí/vystěhovalí) •Bytová výstavba •Nezaměstnanost (měsíčně) •Rozpočty obcí •Školská statistika Sčítání lidu •https://www.czso.cz/csu/czso/otevrena_data_pro_vysledky_scitani_lidu_domu_a_bytu_2011_sldb_2011 •Výběr údajů ze SLDB 2011 za obyvatelstvo, domy a byty, domácnosti a vyjížďku –Popis dat –Data - Obyvatelstvo - csv •Po otevření: data – text do sloupců – oddělovač: čárka •Vyfiltrování obcí: data – filtr – typuz_naz: obec •Vykopírování do nového sešitu •Přejmenování sloupců (pomocí souboru popis dat) •Zjednodušení a zkrácení názvů! (jinak problémy v SPSS) •Smazání údajů jen za ženy/muže •Výběr sloupců závisí na teoretických předpokladech •Spojení stejným způsobem jako výše • •Export do excelu • •Vypočtení procent • Nezaměstnanost •https://www.mpsv.cz/web/cz/nezamestnanost-v-obcich •Rovněž ve formátu csv •Data neobsahují identifikační kód •Stažení dat za každý okres kraje •Připsání identifikace okresu do sloupce tabulky •Seřazení dle okresu a obce •Připsání kódu ze struktury území (https://www.czso.cz/csu/czso/i_zakladni_uzemni_ciselniky_na_uzemi_cr_a_klasifikace_cz_nuts) –Vybrat kraj a seřadit dle okresu a obce –Nakopírovat do tabulky s nezaměstnaností • Shrnutí •Agregovaná data –Nebezpečí ekologické chyby •Kardinální proměnné –Možnosti pro využití řady statistických nástrojů •Prostorová data –Narušení obvyklých předpokladů –Otázka měřítkové úrovně –Otázka spolehlivosti dat –