Sčítání lidu 2021 Zdroje dat a hlavní otázky zpracování výsledků 1 •Robert Šanda •20. 4. 2023 Počet obyvatel Česka v období 1950 – 2022 (stavy k 1. 1.) Počet obyvatel Česka v období 1950 – 2022 (stavy k 1. 1.) Od dotazníků k registrům Formy sčítání lidu v Evropě Formy sčítání členských zemích v EU v období 2000 – 2021 (včetně UK) Základní typy sčítání lidu v zemích EU (EU-28) v letech 2011 a 2021 Základní formy sčítání kolem roku 2020 v Evropě Převzato z: https://statswiki.unece.org/display/censuses/Censuses+of+the+2020+round SLDB 2021 – ZDROJE DAT •Konstitutivní zdroje - sčítací formuláře (listinné, elektronické) - základní registr obyvatel (ROB) + jeho agendové (zdrojové) systémy AISEO a AISC • •Doplňkové administrativní zdroje - centrální registr pojištěnců (zdravotní pojištění) - integrovaný IS České správy sociálního zabezpečení - systémy Ministerstva práce a sociálních věcí - uchazeči o zaměstnání, rodičovský příspěvek, příjemci pomoci v hmotné nouzi - databáze žáků a studentů od základních škol po VŠ (VŠ včetně nedávných absolventů) - údaje z přiznání k dani z příjmů za rok 2020 Zdroje dat o osobách Podíly osob evidovaných v ROB nalezených ve vybraných dalších zdrojích podle věku (100 % - počet osob v ROB v daném věku) Využití ve zpracování 2021 •Vymezení populace - Základní registr obyvatel + agendový IS evidence obyvatel a agendový IS cizinců – konstitutivní zdroj - Ostatní administrativní zdroje – doplňkové informace (signs-of-life analýza) •Výhradní zdroj údajů o osobách: - místo registrovaného pobytu - státní občanství - rodinný stav - rok příchodu do země - postavení v zaměstnání •Alternativní zdroj pro údaje: - místo obvyklého pobytu, - místo obvyklého pobytu rok před sčítání a po narození - počet dětí - úroveň vzdělání - základní vztahy mezi osobami v domácnosti (rodinná jádra) - (Ekonomické charakteristiky – ekonomická aktivita, odvětví) Administrativní data o osobách ve sčítání 2021 •Údaje o bytech •Vazba obyvatel na byt (adresa pobytu do úrovně bytu – pro tvorbu domácností a charakteristiky bydlení) •Úroveň vzdělání za většinu obyvatel •Pobyt po narození (dříve bydliště matky v době narození) za podstatnou část obyvatel •Místo pracoviště/školy •Charakteristiky dojížďky do zaměstnání/školy (frekvence, doba každodenní dojížďky, prostředek) •Zaměstnání •Sociokulturní charakteristiky - mateřský jazyk - národnost - náboženská víra Údaje neobsažené v admin. zdrojích ZPRACOVÁNÍ •Digitalizace listinných sčítacích formulářů - celkem bylo do elektronické podoby převedeno 816,3 tisíc formulářů •Kódování (zařazení údajů z formulářů do kategorií) - 27,5 mil. údajů kódováno automaticky, 2,4 manuálně - největší a časově nejnáročnější část manuálně kódovaných údajů představují údaje o odvětví ekonomické činnosti a zaměstnání •Propojování formulářů s administrativními zdroji, „deduplikace“ •„Signs-of-life“ analýza •Vymezení obvykle a „trvale“ bydlícího obyvatelstva •Zařazení všech sečtených osob do domácností, domácností do bytů, bytů do domů • •Anonymizace • •Logické kontroly, odvozování dalších charakteristik •Tvorba agregovaných výsledků Hlavní etapy zpracování dat •Výrazný dopad na přesnost výsledného počtu obyvatel a konzistence výsledků •Hlavní požadavek: minimalizace chyb, „vybalancování“ rizik obou druhů chyb (chybné propojení vs. chybné nepropojení) •Postup A) Standardizace identifikačních údajů (na straně formulářů i ROB) - např. rodná čísla 530512 / 118 -> 530512118 - několik způsobů standardizace jmen: - původní záznam (ilustrační příklad) jméno: Ing. Anna-Marie příjmení: Horáková, Ph.D. - standardizace 1: jméno: ANNA MARIE příjmení: HORAK - standardizace 2: příjmeníjméno: HORAKANNAMARIE - standardizace 3: celé jméno abecedně : ANNA~HORAKOVA~MARIE Vybrané etapy zpracování – propojování záznamů •B) Vytvoření „black listů“ - neunikátní kombinace jméno-příjmení-datum narození v ROB - neunikátní rodná čísla v ROB - „půjčované“ doklady na formulářích … Vybrané etapy zpracování – propojování záznamů •C) Vlastní propojování - série zhruba 20 pravidel - deterministické propojování - hierarchie identifikátorů podle spolehlivosti (id datové schránky…jméno…doklad - pravděpodobnostní propojování - Levenshteinova vzdálenost (počet rozdílů ve znacích) - Jaro-Winkler (počet shodných znaků v polovině řetězce, porovnání jejich pozic, bonifikace shodných začátků řetězců) - „symetrická diference“ – počet shodných a počet rozdílných slov Vybrané etapy zpracování – propojování záznamů •duplicita (multiplicita): více formulářů napojených na jeden záznam ROB •duplicity poprvé řešeny v roce 2001 •poměrně velké množství duplicit (861 tisíc osob na více než jednom formuláři ) •stanovena sada pravidel pro výběr prioritního záznamu z formuláře Vybrané etapy zpracování – prioritizace, deduplikace Výsledek napojování formulářů na ROB a deduplikace Podíly osob sečtených na sčítacích formulářích na osobách s evidovaným pobytem v registru obyvatel podle věku a pohlaví v letech 2011 a 2021 Podíly osob sečtených na sčítacích formulářích na osobách s evidovaným pobytem v registru obyvatel podle věku a pohlaví v letech 2011 a 2021 •Posouzení faktické přítomnosti osob evidovaných v populačním registru na základě administrativních dat (populační registry běžně obsahují záznamy osob, které na území daného státu již nežijí) • •V různých podobách aplikována v řadě zemí provádějících kombinované nebo čistě administrativní sčítání (např. Rakousko, Švédsko, Španělsko, Estonsko,…) • •Nutný přístup k co největšímu počtu administrativních zdrojů • •Ve sčítání 2011 přístup pouze k evidenci obyvatel (ISEO), signs-of-life analýza proveditelná pouze ve velmi omezené míře Signs of life analýza (SOL) •Založena na „chování“ referenční populace v administrativních zdrojích u Navíc pravidla založená na „selském rozumu“, např. u Osoby vedené Úřadem práce jako uchazeči o zaměstnání byly vždy považovány za přítomné v Česku u Bez ohledu na výskyt v jiných zdrojích nyla nedávná změna záznamu v ROB považována za důkaz přítomnosti na území Česka u… u Referenční populace pro SOL Obvykle bydlící v Česku Obvykle bydlící v zahraničí Signs of life analýza v SLDB 2021 uZ referenční populace vyplynulo např. u Občané ČR téměř vždy evidování v registru pojištěnců u Osoby 70+ navíc téměř vždy v evidenci příjemců důchodu u Děti 7 – 15 téměř vždy v databázích MŠMT… u Výsledek signs-of-life analýzy Vyřazení - 302 199 osob Zařazení do obyvatelstva - 702 214 osob Výsledek signs-of-life analýzy Výsledek signs-of-life analýzy Vymezení obyvatelstva v SLDB 2021 Vymezení obyvatelstva v SLDB 2021 Vymezení obyvatelstva v SLDB 2021 formuláře propojené s AZD Vymezení obyvatelstva v SLDB 2021 formuláře propojené s AZD Vymezení obyvatelstva v SLDB 2021 •Počet obvykle bydlících obyvatel (OP): 10 524 167 •Počet „trvale“ bydlících obyvatel (TP): 10 487 748 standardní výsledky SLDB (obvykle bydlící) základ pro bilance („trvale“ bydlící ) Obvykle a trvale bydlící obyvatelstvo podle SLDB 2021 základ pro bilance („trvale“ bydlící ) míra shody = OP ∩ TP * 100 OP ∪ TP Podíly obyvatel obvykle i trvale bydlících na území Česka s rozdílnými obcemi obvyklého a trvalého pobytu podle věku 100 % - počet obyvatel v dané věkové skupině s obvyklým i trvalým pobytem v Česku Počty osob v evidenci obyvatel (ISEO, resp. ROB) a počty osob na sčítacích formulářích v období 2001 – 2021 Poznámka: Údaj z roku 2001 nevyjadřuje přímo počet osob sečtených na formulářích, ale výsledný počet („trvale“ bydlících) obyvatel Úhrnná plodnost v období 1970 – 2021 Děkuji za pozornost. 40