GIS4SG Lokalizační data mobilních operátorů Prostorová data ze sociálních médií podzim 2024 Lukáš Herman herman.lu@mail.muni.cz − Mobilita − Český statistický úřad zjišťuje dojížďku a vyjížďku do zaměstnání a škol a to 1x za 10 let při Sčítání lidu, domů a bytů. − Sčítání dopravy realizované Ředitelstvím silnic a dálnic zpravidla 1x za 5 let (naposled v roce 2020). − Přítomné obyvatelstvo − Zdroje? − Problémy? KONVENČNÍ STATISTICKÁ DATA − Lokalizace polohy využívají síť GSM (network-based, NB). − Nejstarší metody − Mobilní telefon je pasivní (sledovaný) prvek − Metody využívající mobil (terminal/handset-based, TB) − Novější metody − Nepotřebuje aktivní spolupráci mobilní sítě − Aplikace, pomocí které zaznamenáváte nebo sdílíte svoji polohu − Speciální zařízení, řešení třetích stran − IMSI Catcher, např. Agáta − Vytvoří novou (fiktivní) BTS stanici GEOLOKAČNÍ DATA – METODY − Nevyžadující aktivitu poskytovatelů sítí. − Využitelné technologie telefonů. − Studie provedené aplikací smartphonů se dají rozdělit podle měřítka do tří kategorií: personal sensing, social/group sensing, public/community sensing. − Participační vs. oportunistický režim dle uživatele. METOD VYUŽÍVAJÍCÍ MOBIL Geografický ústav, Přírodovědecká fakulta, Masarykova Univerzita5 GEOLOKAČNÍ DATA – IMSI CATCHER Cvičení IZS – dopravní nehoda náklaďáku u tunelu Baume na dálnici A51 (Francie) GEOLOKAČNÍ DATA – BTS STANICE − pozemní přenosové antény, tzv. BTS (basic transmitter stations) − Interaktivní mapu stanic BTS je možné nalézt na webu GSMweb, kde jsou zmapované stanice kategorizovány dle jednotlivých poskytovatelů. − Různé typy: − Makrocell – tzv. makro-buňka slouží pro pokrytí většího území. − Mikrocell – tzv. mikro-buňka je vysílač mnohem menší jak rozměrově, tak svým dosahem – typicky do 2 km. − Umbrella cell – deštníková buňka je kombinací předchozích dvou typů. − Nanocell – nano-buňky mají velikost řádu sta metrů (vnitřek budov, metro). − Sektorizace použitím směrových antén, které vyzařují do „jednoho“ směru (vyzařovací úhel např. úhel 120°). GEOLOKAČNÍ DATA – BTS STANICE − V rámci finálního produktu nejsou poskytovány surová data ve smyslu pohybu určité osoby v území (ID SIM karty) − Proč asi? − V České republice působí 3 hlavní operátoři (tedy potencionální poskytovatelé geolokačních dat) – O2, Vodafone a T-Mobile, přičemž každý má na telekomunikačním trhu určitý podíl − T-Mobile cca 40 %, O2 cca 40 %, Vodafone cca 20 % − Tento podíl se však liší napříč územím! − Lokalizace vůči (nejbližší) BTS, ale data jsou pak poskytována za administrativní jednotky → nutné přepočítat! ZPRACOVÁNÍ DAT I. − Do kalibrační fáze vstupují tyto faktory: − podíl (penetrace) daného operátora na trhu v daném území − počet obyvatel v daném území − rozložení BTS stanic − sdílení BTS napříč operátory − morfologie terénu (členitý terén znesnadňuje přenos signálu) − očištění dat od zařízení, které rovněž komunikují skrz BTS („smart“ zařízení) − intenzita připojování SIM do sítě BTS (minimálně 1x za 30 minut - častěji, pokud jsou aktivní data, volání či SMS) ZPRACOVÁNÍ DAT II. − Vzhledem k výše popsaným úpravám můžeme považovat data jen za odhad − V angličtině: „Estimated Human Presence“ (EHP) – Järv, Tenkanen, and Toivonen 2017, nebo „population present“ (PP) – Martin, Cockings, and Leung 2015) − V obou případech se jedná o součet tří kategorií osob: − „resident population“ (PR) – rezident − „non-resident population“ (PNR) – např. pracující, student, … − „transiting population“ (PT) – návštěvník ZPRACOVÁNÍ DAT III. Zdržují se na místě více než 30 min. dlouhodobě a pravidelně vyskytuje v daném území v nočních hodinách (př.: 00:00-05:00) DÁLE LZE ROZLIŠIT ... − … APLIKACE I. − … APLIKACE II. Nejintenzivnější přepravní vazby mezi KÚ v Brně − … APLIKACE III. − … APLIKACE IV. APLIKACE V. − … APLIKACE VI. Kubíček et al. (2019) Geografický ústav, Přírodovědecká fakulta, Masarykova Univerzita APLIKACE vs. METODY POŘÍZENÍ DAT Ahas et al. (2010) Using Mobile Positioning Data to Model Locations Meaningful to Users of Mobile Phones Novák, Temelová (2010) Každodenní život a prostorová mobilita mladých Pražanů − DATA.BRNO – Přítomné obyvatelstvo dle dat mobilního operátora − Data o přítomném obyvatelstvu v ZSJ (Brno) a obcích JMK ve 2 týdnech − 20.-26.9.2021 a 4.-10.10.2021 − data od společnosti Vodafone − https://data.brno.cz/datasets/p%C5%99%C3%ADtomn%C3%A9-obyvatelstvo-dle-dat-mobiln%C3%ADho- oper%C3%A1tora-number-of-people-based-of-mobile-phone-usage/about − DATA.BRNO – Cesty dle dat mobilního operátora: − Počet cest mezi Brnem a dalšími územními celky − KÚ (Brno-město), obce (Brno-venkov), SO ORP (zbytek JMK) a kraje (zbytek ČR) − na základě geolokačních dat mobilního operátora T-Mobile − rozsahu 14 dnů. 7.10. 2019 až 20.10. 2019, tj. 14 matic po jednotlivých dnech, − 7 matic se zprůměrovanými dny v týdnu, − zprůměrovaný pracovní a víkendový den. − https://data.brno.cz/datasets/697fc58c78804a45bcd9e41c5ff64f6a/about DOSTUPNÉ DATOVÉ SADY − Petr Kubíček, Milan Konečný, Zdeněk Stachoň, Jie Shen, Lukáš Herman, Tomáš Řezník, Karel Staněk, Radim Štampach & Šimon Leitgeb (2019) Population distribution modelling at fine spatio-temporal scale based on mobile phone data, International Journal of Digital Earth, 12:11, 1319-1340, https://doi.org/10.1080/17538947.2018.1548654 − Tomáš Řezník, Bronislava Horáková & Roman Szturc (2015) Advanced methods of cell phone localization for crisis and emergency management applications, International Journal of Digital Earth, 8:4, 259-272, https://doi.org/10.1080/17538947.2013.860197 − Rein Ahas, Siiri Silm, Olle Järv, Erki Saluveer & Margus Tiru (2010) Using Mobile Positioning Data to Model Locations Meaningful to Users of Mobile Phones, Journal of Urban Technology, 17:1, 3-27, https://doi.org/10.1080/10630731003597306 − Novák, J., & Temelová, J. (2012) Každodenní život a prostorová mobilita mladých Pražanů: pilotní studie využití lokalizačních dat mobilních telefonů. Sociologický časopis / Czech Sociological Review, 48(5), 911-938. https://sreview.soc.cas.cz/artkey/csr-201205-0005_everyday-life-and-spatial-mobility-of-young-people-in-prague-a- pilot-study-using-mobile-phone-location-data.php − Novák, J., & Novobilský, J. (2013) Inovativní přístupy k zachycení přítomného obyvatelstva: data mobilních operátorů. Urbanismus a územní rozvoj, 16(3), 14-19. https://urrlab.cz/publikace/inovativni-pristupy-k-zachyceni- pritomneho-obyvatelstva-data-mobilnich-operatoru/ − https://data.gov.cz/%C4%8Dl%C3%A1nky/geoloka%C4%8Dn%C3%AD-data-mobiln%C3%ADch- oper%C3%A1tor%C5%AF-principy-p%C5%99%C3%ADklady-ot%C3%A1zky ZDROJE Prostorová data ze sociálních médií – obsah ̶ Úvod do problematiky sociálních médií ̶ Průnik do oblasti „prostorových“ věd ̶ Case study (1) – Facebook Places API ̶ Case study (2) – YouTube API Terminologie ̶ Sociální síť = množina soc. subjektů propojených směnnými vztahy (dle Sociologické Encyklopedie) ̶ Sociální médium = komunikační nástroj, využívající prostředí tzv. nových médii na technologickém základě Web 2.0. ̶ Sociální sítě jsou potom okruhy uživatelů na sociálních mediích (např. okruh přátel na Facebooku) Druhy sociálních sítí a médií Dělení ̶ Podle převažující funkce: ̶ Publishing (Blogger) ̶ Sharing (YouTube, Pinterest) ̶ Networking (Facebook) ̶ Discussing (Warfórum) ̶ Dělení podle zaměření: ̶ Osobní (Facebook, Flickr) ̶ Profesionální (LinkedIn) ̶ Informační (pro komunity hledající stejný druh informací, SuperGreenMe) ̶ Vzdělávací (Student Room) ̶ Záliby(Sport Shouting) ̶ Akademické (ResearchGate, Academia.edu) ̶ Dle Kapla & Haenlein: ̶ Kolaborativní projekty (wiki) ̶ Blogy (publikování digitálního obsahu) ̶ Obsahové komunity (sdílení mediálních obsahů různého typu – texty, videa, fotografie) ̶ Sociální sítě (Facebook, …) ̶ Virtuální herní a sociální světy (hry na hrdiny, Second Life) https://www.researchgate.net/publication/2224 03703_Users_of_the_World_Unite_The_Chall enges_and_Opportunities_of_Social_Media Vlastnosti a limity SMD ̶ Reprezentativnost aneb regionální rozdíly ̶ Neustálý vývoj ̶ Dostupnost a ochrana dat ̶ Objem dat a jejich kvalita ̶ Přesnost prostorové informace Regionální rozdíly ̶ Socioekonomické rozdíly ̶ Jazykové rozdíly ̶ „Politické“ a legislativní rozdíly AMI Digital Index 2020: nejpopulárnější sociální sítě Neustálý vývoj 2018: Případ společnosti Cambridge Analytica zneužití dat FB https://cs.wikipedia.org/wiki/Ca mbridge_Analytica Dostupnost a ochrana dat ̶ Technologický aspekt ̶ REST-APIs (Representational State Transfer Application Programming Interfaces) ̶ Možná omezení: ̶ Omezený počet požadavků za hodinu či den (př. Flickr, YouTube) ̶ Placený přístup (např. X) ̶ Web scraping – často může porušit smluvní požadavky (terms of use) jednotlivých platforem ̶ Etické aspekty ̶ Legislativní aspekty Web scraping Kvalita dat ̶ Kompletnost ̶ Omezení počtu prvků v rámci API ̶ Přesnost časového určení ̶ „Real-time“ ̶ Např.: rozdíl mezi natočením videa a uploadováním na Youtube ̶ Chyby plynoucí z dobrovolnosti ̶ Nestrukturované záznamy Přesnost prostorové informace ̶ Geotaggování ̶ Explicitní přiřazení prostorové informace umožnuje např. X (Twitter), ale jen 1% tweetů bylo geotagovaných (dle Valkanas & Gunopulos, 2012). ̶ Další možnosti: ̶ Extrakce geografických pojmů z textu a jejich následné geokódování ̶ Informace z uživatelského profilu (adresa, IP adresa) ̶ Zpracování obrazu nebo videa ̶ Jazyk Prostorové informace z videa Prostorové analýzy Prostorové vizualizace Case study 1 – Cíle ̶ Téma: časoprostorová analýza (otvíracích dob) služeb a obchodu ̶ „urban rhythms“ ̶ Lokalita: město Brno ̶ Zdroj dat: Facebook Places API Case study 1 – Data ̶ Data těženy v září 2020 ̶ Devět kategorií z toho vybrány tři: ̶ ‘Food & Beverage’ (‘F&B’) ̶ ‘Shopping & Retail’ (‘S&H’) ̶ ‘Medical & Health’ (‘M&H’) ̶ 6800 záznamů z Facebook Places ̶ Cca. 54% měly vyplněny otevírací dobu ̶ Více než 12% udávalo, že mají otevřeno pořád ‘location’: { ”city”: ‘Brno’, ”country”: ‘Czech Republic’, ”latitude”: 49.19402, ”longitude”: 16.61301, ”street”: ‘Novobranská 80/10’, 68 ”zip”: ‘602 00’ } Case study 1 – Výsledky Case study 1 – Výsledky Case study 1 – Výsledky Ověření kvality dat Průzkum maloobchodu z roku 2017 https://kambrno.cz/wp- content/uploads/2018/05/malo obchod2017.pdf Case study 1 – Výsledky ̶ Analýza nejbližšího souseda (Nearest Neighbour Analysis) ̶ Průměrný střed a Směrodatná elipsa odchylek (Mean Center + Standard Deviational Ellipse) ̶ Jádrové vyhlazení (Kernel Density) ̶ dosah 100 m) ̶ Animace: ̶ https://youtu.be/kLK9epKJwZY (‘F&B’) ̶ https://youtu.be/7gtCbbVnHXk (‘S&R’) ̶ https://youtu.be/EXmf8I6axHo (‘M&H’) Case study 2 – Cíle ̶ Téma: časoprostorová analýza lidského chování během (a po) přírodní katastrofě ̶ Tornádo 24. 6. 2021 (síla F4) ̶ Souvislost s krizovým řízením ̶ Lokalita: Jižní Morava ̶ Břeclavsko, Hodonínsko ̶ Zdroj dat: YouTube Data API Case study 2 – Výzkumné otázky 1) How does the amount of uploaded content on YouTube reflect the tornado event and the subsequent disaster recovery? 2) How does the YouTube content reflect the extent and character of damage caused by the tornado event? 3) Can YouTube content be used to identify spatialtemporal patterns in explicit and long-term human emotional responses to disasters? Case study 2 – Sběr a úpravy dat ̶ V první fázi staženy informace o 130 videích ̶ Použitý SQL výraz: ̶ Manuální kontrola – např. video o odrůdě rajčat “Tornado” ̶ Filtrování doplněno manuální kontrolou všech videí z prvního měsíce po události ze zkoumané oblasti ̶ Odhaleno dalších 10 videí, které neměly informace o události v popisu ̶ Nakonec bylo identifikováno 105 videí ̶ Download ve formátu .mp4 Case study 2 – Data – přehled Case study 2 – Výsledky (RQ1) 0 20 40 60 80 100 120 24.06. 26.06. 28.06. 30.06. 02.07. 04.07. 06.07. 08.07. 10.07. 12.07. 14.07. 16.07. 18.07. 20.07. 22.07. 24.07. 26.07. 28.07. 30.07. 01.08. 03.08. 05.08. 07.08. 09.08. 11.08. 13.08. 15.08. 17.08. 19.08. 21.08. 23.08. >2months DISTRIBUTION OF THE NUMBER OF UPLOADED VIDEOS IN FIRST TWO MONTHS AFTER THE TORNADO HIT SOUTHERN MORAVIA AGGREGATED BY THE CRISIS MANAGEMENT PHASES 1. phase 2. phase 3. phase 4. phase 5. phase cumulative distribution 0 20 40 60 80 100 120 24.06. 26.06. 28.06. 30.06. 02.07. 04.07. 06.07. 08.07. 10.07. 12.07. 14.07. 16.07. 18.07. 20.07. 22.07. 24.07. 26.07. 28.07. 30.07. 01.08. 03.08. 05.08. 07.08. 09.08. 11.08. 13.08. 15.08. 17.08. 19.08. 21.08. 23.08. >2months DISTRIBUTION OF THE NUMBER OF RECORDED VIDEOS IN FIRST TWO MONTHS AFTER THE TORNADO HIT SOUTHERN MORAVIA AGGREGATED BY THE CRISIS MANAGEMENT PHASES 1. phase 2. phase 3. phase 4. phase 5. phase cumulative distribution Case study 2 – Výsledky (RQ2) Case study 2 – Výsledky (RQ2) Case study 2 – Výsledky (RQ2) ̶ Pozitivní korelace: ̶ Síla tornáda podle mezinárodní Fujitovy stupnice a ̶ Počet videí obsahující zničené budovy, ̶ počet videí o tornádu ̶ Počet poničených budov a počet videí obsahující zničené budovy ̶ Velikost populace a celkový počet uploadovaných videí ̶ Negativní korelace: ̶ Celkový počet budov a … Case study 2 – Výsledky (RQ3) 0 5 10 15 20 25 30 DISTRIBUTION OF EXPERIENCES IN UPLOADED VIDEOS admiration appreciation complaint fear help calls hope informative (neutral) Case study 2 – Výsledky Přesahy a souvislosti ̶ Sociální sítě představují specifický příklad kyberprostoru (cyberspace) ̶ Kyberprostor → Reálný prostor ̶ Volunteered Geographic Information (VGI) ̶ I když obsah není vytvářen, primárně pro využití v „prostorových“ vědách ̶ Jsou to tzv. „Big Data“ ̶ Nejsou „velká“ (alespoň ne v uvedených case studies), ̶ Ale jsou nestrukturovaná Literatura a zdroje ̶ Hladík, J. (2024): Spatial analysis and visualization of social media data. Disertační práce. Brno: Masarykova univerzita, Přírodovědecká fakulta. 2024. Dostupné z: https://is.muni.cz/th/gvoyr. ̶ Hladík, J., D. Snopková, M. Lichter, L. Herman, a M. Konečný (2022): Spatial-temporal analysis of retail and services using Facebook Places data: a case study in Brno, Czech Republic. Annals of GIS, 28 (2, SI), s. 127–145. https://doi.org/10.1080/19475683.2021.1921846 ̶ Hladík, J., L. Herman, D. Snopková, a M. Konečný (2024): SpatioTemporal Patterns of Disaster Impact and Recovery in YouTube Content. International Journal of Digital Earth, 17 (1), s. 1-23. https://doi.org/10.1080/17538947.2024.2426518 ̶ https://gistbok-topics.ucgis.org/DC-02-004 ̶ A odkazy na jednotlivých slajdech