Z7894 Geoinformační technologie v sociální geografii 4. cvičení 21. 10. 2024 Web scraping: teorie Z7894 Geoinformační technologie v sociální geografii 2 •Získávání dat z webových stránek (ale i webových aplikací a jejich součástí) a jejich ukládání do strojově zpracovatelné podoby (např. tabulky, samostatná databáze apod.). •Související pojmy: Extrakce dat a automatizace •Sporná je otázka (i)legality web scrapingu – někdy jde o šedou zónu • •Možné použití pro geografy: §kopírování obsáhlých tabulek s listingem (např. data ČSÚ, ERU…), §ukládání webových seznamů do tabulky (např. seznam chystaných akcí v Brně…), §automatické načítání údajů (např. „excelovský sheet“ napojený aktuální teplotu), §periodické ukládání určitého údaje (např. návštěvnost bazénu), §… Web scraping Z7894 Geoinformační technologie v sociální geografii 3 Typy zdrojů online dat na webu ke scrapování Web scraping se nejčastěji považuje za odchytávání elementů html (resp. parsování html), ale může jít i o další formy spojené s reverzním inženýrstvím aplikací a extrakcí dat. Z7894 Geoinformační technologie v sociální geografii 4 Typy (časoprostorových) geografických dat aktuální obsazenost parkoviště vs google popular times Z7894 Geoinformační technologie v sociální geografii 5 již zaznamenaná měření teploty vs aktuální teplota vs predikce budoucí teploty návštěvnost v procentech vs návštěvnost přesná Některé scrapování je nutné automatizovat (např. pokud chceme sbírat údaj o návštěvnosti v čase a sestavit časovou řadu). Typy časoprostorových dat - ukázka Z7894 Geoinformační technologie v sociální geografii 6 Základní rozdělení •Jednoduché s GUI – např. Web Scraper plugin pro webový prohlížeč •Složitější pro programovací jazyky – např. knihovny pro python/R (např. rvest) •Vlastní skripty/programy •Komerční cloudové platformy – např. Apify, Octoparse, Scrapestack Jaké jsou výhody a nevýhody jednotlivých řešení? Web scraping: Nástroje Z7894 Geoinformační technologie v sociální geografii 7 Projekt č. 2 – Příprava na zadání Prostudování nového tématu https://is.muni.cz/auth/el/sci/jaro2023/ Z7894/um/cviceni/cv_01/inspirace/Anal yticka-vychodiska-ISR-BMO-21-1.pdf (kapitola 7) https://data.brno.cz/pages/rozvoj- fotovoltaiky-v-brne https://www.irozhlas.cz/zpravy- domov/fotovoltaika-energetika- obnovitelne-zdroje_1912040600_jab Úkol na cvičení: Prostudujte následující datové analýzy (publikace) týkající se energetiky a zamyslete se nad možnými tématy a zpracováním Z7894 Geoinformační technologie v sociální geografii 8 Projekt č. 2 •Vytvořte analýzu energetických zařízení a jejich energetických údajů vybraný kraj. •Využijte tabulku udělených licencí pro provoz elektrárny v ČR (https://licence.eru.cz/index.php) •Součástí odevzdaného dokumentu budou části zabývající se explorací (tj. průzkumem dat), analýzou, syntézou dat a (zejména kartografickou) vizualizací výsledků a vývojový diagram (postup). •Aspoň dva výstupy budou mapové •Využít lze všech relevantních datových zdrojů i softwarových nástrojů. Zadání cvičení: Projekt Z7894 Geoinformační technologie v sociální geografii 9 Zadání cvičení Z7894 Geoinformační technologie v sociální geografii 10 Výsledky •Odevzdaný dokument (protokol) se všemi náležitostmi (viz. formální splnění). •Kladen důraz na průzkum a analýzu dat, vizualizaci výsledků. •Lze se zaměřit na užší téma (např. udržitelná energie, energetická soběstačnost…) •Data je vhodné doplnit např.: další data ERU (např. tabulky spotřeby/výroby), energetický potenciál území (solární, informace o vodních tocích a o převládajícím větru…), hustota zalidnění, blízkost velkých odběratelů elektrické energie, klima, OSM… Prezetace: 18.11.2024 v čase přednášky Deadline: 24.11.2024 Zadání cvičení Z7894 Geoinformační technologie v sociální geografii 11 Optimální postup 1.web scraping z ERU (tabulka udělených licencí pro provoz elektrárny v ČR) 2.normalizace dat (sjednocení č. parcely) 3.propojování přes data RÚIAN (přes č. parcely) 4.explorace, analýza, syntéza dat a vizualizace 5.Dál už to znáte … Zadání cvičení Data ERU https://licence.eru.cz/index.php https://www.eru.cz/zpristupnena-data Z7894 Geoinformační technologie v sociální geografii 12 Zadání cvičení Nastavení filtrů Pro projekt nás budou zajímat výrobci elektřiny (předmět podnikání: výroba elektřiny) s udělenou licencí od ERU (stav žádosti: udělená licence). Filtr TEZ zapnout pro vybraný kraj. Z7894 Geoinformační technologie v sociální geografii 13 Zadání cvičení Praktická ukázka Web Scraper s GUI ve vývojářském režimu Chrome https://chrome.google.com/webstore/detail/web-scraper-free- web-scra/jnhgnonknehpejjnehehllkliplmbmhn Z7894 Geoinformační technologie v sociální geografii 14 Vytvoření schémat, resp. jejich import a zahájení scrapování. Zadání cvičení Úkol do příště Všechny skupiny budou mít nascrapovaná data a pokud možno normalizované číslo parcely. Datová struktura dat o parcelách z RÚIAN (atributy kmenovecislo a pododdelenicisla) Dr. Herman se bude příští hodinu věnovat propojením dat z ERU s daty z RÚIAN. Z7894 Geoinformační technologie v sociální geografii 15 Dotazy? 17 Z7894 Geoinformační technologie v sociální geografii Děkuji za pozornost