Webscraping
Než začneme webscraping …
•Potřebujeme znát
•Strukturu url linků
•Strukturu webových stránek
URL
•Označení místa v internetu, kde se stránka nachází
•Is.muni.cz
•Is – server
•Muni – doména
•Cz doména vyššího řádu
•
•Pro scraping nutný kompletní link
•https://is.muni.cz/...
•
•Na začátku HTTP nebo HTTPS
Linky
•Pro webscraping potřebujeme získat linky
•Stáhnutí z nějaké stránky
•Generovaní v R
Nezbytné základy
•Webové stránky jsou psány v html
•Hypertext markup language
•Software „vidí“ stránku jinak než člověk
•Obsah je formátován pomocí značek (tagů)
•Každá tag má danou funkci
•Tagy vytvářejí hierarchii
•Tagy mohou být doplněny o atributy
•Stránky mohou „naplňeny“ jinak pragramovaným obsahem
(java, xml, …)
Html
•Struktura tagu
•Začátek obsah konec
• nejaky obsah
•Existuje několik tagů, mezi které není vložen obsah
Struktura stránek
•Celá stránka je vložena mezi a html>
•Na úvod stránky je obvykle umístěna hlavička
a head >
•Nezobrazuje se návštěvníkovi stránky, ale obsahuje důležité informace o stránce
•Obvykle obsahuje odkaz na formátování (kaskádový styl)
•Samotný obsah stránky vnořen do
•Horní část obvykle v
•Nadpisy určeny pomocí
•Číslo určuje úroveň
•Odstavce
•
•
Odkazy na další stránky
• text, na který se klikne
•Odkazy mimo stránku bývají vždycky kompletní
•Odkazy v rámci stránky jsou občas kratší a neobsahují kořenovou adresu
tabulka
•Tabulka uvozena
•Řádek začíná a končí
•buňka začíná a končí |
•
•
•
•
a
b
1
2
seznam
•Začíná
•Každá položka
•Kombinacemi lze vytvářet různé úrovně
•
„bezvýznamné“ tagy
•Div
•Span
•
•Důležité pro formátování a orientaci ve stránce
•Div formátuje blok (odstavec), span nějakou část v rámci bloku
Problémy
•Data mohou být „zabalena“ v nějaké funkci
•Stránka jen zprostředkuje údaje z databáze, ale k databazi se nelze dostat
•Rozbalovací menu
•Definování požadavků ve formuláři
•
•V těchto případech obtížné stahování