Webscraping Než začneme webscraping … •Potřebujeme znát •Strukturu url linků •Strukturu webových stránek URL •Označení místa v internetu, kde se stránka nachází •Is.muni.cz •Is – server •Muni – doména •Cz doména vyššího řádu • •Pro scraping nutný kompletní link •https://is.muni.cz/... • •Na začátku HTTP nebo HTTPS Linky •Pro webscraping potřebujeme získat linky •Stáhnutí z nějaké stránky •Generovaní v R Nezbytné základy •Webové stránky jsou psány v html •Hypertext markup language •Software „vidí“ stránku jinak než člověk •Obsah je formátován pomocí značek (tagů) •Každá tag má danou funkci •Tagy vytvářejí hierarchii •Tagy mohou být doplněny o atributy •Stránky mohou „naplňeny“ jinak pragramovaným obsahem (java, xml, …) Html •Struktura tagu •Začátek obsah konec • nejaky obsah •Existuje několik tagů, mezi které není vložen obsah
Struktura stránek •Celá stránka je vložena mezi a •Na úvod stránky je obvykle umístěna hlavička a •Nezobrazuje se návštěvníkovi stránky, ale obsahuje důležité informace o stránce •Obvykle obsahuje odkaz na formátování (kaskádový styl) •Samotný obsah stránky vnořen do •Horní část obvykle v

•Nadpisy určeny pomocí

•Číslo určuje úroveň •Odstavce

• • Odkazy na další stránky • text, na který se klikne •Odkazy mimo stránku bývají vždycky kompletní •Odkazy v rámci stránky jsou občas kratší a neobsahují kořenovou adresu tabulka •Tabulka uvozena

•Řádek začíná a končí •buňka začíná a končí • • • • •

a	b
1	2

• • a b 1 2 seznam •Začíná

, končí •Každá položka

•Kombinacemi lze vytvářet různé úrovně • „bezvýznamné“ tagy •Div •Span • •Důležité pro formátování a orientaci ve stránce •Div formátuje blok (odstavec), span nějakou část v rámci bloku Problémy •Data mohou být „zabalena“ v nějaké funkci •Stránka jen zprostředkuje údaje z databáze, ale k databazi se nelze dostat •Rozbalovací menu •Definování požadavků ve formuláři • •V těchto případech obtížné stahování