Cvičení 4
1. Príklad
Každý z dvoch webových vyhľadávacích systémov A a B zo svojich indexov generujú veľké množstvo stránok rovnomerne náhodne. 30% stránok z A sa nachádza v indexe B a 50% stránok z B
sa nachádzav indexe A. Aký je pomer stránok medzi systémami A a B?
2. Príklad
Každý z dvoch webových vyhľadávacích systémov A a B zbierajú (crawl) náhodnú, ale rovnako veľkú podmnožinu Webu. Niektoré zozbierané stránky sú duplikáty - presné textové kópie na rôznych URL.
Predpokladajte, že sú duplikáty distribuované rovnomerne medzi stránkami zozbierané systémom A aj B. Ďalej predpokaldajte, že duplikát má presne dve kópie - žiadne stránky nemajú viac ako dve kópie. A indexuje stránky bez eliminace duplikátov, kdežto B indexuje len jednu kópiu duplikovaných stránok. Tieto dve náhodné podmonožiny majú rovnakú veľkosť pred odstránením duplikátov.
Ak sa 45% stránok z A nachádza v indexe B, a 50% stránok z B v indexe A, aká veľká časť Webu sa skladá zo stránok, ktoré nemajú duplikáty?
3. Príklad
Daný je nasludjúci web graf.
V = {a, b, c}, E = {a -> b, a -> c, b -> c, c -> b}
Vypočítajte PageRank, hub skóre a autoritatívne skóre pre každú z troch stránok. Zoraďte sstránky podľa jednotlivých skóre a pozorujte prípadné väzby.
Pre výpočet PageRank môžte predpokladať, že sa v každom kroku náhodnej prechádzky teleportujeme na náhodnú stránku s pravdepodobnosťou 0.1 a s rovnomernou distribúciou stránok, na ktoré sa teleportujeme.
Pre huby a autority normalizujte skóre tak, aby maximum bolo 1.
4. Príklad
Priemerný vstupný stupeň všetkých uzlov vybraného grafu webu je 9. Čo môžeme povedať o priemernom výstupnom stupni všetkých uzlov tohto grafu?