www.seznam.cz ... najdu tam, co neznám ! Fulltextové vyhledávání Petr Nevrlý www.seznam.cz ... najdu tam, co neznám ! Obsah přednášky * Vyhledávání ­ Cíl vyhledávání ­ Architektura ve zkratce ­ Vyhledávání ­ Robot ­ Údaje z provozu * Novinky ve fulltext (2009) ­ Screenshot generátor ­ Rozpoznání citlivého obsahu ­ Populární odkazy ­ Oprava překlepů ­ ,,Miniaplikace" ­ Podpora GEO-mikroformátu ­ Nová verze vyhledávání www.seznam.cz ... najdu tam, co neznám ! Cíl fulltextového vyhledávání * Poskytnutí odpovědi na dotaz uživatele www.seznam.cz ... najdu tam, co neznám ! Cíl fulltextového vyhledávání * Poskytnutí odpovědi na dotaz uživatele ­ Shromažďování * Rychlý robot * Spolehlivá indexace * Zakládání ,,správných" dokumentů ­ Zpracování * Vhodná struktura DB ­ Vydání (řazení) * Výkon (rychlost) * Dostupnost * Konzistence * Kvalita www.seznam.cz ... najdu tam, co neznám ! Typy fulltextů * Vyhledávače jsou si velmi podobné, liší se jen v detailech * Jako... www.seznam.cz ... najdu tam, co neznám ! Část 1 ­ Architektura ve zkratce 1. Hlavní části 2. Redundance v provozu 3. Blokové schéma www.seznam.cz ... najdu tam, co neznám ! Hlavní části www.seznam.cz ... najdu tam, co neznám ! Hlavní části Redundance v provozu www.seznam.cz ... najdu tam, co neznám ! Blokové schéma www.seznam.cz ... najdu tam, co neznám ! Část 2 ­ Vyhledávání 1. Zadávané dotazy 2. Lemmatizace 3. Hodnocení stránek www.seznam.cz ... najdu tam, co neznám ! Zadávané dotazy (1) * 10 náhodných dotazů ­ posilovna ­ plné hry ke stažení zdarma ­ plemena koní ­ planovac tras ­ petra němcová fotky ­ paragrafy a zákony ­ papírové vystřihovánky ­ panenka chou chou ­ paintball bazar ­ oplocení www.seznam.cz ... najdu tam, co neznám ! Zadávané dotazy (2) * Forma dotazů: Nejedná se přímo o otázky ­ přídavná a podstatná jména ­ 1. pád ­ jednotné i množné číslo ­ občas bez diakritiky www.seznam.cz ... najdu tam, co neznám ! Lemmatizace * Lemma = základní tvar slova * Věta: ,,Jeden z nejlepších zdrojů o německých tancích." * Lemmatizováno: Jedna/Jíst z dobrý zdroj o německý tank/tanec. * Disambiguace = vyloučení nejednoznačnosti www.seznam.cz ... najdu tam, co neznám ! Hodnocení stránek (1) * Titulek !! * Obsah stránky * URL www.seznam.cz ... najdu tam, co neznám ! Hodnocení stránek (2) Citační analýza pro dotaz ,,Ostrava" www.seznam.cz ... najdu tam, co neznám ! Hodnocení stránek (3) * Pagerank = statická ,,důležitost" stránky založená na citační analýze * Předpoklad: statisticky náhodné chování * SPAM - blackSEO www.seznam.cz ... najdu tam, co neznám ! Část 3 ­ Robot 1. Hledání nových stránek 2. Reindexace stránek 3. Ne-HTML formáty www.seznam.cz ... najdu tam, co neznám ! Hledání nových stránek (1) * Před 5 lety start * Procházení nalezených odkazů ­ Domény .cz, .sk, .com, .org, .net, .info, ... * Hledá stránky v českém jazyce * Alternativní zdroje: RSS a sitemap www.seznam.cz ... najdu tam, co neznám ! Hledání nových stránek (2) * Robots.txt ­ standardní protokol pro zakázání přístupu robotů (www.robotstxt.org) * Textový soubor http://example.com/robots.txt # comment User-Agent: * Disallow: /statistiky User-Agent: Bot Disallow: / www.seznam.cz ... najdu tam, co neznám ! Reindexace stránek (1) * Každý den se vybere množina stránek pro reindexaci * Při výběru se hodnotí ­ Datum poslední návštěvy ­ Rank (Srank) ­ Frekvence změn www.seznam.cz ... najdu tam, co neznám ! Reindexace stránek (2) * Přetěžování webserverů ­ Shapování podle IP adresy ­ Omezení max počet URL / sec www.seznam.cz ... najdu tam, co neznám ! Ne-HTML formáty * PDF * DOC (MS Word) * RTF * PPT (v roce 2009) * Operátor filetype: www.seznam.cz ... najdu tam, co neznám ! Část 4 ­ Aktuální údaje z provozu www.seznam.cz ... najdu tam, co neznám ! Velikost databáze (1) * Počet dokumentů www.seznam.cz ... najdu tam, co neznám ! Velikost databáze (2) Počet dokumentů 355 miliónů Indexy 1,8 TB Obsah dokumentů (texty) 1,4 TB Průměrný text 6 kB / dokument www.seznam.cz ... najdu tam, co neznám ! Zátěž během týdne * 1/4 zátěže resp. 1/6 * až 400 dotazů/s www.seznam.cz ... najdu tam, co neznám ! Doba odezvy během týdne * Doba odezvy v msec www.seznam.cz ... najdu tam, co neznám ! Úspěšnost query cache * Úspěšnost cache v % www.seznam.cz ... najdu tam, co neznám ! Výkon robota Rychlost stahování > 450 stránek / sec Průměrná stránka ~11 kB (zdojový kód) Denní objem ~40 miliónů dokumentů cca 410 GB dat www.seznam.cz ... najdu tam, co neznám ! Stáří dokumentů ve dnech Minimální 1 Maximální 135 Průměr 6,9 Nejčastěji 1,2 ­ 9,5 www.seznam.cz ... najdu tam, co neznám ! Novinky v roce 2009 * Screenshot generátor * Rozpoznání citlivého obsahu * Populární odkazy * Podpora GEO-mikroformátu * Nová verze vyhledávání www.seznam.cz ... najdu tam, co neznám ! Screenshot generátor - snímání * 10 URL/sec (1M URL/den) ­ Max >20 url/sec * 6 GB dat/den * Rozlišení 700x525 px * Barevná hloubka 5 bitů * Formát PNG www.seznam.cz ... najdu tam, co neznám ! Screenshot generátor - storage * 660M obrázků ­150M unikátních dokumentů * Data cca 1,6TB * PNG v speciální data storage * 2,2kB avg img www.seznam.cz ... najdu tam, co neznám ! Screenshot generátor - výdej * >1 800 img/sec * NoImage ~0,75% * http://fimg.seznam.cz/?spec=ft100x75&url=http%3A//search.seznam.cz/ * Zkracování cesty http://www.vse.cz/vedeni/hindls.php http://www.vse.cz/vedeni/ http://www.vse.cz/ www.seznam.cz ... najdu tam, co neznám ! Screenshot generátor - HW * Výdej ­ 2 x 8 serverů ­ 2 x QuadCore ­ 8GB RAM * Generátor ­ 1 x 4 servery x 4 vituály x 10 Mozilla ­ 2 x QuadCore * Repository ­ 1 x 1 server ­ 16 x 1TB SATA www.seznam.cz ... najdu tam, co neznám ! Rozpoznání citlivého obsahu www.seznam.cz ... najdu tam, co neznám ! Rozpoznání citlivého obsahu 1. Detekce adult dotazů 2. Detekce adult dokumentů * http://search.seznam.cz/?q=pupendo+fotky ­ filtr funguje automaticky, stejné jako s parametrem &safe=auto * http://search.seznam.cz/?q=pupendo+fotky&safe=no ­ filtr je vypnutý bez ohledu na vyhodnocení dotazu * http://search.seznam.cz/?q=pupendo+fotky&safe=yes ­ filtr je zapnutý a do SERP nejsou zařazeny nevhodné stránky bez ohledu na zadaný dotaz www.seznam.cz ... najdu tam, co neznám ! Populární odkazy * Text odkazu z textu odkazu na stránce * Jen u prvního výsledku * Podstránky webu * Statistické zpracování www.seznam.cz ... najdu tam, co neznám ! Oprava překlepů www.seznam.cz ... najdu tam, co neznám ! ,,Miniaplikace" www.seznam.cz ... najdu tam, co neznám ! Podpora GEO-mikroformátu * http://microformats.org/wiki/geo 50.071583 14.400785 www.seznam.cz ... najdu tam, co neznám ! * Hlavní změny * OR + expanze dotazu * Nová lemmatizace * Lepší ,,oháčkování" * Kolokace * Využití ,,Admintools" Nová verze vyhledávání www.seznam.cz ... najdu tam, co neznám ! Nové hledání Staré hledání OR, expanze dotazu Query: ,,Vysoká škola ekonomická v Praze" www.seznam.cz ... najdu tam, co neznám ! Nová lemmatizace + Lepší ,,oháčkování" * Umí i ,,nová" a převzatí slova * Staré hledání ­ ,,barum" bar ­ ,,barům" bar * Nové hledání ­ ,,barum" barum ­ ,,barům" bar www.seznam.cz ... najdu tam, co neznám ! Kolokace * Význam spojitosti dvou sousedních slov * Zohledňění ve výpočtu vzdál. slov na stránce ­ Dotaz ,,plzeňské pivo" kolokace=0,9 ­ Dotaz ,,jiří topolánek" kolokace=0,4 ­ Dotaz ,,vše uk" kolokace=0,1 www.seznam.cz ... najdu tam, co neznám ! AdminTools * Porovnání vybraných vyhledávačů * Ověřování dopadů změn v hledání * ,,Automatické" nastavení vah pro hledání * Externí kalibrátoři hodnotí řádově stovky dotazů a desetitisíce dokumentů (počet se neustále navyšuje) * Víc informací o AdminTools na další přednášce www.seznam.cz ... najdu tam, co neznám ! Konec Děkuji za pozornost http://fulltext.sblog.cz www.seznam.cz ... najdu tam, co neznám ! www.seznam.cz ... najdu tam, co neznám ! ,,Bonusy" 1. TOP 10 dotazů 2. SEO www.seznam.cz ... najdu tam, co neznám ! Top 10 dotazů r. 2009 1. "" 2. youtube.com 3. libimseti.cz 4. superhry 5. o2 6. freevideo 7. facebook 8. aukro.cz 9. google 10.porno r. 2008 1. "" 2. youtube 3. libimseti.cz 4. superhry 5. freefoto 6. freevideo 7. redtube.com 8. sms zdarma 9. google 10.porno www.seznam.cz ... najdu tam, co neznám ! SEO (search engine optimalization) 1. URL 2. Obsah stránky 3. JavaScript a Flash www.seznam.cz ... najdu tam, co neznám ! URL * Vhodně zvolená doména ­www.csas.cz ­www.ceskasporitelna.cz * Optimalizované URL a rewrite ­super.cz/index.php?clid=18656 ­novinky.cz/vladni-spis-jak-zabranit-uniku- informaci-na-internet-unikl-na-internet * Minimalizovat duplicity!! www.seznam.cz ... najdu tam, co neznám ! Obsah stránky * Titulek ­Důležitá součást stránky ­Unikátní na každé stránce * Text ­Správně používat sémantické značky ­Nepoužívat text jen na obrázku www.seznam.cz ... najdu tam, co neznám ! JavaScript a Flash * Robot neumí procházet přes: ­formuláře ­JavaScript navigaci ­Flash presentace ­JavaScript přesměrování * Textová alternativa k dynamické navigaci www.seznam.cz ... najdu tam, co neznám ! Konec (2)