3&2AÍAM.G2. Fulltext pro MUNI Jakub Černý, Ph.D. 1UNI Brno, 9.12.2009 www.seznam.cz ... najdu tam, co neznám ! 74 Co dnes servírujeme? • Jak měřit kvalitu fulltextu? Jak se srovnávat s konkurencí? Jak nastavovat parametry algoritmu hledání? • Jak funguje textový signál relevance? • SEO pro běžné uživatele z pohledu lidí, co píší fulltext ±)\ Co byste chtěli slyšet vy? www.seznam.cz najdu tam, co neznám ! Jak tečou uživatelé internetem? Internet a odkazy jsou jako dálnice - co dělá běžný uživatel z pohledu mimozemšťana? Kde každý začíná? - homepage, fulltext, znám adresu Máte webový portál, kde sehnat návštěvníky? - postavit lepší přípojku z dálnice (SEO) - reklama www.seznam.cz najdu tam, co neznám ! Znovu objevení kola Do roka to bude řádka s URL v prohlížeči. 1 Vyhledat Seznamem Internet Firmy Mapy Zboží Obrázky Encyklopedie Copyright©1&96- 200& Seznam.cz, a.s. Seznam- Nápověda- Přidat stránku do hledání- BIoq -Technická podpora www.seznam.cz najdu tam, co neznám ! Seznam vs. Google 100,00% 90,00% 80,00% 70,00% 60,00% 50,00% 40,00% — Google — Seznam ca s Proč Seznam vydrží? www.seznam.cz najdu tam, co neznám ! Opakování: Jak funguje Fulltext Jak měřit úspěch? www.seznam.cz najdu tam, co neznám ! Proč? Co chceme? Měření kvality vyhledávačů Srovnání Seznamu s konkurencí - Kdo je lepší? - Na kterých kategoriích? - Na kterých dotazech? - Jak popsat skupinu dotazů, kde se to děje? Dostaneme tip, co zlepšovat Měřitelnost toho, jak jsme se zlepšili (SMART) fc>incj Google www.seznam.cz najdu tam, co neznám ! Otázka pro vás: Jak měřit kvalitu výsledků fulltextového hledání? Čistě pořadí výsledků, ne rychlost hledání, či kvalitu webovky, snippetů www.seznam.cz najdu tam, co neznám ! Kalibrace Vital Usefull Relevant Nonrelevant Off-topic www.seznam.cz najdu tam, co neznám ! Kalibrace Vital Usefull Relevant Nonrelevant (navigační výsledek) Dotaz má jasnou interpretaci a stránka je oficiální stránkou (jedinečnost). q=youtube ... youtube.cz (užitečný výsledek) Stránka je hodně uspokojující, vyčerpávající výklad, vysoká kvalita,důvěryhodný zdroj. q=houby ... atlashub.cz (dobrý výsledek) q=harry potter... knihy.cz/prodej/harry-potter (blbý výsledek) Sice je to k tématu, ale není užitečné (málo informací, staré info, příliš obecné). q=praha ... zoopraha.cz Off-topic (výsledek mimo mísu) Výsledek obsahuje hledaná slova, ale tématicky je mimo. q=houby ... „je to na houby" www.seznam.cz najdu tam, co neznám ! Výběr dotazů Vše (60mil dotazů) Okalibrované (tisíce dotazů) Sociodemo kalibrátorů •Porozumění dotazu •Kvalifikace pro zhodnocení kvality •Muži vs. ženy (fotbal x parfémy) •Puberťáci vs. důchodci (q=hudba) najdu tam, co neznám ! Kvalita dotazu: bazén podoli Graf kvality Graf spolehlivosti | Graf fitness kvality Celé období | Mésíc | Týden 81 72 63 54 45 36 27 18 2009-06-21 2009-07-01 2009-07-11 ^ / google seznam live seznam test Fulltext Kvalita Spolehlivost seznam 26% 82% seznam test 55% 82% aooale 68% 59% live 63% 87% Výpis výsledků Poradí URL Dotaz Box J Akce D 1 http://www.pspodoli.cz bazén podoli vital Ina D 2 http://www.pspodoli.cz/zarizeni.htm bazén podoli useful QQ D 3 http://www.bazenpodoli.cz/bazenv-podoli bazén podoli useful Da D 4 http://cs.wikipedia.ora/wiki/Plaveck%C3%BD stadion Podol%C3%AD bazén podoli useful Da D 5 http://ejipedice.rps.cz/lokalitv/12388-plaveckv-stadion-podoli-bazen.html bazén podoli relevant Da D 6 http://zuzikwww.bloa.cz/0904/ieste-krasneisi-nez-bazen-v-praze-4-podoli bazén podoli relevant □ S3 D 7 http://www. nelso. cz/cz/place/8597 bazén podoli relevant Da D 8 http://www.praaueout.cz/sport/bazenv/plaveckvstadionpodoli bazén podoli relevant oa D 9 http://www.vitalia.cz/kataloa/bazenv/plaveckv-stadion-podoli-cstv bazén podoli relevant Da D 10 http://naturista.cz/drupal/2qHokalitv/praha podoli bazén podoli relevant Da D 11 http://www.zaket.cz/8x4p rnista.php?akce=9 bazén podoli relevant IQ D 12 http://sechtl-vosecek.ucw.cz/en/cml/35mm/film35mm1516.html bazén podoli non-relevant Da non-relevant D 13 http://6rbtata.com/view/hRhkHC2Lt 0/Hu%C4%8D%C3%ADnovi - baz%C3 bazén codolí ľ aa ..... l~l en Kvalita kategorie: Víceslovně Graf kvality | Graf spolehlivosti | Graf fitness kvality Celé období Měsíc Týden 84 80 76 72 68 64 60 56 52 \ ^t \ \ 2009-06-21 2009-07-01 2009-07-11 google seznam live seznam test Fulltext Kvalita Spolehlivost google 74% 78% seznam 57% 78% live 55% 45% seznam test 65% 55% Výpis Poradí Název Úplnost J Seznam Google Live Seznam test Akce Q sp. Q. Sfi iL o Sj) ±L Q. Sji *L D 1 bazén podolí 100% 26% 82% 67% 59% +30.5 63% 86% : +33.4 55% 82% +26.1 QĚ3HS D 2 karnevalové maskv a kostvmv 100% 66% 93% 73% 87% +4.6 55% 80% -10.9 100% 0% -72.3 HQI D 3 over ball žlutv 100% 50% 67% 81% 69% +24.4 100% 0% -54.4 84% 43% +17.4 HQI D 4 nokia servis 100% 53% 93% 72% 92% +15.5 54% 98% +1.7 100% 0% -61.5 j m D 5 vvpočet čisté mzdv 100% 78% 86% 92% 85% +10.5 100% 0% -80.0 72% 82% -5.4 QQI D 6 levandule wiki 100% 33% 58% 99% 64% +50.6 100% 0% -38.7 29% 62% -2.8 QQi D 7 přesun brněnského nádraží 100% 39% 98% 66% 98% +23.2 60% 98% +18.6 100% 0% -49.7 Q^i D 8 psí útulek 100% 67% 88% 66% 82% -1.4 100% 0% -71.9 62% 78% -5.9 QQI D 9 odstredivá sila vzorec 100% 27% 98% 60% 98% +30.4 40% 98% +13.3 100% 0% -37.7 Dl % D 10 ústava české republikv 100% 43% 57% 87% 71% +36.6 100% 0% -46.7 75% 33% +14.8 BQI D Označit vše I Smazat označené Provést Předchozí 1 2 3 4 5 6 7 Následující * (celkem 251 záznamů) Srovnáni výsledků fulltextů Dotaz: avon Porn (li (jooíjle se z nil m live seznam test Kvalita / Spolehlivost: 81.4%/ 68.2% 84.3%/91.8% 42.1%/82.1% 84.3%/91.8% 1 www.avon.com www.avon-kosmetika.cz 2 Q www.avoncosmetics.cz D www.avoncosmetics.cz Q www.avoncosmetics.cz [J www.avoncosmetics.cz 3 www.avon.cz D www.kosmetika-avon.cz www.avon.com.au Q www.kosmetika-avon.cz 4 Q www.avon-plus.cz www.avon.cz www.avon.ca www.avon.cz 5 O www.krasa.cz D www.avon-eshop.com www.avon.cz uj| www.avon-eshop.com 6 O www.krasa.cz D www.avon-kosmetika.eu Q www.avon.orq Q www.avon-kosmetika.eu 7 www.avon-kosmetika.cz D www.avon-plus.cz uj www.avon-plus.cz ujj www.avon-plus.cz 8 0 zena.centrum.cz D www.online-avon.cz jjj www.ar.avon.com Q www.online-avon.cz 9 O zena.centrum.cz ] www.vuneprotebe.cz www.pl.avon.com ] www.vuneprotebe.cz 10 Q www.zdravaprsa.cz ujj www.avon-stvl.cz www.avon.ru u_J www.avon-stvl.cz 11 n www.avon-online.sk n www.avonladv-online.com www.avon.co.nz n www.avonladv-online.com 12 Qvltava2000.cz n www.avon-eshop.eu ] www.br.avon.com n www.avon-eshop.eu 13 n www.firmv.cz uj www.mui-avon.cz n www.avon.bci uj www.mui-avon.cz 14 cs.wikipedia.orci n www.avonland.cz n www.avon.it ujj www.avonland.cz 15 Q www.mammahelp.cz www.kosmetika-avon.biz ] www.avon.fi www.kosmetika-avon.biz 16 www.estav.cz D www.krasa.cz www.avon-kosmetika.cz Q www.krasa.cz 17 www.aemonev.cz n www.avon-relax-centrum.com www.avon.com.tr n www. avon-re la x-centrum.com 18 O tn.nova.cz D www.krasnadama.cz Q www.avon.cien.tr Q www.krasnadama.cz 19 n avon.heureka.cz ,.j www.avon-centrum.cz n www.avon.lt Ljjj www.avon-centrum.cz 20 n www.lekarna.cz n avon-land.euweb.cz ] www.cl.avon.com n avon-land.euweb.cz Přínosy Možnost automatického nastavování parametrů fulltextu Rozhodování se na základě reálných dat Rychlejší vývoj a testování změn relevance fulltextu (prototypy úprav). Přenesení práce na externí kalibrátory Bonzování, co jsou nepovedené dotazy a jejich následné sledování - víme na co se zaměřit Včas zjistíme, jak se zlepšila konkurence, co provedli - můžeme je včas dohnat www.seznam.cz najdu tam, co neznám ! Automatické ladění parametrů fulltextu www.seznam.cz najdu tam, co neznám ! Jak nastavit parametry na optimum? Historie ladění parametrů v Seznamu Od oka - nějak nastavit parametry a pak to nějak zkoumat - ve více lidech od oka, pak se hádáme - každý dodá dotazy, kde jsme lepší, horší, beze změny Využití kalibrací a měření kvality fulltextu - Ručně nastavovat, ale hned vidím kvalitu (i dotazy, na kterých to drhne) Automatické nastavování vah www.seznam.cz najdu tam, co neznám ! Nastavovače vah Vývoj kvality nejlepší sady vah v tase 71.7 Evo Evo Evo Evo Evo Evo Evo Evo Evo Evo luce 0 luce 1 luce 2 luce 3 luce 4 luce 5 luce 6 luce 7 luce 8 luce 9 0 3 6 9 12 15 18 21 24 27 30 33 36 39 42 45 48 51 54 57 60 63 66 69 72 75 78 81 84 87 Nastavovače vah Vývoj kvality v závislosti na vybraných vahách Kvalita 73 ^ £fflfí$c- 72*5 Kvalita 72 71*5 71 70*5 70 1— / G 200^^^^^ ueightPageRank - - 72 73 72.5 71*5 71 70.5 70 000 300 J00 100 ueightQuerySite >00 íeel www.seznam.cz najdu tam, co neznám ! Otázka pro vás: Jak odstranit bottle neck? Když změníme parametry, tak se musíme pro všechny nakalibrované dotazy zeptat fulltextu na nové pořadí výsledků. Podle toho poznáme, jestli jsme si pomohli... Potřebujeme se ptát mnohem více než stíháme... ^ Nastavovač Parametry+dotaz Fulltext www.seznam.cz najdu tam, co neznám ! Textový signál relevance ;% Textový signál relevance Je to názorná ukázka evoluce 1 signálu ...jak probíhá výzkum Uslyšíte, jak funguje hledání v textech (to můžete na vašich stránkách ovlivnit) * www.seznam.cz najdu tam, co neznám ! Vývojové generace TXT signálu Jen slova z dotazu, presná shoda tvaru -Jen 50% relevantních dokumentů obsahuje slova z dotazu. Příklad: Dotaz „ČNB", ale relevantní stránka obsahuje jen „oficiálni úroková míra v České národní bance". www.seznam.cz najdu tam, co neznám ! Vývojové generace TXT signálu Přidání lemmatizace slov Různé váhy slov podle výskytiště (H1, URL, Title, odstavec, bold, ...) Příklady vtipné lematizace: -Stát, ženu, lov lína, barum, jizdní rady, dog www.seznam.cz najdu tam, co neznám ! Vývojové generace TXT signálu Různé váhy slov podle jejich korpusové četnosti -tfxidf - vynechávání slov Příklad dotazů: Petr a Pavel, Jak se odstraňuje vosí hnízdo? www.seznam.cz najdu tam, co neznám ! Otázka i 3-slovné dotazy: l\ výsledky, kde se s z dotazu najdou b u sebe? Nebo je t< jedno? Dro vas: /láme zvýhodňovat >lova I í: o najdu tam, co neznám ! Vývojové generace TXT si Proximita a pořadí slov z dotazu Príklady: - Jakub Černý x Černý Jakub -Václav Klaus video - Já do lesa nepojedu, já do lesa nepůjdu Ko lokace -Velký vůz, černý Petr, Česká republika www.seznam.cz najdu tam, co neznám ! Vývojové generace TXT signálu Předzpracování dotazu - Poslechnu si uživatele a přeložím to do jazyka, ve kterém fulltext umí vyhledávat. - Nastavení proximity, ... Příklady: -VŠE, MŽP, IE8 (ale i naopak) - Kdy vyhořelo Národní divadlo? - (běžné otázky jako na kamaráda) www.seznam.cz najdu tam, co neznám ! Vývojové generace TXT si Doplňování slov odjinud -zezpětných odkazů (bazén podolí) -anonymní termy • jméno, datum, místo, video • pro odpovědi na otázky: Kdo? Kdy? Kde? Příklady: -Václav Klaus video - Kdy vyhořelo Národní divadlo? www.seznam.cz najdu tam, co neznám ! Další okolnosti kolem TXT signálu Body text extraction (BTE) Site-wide texty (SWT) - rozpoznání důležitosti slov podle vzhledu site - odstranění neopodstatněných nároků na důležitost • Všechny texty v H1 apod. Různé chování pro různé kategorie dotazů - Navigační - Informační - Transakční www.seznam.cz najdu tam, co neznám ! Další okolnosti kolem TXT signál Desambigulace -Vyloučení nejednoznačnosti - Řekněte mi něco o německých tancích? - Hrách vs. (o počítačových) hrách www.seznam.cz najdu tam, co neznám ! EOHIHl Jak to funguje ve fulltextu Uvidíte, že SEOptimalizátoři někdy vaří z vody a tvrdí blbosti, (ale hlavně že zákazník zaplatí). Úkoly SEO: • Pořadí výsledků - být v první 10ce výsledků • Snippety - kvalitní popisek u výsledku - ovlivňuje to CTR výsledku • Robot a rychlá indexace Pozor na náklady! Krásný web neznamená nalezitelný web! Stroje mají jiné oči. www.seznam.cz najdu tam, co neznám ! Proces keywords Výsledky hledání Být v 1. desítce Podle čeho si uživatel vybere, na co klikne? ledání Landing Page Uživatel už je skoro lapen. Neztratí se? Neuteče nám? Hurá, dosáhli jsme cíle. najdu tam, co neznám ! Pořadí výsledků Mixování signálu relevance: 12 10 8 6 4 2 0 lili i i i í i i TXT ZO PR sigX sigY sigZ Kdo je lepší? Jak to míchat? www.seznam.cz najdu tam, co neznám ! Signály On page obecné Doména, historie, struktura stránky tématické (k dotazu) TXT relevance Off page User Page Rank ??? Zpětné odkazy ??? i najdu tam, co neznám ! Úspěch záleží i na samotných uživatelých Sice je nalákáte na svůj web, ale když se jim tam nebude líbit, tak utečou. - Relevantní obsah - Jasná navigace - Výzva k akci - Identifikace webu: kontaktní údaje Doporučení: • Steve Krug: Web design: Nenuťte uživatele přemýšlet! www.seznam.cz najdu tam, co neznám ! SEO - Rada Všeho s mírou. Každá rada jde přehnat a zprasit. Pak je to často naškodu. Pište dobrý a užitečný web, vykašlete se na podvody. (Uznejte, že někdo může být lepší). Rozdíl mezi SEO a praSEo. www.seznam.cz najdu tam, co neznám ! SEO - On page faktory Volba klíčových slov - Nástroje pro analýzu klíčových slov (Sklik, AdWords, ...) - Statistiky Seznamu - Long tail Copywriting Titulek, URL, nadpisy, alt Meta description, katalogový popisek www.seznam.cz najdu tam, co neznám ! SEO - Off page faktory Zpětné odkazy - Interní x externí - Důležitý je text odkazu, zohledňuje se i okolí -Tématická podobnost odkazované stránky Odkazová síť - Page rank www.seznam.cz najdu tam, co neznám ! SEO - Snippety Ovlivňují proklikovost výsledku Jejich cíl: - Ve dvou větách ukázat, o čem je váš web - Ukázat v jakých souvislostech se nalezla slova z dotazu Kde se berou texty snippetu? -Title, URL (hesla popisující stránku) — Meta description (popis stránky ve 2 větách;ne na celé site stejné!) -Text stránky www.seznam.cz najdu tam, co neznám ! Seo - snippety (příklad) Soubor Úpravy Zobrazení Historie Záložky Nástroje Nápověda --------^ C ^ (5 http://sear^ sezná m.cz/7q=muni &mcd=f 1 Nejnavštěvovanější Jakzačít Přehled zpráv ^ muni - Seznam 5e2*J^1 muni Vyhledat Seznamem Česky Ve světě Firmy Mapy Zboží Více v "V^ $ ——- Masarykova univerzita * " ijíjb- 1Ü orosince 2009 "Masarykova univerzita v Brně Příběh vzdělání a vědy ve střední Evropě." Křest knihy. střední.. www.muni.cz/ .Masarykova univerzita v Brně. Příběh vzdělání a vědy ve ^^^m —~~ I Bj n ......, . .. ^L - J ^^ .___ ^^—^^— , .... ^r i-= — -t.----------------------- _ Veřejné služby Informačního systému Potíže s přístupem (časté dotazy a odpovědi na ně} Návod ke zpřístupnění autentizovaných služeb Začínáme s is.muni.cz (text pro nové uživatele} Pravidla použití Informačního is.muni.cz/ FF: Start @HS Masarykova univerzita ... @muni.cz www.phil.muni.cz/ - Brno-město - Zobrazit na mapě Fakulta informatiky Masarykovy univerzity MU Knihovny MU INET.muni.cz Masarykova univerzita Studentská komora AS Fl Hlavní strana O Fakultě informatiky Přijímací řízení Studium Výzkum a vývoj Projekty Zahraniční studium E-learning - www.fi.muni.cz/ - Brno-město - Zobrazit na mapě SEO - Robot 1. krok je, aby se vaše stránka dostala do indexu Přidání URL do hledání r- — H Přidat stránku do hledání -MStatistika dotazu "muni" i r lAv i £111 X \ © 1996-2009 Seznam.cz, a.s. (■|"0rmUl3r PI3 WOOL! FIJI tSXtU) Seznam - Nápověda - Technická podpora - Reklama - RSS Jak pomoci robotům? - Sitemap.xml Jak jim něco povolit a něco zakázat? - Robots.txt Redirekty, 404, ...(dodržet jedinečnost URL) www.seznam.cz najdu tam, co neznám ! Black hat SEO Za účelem podvádět (spam) - Skryté odkazy a texty -MFA - Doorway pages - Link farmy - Krádeže obsahu - Další Hrozí penalizace. A co se říká dál? Ptejte báchorky Validní stránky mají vyšší pozici. Vyšší Srank znamená vyšší pozici ve výsledcích! se. najdu tam, co neznám ! Děkuji za pozornost. www.seznam.cz najdu tam, co neznám !