Internet vyhledávací nástroje, neviditelný web Osnova • trendy • vyhledávací stroje • neviditelný web Vyhledávací nástroje Dříve (před Googlem) bylo důležité zjistit o vyhledávacím nástroji: – jaké způsoby vyhledávání umožňuje – jakou část, službu Internetu prohledává (www, ftp…) – jakým způsobem zpracovává (indexuje) www stránky – rozsah, velikost databáze vyhledávacího stroje - žádný vyhledávací nástroj neumí prohledávat celý Internet! Vyhledávací nástroje jak fungují • Sběr dat (roboti, crawlers) – robot průběžně prochází internet většinou na principu sledování odkazu (může odhalit pouze takovou stránku, na kterou vede odkaz), struktury dokumentu, náhodného nebo souběžného získávání dokumentů – ruční přidání (přidej odkaz, add a link, submit site, add site) http://www.google.com/addurl/?continue=/addurl http://jyxo.cz/d/submit Vyhledávací nástroje jak fungují 2. Indexace - zapracování do vlastní databáze – výpočet váhy slov z určité www v relaci s URL (sledování názvu, popisu, kw, nadpisy 1.úrovně příp. další, URL, odkaz z jiných stránek, čistý text) • zpracování meta tagu description na určité stránce - popis obsahu stránky např.:. Vyhledávací nástroje jak fungují 3. Vyhledávání a řazení výsledků • Řazení podle vztahu mezi dotazem a dokumentem (míra relevance, blízkost slov) – prolinkovaný text v tagu title, systém dále vypíše obsah meta tagu description, nebo prvních několik slov ze začátku stránky, nebo kusy textu kolem hledaného výrazu • Řazení podle postavení dokumentu v hypertextové struktuře webu (page rank (PR)=řazení dle principu počtu odkazů na určitou stránku (čím více odkazů na stránku, tím je PR vyšší), odkazy ze stránek s vyšším PR mají větší váhu Kde brát informace o existenci vyhledavačů? • SearchengineWatch - http://searchenginewatch.com • SearchengineShowDown - http://searchengineshowdown.com/ – Srovnání funkcí http://www.infopeople.org/search/chart.html – Žebříčky http://searchenginewatch.com/showPage.html?page=2156221 • Katalogy, rozcestníky vyhledavačů – Hotsheet – http://www.hotsheet.com/ – Beaucoup - http://www.beaucoup.com/ – SearchengineCollossus - http://www.searchenginecolossus.com/ – SearchengineGuide http://www.searchengineguide.com/searchengines.html Žebříček vyhledavačů • USA, UK – Google – Yahoo – MSN – Ask • Německo – Acoon.de – Altavista – Fireball.de • Švýcarsko – Abacho – Altavista – Bluewin ZDROJ: http://www.seoconsultants.com Chování uživatelů při vyhledávání v EIZ www vyhledávače x databáze Search Engine User Behavior Study, 2006 • Přes 2000 amerických respondentů (uživatelů internetu) • Jen 10% respondentů prohlíží více jak 3 strany výsledků vyhledávání 62 % prohlíží pouze první stranu • 82% uživatelů při neúspěšném vyhledávání přeformuluje dotaz (více klíčových slov) a použije ten stejný vyhledavač Google Pokročilé vyhledávání http://www.google.com/support/bin/static.py?page=searchguides.html&ctx=advanced&hl=en Vyhledávací funkce http://www.google.cz/intl/cs/help/features.html Google Scholar (x Scirus) http://scholar.google.cz/intl/en/scholar/help.html České knihovny a Google Scholar http://www.multidata.cz/produkty/sfx/vyzkousejte-si/knihovny-google-scholar Google – pokročilé vyhledávání • 2 a více pojmů defaultně spojuje operátorem AND (vyhledá stránky, kde figurují všechna zadaná hesla) • Star Wars Episode +I - „I“ musí být ve vyhledaných stránkách obsaženo (patří mezi takzvaná „stop slova”) • “léčivé rostliny” - najde přesnou frázi • cembalo OR virginal - najde stránky s minimálně jedním termínem • Klaus -Santa označení „Santa“ nesmí být ve vyhledaných stránkách obsaženo • „* ze Žerotína“ – hvězdička nahradí libovolné slovo • ~copyright - hledá uvedený termín včetně synonymních výrazů, např. i intellectual property. (Zatím lze použít pouze pro slovní zásobu v angličtině). Google – pokročilé vyhledávání Způsob zápisu příkaz:vyhledej (mezera) další termín operátory=příkazy, které se dají využít pro vyhledávání v Googlu http://www.google.cz/help/operators.html • filetype:pdf "digitální knihovny„ - omezení jen na určitý formát dokumentu (PDF, XLS, DOC, PHP…) • intitle:CPU Athlon - najde „CPU“ v názvu stránky a „Athlon“ kdekoli • allintitle:idnes galerie - najde „idnes“ a „galerie“ v názvu stránky (současně) • link:www.lupa.cz - najde stránky obsahující odkaz na stránky uvedeného zdroje • allinanchor:Oslo - najde stránky obsahující „Oslo“ v odkazu • related:http://www.zaskolou.cz - najde tématicky podobné stránky k uvedené adrese • site:www.micr.cz „elektronický podpis“ – na uvedené www prohledá zdroje na téma elektronický podpis • inurl:knihovna – najde uvedené slovo v URL adrese • define:manuscript – najde definici pojmu • info:www.muni.cz – vypíše informací o stránce (cache, odkazy na uvedenou stránku) Další vyhledávače Yahoo - nejstarší web. adresář, od r. 2004 má vlastní fulltextový vyhledavač, vyhledávání obrázků Ask Jeeves - koupil Teomu a používá k vyhledávání jeho technologie, zajímavé Expand Search, Narrow your search, Related name Alltheweb - koupil ho Yahoo, možnosti pokročilého vyhledávání http://www.alltheweb.com/advanced?advanced=1& Altavista -překladač Babel fish translation Exalead - operátor OPT např.: cow OPT mad vyhledá www stránky, kde figuruje slovo cow a nejlépe i ty, kde figuruje slovo mad (změkčená funkce AND), zajímavá vizualizace – Add shortcut – nastavení často používaných, výchozích www Metavyhledávače • Pracují s jinými vyhledávacími nástroji • jedním příkazem se prohledává velké množství Internetu - dotaz je předáván k vyhodnocení rešeršním systémům (Googlu, Altavistě…) • Vhodné pro vyhledávání, kde nám záleží na kvantitě, možnosti vyhledávání jsou omezené Metavyhledávače • Vivísimo http://www.vivisimo.com – Další produkt vivísima Clusty • Jux 2 - http://www.jux2.com – Ask Jeeves, Google, MSN, Yahoo Překrývání výsledků z jednotlivých vyhledávačů http://www.jux2.com/stats.php • Intelways http://www.intelways.com/ • Kartoo http://www.kartoo.com/ Další vyhledavače – zajímavosti • SOOPLE http://www.soople.com – Přívětivější rozhraní pro googlovské vychytávky ve vyhled. – typy soubory, odkazy, definice, překlady • MSN – Encarta http://www.msn.com • Slovníkové vyhledávání Nové trendy - Web 2.0 • buzzword? - reflexe změn • Decentralizované služby, kooperace, agregace zdrojů (kdo vlastní data-klíčová hodnota?) – mashup nadstavby (GoogleMaps) • Folksonomie x taxonomie– aktivní účast uživatelů na kategorizaci, slovním popisu (tagging) stránek (http://del.icio.us/tag/) • Sociální vztahy, komunitní weby – blogy, wiki RSS Nové trendy ve vyhledávání • desktopy, toolbary - integrace vyhledávání na www s vyhledáváním v lokálních, souborech (doc, ppt, xls, pdf+další metadatové formáty), e-mailu ... • Search 2.0, (3.0 univerzální vyhledávání, 4.0 využití sociálních sítí uživatelů internetu) – Enterprise Search Platform – vše na jedné obrazovce (dotaz, záznamy, vizualizace, souvislosti) – del.icio.us, Flickr, Quintura, KWMap, MySpace, FaceBook, YouTube… – Top vyhledávače 2.0 http://oedb.org/library/features/top-25-web20-search-engines – Whonu http://www.whonu.com/ – Wikia Search http://search.wikia.com/ – Rollyo http://rollyo.com/ (personalizace) Nové trendy ve vyhledávání • Vize – sémantický web aneb na přímou otázku – přímou odpověď i komplexního charakteru (jaké je hlavní město ČR? Jaká je současná politická situace v ČR?) – Předpoklad – zachycení struktury dat, problém zejména textových dokumentů – značkovací jazyk html (dobrý pro zprostředkování inf. o vzhledu stránky) X xml (novými značkami umožňuje vymezit obsah pro pokročilé vyhledávací služby, specifikuje VÝZNAM tagů) – ontologie - nejvyspělejší forma metadat = člověku srozumitelné a zároveň strojově zpracovatelné, - definování rozsáhlých konceptů, tématických oblastí, termínů včetně vyjádření vztahů mezi termíny x tezauru přesnější, robustnější (škála vztahů pro vyjádření blízkost, nadtřída, podtřída - (projekt ontologie WordNet cca 100 tis. termínů) Neviditelný web • Studie Bright Planet z r. 2001- Bergman, Michael K. The Deep Web: Surfacing Hidden Value http://www.brightplanet.com/technology/deepweb.asp Neviditelný web • Problém - jak se dostat k primárním dok. na neviditelném webu? • Na úrovni vstupních bodů, bran OK (HP katalogu, databázová centra) • Neviditelný web mění strategie vyhledávacích strojů Neviditelný web - vstupní brány • SCIRUS http://www.scirus.com/srsapp/ – Přes 200 mil.vědeckých www – Specifický vyhledávací nástroj pro odborné informace (záměrná filtrace nevědeckých obsahů, hluboká indexace www, vědeckých databází) – Náměty na vyhledávání http://www.scirus.com/srsapp/tips/ Vyhledávače neviditelného webu • Complete Planet – katalog prohledatelných databází http://aip.completeplanet.com – Registruje přes 40 000 zdrojů, obsažených v 7000 kategoriích strukturovaného hesláře • Direct Search – přímé vyhledávání, tématicky dělený rozcestník k prohledatelným databázím http://www.freepint.com/gary/direct.htm Vyhledávače neviditelného webu • TURBO 10 http://turbo10.com/ – Zajímavá vizualizace, clustrování zdrojí podle kategorií, vládní, univerzitní, obchodní online zdroje, databáze • Invisible web http://www.invisible-web.net/