Rešeršní činnost Vyhledávací nástroje internetu 2 25. 4. 2008, 2. 5. 2008 přednášející: Silvie Kořínková Presová presova@phil.muni.cz Kabinet inf. studií a knihovnictví, FF MU Vyhledávací stroje V čem se liší od předmětových adresářů? Fmnohem větší databáze Fautomatizovaný sběr dat Fzaměřeny na vyhledávání spíše než na prohlížení Vyhledávací stroje všeobecně zaměřené vyhl. stroje n Yahoo! n Google n Ask n Live Search n Exalead české n Morfeo n jyxo n Seznam Vyhledávací stroje Je výhodné použít, když: F hledáme specifické téma, předmět hledání je úzký F chceme prohledávat milióny webových stránek F chceme vyhledat velký počet záznamů k předmětu zkoumání F hledáme určité typy dokumentů/informací, souborů F chceme použít příkazy pro rychlé vyhledávání, omezení pomocí filtrů, jiné možnosti pokročilého vyhledávání Vyhledávací stroje dvojí typ rozhraní pro vyhledávání q jednoduché rozhraní zadávaní jednoduchých dotazů, pokročilé dotazy – nutné znát dotazovací jazyk q rozhraní pro pokročilé vyhledávání – návodné menu Výsledky vyhledávání jsou tak dobré, jak kvalitní je dotaz uživatele. (Sklenák, 2001) Nástroje pro vyhledávání – formulace dotazů AND (+) , OR, NOT (AND NOT, -) (bool. operátory) q AND – současný výskyt obou vyhledávacích termínů, zužuje dotaz q OR – alespoň jeden z vyhledávacích termínů, rozšiřuje dotaz q NOT – operátor vyloučení dokumentů obsahující zadaný termín proximitní operátory: operátor, který specifikuje pořadí anebo vzdálenost mezi dvěma vyhledávacími slovy, např. NEAR (v Exalead 16 slov, ale dá se měnit např. women NEAR/3 politics, Morfeo, Google tomáš * masaryk), více viz Distanční operátory fráze “ ” - řetězec slov, který se v textu dokumentu musí vyskytovat v přesně stanoveném pořadí vedle sebe F slouží pro specifikaci, vyhledávání ustálených sousloví a spojení G pokud nezáleží na pořadí použijte vhodné prox. operátory či AND truncation – krácení podle slovních kořenů * stemming – výklad viz TDKIV, např. jyxo, Google wildcards – zástupné znaky ? * fullword wildcard – nahrazuje celé slovo, např. Google * F slouží pro formulování širšího dotazu, rozšíření dotazu F vyjádření jednotného i množného čísla (knihovn*), pravopisné možnosti (disku?e – diskuse OR diskuze) G mohou být vyhledány i významově odlišná slova – hlad*, hlaď, hladina, hladký Pravidlo tří konceptů G doporučuje se „položit“ vedle sebe tři pojmy „rešeršní služby“ AND (knihovna OR „informační instituce“) AND (ceník OR ceníky) Použití kulatých závorek změna pořadí pro vyhodnocování – to, co je v závorce, se vyhodnocuje jako první princip „zevnitř-ven“ F pojmy, které mají být vyhodnoceny jako první, musí být na nejnižší úrovni vnoření Třetí výraz (druhý výraz (první výraz k vyhodnocení) k vyhodnocení) F výrazy na stejné úrovni – vyhodnocovány zleva doprava, přednost má operátor AND před OR Příklad § Ask nepodporuje závorky § Yahoo!, Google - nejsou nutné § Live Search - operátor OR (rešeršní služby OR rešerše) knihovna (rešerše OR rešeršní služby) knihovna zkus na www.live.com Použití filtrů vyhledávání podle pole – v celém url, omezení na doménu, název stránky formální hlediska pro zpřesnění dotazu – jazyk, typ dokumentu omezení prostoru dokumentů, v němž je dotaz vyhodnocován n zadání do formuláře (menu v pokročilém rozhraní) n ze základního rozhraní pomocí definovaných příkazů n zpřesnění dotazu Filtr uzlu F umožňuje omezit prostor vyhledávání na jeden konkrétní uzel nebo specifickou podmnožinu uzlů podle struktury URL (vyjadřuje adresu umístění libovolného IZ na internetu) F porozumění částem URL d-d- efektivní používání filtru uzlu (SKLENÁK, 2001:292): http://www.inforum.cz/inforum2004/pdf/Peceny_Ondrej.pdf Příklady příkazů v F inurl:radioservis eco - nalezne slovo „radioservis“ v URL a „eco“ kdekoliv na stránce F allinurl:phil rozvrh - nalezne slovo „phil“ a zároveň „rozvrh“ v URL F site:rozhlas.cz rok v dopisech - omezení vyhledávání dokumentů pouze na uvedenou doménu Příklady příkazů v O/ intitle:“iva bittová“ viklický - nalezne uvedenou frázi v názvu stránky a „viklický“ kdekoliv na stránce O/ allintitle:rešeršní strategie - nalezne termín „rešeršní“ a zároveň „strategie“ v názvu stránky O/ inanchor:dialog databáze - nalezne slovo „dialog“ v odkazu a „databáze“ kdekoli na stránce O/ allinanchor:digitální knihovna - nalezne slovo „digitální“ a zároveň „knihovna“ v odkazu O/ link:www.stk.cz - nalezne stránky s odkazem na stránky Státní technické knihovny O/ related:www.ipl.org - nalezne stránky podobné uvedené stránce G Každý vyhledávací stroj má své specifické rysy – odlišné dotazovací jazyky FSearch Engine Features Chart FSearch Engines by Search Features FWeare, W. H., 2008 Fnápovědy u jednotlivých vyhledávačů: Advanced Search Tips, Web Search Help, Help and How to Search aj. Možnosti zúžení dotazu Některé vyhledávací stroje nabízejí uživateli pokročilé možnosti, jak výsledek vyhledávání zúžit Různé možnosti práce s dotazem F Yahoo! - Search Assist – navrhuje další zpřesnění dotazu F Ask - výsledný dotaz – nabídka vlevo: Narrow Your Search, Expand Your Search, vpravo – výsledek dle typu informace (encyklopedie, obrázky, rss) F Google - na konci stránky - Searches related to, hledání ve výsledcích F Exalead - různé možnosti Narrow your search Vyhledávání nejrůznějších obsahů F image F news F desktop F weblog F maps F videos F encyclopedia F shopping and product search F rss F audio, podcast Groups Diskusní skupiny (angl. discussion groups, newsgroups) - umožňují lidem komunikovat na různá témata, dva způsoby komunikace: F výměna informací na speciálních stránkách – online forum F výměna informací v rámci e-mailové skupiny – mailing list, elektronické konference Google Groups Vyhledávání Usenet groups a Google Groups, které nejsou součástí Usenet F procházení tématy F přímé vyhledávání diskusních skupin F možnost pokročilého vyhledávání G existuje počeštěná verze Služby pro vyhledávání groups F Yahoo Groups F Delphi Forums - více než 100 tis.aktivních skupin F Big Boards – adresář zaměřený na kategorizace disk. skupin na webu Mailing list F Topica – služba pro správu elektronických konferencí, možnost vyhledávání, kategorizace F L-Soft CataList, the Official Catalog of LISTSERV® lists – oficiální katalog konferencí používající Listserv software Google Books F vyhledávání nových i starších knih F úmluva s vydavateli knih a knihovnami F bibliografické údaje x plné texty F existuje počeštěná verze - http://books.google.cz/ Různé typy zobrazení: F úplné zobrazení - Full view F omezený náhled - Limited preview F zobrazení fragmentů - Snippet view F náhled není k dispozici - No preview available Plné texty knih online F The Online Books Page F Project Gutenberg G zpřístupňují knihy, které nepodléhají autorskému právu Historické dokumenty F EuroDocs:Primary Historical Documents From Western Europe F A Chronology of US Historical Documents F University of Virginia Hypertext Collection Vyhledávání obrázků F databáze obrázků vyhledaných na webu vyhledávacími stroji – Google (1,8 biliónů obrázků), Yahoo! (1,6 biliónů obrázků), Ask F specializované kolekce obrázků – tematické konkr. organizací, zprostředkujících organizací Vyhledávání obrázků F neustálý vývoj technologií Co indexují vyhledávací stroje? F jméno souboru (např. krajina.jpg) F tag Alt – text asociovaný s obrázkem, objevuje se při najetí myši na obrázek F text poblíž obrázku – zapříčiňuje nerelev. výsledky G vyhledávání obrázků – volba max. dvou vyhledávacích výrazů Databáze obrázků Adresáře/seznamy databází obrázků F Digital Librarian: a librarian's choice of the best of the Web: Images F OIB - BUBLLINK: Image Collections Komerční sbírky kvalitních obrázků F Corbis – různé druhy grafiky – fotografie, obrázky, ilustrace F FotoSearch F Creative Commons – vedle fotografií registruje audio, video, text a výukové materiály Ukládání a sdílení fotografií F Flickr Zvukové nahrávky Adresáře F World Wide Web Virtual Library: Audio – kategorie general repositories, newsgroups, online radio, software F Digital Librarian: A Librarian's Choice of the Best of the Web - Audio Zvukové nahrávky Vyhledávací stroje F Yahoo! Audio Search vyhledávání hudby, zpravodajství, rozhovorů, jiné mluvené slovo, podcastů aj. F Singingfish vyhledávání audio, video Podcast F technologie podcast je založená na RSS exportech, které obsahují popis audionahrávky a odkaz na místo, kde je soubor uložen F speciálně zformátovaný soubor nabízí pravidelně aktualizovanou nabídku audiosouborů, které jsou na příslušné stránce k dispozici F speciální program Podcast České rozhlasu Podcast F Yahoo!’s Podcast Search – součástí Yahoo! Audio F Podcastdirectory.com – předmětový adresář F Podscope – vyhledávání audio i video, využívá vlastní technologii na rozeznávání mluveného slova a využívá ji pro vyhledávání Video F BUBLLINK / 5:15 Catalogue of Internet Resources: Video – odkazy na webová sídla, která zpřístupňují videa či odkazují na další zdroje F Yahoo! Video Search – milióny videí sesbíraných roboty, vedle toho videa získaná přímo od vydavatelů/tvůrců videí prostřednictvím RSS F Google Video Search - videa uložena na serverech G. (videos hosted by Google), poskytnutá ke sdílení, YouTube F YouTube – vystavování a hledání videí Vyhledávání blogů F Bloglines – vlastní Ask (lze vyhledávat i přes Ask), vyhledávání RSS F Technorati – vedle vyhledávání i kategorizace F Google Blog Search – mapuje i český web, pokročilé vyhledávání RSS F Bloglines F Live Search – výběr Další – Informační kanály, zmapován i český internet F Google - přestal zahrnovat do výsledku vyhledávání RSS, protože jeho algoritmus řadil tyto typy informací nejvýše Co vše lze vyhledávat? F Top 25 Web 2.0 Search Engines F Top 100 Alternative Search Engines F Intelways F The Extreme Searcher's Internet Handbook Metavyhledávací stroje Umožňují uživateli na základě jednoho dotazu paralelní prohledávání databází několika vyhledávacích služeb (TDKIV) zadávání dotazu pouze jednou, ten je pak paralelně vyhodnocen Výhody n kombinování výsledků vyhledávání s odstraněním duplicity n jednotné uživatelské prostředí n uživatelé nemusí sledovat nově se objevující vyhledávací systémy n vyšší úplnost vyhledávání, možnost získat více relevantních dokumentů Metavyhledávací stroje Nevýhody n limitují počet záznamů z vyhledávacího stroje - celkový výsledek sestavuje z 10 – 50 hitů převzatých z každého vyhledávače n ztráta pokročilého vyhledávání, sofistikovanějšího formulování rešeršního dotazu n většinou využívají 2 – 3 z nejvýznamnějších vyhledávačů n nízká výkonnost, odezva Metavyhledávací stroje n http://www.dogpile.com/ n http://clusty.com/ - shlukování dokumentů n http://www.kartoo.com/ typu all-in-one – webové sídlo se seznamem vyhledávacích nástrojů, ne paralelní vyhledávání n http://www.intelways.com/ n http://www.globalsearch.cz Vyhledávací strategie … se zaměřením na vyhledávací stroje (SKLENÁK, 2001:306) ü obecné vyhledávání ü specifické vyhledávání ü inkrementální vyhledávání ü řetězcové vyhledávání ü vyhledej a skoč ü kategoriální vyhledávání Obecné vyhledávání uživatel má obecnou představu o tom, co chce najít F nezná podrobnosti vyhledání do šíře prostředkem pro obecné vyhledávání je operátor OR F umožňuje vyhledávat dokumenty, které obsahují libovolné z klíčových slov F vhodné použít při různých tvarech nebo synonymech nebezpečí v příliš obecných dotazech F zajímavé informace jsou „pohřbeny“ v návalu nerelevantních dokumentů uživatel hledá něco o službách knihoven Specifické vyhledávání Pokud uživatel zná podrobnosti k tématu je vhodné použít tento způsob je založeno na operátoru AND, pomocí kterého jsou kombinovány různé pojmy nejen pomocí AND d-d- využití filtrů, proximitních operátorů apod. J doporučuje se začít tímto vyhledáváním, pokud uživatel dokáže v jisté míře specifikovat svůj požadavek, po neúspěchu d- zobecnění dotazu G při kombinování dotazů je třeba dávat si pozor na kombinování a pořadí klíčových slov a dotazů PROČ? požadavek: Rešeršní služby knihoven rešeršní služby rešerše knihovna informační knihovny instituce Rešeršní služby knihoven O/ knihovna OR („informační instituce“ AND „rešeršní služby“) O/ „rešeršní služby“AND (knihovna OR „informační instituce“) Inkrementální vyhledávání Pokud nejsme spokojeni s výsledkem vyhledávání d-d- změnit dotaz a zkusit to znovu F obvyklým postupem při tomto vyhledávání je postupné zpřesňování dotazu, tzv. ladění dotazu, tj. maximální přiblížení formulace skutečné informační potřebě uživatele F využívání operátorů AND, OR, NOT F zpřesňování pomocí formálních hledisek, filtrů, tj. udání polí, kde se má vyhledávat „rešeršní služby“AND (knihovna OR „informační instituce“) d- omezení na lékařské knihovny  využij v funkce „Search within results“ Řetězcové vyhledávání q většina vyhledávacích strojů hledá pouze celá slova d-d- knihovna knihovny knihoven d-d- použití OR q některé vyhledávací stroje mohou vyhledávat i části slov neboli řetězce (nebo přesněji podřetězce) d-d- stemming q Librarians' Internet Index library libraries q riziko nerelevantních hitů q library science v LCSH q Military art and science Military libraries libraries science Vyhledej a skoč F vyhledávání v hitech na zobrazené stránce pomocí FIND F spočívá v tom, že uživatel se pomocí klíčových slov rychle orientuje v seznamu vyhledaných odkazů na dokumenty • to předpokladá zobrazení maxim. počtu hitů na stránku F nevýhody: q delší odezva při zadání základního dotazu q jednoduchost vyhledávání – ne složené podmínky (vyhledávání jen podle řetězce) q prohledává pouze text, který prezentuje hity Kategoriální vyhledávání F navigace hierarchickou strukturou předmětových adresářů/katalogových vyhledávacích nástrojů q prohlížení jednotlivých úrovní v příslušné kategorii q oborové brány versus komerční adresáře F posun od obecnějších kategorií k specifičtějším (záleží na tom, jaké nabízí služba propracované schéma) Povinná literatura F Antoš, D. Google přichází s průlomovými změnami ve vyhledávání. Lupa [online]. 21. 5. 2007 [cit. 2008-04-27]. Dostupné na World Wide Web: http://www.lupa.cz/clanky/google-prichazi-s-prulomovymi-zmenami-ve-vyhledavani/ F Hock, R. Search Engines : From Web 0.0 to Web 2.0 and Beyond. Online, 2007, roč. 31, č. 1, s. 26-30. F Weare, W. H. Find It on the Web Using the Search Concepts You Already Know. Library Media Connection, 2008, roč. 26, č. 6, s. 56-58. F Papíková, V., Papík, R. Nové možnosti vyhledávání vědeckých lékařských informací. In INFORUM 2007 : 13. konference o profesionálních informačních zdrojích Praha, 22. - 24. 5. 2007 : sborník z konference informačních profesionálů [online]. Dostupné na World Wide Web: http://www.inforum.cz/pdf/2007/papikova-vendula.pdf Doplňující a použitá literatura F Hock, R. The extreme searcher's Internet handbook : a guide for the serious searcher. 2nd ed.Medford, N.J. : CyberAge Books, 2007. 326 s. F Iskra, J. Google : tipy a návody pro vyhledávač, Gmail, YouTube, Earth a další aplikace. Brno : Computer Press, 2008. 231 s. F Makulová, S. Vyhl’adávanie informácií v internete : problémy, východiská, postupy. 1. vyd. Bratislava : El & T, 2002. 376 s.