Rešeršní činnost Vyhledávací nástroje internetu 1 18. 4. 2008, 2. 5. 2008 přednášející: Silvie Kořínková Presová presova@phil.muni.cz Kabinet inf. studií a knihovnictví, FF MU O co nám půjde? q vyhledávací nástroje/služby, které slouží k vyhledávání informačních zdrojů dostupných volně/veřejně v prostoru www - prohledávání tzv. povrchového webu q vyhledávací nástroje/služby neviditelného webu (Invisible Web - Sherman), hluboký web (Deep Web - Bergman ) – informace přístupné přes www, které vyhledávací stroje nedokáží indexovat nebo z určitých důvodů nechtějí zahrnout do svých indexů Základní typy vyhledávací stroje (search engines) n databáze vyhledávacího stroje je budována na základě automatizovaného sběru dat (robot, worm, červ, spider pavouk) n vyhledávání na základě klíčových slov předmětové adresáře/katalogový vyhledávací nástroj (termín TDKIV) - subject directories, subject services, portals ... n sběr informačních zdrojů ručně, jejich kategorizace – (spolu)pracovníci služby, inf. profesionálové a odborníci z oboru, tvůrci stránek n zpřístupňování IZ prostřednictvím schémat předmětové kategorizace – prohlížení (browsing) Základní typy vyhledávací nástroje zaměřené na nejrůznější typy obsahů n např. diskusní skupiny (newsgroups), elektronické konference (mailing lists), obrázky, video n součástí základních kategorií nebo samostatné služby G prolínání jednotlivých typů, stírání rozdílů n základní kategorie mohou v sobě zahrnovat i další funkce, např. ty vztahující se k portálům Webové portály F sídlo, které poskytuje širokou škálu služeb a informací, často s možností jejich přizpůsobení uživateli podle osobních potřeb a zájmů F vyhledávání webových informačních zdrojů a dokumentů, freemailová služba, denní zpravodajství, mapy, vyhledávání kontaktních informací na osoby i firmy, zábava, elektronický obchod (TDKIV) – personalizace příklady: Yahoo!, Excite, MSN Search, Seznam F horizontální portály - široce (obecně) zaměřené portály F vertikální portály - zaměřené na specializované inf. zdroje Posun k personalizovaným portálům – personal portal F iGoogle – personalizace je založena na tzv. Google Gadgets – miniaplikacích, které umožňují výběr vlastních témat, q lze je libovolně kopírovat a vkládat do webových stránek F My Yahoo – všechno na jedné stránce včetně počasí, emailu, seznamu televiz. pořadů, map, záložek, horoskopy … Neustálé změny F vliv Webu 2.0 na služby vyhledávacích nástrojů: q vznik nových typů služeb (např. Wikia Search, Swicki - collaborative social search engine, vyhledávání založené na folksonomiích) q nové obsahy vyhledávání (např. uživateli řízený obsah, podcast, blogy) q modifikace stávajících nástrojů a jejich služeb F Google koupil Youtube F Yahoo získal Flickr a Del.icio.us F koupí Microsoft Yahoo? Yahoo dostalo od Microsoftu třítýdenní ultimátum starší změny FYahoo! – původně předmětový katalog, dnes fulltextové vyhledávání, portál FTeoma – koupen Ask FAltaVista – připojen k databázi Yahoo!, neplatí mnoho původních pokročilých způsobů pro vyhledávání `aDead Search Engines Kde změny sledovat F Search Engine Showdown – novinky, recenze, charakteristika jednotlivých služeb F blogy specialistů, např. Karen Blakeman's Blog, Marydee Ojala F WebSearchGuide F FreePint F Search Engine Guide F Notess, G. R. Search Engine Update – pravidelná rubrika magazínu Online (plný text dostupný přes db LLIS) F průběžné rešerše v oborových db q např. v db LLIS reš. dotaz: (Internet searching) Subject(s) OR (Internet search engines) Subject(s) využití služby ALERTS Předmětové adresáře F angl. ekv. - web directories, subject directories, subject services, portals organizovaný a strukturovaný přístup k informačním zdrojům na internetu F různá schémata předmětové kategorizace – hierarchický princip, podřazení specifičtějšího tématu obecnému, seskupování příbuzných témat Předmětové adresáře Výhody F selektivní – hodnocení užitečnosti a vhodnosti F do určité míry záruka kvality F kategorizují/klasifikují F snadno prohledatelné F dobré pro obecné dotazy F většinou i přímé vyhledávání (searchability) Nevýhody/slabá místa F malá databáze F nemusí obsahovat stránky se specifickým obsahem F méně vyhledávacích technik F placené včlenění stránek může ovlivnit kvalitu F tendence indexovat pouze hlavní/úvodní stránky F někdy zdlouhavá navigace Hlavní znaky F selektivnost – stránky přidávané editory/navrhované uživateli, měly by být obsahově relevantní k dané kategorii, někdy placené zařazení stránek, zahrnutí spíše hlavních stránek – ne všech úrovních web. sídla F prohlížení - kategorizace – různá kategorizační schémata, různé počty hierar. úrovní F vyhledávání – vyhledávání v databázi adresáře, základní techniky, někdy i rozhraní pro pokročilé v. Kdy využijeme adresáře? F hledání odpovědí na obecné otázky – prohlížení dostupných zdrojů G složená témata – skládají se z více pojmů/dílčích témat – vyhledávací stroje např. seznam vysokých škol z oblasti LIS X výuka informační gramotnosti formou e-learningu na vys. školách F hledáme sice specifickou informaci, ale nedokážeme ji vymezit - potřebujeme informace ke specifikaci dotazu G získáme většinou odkazy na webová sídla k danému tématu a ne seznam stránek obsažených v těchto sídlech Komerčně orientované adresáře n oslovení co nejširší veřejnosti n oblasti společenského života – zábava, sport, obchod ... n omezená anotace, různá kvalita n Open Directory Project – 590 tis. kategorií, 4,5 mil. odkazů, 67 576 editorů n Yahoo!Directory – 3 mil. odkazů Oborové informační brány/předmětové/temati-cké brány n podpora rozvoje výzkumu, vědy a vzdělávání n zaměřeny oborově nebo univerzálně n zhodnocené IZ výběr na základě kritérií, informační specialisti, odborníci n požadavek kvalitního předmětového přístupu n více viz. např. Stoklasová,T. KDY použijeme OIB? F chceme-li získat odkazy na webové stránky, které doporučují, hodnotí a anotují experti F zabýváme se o konkrétní obor, temat. oblast F nevyžadujeme mnoho na výstupu F chceme-li se vyhnout IZ s nízkým obsahem, které vracejí vyhledávací stroje Co vědět? F co hledáme na internetu, musíme znát předmět, o který se zajímáme F do které předmětové kategorie patří hledaná informace F musíme být ochotni věnovat čas navigování hierarchickou strukturou OIB - quality-controlled subject gateways/subject gateways významné OIB univerzálního charakteru: Librarians' Internet Index – zdroje vybrány s ohledem na uživatele veřejných knihoven, anotované zdroje, popis pomocí LCSH Internet Public Library - founded by a class at the University of Michigan's School of Information, and Michigan SI students Infomine – LCSH, LCC Academic Info Intute (Resource Discovery Network) - zdroje vybrané více než 70ti tisíci vzděláv. a výzkum. institucemi, lze prohlížet 4 samostatné sbírky Vyhledávací možnosti Internet Subject Directories Recommended Subject Directories Specializované adresáře F výborná výchozí místa pro poznání zdrojů z konkrétních oblastí F kvalitní spec. adresáře - OIB F angl. ekv. – specialized directories, resource guides, metasites, cyberguides, Webliographies, collections of links rozmanitost: F oborově nebo odvětvově orientované F zaměřené na specifický druh dokumentu (noviny, historické dokumenty) F vertikál. portály/vortály (MEDLINEPlus ) Výhody F specializace F velmi selektivní F poskytují okamžité odborné stránky Nevýhody F malé F variují co do kvality a konzistence F nemusí nabízet pole pro vyhledávání Jak nalézt specializovaný adresář? Přes adresáře: F Yahoo - v rámci temat. kategorie podkategorie Directories či Web D. F zadat klíčová slova do vyhledávacího boxu Sledování odborného tisku, který se zabývá internetovými zdroji pro specifické oblasti F časopisy Online, Searcher, webové stránky pro rešeršéry, např. Free Pint Jak nalézt specializovaný adresář? Užití vyhled. strojů F volba vhodných vyhl. výrazů pro obor a adresář Prostřednictvím stránek institucí F vysoké školy, knihovny, výzkumné instituce, stránky zájm. sdružení Užití adresářů adresářů (directories of directories), např. F WWW Virtual Library - specializ. adresáře uspořádané do kategorií, tvoří dobrovolníci – sekce – různé formy F Search Engine Guide V čem se liší adresáře? F velikost F kategorizace F anotace F vyhledávání pomocí polí F tvůrce F rysy portálů Příklady adresářů Zaměřené na referenční informace F refdesk.com F Internet Public Library Reference Ready Reference Polytematické zaměřené na akademickou a výzkumnou oblast F InfoMine F BUBLLINK F Intute (Resource Discovery Network) Příklady oborových adresářů LIS F Informace pro knihovny F Internet Library for Librarians F Oborová brána Knihovnictví a informační věda Neviditelný web F rozmanitý obsah na internetu, který je „neviditelný“ pro vyhled. stroje F odhady velikosti NW – 200 – 500krát větší než povrchový web F obsahuje důležité zdroje F existují způsoby, jak vyhledávat v NW Proč vyhl. stroje neindexují obsah? F informace uložené v databázích (až 54 %) F stránky tzv. samotáři, z kterých není odkaz na jiné a na které není odkaz F dynamicky generované stránky (po základní interakci s uživatelem), stránky vytvořené na základě uživatelova požadavku F stránky chráněné heslem, přístupné po registraci F robot navštíví sídlo, ale hledá pouze do určité hloubky F autor použil tzv. NO-ROBOT TAG “Pravý” neviditelný web F materiál generovaný z databází, např. telefonní seznamy, patent. db, biograf. a plnotext. db F často neexistuje unikátní URL F stránka je vytvořena na základě uživatelova požadavku - roboti neumí zadávat dotazy Brány pro neviditelný web Příklady služeb, které registrují zdroje neviditelného webu (v podstatě se jedná o adresáře databází, které jsou vytvářeny informačními profesionály. Mají navíc často přidanou hodnotu díky popisu jednotlivých zdrojů ) FComplete Planet - prohledává 89, 000 databází a speciálních vyhledávacích strojů, neobsahuje pouze neviditelné obsahy, ne vždy užitečné zdroje FOIB, specializované adresáře – Infomine, Librarians' Index, BUBL Information Service J některé vyhledávací stroje umožňují vyhledávání informací na viditelném i neviditelném webu informace relevantní pro vědu, výzkum a vzdělávání: SCIRUS Google Scholar specializovaný vyhledávací stroj Fzaměřuje se na odbornou literaturu, vyhledávání dokumentů z různých oborů a z různých IZ Fčlánky, knihy, preprinty, kvalifikační práce FIZ: vydavatelé odborné literatury, profesní společnosti, db preprintů, univerzitní a jiné odborné instituce, databáze Každý výsledek vyhledávání reprezentuje skupina patřící k nějakému odbornému textu. Může jít o jeden nebo více vztahujících se článků, více verzí jednoho článku. Např. součástí výsledku vyhledávání může být skupina článků včetně preprintů, konferenčních příspěvků, časopiseckých článků, které jsou asociovány s jedním informačním dotazem. Příklady: F allintitle:"Models in information behaviour research" author:wilson F allintitle:"Modern information retrieval" author:Baeza-Yates F vzdělávání dospělých v knihovnách se zřetelem na zlepšení jejich informační gramotnosti F "adult education" library ("information literacy" OR "information skill") Odkazy u vyhledaného dokumentu FCited By – Identifies other papers that have cited articles in the group FRelated Articles – Finds other papers that are similar to articles in this group FLibrary Links (online) – Locates an electronic version of the work through your affiliated library's resources . These links appear automatically if you're on campus. FLibrary Links (offline) – Locates libraries which have a physical copy of the work. FGroup of – Finds other articles included in this group of scholarly works. Examples include preprints, abstracts, conference papers or other adaptations. FWeb Search – Searches for information about this work on Google. FBL Direct – Purchase the full text of the article through the British Library. F Je možné získat přístup ke konečnému dokumentu prostřednictvím knihovny. F Google spolupracuje s knihovnami, aby určil, které časopisy a texty jsou jimi předplacené elektronicky a potom spojuje články z tohoto zdroje, když jsou dostupné. F Link se objeví, pokud se vyhledává z určité knihovny/informační instituce, automaticky se zahrnou tyto linky. Řazení výsledků podle relevance: Fpři setřídění výsledných odkazů bere kromě plného textu článku v úvahu autora článku, publikaci, ze které článek pochází, a jak často byl článek citován Fjako samostatné výsledky prezentuje také citace, i když nejsou citované dokumenty online dostupné F specializovaný vyhledávací stroj firmy Elsevier pro sféru vědy, výzkumu a vzdělávání F prohledává přes 250 miliónů odborně zaměřených webových stránek: • identifikuje vědecké, odborné, technické a lékařské informace na www • nalezne nejnovější vědecko-výzkumné zprávy, články, patenty, preprinty, časopisy, které nenaleznou vyhledávací stroje • filtruje nerelevantní informace nepatřící do odborné sféry indexuje webové zdroje z viditelného webu n 83 million .edu sites n 25 million .org sites n 10 million .ac.uk sites n 22 million .com sites n 6.5 million .gov sites n over 68 million other relevant STM and University sites from around the world indexuje zdroje z placených i volně dostupných bází dat Řazení výsledků podle relevance: FScirus vypočítává relevanci podle frekvence vyhledávaného termínu a počtu odkazů na stránku. Nabízí také možnost řazení podle data. Povinná literatura F Hock, R. The extreme searcher's Internet handbook : a guide for the serious searcher. 2nd ed.Medford, N.J. : CyberAge Books, 2007. Kap. 2 General Web Directories and Portals, 3 Specialized Directories, s. 29-61. F Makulová, S. Vyhl’adávanie informácií v internete : problémy, východiská, postupy. 1. vyd. Bratislava : El & T, 2002. Kap. XV. Neviditel´ný alebo hĺbkový web, s. 285-299. Prostudovat nápovědu: F Google Scholar Help + Advanced Search Tips [online]. [cit. 2008-04-27]. Dostupné na World Wide Web: http://scholar.google.com/intl/en/scholar/help.html F SCIRUS help : Search tips Introduction [online]. [cit. 2008-04-27]. Dostupné na World Wide Web: http://www.scirus.com//html/help/index.htm Doplňující a použitá literatura F Hock, R. The extreme searcher's Internet handbook : a guide for the serious searcher. 2nd ed.Medford, N.J. : CyberAge Books, 2007. 326 s. F Hock, R. Search Engines : From Web 0.0 to Web 2.0 and Beyond. Online, 2007, roč. 31, č. 1, s. 26-30. F Makulová, S. Vyhl’adávanie informácií v internete : problémy, východiská, postupy. 1. vyd. Bratislava : El & T, 2002. 376 s. F Papíková, V., Papík, R. Nové možnosti vyhledávání vědeckých lékařských informací. In INFORUM 2007 : 13. konference o profesionálních informačních zdrojích Praha, 22. - 24. 5. 2007 : sborník z konference informačních profesionálů [online]. Dostupné na World Wide Web: http://www.inforum.cz/pdf/2007/papikova-vendula.pdf