Současné trendy v selekčních jazycích Přednáška č. 1-komb. (9.3.2007) Filozofická fakulta Masarykova Univerzity, Kabinet knihovnictví - Ústav české literatury a knihovnictví jaro 2006/2007 Josef Schwarz schwarzjv@seznam.cz Osnova přednášky w Cíle w Hlavní témata w Dílčí témata w Klasifikace w Úvodní diskuse w Automatická indexace Cíle w Poskytnout hlubší náhled na oblast SJ w Prezentovat propojení oblasti SJ se souvisejícími oblastmi w Upozornit na problémové okruhy dalšího vývoje v oblasti věcného vyhledávání informací w Did.: rozvíjet analytické myšlení a schopnost spolupráce Hlavní témata w Pokročilé aplikace SJ w Širší kontexty SJ w Alternativní metody věcného vyhledávání w Možnosti a limity současných SJ w Uživatelské aplikace věcného vyhledávání Dílčí témata w AUTOMATIZOVANÉ ZPRACOVÁNÍ DAT A SJ n automatická indexace, klasifikace, abstrahování, shlukování n automatizované zpracování přirozeného jazyka w VYHLEDÁVACÍ MODELY A JEJICH VZTAH K SJ n vyhledávání, filtrace, prohlížení n moderní vyhledávací techniky a SJ n vizualizace informací n reprezentace a vyhledávání multimediálních dokumentů n citační rejstříky jako metoda věcného vyhledávání informací n metody zpracování a rozšiřování uživatelského dotazu pomocí řízených slovníků Dílčí témata (pokr.) w ŠIRŠÍ KONTEXTY SJ n klasifikační výzkum, reprezentace pojmu n formální struktura dokumentu (SGML, HTML, XML), sémantický web n znalostní databáze, reprezentace znalostí, sémantické sítě n ontologie a jejich vztah k SJ w ŘÍZENÉ SLOVNÍKY, VĚCNÉ VYHLEDÁVÁNÍ INFORMACÍ A INTERNET Předpoklady klasifikace w Esej na zvolené (zadané) téma w Rozsah: 15 000 znaků w Min. počet použitých (a cit.) pramenů: 10 w Komparativní analýza stavu SJ/věcného vyhledávání ve vybraných informačních systémech w Knihovny, informační střediska, souborné katalogy, oborové databáze, portály atd. w Nedostatky systému a možná optimalizace; komparace s obdobnými systémy w Autorský tým: 3-4 studenti w Prezentace projektu na závěr semestru w dílčí nepovinné úkoly Dnešní téma w Automatické procedury zpracování n automatická indexace AI - vstup (přehl.studie) w dostupnost plného textu, popř. abstraktu w automatická/intelektuální indexace n AI-výhody: odstranění subjektivity n AI-výhody: velký objem dokumentů n AI-nevýhody: stroj nerozumí textu w Morfologie, syntaxe w Sémantika n Intratextová (Slova/výrazy, věty, odstavce, text) n Intertextová (různé texty) n Extratextová (realita) AI - vstup (pokr.) n AI-problémy: w Pojmy nejsou vyjádřeny explicitně w Nepřímé odkazy na jiné části textu nebo texty w Text obsahuje nevýznamová slova w Jazykové problémy: synonymie, homonymie w Význam slov se mění v čase nebo mezi jednotlivými dokumenty w Různé tvary slov (míra závisí na jazyce) AI – vstup (pokr.) w typy automatické indexace w extrakce (extraction indexing) – slovní indexace (SI) n klíčová slova z textu: n lexikální analýza (identifikace slov a sousloví) n odstranění nevýznamových slov n lematizace n (vážení) n (komparace s řízeným slovníkem) w přiřazování (assignment indexing) – pojmová indexace (PI) n práce s plným textem n pokročilé statistické a matematickolingvistické metody (pravděpodobnostní modely) n řízený slovník – simulace intelektuálního procesu SI – lexikální analýza w Číslice n Odborné texty („§ 12“), odborné termíny („MARC21“) w Určení hranice slova n Mezera n Tečka (zkratky), spojovník (knihovnicko-informační systém) n Další interpunkční znaménka w Velká/malá písmena SI – lexikální analýza (pokr.) w Sousloví n Sémanticky nosnější než jednotlivá slova n Dvě základní metody w Statistická identifikace sousloví w Syntaktická identifikace sousloví n Normalizace sousloví w Slovník w Vypuštění pomocných slovních druhů a zanedbání pořadí složek w Syntaktická analýza s použitím kmene (kořene) SI – nevýznamová slova w Odstranění nevýznamových slov n 20-30 % běžného textu n Spojky, předložky a další pomocné složky w Sousloví s předložkovou vazbou (knihovny pro nevidomé) n Slova bez rozlišovací funkce w Řešení n Negativní slovník (slovník nevýznamových slov, slovník stop-slov, stop-slovník) n Odstranění lexikální analýzou a vážením SI – nevýznamová slova (pokr.) w Tvorba stop-slovníku n Druhy slov (spojky, předložky, částice apod.) n Podle frekvence slova v textu n Krátká slova w Anti-negativní slovník SI – lemmatizace w Metody n Algoritmické (gramatická pravidla) w Generování afixů n Slovníkově orientované w Slovník kmenů nebo kořenů a dalších morfologických informací w Slovník afixů (sufixů a prefixů) n Statistické w Letter successor variety stemmer (varieta po sobě následujících písmen) n Nové dokumenty v db n Nerozliší inflexní a derivační afixy w Program: lemmatizátor (stemmer) SI – lemmatizace (pokr.) w Příklady převodů slovních druhů n Mužský životný/ženský tvar substantiva (autor, autorka), přivlastňovací přídavné jméno (autorčin, autorův) `a mužský tvar subst., 1. pád, singulár (autor) n Adj.: stupňované tvary (nejkonkrétnější), odvozená substantiva s konc. –ost (konkrétnost), negace (nekonkrétní), příslovce (konkrétně) `a zákl. tvar. adj. (konkrétní) n Slovesa: časování, příč. č. a trp., slovesné jméno podstatné, opakované sloveso `a infinitiv (dělat) SI – lemmatizace (pokr.) w Lemmatizace se provádí: n Při indexaci w Malý index w Nutnost ručních zásahů n Při zpracování dotazu w inverzní lemmatizace (derivace) w Zvýšení relevance SI - vážení w Různá důležitost slov pro obsah dok. w Selektivní síla indexačního termínu (výrazu) w Kritéria vážení: n Výraz (slovní druh) n Text (délka, počet různých termínů) n Vztah výrazu a textu w Frekvence výrazu v textu w Umístění výrazu ve specifické části textu (název, abstrakt, první a poslední pasáže apod.) – zohlednění koeficientem při vážení n Vztah termínu a celé db w Frekvence výrazu v db n Vybrané váhové funkce PI - vstup w Simulace intelektuálního procesu w Základ: n Výsledky SI n Plný text w Předpoklad: n Strukturovaný řízený slovník w Tezarus, sémantická síť, znalostní báze PI - postup w Postup PI: n Identifikace výrazu n Srovnání výrazu s relevantními profily pojmů z řízeného slovníku n Určení indexačních termínů w Problémy: n Shoda dokument/ŘS nemusí být určující pro obsah n Netriviální vyjádření pojmu v textu n Implicitní reprezentace pojmu v textu AI - hodnocení w praktické aspekty w plné texty w vyšší účinnost ve srovnání s intelektuální indexací w vyšší náklady – vyšší kvalita w oborový IS w systémy w univerzální systém neexistuje w funkční systémy n specifická oblast n často pracují pouze s abstrakty n kombinace automatické a intelektuální indexace w příklady systémů w ČR: (MOZAIKA), (SEMAN), KPS PČR (Parlamentní knihovna), LEGSYS w NASA MAI Tool (text1, text2)