Současné trendy v selekčních jazycích Přednáška č. 1 (komb. studium) - 29.2.2008 Filozofická fakulta Masarykova Univerzity, Kabinet knihovnictví - Ústav české literatury a knihovnictví jaro 2007/2008 Josef Schwarz schwarzjv@seznam.cz Osnova přednášky *Cíle *Hlavní témata *Dílčí témata *Klasifikace *Úvodní diskuse *Automatická indexace Cíle *Poskytnout hlubší náhled na oblast SJ *Prezentovat propojení oblasti SJ se souvisejícími oblastmi *Upozornit na problémové okruhy dalšího vývoje v oblasti věcného vyhledávání informací *Did.: rozvíjet analytické myšlení a schopnost spolupráce Hlavní témata *Pokročilé aplikace SJ *Širší kontexty SJ *Alternativní metody věcného vyhledávání *Možnosti a limity současných SJ *Uživatelské aplikace věcného vyhledávání Dílčí témata * AUTOMATIZOVANÉ ZPRACOVÁNÍ DAT A SJ n automatická indexace, klasifikace, abstrahování, shlukování n automatizované zpracování přirozeného jazyka * VYHLEDÁVACÍ MODELY A JEJICH VZTAH K SJ n vyhledávání, filtrace, prohlížení n moderní vyhledávací techniky a SJ n vizualizace informací n reprezentace a vyhledávání multimediálních dokumentů n citační rejstříky jako metoda věcného vyhledávání informací n metody zpracování a rozšiřování uživatelského dotazu pomocí řízených slovníků Dílčí témata (pokr.) * ŠIRŠÍ KONTEXTY SJ n klasifikační výzkum, reprezentace pojmu n formální struktura dokumentu (SGML, HTML, XML), sémantický web n znalostní databáze, reprezentace znalostí, sémantické sítě n ontologie a jejich vztah k SJ * ŘÍZENÉ SLOVNÍKY, VĚCNÉ VYHLEDÁVÁNÍ INFORMACÍ A INTERNET Předpoklady klasifikace *Esej na zvolené (zadané) téma w Rozsah: 15 000 znaků w Min. počet použitých (a cit.) pramenů: 10 *Komparativní analýza stavu SJ/věcného vyhledávání ve vybraných informačních systémech w Knihovny, informační střediska, souborné katalogy, oborové databáze, portály atd. w Nedostatky systému a možná optimalizace; komparace s obdobnými systémy w Autorský tým: 3-4 studenti w Prezentace projektu na závěr semestru Harmonogram *29.2.2008 *21.3.2008 *11.4.2008 *2.5.2008 *16.5.2008 Úvodní diskuse Dnešní téma *Automatické procedury zpracování n automatická indexace AI - vstup (přehl.studie) *dostupnost plného textu, popř. abstraktu *automatická/intelektuální indexace n AI-výhody: odstranění subjektivity n AI-výhody: velký objem dokumentů n AI-nevýhody: stroj nerozumí textu w Morfologie, syntaxe w Sémantika n Intratextová (Slova/výrazy, věty, odstavce, text) n Intertextová (různé texty) n Extratextová (realita) AI - vstup (pokr.) n AI-problémy: w Pojmy nejsou vyjádřeny explicitně w Nepřímé odkazy na jiné části textu nebo texty w Text obsahuje nevýznamová slova w Jazykové problémy: synonymie, homonymie w Význam slov se mění v čase nebo mezi jednotlivými dokumenty w Různé tvary slov (míra závisí na jazyce) AI – vstup (pokr.) *typy automatické indexace w extrakce (extraction indexing) – slovní indexace (SI) n klíčová slova z textu: n lexikální analýza (identifikace slov a sousloví) n odstranění nevýznamových slov n lematizace n (vážení) n (komparace s řízeným slovníkem) w přiřazování (assignment indexing) – pojmová indexace (PI) n práce s plným textem n pokročilé statistické a matematickolingvistické metody (pravděpodobnostní modely) n řízený slovník – simulace intelektuálního procesu SI – lexikální analýza *Číslice n Odborné texty („§ 12“), odborné termíny („MARC21“) *Určení hranice slova n Mezera n Tečka (zkratky), spojovník (knihovnicko-informační systém) n Další interpunkční znaménka *Velká/malá písmena SI – lexikální analýza (pokr.) *Sousloví n Sémanticky nosnější než jednotlivá slova n Dvě základní metody w Statistická identifikace sousloví w Syntaktická identifikace sousloví n Normalizace sousloví w Slovník w Vypuštění pomocných slovních druhů a zanedbání pořadí složek w Syntaktická analýza s použitím kmene (kořene) SI – nevýznamová slova * Odstranění nevýznamových slov n 20-30 % běžného textu n Spojky, předložky a další pomocné složky w Sousloví s předložkovou vazbou (knihovny pro nevidomé) n Slova bez rozlišovací funkce * Řešení • Negativní slovník (slovník nevýznamových slov, slovník stop-slov, stop-slovník) • Odstranění lexikální analýzou a vážením SI – nevýznamová slova (pokr.) *Tvorba stop-slovníku n Druhy slov (spojky, předložky, částice apod.) n Podle frekvence slova v textu n Krátká slova w Anti-negativní slovník SI – lemmatizace *Metody n Algoritmické (gramatická pravidla) w Generování afixů n Slovníkově orientované w Slovník kmenů nebo kořenů a dalších morfologických informací w Slovník afixů (sufixů a prefixů) n Statistické w Letter successor variety stemmer (varieta po sobě následujících písmen) n Nové dokumenty v db n Nerozliší inflexní a derivační afixy *Program: lemmatizátor (stemmer) SI – lemmatizace (pokr.) *Příklady převodů slovních druhů n Mužský životný/ženský tvar substantiva (autor, autorka), přivlastňovací přídavné jméno (autorčin, autorův) `a mužský tvar subst., 1. pád, singulár (autor) n Adj.: stupňované tvary (nejkonkrétnější), odvozená substantiva s konc. –ost (konkrétnost), negace (nekonkrétní), příslovce (konkrétně) `a zákl. tvar. adj. (konkrétní) n Slovesa: časování, příč. č. a trp., slovesné jméno podstatné, opakované sloveso  infinitiv (dělat) SI – lemmatizace (pokr.) *Lemmatizace se provádí: n Při indexaci w Malý index w Nutnost ručních zásahů n Při zpracování dotazu w inverzní lemmatizace (derivace) w Zvýšení relevance SI - vážení *Různá důležitost slov pro obsah dok. *Selektivní síla indexačního termínu (výrazu) *Kritéria vážení: n Výraz (slovní druh) n Text (délka, počet různých termínů) n Vztah výrazu a textu w Frekvence výrazu v textu w Umístění výrazu ve specifické části textu (název, abstrakt, první a poslední pasáže apod.) – zohlednění koeficientem při vážení n Vztah termínu a celé db w Frekvence výrazu v db n Vybrané váhové funkce PI - vstup *Simulace intelektuálního procesu *Základ: n Výsledky SI n Plný text *Předpoklad: n Strukturovaný řízený slovník w Tezarus, sémantická síť, znalostní báze PI - postup *Postup PI: n Identifikace výrazu n Srovnání výrazu s relevantními profily pojmů z řízeného slovníku n Určení indexačních termínů *Problémy: n Shoda dokument/ŘS nemusí být určující pro obsah n Netriviální vyjádření pojmu v textu n Implicitní reprezentace pojmu v textu AI - hodnocení *praktické aspekty w plné texty w vyšší účinnost ve srovnání s intelektuální indexací w vyšší náklady – vyšší kvalita w oborový IS *systémy w univerzální systém neexistuje w funkční systémy n specifická oblast n často pracují pouze s abstrakty n kombinace automatické a intelektuální indexace *příklady systémů w ČR: (MOZAIKA), (SEMAN), KPS PČR (Parlamentní knihovna), LEGSYS w NASA MAI Tool (text1, text2)