Selekční jazyky Současné trendy Přednáška č. 1 (24.2.2006) Filozofická fakulta Masarykova Univerzity, Kabinet knihovnictví - Ústav české literatury a knihovnictví jaro 2005/2006 Josef Schwarz, informační konzultant http://schwarz.webpark.cz Osnova přednášky w Cíle w Hlavní témata w Dílčí témata w Klasifikace w Pracovní stránka w Úvodní diskuse w (Automatická indexace) Cíle w Poskytnout hlubší náhled na oblast SJ w Prezentovat propojení oblasti SJ se souvisejícími oblastmi w Upozornit na problémové okruhy dalšího vývoje v oblasti věcného vyhledávání informací w Did.: rozvíjet analytické myšlení a schopnost spolupráce Hlavní témata w Pokročilé aplikace SJ w Širší kontexty SJ w Alternativní metody věcného vyhledávání w Možnosti a limity současných SJ w Uživatelské aplikace věcného vyhledávání Dílčí témata w AUTOMATIZOVANÉ ZPRACOVÁNÍ DAT A SJ n automatická indexace, klasifikace, abstrahování, shlukování n automatizované zpracování přirozeného jazyka w VYHLEDÁVACÍ MODELY A JEJICH VZTAH K SJ n vyhledávání, filtrace, prohlížení n moderní vyhledávací techniky a SJ n vizualizace informací n reprezentace a vyhledávání multimediálních dokumentů n citační rejstříky jako metoda věcného vyhledávání informací n metody zpracování a rozšiřování uživatelského dotazu pomocí řízených slovníků Dílčí témata (pokr.) w ŠIRŠÍ KONTEXTY SJ n klasifikační výzkum, reprezentace pojmu n formální struktura dokumentu (SGML, HTML, XML), sémantický web n znalostní databáze, reprezentace znalostí, sémantické sítě n ontologie a jejich vztah k SJ w ŘÍZENÉ SLOVNÍKY, VĚCNÉ VYHLEDÁVÁNÍ INFORMACÍ A INTERNET Předpoklady klasifikace w Zkouška w Esej na zvolené (zadané) téma w Rozsah: 15 000 znaků w Min. počet použitých (a cit.) pramenů: 10 w Komparativní analýza stavu SJ/věcného vyhledávání ve vybraných informačních systémech w Knihovny, informační střediska, souborné katalogy, oborové databáze, portály atd. w Nedostatky systému a možná optimalizace; komparace s obdobnými systémy w Autorský tým: 2-3 studenti Předpoklady klasifikace w Aktivita na přednáškách w reakce na otázky w diskusní vstupy w bodování: puzzle (1 bod) w každý student musí obdržet alespoň jeden bod w Dílčí úkoly w nepovinné plnění w bodování w Celkový výsledek bodování w ovlivní stupeň klasifikace Úvodní diskuse Dnešní téma w Automatické procedury zpracování n automatická indexace n automatická klasifikace n automatické abstrahování n automatické shlukování AI - vstup (přehl.studie) w dostupnost plného textu, popř. abstraktu w automatická/intelektuální indexace n AI-výhody: odstranění subjektivity n AI-výhody: velký objem dokumentů n AI-nevýhody: stroj nerozumí textu w Morfologie, syntaxe w Sémantika n Intratextová (Slova/výrazy, věty, odstavce, text) n Intertextová (různé texty) n Extratextová (realita) AI - vstup (pokr.) n AI-problémy: w Pojmy nejsou vyjádřeny explicitně w Nepřímé odkazy na jiné části textu nebo texty w Text obsahuje nevýznamová slova w Jazykové problémy: synonymie, homonymie w Význam slov se mění v čase nebo mezi jednotlivými dokumenty w Různé tvary slov (míra závisí na jazyce) AI -- vstup (pokr.) w typy automatické indexace w extrakce (extraction indexing) -- slovní indexace (SI) n klíčová slova z textu: n lexikální analýza (identifikace slov a sousloví) n odstranění nevýznamových slov n lematizace n (vážení) n (komparace s řízeným slovníkem) w přiřazování (assignment indexing) -- pojmová indexace (PI) n práce s plným textem n pokročilé statistické a matematickolingvistické metody (pravděpodobnostní modely) n řízený slovník -- simulace intelektuálního procesu SI -- lexikální analýza w Číslice n Odborné texty ("§ 12"), odborné termíny ("MARC21") w Určení hranice slova n Mezera n Tečka (zkratky), spojovník (knihovnicko-informační systém) n Další interpunkční znaménka w Velká/malá písmena SI -- lexikální analýza (pokr.) w Sousloví n Sémanticky nosnější než jednotlivá slova n Dvě základní metody w Statistická identifikace sousloví w Syntaktická identifikace sousloví n Normalizace sousloví w Slovník w Vypuštění pomocných slovních druhů a zanedbání pořadí složek w Syntaktická analýza s použitím kmene (kořene) SI -- nevýznamová slova w Odstranění nevýznamových slov n 20-30 % běžného textu n Spojky, předložky a další pomocné složky w Sousloví s předložkovou vazbou (knihovny pro nevidomé) n Slova bez rozlišovací funkce w Řešení n Negativní slovník (slovník nevýznamových slov, slovník stop-slov, stop-slovník) n Odstranění lexikální analýzou a vážením SI -- nevýznamová slova (pokr.) w Tvorba stop-slovníku n Druhy slov (spojky, předložky, částice apod.) n Podle frekvence slova v textu n Krátká slova w Anti-negativní slovník SI -- lemmatizace w Metody n Algoritmické (gramatická pravidla) w Generování afixů n Slovníkově orientované w Slovník kmenů nebo kořenů a dalších morfologických informací w Slovník afixů (sufixů a prefixů) n Statistické w Letter successor variety stemmer (varieta po sobě následujících písmen) n Nové dokumenty v db n Nerozliší inflexní a derivační afixy w Program: lemmatizátor (stemmer) SI -- lemmatizace (pokr.) w Příklady převodů slovních druhů n Mužský životný/ženský tvar substantiva (autor, autorka), přivlastňovací přídavné jméno (autorčin, autorův) `a mužský tvar subst., 1. pád, singulár (autor) n Adj.: stupňované tvary (nejkonkrétnější), odvozená substantiva s konc. --ost (konkrétnost), negace (nekonkrétní), příslovce (konkrétně) `a zákl. tvar. adj. (konkrétní) n Slovesa: časování, příč. č. a trp., slovesné jméno podstatné, opakované sloveso `a infinitiv (dělat) SI -- lemmatizace (pokr.) w Lemmatizace se provádí: n Při indexaci w Malý index w Nutnost ručních zásahů n Při zpracování dotazu w inverzní lemmatizace (derivace) w Zvýšení relevance SI - vážení w Různá důležitost slov pro obsah dok. w Selektivní síla indexačního termínu (výrazu) w Kritéria vážení: n Výraz (slovní druh) n Text (délka, počet různých termínů) n Vztah výrazu a textu w Frekvence výrazu v textu w Umístění výrazu ve specifické části textu (název, abstrakt, první a poslední pasáže apod.) -- zohlednění koeficientem při vážení n Vztah termínu a celé db w Frekvence výrazu v db n Vybrané váhové funkce PI - vstup w Simulace intelektuálního procesu w Základ: n Výsledky SI n Plný text w Předpoklad: n Strukturovaný řízený slovník w Tezarus, sémantická síť, znalostní báze PI - postup w Postup PI: n Identifikace výrazu n Srovnání výrazu s relevantními profily pojmů z řízeného slovníku n Určení indexačních termínů w Problémy: n Shoda dokument/ŘS nemusí být určující pro obsah n Netriviální vyjádření pojmu v textu n Implicitní reprezentace pojmu v textu AI - hodnocení w praktické aspekty w plné texty w vyšší účinnost ve srovnání s intelektuální indexací w vyšší náklady -- vyšší kvalita w oborový IS w systémy w univerzální systém neexistuje w funkční systémy n specifická oblast n často pracují pouze s abstrakty n kombinace automatické a intelektuální indexace w příklady systémů w ČR: (MOZAIKA), (SEMAN), KPS PČR (Parlamentní knihovna), LEGSYS w NASA MAI Tool (text1, text2)