Současné trendy v selekčních jazycích



Přednáška č. 1 (komb. studium) - 29.2.2008

Filozofická fakulta Masarykova Univerzity, Kabinet knihovnictví - Ústav české literatury a
knihovnictví

jaro 2007/2008



Josef Schwarz

schwarzjv@seznam.cz

                                          Osnova přednášky

*Cíle

*Hlavní témata

*Dílčí témata

*Klasifikace

*Úvodní diskuse

*Automatická indexace

                                                Cíle

*Poskytnout hlubší náhled na oblast SJ

*Prezentovat propojení oblasti SJ se souvisejícími oblastmi

*Upozornit na problémové okruhy dalšího vývoje v oblasti věcného vyhledávání informací

*Did.: rozvíjet analytické myšlení a schopnost spolupráce

                                           Hlavní témata

*Pokročilé aplikace SJ

*Širší kontexty SJ

*Alternativní metody věcného vyhledávání

*Možnosti a limity současných SJ

*Uživatelské aplikace věcného vyhledávání





                                            Dílčí témata

*   AUTOMATIZOVANÉ ZPRACOVÁNÍ DAT A SJ

  n     automatická indexace, klasifikace, abstrahování, shlukování

  n     automatizované zpracování přirozeného jazyka

*   VYHLEDÁVACÍ MODELY A JEJICH VZTAH K SJ

  n     vyhledávání, filtrace, prohlížení

  n     moderní vyhledávací techniky a SJ

  n     vizualizace informací

  n     reprezentace a vyhledávání multimediálních dokumentů

  n     citační rejstříky jako metoda věcného vyhledávání informací

  n     metody zpracování a rozšiřování uživatelského dotazu pomocí řízených slovníků

                                        Dílčí témata (pokr.)

*   ŠIRŠÍ KONTEXTY SJ

  n     klasifikační výzkum, reprezentace pojmu

  n     formální struktura dokumentu (SGML, HTML, XML), sémantický web

  n     znalostní databáze, reprezentace znalostí, sémantické sítě

  n     ontologie a jejich vztah k SJ

*   ŘÍZENÉ SLOVNÍKY, VĚCNÉ VYHLEDÁVÁNÍ INFORMACÍ A INTERNET

                                      Předpoklady klasifikace

*Esej na zvolené (zadané) téma

    w  Rozsah: 15 000 znaků

    w  Min. počet použitých (a cit.) pramenů: 10

*Komparativní analýza stavu SJ/věcného vyhledávání ve vybraných informačních systémech

    w  Knihovny, informační střediska, souborné katalogy, oborové databáze, portály atd.

    w  Nedostatky systému a možná optimalizace; komparace s obdobnými systémy

    w  Autorský tým: 3-4 studenti

    w  Prezentace projektu na závěr semestru

                                            Harmonogram

*29.2.2008

*21.3.2008

*11.4.2008

*2.5.2008

*16.5.2008

                                           Úvodní diskuse

                                            Dnešní téma

*Automatické procedury zpracování

  n  automatická indexace

  



                                     AI - vstup (přehl.studie)

*dostupnost plného textu, popř. abstraktu

*automatická/intelektuální indexace

  n  AI-výhody: odstranění subjektivity

  n  AI-výhody: velký objem dokumentů

  n  AI-nevýhody: stroj nerozumí textu

    w  Morfologie, syntaxe

    w  Sémantika

      n  Intratextová (Slova/výrazy, věty, odstavce, text)

      n  Intertextová (různé texty)

      n  Extratextová (realita)

  

      

      

    

        



                                         AI - vstup (pokr.)

  n  AI-problémy:

    w  Pojmy nejsou vyjádřeny explicitně

    w  Nepřímé odkazy na jiné části textu nebo texty

    w  Text obsahuje nevýznamová slova

    w  Jazykové problémy: synonymie, homonymie

    w  Význam slov se mění v čase nebo mezi jednotlivými dokumenty

    w  Různé tvary slov (míra závisí na jazyce)

  

      

      

    

        



                                         AI – vstup (pokr.)

*typy automatické indexace

    w  extrakce (extraction indexing) – slovní indexace (SI)

      n  klíčová slova z textu:

        n  lexikální analýza (identifikace slov a sousloví)

        n  odstranění nevýznamových slov

        n  lematizace

        n  (vážení)

        n  (komparace s řízeným slovníkem)

    w  přiřazování (assignment indexing) – pojmová indexace (PI)

      n  práce s plným textem

        n  pokročilé statistické a matematickolingvistické metody (pravděpodobnostní modely)

        n  řízený slovník – simulace intelektuálního procesu



                                       SI – lexikální analýza

*Číslice

  n  Odborné texty („§ 12“), odborné termíny („MARC21“)

*Určení hranice slova

  n  Mezera

  n  Tečka (zkratky), spojovník (knihovnicko-informační systém)

  n  Další interpunkční znaménka

*Velká/malá písmena

                                   SI – lexikální analýza (pokr.)

*Sousloví

  n  Sémanticky nosnější než jednotlivá slova

  n  Dvě základní metody

    w  Statistická identifikace sousloví

    w  Syntaktická identifikace sousloví

  n  Normalizace sousloví

    w  Slovník

    w  Vypuštění pomocných slovních druhů a zanedbání pořadí složek

    w  Syntaktická analýza s použitím kmene (kořene)

                                       SI – nevýznamová slova

*  Odstranění nevýznamových slov

  n    20-30 % běžného textu

  n    Spojky, předložky a další pomocné složky

    w   Sousloví s předložkovou vazbou (knihovny pro nevidomé)

  n    Slova bez rozlišovací funkce

*  Řešení

      Negativní slovník (slovník nevýznamových slov, slovník stop-slov, stop-slovník)

      Odstranění lexikální analýzou a vážením

  

                                   SI – nevýznamová slova (pokr.)

*Tvorba stop-slovníku

  n  Druhy slov (spojky, předložky, částice apod.)

  n  Podle frekvence slova v textu

  n  Krátká slova

    w  Anti-negativní slovník

                                          SI – lemmatizace

*Metody

  n  Algoritmické (gramatická pravidla)

    w  Generování afixů

  n  Slovníkově orientované

    w  Slovník kmenů nebo kořenů a dalších morfologických informací

    w  Slovník afixů (sufixů a prefixů)

  n  Statistické

    w  Letter successor variety stemmer (varieta po sobě následujících písmen)

      n  Nové dokumenty v db

      n  Nerozliší inflexní a derivační afixy

*Program: lemmatizátor (stemmer)

                                      SI – lemmatizace (pokr.)

*Příklady převodů slovních druhů

  n  Mužský životný/ženský tvar substantiva (autor, autorka), přivlastňovací přídavné jméno
  (autorčin, autorův)  `a mužský tvar subst., 1. pád, singulár (autor)

  n  Adj.: stupňované tvary (nejkonkrétnější), odvozená substantiva s konc. –ost (konkrétnost),
  negace (nekonkrétní), příslovce (konkrétně) `a zákl. tvar. adj. (konkrétní)

  n  Slovesa: časování, příč. č. a trp., slovesné jméno podstatné, opakované sloveso 
  infinitiv (dělat)

                                      SI – lemmatizace (pokr.)

*Lemmatizace se provádí:

  n  Při indexaci

    w  Malý index

    w  Nutnost ručních zásahů

  n  Při zpracování dotazu

    w  inverzní lemmatizace (derivace)

    w  Zvýšení relevance

    

                                            SI - vážení

*Různá důležitost slov pro obsah dok.

*Selektivní síla indexačního termínu (výrazu)

*Kritéria vážení:

  n  Výraz (slovní druh)

  n  Text (délka, počet různých termínů)

  n  Vztah výrazu a textu

    w  Frekvence výrazu v textu

    w  Umístění výrazu ve specifické části textu (název, abstrakt, první a poslední pasáže apod.) –
    zohlednění koeficientem při vážení

  n  Vztah termínu a celé db

    w  Frekvence výrazu v db

  n  Vybrané váhové funkce

    

                                             PI - vstup

*Simulace intelektuálního procesu

*Základ:

  n  Výsledky SI

  n  Plný text

*Předpoklad:

  n  Strukturovaný řízený slovník

    w  Tezarus, sémantická síť, znalostní báze

                                            PI - postup

*Postup PI:

  n  Identifikace výrazu

  n  Srovnání výrazu s relevantními profily pojmů z řízeného slovníku

  n  Určení indexačních termínů

*Problémy:

  n  Shoda dokument/ŘS nemusí být určující pro obsah

  n  Netriviální vyjádření pojmu v textu

  n  Implicitní reprezentace pojmu v textu

  

                                           AI - hodnocení

*praktické aspekty

    w  plné texty

    w  vyšší účinnost ve srovnání s intelektuální indexací

    w  vyšší náklady – vyšší kvalita

    w  oborový IS

*systémy

    w  univerzální systém neexistuje

    w  funkční systémy

      n  specifická oblast

      n  často pracují pouze s abstrakty

      n  kombinace automatické a intelektuální indexace

*příklady systémů

    w  ČR: (MOZAIKA), (SEMAN), KPS PČR (Parlamentní knihovna), LEGSYS

    w  NASA MAI Tool (text1, text2)