Selekční jazyky
                                          Současné trendy


Přednáška č. 1 (24.2.2006)

Filozofická fakulta Masarykova Univerzity, Kabinet knihovnictví - Ústav české literatury a
knihovnictví

jaro 2005/2006


Josef Schwarz, informační konzultant

http://schwarz.webpark.cz

                                          Osnova přednášky

w   Cíle

w   Hlavní témata

w   Dílčí témata

w   Klasifikace

w   Pracovní stránka

w   Úvodní diskuse

w   (Automatická indexace)

                                                Cíle

w   Poskytnout hlubší náhled na oblast SJ

w   Prezentovat propojení oblasti SJ se souvisejícími oblastmi

w   Upozornit na problémové okruhy dalšího vývoje v oblasti věcného vyhledávání informací

w   Did.: rozvíjet analytické myšlení a schopnost spolupráce

                                           Hlavní témata

w   Pokročilé aplikace SJ

w   Širší kontexty SJ

w   Alternativní metody věcného vyhledávání

w   Možnosti a limity současných SJ

w   Uživatelské aplikace věcného vyhledávání


                                            Dílčí témata

w    AUTOMATIZOVANÉ ZPRACOVÁNÍ DAT A SJ

  n     automatická indexace, klasifikace, abstrahování, shlukování

  n     automatizované zpracování přirozeného jazyka

w    VYHLEDÁVACÍ MODELY A JEJICH VZTAH K SJ

  n     vyhledávání, filtrace, prohlížení

  n     moderní vyhledávací techniky a SJ

  n     vizualizace informací

  n     reprezentace a vyhledávání multimediálních dokumentů

  n     citační rejstříky jako metoda věcného vyhledávání informací

  n     metody zpracování a rozšiřování uživatelského dotazu pomocí řízených slovníků

                                        Dílčí témata (pokr.)

w    ŠIRŠÍ KONTEXTY SJ

  n     klasifikační výzkum, reprezentace pojmu

  n     formální struktura dokumentu (SGML, HTML, XML), sémantický web

  n     znalostní databáze, reprezentace znalostí, sémantické sítě

  n     ontologie a jejich vztah k SJ

w    ŘÍZENÉ SLOVNÍKY, VĚCNÉ VYHLEDÁVÁNÍ INFORMACÍ A INTERNET

                                      Předpoklady klasifikace

w   Zkouška

w   Esej na zvolené (zadané) téma

    w  Rozsah: 15 000 znaků

    w  Min. počet použitých (a cit.) pramenů: 10

w   Komparativní analýza stavu SJ/věcného vyhledávání ve vybraných informačních systémech

    w  Knihovny, informační střediska, souborné katalogy, oborové databáze, portály atd.

    w  Nedostatky systému a možná optimalizace; komparace s obdobnými systémy

    w  Autorský tým: 2-3 studenti

                                      Předpoklady klasifikace

w   Aktivita na přednáškách

    w  reakce na otázky

    w  diskusní vstupy

    w  bodování: puzzle (1 bod)

    w  každý student musí obdržet alespoň jeden bod

w   Dílčí úkoly

    w  nepovinné plnění

    w  bodování

w   Celkový výsledek bodování

    w  ovlivní stupeň klasifikace

  
                                           Úvodní diskuse

                                            Dnešní téma

w   Automatické procedury zpracování

  n    automatická indexace

  n    automatická klasifikace

  n    automatické abstrahování

  n    automatické shlukování


                                     AI - vstup (přehl.studie)

w   dostupnost plného textu, popř. abstraktu

w   automatická/intelektuální indexace

  n    AI-výhody: odstranění subjektivity

  n    AI-výhody: velký objem dokumentů

  n    AI-nevýhody: stroj nerozumí textu

    w  Morfologie, syntaxe

    w  Sémantika

      n   Intratextová (Slova/výrazy, věty, odstavce, text)

      n   Intertextová (různé texty)

      n   Extratextová (realita)

  
                                         AI - vstup (pokr.)

  n    AI-problémy:

    w  Pojmy nejsou vyjádřeny explicitně

    w  Nepřímé odkazy na jiné části textu nebo texty

    w  Text obsahuje nevýznamová slova

    w  Jazykové problémy: synonymie, homonymie

    w  Význam slov se mění v čase nebo mezi jednotlivými dokumenty

    w  Různé tvary slov (míra závisí na jazyce)

  
                                         AI -- vstup (pokr.)

w   typy automatické indexace

    w  extrakce (extraction indexing) -- slovní indexace (SI)

      n   klíčová slova z textu:

        n    lexikální analýza (identifikace slov a sousloví)

        n    odstranění nevýznamových slov

        n    lematizace

        n    (vážení)

        n    (komparace s řízeným slovníkem)

    w  přiřazování (assignment indexing) -- pojmová indexace (PI)

      n   práce s plným textem

        n    pokročilé statistické a matematickolingvistické metody (pravděpodobnostní modely)

        n    řízený slovník -- simulace intelektuálního procesu


                                       SI -- lexikální analýza

w   Číslice

  n    Odborné texty ("§ 12"), odborné termíny ("MARC21")

w   Určení hranice slova

  n    Mezera

  n    Tečka (zkratky), spojovník (knihovnicko-informační systém)

  n    Další interpunkční znaménka

w   Velká/malá písmena

                                   SI -- lexikální analýza (pokr.)

w   Sousloví

  n    Sémanticky nosnější než jednotlivá slova

  n    Dvě základní metody

    w  Statistická identifikace sousloví

    w  Syntaktická identifikace sousloví

  n    Normalizace sousloví

    w  Slovník

    w  Vypuštění pomocných slovních druhů a zanedbání pořadí složek

    w  Syntaktická analýza s použitím kmene (kořene)

                                       SI -- nevýznamová slova

w   Odstranění nevýznamových slov

  n    20-30 % běžného textu

  n    Spojky, předložky a další pomocné složky

    w  Sousloví s předložkovou vazbou (knihovny pro nevidomé)

  n    Slova bez rozlišovací funkce

w   Řešení

  n    Negativní slovník (slovník nevýznamových slov, slovník stop-slov, stop-slovník)

  n    Odstranění lexikální analýzou a vážením

  
                                   SI -- nevýznamová slova (pokr.)

w   Tvorba stop-slovníku

  n    Druhy slov (spojky, předložky, částice apod.)

  n    Podle frekvence slova v textu

  n    Krátká slova

    w  Anti-negativní slovník

                                          SI -- lemmatizace

w    Metody

  n     Algoritmické (gramatická pravidla)

    w   Generování afixů

  n     Slovníkově orientované

    w   Slovník kmenů nebo kořenů a dalších morfologických informací

    w   Slovník afixů (sufixů a prefixů)

  n     Statistické

    w   Letter successor variety stemmer (varieta po sobě následujících písmen)

      n    Nové dokumenty v db

      n    Nerozliší inflexní a derivační afixy

w    Program: lemmatizátor (stemmer)

                                      SI -- lemmatizace (pokr.)

w   Příklady převodů slovních druhů

  n    Mužský životný/ženský tvar substantiva (autor, autorka), přivlastňovací přídavné jméno
  (autorčin, autorův) `a mužský tvar subst., 1. pád, singulár (autor)

  n    Adj.: stupňované tvary (nejkonkrétnější), odvozená substantiva s konc. --ost (konkrétnost),
  negace (nekonkrétní), příslovce (konkrétně) `a zákl. tvar. adj. (konkrétní)

  n    Slovesa: časování, příč. č. a trp., slovesné jméno podstatné, opakované sloveso `a infinitiv
  (dělat)

                                      SI -- lemmatizace (pokr.)

w   Lemmatizace se provádí:

  n    Při indexaci

    w  Malý index

    w  Nutnost ručních zásahů

  n    Při zpracování dotazu

    w  inverzní lemmatizace (derivace)

    w  Zvýšení relevance

    
                                            SI - vážení

w   Různá důležitost slov pro obsah dok.

w   Selektivní síla indexačního termínu (výrazu)

w   Kritéria vážení:

  n    Výraz (slovní druh)

  n    Text (délka, počet různých termínů)

  n    Vztah výrazu a textu

    w  Frekvence výrazu v textu

    w  Umístění výrazu ve specifické části textu (název, abstrakt, první a poslední pasáže apod.) --
    zohlednění koeficientem při vážení

  n    Vztah termínu a celé db

    w  Frekvence výrazu v db

  n    Vybrané váhové funkce

    
                                             PI - vstup

w   Simulace intelektuálního procesu

w   Základ:

  n    Výsledky SI

  n    Plný text

w   Předpoklad:

  n    Strukturovaný řízený slovník

    w  Tezarus, sémantická síť, znalostní báze

                                            PI - postup

w   Postup PI:

  n    Identifikace výrazu

  n    Srovnání výrazu s relevantními profily pojmů z řízeného slovníku

  n    Určení indexačních termínů

w   Problémy:

  n    Shoda dokument/ŘS nemusí být určující pro obsah

  n    Netriviální vyjádření pojmu v textu

  n    Implicitní reprezentace pojmu v textu

  
                                           AI - hodnocení

w   praktické aspekty

    w  plné texty

    w  vyšší účinnost ve srovnání s intelektuální indexací

    w  vyšší náklady -- vyšší kvalita

    w  oborový IS

w   systémy

    w  univerzální systém neexistuje

    w  funkční systémy

      n   specifická oblast

      n   často pracují pouze s abstrakty

      n   kombinace automatické a intelektuální indexace

w   příklady systémů

    w  ČR: (MOZAIKA), (SEMAN), KPS PČR (Parlamentní knihovna), LEGSYS

    w  NASA MAI Tool (text1, text2)