Počítačová lexikografie

Slovník a význam I (5. listopadu 2024)

1) Význam slova, užití slova, významové potenciály – vysvětli rozdíly a podobnosti v pojmech.

2) (Word sense) induction vs. disambiguation. Jednoduché principy využívané v algoritmech indukce a desambiguace.

3) Regulární polysémie. Jak vznikají nové významy slov – pravidelně (regulárně) a nepravidelně?

4) Významové klastry (viz níže pod prezentací). Základní principy výpočtu klastrů. Jiné metody.

5) Kolokace vs. koligace.

6) (Pocitový) rozdíl mezi velmi podobnými pojmy definition a explanation.

7) Prvky špatné slovníkové definice. Prvky dobré slovníkové definice.

8) Vyjádření pragmatiky ve slovnících. Kdy se hodí, kdy ne.

9) FSD – význam zkratky, ve kterém slovníku se objevují poprvé. Výhody, nevýhody, nebezpečí.

10) Cross-reference vs. hyperlink ve slovníku.

PLIN035 6 Slovnik a vyznam I
PDF ke stažení

V hodině jsem se zamotal do klastrování. Chtěl bych se k němu znovu vrátit a vysvětlit je co nejjednodušeji:

Klastr (cluster) je skupina několika užití slova. Tj. něco, čemu běžně říkáme "jeden význam daného slova".

Klastrování je tedy vytváření skupin užití daného slova a zařazování jednotlivých užití do těchto skupin.

Zjednodušený algoritmus klastrování:

– PRO všechna slova:

– – PRO všechny jeho kolokace:

– – – POKUD má slovo objevuje dostatečně často s touto kolokací A tato kolokace patří do nějakého klastru

– – – – ZAŘAĎ toto slovo do tohoto klastru

– – – JINAK

– – – – VYTVOŘ nový klastr a ZAŘAĎ tam toto slovo a kolokaci

Dostatečně = podle předem zvolených kategorií (podle předem dané frekvence).