CJBB75 – 1 (G1310.00-11.30)

K. Osolsobě

Výuka: od 28. 2. 2022 každých 14 dní kontaktní, každých 14 dní úkol (viz harmonogram)

Podmínky ukončení: Průběžné plnění úkolů (5 odevzdaných referátů, závěrečný test).

Náplň dnešní hodiny 21. 2. 2022

Co je to korpus?

-          Soubor textů

-          elektronicky uložených a přístupných (korpusové manažery – programy, skrze něž lze ke
korpusům přistupovat)

-          má stanovený obsah (složený z textů záměrně vybraných dle zveřejněných kritérií)

-          má stanovený rozsah/velikost (lze na něm pracovat s frekvenčními/kvantitativně
měřitelnými údaji)

-          obsahuje standardní anotace (metadata – údaje o každém textu a lingvistické
interpretace, anotace jazykových jednotek – vnitřní anotace)

Registrace uživatele pro práci s ČNK (http://ucnk.ff.cuni.cz/)


Korpusový manažer

Základy práce s korpusem přes Kontext

KonText

Dotaz

Výběr korpusu

https://wiki.korpus.cz/doku.php/cnk:uvod

V rozhraní KonText

Jaké korpusy jsou k dispozici ?

Časové hledisko (synchronní / diachronní)

Hledisko textů (psané / mluvené, připravené/spontánní)

Hledisko žánru (vyvážené žánrově/ žánrově kompaktní – např. korpusy výhradně publicistické, nebo
korpus soukromé korespondence, projekt Korpus českého verše).

Hledisko autora (autoři jsou rodilí mluvčí/ autoři se učí jazyk, v němž jsou texty vytvořeny jako
tzv. druhý jazyk – learner corpora/žákovské korpusy, autorské korpusy založené na
díle/korespondenci význačných osobností).

Hledisko jazyka (jednojazyčné – např. čeština/ vícejazyčné, srovnatelné, paralelní).

Vícejazyčné paralelní korpusy – stejné texty – originál+překlad – zarovnaní/alignment = jednotky,
které si odpovídají, jsou propojeny / srovnatelné korpusy – různojazyčné i stejného jazyka
vybudované stejným způsobem, mající stejné složení).


Jak čteme informace o zvoleném korpusu?


Stručné info.

Citace:

Proč je třeba citovat korpusy?

Korpusy ÚČNK vznikly jako výsledek státní podporu GAČR. V korpusech jsou texty, které mnohdy
spadají pod autorská práva. ÚČNK poskytl smluvní garance „poskytovatelům textů“.


Jak číst informace o velikosti korpusu:

Termíny: viz http://wiki.korpus.cz/doku.php

http://wiki.korpus.cz/doku.php/pojmy:prehled_pojmu

Tokenizace

Token je nejmenší jednotka textu, většinou se jedná o grafické slovo (tj. řetězec alfabetických
znaků oddělený mezerou v textu), resp. o jednu jeho konkrétní realizaci. V některých případech je
jedno grafické slovo rozděleno na dvě (např. mohu -li), často je také z praktických důvodů (pro
snadné vyhledávání) oddělována interpunkce od předcházejícího slova (3 tokeny: řekl , že). O
jednotlivých tokenech v korpusu se také mluví jako o pozicích.

Všimněme si:

Pro rodilého mluvčího je zvratné se součástí reflexiva tantum ptát se. Pro automatickou
morfologickou analýzu jde o dva samostatné tokeny.

Pozice

V souvislosti s tím, že každý text, který vstupuje do korpusu, prochází procesem tokenizace, se o
jednotkách v korpusu nemluví jako o slovech, ale častěji jako o pozicích. Tokenizace se přitom u
jednotlivých korpusů může lišit, pozicí se tak v různých korpusech může myslet různě vymezená
jednotka.

Lemmatizace a taggování

Lemma je reprezentativní slovníková podoba hesla, při automatickém zpracování jazyka je pak tato
podoba v procesu lemmatizace přidělována každé formě v korpusu.

Přístupy k lemmatizaci se mohou v drobnostech lišit, obecně však platí, že
  * lemma každého českého substantiva je jeho nom. sg. (tvary lesům, lesy, lesích mají lemma les)
  * u adjektiv je to nom. sg. mask.pozitiv (tvary chytrého, chytrou, chytrejma, nejchytřejší mají
lemma chytrý)
  * u zájmen je to nom. sg. mask. (tvary ta, to, ti, tomu mají lemma ten)
  * u sloves je to infinitiv (tvary chodil, chodíš, chodíme mají lemma chodit)

Lemma jako jednotka vzniká abstrakcí morfologických vlastností slovního tvaru (označovaného jako
word nebo forma), představuje tedy množinu forem se stejným kořenem lišící se pouze morfologickými
afixy, příp. pravopisnou variantou. V některých koncepcích se pak k lemmatu řadí i vybrané varianty
slovotvorné.

Představme si následující dialog, která z variant je podle vás více na místě, A nebo B?

A

-          No víš, viděl jsem takovou fuškunkuli a ona ti měla na hlavě takovou kumušinku
paškovanou a ona si ji ještě vygárovala.

-          Co je to fuškunkuli a kumušinku paškovanou? A co je to vygárovala?

B

-          No víš, viděl jsem takovou fuškunkuli a ona ti měla na hlavě takovou kumušinku
paškovanou a ona si ji ještě vygárovala.

-          Co je to fuškunkule a kumušinka paškovaná? A co je to vygárovat?

Uvědomte si, že lemmatizace je činnost, kterou dnes automaticky provádí řada nástrojů od
vyhledávačů na webu přes on-line slovníky. Jde ale o schopnost, kterou nabývá i dítě během akvizice
jazyka, kterou má mluvčí, když se dotazuje na neznámé slovo, kterou aplikujeme, když hledáme
v cizojazyčném slovníku (např. význam tvaru went nenajdeme ve slovníku angličtiny pod w, ale pod
g).

Desambiguace

Desambiguace (někdy též disambiguace, z lat. dis- vyjadřuje zápor, ambo oba, česky zjednoznačnění)
je část (většinou automatického) procesu anotace jazykových dat, které vstupují do korpusu.

Zjednoznačněním se většinou myslí odstranění homonymie, čili jednoznačná interpretace slovního
tvaru či skupiny slovních tvarů nebo věty na základě kontextu či mimojazykové situace. Desambiguace
se obecně týká všech jazykových rovin, nejčastěji se ovšem v korpusech češtiny uplatňuje na rovině
morfologické (zahrnující lemmatizaci a přiřazení náležitých morfologických údajů slovnímu tvaru na
základě kontextu).

Např. ve větě Větry vanou od západu. se při morfologické interpretaci věty nejprve přiřadí
morfologickou analýzou tvaru vanou dvě lemmata a dvě morfologické interpretace:
 1. lemma = vana, subst. fem. sg. instr.
 2. lemma = vát, 3. os. pl. préz,

a poté se při desambiguaci vybere náležitá 2. interpretace.

V následujících větách si všimněte, jak je třeba nejednoznačný tvar sil, který lze interpretovat
jako a) genitiv plurálu feminina k lemmatu síla, b) genitiv plurálu neutra k lemmatu silo, c)
variantní tvar l-ového příčestí maskulina singuláru slovesa sít.

a) Podle jeho názorů je internet jednou ze sil, která dostala Ameriku na špici

b) Z jednoho ze sil začala náhle tryskat čpící tekutina a ocelová konstrukce jedné z věží se
zhroutila.

c) Raná variační fantazie na lidový nápěv Sil jsem proso dala oběma protagonistům možnost ukázat
jejich virtuozitu.

Někdy může být situace dosti složitá:

Odstupující ministr informatiky Vladimír Mlynář podle serveru iDNES odmítl nabídku premiéra Grosse
stát se šéfem Českého telekomunikačního úřadu.

Potřeboval stát se svým zločineckým gangem.

Jaké přednosti má lemmatizovaný a morfologicky označkovaný korpus?

Možnosti vyhledávání v korpusu:

Nabídka výchozího atributu je závislá na konkrétním korpusu, na použité lemmatizaci a značkování.

Regulární výrazy (http://wiki.korpus.cz/doku.php/pojmy:regularni_vyrazy)


Konkordance, KWIC

Konkordance představuje všechny doklady (výskyty) hledaného jevu v korpusu spolu s okolním
kontextem. V praxi se v rámci konkordance rozlišuje KWIC (tj. key word in context), tedy hledané
slovo/jev a jeho pravý a levý kontext. Jeden řádek konkordančního seznamu se označuje jako
konkordanční řádek.


Zobrazení

KWIC/Věta


Korpusová nastavení

(Lemma, POS – part of speech)

Metainformace


Kompletní info o zdrojovém textu:


Cvičení:

Najděte v korpusu SYN2020 slovní tvar (atribut word) jedle.

Jak je tvar interpretován lemmatem a tagem?

Najděte v korpusu SYN2020 slovní spojení  příliš jedle, vypadá jedle.

Jak je tvar interpretován lemmatem a tagem?


Úkol na příště:

Prostudovat www stránky ÚČNK

Umět odpovědět na otázky:

1.      Co je to korpusu?

2.      Co je to Český národní korpus?

3.      Jaké typy korpusů máme k dispozici?

4.      Co to znamená, když řeknu, že korpus má 100 milionů slov?

5.      Jak komunikujeme s korpusem (jak jej můžeme využívat pro lingvistickou práci)?

6.      Jak můžeme vyhledat v korpusu výskyt slova, jak se se zobrazí v korpusu výskyt slova a co
můžeme se zobrazenými výskyty dále dělat?

7.      Jak můžeme vyhledat v korpusu všechna slova, která mají společnou vlastnost, že jsou tvary
jednoho základního tvaru?

8.      Jak můžeme v korpusu vyhledat všechny tvary na rovině gramatické abstrakce (třeba podstatné
jména rodu ženského ve 3. pádě, nebo slovesa v přítomném čase v první osobě)?

A připravit si otázky, na něž byste rádi znali odpověď (souvisí s korpusy!!)