DOSTUPNÉ KORPUSY A JEJICH STRUČNÁ CHARAKTERISTIKA
Úvod do korpusové lingvistiky 3


ÚČNK
—http://ucnk.ff.cuni.cz/
—Dostupné korpusy psaného jazyka
—Hledisko rozsahu a obsahu
—Hledisko anotací

—


Korpusy psané češtiny
—Korpusy řady SYN
—Synchronní, psané, reprezentativní, obecné (žánrové zastoupení)
—Synchronní, psané, reprezentativní, specializované (PUB)
—

—


Referenční – nereferenční korpus
—Nereferenční korpus: Většina korpusů ČNK jsou referenční entity, které zůstávají po celou dobu od
svého zveřejnění neměnné, takže všechny dotazy, statistiky apod. jsou opakovatelné a dávají stále
stejné výsledky. Některé korpusy však mají naopak nereferenční povahu, což znamená, že jsou
průběžně vylepšovány a rozšiřovány. Všechny tyto změny jsou vždy po nějaké době promítnuty do již
zveřejněného korpusu. K aktualizaci nereferenčního korpusu dochází nepravidelně, přibližně jednou
ročně, většinou bez předchozího upozornění.

Synchronnost
—Hledisko produkce
—Hledisko recepce
—

Reprezentativnost
—Žánrové zastoupení v obecných korpusech řady SYN
—Zastoupení dle periodik v korpusech SYN_PUB

SYN2000
(100 milionů textových slov (tokens))
—Zastoupení žánrů

SYN2005
(100 milionů textových slov (tokens))
—Zastoupení žánrů
—

SYN2010
(100 milionů textových slov (tokens))
—Zastoupení žánrů
—

SYN2006PUB
(300 milionů textových slov (tokens))
—

SYN2009PUB
(700 milionů textových slov (tokens))
—

SYN2013PUB
(935 milionů textových slov (tokens))


Standardní anotace
—Vnětextová – kódy, možnost úplného zobrazení anotací
—Tokenizace
—Značkování odstavců
—Značkování vět
—Lemmatizace a morfologické značkování
—

KonText
—


KonText
—


Definice word (tokenizace http://wiki.korpus.cz/doku.php/pojmy:token)
—Řetězec znaků mezi oddělovači
—Problémy tokenizace
—Když jedné jednotce na úrovni systému odpovídá více jednotek na úrovni textu a naopak

Lemma(http://wiki.korpus.cz/doku.php/pojmy:lemma)
—Textové slovo – systémové slovo
—Reprezentativní tvar
—Lemmatizace prováděná pomocí automatických nástrojů
—Lemma = tvar sám

Tag
—Tagset
—Poziční systém
—Atribut/hodnota
—Klasické gramatické kategorie a morfologické tagy

http://wiki.korpus.cz/doku.php/seznamy:tagy
—


Morfologické značky (tagy)
—Morfologické značky (tagy) jsou součástí výsledku (výstupem) morfologické analýzy, která pracuje s
izolovanými slovními tvary, tedy bez ohledu na jejich kontext. Druhou částí výsledku je tzv. lemma,
které identifikuje příslušnou lexikální jednotku ve smyslu slovníkového hesla. Morfologická analýza
je obecně nejednoznačná; slovní tvary, brány izolovaně a bez ohledu na kontext, pochopitelně
nemohou být v mnoha případech jednoznačně určeny, a to jak z hlediska lemmatu, tak z hlediska
morfologické značky. V druhé fázi dochází k desambiguaci (zjednoznačnění), která z plejády možných
interpretací vybírá v ideálním případě tu nejvhodnější.

Morfologické značky
—Morfologické značky slouží k snadnějšímu hledání v korpusech (povětšinou pouze psané češtiny),
jejich účelem tedy není být základem pro analýzu konkrétních výskytů. Automatická analýza není
přirozeně bezchybná, podíl špatně určených značek se odhaduje na 4 % (úroveň kolísá v závislosti na
typu morfologické kategorie).
—

Large web corpora
—


czTenTen12 (5,5 miliard tokenů)
—


Rychlý přístup ke korpusům růz. jazyků
—http://ucnk.ff.cuni.cz/jine_korpusy.php
—
—https://www.linguistik.hu-berlin.de/institut/professuren/korpuslinguistik/links/korpora_links
—