CJBB105 – 5 Korpusové manažery Mgr. Dana Hlaváčková, Ph.D. CJBB105 PRZA009 Korpusové manažery • umožňují zpracování textů do korpusové podoby (tokenizace, vertikál, značkování) • prohlížení korpusových dat a práci s nimi (řada fcí) • budování korpusů – pouze některé manažery, v ČR Sketch Engine • poskytují navazující aplikace spojené s korpusovým zpracováním dat • vývoj: – desktopová aplikace – starší typ, nutná instalace do počítače – webová stránka – jednoduchý typ, v některých zemích, omezené fce – webové rozhraní – nejčastější současný typ, pro všechny prohlížeče a operační systémy, uživatelská přívětivost • často omezený přístup (pouze ukázky), nutná registrace, příp. i stažení a instalace (v některých zemích) Historie českého manažeru • 1995 – cesta do Velké Británie po centrech korpusové lingvistiky – Karel Pala (FI MU), František Čermák (ÚČNK), Vladimír Petkevič (ÚTKL), Věra Schmiedtová (ÚČNK) • cílem bylo načerpat informace, zkušenosti a získat korpusový manažer • Oxford University Press, University of Oxford – Patrick Hanks • School od English, Birmingham City University – John Sinclaire • Lancaster University – Geoffrey Leech • byly navázány kontakty, ale nikdo manažer neposkytl • příprava vlastního českého korpusového manažeru – Pavel Rychlý (FI MU) – převzal CQP (Corpus Query Processor, Universität Stuttgart, Institut für Maschinelle Sprachverarbeitung, prof. Ulrich Heid, autoři CQP Schulze a Christ) • na jeho základě vytvořil Manatee Bonito (server-klient), dizertační práce (r. 2000) • na něm jsou postaveny současné manažery Sketch Engine a KonText Původní manažer Bonito, desktopová aplikace, 90. léta 20. st. až cca 2014 (od 2003 začíná vývoj Sketch Engine) používal se v celé ČR i pro ČNK, manažer byl velmi oblíbený, lingvisté ho neradi opouštěli a přecházeli na webové rozhraní Korpusové manažery – vývoj • jádro – Manatee (server), korpusové zpracování textů, Bonito – klient (Pavel Rychlý, FI MU) – Manatee + Bonito – Bonito2 – první webové rozhraní, používalo se krátce, přešel pod něj i ČNK – Sketch Engine (placená verze, pro MU zdarma), NoSketch Engine (zdarma bez některých fcí) – krátkou dobu užíval i ČNK • současná webová rozhraní – Sketch Engine – MU (CZPJ FI MU + Lexical Computing, Ltd.), Brno – KonText – ÚČNK, Praha, využívá Manatee a vychází z NoSketch Engine (Tomáš Machálek) Prohlížení korpusu a fce manažeru KonText – částečná náhrada za praktické části předmětu • doporučuji zaregistrovat se k ČNK, abyste mohli využívat všechny fce rozhraní https://korpus.cz/signup • pro praktické prohlížení ČNK využijte rozhraní KonText https://kontext.korpus.cz/ • manuál ke KonTextu najdete zde https://wiki.korpus.cz/doku.php/manualy:kontext:index • doporučuji projít si manuál a podívat se na vysvětlení jednotlivých pojmů • v prezentaci dál vysvětluji některé fce manažeru Možnosti hledání – Dotaz (co a jak je možné v korpusu hledat) • používám zkratky pro KonText (KT) a Sketch Engine (SKE) pro upozornění na rozdíly mezi manažery, jinak fce platí pro oba • konkrétní tvar slova (slovo, slovní tvar, word) • lemma – nalezeny všechny tvary zadaného slova vyskytující se v korpusu • fráze – spojení dvou a více slov s výskytem těsně vedle sebe – možná specifikace kontextu, slova fráze nejsou těsně vedle sebe • znak (SKE), podřetězec (KT) • CQL (Corpus Query Language) – dotazovací jazyk – konstrukce značky (KT), nápověda pro uživatele – CQL builder (SKE) – [word=„ježkem“] – formální podoba dotazu v CQL • specifikace dle kontextu – možnost vyhledávat podle kontextu zadaného tvaru • specifikace dle metainformací – možnost vyhledávat podle metadat o textech • regulární výrazy – znaky umožňující efektivnější hledání v korpusech, viz https://wiki.korpus.cz/doku.php/pojmy:regularni_vyrazy Možnosti zobrazení • uživatel vidí vybraný korpus, počet nalezených výskytů – i.p.m. – instances per million (počet výskytů na milion pozic, důležitý údaj při srovnávání výsledků z různě velkých korpusů) – ARF – average reduced frequency (průměrná redukovaná frekvence vzhledem k rozložení tvaru v korpusu, odstraňuje problém, kdy je nějaký tvar frekventovaný např. jen v jednom typu dokumentů) • Funkce Zobrazení • zobrazení ve formě konkordance (KWIC) nebo věty (možnost přepínání) • poziční atributy – word, lemma, tag, lc (lowercase), část tagu • strukturní značky – hranice vět, dokumentů ad. • reference – metainformace o textech • možnost nastavit šířku kontextu, počet konkordancí na stránku • možnost zobrazit popis dotazu (konkordance) Třídění výsledků • možnost vygenerovat náhodný vzorek • možnost promíchání výsledků • třídění kontextu a KWIC (podle abecedy) – podle atributů – víceúrovňové a retrográdní • filtrování konkordancí – pozitivní a negativní filtry (uživatele definuje, co chce ve výsledcích nechat, nebo co chce odstranit) – pouze 1. výskyt v dokumentu (odfiltruje vše kromě 1. výskytu v dokumentu, SKE) Frekvenční distribuce • frekvenční údaje – číselné i grafické znázornění – KWIC (lemmata, slovní tvary) – tagy – typy dokumentů – víceúrovňové • vizualizace frekvenčního rozložení přes celý korpus (SKE) Frekvenční seznam tvarů lemmatu „kočka“ v korpusu SYN2015 Kolokace • výpočet kandidátů na kolokace (ustálená slovní spojení) – frekvence spojení (dvou a více jednotek) – vysoká – frekvence spojení s ostatními jednotkami – nízká • vztaženo k velikosti korpusu – můžeme sledovat kolokační paradigma, např. monokolokabilita (stroužek česneku, tratoliště krve – stroužek a tratoliště se nepojí s jinými slovy) • asociační míry (číselné hodnoty, které dokládají kolokabilitu slov) • MI-score – pravděpodobnost současného výskytu dvou slov (mutual information) • T-score – zapojeno rozložení spojení slov přes celý korpus, nenáhodný jev • Dice, Log-Dice – nepočítají s velikostí korpusu Další funkce • vytvoření subkorpusu – podle metainformací o textech (KT) – z aktuálních konkordancí (SKE) • seznam slov – podle frekvence – uživatel definuje kritéria • uložení výsledků v různých formátech KonText – externí funkce • SyD https://wiki.korpus.cz/doku.php/manualy:syd?redirect=1 – korpusový průzkum variant slov – synchronní i diachronní korpusy – psaný i mluvený jazyk • Kwords https://wiki.korpus.cz/doku.php/manualy:kwords?redirect=1 – generování klíčových slov – porovnání výskytů s referenčním korpusem • Morfio https://wiki.korpus.cz/doku.php/manualy:morfio?redirect=1 – vyhledání seznamů slov (až n-tic) na základě slovotvorných charakteristik • Treq https://treq.korpus.cz/ – databáze překladových ekvivalentů • Slovo v kostce https://www.korpus.cz/slovo-v-kostce/ (vyzkoušejte) Sketch Engine • https://www.sketchengine.eu/ • LOG IN – Institutional Login – Masarykova univerzita – UČO + primární heslo • DASHBOARD – Konkordance (Concordance) – hledání v korpusu – v Profil – Nastavení – možnost přepnout do češtiny – funkce jsou stejné jako v KonTextu (s drobnými rozdíly) • manuál, vysvětlení termínů (Glossary) v angličtině https://www.sketchengine.eu/guide/ Sketch Engine – externí funkce • Tezaurus – podobná slova, míra podobnosti na základě kontextů, vizualizace – hra Uhádni to slovo (podle kterého synonyma je vytvořen wordcloud, https://nlp.fi.muni.cz/projekty/uhadni_to_slovo/) • Word Sketch – slovní profily, na základě morfol. značkování – tabulky zachycují okolí zadaného lemmatu podle určitých kategorií • Sketch Diff – porovnání slovních profilů dvou lemmat • tvorba korpusů a subkorpusů a další aplikace • SkELL – generování příkladových vět z korpusu – https://skell.sketchengine.eu/