CJBB105-4 Korpusové manažery Mgr. Dana Hlaváčková, Ph.D. CJBB105 PRZA009 Korpusové manažery • umožňují zpracování textů do korpusové podoby (tokenizace, vertikál, značkování) • prohlížení korpusových dat a práci s nimi (řada fcí) • budování korpusů - pouze některé manažery, v ČR Sketch Engine • poskytují navazující aplikace spojené s korpusovým zpracováním dat • vývoj: - desktopová aplikace - starší typ, nutná instalace do počítače - webová stránka - jednoduchý typ, v některých zemích, omezené fce - webové rozhraní - nejčastější současný typ, pro všechny prohlížeče a operační systémy, uživatelská přívětivost • často omezený přístup (pouze ukázky), nutná registrace, příp. i stažení a instalace (v některých zemích) Historie českého manažeru 1995 - cesta do Velké Británie po centrech korpusové lingvistiky - Karel Pala (Fl MU), František Čermák (ÚČNK), Vladimír Petkevič (ÚTKL), Věra Schmiedtová (ÚČNK) cílem bylo načerpat informace, zkušenosti a získat korpusový manažer Oxford University Press, University of Oxford - Patrick Hanks School od English, Birmingham City University - John Sinclaire Lancaster University - Geoffrey Leech byly navázány kontakty, ale nikdo manažer neposkytl příprava vlastního českého korpusového manažeru - Pavel Rychlý (Fl MU) - převzal CQP (Corpus Query Processor, Universität Stuttgart, Institut für Maschinelle Sprachverarbeitung, prof. Ulrich Heid, autoři CQP Schulze a Christ) na jeho základě vytvořil Manatee Bonito (server-klient), dizertační práce (r. 2000) na něm jsou postaveny současné manažery Sketch Engine a KonText Původní manažer Bonito, desktopová aplikace, 90. léta 20. st. až cca 2014 (od 2003 začíná vývoj Sketch Engine) používal se v celé ČR i pro ČNK, manažer byl velmi oblíbený, lingvisté ho neradi opouštěli a přecházeli na webové rozhraní Manažer Korpus Dotaz Konkordance Zobrazení Výběr Nápověd; ^iQlg.._.—' dotazový řádek Nový dotaz opus=srnrt opus=srnrt opus=noc opus=eco opus=zbabelci opus=zbabelci opus=nylon straně otevřené a zvedal svůj figuře a postel by unesla takové žíhací plamen a hladí jím kovový veškerý pozemský a sublunární tancující a slunce se třpytilo v jejím mluvil jsem z jeho pozlaceného piana, pohlédl smutně na lesklý korpus korpusy korpus korpus korpusu korpusu korpus , a proto vystoupila i 01' dva . Dalo by se pře dpi sundaný z desky kříže -vyhladovělých , nad vlaÉítyrna hlavatí , že ho přijímám. svého tefftfaa Zetka □pus=nylon opus=nylon opus=clavis98 □pus=lobkow opus=ikaros9°-< nechyběla, ale ani hlas zlaceného spolu s ostatními pozdvihoval vyzkoušet práci s malým textovým nové doby . Červeně vypolstrovaný íě ieli podívat na anglické korpusu , ani postava čtvrtého korpu!>4 Lliiui a k llitlL uin, jako korpusem ( cca 20 mil. slov) . í 1 korpus ko č áru byl zavě š en na korpusy a přijížděli lidé , kteří, umělecky dovedou vydupávat boogie - woogie u Bunnyho v pokoji, nádherné taneční nohy, nádherné Lydiiny plovárenské nohy, skvělé boogie Emila Zettnera u piana, pohlédl smutně na lesklý korpus svého tenora a Zetka se najednou otočil, řekl, Tak pojď, a udeřil á . Rychle strčil náústek mezi zuby a na tváři ucítil Zetko vy přezíravé oči ?^Tf |Zobrazeno: 1+100/276 (36%) Řádek: 7 Vybráno: 1 výběr korpusu pojmenování dotazu konkordanční řádek označený konkordanční řádek vyhledaný výraz - KWIC [key word in context) konkordanční seznam kód jednoznačně identifikující text rozšíření kontextu vyhledaného výrazu stavový řádek Korpusové manažery-vývoj • jádro - Manatee (server), korpusové zpracování textů, Bonito - klient (Pavel Rychlý, Fl MU) - Manatee + Bonito - Bonito2 - první webové rozhraní, používalo se krátce, přešel pod něj i ČNK - Sketch Engine (placená verze, pro MU zdarma), NoSketch Engine (zdarma bez některých fcí) - krátkou dobu užíval i ČNK • současná webová rozhraní - Sketch Engine - MU (CZPJ Fl MU + Lexical Computing, Ltd.), Brno - KonText - ÚČNK, Praha, využívá Manatee a vychází z NoSketch Engine (Tomáš Machálek) Prohlížení korpusu a fce manažeru KonText - částečná náhrada za praktické části předmětu • Sketch Engine • https://www.sketchengine.eu/ • doporučuji zaregistrovat se k ČNK, abyste mohli využívat všechny fce rozhraní https://korpus.cz/signup • KonText https://kontext.korpus.cz/ • manuál ke KonTextu najdete zde https://wiki.korpus.ez/doku.php/manualy:kontext:index Možnosti hledání - Dotaz (co a jak je možné v korpusu hledat) • používám zkratky pro KonText (KT) a Sketch Engine (SKE) pro upozornění na rozdíly mezi manažery, jinak fce platí pro oba • konkrétní tvar slova (slovo, slovní tvar, word) • lemma - nalezeny všechny tvary zadaného slova vyskytující se v korpusu • fráze - spojení dvou a více slov s výskytem těsně vedle sebe - možná specifikace kontextu, slova fráze nejsou těsně vedle sebe • znak (SKE) • CQL (Corpus Query Language) - dotazovací jazyk - konstrukce značky (KT), nápověda pro uživatele - CQLbuilder (SKE) - [word=„ježkem"] - formální podoba dotazu v CQL • specifikace dle kontextu - možnost vyhledávat podle kontextu zadaného tvaru • specifikace dle metainformací- možnost vyhledávat podle metadat o textech • regulární výrazy - znaky umožňující efektivnější hledání v korpusech, viz https://wiki.korpus.ez/doku.php/poimy:regularni výrazy Možnosti zobrazení • uživatel vidí vybraný korpus, počet nalezených výskytů - i.p.m. - instances per million (počet výskytů na milion pozic, důležitý údaj při srovnávání výsledků z různě velkých korpusů) - ARF - average reduced frequency (průměrná redukovaná frekvence vzhledem k rozložení tvaru v korpusu, odstraňuje problém, kdy je nějaký tvar frekventovaný např. jen v jednom typu dokumentů) KT - procento v korpusu SKE • Funkce Zobrazení • zobrazení ve formě konkordance (KWIC) nebo věty (možnost přepínání) • poziční atributy - word, lemma, tag, Ic (lowercase), část tágu • strukturní značky - hranice vět, dokumentů ad. • reference - metainformace o textech • možnost nastavit šířku kontextu, počet konkordancí na stránku • možnost zobrazit popis dotazu (konkordance) Třídění výsledků • možnost vygenerovat náhodný vzorek • možnost promíchání výsledků • třídění kontextu a KWIC (podle abecedy) - podle atributů - víceúrovňové a retrográdní • filtrování konkordancí - pozitivní a negativní filtry (uživatele definuje, co chce ve výsledcích nechat, nebo co chce odstranit) - pouze 1. výskyt v dokumentu (odfiltruje vše kromě 1. výskytu v dokumentu, SKE) Frekvenční distribuce frekvenční údaje - číselné i grafické znázornění - KWIC (lemmata, slovní tvary) - tagy - typy dokumentů - víceúrovňové vizualizace frekvenčního rozložení přes celý korpus (SKE) Sketch\ř Enqine Q S Czech Web 2012 (czTenTen12 v9) About Help £5 Q ^5 Mrs. Dana Hlaváčková Omuni.cz & Domů Hledáni Seznam slov Word skete h Tezaurus Sketch rozdíl Info o korpusu Mé úlohy Uživatelská příručka Gf O konkordance Frekvence Značky (tags) Slovní tvary ID dokumentů Typy textů O Frekvenční rozložení přes pozice konkordance Granularita: |100 | Ql 3 Překresli Lexical NÍ Computing Frekvenční seznam tvarů lemmatu „kočka korpusu SYN2015 mlQl/w Kor Text Morfio KWords Podpora text Dotaz Korpusy Uložit Konkordance Filtr Frekvence Kolokace Zobrazení Nápověda Korpus: syn2015 | Dotaz: kočka (8 287 výskytů) Frekvenční seznam /i Minimální frekvence: 1 Celkem: 11 položek (1 stránka) Použít Filter word Freq 1 p/n kočky 2575 2 p/n kočka 2495 3 p/n kočku 1152 4 p/n koček 976 5 p/n kočce 356 ■ 6 p/n kočkou 267 ■ 7 p/n kočkami 1S3 ■ 8 p/n kočkám 166 ■ 9 p/n kočkách 76 1 10 p/n kočko 32 1 n p/n kočkama 9 1 Kolokace • výpočet kandidátů na kolokace (ustálená slovní spojení) - frekvence spojení (dvou a více jednotek) - vysoká - frekvence spojení s ostatními jednotkami - nízká • vztaženo k velikosti korpusu - můžeme sledovat kolokační paradigma, např. monokolokabilita (stroužek česneku, tratoliště krve - stroužek a tratoliště se nepojí s jinými slovy) • asociační míry (číselné hodnoty, které dokládají kolokabilitu slov) • Ml-score - pravděpodobnost současného výskytu dvou slov (mutual information) • T-score - zapojeno rozložení spojení slov přes celý korpus, nenáhodný jev • Dice, Log-Dice - nepočítají s velikostí korpusu Další funkce • vytvoření subkorpusu - podle metainformací o textech (KT) - z aktuálních konkordancí (SKE) • seznam slov - podle frekvence - uživatel definuje kritéria • uložení výsledků v různých formátech KonText - externí funkce • SyD https://wiki.korpus.cz/doku.php/manualy:svd?redirect=l - korpusový průzkum variant slov - synchronní i diachrónni korpusy - psaný i mluvený jazyk • Kwords https://wiki. korpus. cz/doku.php/manualy:kwords?redirect=l - generování klíčových slov - porovnání výskytů s referenčním korpusem • Morfio https://wiki.korpus.cz/doku.php/manualy:morfio?redirect=l - vyhledání seznamů slov (až n-tic) na základě slovotvorných charakteristik • Treq https://treq.korpus.cz/ - databáze překladových ekvivalentů • Slovo v kostce https://www.korpus.cz/slovo-v-kostce/ (vyzkoušejte) Sketch Engine • https://www.sketchengine.eu/ • LOG IN - Institutional Login - Masarykova univerzita - UČO + primární heslo • OVLÁDACÍ PANEL — Konkordance (Concordance) - hledání v korpusu — v Profil - Nastavení - možnost přepnout do češtiny — funkce jsou stejné jako v KonTextu (s drobnými rozdíly) • manuál, vysvětlení termínů (Glossary) v angličtině https://www.sketchengine.eu/guide/ Sketch Engine - externí funkce Tezaurus - podobná slova, míra podobnosti na základě kontextů, vizualizace - hra Uhádni to slovo (podle kterého synonyma je vytvořen wordcloud, https://nlp.fi.muni.cz/proiekty/uhadni to slovoA Word Sketch - slovní profily, na základě morfol. značkování - tabulky zachycují okolí zadaného lemmatu podle určitých kategorií Sketch Diff- porovnání slovních profilů dvou lemmat tvorba korpusů a subkorpusů a další aplikace SkELL - generování příkladových vět z korpusu - https://skell.sketchengine.eu/