Počítačové nástroje pro češtinu Jaro 2020 Jakub Machura 415795@mail.muni.cz Korpusová lingvistika – nástroje a jejich využití Co nás čeká? 1. Nástroje běžící na pražské platformě korpus.cz • WaG • SyD • Morfio • Kwords • Treq Co nás čeká? 2. Brněnský korpusový manažer Sketch Engine • Word Sketch • Tezaurus • N-gramy • Skell WaG – Slovo v kostce • aplikace poskytuje rychlý a základní přehled o tom, jak se v korpusu zadané slovo používá • data získaná z psaného, mluveného i paralelního korpusu • funkce: Vyhledat slovo Hledat ve dvou jazycích / přeložit • vyzkoušejte sami na https://www.korpus.cz/slovo-v-kostce/ SyD • nástroj pro korpusový průzkum variant • viz https://syd.korpus.cz/ • Sy – varianty v současném jazyce (synchronní část) – vyzkoušejte např. současně× najednou× naráz • D – varianty v průběhu historie (diachronní část) – vyzkoušejte beruška× slunéčko Morfio • nástroj pro slovotvornou analýzu • identifikuje dvojice slov spjaté formálními slovotvornými vztahy • více informací v hodině věnované slovotvorbě • https://morfio.korpus.cz/ KWords • nástroj pro identifikaci klíčových slov • součást projektu A Needle in a Haystack • zkoumaný text je porovnáván s korpusem (referenční text) • viz popis aplikace na https://kwords.korpus.cz/ Treq • databáze překladových ekvivalentů • vytvořeno automaticky na základě dat z paralelního korpusu InterCorp (viz https://intercorp.korpus.cz/) • snaha zarovnat slovo na slovo: Převzato z http://wiki.korpus.cz/lib/exe/fetch.php/manualy:carky_gdfa.jpg?cache= Treq • zadávání víceslovných výrazů • možnost využití regulárních výrazů • nástroj využívaný nejen překladateli • až 39 jazyků • vyzkoušejte nástroj na https://treq.korpus.cz/ SKETCH ENGiNE • komerční korpusový manažer • firma Lexical Computing, zakladatel Adam Kilgarriff • 500 korpusů (převážně webových) ve více než 90 jazycích • https://www.sketchengine.eu/ SKETCH ENGiNE Přihlášení • https://auth.sketchengine.eu/#login SKETCH ENGiNE CLICK ON THAT SKETCH ENGiNE Watch the tutorial Více info na https://www.sketchengine.eu/guide/ nástroje Konkordance • použití daného slova v kontextu • slovní tvar, lemma, fráze, CQL Konkordance Konkordance Konkordance Word Sketch • tzv. slovní profily • sdružují kolokace slov na základě gramatických relací (podmět, přísudek, atribut, …) • hodnoty frekvence a skóre Word Sketch Word Sketch Word Sketch Tezaurus • The thesaurus in Sketch Engine is an automatically generated list of synonyms or words belonging to the same category (semantic field). The list is produced based on the context in which the words appear in the selected corpus. Only nouns, adjectives, verbs and adverbs are supported in most corpora Tezaurus Tezaurus n-gramy • sled po sobě jdoucích položek z dané posloupnosti • unigram, bigram, trigram… • kolokace vs. n-gram The office building was demolished yesterday. 5 bigramů: the office, office building, building was, was demolished, demolished yesterday 2 kolokace: office building, to demolish a building n-gramy n-gramy SkELL • webová aplikace pro učení jazyka na základě dat z korpusu • česká verze: https://csskell.sketchengine.co.uk/run.cgi/skell • verze pro angličtinu, ruštinu, italštinu, němčinu nebo estonštinu Děkuji za pozornost