Využití jazykových korpusů v lexikografii a korpus jako on-line slovník Prezentace k semináři cjbb75 K. Osolsobě Korpus a lexikografie: korpus jako zdroj při konstrukci slovníku •Samuel Johnson (1709-1784) •PSJČ • Korpusová lexikografie •http://www.juls.savba.sk/pub_sssj.html •http://ucnk.ff.cuni.cz/cs/veda-a-vyzkum/publikace/ Vygoogli si to a najdi si to v korpusu •Výhody googlování: obrázky •Výhody korpusu: speciální funkce korpusových vyhledávačů zaměřené na lexikografickou praxi korpusové lexikografie •Korpusové nástroje využitelné k lexikografické praxi – automatické vyhledávání kolokací na základě statisticky relevantního souvýskytu slov •https://wiki.korpus.cz/doku.php/pojmy:kolokace • Konkordanční seznam klíčového slova/lemmatu •Analýza kontextu napoví význam •Třídění ukázek pomocí označení řádků a výběr pomocí filtrů •Specifikace vágního významu na základě pozorování relevantních kolokací na základě statistiky kolokačních měr Víte co je to hořčák? •Slovotvorný význam (nositel vlastnosti pojmenované základovým adjektivem) •Lexikální význam •Googl •Korpus: Kolokace Filtrování vybraných řádků Pozorování kolokací (levý kontext substantiva) - ukazuje ke dvěma různým významům Treq: nástroj propojený s paralelními korpusy (překladový slovník) Sketch Engine (pro členy MU učo+sekundární heslo) •Word Sketch •Thesaurus •Sketch Diff Word Sketch •Umožňuje vytvářet vizualizace frekvenčně uspořádaných gramaticky definovaných relací, do kterých vstupuje klíčové slovo v daném korpusu •Nástroj má zabudována pravidla parciální syntaktické analýzy založené na morfologických značkách •Tak například na základě toho, že se v bezprostředním levém kontextu substantiva vyskytuje adjektivum, které se shoduje se substantivem v relevantních gramatických kategoriích, je vytvořen seznam a_modifier (adjektivních modifikátorů) typických (s relevantí frekvencí) pro klíčové substantivum Word Sketch Funkce Thesaurus (zobrazení podobných slov) •Na základě porovnání kontextů je vytvořen seznam a vizualizace slov, která mají podobné (gramaticko-lexikální) kontexty • Sketch rozdíl (vizualizace kontextu dvojice) •Společné kontexty (bíle podbarvené) •Kontexty typické pro každý člen dvojice (zeleně a červeně podbarvené) •Jak byste vysvětlili význam slova jízlivý ? •Jaký je rozdíl mezi slovem jízlivý a sprostý ? • Sketch rozdíl • Co se dozvíme z korpusů? • Jízlivá kroketa Rozpuk jízlivý SkeLL : https://www.sketchengine.co.uk/skell/ Příklady: hledání slov nebo frází a jejich zobrazení až ve 40 vhodných příkladových větách. • Word sketch = kolokační profil slov: vyhledá pro základní tvar slova (např. „voda“ či „začít“) jeho nejčastější vazby zachycující kolokační a gramatické chování tohoto slova Podobná slova: hledá k základnímu tvaru slova další blízká slova, tj. nejen synonyma, ale i slova vyskytující se v podobných kontextech jako hledaný výraz (např. auto – vůz – loď ...) Jak byste vysvětlili rozdíl (použijte představené korpusové nástroje) •rozepře × rozpor (https://ske.fi.muni.cz/#sketchdiff?corpname=preloaded%2Fcstenten17_mj2&tab=basic&lemma=rozep%C5%99 e&lemma2=rozpor&showresults=1 ) •soubor × sbírka (https://ske.fi.muni.cz/#sketchdiff?corpname=preloaded%2Fcstenten17_mj2&tab=basic&lemma=sb%C3%ADrka &lemma2=%20soubor&showresults=1 ) •oděrka × záděra (https://ske.fi.muni.cz/#sketchdiff?corpname=preloaded%2Fcstenten17_mj2&tab=basic&lemma=od%C4%9Brka &lemma2=z%C3%A1d%C4%9Bra&showresults=1, https://deb.fi.muni.cz:8005/debdict/ ) •svoz × svážka (https://ske.fi.muni.cz/#sketchdiff?corpname=preloaded%2Fcstenten17_mj2&tab=basic&lemma=svoz&lemma2 =sv%C3%A1%C5%BEka&showresults=1 ) •puška × flinta (https://ske.fi.muni.cz/#sketchdiff?corpname=preloaded%2Fcstenten17_mj2&tab=basic&lemma=pu%C5%A1ka& lemma2=flinta&showresults=1, https://treq.korpus.cz/index.php ) •hůl × hůlka (https://ske.fi.muni.cz/#sketchdiff?corpname=preloaded%2Fcstenten17_mj2&tab=basic&lemma=h%C5%AFl&le mma2=h%C5%AFlka&showresults=1 https://treq.korpus.cz/index.php ) •hlubina × hloubka (https://ske.fi.muni.cz/#sketchdiff?corpname=preloaded%2Fcstenten17_mj2&tab=basic&lemma=hlubina&lem ma2=hloubka&showresults=1 ) • Thesaurus Co znamenají slova: •Bezbřehý, bytelný, balamutit, cudný, horlivý, hvozd, chmurný, chrabrý, jihnout, jímavý, jízlivý, kasat se, kazajka, klání, kloudný, komolit, konejšit, lačný, láteřit, ledabylý, lomozit, lpět, mamon, mdlý, mimoděk, nedůtklivě, nejapný, niterný, okounět, osočit, ostýchavý, otálet, otrapa, perný, pohnutka, pokoutně, ponurý, pookřát, pověra, potutelný, proradný, prchlivý, předpojatý, pýřit se, rmoutit, se, rozšafný, rusý, schlíplý, slídit, spílat, srdnatý, strádat, střenka, svérázný, svízel, sudí, šev, tklivý, trýznit, úděl, uhranout, unylý, úlisný, upejpat se, úporný, úskalí, uštěpačný, útlocitný, vesměs, vzývat, záhy, zakabonit se, zakolísat, záludný, zášť, zesinat, zevrubný, zmerčit, zpupný, ztepilý. • DÚ •Domácí úkol (odevzdejte do odevzdávárny do 26. 4. 2022): ke dvěma slovům uvedeným v seznamu výše (vyberte si ta, která by vám dělala potíže, pokud byste měli definovat jejich význam). •Popište na základě introspekce rodilého mluvčího význam slova, zaměřte se na slova významově blízká. •Vyhledejte slovo v korpusu synv9 a na základě pozorování kolokací popište jeho význam. •Vyhledejte slovo v korpusu czTenTen17 a s pomocí funkce Tezaurus uveďte významově blízká slova. •Vyhledejte slovo ve výkladovém slovníku a porovnejte popis jeho významu ve slovníku s intuicí rodilého mluvčího (1) a s korpusovou evidencí (2). •Použijte nástroj Treq a podívejte se, nakolik by vám pomohl najít překladový ekvivalent (vyzkoušejte různé jazyka, kterým se učíte). •Nezapomeňte uvést citace zdrojů! Ke čtení (doporučená lit. k tématu): •Hladká, Z.: Korpusy dnes a zítra, Naše řeč, volume 79 (1996), issue 3. • http://nase-rec.ujc.cas.cz/archiv.php?lang=en&art=7321 •http://www.macmillandictionaries.com/features/from-corpus-to-dictionary/ •http://www.lextutor.ca/cv/replace_conc.htm •http://www.ajol.info/index.php/lex/article/viewFile/62737/50654 •http://grammar.about.com/od/c/g/Corpus-Lexicography.htm •The process of compiling or revising a dictionary based on texts (of written and/or spoken language) collected in an electronic format (i.e., corpora). •British linguist John Sinclair (1933-2007), founder of the COBUILD project at the University of Birmingham, oversaw the production of the first strictly corpus-based dictionary, Collins COBUILD English Language Dictionary (1987). •