KORPUSOVÁ LINGVISTIKA Mgr. Adriana Válková 415719@mail.muni.cz Jazykový korpus • elektronická d a t a b á z e autentických t e x t ů mluveného nebo psaného jazyka • „databáze" - umožňuje vyhledávání jazykových jevů (slov, slovních spojení) v jejich přirozeném kontextu vylil si z trombón J sliny. Podíval jsem se do korpusu . Byl jsem vždycky rád, když jsem měl v korpus J ho naklonil na tu stranu. kde nejsou cole na korpusu a vylil jsem obsah na podlahu . Hodil jsem do korpusu r apfažena rovu é nad t a ncuj íc í a s I unce se třpyt i I o v jejím korpusu němu a zpíval jsem a mluvil jsem z jeho pozlaceného korpusu a tak automatický jako nastupovaní do patemc-steru. Pretlakový kulový korpus tela (ale co říkám ? veškerý pozemský a s ubi unární korpus boogie Emila Zettnera u piana, poblédl smutne na lesklý korpus baletky, ale oči mu neodolatelné přitáhl orchestr. Zlaté korpusy sexuálním hla s em n ástroj e a sn i I o krá s e, kterou zlace ný korpus , Lýdie tam sice nechyběla, ale ani hlas zlaceného korpusu svého saxofonu a uvidél jsem malou hladinku „ jak se hodné mokro. Vyléval jsem to s rozkoší tím vétší klapky, a vylil jsem obsah na podlahu .Hodil závaží čistítka a elegantně jsem prevrátil tenora v ruce. , nad vlasatýma hlavama se vytahoval a zatahoval Vencův trombón , že ho prijímam , a že přijímám všechno, tvoril hlavu celé té křehké „ šípovité konstrukce dlouhé pres vyhladovělých a žíznivých stolovníků) se proměnila v jedno jediné svého tenora a Zetka se najednou otočil, řekl „ saxofonové baterie malovaly tam křehký rytmus zeswingované gavoty do půvabných přidá jeho postavě, vztyčené v přitlumeném světle v jakémsi „ ani postava čtvrtého saxofonisty ji nelákaly. Neboť hlas 4. 3. 2019 Mgr. Adriana Válkové, 415719@mail.muni.cz 2 Korpusová lingvistika • relativně mladý obor (od 2. pol. 20. st.) • odvětví lingvistiky, která studuje jazyk v jeho přirozeném kontextovém užití • úzká propojenost s počítačovou (komputační) lingvistikou • celosvětově převažující metodologie zkoumání jazyka - empiricky podložená data vs. lingvistická intuice a introspekce 4. 3. 2019 Mgr. Adriana Válkové, 415719@mail.muni.cz Přednosti korpusů • jazyková data v přirozeném kontextu • statistické (frekvenční) zpracování jazykového materiálu - zrychlení a usnadnění lingvistické práce - na základě toho např. určení typických (centrálních) nebo okrajových jazykových jevů) • upřesňuje, opravuje (popř. ruší) některé tvrzení z gramatik • korpusy odrážejí skutečně užívaný jazyk (jazykový úzus) a jeho variabilitu 4. 3. 2019 Mgr. Adriana Válkové, 415719@mail.muni.cz Základní terminologie • token (tokenizace) - grafická jednotka oddělené mezerou (nejčastěji slovo) na opozdilá polské kavaJeristy nebo se potuloval po lesích a vyhledával ukrytá stáda selských koní Zapaloval vesnice a odstřeloval polská • pozice - tj. token v korpusu konkordance místnosti - Byly z těžkého tmavého dřeva a zlověstné pozice 6L 5L 4L 3L 2L KWIC 2R • KWIC (červeně/růžově vyznačené slovo) - tj. slovo, které hledám • konkordance (konkordanční řádek), ve které se KWIC vyskytuje 4. 3. 2019 Mgr. Adriana Válkové, 415719@mail.muni.cz 5 Struktura anotovaného korpusu • s t r u k t u r n í a t r i b u t y - struktura dokumentu (hranice vět, odstavců atd.) a informace o nich (autor textu, rok vydání, žánr atd.) • p o z i č n í a t r i b u t y - (morfologické) informace k jednotlivým pozicím - morfologická značka = tag - tagset = souhrn morfologických značek - lemma - slovníkový tvar hesla - lemmatizace - přiřazení lemmatu 4. 3. 2019 Mgr. Adriana Válkové, 415719@mail.muni.cz Vlastnosti korpusu a n o t o v a n ý / o z n a č k o v a n ý (tokenizace a lemmatizace) r e p r e z e n t a t i v n í (obsahuje všechny variety jazyka) v y v á ž e n ý (odpovídá-li poměr jazykových variet jejich poměru v jazykovém úzu) 4. 3. 2019 Mgr. Adriana Válkové, 415719@mail.muni.cz 7 Co a jak vyhledávat? poziční atributy - word (základní) - lemma dotazovací jazyk CQL (Corpus Query Language) - práce s regulárními výrazy - složitější typy dotazů - poziční atribut tag korpusový manažer Hledat v korpusu Korpus: Typ dotazu syn v7 ] Dotaz: ^ Základní Lennrna Fráze Slovní tvar Část slova CQL 6 rfuhozi u aindize kliknout s pŕ + Specifikovat kontext Omezit hledáni 4. 3. 2019 Mgr. Adriana Válkové, 415719@mail.muni.cz Typy korpusů • korpus je vždy budován za určitým cílem 1. jednojazyčný nebo vícejazyčný (InterCorp) 2. obecný nebo specializovaný (např. korespondence K. H. Borovského) 3. psaný mluvený (ORAL) 4. synchronní (SYN) nebo diachrónni (Diakorp - texty ze 14.-20. st.) 5. referenční nebo nereferenční 6. označkovaný (typ značek?) nebo neoznačkovaný 4. 3. 2019 Mgr. Adriana Válkové, 415719@mail.muni.cz Tvorba korpusů korpusy tradiční a webové • sběr dat - sjednocení formátu - externí anotace • tokenizace (vertikál) - lemmatizace - značkování • Corpus Architect, WebBootCat • jusText - odstranění netextového obsahu (boilerplate) • Onion - odstranění duplicitních textů • Chared - detekce kódování mluvené korpusy - nahrávky, přepis, synchronizace textu se zvukem 4. 3. 2019 Mgr. Adriana Válkové, 415719@mail.muni.cz Kde vyhledávat? na webu pomocí k o r p u s o v ý c h m a n a ž e r ů - Praha ÚČNK-KonText (Tittp://kontext. korpus.cz) - Brno Fl MU - SketchEngine (https://app.sketchengine.eu) CONCORDANCE W s b 2 m 7 M M s n i 7 > COL llemma="kr ha"] 4,341,190 (344.5 I pe , l:r: o . ± © « X =" - I Details I ríľ contexl •Potei knihy českých a slovenských autorů, teh #359 JV v Československu zakázaných D vydávat zatím pouze revycane knihy českých a slovenských autorů tvo • o #523 hodně rozšírite. Nevkládejte však bez oprávněni CIZÍ texty V knize Milana Kundcry "Nesnesitelná leh , o #2356 sc imaginárními teser -ni |2| Korcepre patafyziky ie v r.c 'ozepsaná vefiktrvni knize "Podivuhodně postfehy ř. názory r • o #4394 'Patafyzika a patatyzici hraji důležitou roli několika ra sebe odťazupc ch knihách SDIí^.'. (í sc ' V -o • O #4749 ality. -dsxs> Výsledná výstava SpektrumMEKFerreira zookumenoval ve sve k r á "SpektrumMEK a pataphysical ge o #5250 ihoŕ v rámci Next Art Fair/Art Chicago |61| Patatonckc umeni shmu|C knih. nizozemského umělce H dce van 10 O #11368 Rancid. Bylo vydáno v srpnu 1995. Název alba byl převzat z knih. Tne Basketball Dianes od Jima Cit 11 o #14737 ench", ** spoluautor Robert Silverberg, *** česl e sbírky (povioky řazeny |ako v knihách ). t ole předlohy 1. Asimova 1 Neti |c součást Knihy Mormonovy • náboženské knihy m 14 O #62794 jh Smith 1 <'sxs> Ncti |C součásti Krny Mo'rrorovy • rahozenske knihy rro'morského náboženství, ktera i. o #62818 Josephiem Smithem na počátku 19.století. ÍS> Panu|i pochyby o to. zda |C kniha skutečným historickým dikumcnte Korpus: v7 | Dotsz: (1 ľ Dotaz Korpusy Uložit Konkordance Filtr Frekvence Kolokace Zobrazení Nápověda Výskytů: 1 19Í9SÍ Výbérřádků: záklo ARF:411S!tj9 Výsledekje I_I /ilkjGaisbí lidského srdce. Jenom la člověka. který dává této knize jméno • /tlkjGstsbv A choval jsem firieieTí ÚTys nfečíst si j*š1ě mnoho jiných knih .Ha Liri n vtHcrumt, řekli D isy s vyrazím be-zmyšlertkovitého smutku ." Čte hlubokomyslné knihy .vkter n vtikŕBiuti bylo za slovo, oo jsme •" "Ty knihy jsou př n 'd kf Gilts!)-* ženskou ", než lo, že ho sklíčila nějaká kniha .Cosil micř Batíbj 'Povídá sepo mostě", společné s výtiskem knihy "Ěimo micř Batíbj velkého stolu a hleděl ve vrávoiavém soustředění na police 5 knihami .Když • /tlkjGstsbv Já jsem se přesvědčil. Jsou pravé."" Knihy J • Pŕik • IřdkřSasbT Alecochcete?Cočekáte'" VytfHI mi knihu z ruky • lrWGasbY tady teprve hodinu . Řekl jsem vám to o těch knihách ?Jsau • /tlkŕeaisbv Easťč nár>'srií tašku a vytáhli z kapsy roztrhaly starý výtisk knihy nazván • Vtlky Gatsh-y a nežvýkat. Koupat se obden . Přečíst jedrj vzdělávací knihu neboč as? v í^ňhv-in