CJBB84 1 GAK – CJBB84 čt. 12.30-14.00 3.11. 2011 CJBB84 2 Vyhledávání jevů na hranici slovník/gramatika ltvarová homonymie – noční můra automatizace v NLP lhomonymie způsobená homonymií gramatických a slovotvorných formantů – konkrétně prefix po- lotevřené seznamy – korpus jako zdroj dat pro doplnění okrajových jevů gramatiky do slovníků automatických morfologických analyzátorů CJBB84 3 Futurum v češtině a korpusy ldokonavá slovesa lopisné futurum nedokonavých sloves lsyntetické futurum CJBB84 4 Značkování gramatické kategorie času v korpusech ČNK Pozice 9 - Čas (TENSE) l- - neurčuje se lF - futurum (budoucí čas) lH - minulost nebo přítomnost (P/R) lP - prézens (přítomný čas) lR - minulý čas lX - libovolný čas (F/R/P) - - neurčuje se CJBB84 5 Implicitní atribut tag dotazovací řádek VB……F.* Nfiltr lemma být CJBB84 6 Korpus SYN (22) lbýt 5302509 jít 181280 ltrvat 85600 jet 82167 lrůst 14078 nést 12481 lběžet 10456 letět 5800 ltéci 3710 vézt 2555 lvést 2278 hrnout 969 lcestovat 961 plout 758 llézt 755 stěhovat 406 lhnát 382 řítit 22 lplavat 21 plazit 19 lkrást 9 kvést 4 CJBB84 7 Korpusy ? lPokuste si vzpomenout na další možnosti. lOvěřte, zda se vyskytují v korpusech. CJBB84 8 Implicitní atribut word dotazovací řádek po.* Implicitní atribut tag Pfiltr VB.* Konkordance – statistiky – lemma po_vb CJBB84 9 povalí ? povalit ? valit povalí CJBB84 10 povede ? povést ? vést l„Zůstaň u nás, budeš nám vařit, a když všechno budeš dělat, povede se ti dobře !“ l(Jan Vodňanský: Analýza pohádky o Sněhurce a sedmi trpaslících) l l CJBB84 11 Mluvnice & korpusy lSeznamy uváděné v příručkách (viz bibliografie) jsou rozsáhlejší než uvedený seznam lPředpoklad: tvoří patrně otevřené množiny lZávěr : korpusy mohou přispět k jejich rozšíření lKorpusy mohou zpřesnit stávající popisy CJBB84 12 Implicitní atribut word dotazovací řádek povede Zobrazení – atributy – lemma+tag povede CJBB84 13 Řadu sloves, která uvádějí tištěné zdroje v korpusech nejsou lcapat/pocapá cupat/pocupá ldrát se/podere chvátat/pochvátá ljechat/pojechá klíčit/poklíčí lkulhat/pokulhá kulit se/pokulí lkvačit/pokvačí kvapit/pokvapí llít/pole(i)jeje linout se/poline lloudat se/poloudá pálit/popálí lpršet/poprší rajzovat/porajzuje lrázovat/porázuje šířit se/pošíří lštrádovat/poštráduje vát/pověje lvinout se/povine viset/povisí lvrávorat/povrávorá l CJBB84 14 korpusy dokládají navíc (tag=„VB.*“) 10 sloves + 1 BMK lvanout/povane lsvištět/posviští lkráčet/pokráčí ltáhnout/potáhne lmazat/pomaže lvalit (se)/povalí (se) lpást (se)/popase (se) lšinout (se)/pošine (se) ltrénovat/potrénuje ltrvat/potrvá lpéct/popeče (s kým) CJBB84 15 korpusy dokládají (tag!=„V.*“) 9 sloves (doložena též na internetu) lšupat/pošupe lbrodit se/pobrodí se lcrčet/pocrčí lšupajdit/pošupajdí lharcovat/poharcuje lkoučovat/pokoučuje lveslovat/povesluje (SYNPUB2006) lšupačit/pošupačí (SYNPUB2006) lprýštit/poprýští (SYNPUB2006) CJBB84 16 Zastoupení lemmat v tištěných zdrojích, korpusech a na internetu tištěné zdroje 60 lemmat 72,29 % pouze korpusy 20 lemmat 24,1 % korpusy i tištěné zdroje 37 lemmat 44,58 % pouze tištěné zdroje 23lemmat 27,71 % pouze internet 3lemmata 3,61 % tištěné zdroje + korpusy 83 lemmat 100 % CJBB84 17 Upřesnění definice významu sloves schopných tvořit tvary syntetického futura lPohyb v konkrétním slova smyslu (přemísťování z místa na místo jednosměrně/ v určeném směru) : (půjde, pojede, poběží, poplazí se, pokráčí, pošine se, povalí, pomaže, ...) lpohyb bez určení směru (různými směry) : (pošíří se, poline se, ... ). lProces zahrnující pohyb la) přírodní (povane, pověje, pol(i/e)je, poprší, ...); lb) s neživým nositelem (rostlina: pokvete, poroste, poplazí se, strom: ponese (ovoce), ...; hudba: poline se, povalí ...; vůně: pošíří se, poline se, ...; voda: poteče, povalí, pocrčí, poprýští..., zpráva: pošíří se ,... ); lc) mentální (popálí mu to) ld) s živým nositelem (poroste, popase se, ... pták: ponese (vejce), ...); le) ve významu fungovat (v přeneseném významu jít) (správně) poklape, pošlape, povalí ...; vycházet s někým, (poklape, pošlape, popeče, ...). lf) ve významu vést (pokoučuje, potrénuje, povládne) l CJBB84 18 Gramatika a korpus lrozšíření seznamu sloves, která mohou v češtině vyjadřovat futurum synteticky lupřesnění definic jejich významů lstabilní jádro lproměnlivá periferie l CJBB84 19 Bibliografie lČECHOVÁ A KOL. (1996): Čeština, řeč a jazyk. Praha : ISVN. lČERMÁK, F. (1990): Syntagmatika a paradigmatika českého slova. Praha : Karlova Univerzita. lKOMÁREK, M. a kol. (1986): Mluvnice češtiny II., Praha : Academia. lOSOLSOBĚ, K. (2007): Syntetické futurum v češtině – gramatiky, slovníky, korpusy. Přednášky a besedy z XL. běhu LŠSS. Brno, s. 131-144. lOSOLSOBĚ, K. (2007): Popis gramatických významů jednoduchých slovesných tvarů v anotacích českých (slovenských) korpusů. SPFFMU A, 55, v tisku. lOSOLSOBĚ, K.: Značkování gramatických kategorií v korpusech ČNK a jejich zachycení v gramatice a ve slovníku (syntetické futurum, stupňování adjektiv, neurčité číslovky a příslovce míry). In Štícha, F. Grammar & Corpora / Gramatika a korpus 2007. Academia : Praha, 2008, s. 407-416. lŠMILAUER, V. (1972): Nauka o českém jazyku. Praha : SPN. lElektronická verze Slovníku spisovného jazyka českého (SSJČ) a Slovníku spisovné češtiny pro školu a veřejnost (SSČ) dostupná z chrome://debdict/content/debdict.xul lČeský národní korpus - SYN2000, SYN2005, SYN2006PUB, BMK, PMK, ORAL2006. Ústav Českého národního korpusu FF UK, Praha 2000. Dostupné z WWW: . Morfologický analyzátor Ajka dostupný z http://nlp.fi.muni.cz/projekty/ajka/ajkacz.htm. l CJBB84 20 Úkol na 10.10. 2011 lVyhledejte v korpusu SYN tvary slovesa mazat (pomažu, …)v syntetickém futuru a ve futuru opisném (budu mazat, …). lPorovnejte frekvenci výskytu synonymních forem.