st. 10.50-12.25 G13 ÒTokenizace, automatická anotace, d[ei]sambiguace ÒAnotace velkých synchronních korpusů ČNK ÒAnotace mluvených korpusů ÒAnotace KSK ÒPražský a brněnský systém anotací ÒSpecifika anotací SYN2005 ÒCo se skrývá za označením slovní druh X.* Ò ÒTokenizace – rozdělení textu na jednotky, s nimiž se dále pracuje při strojovém zpracování PJ. ÒAutomatická anotace – automatická morfologická analýza – slovník (word/lemma/tag) – je obecně víceznačná. Ò Ògrafické slovo Òslova se spojovníkem Òspřežky Òzkratky ÒZdraví je velký dar. Ò Ò Ò Òzdraví/zdraví/NNNS1.* Òzdraví/zdraví/NNNS2.* Òzdraví/zdraví/NNNS3.* Òzdraví/zdraví/NNNS4.* Òzdraví/zdraví/NNNS5.* Òzdraví/zdraví/NNNS6.* Òzdraví/zdraví/NNNP1.* Òzdraví/zdraví/NNNP2.* Òzdraví/zdraví/NNNP3.* Òzdraví/zdraví/NNNP4.* Òzdraví/zdraví/NNNP5.* Òzdraví/zdravý/AAMP1.* Òzdraví/zdravý/AAMP5.* Òzdraví/zdravit/VB-S---3P.* Òzdraví/zdravit/VB-P---3P.* Òzdraví/zdravět/VB-S---3P.* Ò Ò Ò Òje/být/VB-S---3P.* Òje/on/PPXP4—3.* Òje/on/PPNS4—3.* Òvelký/velký/AAIS1.* Òvelký/velký/AAIS4.* Òvelký/velký/AAIS5.* Òvelký/velký/AAMS1.* Òvelký/velký/AAMS5.* Ò Ò Ò Òdar/dar/NNIS1.* Òdar/dar/NNIS4.* Òdar/dar/NNIS5.* Ò ÒZjednoznačnění – volba kontextově správné varianty. Òstochastické metody Òpravidlové metody Òhybridní metody Òzdraví/zdraví/NNNS1.* Òje/být/VB-S---3P.* Òvelký/velký/AAIS1.* Òdar/dar/NNIS1.* ÒTzv. pražský systém založený na morfologické analýze (slovníku) J. Hajiče ÒStochastické metody disambiguace ÒPravidlové metody disambiguace ÒGuessery/hadače ÒKaždá značka je řetězcem 16 znaků (16. pozice chybí pouze v korpusech SYN2000 a ORWELL). ÒZnačka je konstruována tak, aby každá pozice odpovídala jedné morfologické kategorii podle víceméně tradičního lingvistického pojetí. ÒKaždé hodnotě v dané kategorii odpovídá jeden znak, převážně písmeno velké abecedy (např. 'P' pro plurál, neboli množné číslo), výjimečně i jiný znak (např. 'f' pro infinitiv, nebo ',' pro podřadicí spojky). ÒHodnota, která nedává smysl (např. pád u sloves), je reprezentována znakem '-' (pomlčka). Ò ÒRuční ÒNení široce přístupná ÒUpravená verze morfologického slovníku (Osolsobě 1996) a morfologického analyzátoru ajka (Sedláček 2004). ÒRuční disambiguace. ÒProjekt nové národní morfologie ÒTestování guesserů ÒSlova, kterým nelze na základě morfologického slovníku přiřadit žádnou interpretaci. ÒMéně obvyklá slova. ÒMéně obvyklé tvary. ÒPřeklepy. Ò Ò ÒJelínek, T.: Nové značkování v Českém národním korpusu. Naše řeč 91, 2008, s. 13–20. ÒJelínek, T., Petkevič, V.: Systém jazykového značkování korpusů současné psané češtiny. In Petkevič, V. – Rosen, A. (eds.) 3. Gramatika a značkování korpusů, Praha : Nakladatelství Lidové noviny/Ústav Českého národního korpusu, 2011, s. 154–170. ÒOsolsobě, K.: Popis gramatických významů (hodnot) jednoduchých slovesných tvarů v anotacích českých (slovenských) korpusů. SPFFBU A 55, Brno : FF MU, 2007, s. 201–218. ÒPetkevič, V.: Reliable Morphological Desambiguation of Czech: Rule-Based Approach is Necessary. In: Šimková, M. (ed.), Insight into the Slovak and Czech Corpus Linguistics, Bratislava : Veda, 2006, s. 26–44. Ò ÒPetkevič, V.: Využití vidu ke zkvalitnění automatického značkování češtiny. In Bičan, A. – Klaška, J. – Macurová, P. – Zmrzlíková, J. (eds.), Karlík a továrna na lingvistiku. Prof. Petru Karlíkovi k životnímu jubileu, Host : Brno, 2010,s. 368–387. Ò