CJBB85 Počítačové nástroje
pro češtinu – úvod
Mgr. Dana Hlaváčková, Ph.D.
hlavacko@phil.muni.cz
Ústav českého jazyka FF MU
A. Nováka 1, budova D
Co je to počítačová lingvistika?
• obor mezi lingvistikou a informatikou
• výsledkem jsou denně používané aplikace
• korektor překlepů
• korektor gramatiky
• vyhledávání na webu
• prediktivní psaní
• překladače jazyků
• detailní analýza jazyka a jeho formální popis
Počítačové zpracování přirozeného jazyka –
češtiny
• přirozený jazyk x počítačové zpracování
• jak funguje přirozený jazyk?
• jak funguje počítač?
• formální popis jazyka
• algoritmus – návod, postup při řešení daného
problému
• pravidelnost v jazyce (cca 80 %) – algoritmický
popis
Počítačové zpracování češtiny – pár zásad
• proč to chceme? (cíl, účel, uživatel)
• jak toho dosáhneme? (efektivita)
• maximum automatizace – minimum ruční práce (při
vytváření i používání)
• zpracování velkého objemu dat
• univerzálnost (široká množina vstupů, spojování více
nástrojů do jednoho)
• nezávislost na jednotlivých lingvistických teoriích
• při zpracování i používání je nutná PŘESNOST („ono
to nefunguje“ )
Počítačové zpracování češtiny
• urychlení a zefektivnění práce lingvisty
• ověřování existujicích teorií
• objevení nového jazykového jevu, zákonitosti
• co a jak mohu použít
• co mohu a nemohu od nástroje očekávat
• autorská práva a přístupy k nástrojům
• veřejně dostupné (dostupné na MU)
• hromadný přístup (společné heslo)
• vlastní přístup (registrace)
Mezioborová spolupráce
• informatika – lingvistika („společný jazyk“)
• počítačová lingvistika (matematická, komputační),
jazykové inženýrství, počítačové zpracování
přirozeného jazyka
• Natural Language Processing (NLP)
Hlavní oblasti (uživatelský přístup)
• syntéza a analýza řeči
• počítačová lexikografie
• formální analýza jazyka (morfologická, slovotvorná,
syntaktická, sémantická, textová)
• korpusová lingvistika
• dialogové systémy, umělá inteligence
Obsah kurzu
• počítačová lexikografie – DEBDict, DEBWrite, lexikální
databáze, Vokabulář webový a další
• jazykové korpusy – KonText, Sketch Engine
• morfologická analýza – Ajka, Majka, Morče, MorphoDiTa
(atributivní a poziční systém)
• derivační rozhraní – Deriv, Morfio a další
• syntaktická analýza – Synt, Set, PDT (stromové banky)
• sémantická analýza – WordNet, FrameNet, VerbNet
• valenční databáze – Vallex, VerbaLex
• rozpoznávání a syntéza řeči
• seminární práce
Příbuzná pracoviště
• Centrum zpracování přirozeného jazyka FI MU
Brno – http://nlp.fi.muni.cz/
• Ústav formální a aplikované lingvistiky MFF UK
Praha – http://ufal.mff.cuni.cz
• Ústav teoretické a komputační lingvistiky FF UK
Praha – http://utkl.ff.cuni.cz
• Ústav Českého národního korpusu FF UK Praha –
http://www.korpus.cz
• Ústav pro jazyk český AV ČR –
http://www.ujc.cas.cz
Příbuzná pracoviště
• Fakulta informačních technologií VUT Brno –
http://www.fit.vutbr.cz
• Katedra informatiky a výpočetní techniky –
http://www.kiv.zcu.cz, Katedra kybernetiky
http://www.kky.zcu.cz FAV ZCU Plzeň
• Ústav informačních technologií a elektroniky
FM TU Liberec – http://www.fm.tul.cz
• Slovenský národný korpus, JÚĽŠ SAV
Bratislava – http://korpus.juls.savba.sk/
Bonus
• Internetová jazyková příručka
http://prirucka.ujc.cas.cz
• WebMetaTrans
http://metatrans.fi.muni.cz
© Jan Pomikálek (FI MU)