Rapový korpus RapCor

Korpus RapCor je jedním z menších a tematicky specifických korpusů pro francouzský jazyk, který vzniká při Ústavu románských jazyků a literatur Filozofické fakulty Masarykovy univerzity v Brně pod vedením PhDr. Aleny Polické, Ph.D.

Jde o korpus mluvené francouzštiny v rapových písních, založený pro účely socio-lexikálního výzkumu. Specifický charakter rapových textů umožňuje získat širší poznatky o substandardní francouzštině, zejména o dynamice vývoje generačně a etno-socio-geograficky podmíněné slovotvorby a o neologii ve vztahu k lexikografii. Korpus také může posloužit zájemcům o moderní poetiku či sociolingvistiku (zejména ve vztahu k multietnickým předměstím).

Úvodem: Co je korpus?

Slovo korpus označuje soubor zkoumaných textů, s rozvojem kapacity počítačů se však pod pojmem korpus rozumí stále častěji korpus elektronický, tj. soubor počítačově uložených a zpracovávaných textů (případně přepisů zvukových záznamů), sloužící k jazykovému výzkumu. Díky snadnějšímu vyhledávání a vyhodnocování výsledků je možné získat mnohem spolehlivější informace a statistiky, než tomu bylo dříve, tj. v době kartoték.

Elektronické jazykové korpusy začaly vznikat spolu s rozvojem výpočetní techniky v posledních desetiletích 20. století. Dnes existuje pro většinu světových jazyků celá řada malých i velkých korpusů, z nichž největší popisují celý národní jazyk a dosahují rozsahu několika set milionů slovních tvarů. Například pro český jazyk je Ústavem Českého národního korpusu při Filozofické fakultě Univerzity Karlovy v Praze aktivně vytvářen Český Národní Korpus (ČNK), tvořený několika subkorpusy psaných i mluvených textů. Pro francouzský jazyk je pak největším korpusem Frantext, korpus převážně literárních textů, koncipovaný na univerzitě v Nancy. Dále existuje množství menších korpusů, z nichž citujme pouze korpusy mluvené francouzštiny, např. ESLO či Clapi, mj.

Korpus RapCor

RapCor vzniká od roku 2009 v rámci postdoktoranského projektu Grantové agentury České republiky - Expresivita ve slangu mládeže na pozadí hledání vlastní a skupinové identity (GP405/09/P307). Sběr a primární úprava zdrojového materiálu probíhá za spolupráce studentů francouzštiny, kteří získávají texty vybraných francouzských rapových písní buď z přepisů fanoušků dostupných na internetu nebo (v současné době prioritně) přímo z originálních textů na přebalech na CD, pokud jsou na přebalech uvedeny.

Texty jsou pak dále kontrolovány podle zvukového záznamu a opravují se případné nesrovnalosti tak, aby výsledkem byla věrná transkripce rapovaného textu. Pomocí programu TreeTagger pak jsou texty automaticky segmentovány na jednotlivá slova, která jsou lemmatizována (převedena na základní tvar, tzv. lemma) a doplněna značkami pro gramatické kategorie. Vzhledem k velké frekvenci neologismů a substandardních výrazů je výsledek dopracován ručně a dále se provádí kontrola automatického přiřazení gramatických kategorií. Substandardní výrazy jsou označeny jednak z hlediska lexikografického podle příznaku v referenčním slovníku (např. hovorová či vulgární slova), jednak z hlediska slovotvorného.

Jako referenční slovník, z něhož se také přebírají substandardní značky, je používán Le Petit Robert Éléctronique 2009. Tentýž slovník slouží také jako referenční výlukový slovník (dictionnaire d’exclusion) k určování neologismů a opomenutých lexémů. Jako referenční výlukový slovník pro vlastní jména pak slouží Le Petit Larousse électronique 2010.

Takto upravená tabulka lemmatizace je nakonec vložena do zdrojového souboru, který je spravován korpusovým manažerem Manatee (autor dr. Pavel Rychlý z Fakulty informatiky Masarykovy univerzity). Klientská aplikace Bonito téhož autora slouží k vytěžování korpusu podle zadaných parametrů.