rapový korpus
Korpus RapCor je jedním z menších a tematicky specifických korpusů pro francouzský jazyk, který vzniká při Ústavu románských jazyků a literatur Filozofické fakulty Masarykovy univerzity v Brně pod vedením doc. PhDr. Aleny Polické, Ph.D.
Jde o korpus mluvené francouzštiny v rapových písních, založený pro účely socio-lexikálního výzkumu. Specifický charakter rapových textů umožňuje získat širší poznatky o substandardní francouzštině, zejména o dynamice vývoje generačně a etno-socio-geograficky podmíněné slovotvorby a o neologii ve vztahu k lexikografii. Korpus také může posloužit zájemcům o moderní poetiku či sociolingvistiku (zejména ve vztahu k multietnickým předměstím).
Aktuální stav
- poslední aktualizace
- připraveno pro korpus
- počet skenů v úložišti
- celkem rozpracováno
Úvodem: Co je korpus?
Slovo korpus označuje soubor zkoumaných textů, s rozvojem kapacity počítačů se však pod pojmem korpus rozumí stále častěji korpus elektronický, tj. soubor počítačově uložených a zpracovávaných textů (případně přepisů zvukových záznamů), sloužící k jazykovému výzkumu. Díky snadnějšímu vyhledávání a vyhodnocování výsledků je možné získat mnohem spolehlivější informace a statistiky, než tomu bylo dříve, tj. v době kartoték.
Elektronické jazykové korpusy začaly vznikat spolu s rozvojem výpočetní techniky v posledních desetiletích 20. století. Dnes existuje pro většinu světových jazyků celá řada malých i velkých korpusů, z nichž největší popisují celý národní jazyk a dosahují rozsahu několika set milionů slovních tvarů. Například pro český jazyk je Ústavem Českého národního korpusu při Filozofické fakultě Univerzity Karlovy v Praze aktivně vytvářen Český Národní Korpus (ČNK), tvořený několika subkorpusy psaných i mluvených textů. Pro francouzský jazyk je pak největším korpusem Frantext, korpus převážně literárních textů, koncipovaný na univerzitě v Nancy. Dále existuje množství menších korpusů, z nichž citujme pouze korpusy mluvené francouzštiny, např. Eslo či Clapi, mj.
Korpus RapCor
RapCor vzniká od roku 2009 v rámci postdoktoranského projektu Grantové agentury České republiky - Expresivita ve slangu mládeže na pozadí hledání vlastní a skupinové identity (GP405/09/P307). Sběr a primární úprava zdrojového materiálu probíhá za spolupráce studentů francouzštiny, kteří získávají texty vybraných francouzských rapových písní buď z přepisů fanoušků dostupných na internetu nebo (v současné době prioritně) přímo z originálních textů na přebalech na CD, pokud jsou na přebalech uvedeny.
Texty jsou pak dále kontrolovány podle zvukového záznamu a opravují se případné nesrovnalosti tak, aby výsledkem byla věrná transkripce rapovaného textu. Pomocí programu TreeTagger pak jsou texty automaticky segmentovány na jednotlivá slova, která jsou lemmatizována (převedena na základní tvar, tzv. lemma) a doplněna značkami pro gramatické kategorie. Vzhledem k velké frekvenci neologismů a substandardních výrazů je výsledek dopracován ručně a dále se provádí kontrola automatického přiřazení gramatických kategorií. Substandardní výrazy jsou označeny jednak z hlediska lexikografického podle příznaku v referenčním slovníku (např. hovorová či vulgární slova), jednak z hlediska slovotvorného.
Jako referenční slovník, z něhož se také přebírají substandardní značky, je používán Le Petit Robert électronique. Tentýž slovník slouží také jako diferenční slovník k určování neologismů a opomenutých lexémů. Jako referenční diferenční slovník pro vlastní jména pak slouží Le Petit Larousse électronique.
Anotovaná tabulka morfosytnaktických tagů, lemmat a dalších informací o průběhu písně a interpretovi písně či její části je nakonec díky technické pomoci Mgr. Marka Stehlíka z Centra výpočetní techniky Fakulty informatiky Masarykovy univerzity (CVT FI MU) převedena do html souboru, který je opatřen metadaty z přidružené databáze. Aktuální i starší soubory všech zpracovaných textů pak lze stáhnout z našeho Úložistě a importovat do lexikometrického programu TXM.
S nejnovější verzí je také možné pracovat v klientské aplikaci Sketch engine (korpusový manažer a software pro textovou analýzu, licencovaný zdroj, pro studenty FF MU přístupný zdarma). Jeho spoluautorem je doc. Mgr. Pavel Rychlý, Ph.D. z Katedry strojového učení a zpracování dat FI MU. V nejstarší verzi korpusu byly využívány jeho starší produkty (korpusový manažer Manatee a klientská aplikace Bonito).