Corpus de rap

Le corpus RapCor est un corpus spécialisé de taille plutôt petite, orienté majoritairement sur la langue française. Il est développé au Département des Langues et Littératures romanes de la Faculté des Lettres de l’Université Masaryk de Brno, sous la direction d’Alena Podhorná-Polická (maître de conférences).

Il s’agit d’un corpus du français parlé, en l’occurrence du français des chansons de rap, qui a été conçu pour les objectifs d’une analyse socio-lexicale. Le caractère spécifique des textes de rap permet d’obtenir les informations complexes à propos du français substandard, notamment par rapport à la dynamique des innovations lexicales conditionnées générationnellement et ethno-socio-géographiquement. Il permet également de mieux comprendre le lien de la néologie avec la lexicographie française actuelle. Le corpus peut également servir aux chercheurs en poétique moderne ou en sociolinguistique (notamment en relation avec les banlieues multiethniques).

État actuel

date de la dernière version du corpus
nombre de chansons finalisées
nombre de textes scannés à partir des livrets
nombre total de chansons en cours de traitement

Introduction : Qu’est-ce qu’un corpus ?

Le mot corpus renvoie à un ensemble de textes analysés. Avec l’extension de la capacité des ordinateurs, son sens se restreint de plus en plus souvent vers le corpus électronique, c’est-à-dire un corpus de textes (éventuellement des transcriptions des enregistrements sonores) stockés et traités automatiquement par les ordinateurs afin d’être analysés par des outils d’analyse linguistique. Grâce à la facilité de recherche et de traitement des résultats, il est désormais possible d’obtenir des informations beaucoup plus complexes et des statistiques plus représentatives que jadis, à l’époque des classeurs papier.

Les corpus de langues électroniques ont vu le jour avec le développement de la technique computationnelle, dans les dernières décennies du 20e siècle. Aujourd’hui, la plupart des grandes langues du monde possède toute une gamme des petits ou plus grands corpus dont les plus étendus décrivent la totalité de la langue nationale et atteignent plusieurs centaines de millions de formes verbales. Par exemple, pour la langue tchèque, l’Institut du Corpus national tchèque, abrité par la Faculté des Lettres de l’Université Charles de Prague, crée de façon dynamique un corpus de la langue tchèque (Český Národní Korpus, abrégé en ČNK), un corpus qui comporte plusieurs sub-corpus écrits et oraux (voir www.korpus.cz). Pour la langue française, le plus grand corpus de textes, majoritairement littéraires, le Frantext (voir www.frantext.fr) a été créé à l’Université de Nancy. En outre, il existe plusieurs petits corpus dont mentionnons notamment les corpus du français parlé, par exemple l’ESLO (voir http://eslo.huma-num.fr/) ou bien le Clapi (voir http://clapi.ish-lyon.cnrs.fr/), entre autres.

Corpus RapCor

Le RapCor est créé depuis 2009 dans le cadre d’un projet postdoctoral, financé par l’agence Grantová agentura České republiky : L’expressivité dans l’argot des jeunes sur fond de problématiques autour de la quête de l’identité individuelle et groupale (GP405/09/P307). La collecte et la préparation primaire du matériel source se font en coopération avec des étudiants en langue française qui puisent les textes des chansons de rap choisies soit dans les transcriptions faites par des fans, disponibles sur Internet, soit (actuellement en priorité) directement dans les textes originaux sur les livrets des CD, s’ils y sont présentés.

Ensuite, les textes sont contrôlés selon les enregistrements sonores et corrigés en cas de différences éventuelles pour qu’il en résulte une transcription fidèle du texte de rap. À l’aide du programme TreeTagger les textes sont automatiquement segmentés en mots à lemmatiser (à transformer sous forme de base, c.-à.-d. lemme) et à compléter par les signes indiquant la catégorie grammaticale respective. Vu la fréquence élevée des néologismes et des termes substandard le résultat est accompli manuellement et ensuite on fait un contrôle de l’affectation automatique des catégories grammaticales. Les termes substandard sont marqués du point de vue lexicographique selon le signe qui leur est attribué dans le dictionnaire de référence (mots de la langue parlée ou vulgarismes), d’une part et du point de vue de formation des mots, d’autre part. C’est Le Petit Robert Électronique qui est utilisé comme dictionnaire de référence dont nous reprenons les signes substandard. Ce dictionnaire nous sert également de dictionnaire de référence d’exclusion pour déterminer les néologismes et les lexèmes omis. Le Petit Larousse électronique nous sert de dictionnaire de référence d’exclusion pour les noms propres. Le tableau de la lemmatisation ainsi préparé et modifié est finalement mis au fichier source qui est administré par le manager de corpus Manatee (auteur Pavel Rychlý de la Faculté d’Informatique de l’Université Masaryk). L’application de clients Bonito, du même auteur, sert à extraire des requêtes du corpus selon les paramètres appliqués.