Le premier corpus écologique du français langue mondiale


CIEL-F est un corpus de français oral en interaction recueilli dans l’espace francophone. Il est constitué d’extraits d’environ 200 enregistrements de 10 minutes, collectés de 2006 à 2012 dans 15 zones à travers le monde. Ce projet est géré par cinq équipes universitaires, pilotées par cinq professeurs : Lorenza Mondada (Lyon-2), Françoise Gadet (Paris-Ouest), Stefan Pfänder (Freiburg), Ralph Ludwig (Halle) et Anne-Catherine Simon (Louvain-la-Neuve). Chacun est responsable d’un groupe de zones (consulter le détail). Les enregistrements de CIEL-F relèvent de quatre catégories : interactions lors de repas (code REP), émissions de radio (RAD), interactions dans un cadre professionnel (PRO) et autres (AUT : conversations entre amis, échanges commerciaux, soutenance de mémoire universitaire, etc.). Chacun est anonymisé. Sur cette page sont disponibles, pour chaque enregistrement, un extrait d’une minute, accompagné de sa transcription.

Objectifs généraux

CIEL-F est une banque de données de corpus, offrant à la communauté scientifique un important corpus international et écologique de langue française dans le monde. CIEL-F a été créé afin de développer les études du français observé dans des contextes spécifiques et permettre une analyse comparative de variétés de français et de manières de dire et d’interagir en français à travers la francophonie dans le monde.  Le projet interroge l’homogénéité et l’unicité du français autant que sa diversité et ses spécificités - établies jusqu’ici sur des données non comparables entre elles, ou en absence de corpus oraux recueillis en situations naturelles.

Ensemble, les équipes collaborant au projet ont développé une méthodologie innovante en matière de recueil et de traitement des corpus de données orales, ainsi que des analyses interdisciplinaires en linguistique, relevant à la fois de la linguistique interactionnelle, de la linguistique variationnelle et de la linguistique de contact.

Méthodologie de constitution et traitement des corpus

Le corpus CIEL-F a été l’occasion de développer et de réfléchir à la méthodologie pour le recueil et le traitement des données, concernant notamment les aspects suivants :

L’enregistrement des données

Un protocole d’enregistrement a été élaboré, prenant en compte les contraintes de la documentation de pratiques socio-culturelles et interactionnelles dans leur contexte ordinaire (vs. dans un contexte élicité ou orchestré par le chercheur).
Exigences analytiques pour l’enregistrement de la parole-en-interaction (V3.0.2)

La transcription des données

Une convention de transcription a été élaborée par les équipes, en tenant compte des standards existants. Cette convention a été implémentée sous le logiciel d’alignement Praat (http://www.fon.hum.uva.nl/praat/).
Conventions Ciel-f (V4.7)

L’anonymisation des données

La prise en compte des enjeux éthiques et juridiques, ainsi que la protection de la vie privée des personnes ayant consenti à participer aux enquêtes ont été implémentées dans des procédés d’anonymisation concernant à la fois les enregistrements et les transcriptions.

L’établissement de métadonnées.

Afin de décrire les données recueillies, leur contexte et les conditions d’enregistrement, un riche jeu de métadonnées a été élaboré. Il permet de nouvelles articulations entre questions sociolinguistiques et analyses interactionnelles.

Standardisation

Le choix de formats standards pour les données primaires et secondaires. La base de données repose sur un important travail de définition de formats standard – à la fois pour les enregistrements audio et vidéo et pour les transcriptions et autres documents annexes.

Banque de données

Des choix informatiques pour le développement de la banque de données. Au sein du projet, deux banques de données existantes, l’une gérée à Lyon (CLAPI - http://clapi.univ-lyon2.fr/), l’autre à Freiburg et Louvain http://moca.phil2.uni-freiburg.de/ciel-f/moca/ind), ont uni leurs forces: les données ont été intégrées aux deux bases et un format en TEI garantissant l’interopérabilité a été développé. En même temps, les deux bases ont continué à être développées de manière autonome pour offrir des possibilités complémentaires de consultation, requête et analyse.



ANR | Lyon | Freiburg | DFG