Le projet « Traitement de Corpus Oraux en Français » (TCOF) est né de la volonté de conserver des corpus oraux collectés dans les années 80-90 à des fins de recherches personnelles. L’équipe constituée au sein du laboratoire ATILF (UMR CNRS 7118) a élaboré l’architecture d’une première base de données de corpus alignés texte/son avec Transcriber. Celle-ci s’est progressivement enrichie à partir des années 2000 grâce à la collaboration d’autres (enseignants-)chercheurs, d’ITA et d’étudiants en Sciences du langage de l’université de Nancy 2. Aujourd'hui, l’équipe met à disposition de la communauté scientifique une partie de ses ressources. Cette mise à disposition sera progressive, au fur et à mesure du traitement des données.
Le corpus mis à disposition comporte deux grandes catégories : des enregistrements d'interactions adultes-enfants (enfants jusque 7 ans) et des enregistrements d'interactions entre adultes. Les enregistrements sont de durées diverses : de 5 à 45 minutes ou plus. A terme, des enregistrements de dialogues avec des enfants atteints d’une pathologie et des dialogues entre natifs et non natifs seront intégrés.
Il s'agit, en l'absence de corpus de référence du français parlé, de faciliter l'accès à des données qui restent encore rares, en particulier en ce qui concerne les interactions adulte- enfant, et de compléter les données existantes mises à disposition au travers d'un certain nombre de sites (PFC, CLAPI, CFPP, OFROM, CHILDES, etc.). En cela, nous collaborons avec des initiatives telles que la plateforme ORTOLANG et nous participons au consortium national CORLI.