Corpus et outils / Corpora and tools

La majorité des recherches auxquelles se consacrent les membres du centre Valibel – Discours et Variation sont basées sur de larges corpus de données linguistiques attestées, plaçant le locuteur et les données langagières au centre de l’usage réel. Cette préoccupation se traduit par le développement de systèmes d’étiquetage et d’annotation de corpus, ainsi que la constitution de vastes corpus écrits et oraux.

C’est ainsi qu’une importante base de données textuelles orales (env. quatre millions de mots) a été constituée par les membres du centre VALIBEL. Cette base de données est consultable depuis 2006 via l’interface [moca] (Multimodal Oral Corpora Administration).


The majority of studies in which members of the Valibel - Discours et Variation center are involved take large corpora of attested linguistic data as their basis and as such place the speaker and the linguistic productions at the center of language as it is truly spoken. This concern finds its reflection in the development of tagging and corpus annotation systems, as well as in the assembling of vast corpora of written and spoken language.

It is with this objective in mind that a large data bank of oral textual data (about four million words) was created by the members of the Valibel center. This data bank has been accessible for consultation since 2006 through the interface [moca] (Multimodal Oral Corpora Administration).

 

 

| 29/10/2009 |