Aller au contenu principal

Archives des séminaires

cental | Louvain-la-Neuve

2024-2025

11 avril 2025
Marine Carpuat,  Associate Professor, Computer Science, University of Maryland.
Au-delà de la Traduction : Un TAL Centré sur l'Humain pour une Communication Interlinguistique Fiable

 

Comment le Traitement Automatique des Langues (TAL) peut-il soutenir efficacement la communication interlinguistique, en particulier au regard des progrès récents en traduction automatique et modèles de langues multilingues ? Dans cet exposé, je présenterai deux axes de recherche visant à élargir la portée de la traduction automatique pour mieux répondre aux besoins de ses utilisateurs. Le premier examinera les défis rencontrés par les utilisateurs non familiers avec la langue source ou cible pour évaluer la fiabilité des traductions. Une étude menée dans un contexte médical illustrera les forces et les faiblesses des méthodes actuelles d'estimation de la qualité des traductions. Ces résultats motivent de nouvelles techniques de détection d'erreurs basées sur des interactions de type questions-réponses. Le second axe se concentrera sur les situations où des traductions littérales peuvent être mal comprises en raison d'un manque de contexte culturel ou de connaissances implicites dans la langue d'origine. Des approches de génération automatique d'explicitations, adaptées aux différences culturelles entre les publics, seront présentées comme solutions potentielles.


28 mars 2025
Natalia Grabar, Chargée de recherche EPST , Université de Lille
Relation entre la lisibilité et la complexité dans un corpus français

 

Il existe des travaux assez conséquents sur la lisibilité des documents d'un côté et les niveaux d'alphabétisation de la population de l'autre côté. Cependant, les liens entre ces deux échelles restent faiblement étudiés. Une des motivations de ce travail consiste à établir de tels liens dans un corpus français. Une autre motivation concerne les méthodes pour la graduation de la complexité des documents.


4 mars 2025
Julien Agaësse, Professeur en Didactique des langues, Université de Tokyo
Émotions, jeux de société et dispositifs pédagogiques

 

La présentation présentera l'influence des émotions et du jeu de société sur l'apprentissage du français des étudiants japonais de l'université de Tokyo. S'appuyant sur la perspective énactive et les basic affective systems de Panksepp et Biven, l'étude explore comment le jeu de société peut créer un climat de classe positif, favoriser la prise de risque et les interactions authentiques. Les résultats suggèrent que le jeu de société peut renforcer la confiance en soi des apprenants, augmenter leur participation et faciliter l'acquisition de compétences linguistiques et socioculturelles. Cette recherche souhaite  contribuer à une meilleure compréhension des facteurs émotionnels et environnementaux dans l'enseignement des langues.


28 février 2025
Laurane Castiaux, NLP Engineer chez DAMEDIC GmbH
Fine-Tuning Large Language Models on Sensitive Data: Challenges, Solutions, and Perspectives

 

Large Language Models (LLMs) have opened new perspectives in many domains, including the medical field. However, training these models on sensitive data such as Electronic Health Records (EHRs) presents unique challenges, particularly in safeguarding patient privacy and complying with strict data protection regulations.

In this talk, I will share insights into fine-tuning LLMs in a production environment while balancing performance optimization with ethical and regulatory demands. Topics will cover the use of synthetic data and the development of automated training pipelines.

I will conclude by exploring opportunities for future enhancement, such as the incorporation of user feedback and iterative dataset refinement techniques. These advancements will aim to enable smaller, fine-tuned models to outperform their larger counterparts.


6 décembre 2024
Julien Zakhia Doueihi, doctorant en linguistique, Université Catholique de Louvain (Cental)
Thinking through gaming: an application of Concept-Based Instruction for the acquisition of French pronominal verbs for Japanese university students

Slides

 

Dans le domaine de l'apprentissage des langues étrangères, l'utilisation de nouvelles technologies suffisamment adaptées au public ciblé mais également au contenu enseigné apparaît comme un défi majeur pour de nombreux enseignants. La question de la disponibilité de tels outils est pourtant d'autant plus cruciale que dans des modèles d'instruction plus traditionnels, on constate de nombreuses difficultés dans l'acquisition de contenus grammaticaux complexes tels que les verbes pronominaux du français, en particulier lorsque les apprenants n'ont pas de correspondance directe dans leur langue première.

Dans cette présentation, je vous parlerai des résultats d'expériences en apprentissage des langues assisté par ordinateur (ALAO) conduites dans plusieurs universités japonaises, et dans laquelle nous avons testé les effets de jeux pour téléphone nouvellement conçus pour enseigner les verbes pronominaux français selon deux approches différentes: une approche par tâches (TBLT) ainsi qu'une approche par concepts (CBI).


28 novembre 2024
Bruno Cartoni,  Google
Les activités langagières dans l'industrie de la tech: Localisation et linguistique

 

En prenant l'exemple de Google où je travaille depuis plus de 10 ans, je présenterai un aperçu du travail de localisation et de linguiste (informaticien, mais pas seulement!) dans l'industrie technologique. Après avoir décrit très généralement les différents enjeux de ces deux métiers, je décrirai un peu plus en profondeur le fonctionnement du moteur de recherche de Google et le travail de modélisation linguistique, puis je finirai en présentant un projet autours des expressions linguistiques genrées dans les différents produits Google, projet qui a mobilisé traducteur·ices  et linguistes.


22 novembre 2024
Emmanuelle Canut, professeure en linguistique, Université de Lille (UMR STL)
Simplifier des documents pour un public peu littéracié : enjeux, modalités et spécificités

Slides

 

Réfléchir et proposer des contenus de textes adaptés constitue un enjeu important pour les populations en difficulté face à l’écrit et/ou allophones. Les recherches sur le langage simplifié se sont étendues à des types de textes diversifiés (textes informatifs, narratifs, juridiques, médicaux…) et à d’autres terrains que celui du handicap, en prenant en compte toutes les personnes possiblement en situation d’insécurité linguistique (comme les personnes illettrées, non-native, enfants en difficulté d’apprentissage de la lecture, etc.) ; et avec des niveaux de compétences linguistiques différents selon l’âge, le degré de maîtrise de la langue,  etc. (Lindholm & Vanhatalo, 2021 ; Maaß 2020). Le public allophone a notamment fait l’objet de recherches récentes (Ahrens, 2020 ; Canut et al, 2020 et 2023 ; Lombardi, 2020). Par ailleurs, plusieurs études tentent d’affiner les recommandations européennes en FALC. En effet, celles-ci sont assez généralistes et reposent sur des conceptions linguistiques relativement vagues et sujettes à de multiples interprétations, sans distinction des caractéristiques des publics visés ou des types de textes (Hansen-Schirra & Maaß, 2020). 

Partant de ces constats, nous avons élaboré un référentiel de critères linguistiques pour simplifier les textes destinés à des publics dits vulnérables : des adolescents et adultes allophones peu littéraciés (faiblement scolarisés) ou en situation d’illettrisme (Canut et Husianycia, 2023). Nous proposons ici de présenter les choix opérés pour réaliser ce référentiel et de les illustrer par deux exemples de textes réécrits : un questionnaire réalisé par l’Institut des Politiques Publiques de Paris destiné à des chômeurs de longue durée (Territoire Zéro Chômeur de Longue Durée) et un livret d’accueil destiné à des adolescents incarcérés d’un établissement pénitentiaire pour mineurs (EPM, Quiévrechain). 

En collaboration avec l'Association de Formation et de Recherche sur le langage (AsFoReL), l'Institut des Politiques Publiques (IPP, Paris) et la Protection Judiciaire de la Jeunesse (PJJ, EPM Quivrechain)


15 novembre 2024
Oksana Ivchenko, doctorante en traitement automatique du langage, Université de Lille
Study of medical text reading and comprehension through eye-tracking fixations

Slides

 

This study explores the reading and comprehension of medical texts by analyzing eye-tracking data, focusing on passages that present reading difficulties. Given the complex language often found in medical documents, simplifying these texts is crucial for improving patient understanding and engagement. Our objectives are twofold: first, to identify text passages and words that pose challenges during reading, and second, to train a large language model (LLM) to predict eye-tracking features based on textual input. 

We conducted an eye-tracking experiment with participants from different backgrounds, analysing their reading behaviour on different text types, including original and simplified medical documents. Our results reveal significant differences in fixation duration, number of fixations and regression patterns between text types and participant groups, with specific eye-tracking features highlighting difficult words and passages.

Initial results from language model training show promising predictions for fixation measures, indicating that the model can help identify text complexity. The next steps will be to extend this framework to a multitasking approach, in which the model simultaneously predicts eye-tracking characteristics and classifies text and reader types, paving the way for a more nuanced understanding of readability in medical contexts.


18 octobre 2024
Anthony Cnudde, doctorant en bio-informatique, Université libre de Bruxelles
Extraire et structurer l'information : IA générative et analytique, et application à la pharmacologie

Slides

 

Les plantes médicinales sont largement utilisées par les patients, avec ou sans conseil professionnel. Les remèdes naturels ont en effet la réputation d'être sains et sans danger, et sont parfois opposés à la médecine conventionnelle. Cependant, les plantes sont composées d'une multitude de molécules susceptibles d'interagir entre elles, avec la physiologie du consommateur ou même avec d'autres traitements. Les interactions plante-médicament, si elles sont relativement rares, peuvent avoir de graves conséquences sur la santé des patients.

Pour permettre aux professionnels de santé --- parfois peu formés à ces problématiques --- de gérer ces interactions, une analyse approfondie de la littérature scientifique est nécessaire. Cette tâche est lourde et complexe, et l'existence de bases de données regroupant ces informations de manière fiable est d'une grande aide pour les praticiens. Cependant, remplir et maintenir à jour ces bases de données requiert énormément de temps et d'argent. La quantité d'articles présents dans la littérature augmente exponentiellement, de même que l'effort requis pour les synthétiser. Heureusement, les progrès continus dans le domaine de l'intelligence artificielle et du traitement du langage permettent de soulager les curateurs dans cette tâche.

Dans cette présentation, je donnerai un aperçu de comment les progrès dans le domaine de l'intelligence artificielle permettent de faciliter cette recherche d'information, et donc d'améliorer la prise en charge des patients. Je partirai des méthodes symboliques pour me diriger vers les méthodes plus récentes de Machine Learning, et partagerai ma vision de pharmacien des perspectives offertes par le nouveau paradigme qu'est l'intelligence artificielle générative.

27 octobre 2023
Erika Lombart, PhD en linguistique, Logisticienne de recherche SHS UNamur, Collaboratrice scientifique ILC
L'implicite sur les réseaux sociaux: Entre les lignes des forums de discussion 

Slides

 

L'implicite, mieux connu sous le nom de sous-entendu, est partout. Que ce soit pour mieux se faire comprendre, pour attirer l'attention de notre auditeur, pour s'assurer qu'un message passe bien ou au contraire qu'il sera le plus piquant possible… L'implicite est un outil précieux auquel nous recourons sans même nous en rendre compte. Mais qu'en est-il sur les réseaux sociaux ? Cette recherche analyse l'utilisation et la construction de l'implicite dans les forums de discussion de Doctissimo. Au départ des figures de la rhétorique et de la pragmatique, elle aboutit à une catégorisation innovante des formes de l'implicite non conventionnel et met en lumière leur lien avec l'intensité émotionnelle de la communication et leur rôle-clé dans la gestion relationnelle qui s'y joue.


3 novembre 2023
Emmanuelle Salin, doctorante au Laboratoire d'Informatique et Systèmes, Aix Marseille Université
Multimodal machine learning: the case of vision-language transformers   

Slides

 

Vision-Language transformer models combine information from the textual and visual modalities to extract multimodal representations. These models can be used as a basis for many multimodal vision-language tasks. Large pre-trained models based on the transformer architecture, inspired by recent advances in Natural Language Processing, have enabled great improvement on those tasks.

In this presentation, I will give an overview of vision-language transformer models. I will introduce the different types of models, in terms of architecture and pre-training methods. I will also present the strengths and weaknesses of those different methods. Finally, I will talk about current challenges and emerging trends of research in vision-language machine learning.


17 novembre 2023
Danqing Huang, data manager at the ILC (UCLouvain) & affiliated researcher at the QLVL (KU Leuven)
Diachronic Prototype Semantics of Chinese Radicals

Slides

 

Chinese radicals are the semantic components of Chinese characters that generally indicate major concepts and categories. Characters that share the same radical may be semantically linked in various ways to the broad semantic category that the radical represents, and radicals may thus be considered a categorization mechanism to distinguish lexical meanings (see Chen 2012). However, traditional studies of Chinese characters or radicals in Chinese linguistics are philological in nature (e.g. Lu & Wang 1994; Wang 1996), which tend to focus on the origin of radicals and characters, their graphemic development through time, and the symbolic connection between the character’s graphemic form and its phonetic aspect. In other words, not only has the cognitive aspect of Chinese radicals been neglected, but also prototype-based studies of Chinese radicals seem to be a missing corner.

To fill this research gap, this study takes the perspective of Cognitive Linguistics to determine which role radicals play as a way of categorization in Chinese characters. Concretely, the project focuses on the FIRE character given that FIRE is an independent character that can also be used as a radical in composite characters. The question arises as to what extent the semantic developments of the FIRE character and the FIRE radical are similar and whether it is possible that the FIRE radical develops independently of the FIRE character. In a first case study, I therefore investigate how the senses of the internal semantic structure of the FIRE character connect as a network. In a second case study, I analyze the semantic structure and development of the FIRE radical as well as the semantic network of composite characters in which the FIRE radical is involved. Finally, I look into variant characters and paronyms incorporating the FIRE radical in order to find out the semantic functions of radicals in so-called radicalization processes, whereby a radical is either added, replaced or removed from a character. Although the semantic structure of the FIRE radical overlaps with that of the FIRE character to a large extent, we find that the radical features independent developments, which are due to the semasiological change of the FIRE radical, internal semantic changes within composite characters and external mechanisms such as phonetic loaning and analogy.


1 décembre 2023
Regina Stodden, PhD student in computational linguistics, Heinrich Heine University Düsseldorf
German Text Simplification : Scarce Data and Other Challenges 

Slides

 

Text simplification is an intra-lingual translation task in which documents or sentences of a complex source text are simplified for a specific target audience. Many new models for text simplification have been proposed in recent years and months, but unfortunately, we often cannot be very sure of their quality. In most cases, we know too little about the training data and what kind of simplification we can expect from the models. In addition, we too often rely on controversial automatic evaluations, especially in languages other than English. In our view, the success of automatic text simplification systems depends as much or even more on the quality of the parallel data used for training and evaluation than on the text simplification models themselves.

This talk will look at each point of the text simplification pipeline, particularly the data and annotation aspect, and discuss how it could be improved. For example, it will include i) facilitating the construction of new high-quality text simplification corpora, ii) improving existing corpora through new annotations, including annotations of a) simplification operations, b) quality assessment, and c) error operations, and iii) rethinking the current evaluation process. We will illustrate the problematic areas using German texts as an example.


15 décembre 2023
Barbara Plank, LMU Munich & IT University of Copenhagen (ITU)
Human label variation in NLP 

Slides

 

Human variation in labeling is typically considered noise. Annotation projects in computer vision and natural language processing typically aim at minimizing human label variation, to maximize data quality and in turn optimize and maximize machine learning metrics. However, variation in human labeling is ubiquitous, and the typical approach of minimizing human label variation by aggregation disregards human label variation. There exists increasing evidence that human label variation is signal rather than noise.  In this talk, I will first illustrate the problem and then discuss approaches to tackle this fundamental issue at the interplay of language resources, data quality, machine learning modeling and evaluation. Overall, I will argue that looking at human label variation is critical for devising more human-facing, trustworthy language technology.


15 mars 2024
Thomas François et Rodrigo Souza Wilkens, CENTAL (UCLouvain)
Correction de productions écrites des apprenants du français assistée par ordinateur

 

L'évaluation des connaissances en langue est un enjeu fondamental, avec un large spectre d'implications sociales, en particulier dans le contexte des certifications de langues officielles. Les certificats officiels du niveau de compétence linguistique ont un effet direct sur des processus à fort enjeu telles que la naturalisation, la résidence, l'accès au marché du travail ou l’admission dans une l'université. Récemment, la nécessité d'obtenir des certificats attestant des compétences linguistiques s'est accentuée, créant une pression sur les organisations de certification qui ne sont plus en mesure de former suffisant de nouveaux évaluateurs (en raison de contraintes humaines, financières et temporelles). En réponse à ce besoin, la correction automatisée des textes (CAT) vise à déterminer automatiquement le niveau de compétence des candidats à l'aide de techniques de traitement automatique des langues (TAL). Cependant, les modèles CAT actuels, reposant sur l’apprentissage profond, nécessitent de larges corpus afin d’obtenir de bonnes performances. Malheureusement, il n'existe pas de corpus d’apprenants annotés selon l’échelle du CECR suffisamment large pour le français, ce qui rend la situation de la CAT en français loin d'être encourageante. Dans ce contexte, nous avons étudié, en collaboration avec France Éducation International, la faisabilité d'un système de CAT pour des productions écrites d’apprenants en français. Notre présentation sera organisée selon trois parties. Tout d'abord, nous exposerons l'état de l'art, les corpus existants et leurs caractéristiques, ainsi qu'une synthèse des techniques de CAT. Ensuite, nous présenterons le corpus TFCLE-8, qui contient plus de 6 000 productions écrites en français évaluées dans le contexte de l’examen de langue test de connaissance du français (TCF). Enfin, nous décrirons des expériences de CAT pour le français et nous discuterons les facteurs qui ont un impact sur la performance des modèles de CAT.


22 mars 2024
Yves Peirsman, language technologist, co-founder and CTO of Deontic 
NLP for compliance in the mobility sector

 

Compliance is a major struggle for companies in the mobility sector. In order to bring their vehicles and machines to the market, these need to comply with all applicable laws, regulations and standards. In this talk, I will show how Natural Language Processing, and in particular Large Language Models, can help companies find their way through this maze of regulatory requirements. Classifiers can determine the topic of a text and make it easier to manage vast amounts of information and make them more accessible. Question answering techniques can help users find the answer to their questions about regulatory data, and notify them when a relevant piece of legislation or a standard changes. Finally, code generation models can help output machine-readable versions of product requirements and testing scenarios, so that engineers spend less time coding these themselves. Several use cases from our work at Deontic will demonstrate how NLP can help increase productivity, bring down the time to market for the vehicles they develop, and ultimately improve the safety of the people that use these vehicles.


26 mars 2024
Jonas Granfeldt, professor of French linguistics, Lund University
Les recherches sur les stades de développement des apprenants suédophones en français L2 : Réflexions épistémologiques et méthodologiques

 

Dans cette intervention, nous proposerons d’abord une vue d’ensemble des recherches sur les stades de développement du français L2 telles qu’elles se développent au sein de l’équipe de l’université de Lund (Suède) depuis 30 ans (cf. Bartning & Schlyter, 2004 ; Ågren, Granfeldt & Schlyter, 2012). Ce survol sélectif nous permettra ensuite de mener une réflexion épistémologique sur la notion même de « stade de développement/acquisition » telle que définie dans la littérature et dans nos recherches, ce qui nous mènera ensuite à une discussion de choix méthodologiques qui, eux, sont étroitement liés à des prises de positions théoriques. Nous terminerons par quelques remarques sur l’avenir possible des recherches sur le français L2 dans ce domaine.


29 mars 2024
Alexis Safarikas et Tomas Staelens, Campfire AI
How NLP & LLM's are key to the success of conversational AI projects, cases and demonstration by Campfire AI

 

Explore the practical integration of natural language processing (NLP) and Large Language Models (LLMs) in solving real-world business challenges with Campfire AI. Our presentation will highlight how we've applied NLP across customer support, HR, and process optimisation, demonstrating the value of technology in tangible business contexts. Featuring projects involving UCL alumni, we aim to illustrate the potential for students and to engage with NLP beyond research.


26 avril 2024
Iris Eshkol Taravella, professeure de Sciences du langage, Université Paris Nanterre
Donne-moi la transcription de ta parole et je te dirai qui tu es

Slides

 

La communication cherche à montrer comment les corpus oraux transcrits contribuent aux recherches dans le domaine du TAL. Il peut s'agir de l'étude outillée de phénomènes linguistiques, du développement d'outils pour traiter l'oral ou pour reconnaître automatiquement un phénomène. Les corpus oraux peuvent ainsi être exploités comme une source d'informations  mais aussi comme un objet d'étude. Après avoir présenté le panorama de recherches dans le TAL portant sur les corpus oraux, nous décrirons deux travaux qui permettent de prédire automatiquement le profil du locuteur : la classification automatique de questions en spontanée vs préparée et la prédiction automatique de l'âge du locuteur.  

14 octobre 2022
Carlos Hidalgo, Researcher in research group LEXYTRAD (Lexicography and Translation) (University of Malaga)
gApp: a text preprocessing system to improve the neural machine translation of discontinuous multiword expressions
 

In this seminar, we present gApp, a text-preprocessing system designed for automatically detecting and converting discontinuous multiword expressions (MWEs) into their continuous forms so as to improve the performance of current neural machine translation systems (NMT) (see Hidalgo-Ternero, 2021, & Hidalgo-Ternero & Corpas Pastor, 2020, 2022a, 2022b & 2022c, among others). To test its effectiveness, several experiments with different NMT systems (DeepL, Google Translate and ModernMT, among others) and in different language directionalities (ES/FR/IT>EN/DE/ES/FR/IT/PT/ZH) have been carried out in order to verify to what extent gApp can enhance the performance of NMT systems under the challenge of phraseological discontinuity.


25 novembre 2022
A. Seza Dogruöz
Toward Dynamic and Inclusive Language Technologies

 

Current language technologies are mostly built from a static point of view. This view has difficulties in adapting to the dynamic and ever-changing aspects of language as it is used in society by speakers and users with diverse social and linguistic backgrounds (e.g., multilinguals), needs and preferences. During the talk, comparisons will be made across communication contexts & languages, data sets and methods of analyses to illustrate the challenges and possible solutions covering both linguistics and computational linguistics domains.


02 décembre 2022
Miryam de Lhoneux
Typologically fair NLP

 

The field of NLP has historically had a strong bias towards work that primarily uses English as a language of investigation. The situation is changing and multilingual NLP is booming.
This talk starts with a description of the state of multilingual NLP, highlighting both its successes and its limitations. In particular, large multilingual pretrained models (PLM) such as mBERT or XLM-R have shown surprising cross-lingual capabilities but they cover a small fraction of the world's languages with large inequalities in performance. These inequalities stem from at least two sources: 1) NLP datasets are highly imbalanced with regards to typological diversity and 2) NLP models tend to be developed for English first and then adapted to other languages, which leads to biases in the model assumptions. I describe attempts at overcoming both of these limitations. To overcome data imbalance, I describe a method from algorithmic fairness which samples data from different sources in a way that is more robust to underrepresented languages than alternative sampling methods. To overcome model assumption biases, I describe a PLM which uses pixel-based representations of language instead of the commonly used subword representations. I conclude with some directions for working towards typologically fairer NLP.


08 décembre 2022
Aurélie Calèbre et Eole Lapeyre
Automated text simplification as a reading aid for low-vision individuals

 

In developed countries, the majority of people with visual impairment are legally blind, but not totally blind. Instead, they have what is referred to as low vision, commonly caused by Central visual Field Loss (CFL). This degenerative condition is caused by non-curable retinal diseases, such as Age-related Macular Degeneration (DMLA in French). Patients suffering from such pathologies will develop a blind region called scotoma, located at the center of their visual field and spanning about 20° or more. To better visualize the impact of such a large hole in your visual field, try stretching your index and little finger as far as possible from each other at arm’s length; the span is about 15°. Central vision cannot be restored and difficulty with reading becomes the primary complaint of patients seeking rehabilitation. To help CFL individuals improve their reading performance, it is necessary to investigate the underlying causes of their deficit, to then overcome them with specific adjustments.
In this presentation, I propose to address the issue of reading with CFL from a linguistic perspective, which takes into account the whole complexity of texts. I will present a series of experiments that investigate what makes a text especially complex when reading with CFL. I will conclude on the relevance of this work to design text simplification tools, customised to the specific needs of readers with CFL, to be used as efficient reading aids for this population.


24 février 2023
Gael Guibon, Associate professor in Institute of Digital Sciences, Management and Cognition (University of Lorraine)
De l'identification des émotions à la détection des conversations problématiques dans des conversations de service client

 

Nombreux sont les contextes industriels nécessitant la mise en place d’un service client qualitatif par le biais de tchats textuels. En effet, ces services ont pour principal objectif d’aider le client à résoudre leur problème rencontré et par la même occasion d’améliorer sa satisfaction. Cependant, les données qui y sont extraites sont principalement confidentielles, ce qui constitue un frein majeur à leur utilisation et à leur partage au sein de la communauté de recherche en traitement automatique du langage naturel. Ces données sont de surcroît rarement annotées. Dans ce séminaire, nous synthétiserons l’état de l’art de la reconnaissance d’émotions en conversation et de la détection des conversations problématiques en service client. Nous présenterons ensuite nos travaux sur la détection d’émotions en conversations à l’aide d’apprentissage méta ou frugal, avant de conclure sur l’identification du statut de résolution du problème du client et la détection des conversations problématiques. Tous les travaux qui seront présentés dans ce séminaire ont été effectués lors d’un post-doctorat commun au Laboratoire Traitement et Communication de l'Information (LTCI) de Télécom Paris et à la Direction Technologie Innovation Recherche Groupe (DTIPG) de la SNCF.


08 mars 2023
Simon Hengchen, Founder of Iguanodon.ai
Quantitative approaches to historical texts: some (non-)issues and how to tackle them

 

Quantitative methods for historical text analysis offer exciting opportunities for researchers interested in gaining new insights into long studied texts. However, the methodological underpinnings of these methods remains under-explored. In the first part of the talk I will show and discuss, through the use of a case study, the (non-)effect the OCR process has on a range of quantitative text analyses. In the second part of the talk, I will present a novel and totally unsupervised OCR post-correction method on the same dataset, as well as its most recent evolution on a highly-inflected language, Finnish.


10 mars 2023
Vincent Vandeghinste, KU Leuven, Belgique
Challenges in Machine Translation for Sign Languages

 

This talk is about the SignON project, in which we aim to build MT engines from Sign Languages to Spoken Languages and vice versa. While this is MT between two natural languages there are several major differences with regular MT between written languages. This talk will be about these differences and how we try to tackle them in the SignON project.


15 mars 2023
Melvin Wevers, University of Amsterdam
NLP as an Intermediary for Historical Research

 

In this talk, I will focus on how I use methods from NLP (text classification, parsing, topic modeling, embeddings) toolkit in my work as a historian. Rather than focusing my attention on improving NLP, I show how they function as an intermediary in my research workflow. NLP is great for extracting information from digitized historical sources, and as such it can inform search and exporation of digitized archives. However, if we want to model historical processes or phenomena, we need to think how we can use these extracted features as input for methods outside of NLP.
Using examples from my own work, I will highlight the importance of NLP but I also argue that we need to think broaden our toolkit  if we truly want to engage with history in a computational manner.


16 mars 2023
Leonardo Campillos-Llanos, tenure track scientist at the Spanish National Research Council (CSIC)
Advances in processing and simplification of clinical trials texts

 

Clinical trial announcements report information about patients' eligibility criteria, medical condition under investigation and interventional procedures to be tested. This information is a valuable source of data for named entity recognition tasks, complementary to other resources such as patients' records. Our current project (CLARA-Med) focuses on automatic text simplification of trial contents to improve their understanding by patients. Preliminary work will be explained about the approaches to tackle this task in Spanish. First, the creation of a comparable and parallel corpus for automatic medical text simplification. Second, the creation of a lexicon of technical and simplified medical terms. Lastly, initial experiments applying deep-learning-based models to simplify technical sentences. The work-in-progress will be presented and perspectives of our work will be discussed.


31 mars 2023
Guillaume Bernard, Université de La Rochelle, France
Détection et suivi d'événements dans des documents de presse historique

 

Les campagnes actuelles de numérisation de documents historiques issus de fonds documentaires du monde entier ouvrent de nouvelles voies aux historiens, historiennes et spécialistes des sciences sociales. La compréhension des événements du passé se renouvelle par l’analyse de ces grands volumes de données historiques : découdre le fil des événements, tracer de fausses informations sont, entre autres, des possibilités offertes par les sciences du numérique. Ces travaux s’intéressent à ces articles de presse historique et proposent, à travers deux stratégies que tout oppose, deux processus d’analyse répondant à la problématique de suivi des événements dans la presse. Un cas d’utilisation simple est celui d’une équipe de recherche en humanités numériques qui s’intéresse à un événement particulier du passé. Ses membres cherchent à découvrir tous les documents de presse qui s’y rapportent. L’analyse manuelle des articles est irréalisable dans un temps contraint. En publiant à la fois algorithmes, jeux de données et analyses, cette thèse est un premier jalon vers la publication d’outils plus sophistiqués. Nous permettons à tout individu de fouiller les fonds de presse ancienne à la recherche d’événements, et pourquoi pas, renouveler certaines de nos connaissances historiques.


21 avril 2023
Dominique Brunato, ItaliaNLP Lab, Institute of Computational Linguistics (CNR-ILC), Pisa, Italy
Measuring linguistic complexity from a computational linguistics perspective

 

Linguistic complexity is a highly debated and multifaceted notion, for which several definitions have been proposed according to theories and empirical evidence acquired from different frameworks ‒ such as language acquisition, language typology, computational stylometry ‒ as well as according to the specific research purpose. By exploiting a computational linguistics perspective, in my talk I will present an approach to model linguistic complexity based on linguistic profiling as a methodological framework (Biber, 1993; Val Halteren, 2004 among others), and I will illustrate Profiling-UD (Brunato et al., 2020), a recently introduced tool that allows to carry out the linguistic profiling of a text for multiple languages sharing the same annotation formalism based on the Universal Dependencies representation (Nivre et al., 2015). A few case studies will be discussed in order to show how this approach has been successfully applied to track language learning development and to model the human perception of complexity.

19 octobre 2021
Adrien Bibal, Postdoctoral Researcher in Machine Learning and NLP at UCLouvain
Interpretability and Explainability in Machine Learning
Lien vers la visioconférence

 

Machine learning models are becoming more and more complex for the sake of performance. However, in many situations, the way in which the model is computed must be somewhat transparent. For instance, in some countries, the reasons for credit denial must legally be provided. Furthermore, in science, it is often not the predictive performance of the model that is sought, but the knowledge that can be extracted from it. Interpretability is a property of models that characterizes the degree to which models are understandable by their users, while explainability is the capacity the model to be explained, if it is not interpretable. In this seminar, we will introduce these two concepts, as well as the issues related to their implementation and evaluation.


09 novembre 2021
Thomas François, Chargé de cours à l'UCLouvain
Le TAL pour l'évaluation automatique de la difficulté de lecture en FLE
Lien vers la visioconférence

 

Cette présentation introduira trois projets du Cental ciblant la question de l’évaluation automatique de la difficulté de documents pour le FLE. Tout d’abord, nous présenterons une nouvelle formule de lisibilité pour évaluer la difficulté des textes de FLE automatiquement. Cette formule intègre les dernières technologies basées sur le Deep Learning et les représentations sémantiques de type BERT. Dans un second temps, nous présenterons le projet CEFRLex, un projet phare du Cental. La présentation décrira ses fondements théoriques et la méthodologie de conception des ressources. Ensuite, nous discuterons comment les informations du projet CEFRLex, couplées avec les référentiels de Beacco pour le CECR, peuvent être utilisées pour prédire automatiquement la connaissance lexicale réceptive d’apprenants du FLE.


07 décembre 2021
Bill McDowell, this seminar is held in the context of the CEFR workshop
The Duolinguo CEFR Checker: A multilingual Tool for Adapting Learning Content
Lien vers la visioconférence

 

Duolinguo is the world's most popular language education platform, with more than 500 million students worldwide. Content creation for the Duolingo app requires adapting text in many languages to target varying levels of proficiency. To make this process more efficient, we have developed automated multilingual methods for aligning content to the CEFR proficiency standard. In this talk, I’ll discuss the Duolingo CEFR Checker, a (semi-)language-agnostic tool that aligns text to the CEFR standard using methods that involve transfer learning, multilingual word embeddings, and word frequencies estimated across large corpora.


22 février 2022
David Alfter, Chercheur postdoctoral en linguistique computationnelle
La prédiction automatique de la complexité des mots et ses applications à l'apprentissage des languages assisté par ordinateur

 

Le vocabulaire joue un rôle essentiel dans l'acquisition d'une nouvelle langue. La question centrale est de savoir quand apprendre quoi. Cette présentation se concentrera sur la complexité des mots pour les apprenants de langues d'un point de vue de linguistique appliquée. Dans la première partie, un modèle automatique entraîné sur des manuels scolaires et capable de prédire le niveau estimé des mots inconnus sera présenté. Dans la deuxième partie, l'utilisation du crowdsourcing pour la création de ressources graduées sera discutée. Dans la dernière partie, des applications pratiques destinées aux apprenants seront présentées.


 

Over the last decades, speech technologies based on Deep Learning algorithms have evolved into successful applications such as speech recognition or synthesis. Online language-learning solutions have begun to recognize the potential of such technologies to personalize language teaching and learning. However, as of now, even the most prominent solution providers integrate speech technologies in their learning tools as they are packaged by the GAFAM companies that develop them. This lack of adaptation limits their impact on learning as those technologies were not designed for providing pedagogical feedback.
Flowchase is a mobile app and a textbook that help English as a Foreign Language teachers personalise the way they teach pronunciation. What started as a UCLouvain research project in voice technology is now a tool used by thousands of students in Belgium, France and Spain. Coming from an academic background, scientific research has been at the heart of our design principles from day one to produce evidence-based learning content or to craft speech technology resulting in pedagogically-sound feedback for learners. In this seminar, we outline the research paradigms that have guided us so far, introduce our tool, and present our ongoing research projects within the fields of second language acquisition and speech technology.


 

Dans cet exposé, je soutiendrai qu'il est très bénéfique pour le linguiste contemporain d'avoir une compréhension approfondie de la relation étroite entre les domaines de la grammaire de construction et de l'intelligence artificielle. Je commencerai par démêler les liens historiques entre les deux domaines, montrant que leur relation est enracinée dans une attitude commune envers la communication humaine et le langage. On étudiera ensuite la première direction d'influence, en se concentrant en particulier sur la façon dont les idées et les techniques du domaine de l'intelligence artificielle jouent un rôle important dans l'opérationnalisation, la validation et la mise à l'échelle des approches constructionnistes du langage. On étudiera ensuite la deuxième direction d'influence, soulignant la pertinence des connaissances et des analyses de la grammaire de construction pour l'effort de créer des agents véritablement intelligents dans le domain de l'intelligence artificielle. Je soutiendrai mon cas avec une multitude d'exemples illustratifs et conclurai que l'élaboration plus poussée de cette relation jouera un rôle clé dans le façonnement de l'avenir du domaine de la grammaire de construction.


10 mai 2022
Matthew Shardlow, Lecturer in computer science at the Manchester Metropilitan University
Neural Text Simplification: Methods, Evaluation and Application

 

Text Simplification is the technique of automatically reducing the complexity of a text by altering the syntax or lexicon. Neural text simplification seeks to apply deep learning to the text simplification problem in order to create systems which can automatically generate easier to understand alternatives to complex texts. In this talk, I will look at the current methods for neural text simplification ranging from the application of statistical machine translation software to the transformer methodology and beyond. I will consider how to evaluate text simplification (and other natural language generation methods) with a view to developing gold standard evaluation practices that can be adopted between researchers. I will also discuss some of the varied applications of text simplification, ranging from improving medical language for patients to improving the performance of other NLP tool.

22 octobre 2020
Philippe Viallon, Professeur des universités, Université de Strasbourg, Chaire Unesco « Pratiques journalistiques et médiatiques », UR 2310, LISEC.
Médias sociaux ou médias dits sociaux


En quelques années, les médias sociaux ont envahi nos vies. Que ce soit pour partager des informations professionnelles ou privées, rechercher un(e) partenaire ou un travail, ou simplement pour téléphoner gratuitement, ils ont non seulement conquis la génération Y qui a grandi avec eux, mais également rattrapé les générations plus anciennes. Le développement de l’usage des smartphones, avec leur capacité à s’affranchir de valeurs aussi essentielles que le temps et l’espace, a largement contribué à leur succès. Cette intervention revient sur le fonctionnement de cette nouvelle forme de communication, entre virtualité et réalité, entre bien et mal, et explique ce qui rend le phénomène si complexe.


03 décembre 2020
Dominique Casanova, Responsable du développement scientifique, Le français des affaires.
Notation automatique de productions écrites en français langue étrangère ou seconde

 

L’évaluation de productions écrites par des correcteurs humains pose des questions de coût, de délais et de fiabilité. Les concepteurs de tests de langue explorent donc les possibilités offertes par le traitement automatique des langues et l’apprentissage automatique pour mettre au point des systèmes de notation automatique. Ils réfléchissent également à l’utilisation pertinente qui peut être faite de tels outils dans des contextes d’évaluation à forts enjeux. Cette intervention présente les travaux en cours au Français des affaires, dans le domaine de la langue française et pour un public au niveau de langue variable.


11 février 2021
Sébastien Annys, Administrateur de Home Based srl
Soline, une plateforme de contrôle d'environnement multimodale, modulaire et évolutive

 

Soline est une plateforme de contrôle d’environnement multimodale, modulaire et évolutive. Elle permet aux personnes en perte d’autonomie de retrouver le contrôle des équipements de leur habitation, d’une manière adaptée à leurs capacités actuelles et futures. Regroupant une dizaine de modes d’interaction différents, elle permet de les combiner afin de garantir à ses utilisateurs une disponibilité tout au long de la journée, quel que soit l’heure ou leur état. Son mode d’interaction principal, la voix, s’adapte aux défauts de prononciation de ses utilisateurs, ce qui rend Soline adéquate à son utilisation par des personnes qui n’ont pas une diction claire. La seule contrainte est une reconnaissance effective et constante des sons émis. Le découplage entre l’analyse du son et l’analyse sémantique permet un travail par mot clé et de s’affranchir des erreurs de transcriptions commises par le moteur de reconnaissance vocale.


11 mars 2021
Hugues de Mazancourt, VP Innovation à Yseop et président de l'Association des Professionnels des Industries de la Langue
La génération en langage naturel : répondre aux contraintes industrielles

 

La recherche industrielle a récemment mis au devant de la scène des modèles massifs dédiés à la génération en langage naturel (NLG). Ces modèles, basés sur des architectures de type Transformer semblent présenter des qualités inégalées. Pourtant, les technologies mises en œuvre par les éditeurs de NLG semblent très loin de ces systèmes. Cette intervention revient sur les principales applications industrielles de la génération automatique de textes, les contraintes associées et les techniques mises en œuvre, en particulier par la société Yseop.


29 avril 2021
Rémi Cardon, STL - CNRS / Université de Lille
Simplification automatique de textes spécialisés et techniques

 

La simplification automatique de textes est un domaine du traitement automatique des langues (TAL) qui vise à traiter des textes difficiles à lire pour un public donné de façon à les rendre plus accessibles. Notre objectif consiste à simplifier automatiquement les textes médicaux et de santé. Nous présentons l’ensemble de notre travail sur cette question, qui va de la collecte et analyse de corpus jusqu’aux expériences en simplification automatique. Nous commençons par la collecte d’un corpus comparable de textes médicaux. Ce corpus est constitué de couples de documents qui traitent du même sujet : l’un s’adressant à un public spécialiste et l’autre à un public néophyte. Le corpus contient trois types de textes : des informations sur les médicaments, des revues systématiques de littérature médicale et des articles encyclopédiques. Une fois les documents collectés, nous annotons un sous-ensemble de ces documents et analysons les transformations linguistiques qui y sont mises en œuvre lors de la simplification.À partir du corpus comparable, nous mettons en place une méthode pour en extraire un corpus parallèle, c’est-à-dire un corpus comprenant des couples de phrases qui ont le même sens mais diffèrent par leur degré de difficulté. Ce type de corpus représente le matériau principal pour les méthodes de simplification automatique. Notre méthode d’extraction de phrases parallèles comporte deux étapes : (1) le préfiltrage de paires de phrases candidates à l’alignement selon des heuristiques syntaxiques et (2) la classification binaire permettant de distinguer les phrases en relation de simplification. Nous évaluons différents classifieurs ainsi que l’influence du déséquilibre des données sur les performances. Afin de valoriser ce corpus parallèle, nous créons également un corpus de paires de phrases annotées selon leur similarité sémantique, avec des scores allant de 0 (sémantique indépendante) à 5 (même sémantique). Les deux corpus sont disponibles pour la recherche. Enfin, nous présentons une série d’expériences en simplification automatique de textes médicaux en français. Ainsi, nous mettons à l’œuvre une méthode neuronale issue de la traduction automatique. Nous utilisons plusieurs ressources : le corpus parallèle médical construit par nous, le corpus parallèle de langue générale automatiquement traduit par nous de l’anglais vers le français ainsi qu’un lexique qui apparie des termes médicaux avec des termes ou paraphrases accessibles au grand public. Nous décrivons le protocole expérimental et menons une évaluation en deux volets, quantitatif et qualitatif. Les résultats sont comparables à l’état de l’art de la simplification en langue générale et montrent que les simplifications produites peuvent être exploitées dans le cadre d’une tâche de simplification assistée par ordinateur.


06 mai 2021
Marie-Catherine de Marneffe, Professeure associée au département de linguistique à The Ohio State University ; CENTAL
Identifying speaker commitment for natural language understanding

 

When we communicate, we infer a lot beyond the literal meaning of the words we hear or read. In particular, our understanding of an utterance depends on assessing the extent to which the speaker stands by the event she describes. An unadorned declarative like “The cancer has spread” conveys firm speaker commitment of the cancer having spread, whereas “There are some indicators that the cancer has spread” imbues the claim with uncertainty. It is not only the absence vs. presence of embedding material th at determines whether or not a speaker is committed to the event described: from (1) we will infer that the speaker is committed to there being war, whereas in (2) we will infer the speaker is committed to relocating species not being a panacea, even though the clauses that describe the events in (1) and (2) are both embedded under “(s)he doesn’t believe”.

 (1) The problem, I’m afraid, with my colleague here, he really doesn’t believe that it’s war.

 (2) Transplanting an ecosystem can be risky, as history shows. Hellmann doesn’t believe that relocating species threatened by climate change is a panacea.

In this talk, I will first illustrate how looking at pragmatic information of what speakers are committed to can improve NLP applications. Previous work has tried to predict the outcome of contests (such as the Oscars or elections) from tweets. I will show that by distinguishing tweets that convey firm speaker commitment toward a given outcome (e.g., “Dunkirk will win Best Picture in 2018”) from ones that only suggest the outcome (e.g., “Dunkirk might have a shot at the 2018 Oscars”) or tweets that convey the negation of the event (“Dunkirk is good but not academy level good for the Oscars”), we can outperform previous methods. Second, I will evaluate current models of speaker commitment, using the CommitmentBank, a dataset of naturally occurring discourses developed to deepen our understanding of the factors at play in identifying speaker commitment. I will show that current models fail on items that necessitate pragmatic knowledge, highlighting directions for improvement.

31 octobre 2019
Olga Seminck, UCLouvain - IoNS, MiiL et Cental
Cognition et TAL

 

Étant nouvellement arrivée au CENTAL, je présenterai deux sujets - l’un actuel, l’autre passé – afin de donner un aperçu global de mon travail.
Mes recherches s’articulent autour de l’utilisation de modèles computationnels permettant d’étudier des questions cognitives/linguistiques. J’utilise en effet la modélisation informatique afin de répondre à des questions de nature cognitive et linguistique.
La première présentation portera sur ma thèse (« La modélisation cognitive et computationnelle de la résolution des pronoms ») qui avait pour objectif de trouver des modélisations computationnelles reflétant la charge cognitive de la résolution des pronoms. Pour ce faire, j’ai notamment travaillé sur un corpus d’oculométrie afin de déterminer s’il était possible de prédire la lecture des pronoms en fonction de leurs caractéristiques linguistiques.
La seconde présentation traitera du projet MIND-IT pour lequel j’ai été engagée à l’UCL. Le but de ce projet est de proposer une méthode efficace, bon marché et non invasive dédiée à la détection précoce de la maladie d’Alzheimer. Cette recherche analyse l’historique des conversations électroniques de participants malades et sains afin de définir un modèle informatique capable de détecter un déclin du niveau linguistique pouvant être l’un des premiers signes de la maladie.

Slides ici


21 novembre 2019
Serge Bibauw, ITEC, KU Leuven & CENTAL, UCLouvain
Systèmes de dialogue pour l'apprentissage des langues: typologie des systèmes et mesure des effets

 

Les systèmes de dialogue pour l'apprentissage des langues regroupent différentes applications permettant à un apprenant de langue étrangère de converser, oralement ou par écrit, avec un interlocuteur automatisé (chatbot, robot, interface vocale, personnage non-joueur, etc.). À partir d'une synthèse systématique de la littérature scientifique sur ces systèmes, je présenterai un tour d'horizon des différentes expériences de développement, débouchant sur une typologie des systèmes de dialogue pour l'apprentissage des langues. Je mettrai l'accent sur les approches technologiques utilisées, avec leurs implications et apports respectifs.

Dans un deuxième temps, je montrerai comment l'efficacité de ces différents systèmes a été évaluée empiriquement. Dans des études antérieures d'abord, à travers une méta-analyse des effets sur l'apprentissage des langues. Dans une étude expérimentale ensuite, avec un jeu dialogique pour l'apprentissage du français, dont nous avons mesuré les effets en termes de développement du vocabulaire et de la fluence, dans un processus semi-automatisé de passation et d'analyse d'entretiens oraux. Je discuterai des leçons de cette étude et des pistes les plus prometteuses qu'elle ouvre pour la recherche et les applications d'apprentissage des langues.

Slides : ici


5 décembre 2019
Bertrand De longueville, Text Mining and Analysis Competence Centre
Measuring the Power of Emotions on the (social) web : a journey of TextMiners towards "mindful politics"

 

This presentation is two-fold : first, I will give an overview the ongoing research activities at the European Commission's Joint Research Centre in the field of Text Mining and Analysis. Next, I will zoom on a specific piece of work we presented recently at the Web Summit, related to the characterisation of the European Emotional Landscape throughNatural Language Processing of online sources. It capitalises on a 10+ year-long effort of online media monitoring, and recent advances on Sentiment Analysis from both media and social media sources.

Slides : ici


12 décembre 2019
Benoît Crabbé, Université Paris Diderot, IUF, UFRL, LLF, FR
Modèles de langue pour prédire la complexité syntaxique

 

L’arrivée de l’apprentissage profond pour la modélisation du langage ouvre de
nouvelles perspectives pour la modélisation de la structure de la phrase.
Dans cet exposé on s’intéressera au problème de prediction de la complexité syntaxique à l’aide de modèles de langues.
Les modèles de langue traditionnels sont en général séquentiels, mais on peut également créer des modèles de langue qui font une hypothèse
de structuration en arbre de la phrase. On verra comment ces différents modèles s’incarnent dans le paradigme de l’apprentissage profond ainsi que des perspectives de modélisation nouvelles issues de ce paradigme.
On présentera enfin un aperçu de problématiques de recherche spécifiques à la conception de parsers neuronaux génératifs ainsi que leurs limitations actuelles

Slides : ici


19 décembre 2019
Peter Dirix, Manager of ASR Core Linguistic Resources chez Cerence Inc.
Introduction to Speech Recognition & Linguistics

 

While there existed research into speech recognition even before there were computers and dictation software has beenavailable since the 1990s, the major breakthrough to the general public only happened over the last ten years. Smart TVs, smart cars, and particularly smartphones are now widely available and controllable by human voice.

After a very short summary of the history of automatic speech recognition (ASR), I will give an introduction to the basic components of an ASR system: the decoder, the acoustic model, the language model and the pronunciation lexicon. Thereafter, the training, testing and possible adaptation of the those components will be discussed, as well as the data needed for the various steps. I will also mention some issues and challenges for the future.

To conclude, I will discuss some of tasks of (computational) linguists at a speech recognition company. Those include but are not limited to the creation and maintenance of the pronunciation lexica and pre- and post-processing tools, as well as the development of grammars for the creation of training data and recognition grammars (controlled language), and finally the analysis of bug reports and field data.

Slides : ici


5 mars 2020
Els Lefever
Cyberbullying Detection, Irony Detection & Opinion Mining in Distributional and DeepSemantic Text Analysis

Slides : ici


30 avril 2020
Anaïs Tack, CENTAL - UCLouvain, ITEC, imec research group - KU Leuven
Predicting the difficulty of words for L2 readers: An empirical investigation into meaning-based and personalized word-level readability assessment with lexicon, statistical, and machine learning methods. 

 

With vocabulary being one of the core aspects of successful reading comprehension in the foreign language (L2), a critical issue in educational technology development is to research methods that can ensure, for a given learner, the readability of the material at the word level. In the area of computational linguistics in particular, a recent number of studies have therefore developed various heuristics and models for predicting lexical difficulty in reading. However, thereare two restrictions in the current methodology that might pose a limit on achieving more accurate and learner-tailoreddiagnostics. On the one hand, there is the issue of contextualization. Given that lexical difficulty is often estimated frommeasurements and rankings of words appearing in isolation, these estimates might not accurately inform us about the difficulty involved in reading words in context. On the other hand, there is the issue of personalization. Seeing that recentadvances in machine learning require the availability of sizable data, studies often resort to aggregated and crowdsourced annotations to optimize the data collection process, which leads to a loss in valuable information on the variability in difficulty among learners. The aim of this presentation is therefore to look into the ways in which we could address thesetwo limitations.

In the first part, I will give a systematic scoping review of previous studies that examined lexical competence in L2 reading and which predicted the effect of various factors on the construct measured as a dependent variable. The synthesis, which covers 125 publications and spans almost 50 years of research, aims to be methodological in nature in that it provides an overview of the types of measurements and predictors investigated to date. After having defined the scope of research for lexical competence in general, I will then zoom in on the construct of lexical difficulty in particularand briefly review how recent benchmarks have furthered the development of automated methods.

In the second part, I will compare two types of empirical measures of lexical difficulty. First, I will look at a priori knowledge of difficulty which can be drawn from reading material attested in textbooks and readers graded along the CEFR (Common European Framework of Reference) scale. As a follow-up on previous work on the use of CEFR-gradedword frequencies for French L2 (Tack, François, Ligozat, & Fairon, 2016a, 2016b), I will investigate the added value of word-sense disambiguation (WSD) through the development of a similar resource for Dutch L2, viz. NT2Lex (Tack, François, Desmet, & Fairon, 2018). In particular, I will look at the link between WSD and semantic complexity measuressuch as hypernymy and contrast the distribution of cognates in the French and Dutch lexicons. Next, in order to accountfor a number of limitations in using this lexicon-based approach, the focus will be shifted towards using a posteriori knowledge of difficulty as measured in self-paced reading. Since the construct of difficulty can be defined and operationalized in various ways, I will concentrate on the use of subjective judgments to understand what triggers learnersof French to notice difficulty while reading.

In the final part, I will discuss the use of statistical and machine learning methods to learn to predict diffculty from the previously collected learner data. In particular, two types of predictive analyses will be discussed. On the one hand, I will make use of Hierarchical Generalized Linear Mixed Models (HGLMMs) to integrate randomness at the subject level intoa number of fixed effects selected from more than 200 features of lexical complexity. The results indicate that a small set of features are sufficient to explain the majority of the variance (.61 ≤ R2 ≤ .86). On the other hand, the results alsocorroborate findings that most of the variance in the complexity features can be accounted for by state-of-the-art 300-dimensional word embeddings. Enhancing deep neural networks with both contextualization and personalizationsignificantly betters the discriminative
power as well as the correlation with learner judgments.

Lieu : Conférence Teams

Slides : ici


7 mai 2020
Gudrun Ledegen, PU Sciences du Langage, Université Rennes 2 (France), Pôle de recherche Francophonie, Interculturel, Communication, Sociolinguistique (PREFICS) - EA 7469
Analyse d'un site de tchat de prévention du suicide (analyse de discours, sociolinguistique, lexicométrie et IA)

 

L’étude présentée analyse la difficile tâche d’une association de prévention du suicide, qui, après avoir été longtemps téléphonique, est passée depuis quelques années aussi à l’écrit via « l’interface chat ». Ce nouveau mode d’accueil se révèle fortement marqué par l’absence de la voix de l’interlocuteur, et de sa prosodie, rendant l’empathie difficile à communiquer (Ledegen 2019, 2020). S’inscrivant dans l’approche de la sociolinguistique d’intervention (Bulot 2008) et de l'analyse du discours (, notre analyse tente de répondre aux interrogations des responsables et des intervenants sur le chat de prévention du suicide, en termes d’efficacité de l’accueil et des discours produits (en lien par exemple avec les différences générationnelles dans les patrons de communication, les bénévoles étant en grande majorité des personnes âgées, et le site étant mis en place spécifiquement pour le public jeune, peu enclin à utiliser le téléphone). Le but ici est de présenter une analyse sociolinguistique du discours de ce corpus de confidences (Kerbrat-Orecchioni & Traverso 2007) : particularités registrales, organisation conversationnelle, dysfonctionnements dans l’interaction... L’approche suivie sollicite la sociolinguistique, l’analyse conversationnelle et interactionnelle, ainsi que discursive et lexicométrique, pour cerner toute la complexité de ce chat de prévention, et en tirer des leçons en vue de la formation des bénévoles (tchatbot, alerte en ligne...).

Lieu : Conférence Teams

Slides : ici

19 octobre 2018
Carlos Ramisch,  LIS - Aix-Marseille Université
Multiword expression identification: how far have we got?

 

I will talk about multiword expression identification, that is, given an input text, we try to automatically identify (and categorise) the tokens belonging to multiword expressions in it. This task can be extremely useful to avoid errors in parsing and semantic applications that tend to process multiword expressions compositionally, word by word, whereas they must be treated as a unit. I will present an overview of the PARSEME corpora and shared task focusing on verbal expressions. Then, I will talk about two systems developed in our group for this task: an old-fashioned rule-based system submitted to the DiMSUM shared task, and a more trendy one, based on recurrent neural networks and submitted to the PARSEME shared task 2018. I will conclude my talk with a some philosophical digression on whether multiword expressions are nowadays still a pain in the neck, or if deep learning transformed their identification into a piece of cake.

Présentation : ici


26 octobre 2018
Pascal Amsili, LLF Lattice (Université Paris-Diderot)
Autour de la résolution automatique de la coréférence : définition de la tâche, modélisation cognitive, schémas Winograd.

 

Je vais présenter dans cet exposé plusieurs travaux récents menés dans notre équipe autour de la résolution automatique de la coréférence. Nous commencerons par revenir sur la tâche de résolution des coréférences telle qu'elle est définie en TAL. Sur la base des travaux de Master de Quentin Gliosca, nous montrerons qu'une nouvelle définition de cette tâche, basée sur les têtes et non sur les empans, peut se révéler plus utile à la communauté, plus facile à évaluer, et offrir de meilleures performances.
Nous parlerons ensuite de l'utilisation de modèles computationnels de résolution des coréférences pour simuler de façon cognitivement plausible le comportement humain sur cette tâche. Les travaux de thèse d'Olga Seminck montrent que si c'est une tâche difficile, cela peut se révéler utile à la fois pour les psycholinguistes qui élaborent des modèles et pour les chercheurs en TAL qui cherchent de nouvelles sources d'inspiration.
Selon le temps, nous évoquerons aussi des travaux que nous menés, en collaboration avec Olga Seminck et de nombreux stagiaires, sur les schémas Winograd. Il s'agit de phrases comportant un pronom dont l'antécédent est évident pour la quasi-totalité des humains, mais très difficile à résoudre pour un système automatique. Nous rapporterons diverses expériences statistiques et psycholinguistiques que nous avons menées sur la collection française de schémas Winograd que nous avons élaborée.

Présentation : ici


9 novembre 2018
Yves Peirsman, NLP Town
Natural Language Processing in Industry: State of the Art and Remaining Challenges

 

Natural Language Processing is going through exciting times. After the breakthrough of Deep Learning, new advances in transfer learning and multi-task learning open up many opportunities for the wide application of language technology. Still, it can be surprisingly challenging to apply NLP successfully in a business context. In this talk, I will give an overview of some successful NLP applications in various sectors, and identify the main challenges for the wide adoption of NLP in industry.

Présentation : ici


30 novembre 2018
Xavier Tannier, Inserm LIMICS (Université Paris-Sorbonne)
Analyse automatique de comptes-rendus hospitaliers : approches supervisées, non supervisées, hybrides

 

Le dossier électronique des patients représente la connaissance engrangée sur le patient dans un hôpital. Si une partie importante de cette connaissance tend à être représentée de façon structurée et compréhensible facilement par un système informatique, l’essentiel reste rédigé en langue naturelle par des spécialistes préoccupés par la communication d’information à d’autres spécialistes, et non à des machines. Cette information est néanmoins précieuse, et les techniques d'extraction d'information peuvent apporter de la structure là où elle n'existe pas initialement.
Nous aborderons trois tâches importantes de l'analyse de textes cliniques : l'extraction et la normalisation de concepts, l'extraction de relations temporelles, et la détection de phénotypes. Nous présenterons des approches variées, qu'elles soient supervisées ou non supervisées, statistiques ou à base de règles, en insistant sur les spécificités de ce domaine.

Présentation : ici


8 février 2019
Rodrigo Souza Wilkens, CENTAL, UCLouvain
Smart and Adaptative Language Learning Applications

 

This presentation will address the results of the “Smart and Adaptative Language Learning Applications” (SMALLA) project, which addressed the research and development of Natural Language Processing (NLP) tools, aiming to aid learners of English as foreign language, by allowing they to explore their own interests during the learning activities. In this presentation, I will start talking about the machine learning (ML) modeling in this project, in specific the classification of the expected level of a text according to the Common European Framework of Reference for Languages (CEFR). On that, I will explore the impact of the text representation, the corpus size, and the machine learning algorithms in the classification task. Then, moving to the NLP application, I will present how we used the ML to remove noise data in the corpus and to identify learners preferences in terms of grammatical structures across different learning stages. Finishing the presentation, I will talk about the application of these approaches combined with Information Retrieval techniques, aiming to select texts taking into account its language level as well as its content.


22 mars 2019
David Fredrich, sprl LegalTech4you ∙ HELMo
Proposition d'un système d'aide à la décision dans le domaine juridique

 

Les réglementations et leur interprétation par les juges, avocats, fonctionnaires et autres juristes deviennent de plus en plus complexes et les justiciables comme les opérateurs économiques attendent des réponses rapides au meilleur coût possible. Aujourd'hui, les clients des conseillers juridiques ne veulent plus payer pour des tâches de recherches documentaires. Dans ce contexte la technologie peut réellement aider à trouver les arguments décisifs et optimiser les chances de succès d'un dossier juridique, tout en gagnant beaucoup de temps ; un temps précieux pour fournir des conseils plus ciblés aux clients. Les technologies de machine learning et de traitement automatique du langage naturel sont aujourd’hui suffisamment matures pour soutenir des activités modélisées dans le respect de la théorie du droit et d’une méthodologie juridique pragmatique. LegalTech4you propose des solutions d'aide à la décision qui combine des technologies d'intelligence artificielle et d'intelligence collective à l'expertise du juriste. 


26 avril 2019
Benoît Sagot, ALMAnaCH research team (Inria/ÉPHÉ)
Représentation et exploitation des informations lexicales : la place des lexiques

 

Les ressources lexicales sont une des sources d’informations sur lesquelles peuvent s’appuyer les modèles et les outils de traitement automatique des langues et les travaux en linguistique computationnelle. La conception, le développement et l’exploitation de ces ressources constituent donc un enjeu important. 
Nous discuterons tout d’abord brièvement des notions de phrase, de mot, de lexique, et d’unité lexicale et notamment des obstacles que l’on rencontre lorsque l’on tente de définir formellement ces notions. Nous distinguerons alors les deux approches principales qui permettent de représenter les unités lexicales et leurs propriétés linguistiques : les lexiques et les représentations vectorielles (word embeddings). Après avoir indiqué de façon schématique les avantages et les inconvénients respectifs de ces deux approches, nous nous focaliserons sur les lexiques. Nous mettrons notamment en avant certaines ressources librement disponibles pour le français ou pour un ensemble de langues conséquent. Nous nous attarderons successivement sur les notions de lexique morphologique, de lexique syntaxique et de lexique sémantique (de type wordnet), tout en mentionnant d’autres types de lexiques.
Nous terminerons par une comparaison sur une tâche précise de la contribution respective de l’approche par lexiques et de l’approche par représentations vectorielles. Nous montrerons ainsi, sur la tâche d’étiquetage en parties du discours, que les informations lexicales permettent d’améliorer les résultats, et que les deux approches apportent des informations complémentaires.


Vendredi 5 avril 2019
Nùria Gala, Aix Marseille Université, Laboratoire Parole et Langage
Outils et méthodes pour l'aide à la lecture : vers une simplification automatique de textes pour un meilleur décodage et compréhension

 

La lecture est une activité fondamentale parce que l’écrit demeure prédominant dans notre société. Or, les compétences en lecture et compréhension des élèves francophones apprentis lecteurs (que ce soit en France ou en Belgique) se situent tout en bas du classement européen d’après l’évaluation internationale PIRLS (2016). Quels peuvent être les apports du traitement automatique des langues dans ce domaine ? Dans ce séminaire, nous proposerons quelques outils et méthodes issus d’un travail collaboratif et multidisciplinaire dans le cadre du projet ANR Alector (https://alectorsite.wordpress.com/). Notamment, nous présenterons les résultats des analyses issues de tests de lecture, dans des écoles et dans des cabinets d’orthophonistes, qui nous ont permis de modéliser un outil d’identification et de substitution de mots difficiles à lire par des enfants en difficulté.

Présentation : ici 

20 octobre 2017
Natalia Grabar, Université de Lille, CNRS
Acquisition de ressources pour la simplification de textes médicaux

 

Une des particularités des textes médicaux consiste en utilisation de termes techniques très spécialisés, qui restent souvent non compréhensibles pour les locuteurs. Lors de la simplification de ces textes, il est donc important de disposer de ressources nécessaires. Nous introduisons ici deux méthodes pour effectuer l'acquisition de telles ressources. L'une repose sur les indices internes des termes (l'analyse morphologique des termes composés) alors que l'autre exploite les indices externes des termes (les reformulations effectuées dans les textes). Aucune de ces méthodes ne requiert l'exploitation de corpus parallèles. Nous décrivons et discutons les résultats.

Présentation : ici


17 novembre 2017
Naomi Baron, American University, Washington
Learning, Knowing, and Remembering in a Digital World

 

Digital tools such as the internet, search engines, and online navigation have put a wealth of information at our fingertips. Are these same tools impacting the way we use human cognitive skills to learn, know, and remember? Research suggests that availability of “google knowing” is redefining our assumptions about what kinds of data – and knowledge – are appropriately held in our own heads. These redefinitions are, in turn, reshaping academic curricula, for good or for ill.

Présentation : ici


24 novembre 2017
Dirk De Hertog, ITEC, imec - KU Leuven
Embeddings and their use as features in supervised learning tasks

 

This talk provides an introduction to the use and value of distributional word representations within machine learning approaches to NLP. Machine learning aims to learn how to perform specific tasks (e.g., POS-tagging, Named Entity Recognition…) by deriving statistical associations between annotated examples and so called features, i.e., meaningful pieces of information that are relevant for the problem at hand. If the learning is successful then it can be successfully applied to similar, yet new examples. A recent development within NLP is to replace traditional ‘flat’ features with distributional ‘semantic’ representations, such as Semantic Vector Spaces (SVS) and word2Vec. The latter methods rely on contextual information that is derived from large scale corpora to build vector representations of words, effectively transforming a word into a complex data structure.

Présentation : ici


1 décembre 2017
Pierre Deville, Head of Data Science, Bisnode Group Analytics
Network Science in the era of Text Mining and Big Data

 

Networks are everywhere. From micro to macro, they pervade our world. Understanding their structure and behaviour has been a major concern recently. However, while tremendous progress has been made on natural networks, we still scramble when it comes to human or business behavior. But this is about to change, as we are now entering the data driven age. Former PhD student at UCL, young entrepreneur and professor at Solvay, Pierre will discuss the opportunities offered by the big data revolution and text mining tools and how it relates to his research on network analysis.


8 décembre 2017
Aline Villavicencio, University of Essex, UK & Federal University of Rio Grande do Sul, BR
Identifying Idiomatic Language with Distributional Semantic Models

 

Precise natural language understanding requires adequate treatments both of single words and of larger units. However, expressions like compound nouns may display idiomaticity, and while a police car is a car used by the police, a loan shark is not a fish that can be borrowed. Therefore it is important to identify which expressions are idiomatic, and which are not, as the latter can be interpreted from a combination of the meanings of their component words while the former cannot. In this talk I discuss the ability of distributional semantic models (DSMs) to capture idiomaticity in compounds, by means of a large-scale multilingual evaluation of DSMs in French and English. A total of 816 DSMs were constructed in 2,856 evaluations. The results obtained show a high correlation with human judgments about compound idiomaticity  (Spearman’s ρ=.82 in one dataset), indicating that these models are able to successfully detect idiomaticity.


9 mars 2018
Leonie Grön, KU Leuven
Term variation in clinical records: First insights from a corpus study

 

In clinical documentation, we encounter a range of term variants that goes far beyond the standard forms found in medical ontologies. For instance, in Dutch, the concept of high blood pressure can be expressed by a vernacular expression (bloedhoogdruk ‘high blood pressure’) or a specialized term (hypertensie ‘hypertension’); in addition, we find regular morphological alternations (‘verhoogde bloeddruk ‘elevated blood pressure’, hypertens ‘hypertensive’), abbreviations (bhd, ht) and numerous idiosyncratic variants.

Medical term variation poses a challenge to the automatic processing of clinical documents, such as the automatic assignment of ontological codes to electronic health records (EHRs): As medical ontologies do not cover non-standard variants, knowledge-based methods to named entity recognition (NER) are prone to miss a considerable portion of relevant entities in text. On the other hand, machine learning and distributional approaches struggle with the high proportion of idiosyncracies, as well as the stylistic features of EHRs, which are typically composed in a non-grammatical, telegraphic style. To improve NER applications for the clinical domain, it is thus crucial to, firstly, identify patterns of variation between term types and, secondly, detect the context factors that motivate such alternations. For instance, the individual sections within an EHR (e.g. physical examination vs. clinical conclusion) may show distinctive proportions of terms from certain semantic categories (e.g. procedures of examination vs. diagnoses) and terms from a particular register (e.g. vernacular vs. specialized). Such correlations can be utilized to compose a domain-specific feature set for clinical NER.

To assess term variation in clinical Dutch, we conducted a corpus study based on a sample of EHRs from endocrinology. Altogether, the medical histories of 180 patients with diabetes were labelled with codes from the clinical terminology SNOMED-CT. After reporting on methodological challenges encountered during the annotation process, I will present preliminary results from the analysis of the annotated data. Starting from a typology of variation types, I will assess the overlap with the terms covered by standard medical ontologies. Then, I will investigate the term distribution in our corpus based on the relative frequency of term types across the individual case histories, and the different EHR sections. To conclude, I will summarize my initial findings on the influence of context factors, as well as semantic properties of the underlying concept, on term variation.

Présentation : ici


30 mars 2018
Eric Kergosien, Université de Lille
Analyse spatiale des médias numériques via des approches de fouille de textes

 

Dans sa présentation, Éric Kergosien aborde les questions que soulève l’analyse du contenu des communications médiées par les technologies pour extraire des connaissances sur les territoires à partir de méthodes de traitement automatique du langage : comment identifier de manière univoque les localisations dans les documents textuels (règles linguistiques pour récupérer des informations sur les unités spatiales) ? Comment extraire les sujets abordés dans les corpus (termes qui reviennent le plus souvent ensemble), au-delà de l’analyse souvent plus limitée des hashtags ?

Peut-on détecter des opinions favorables ou défavorables à certaines opérations d’aménagement, en partant de lexiques de mots positifs/négatifs ? À travers différentes familles de texte standards (articles de presse, publications  scientifiques) et non-standards (tweets et SMS), les exemples présentés font ressortir les redoutables défis linguistiques que soulèvent ces analyses de contenu, qui renouvellent les techniques d’analyse textuelle classiques. Les perspectives d’amélioration du lien entre contenu spatial et thématique (où parle-t-on le plus de tels événements ?) nécessitent plus que jamais la collaboration étroite d’informaticiens, de linguistes et de géographes.


20 avril 2018
Henning Wachsmuth, University of Paderborn
Computational Assessment of Argumentation Quality

 

The automatic mining of arguments from natural language text has recently received increased attention, due to its expected impact on future search engines and intelligent personal assistants. Assessing the quality of arguments and argumentation is critical for any application built upon argument mining. Based on foundations from argumentation theory, this talk will present a selection of recent computational approaches to quality assessment. We will discuss the benefit of these approaches in light of the first search engine for arguments on the web, args.me.

Présentation : ici


4 mai 2018
Pierre Lison, Norwegian Computing Center
Modélisation du dialogue: systèmes de dialogue parlé et corpus multilingues 

 

La modélisation du dialogue fait partie intégrante de multiples applications en TALN, en bonne partie grâce au succès grandissant des interfaces "conversationnelles" comme les chatbots et assistants personnels (par ex. Siri ou Alexa).  L'objectif de cet exposé est de donner un aperçu rapide de la modélisation du dialogue à travers deux questions.
1) Peut-on apprendre à une machine à dialoguer dans le cadre d'une tâche précise ? Plus particulièrement, nous examinerons comment estimer efficacement des modèles statistiques du dialogue lorsque les données disponibles sont très limitées (ou coûteuses à collectionner), en faisant appel à une approche hybride combinant connaissances linguistiques ou liées au domaine et modèles statistiques.
2) Peut-on construire des corpus multilingues à partir de sous-titres de films ? Les sous-titres de films constituent une ressource importante pour le TALN, de part leur disponibilité dans de nombreuses langues et pour de multiples registres de langue.  Le corpus OpenSubtitles, dont nous avons récemment rendu publique la dernière version, est la plus grande collection de corpus parallèles dans le domaine public, et couvre 3,4 milliards de phrases réparties sur non moins de 60 langues, de l'afrikaans au vietnamien en passant par le breton et le cinghalais. 

7 octobre 2016
Leonardo Zilio, Universidade Federal do Rio Grande do Sul & UCLouvain
Semantic Role Labeling and Lexical Simplification:  two samples of NLP applications
Présentation

 

This seminar will present to two studies that have different goals. On the first part, we will show the processes behind a semantic role labeling study, starting from corpus selection and parsing, and moving to argument extraction and semantic annotation. This includes the development of a subcategorization frames extractor for Brazilian Portuguese, and an annotation process that was carried out manually. The resulting resource contains more than 15 thousand arguments annotated for 192 verbs. On the second part, we will show two experiments that were developed around an overarching lexical simplification project. The first one deals with word embeddings and semantical relations among words, where the objective was to use word embeddings and a lexical resource (BabelNet) to generate a dictionary of synonyms, hypernyms and antonyms. The resource was automatically and manually validated, presenting 60,7% of validated entries, resulting in a dictionary of 2,875 validated relations. The second experiment was the generation of a gold standard, a training/test set for complex word identification and a dictionary for lexical simplification, using classic literature texts as corpus. The texts were processed using parsing and a frequency list index to facilitate the manual annotation process. A total of 3,720 manual annotations were carried out and later transformed into each of the resources.


28 octobre 2016
Orphée De Clerq, UGen
UCL: great beer at the “cercles", but very dirrrrty!! Aspect-based sentiment analysis of customer reviews: an overview of the task and its main challenges
Présentation

 

The original objective of sentiment analysis, a very popular NLP task, has been to automatically classify an entire document or sentence as positive, negative or neutral. This, however, does not allow to discover what people like and dislike exactly. Often, users are not only interested in people’s general sentiments about a certain product, but also in their opinions about specific features, i.e., parts or attributes of that product. This comes down to a very fine-grained task, known as aspect-based sentiment analysis (ABSA) and is the topic of this seminar.

We will see that ABSA actually comprises several subtasks -aspect term extraction, aspect term classification and aspect polarity classification- each requiring a different approach. We will have a closer look at the current state of the art for each of these subtasks and focus on supervised machine learning techniques for processing English and Dutch restaurant reviews. To conclude, we will discuss some of the main challenges the domain is still facing, which illustrates that this task is far from solved.


18 novembre 2016
Cédric Lopez, VISEO, Grenoble
SMILK : du TALN au LOD. Représentation des connaissances, extraction d’entités et relations, liage et visualisation
Présentation

 

Un des objectifs du laboratoire commun SMILK (Social Media Intelligence and Linked Knowledge, LabCom ANR) concerne l’étude du couplage du Traitement Automatique du Langage Naturel (TALN) au Linked Open Data (LOD). Pour atteindre cet objectif, nos recherches portent sur : 1) l’extraction d’entités d’intérêt et de leurs relations dans un contenu textuel non structuré, 2) la représentation des connaissances extraites, 3) le liage des données extraites avec les données du LOD, 4) la visualisation et l’exploration des données liées.

La présentation fera l’état de nos recherches et nous démontrerons les possibilités issues des résultats de recherche par le biais d’un prototype prenant la forme d’un plugin de navigateur ayant pour principale ambition d’enrichir les connaissances des utilisateurs naviguant sur le Web. Au fur et à mesure de la navigation sur le Web, le système peuple la base de connaissance et tisse des liens avec le Web des données ouvertes que l’utilisateur peut parcourir.


25 novembre 2016
Mathieu Constant, ATILF, Université de Lorraine
Identification des expressions poylexicales et analyse syntaxique en dépendances
Présentation

 

Les expressions polylexicales (EP) sont des séquences formées de plusieurs mots se caractérisant par un certain degré de non-compositionalité que ce soit au niveau morphologique, lexical, syntaxique, sémantique ou/et pragmatique. Leur identification est cruciale pour les différentes applications du traitement automatique des langues.

Dans cet exposé, nous nous intéressons à l’intégration de l’identification des EP au sein de l’analyse syntaxique en dépendances statistique. Après avoir évoqué les différents défis liés à l’identification automatique des EP, nous aborderons ce sujet en essayant de répondre à deux problématiques: (1) trouver une représentation la plus riche possible des expressions polylexicales au regard de l’analyse syntaxique; (2) adapter les algorithmes d’analyse existants pour prédire de manière jointe l’analyse lexicale et syntaxique d’une phrase dans cette représentation. En particulier, nous montrerons de nouvelles représentations factorisées sur deux dimensions, ainsi que de nouveaux algorithmes d’analyse syntaxique intégrant des mécanismes spécifiques pour l’identification des EP.

Cette présentation est le fruit d'un travail collaboratif avec Marie Candito (Univ. Paris-Diderot), Joseph Le Roux (Univ. Paris-Nord), Joakim Nivre (Uppsala University) et Nadi Tomeh (Univ. Paris-Nord).


2 décembre 2016
Ruslan Mitkov, University of Wolverhampton
The new generation of translation memories


15 février 2017
Victoria Yaneva, University of Wolverhampton
Do You See What I Mean? The Use of Eye Tracking Data in Readability and Accessibility Research
Présentation

 

Gaze data has received a lot of interest in the NLP community recently – as a means to evaluate, as well as induce our models. This is based on findings that eye tracking data reveals important information about the cognitive effort of readers, their level of comprehension and their reading patterns. Gaze data is particularly valuable for studying reading in neurodiverse populations such as people with autism, who are often reported to exhibit idiosyncratic reading strategies and lower comprehension levels.

This talk introduces a collection parallel gaze data and comprehension scores obtained by readers with autism and a control group of neurotypical participants during a natural reading task. It presents studies using gaze data for document-level and sentence-level readability estimation, comprehension prediction based on gaze (within groups and across groups), as well as how lexical properties influence the cognitive effort required to understand a text. These findings are discussed from the perspective of improving readability and text accessibility for people with autism. We will also open the debate about the hidden misconceptions when using gaze data.


17 février 2017
Gilles Souvay, ATILF, Université de Lorraine
LGeRM : un outil de gestion des états anciens du français
Présentation

 

LGeRM (Lemmes Graphies et Règles Morphologiques, prononcer "elle germe") est au départ un lemmatiseur conçu pour gérer la flexion et la variation graphique du français médiéval. Il avait pour but de faciliter la consultation du Dictionnaire du Moyen Français (1330-1500).

Par la suite l'outil a évolué pour traiter des éditions de textes médiévaux afin d'aider à la construction du glossaire. LGeRM glossaire est un outil en ligne permettant de vérifier le texte, de corriger les erreurs de lemmatisation, de lever les ambiguïtés des homographes, de sélectionner les mots à gloser et de générer au final le glossaire. L'outil permet ainsi de réaliser une édition lemmatisée en ligne.

L'outil a été adapté pour traiter la langue du XVIe-XVIIe qui présente des flexions et variantes graphiques différentes des états plus anciens du français. Un lexique morphologique pour chacun de ces états de langue est distribué. Ces lexiques sont utilisés dans la base de données textuelles Frantext et permet de valoriser les textes anciens du corpus en permettant l'interrogation par lemme.

Cet exposé présentera les concepts théoriques derrière l'outil et montrera des réalisations et applications. Ce sera aussi l'occasion de présenter en plus de LGeRM, deux ressources développées à l'ATILF : le DMF et Frantext.


24 février 2017
Leen Sevens, KU Leuven
Text-to-Pictograph Translation and Vice Versa for People with Intellectual Disabilities
Présentation

 

We describe, demonstrate and evaluate a Text-to-Pictograph translation system that is used in an online platform for Augmentative and Alternative Communication (AAC), which is intended for people who are not able to read and write, but who still want to communicate with the outside world (Vandeghinste et al., 2015). The system is set up to translate from Dutch, English and Spanish text into Sclera and Beta, two publicly available pictograph sets consisting of several thousands of pictographs each. We have linked large amounts of these pictographs to synsets or combinations of synsets in WordNets, lexical-semantic databases. We also describe the other direction and how it works to generate text from sequences of pictographs (Sevens et al., 2015).


 17 mars 2017
Thomas Drugman, Amazon Development Center Germany
Active and Semi-Supervised Learning in Automatic Speech Recognition

 

This presentation focuses on Automatic Speech Recognition (ASR), as used in various Amazon products such as Alexa (Amazon Echo) and FireTV. For such applications, a lot of data is available but only a small portion of them can be labeled.

Because speech data labeling is a time-consuming and hence costly process, it is crucial to find an optimal strategy to select the data to be transcribed via Active Learning (AL). In addition, the unselected data might also be helpful in improving the performance of the ASR system by Semi-Supervised Training (SST).

After an overview of the ASR technology, we will investigate the benefits of jointly applying AL and SST. Our data selection approach relies on confidence filtering, and its impact on the two main ASR modules (acoustic and language models) will be studied. Our results indicate that, while SST is crucial at the beginning of the labeling process, its gains degrade rapidly as AL is set in place. The final simulation reports that AL allows a transcription cost reduction of about 70% over random selection. Alternatively, for a fixed transcription budget, the proposed approach improves the word error rate by about 12.5% relative.


28 avril 2017
Damien De Meyere, CENTAL & Social Media Lab, UCLouvain
L’annotateur iMediate, un outil pour l’encodage de dossiers médicaux en SNOMED-CT
Présentation

 

Un des grands défis actuels auxquels sont confrontés les acteurs de la santé est le déploiement des systèmes de dossiers médicaux informatisés. Si ces derniers visent à organiser et à faciliter l'accès aux informations collectées tout au long du parcours médical d’un patient, force est de constater que les informations importantes sont souvent disséminées à travers de nombreux textes peu ou pas structurés, ce qui rend l’information difficilement exploitable par des outils informatiques tels que les moteurs de recherche. C’est dans ce contexte que s'inscrit le projet pluridisciplinaire iMediate (Innoviris), qui vise à développer un ensemble de ressources et d’outils mobilisables au sein des services hospitaliers belges francophones.

Ce séminaire présentera les différentes étapes du développement de l’annotateur iMediate, capable de produire un résumé structuré des textes médicaux sur la base de la nomenclature internationale SNOMED-CT. Ce logiciel combine une ressource terminologique spécifique ainsi qu’un algorithme d’extraction flexible capable de prendre en compte certaines variations linguistiques inhérentes à toute pratique langagière. Cette présentation sera également l’occasion de sensibiliser le public aux nombreux défis liés à l’exploitation de données médicales.

PROGRAMME 2015-2016

PREMIER QUADRIMESTRE


 

Vendredi 16 octobre 2015 de 14h à 15h

Annie Louis (University of Edinburgh)

Document-level Text Quality: Models for Organization and Reader Interest

When we read articles, we spontaneously make judgements about whether it is well-written or not, boring or interesting, too dense or not contentful enough. The goal of text quality prediction is to enable automatic systems to make similar predictions about the quality of texts. The capacity to make such predictions has great potential for article recommendation, educational assessment and improving text generation systems. Computational work on this topic has been successful for spelling and grammar quality where models often operate on words or single sentences. My interests lie in predicting text quality aspects which require discourse or document-level understanding and modeling of text properties. In this talk, I will present some of my work along these lines.

In particular, I will focus on two aspects--document organization and reader interest--and in the context of two science-related genres of text. I will first talk about a method to predict the organization quality of an article based on the sequence of sentence types in the article. We evaluate this approach on academic writing samples where articles have well-defined sections and a small number of sentence types. In the second part of the talk, I will focus on measures to indicate the interesting nature of a science journalism article. In this genre, where science is described to lay readers, articles are written to be informative and at the same time entertaining to readers. We have created a corpus of science journalism articles categorized for interest value. I will describe how we developed metrics related to visual nature, story-telling format, beautiful and surprising language use and study how these measures are related to and indicative of the quality categories on our corpus.

 


Vendredi 6 novembre 2015 de 14h à 15h

Thomas François (Chargé de recherche FNRS au CENTAL)

La prédiction automatisée de la difficulté lexicale par la combinaison de ressources et de méthodes d'apprentissage automatisé

Dans le domaine de l'enseignement des langues secondes et étrangères (L2), la connaissance lexicale est reconnue comme étant centrale pour l'apprentissage et pour la bonne utilisation de la L2. Bien que de nombreux travaux se soient penchés sur la taille du vocabulaire à connaître (ex. Hirsch and Nation, 1992 ; Laufer, 1992), il reste difficile de déterminer quels mots un apprenant donné connaît ou devrait apprendre à un moment précis de son apprentissage. La progression de l'acquisition lexicale est généralement guidée par des listes de vocabulaire, telles que celle de Gougenheim (1958). Ces listes s'appuient principalement sur les fréquences lexicales calculées sur corpus L1 et leur transposition en L2 est parfois discutable. Dans le cadre du CECR, une alternative a été développée, à savoir des référentiels qui listent des contenus d'apprentissage par niveau. Cependant, de par leur conception, ces référentiels ont déjà amené des équipes de chercheurs à en remettre en cause la validité (ex. projets KELLY ou VALILEX).

Nous décrivons, dans cette communication, diverses approches automatisées de la difficulté lexicale. Tout d'abord, nous présenterons FLELex, une ressource gratuite, qui décrit la distribution d'environ 15 000 mots sur les 6 niveaux du CECR pour le français langue étrangère (FLE). Il s'agit d'une source alternative d'information concernant l'usage des mots au long de l'apprentissage du FLE, dont nous détaillerons la méthodologie de conception. Nous présenterons également un site web qui permet de consulter cette ressource directement sur le net. Dans un second temps, nous rapporterons différentes expériences visant à prédire automatiquement la difficulté du lexique, aussi bien pour un groupe d'apprenants que pour un apprenant donné (prédiction personnalisée).

 

  


Vendredi 27 novembre 2015 de 15h à 16h

Alexander Panchenko (Technische Universität Darmstadt)

Text Analysis of Social Networks: Working with FB.com and VK.com Data

Rapid growth of social networks is astonishing. Billions of users across the world regularly use Facebook, Twitter and other online social networks. No wonder that many academic and industrial organisations, including the social networks themselves in the first place, actively investigate methods of analysis of these data. From linguistic point of view, social networks represent one of the biggest text corpora in existence annotated with rich information, such as author, gender, age, language, location, and so on.

Goals of Social Network Analysis (SNA) vary from improvement of user interface and advertisement targeting to identification centres of spread of new viral diseases. Furthermore, online social networks have immense potential in sociological studies.

Methods of SNA can be categorised into two groups: methods of structure analysis (e.g. networks of friends, likes, comments and so on) and methods of content analysis (e.g. user profile attributes, texts of post and comments and so on). In this talk, we will focus on the second group of methods. First will discuss technologies of social network data harvesting and storage. Second, we will consider several applications of Machine Learning and Natural Language Processing to the following problems:

  • prediction of user interests;
  • prediction of user age, gender and region;
  • matching of user profiles from different social networks.

 


Vendredi 11 décembre 2015 de 14h à 15h

Maxime Warnier (Université de Toulouse)

Vers une langue contrôlée pour la rédaction des exigences au Centre National d'Études Spatiales inspirée de régularités linguistiques observées en corpus

Les risques inhérents à la langue naturelle (ambiguïté, imprécision et incomplétude, principalement), quoique sans conséquence dans la communication quotidienne, deviennent critiques dès lors qu’ils apparaissent dans des documents dont l’interprétation correcte est indispensable, tel que c’est le cas pour les spécifications (ou collections d’exigences) de projets de grande envergure. Ce problème étant bien connu des grandes entreprises et institutions, des solutions nombreuses et diverses ont été proposées pour le limiter autant que possible. Parmi celles-ci figurent en bonne place les langues contrôlées, qui consistent à poser des restrictions sur le lexique, la syntaxe et/ou la sémantique (Kuhn, 2014) d’une langue naturelle dans le but d’en éliminer les mots et structures potentiellement équivoques.

Dans cette présentation, nous nous proposons de détailler la méthodologie que nous avons mise au point dans l’optique de proposer au Centre National d’Études Spatiales (CNES), l’agence spatiale française, une langue contrôlée adaptée à la rédaction d’exigences de systèmes spatiaux. Cette dernière se devant, selon nous, d’être proche des pratiques effectives des ingénieurs du CNES, nous basons notre démarche sur l’analyse d’un corpus d’exigences réelles, afin d’en extraire les régularités susceptibles d’être intégrées dans de futures règles. Pour ce faire, nous nous inspirons à la fois des instructions imposées par des langues contrôlées existantes et des résultats fournis par des outils de traitement automatique de la langue. Notre propos sera illustré par des exemples authentiques.

 



 

 


DEUXIEME QUADRIMESTRE


 

Vendredi 18 mars 2016, de 14h à 15h

Louis de Viron (Swan Insights)

Swan.business : Turn information into insights

Swan Insights est une start-up belge spécialisée dans l'industrie des Big Data, active dans les secteurs de la finance, du marketing et des ressources humaines. Ses produits ont pour objectif principal de délivrer des informations pertinentes et directement actionnables pour chacun de ses utilisateurs. Pour ce faire, deux aspects sont particulièrement cruciaux: l'acquisition et le traitement massifs de données brutes, et l'extraction d'informations fiables et de qualité, tenant compte de l'utilisateur final. 

Durant ce séminaire, nous présenterons les défis soulevés par le Big Data, et les solutions technologiques proposées par Swan Insights pour y répondre. Nous illustrerons ces solutions en présentant les principaux produits, avant de développer plus précisément l'un d'entre eux: Swan.business. Swan.business est une plateforme de génération d'opportunités et de veille stratégique, permettant à une société de suivre l'évolution de ses clients et prospects B2B à travers de nombreux canaux (sources légales, presse, réseaux sociaux…), d'identifier des sociétés comparables à des fins de prospection, ou encore de surveiller le marché et la concurrence. Les besoins R&D comportent une importante composante NLP, et ce à différents niveaux. Nous nous attacherons à détailler différentes recherches qui ont mené à ce produit, ainsi que les pistes de développement en cours, en insistant particulièrement sur les aspects de Text Mining.

 


Vendredi 15 avril 2016, de 14h à 15h

Magali Paquot (UCL, CECL) et Hubert Naets (UCL, CENTAL)

Les collocations statistiques au service de la recherche en acquisition des langues étrangères

Les recherches actuelles en linguistique de corpus, psycholinguistique et linguistique cognitive s’accordent sur le constat que les combinaisons de mots jouent un rôle essentiel dans l’acquisition des langues, la fluence, l’idiomaticité et l’évolution des langues. La phraséologie est aujourd’hui au cœur de nombreux développements théoriques et empiriques dans les domaines de l’acquisition et de l’enseignement des langues étrangères.  

Dans cette présentation, nous nous intéresserons plus particulièrement au phénomène des collocations statistiques et à leur emploi par des apprenants de l’anglais langue étrangère. Nous montrerons comment des mesures d’association, telles que le score d’information mutuelle, couplées à des techniques de TAL (lemmatisation, annotation morphosyntaxique, annotation en relations de dépendance), peuvent être utilisées pour différencier des textes produits par des apprenants de l’anglais de niveau B2, C1 et C2 du Cadre européen commun de référence pour les langues (Conseil de l’Europe, 2001). Nous montrerons également que ces mesures permettent d’obtenir de meilleurs résultats pour cette tâche que des mesures de complexité linguistique traditionnelles.

Nous terminerons par un exposé des principales implications théoriques et pratiques de nos résultats pour la recherche en acquisition des langues étrangères, leur enseignement et leur évaluation. 

  


Vendredi 22 avril 2016, de 14h à 15h

Detmar Meurers (Universität Tübingen, Seminar für Sprachwissenschaft)

Language learning and NLP: Connecting needs and opportunities

While Second Language Acquisition (SLA) research and Foreign Language Teaching and Learning (FLTL) Practice is as much driven by fashions and schools as other fields, there is common agreement on core areas and needs. This includes the importance of Input at the right level for the learner (cf. Krashen’s i+1, Vygotsky’s ZPD, Pienemann’s Teachability) and richly representing the forms and categories to be acquired. Work since the 90s has also stressed the importance of making the relevant forms salient enough for learners to notice them (Schmidt’s Noticing Hypothesis, Sharwood Smith’s Input Enhancement). In instructed SLA, there is a wealth of research on tasks, feedback and scaffolding techniques supporting interaction integrating form, meaning and function in context.

In this talk, I touch on some of these aspects to explore where the automatic analysis of language provided by NLP tools can address some of the needs of language learners (and teachers) identified in SLA and FLTL. I will sketch a range of opportunities to support teaching and learning in real-life practice (and feeding back into language learning research) and exemplify them with some of our work providing automatic Input Enrichment, Input Enhancement, and feedback in an Intelligent Tutoring System integrating meaning-based tasks - and some related research ideas we are planning to pursue. 

 


Vendredi 29 avril 2016, de 14h à 15h

André Bittar (Université catholique de Louvain, CENTAL)

Le TAL au service du médical : le projet SYNODOS

Avec l'avènement du Dossier Patient Informatisé (DPI), les hôpitaux créent aujourd'hui des masses conséquentes de données. Le DPI représente une source potentielle très importante de données pour des domaines tels que l'aide à la décision médicale, la médecine factuelle ou la surveillance épidémiologique. Une très grande partie de ces données étant disponible sous forme de texte libre, les méthodes du Traitement automatique des langues (TAL) peuvent être utilisées pour faciliter leur fouille et leur interprétation. Le récent projet ANR SYNODOS avait pour objectif principal la création d'une solution générique d'analyse et de structuration sémantique des données médicales du DPI écrit en français afin de les rendre exploitables dans des études épidémiologiques ou d'aide à la décision médicale.

Pendant ce séminaire, nous présenterons le projet SYNODOS en mettant l'accent sur les méthodes de TAL employées pour répondre aux besoins du projet. En particulier, nous décrirons le système d'analyse sémantique que nous avons développé au sein de la société Holmes Semantic Solutions, partenaire industriel du projet. Cet analyseur repose sur une chaîne de traitement linguistique interfacée avec un serveur terminologique médical. Sa sortie est utilisée pour alimenter une base de connaissances et un système de raisonnement. Le système SYNODOS, implanté au sein du système d'information hospitalier, permet à son utilisateur d'interroger cette base de connaissances en écrivant ses propres règles expert.

 

PROGRAMME 2014-2015


PREMIER QUADRIMESTRE


Vendredi 17 octobre 2014 de 14h à 15h

Xavier Jacques-Jourion (Archives de la RTBF)

De l'information à la connaissance et vice-versa, ou comment reconnaitre une suédoise ?

Résumé :

Seront abordés divers problèmes concrets liés à la navigation au sein d'informations contenues dans des médias riches et variés au sein des collections d'archives (et d'informations) de la RTBF.
Différentes pistes de solutions reflétant l'état actuel des recherches de Xavier Jacques-Jourion seront évoquées.

Télécharger la présentation



Vendredi 24 octobre 2014 de 14h à 15h

Oto A. Vale (Cental)

OpinExpress: un lexique d’expression d’opinion sous la forme de Grammaires Locales

Résumé :

Le projet présenté a pour but la construction d’un lexique d’unités multiword qui expriment l’opinion en portugais du Brésil. L’hypothèse de départ est que les expressions sont des formes privilégiées pour trouver des indices d’opinion du locuteur du texte. Pour cela, il faut élaborer des listes d’expressions ayant un degré élevé de polarité et établir un classement à partir de l’usage de ces expressions dans un grand corpus. La représentation de ces expressions sera réalisée sous la forme de grammaires locales.



Vendredi 14 novembre 2014 de 14h à 15h

Sophie Roekhaut (Cental, ILC)
Un cours d'orthographe à destination des étudiants de l'UCL : développement pédagogique de la plateforme PLATON

Résumé :

PLATON est une plateforme d'apprentissage de l'orthographe dont l'exercice principal est la dictée. Dans ce séminaire, nous présenterons les développements réalisés dans le cadre d'un projet de fonds de développement pédagogique (FDP) dont l'objectif est de proposer, avec PLATON, un cours d'orthographe aux étudiants de l'UCL. Nous aborderons d'une part les défis pédagogiques du projet : la dictée comme exercice d'apprentissage, l'étiquetage des erreurs, le lien avec des grammaires de référence et d'autre part les défis TAL de la plateforme : la correction automatique de la dictée et la génération automatique d'explications d'erreurs, la possibilité d'accepter des variantes orthographiques, la sélection automatique de textes de dictée, la génération automatique d'exercices d'entrainement. Nous réaliserons également une démonstration de la plateforme.

Télécharger la présentation



Vendredi 21 novembre 2014 de 14h à 15h

Jean-Philippe Fauconnier (IRIT, Toulouse III)

Acquisition de relations sémantiques à partir d'éléments de mise en forme des textes

Résumé :

Les méthodes d'extraction de relations reposent généralement sur l'analyse du texte à un niveau phrastique. Dans ce travail, nous proposons une approche complémentaire utilisant la structure du document pour prendre en compte les relations exprimées sur plusieurs niveaux. Trois points seront discutés dans cette présentation. (i) La première partie proposera un modèle organisant hiérarchiquement les unités logiques élémentaires (e.g.: titres, paragraphes, items, etc.) telles qu'elles apparaissent liées dans la cohésion du document afin de faciliter l'identification d'unités logiques complexes (e.g.: sections, définitions, structures énumératives, etc.). (ii) La seconde partie présentera une expérience menée sur des documents au format PDF et une méthode de parsing en dépendance pour identifier leur structure. (iii) Enfin, nous présenterons le travail en cours sur les structures énumératives, objets textuels qui présentent des discontinuités dans leurs composants mais qui sont riches en relations sémantiques.

Télécharger la présentation



Vendredi 28 novembre 2014 de 14h à 15h

Guy Deville, Laurence Dumortier et Jean-Roch Meurisse (UNamur)

CoBRA, un outil interactif de lecture de textes en néerlandais et en anglais : aide à levée d'ambiguïté dans l'étiquetage préalable des textes

Résumé :

CoBRA (Corpus-Based Reading Assistant) est un outil interactif d'aide à la lecture de textes en langues étrangères (anglais et néerlandais) à l'usage d'apprenants francophones de tous niveaux. Pour chaque texte, l'utilisateur accède par un clic à la traduction française de chaque mot ou expression selon son contexte de lecture original. Cette traduction est illustrée à l'aide de concordances issues de très grands corpus bilingues alignés, qui recouvrent la langue usuelle et différents domaines de spécialité. Une telle approche de lecture 'contextualisée' exige la levée des ambiguïtés lors de l'étiquetage préalable du texte. En particulier, l'étape de balisage semi-automatique des lemmes d'un texte (au sens strict d'items constitués d’une seule chaîne de caractères) constitue le 'goulet d’étranglement' dans la production des ressources par CoBRA. L'exposé portera sur la mise en oeuvre d'un outil d'aide à la levée des ambiguïtés qui optimise cette phase coûteuse de l'étiquetage des textes dans CoBRA.



Jeudi 4 décembre de 14h30 à 15h30

Clément Jonquet (LIRMM, Montpellier)

Terminology extraction and semantic annotation in the context of the Semantic Indexing of French Biomedical Data Resources (SIFR) project

Résumé :

Simply indexing biomedical data with keywords has obvious limits such as the use of synonyms, polysemy, lack of domain knowledge, parent/child relations. Biomedical data integration and semantic interoperability is necessary to enable new scientific discoveries that could be made by merging different available data. This is even truer if we consider multilingual data. A key aspect in addressing semantic interoperability for life sciences is the use of terminologies and ontologies as a common denominator to structure biomedical data and make them interoperable.
In this talk, I will present some of the research we achieve within the SIFR project (http://www.lirmm.fr/sifr) on automatic term extraction and semantic annotation of biomedical data. First, I will introduce our new NLP-based workflow for terminology extraction, called BioTex (http://tubo.lirmm.fr/biotex) that obtains very good results in extracting multi-word terms either on French or English text data. Second, I will contextualize this in the context of deploying an ontology-based annotation service, to identify English/French ontology concepts within text data using NCBO BioPortal technology in the backend.

 


DEUXIEME QUADRIMESTRE


Vendredi 20 mars 2015 de 14h à 15h

Laurent Kevers (DBIT, éditions Larcier)

Savez-vous catégoriser (à la mode, à la mode...) ?
Étude de cas d'un projet de catégorisation automatique

Résumé :

La catégorisation automatique de documents est une tâche qui a inspiré un grand nombre de travaux de recherche depuis de nombreuses années, débouchant sur des méthodes et algorithmes permettant d'atteindre des résultats très satisfaisants. Or, si de bonnes performances ont effectivement été enregistrées au cours de ces diverses recherches, on peut également constater que la mise en oeuvre des technologies de catégorisation dans un contexte industriel n'est pas toujours aussi satisfaisante qu'espéré. Cette présentation propose une étude de cas réelle - la catégorisation automatique de textes juridiques par rapport à un ensemble défini de catégories - au cours de laquelle nous essayerons d'identifier quelques facteurs qui ont une influence positive ou négative sur les résultats obtenus.

Télécharger la présentation



Vendredi 27 mars 2015 de 14h à 15h

Piet Desmet (KUL)

Sept façons de rendre l’ALAO plus intelligent. Vers une intégration efficace des techniques du TAL

Résumé :

L’utilisation du TAL en apprentissage des langues assisté par ordinateur (ALAO) est loin d’être une pratique courante, en raison d’un ensemble de contraintes technologiques et pédagogiques. Cependant, le vaste domaine de l’ICALL (intelligent computer-assisted language learning) a réalisé des progrès substantiels et certains résultats de recherches et de développements en cours tendent actuellement vers une intégration étendue dans l’enseignement-apprentissage des langues étrangères.

Notre objectif est de proposer une ébauche de typologie des fonctions que le TAL pourrait assumer pour l’ALAO, en se focalisant exclusivement sur la compréhension et la production écrites. Nous voyons au moins sept rôles possibles pour des applications en ICALL :

1. Présentation de matériel en langue cible : sélection (semi-)automatique de documents écrits compréhensibles et authentiques, sur la base de leur lisibilité et de leur complexité formelle, d’une analyse sémantique ou d’une catégorisation du texte.
2. Accès au ressources : création de matériels de références, comme des moteurs de recherche sur des corpus bilingues ou des dictionnaires d’apprenant enrichis par corpus.
3. Accompagnement et assistance du processus de lecture : en aidant les étudiants à comprendre les matériaux en langue cible par des couches d’annotation, tant sur le plan formel que sur le plan sémantique.
4. Génération d’exercices et de tests : génération (semi-)automatique de questions d’examen et d’exercices à partir de l’analyse de matériaux textuels en langue cible et/ou de l’analyse des erreurs de l’apprenant.
5. Détection d’erreurs et génération de feedback correctif dans des tâches productives semi-ouvertes : analyse de la production de l’apprenant, à travers des approches TAL symboliques ou statistiques, afin de dépasser les techniques (plus limitées) de reconnaissance approximative de chaines de caractères.
6. Accompagnement du processus d’écriture : en aidant l’apprenant de langue étrangère à écrire un texte fonctionnel et correctement rédigé.
7. Agencement adaptatif des items : création personnalisée d’environnements d’apprentissage adaptés au profil de l’apprenant.

Pour chacune de ces fonctions, nous présenterons une esquisse conceptuelle ainsi que des exemples d’applications résultant de recherches et développements du monde académique. Ceci comprendra, sans y être limité, des résultats de notre propre équipe de recherche. Cette vue d’ensemble permettra de dresser un portrait équilibré des défis et opportunités qu’offre l’ICALL. Nous affirmerons qu’il y a aujourd’hui des raisons d’afficher un optimisme prudent face aux potentialités du TAL pour l’enseignement-apprentissage des langues étrangères.

Télécharger la présentation



Vendredi 08 mai 2015 de 14h à 15h

Pho Van-Minh (LIMSI, Paris)

Validation automatique de distracteurs dans un cadre pédagogique

Résumé :

Les questionnaires à choix multiples représentent une forme d'évaluation largement utilisée. Cependant, la rédaction des items évaluant correctement le niveau de connaissances d'apprenants est une tâche complexe. Plusieurs consignes de création manuelle d'items ont été développées, mais l'évaluation automatique de la qualité des items constituerait un outil pratique pour assister le travail des enseignants.
Dans cette présentation, nous présentons une méthode d'évaluation de la qualité de distracteurs (c'est-⁠à-⁠dire les options incorrectes) combinant plusieurs critères d'homogénéité syntaxique et sémantique, fondée sur des méthodes de Traitement Automatique des Langues. Nous effectuons une évaluation de cette méthode sur un grand corpus de QCM et montrons que la combinaison de plusieurs mesures nous permet de valider les distracteurs.

Télécharger la présentation



Vendredi 29 mai 2015 de 14h à 15h au c.211

Jorge Baptista (U. Algarve, Faro)

Le système STRING (Statistical and Rule-based Natural Language Processing System for Portuguese) - présentation et état actuel

Résumé :

Dans cette présentation, on prendra contact avec le système STRING, développé pour le traitement automatique du portugais par L2F/INESC-ID Lisboa. Il s’agit d’un système hybride qui emploie à la fois des techniques statistiques et basés en règles pour traiter des textes, en réalisant toutes les opérations basiques de TAL: segmentation du texte et analyse lexicale, désambiguisation morphosyntaxique, par règles et par apprentissage automatique (hmm), et analyse syntaxique de surface (chunking) et profonde (deep parsing). Le système réalise aussi des operations de désambiguisation de constructions verbales, résolution d’anaphores, reconnaissance d’entités nommées, identification et normalisation d’expressions temporelles, extraction et linéarisation d’événements. Le système est à la base des applications du système REAP.PT, destiné à l’apprentissage de Portugais-Langue Étrangère.

Vendredi 4 octobre 2013 de 13h à 14h

Thomas François (Cental, Université catholique de Louvain)

Le TAL pour l'assistance à la lecture : lisibilité et simplification automatique de textes

Résumé :

Dans un monde où la communication écrite est de plus en plus cruciale, diverses applications de TAL cherchent à assister les lecteurs éprouvant des difficultés. Parmi celles-ci, on compte les modèles de lisibilité, qui visent à évaluer automatiquement la difficulté des textes en fonction d'une population ciblée de lecteurs. Ces modèles peuvent, par exemple, aider à sélectionner plus rapidement des documents en vue d'une application scolaire, servir à signaler à des rédacteurs que le niveau de leur production risque de poser des difficultés de compréhension à certains de leurs destinataires ou encore filtrer les requêtes web d'utilisateurs désireux de trouver des textes correspondant à leur niveau (en particulier dans le cadre de l’apprentissage de langues étrangères).
Dans notre présentation, nous reviendrons tout d'abord sur les grandes étapes du domaine de la lisibilité, essentiellement développé pour l'anglais. Nous présenterons les méthodologies qui sont employées actuellement en soulignant certaines de leurs limitations, puis rapporterons des expériences effectuées, sur le français, dans deux types de contextes : des documents extraits de manuels de FLE (français langue étrangère) et des textes administratifs. Ces expériences ont conduit à l'élaboration de formules de lisibilité, aptes à évaluer la difficulté de textes de FLE et de textes administratifs.
Nous terminerons cette communication par une brève introduction à un domaine proche de la lisibilité, dont l'objectif est cette fois de faciliter l'accès à des textes complexes : la simplification automatique de textes. Nous présenterons quelques-unes des perspectives qu'il offre, avant de décrire brièvement deux études réalisées au CENTAL dans ce domaine : une première approche de la simplification syntaxique et ReSyf, une ressource de synonymes gradés pour la simplification lexicale.

mots-clefs : lisibilité, TAL, classification de textes, simplification de textes.

Télécharger la présentation



18 octobre 2013 de 14h à 15h

Marc Borry (Chief Knowledge Officer, Police fédérale, Bruxelles).

Les apports d'une carthographie des connaissances à la mise en place d'une politique de Knowledge Management à la police fédérale belge.

Résumé :

Pour mettre en place une gestion des connaissances efficace à la police, une cartographie des domaines de connaissances a été réalisée à partir des éléments de structurations existants et de confrontations avec les experts. L’exposé détaillera les étapes de cette élaboration de la cartographie et ses applications dans une démarche collaborative de gestion de l’information et des connaissances au travers du lien fort avec les personnes.

Télécharger la présentation



6 décembre 2013 de 14h à 15h

Natalia Grabar (STL, Université de Lille 3).

Autour de la Health Literacy

Résumé :

Health Literacy correspond à la facilité avec laquelle un patient peut comprendre un texte médical, souvent lié à sa condition de santé. La difficulté principale observée est que, dans le domaine médical, des mots ou termes techniques (comme abdominoplastie, dermabrasion ou hépatoduodénostomie) sont largement utilisés, alors que leur compréhension est difficile pour les patients, tout en étant nécessaire pour (1) leur bon suivi médical, (2) une communication réussie avec les médecins et, (3) de manière plus générale, le succès de soins médicaux qui leur sont prodigués.

Afin de contribuer à ce champ de recherche, nous proposons différentes expériences visant à effectuer une distinction automatique entre les unités linguistiques (discours, documents ou mots) selon leur niveau de technicité ou de spécialisation, et donc selon leur niveau de difficulté de compréhension attendue auprès des patients. Les expériences montrent qu'il existe plusieurs traits inhérents à ces unités linguistiques, qui rendent la distinction possible. D'autres expériences sont cependant nécessaires pour approfondir et consolider l'analyse, et pour apporter des solutions plus tangibles.

Télécharger la présentation

 


DEUXIÈME QUADRIMESTRE


 

Vendredi 21 mars 2014 de 14h à 15h

Olivier Curé (LIGM, Université Paris-Est Marne-la-Vallée)

Exploitation d’ontologies dans le cadre d’une application médicale pour le grand public

Résumé :

Dans cet exposé, je présente des travaux récents qui ont été menés dans le cadre du développement d’une application d’automédication. Cette application a pour objectif d’informer le grand public sur les médicaments de prescription facultative et les symptômes associés. L’application comporte de nombreuses fonctionnalités développées autour de différentes ontologies exploitant les technologies du Web Sémantique, e.g., requêtage et raisonnement. Cette présentation mettra en évidence nos contributions, en particulier le développement et l’enrichissement d’ontologies par induction et le support nouvelles contraintes d’intégrité participant à améliorer la qualité de données.

Télécharger la présentation




Vendredi 28 mars 2014 de 14h à 15h

Sowmya Vajjala (Université de Tübingen)

Analysing text readability with linguistic modeling

Résumé :

Automatically assessing the reading level of a text can be useful in a range of application scenarios, for e.g., in providing reading materials for language learners and for personalizing the search results based on the user's reading ability. In this talk, I will first provide an overview about contemporary research in readability assessment and then describe my current research in analysing text readability using linguistically motivated features.

Télécharger la présentation




Vendredi 4 avril 2014 de 14h à 15h -> Séminaire annulé

Jean-Léon Bouraoui (Société Prométil, Toulouse)

Analyse sémantique des "textes d'exigences" : pour une assistance automatique à la rédaction Patrick Saint-Dizier (IRIT, Toulouse), Jean-Léon Bouraoui, Juyeon Kang, (Société Prométil, Toulouse)

Résumé :

Les textes d'exigences sont fréquemment utilisés dans les industries (aéronautique, transports, télécoms ...). Ils servent à écrire les modalités d'application des spécifications d'un produit, d'un service, ou d'une procédure.
Dans ce contexte, nous proposons un système d'analyse linguistique automatique de ce type de textes, afin d'en détecter les problèmes de rédaction : structures trop complexes, termes inadaptés, incohérences, etc. Le but est de pouvoir ainsi proposer au rédacteur des suggestions de correction, afin d'éviter des problèmes d’inintelligibilité ou de mauvaise compréhension de ces textes. En effet, plusieurs études montrent que la majorité des problèmes d'exécution de ces textes, menant à des retards, voire des accidents industriels, sont causés par une mauvaise interprétation de ces textes au moment de leur application.
Nous présenterons dans un premier temps ce contexte d'application de notre système; nous décrirons ensuite celui-ci, avec des exemples concrets d'utilisation.




Vendredi 25 avril 2014 de 14h à 15h

Stéphanie Weiser, Serkan Eryilmaz (Société Earlytracks)

Extraction d'information pour applications spécialisées : exemple du domaine médical

Résumé :

L'objet de ce séminaire est de présenter trois applications concrètes au cœur desquelles se trouve l'extraction d'information. La première est un moteur de recherche spécialisé pour un domaine. La deuxième est un annotateur d'événements [au sens de relation typée entre plusieurs entités]. La troisième permet, à partir de textes médicaux, d'associer les codes ICD10 correspondant aux termes présents pour faciliter la codification qui est actuellement faite manuellement.

Ces trois applications feront l'objet d'une démonstration. Nous aborderons également les problématiques communes mais aussi spécifiques de ce type d'outil, aussi bien au niveau linguistique (constitution de ressources lexicales, annotation de corpus) qu'informatique (indexation)

9 novembre
Marie-Francine Moens (LIIR, département d'informatique de la KUL)
Extracting Knowledge from Text: The Challenges of Machine Reading

The lecture will start with an overview of current accomplishments in machine reading of text with special attention to named entity recognition, coreference resolution, semantic role labeling, temporal information extraction, event extraction, and temporal and spatial relation extraction. We will pinpoint a number of challenges and discuss potential solutions that often rely on novel machine learning methods. The lecture will be illustrated with examples from the EU-FP7 project MUSE where we translate text into the knowledge representations used in a virtual world and automatically populate the virtual world with the events reported in the text. 


23 novembre
Piet Desmet, Maribel Montero Perez et Hans Paulussen (département de linguistique de la KUL)
Les corpus parallèles annotés au service de la linguistique. Le cas de DPC.

DPC (Dutch Parallel Corpus) est un corpus parallèle multilingue (néerlandais-français et néerlandais-anglais) de 10 millions de mots, enrichi d’annotations linguistiques et aligné au niveau de la phrase.  Le projet DPC a été piloté conjointement par la KU Leuven KULAK et la HoGent dans le cadre du programme STEVIN de l’Union linguistique néerlandaise (Nederlandse Taalunie).

Les corpus parallèles alignés sont le matériau de base indispensable à un grand nombre d'applications, parmi lesquelles la traduction automatique, la traduction assistée par ordinateur, l'extraction d'information, l'extraction de terminologie multilingue et l'enseignement des langues assisté par ordinateur. Par ailleurs, des disciplines comme la linguistique descriptive et contrastive aussi bien que la traductologie profitent largement de l’emploi de tels corpus.

Dans cette présentation, nous offrirons d’abord un aperçu des principales caractéristiques du corpus DPC et des principes qui sous-tendent sa composition. Ensuite, nous présenterons les étapes décisives lors du traitement des matériaux textuels, à savoir la normalisation, la standardisation et l’enrichissement des textes. Par ailleurs, nous montrerons comment le corpus peut être consulté. Nous présenterons notre concordancier contrastif, qui est accessible comme interface web et qui permet à l'utilisateur d'exploiter le corpus à des fins de recherche, d'enseignement et de développement. Le corpus DPC est aussi disponible en format XML, ce qui rend les données facilement exploitables en utilisant des scripts de programmation. Finalement, nous illustrerons l’utilité d’un tel corpus pour la linguistique descriptive aussi bien que pour la linguistique appliquée à travers quelques exemples concrets.


30 novembre
Walter Daelemans (CLIPS, Université d'Anvers)
Author Profiling: extracting psychological and sociological properties of authors from text

This talk will be about the extraction of knowledge from text (language understanding), one of the central problems in Natural Language Processing. There are two well-known types of knowledge that you may want to learn from text: objective knowledge (the who, what, where, when type of information) and subjective knowledge (what does someone feel / think about something). After a brief introduction to the state of the art in these two areas, I will introduce a third type of information that can be extracted from text: profiles of the author of the text. This type of analysis (also called computational stylometry) detects information about the author of a text. Apart from identifying the author (authorship attribution), which has applications in forensic studies (who wrote this blackmail e-mail or suicide letter?) and literary scholarship, these techniques are also increasingly being used to extract information about psychological properties of the authors (mental health, personality type), and sociological properties (age, gender, education level, region). I will explain how these new research areas open up exciting new potential applications in areas as diverse as marketing, medical diagnosis, and monitoring social networks for illegal activities.


14 décembre

Max De Wilde (Département des Sciences de l’Information et de la Communication, ULB)
L'extraction d'entités nommées : une opportunité pour le secteur culturel ?

Les institutions culturelles, que ce soient les bibliothèques, les centres d'archives ou les musées, disposent souvent de peu de moyens financiers pour valoriser leurs collections. Les métadonnées encodées par des générations de documentalistes restent ainsi peu exploitées, leur format non-structuré les rendant difficile à traiter de manière automatisée. Dans ce contexte, les techniques d'extraction d'information, et particulièrement la reconnaissance d'entités nommées, offrent de nouvelles perspectives pour les gestionnaires de collections, leur permettant d'enrichir le contenu sémantique de leur données à bas coût. Le projet Free Your Metadata vise à encourager les institutions culturelles à tirer parti de cette technologie, parmi d'autres, dans le but d'interconnecter leurs métadonnées existantes avec celles d'autres collections, s'intégrant ainsi dans la mouvance du linked data. Dans le cadre de ce séminaire, je présenterai les premiers résultats d'une étude de cas réalisée sur des données du Smithsonian Cooper-Hewitt National Design Museum à New York, ainsi que les futures possibilités et limites de cette approche pour le secteur culturel.


22 février 2013
Serge Verlinde (Institut interfacultaire des langues vivantes, K.U.Leuven)
Comment optimiser l’aide à la rédaction ?

La rédaction est une tâche complexe, certainement lorsqu’il s’agit de rédiger un texte en langue étrangère. Alors que, pendant très longtemps, le dictionnaire (de traduction de préférence) et la grammaire constituaient les seuls ouvrages de référence disponibles, il en est tout autrement aujourd’hui. Ainsi, nous disposons actuellement d’outils lexicographiques et de correcteurs très performants. Malheureusement, les premiers sont trop souvent ignorés du grand public et les seconds oublient un peu trop les apprenants et leurs problèmes spécifiques.

Le défi relevé par l’Interactive Language Toolbox est double : cette application en ligne offre un accès aussi convivial que possible aux meilleures ressources du Web, et ceci pour trois langues : l’anglais, le français et le néerlandais. D’autre part, elle propose aussi des modules de révision de texte qui n’ont pas l’ambition d’égaler les performances des correcteurs commerciaux, mais qui se veulent nettement plus didactiques avec, entre autres, une attention toute particulière portée aux erreurs de type lexical. Nous illustrerons plus en détail la démarche (expérimentale) suivie pour détecter et corriger de type d’erreurs.

Télécharger la présentation


1er mars 2013
Louis de Viron et Denis Lebailly, EarlyTracks  / Knowbel
S³ : La sémantique au service des moteurs de recherche

Pour faire face à la grande quantité de données à laquelle elles sont confrontées, les entreprises font de plus en plus souvent appel à des solutions de gestion, structuration et interrogation de l'information.

Le moteur de recherche S³ (Semantic Search Solutions), développé au sein de l'entreprise Knowbel-Earlytracks, se situe dans une démarche d'accès efficace aux données textuelles. La solution que nous proposons se base sur un enrichissement automatique du texte par des informations sémantiques précises et structurées.

Durant ce séminaire, nous aurons l'occasion de présenter les technologies que nous développons pour organiser l'information et pour l'interroger d'une manière rapide et pertinente. Cette explication technique sera illustrée par des exemples concrets et des démonstrations de l'outil.

Télécharger la présentation


29 mars 2013
Georges Antoniadis (Laboratoire de linguistique et didactique des langues étrangères et maternelles, Université Stendhal, Grenoble)
Quelles machines pour enseigner les langues ?

Les premières tentatives de création de « machines à enseigner » datent du début du 19e siècle. Elles visent « l’automatisation », partielle ou complète, de l’enseignement/apprentissage des langues, comme d’autres matières. L’avènement de l’informatique, et en particulier de la micro-informatique, a permis la création de machines pouvant apporter aux enseignants une aide appréciable pour leur tâche. Ces machines constituent actuellement la pièce centrale de tout système d’auto-formation, comme, souvent, de l’enseignement à distance.

Nous présentons durant ce séminaire l’évolution technologique de ces machines ainsi que leurs fondements théoriques, en se focalisant plus particulièrement sur les systèmes dédiés à l’enseignement/apprentissage des langues. Nous évoquerons leurs insuffisances et les causes pour nombre d’entre elles. Le recours aux procédures et résultats du traitement automatique des langues peut apporter solution à bon nombre d’insuffisances de ces systèmes. Nous examinerons l’apport du TAL, les limites de cet apport, ainsi que sa mise en œuvre appropriée.

Nous exposerons, enfin, les solutions proposées par le laboratoire LIDILEM et nous présenterons des aspects de la plateforme d’enseignement/apprentissage des langues MIRTO qui en est issue.


16 avril 2013
Sandrine Brognaux (doctorante ICTM, IL&C, Cental)
Train&Align : un nouvel outil d'alignement phonétique automatique disponible en ligne

Plusieurs outils d'alignement phonétique automatique de corpus oraux sont actuellement disponibles. Ils utilisent, généralement, des modèles indépendants du locuteur pour aligner de nouveaux corpus. Leur désavantage est qu'ils couvrent ainsi un nombre très limité de langues et fournissent parfois un alignement de piètre qualité quand ils sont appliqués sur différents styles de parole. Ce séminaire présente un nouvel outil d'alignement phonétique automatique disponible en ligne: Train&Align. Sa spécificité est qu'il entraîne les modèles directement sur le corpus à aligner, ce qui le rend applicable à toutes les langues et tous les styles de parole. Des tests effectués sur trois corpus montrent qu'il produit un alignement de qualité comparable aux autres outils d'alignement. Il permet également d'optimiser certains paramètres d'entraînement. L'utilisation de modèles dépendant du contexte phonétique, par exemple, permet une amélioration d'environ 1.5% avec un seuil de tolérance de 20 ms. Une partie manuellement alignée du corpus peut également être utilisée afin d'améliorer la qualité des modèles. Les tests montrent que les taux d'alignement augmentent drastiquement, jusqu'à 20%, quand 30 secondes de corpus aligné manuellement sont utilisées.

 


26 avril 2013
Nuria Gala (LIF-CNRS, Aix-Marseille Université)
Lexique et ressources pour le lexique : au cœur des rapports entre la linguistique et le TAL ?

L'intérêt pour l'étude du lexique n'est pas nouveau. Au fil du temps, il a suscité différents questionnements dans des disciplines variées telles que la philologie, l'enseignement des langues, la lexicographie et, bien entendu, la lexicologie. Avec le développement du traitement automatique des langues (TAL) et l'accessibilité de grands volumes de données, on a vu apparaître un grand nombre de ressources linguistiques avec des finalités et des granularités diverses. Dans cet exposé, nous nous intéresserons à ces ressources et plus particulièrement aux lexiques en tant que recueils structurés d'unités lexicales. Nous les aborderons sous plusieurs aspects (création, enrichissement, évaluation) et nous en montrerons quelques exemples. Nous soutiendrons, pour conclure, que l'interaction entre la linguistique et le TAL passe de manière sine qua non par le(s) lexique(s) : ils sont, ainsi, au cœur des rapports entre ces deux disciplines.


24 mai 2013
Lependu Paea, Stanford Center for Biomedical Informatics Research, Stanford University, Stanford, California, USA.
Pharmacovigilance Using Clinical Notes.

With increasing adoption of electronic health records (EHRs), there is an opportunity to use the free-text portion of EHRs for pharmacovigilance. We present novel methods that annotate the unstructured clinical notes and transform them into a deidentified patient-feature matrix encoded using medical terminologies. We demonstrate the use of the resulting high-throughput data for detecting drug-adverse event associations and adverse events associated with drug-drug interactions. We show that these methods flag adverse events early (in most cases before an official alert), allow filtering of spurious signals by adjusting for potential confounding, and compile prevalence information. We argue that analyzing large volumes of free-text clinical notes enables drug safety surveillance using a yet untapped data source. Such data mining can be used for hypothesis generation and for rapid analysis of suspected adverse event risk.

30 spetembre 2011
Cédrick Fairon, CENTAL (UCL)
Méthodes linguistiques pour le traitement de l'information médicale

Les systèmes informatiques de gestion des dossiers médicaux (Electronic Health Record ou Dossier médical personnel) sont de plus en plus largement utilisés dans la profession médicale. Aux USA, leur usage est actuellement promu par des actions gouvernementales très ambitieuses. Dans ces systèmes, une grande partie de l'information stockée est textuelle et "non structurée" : il s'agit de notes de suivi, de comptes rendus d'hospitalisation, de courriers, de résultats de laboratoire, etc. Dès que le volume d'information croit, il devient impossible pour le médecin de parcourir l'ensemble de ces documents et d'avoir une vue synthétique de l'information qu'ils contiennent. Pourtant, on comprend aisément que la qualité de l'accès à l'information est primordiale pour assurer la qualité des soins et la sécurité des patients. Après avoir présenté cette réalité et les enjeux actuels, nous présenterons quelques expériences réalisées en collaboration avec le Center for Biomedical Informatics Research à l'Université de Stanford pour traiter l'information issue de dossiers médicaux à l'aide de techniques de traitement automatique du langage. En particulier, nous présenterons les expériences réalisées par le "Shah Lab" en vue de détecter de manière précoce des effets secondaires (encore inconnus) de médicaments.


14 octobre 2011
Alexander Panchenko, CENTAL (UCL) & BMSTU
Knowledge-, Corpus-, and Web-based Similarity Measures for Semantic Relations Extraction

One approach for semantic relations extraction is based on the lexico-syntactic patterns which are constructed either manually (Hearst, 1992) or semi-automatically (Snow et al., 2004). The alternative approach, adopted in this research, is unsupervised (see e.g. Lin (1998a) or Sahlgren (2006)). It relies on a similarity measure between lexical units.
Similarity measures differ both in kinds of information they use and in the ways how this information is transformed into a similarity score. We would like to answer on two questions: “What metric is most suitable for the unsupervised relation extraction?”, and “Does various metrics capture the same semantic relations?”. We evaluate the available similarity measures within the context of semantic relation extraction. We compare knowledge-based, corpus-based, and web-based measures w.r.t. the BLESS dataset (Baroni and Lenci, 2011). Our results show that existing similarity measures provide significantly different results, both in general performances and in relation distributions.
Finally, we discuss ways towards developing an efficient information fusion method combining similarities coming from different measures – the ultimate goal of this research.

présentation


28 octobre 2011
Ismaïl El Maarouf, Université de Bretagne Sud
Modélisation linguistique du contexte pour l'extraction d'information

L'accès au contenu des documents est un des domaines de recherche actuels en Traitement Automatique des Langues, qui s'applique dans de nombreux contextes. Théoriquement, extraire une information pertinente dans un texte suppose une représentation sémantique de ce texte, c'est-à-dire des unités dont il est composé et des relations qui les lient. Étant donné qu'une recherche d'information s'appuie rarement sur une unité, l'accès au contenu implique souvent une analyse de l'environnement linguistique (co-texte), ce que nous définissons comme l'extraction de relations sémantiques. Deux méthodes majeures sont employées pour identifier des relations dans un texte, chacune ayant ses forces et ses limites : les patrons lexico-syntaxiques et les méthodes par fenêtre. Ces méthodes peuvent s'appuyer sur une représentation linguistique plus ou moins riche du co-texte, et sur des ressources linguistiques multiples.
Après avoir indiqué quelques repères sur l'extraction sémantique en corpus, nous nous concentrerons sur les problèmes qui se posent aux systèmes d'accès au contenu en organisant notre présentation sur trois axes : la Syntaxe, le Discours et le Genre.
Nous pourrons alors mieux situer les pistes de recherche que nous privilégions, les méthodes et systèmes proposés.

présentation


4 novembre 2011
Sébastien Paumier, LIGM Université de Paris-Est
Unitex : les nouveautés de la 3.0 beta

Unitex évolue rapidement, mais dans sa version instable. De ce fait, beaucoup d'utilisateurs ignorent les modications apportées tant qu'une nouvelle version stable n'est pas sortie. Du fait d'un projet de recherche impliquant des extensions d'Unitex, de très nombreuses fonctionnalités ont vu le jour, avec une forte orientation industrielle. Nous proposerons un tour d'horizon de toutes ces nouvelles possibilités, qui englobent aussi bien des aspects purement ergonomiques, que des extensions des possibilités du logiciel, voire des améliorations substantielles des performances de celui-ci.

présentation


18 novembre 2011
Béatrice Arnulphy, LIMSI (Université Paris-Sud XI)
Reconnaissance de désignations nominales d'événements

La notion d'événement a été très étudiée en histoire, philosophie ou journalisme. En linguistique, plusieurs définitions, ainsi que des typologies d'événements, ont été proposées [Lecolle, 2009], celles-ci étant souvent peu applicables dans une démarche de TAL. Si les sciences humaines étudient particulièrement les noms d'événement, en informatique linguistique en revanche, les études se sont attelées aux événements de type verbal, pour des raisons de complexité de la tâche, c'est le cas de TimeML [Pustejovsky et al., 2003].

Nos propres travaux en TAL se préoccupent des événements de type nominal, avec pour objectif leur reconnaissance et leur extraction automatique.
Nous nous intéressons aux entités qui peuvent être constituées à partir de :
- noms morphologiquement apparentés à des verbes d'action tels que fête (apparenté à fêter);
- déclencheurs événementiels, des éléments qui évoquent des événements de façon non ambiguë comme festival dans Festival du film de Berlin ;
- mots qui prennent un caractère événementiel évident en contexte, c'est le cas par exemple du mot polysémique salon dans La cinquième édition du Salon de l'éducation ou de noms de lieu comme Tchernobyl, désignant, par métonymie, l'incident qui s'y est produit (Personne ne veut d'un nouveau Tchernobyl), ou encore de dates comme Mai 68 ou 11 septembre.
Les désignations nominales d'événement qui nous intéressent sont les groupes nominaux dont la tête du syntagme porte l'une ou l'autre de ces propriétés.

Nous proposons de présenter un tour d'horizon des travaux que nous avons menés jusqu'à présent : notre définition et notre typologie des événements, notre réflexion sur la nomination des événements qui ont mené à notre guide d'annotation et à un corpus annoté manuellement, mais aussi notre méthode d'extraction d'un lexique pondéré de noms d'événements (sur la base d'indices contextuels linguistiques) et ses résultats sur l'anglais et le français.

présentation


2 décembre 2011
Sebastian Pado, Université d'Heidelberg
Cross-lingual knowledge transfer

Most large-coverage language technology resources are only available for a small number of language (typically starting with English). This is particularly true in semantics. My task reports current work on bilingual vector space models and describes how such models can be used for cross-lingual knowledge transfer, using the prediction of plausibility judgments as an example application. I will analyse in particular the relationship between the properties of the semantic phenomena that are to be modeled and the ideal parametrization of the bilingual vector space.

présentation


16 décembre 2011
Véronique Hoste, Université de Gand
Bypassing the need for annotated data: Cross-lingual word sense disambiguation

Cross-Lingual Word sense disambiguation (WSD) consists in selecting the correct translation of an ambiguous word in a given context. In this talk we present a set of experiments for a classification-based WSD system that uses evidence from multiple languages to define a translation label for an ambiguous target word in one of the five supported languages (viz. Italian, Spanish, French, Dutch and German). Instead of using a predefined monolingual sense-inventory such as WordNet, we use a language-independent framework and build up our sense inventory by means of the aligned translations from the parallel corpus Europarl. The information that is used to train and test our classifier contains the well-known WSD local context features of the English input sentences, as well as translation features from the other languages. Our results show that the multilingual approach outperforms the classification experiments that merely take into account the more traditional monolingual WSD features.
The viability of this approach is investigated in two applications: machine translation and cross-lingual link discovery.


17 février 2012
Mathieu Roche
Les descripteurs linguistiques en fouille de textes. Application à la fouille de données d'opinion

Les masses de données textuelles aujourd'hui disponibles engendrent un problème difficile lié à leur traitement automatique. Dans ce cadre, des méthodes de Fouille de Textes (FT) et de Traitement Automatique du Langage (TAL) peuvent, en partie, répondre à une telle problématique.

Après une présentation des méthodes de traitement des descripteurs en eux-mêmes, ces derniers seront étudiés en contexte, c'est-à-dire en corpus. L'identification des descripteurs est souvent difficile à partir de corpus bruités et à faible contenu textuel sur lesquels nous concentrons nos efforts (par exemple, corpus issus du Web 2.0 ou du traitement OCR). Outre les mots considérés comme des descripteurs linguistiques pertinents en FT, nous nous sommes également intéressés à l'étude des syntagmes complexes à partir de corpus classiques puis d'une terminologie classique à partir de corpus complexes (par exemple, données logs ou corpus en français médiéval).

Dans cet exposé, une présentation d'un processus de fouille de données d'opinion sera présenté. Celui-ci a pour but de construire un dictionnaire lié aux opinions/sentiments selon une thématique donnée. Les perspectives à ce travail se concentreront sur l'extraction de descripteurs liés aux nouveaux modes de communication (tweets par exemple). Ces derniers seront associés à de nouvelles représentations sous forme d'entrepôts de données textuelles.

Présentation


2 mars 2012
Richard Beaufort, Université catholique de Louvain (CENTAL)
PlatON: Plateforme d’aide à l’apprentissage de l’Orthographe sur le Net. Une combinaison utile de l'ALAO/ELAO et du TAL

La plateforme PLATON s’inscrit dans le cadre général de l’apprentissage et de l’enseignement des langues assistés par ordinateur (ALAO/ELAO). Dédiée à l’amélioration de la maîtrise de l’orthographe, cette plateforme s’adresse aussi bien à des apprenants natifs qu’à des allophones, pour autant que ceux-ci présentent déjà un niveau de maîtrise avancé de la langue à l’oral et à l’écrit (C1/C2 du Cadre Européen de Référence). Sur ce point, PLATON se distingue des autres plateformes d’ALAO/ELAO, classiquement dédiées aux langues secondes.

PLATON est une plateforme en ligne, accessible aux enseignants et à leurs apprenants. Dans l’ensemble, le développement de cette plateforme tâche de répondre aux différents besoins relevés par les acteurs de l’ALAO/ELAO. L’un d’eux, un véritable défi, a particulièrement retenu notre attention : dépasser les exercices classiques que sont le texte à trous et le choix multiple, qui limitent considérablement l’éventail des connaissances testées. Pour ce faire, l’idée est de proposer des exercices de type semi-ouvert, qui évitent de signaler trop explicitement le lieu de la difficulté et stimulent la spontanéité des réponses, tout en maintenant l’éventail des variations possibles dans les limites d’un ensemble gérable automatiquement.

La dictée, exercice de type semi-ouvert du fait de la présence d’un original qui limite les variations possibles, est l’exercice central de la plateforme, qui en gère automatiquement tous les aspects :
1) sa vocalisation (synthèse de la parole ou enregistrement) lors de son ajout par l’enseignant,
2) les différentes étapes de sa réalisation par l’apprenant (écoute, copie, relecture),
3) bien sûr, sa correction. La phase de correction propose un diagnostic automatique des erreurs, basé sur des méthodes d’alignement et d’analyse linguistique automatique.

Actuellement, la plateforme se limite à cet exercice: un enseignant ajoute des dictées, réparties en cours; un étudiant réalise les dictées du cours auquel il est inscrit. Tous deux ont accès aux corrigés des copies. A terme, la plateforme proposera d'autres exercices (textes à trous, jeu des 7 erreurs) et permettra aux enseignants d'ajouter la matière de leur enseignement.

Dans le cadre de la conférence, nous proposons de commencer par présenter la plateforme: du côté de l’enseignant, nous nous focaliserons sur l’ajout d’une nouvelle dictée; du côté de l’apprenant, nous nous concentrerons sur la réalisation d’une dictée complète et analyserons le résultat de la correction. Ensuite, nous présenterons l'algorithme de correction (alignement, détection des erreurs, génération du diagnostic) qui a autorisé l'automatisation complète de l'exercice de dictée.


16 mars 2012
Mohamed Ben Haddou, Société Mentis consulting
Information extraction from texts

Présentation


30 mars 2012
Matthieu Vernier, Dictanova
Analyse à granularité fine des opinions : identifier et caractériser les stéréotypes culturels d'opinion

Avec l'essor du web social, les internautes sont davantage enclins à partager et affirmer leurs opinions. Devant l'ampleur du phénomène, les opinions exprimées sur internet sont devenues des données stratégiques qu'il faut pouvoir suivre en temps réel et caractériser finement.
Par opposition aux approches par catégorisation de documents, l'analyse à granularité fine des opinions est un axe de recherche plus récent qui vise à :

  • délimiter les passages d'opinions d'un texte ;
  • caractériser leurs traits sémantiques (Quel est le degré d'engagement du locuteur ? À quel champ d'expérience subjective renvoie t-il ? Quelle est la polarité axiologique de l'opinion ?) ;
  • identifier précisément leur cible parmi les différents sujets abordés dans un texte.

Au cœur des approches à granularité fine, une problématique classique consiste à construire manuellement ou automatiquement des ressources lexicales pour couvrir l'ensemble des mots ou des expressions utilisés pour exprimer une opinion. Si la construction de telles ressources est une première étape nécessaire, nous souhaitons mettre en avant l'enjeu des stéréotypes culturels activés pour exprimer une opinion. Ceux-ci ne sont en général pas présent dans les ressources existantes alors qu'ils représentent une partie importante des opinions rencontrées lors d'analyses réelles. Par exemple, « être un goaleador » est un stéréotype d'opinion positif dans le contexte sportif, « avoir un strabisme » ou « être une cruche » sont des stéreotypes négatifs dans le contexte d'une élection de miss.
Nous illustrons les problématiques exposées dans cette présentation via des analyses réelles sur les opinions exprimées sur Internet durant l'élection de Miss France 2012, sur une banque et une enseigne de vente de vêtements. Nous montrerons en quoi les stéréotypes d'opinions peuvent être spécifiques à un contexte thématique, à une communauté de locuteurs ou à une période temporelle donnée et présenterons nos pistes de réflexion pour les identifier et les caractériser automatiquement.


20 avril 2012
Antonio Balvet, Université Lille 3
Le projet Nomage: description en corpus des propriétés aspectuelles des noms déverbaux

Résumé:
Dans quelle mesure des noms morphologiquement liés à des verbes, tels que construction (=> construire), bombardement (=> bombarder), abattage (=> abattre), ou aérateur (=> aérer) héritent-ils des propriétés syntaxiques, sémantiques ou encore aspectuelles de la forme verbale? Le passage au domaine nominal apporte-t-il des propriétés spécifiques? Comment renseigner en contexte des propriétés sémantiques ou aspectuelles fines, telles que: nom massif/comptable, événement, état?

C'est pour tenter de répondre à ces questions que le projet jeune chercheur Nomage a été lancé, grâce au soutien financier de l'ANR. Ce projet a rassemblé des sémanticiens, syntacticiens et morphologues "traditionnels", ainsi que des linguistes de corpus et spécialistes du TAL. Dans cette étude, à l'interface entre les domaines évoqués précédemment, nous avons abordé la description des noms déverbaux tels qu'ils apparaissent dans un corpus de référence, le French Treebank, selon deux points de vue complémentaires:
- un point de vue "corpus-based", dans lequel nous avons cherché à confronter les attentes théoriques au comportement effectif des unités lexicales;
- un point de vue "corpus-driven", dans lequel nous avons cherché à induire des propriétés communes aux différents noms étudiés, directement à partir de leurs propriétés distributionnelles et de leur compatibilité avec une batterie de tests linguistiques.

Dans cette présentation, nous nous attacherons tant aux aspects méthodologiques (choix du corpus, définition d'une méthodologie d'annotation sémantique, outils d'annotation) que théoriques (rôle de la structure argumentale, lien avec des propriétés sémantiques et aspectuelles). Nous présenterons quelques résultats préliminaires, basés sur les annotations en corpus réalisées au cours du projet. Enfin, nous présenterons pour la toute première fois la base de données Nomage et son interface de consultation. Dans la mesure du possible, cette présentation se veut interactive: le public est donc invité à se munir d'un ordinateur portable.
Les personnes intéressées peuvent d'ores et déjà consulter la base de données à l'adresse: http://nomage.recherche.univ-lille3.fr/nomage/. Le projet lui-même est présenté dans son ensemble à l'adresse http://nomage.recherche.univ-lille3.fr/.

Présentation


11 mai 2012
Béatrice Lamiroy (Franitalco, KUL)
Expressions figées et francophonie

Le but de la communication est de présenter les résultats d’une recherche en cours devant aboutir à un dictionnaire en ligne des expressions verbales figées de la francophonie (cf. Lamiroy et al. 2010). Le projet, dont le point de départ a été les travaux de Maurice Gross sur le figement, a pour objet les expressions verbales figées de quatre communautés francophones, belge (B), française de France (F), québécoise (Q) et suisse (S).

8 octobre 2010
Thomas Drugman, Faculté Polytechnique de Mons
Synthèse HMM: la nouvelle génération de voix artificielles

La synthèse de parole a pour but qu'une machine produise la lecture automatique d'un texte inconnu. Les critères de qualité sont le naturel et l'intelligibilité de la voix générée.
Après avoir parcouru un historique des méthodes existantes, nous présenterons la nouvelle génération de synthétiseurs: les synthétiseurs statistiques et paramétriques. Nous verrons quels sont les avantages et inconvénients de ceux-ci, et quels sont les champs de recherche actuels, notamment au sein du laboratoire TCTS de la Faculté Polytechnique de Mons.

présentation


22 octobre 2010
Richard Beaufort, CENTAL
De la collecte à la normalisation des SMS : linguistique de corpus et traitements automatiques par apprentissage

La présentation de ce vendredi 22 octobre 2010 sera organisée comme suit. Premièrement, nous nous intéresserons à la manière dont les collectes de SMS ont été et sont encore réalisées dans le cadre des projets « Faites don de vos SMS à la Science » et « sms4science », dont l’objectif général est de rassembler des corpus SMS dans le plus grand nombre de langues possibles. Nous en profiterons pour nous arrêter quelques
instants sur certains constats linguistiques et statistiques obtenus par les chercheurs à partir de ces corpus. Deuxièmement, nous décrirons l’approche que nous avons implémentée pour aligner le corpus SMS et sa transcription au niveau du caractère, une étape nécessaire dans l’optique d’apprendre des modèles de normalisation à partir de ces corpus. Troisièmement, nous détaillerons le processus de normalisation mis en place et, dans un même élan, la manière dont les modèles de normalisation ont été appris. Cette présentation se conclura par une évaluation de l’approche, suivie d’une petite démonstration du système complet de synthèse de la parole à partir de SMS, text-it/voice-it, dont un prototype est déjà disponible pour les smartphones utilisant le système d’exploitation Android.
présentation


5 novembre 2010
Tim Van de Cruys, INRIA (Paris)
Distributional Similarity and its Applications

Distributional similarity is the process of calculating the semantic similarity between words by looking at the contexts in which those words appear. By comparing the context features of two particular words (such as the surrounding words, or the syntactic relations in which the words take part), we can automatically determine how semantically similar those words are. In the first part of this presentation, we will examine the different notions of context, and the different algorithms that might be used to calculate semantic similarity. We will particularly focus on dimensionality reduction algorithms, which allow us to reduce the abundance of overlapping features into a limited number of semantic dimensions. In the second part, we will look at a number of applications that exploit distributional similarity, viz. multi-word expression extraction, word sense discrimination, and the extraction of selectional preferences.

présentation


15 novembre 2010
André Salem, Université Paris 3 (Sorbonne Nouvelle)
Introduction à la textométrie des corpus structurés, séries chronologiques, textométrie multilingue

L'application des méthodes de la textométrie à des corpus possédant une structuration forte (séries textuelles chronologiques, dialogues, versions successives d'un même texte, etc.) permet d'éclairer de manière efficace les résultats obtenus empiriquement. Aujourd'hui, les méthodes textométriques permettent la comparaison de textes structurés rédigés dans des langues différentes (traductions uniques ou multiples d'un même texte, etc.) La prise en comptes de corpus multilingues permet, de plus, de renouveler la réflexion sur la nature des unités textuelles mobilisables lors des analyse textométriques.

présentation


19 novembre 2010
José Vega, Wordbee (Luxembourg)
Les outils d’aide à la traduction dans un espace collaboratif

Grâce à au moins trois évolutions technologiques majeures de ces dernières années : les performances de l'internet, l’arrivée de l’ADSL avec des prix assez « démocratiques » et les nouvelles technologies Web (Web 2.0), il a été possible d'imaginer et de réaliser de nouveaux outils d'aide à la traduction entièrement orientés Web. 
Travailler dans un environnement Web révolutionne les modes de travail classiques dont le plus notable est la centralisation de l’information pour une gestion plus efficace des projets de traduction: partage global des ressources linguistiques ainsi que des outils linguistiques de pré-traduction, centralisation des documents source en tant que "pivot" pour des traductions multilingues, collaboration en temps réel entre les utilisateurs pendant les phases de traduction et enfin, la possibilité de créer des "communautés" d'utilisateurs pour réaliser des projets de type "crowd translation". 

présentation


3 décembre 2010
Matthieu Constant, Université de Marne-la-Vallée (France)
Etiquetage morphosyntaxique avec identification d'unités polylexicales

Dans cette présentation, nous décrirons une approche hybride d'étiquetage morphosyntaxique avec identification d'unités polylexicales. Elle combine à la fois des modèles discriminants de type CRF (Champs Markoviens conditionnels), des ressources lexicales riches et des machines à états finis. Dans un premier temps, nous présenterons l'état de l'art dans le domaine de l'étiquetage morphosyntaxique statistique. Puis, nous montrerons comment adpater les méthodes existantes afin d'identifier en parallèle les unités polylexicales à l'aide de techniques de chunking et des ressources lexicales. Enfin, nous décrirons diverses expériences consistant entre autres à intégrer un analyseur lexical avant la phase d'étiquetage. Les différentes approches utilisées seront évaluées sur le français.

présentation


17 décembre 2010
Julia Medori, CENTAL
Symbolic and machine learning methods for patient discharge summaries encoding.

This talk will address the issue of semi-automatic patient discharge summaries encoding into medical classifications such as the International Classification of Diseases (ICD). We will describe different methods for this task that have been implemented within the framework of the CAPADIS project, in collaboration with Saint-Luc hospital in Brussels. First, machine learning methods will be presented, and then, the implementation of two symbolic methods will be detailed: one is based on the morphological analysis of medical terms extracted with hand-crafted linguistic resources, the other relies on the automatic extraction of variants of ICD code labels. Both types of approach will finally be compared, detailing the advantages and drawbacks of each method.

présentation


4 février 2011
Andrey Philippovich, Bauman Moscow State Technical University
Information Technologies of Cognitive Thesauri Design.

Cognitive Linguistics is the study of mind through language and the study of language as a cognitive function. Research in Cognitive Linguistics is multidisciplinary; evidence is drawn from text analysis, language acquisition, language change, psycholinguistic experimentation, and brain imaging, and some other sources. That is why new lexicographical structures (dictionaries, thesauri, ontologies and others) are gaining popularity. These structures reflect not so much lexical, frequency, and semantic structure of the language, but its organization in memory and mental processes of the person. Within the framework of this seminar we will discuss principles and practical aspects of building some types of cognitive thesauri using modern information technologies: associative-verbal thesaurus, linguacultural thesaurus, dictionary of metaphors, etc. Also we will demonstrate our computer programs which use cognitive thesauri, and outline further prospective natural language processing applications of these linguistic resources.

présentation


11 février 2011
Mathieu Loiseau, Université Stendhal Grenoble 3
Prismes et facettes pour l'indexation pédagogique de textes pour l'enseignement des langues

Bien que la recherche de textes paraisse être une des tâches récurrentes de l’enseignement des langues, il semble que peu d’outils aient été conçus dans l’optique de permettre aux enseignants d’accéder à des supports textuels en fonction de critères relevant de leur problématique. Certains travaux s’intéressent à des aspects particuliers de cette tâche, comme par exemple la recherche de textes en fonction de leur lisibilité, d’autres s’en approchent du fait de traiter de collections de textes, mais concernent un objet d’étude différent : des corpus destinés à être utilisés dans l’enseignement des langues. Mais très peu adressent le problème de la recherche (et donc de l'indexation) de textes pour l’enseignement des langues en tant que tel. Le but du travail présenté ici est de proposer un modèle pour l'indexation pédagogique de textes pour l'enseignement des langues. Nous expliquerons pourquoi une approche empirique nous a paru nécessaire et comment les résultats de notre étude ont influencé le modèle que nous détaillerons ensuite. Nous aborderons les notions de prisme et de facette et conclurons avec des extensions possibles du modèle en ALAO.

présentation


25 février 2011
Elsa Tolone, Université Paris-Est
Utilisation des tables du Lexique-Grammaire dans un analyseur syntaxique

Les tables du Lexique-Grammaire (Gross 1975) constituent un lexique syntaxique très riche pour le français. Les catégories grammaticales couvertes sont les verbes, les noms prédicatifs, les expressions figées et les adverbes simples et figés. Cette base de données linguistique n'est cependant pas directement exploitable informatiquement car elle est incomplète et manque de cohérence. Notre objectif est d'adapter les tables pour les rendre utilisables dans diverses applications de Traitement Automatique des Langues (TAL), notamment l'analyse syntaxique (Tolone 2009). Pour cela, il faut expliciter les propriétés intervenant dans chacune d'entre elles, qui sont uniquement décrites dans la littérature (Tolone et al. 2010). Ensuite, nous montrons comment, grâce au travail décrit dans (Constant & Tolone 2010) et (Tolone & Sagot 2011), nous avons converti les tables du Lexique-Grammaire en un lexique au format Lefff (Sagot 2010), appelé lexique LGLex, permettant ainsi son intégration dans l'analyseur syntaxique FRMG (Thomasset & de La Clergerie 2005). Nous évaluons les résultats de l'analyseur syntaxique FRMG sur le corpus de référence de la campagne Passage en comparant sa version basée sur le Lefff avec notre version reposant sur les tables du Lexique-Grammaire converties.

résumé & références


11 mars 2011
Joseph Roumier et Fabrice Estiévenart, CETIC
Web Sémantique et Linked Data : des concepts, des outils et des données liées pour le traitement des connaissances biomédicales

Le domaine médical doit, aujourd'hui, faire face à une explosion d'information en provenance de sources de données variées telles que les dossiers patients, les protocoles médicaux ou les bases de données moléculaires. Afin d'être efficace dans l'identification des symptômes et dans le traitement des maladies, les acteurs de la santé (médecins, chercheurs, ...) doivent réussir à gérer ces données dont le degré de structuration et le format sont diversifiés. Pour faire face à ces nouveaux challenges, les données liées et les technologies et concepts du Web Sémantique offrent des mécanismes puissants pour l'interrogation et l'interopérabilité sémantique de systèmes d'information hétérogènes. Lors de cet exposé, nous illustrerons ces technologies par deux études de cas développées par le CETIC et ses partenaires : Le projet européen PONTE développe un système de conception d'essais clinique et d'aide à l'identification de patients éligibles à un test clinique sur base de sources  d'information hétérogènes et distribuées.

SIMG, un moteur de recherche sémantique sur les documents collectant l'état des pratiques dans le traitement d'une maladie donnée. Ce prototype permet aux personnes qui l'utilisent de préciser ou d'élargir le résultat de leur recherche en réalisant des extensions de requête par généricité, spécificité ou par relation entre concepts.


23 mars 2011
Lucie Barque, Université Paris 13 (LLI)
Traitement de la néologie sémantique au moyen de patrons de polysémie régulière

Je parlerai dans cet exposé du traitement de la néologie sémantique au moyen de patrons lexicaux représentant des règles de polysémie régulière. La nouvelle acception du nom MULE illustrée dans la phrase  (1) et paraphrasable par « individu chargé de porter de la drogue » pourrait par exemple recevoir une caractérisation sémantique sous­-spécifiée à partir d'un patron de métaphore décrivant le lien entre le sens animal et le sens individu ayant une fonction illustré par plusieurs unités polysémiques en français (COBAYE, GORILLE, LIEVRE, LIMIER, TAUPE).

(1) Ce film coup de poing braque son projecteur sur l'une de ces mules, une jeune colombienne candide.

Après avoir comparé les notions de polysémie régulière et de polysémie systématique et en avoir proposé une modélisation sous forme de patrons lexicaux sous­-spécifiés, je m'intéresserai au problème de l'identification des néologies sémantiques et à leur traitement lexical.

présentation


8 avril 2011
Jean-Philippe Goldman, Université de Genève
Analyse prosodique outillée pour l'étude de phonostyle.

Qu'est-ce qui rend particulier un extrait de parole ? La voix du locuteur, le contenu linguistique, l'ambiance sonore... Mais comment catégoriser plusieurs enregistrements comme appartenant au même style ou à des styles différents. Nous tenterons de cerner les caractéristiques prosodiques pertinentes qui permettent de distinguer des styles de parole, des groupes de locuteurs. Notre approche phonétique se basant sur l'observation de corpus importants, elle nécessite une approche automatisée, que nous détaillerons également.

présentation


29 avril 2011
Pierre-Yves Thomas, Directeur DBiT
Combinaison de différentes techniques TAL dans une suite logicielle intégrée.

Strad@Office est une suite logicielle intégrée qui permet la modélisation, la gestion et l'exploitation de connaissances. Elle permet la recherche sémantique de contenus de manière cross-language et cross-media.

Je présenterai dans cet exposé la plate-forme intégrée et ses modules qui mettent en oeuvre différentes techniques TAL : la reconnaissance automatique de la parole (ASR), OCR, identification de la langue, pos-tagging, analyse syntaxique, désambiguïsation lexicale, analyse sémantique, extraction d'information, élaboration de mémoires de traduction, traduction automatique, clustering non supervisé et catégorisation supervisée(SVM).


13 mai 2011
Thomas François, CENTAL
Une formule de lisibilité computationnelle pour le français langue étrangère.

Quel professeur de FLE n'a pas passé trop de temps à récolter des textes d'un niveau adapté à ses étudiants, que ce soit sur internet, dans la presse, etc. ? Quel autre n'a pas rêvé de générer automatiquement des exercices de langue sur un point de matière précis, tout en contrôlant le niveau de difficulté global des matériaux utilisés ?

Les formules de lisibilité, qui constituent une façon d'évaluer automatiquement la difficulté de matériaux pédagogiques à la lecture, semblent pertinents par rapport à ces problématiques. Délaissées dans les années 80-90, elles ont récemment connu un renouveau sous l'influence de techniques issues du TAL et de l'intelligence artificielle. 

Nos recherches s'ancrent dans ce nouveau paradigme, que nous avons appelé la "lisibilité computationnelle". Elles visent à développer la première formule de lisibilité computationnelle pour le FLE. Dans ce séminaire, nous décrirons les problématiques liées à la conception d'une telle formule, avant de discuter les résultats de notre modèle. Nous terminerons cette présentation par la présentation de Dmesure. Il s'agit du prototype d'un site web qui vise à récupérer automatiquement sur le web des textes d'un niveau de difficulté précis.

25 septembre 2009

Richard Beaufort (CENTAL, UCLouvain)

Recto/Verso. Un système de conversion automatique ancienne/nouvelle orthographe à visée linguistique et didactique.

L'objectif de ce séminaire est de présenter Recto/Verso, un système de traitement automatique du langage dédié à l’application des rectifications orthographiques de 1990. Ce système a été développé au CENTAL (Centre de Traitement Automatique du Langage, UCL), dans le cadre de la campagne de sensibilisation réalisée en mars dernier par le Service et le Conseil de la langue française et de la politique linguistique de la Communauté française de Belgique. Nous commençons par rappeler les motivations et le contenu de la réforme proposée, et faisons le point sur les principes didactiques retenus dans le cadre de la campagne. La plus grande partie de la présentation est ensuite consacrée à l’implémentation du système. Nous terminons enfin par une petite analyse de l’impact de la campagne sur les utilisateurs, et proposons quelques réflexions quant à l'impact de la nouvelle orthographe sur les applications en Traitement Automatique des Langues.

Support de la présentation

 

16 octobre 2009

Bastien Kindt (UCLouvain ; Brepols-Publishers)

Traitement du grec ancien sous UNITEX et ELAG.

Ce séminaire illustrera comment les acteurs du « Projet de recherche en lexicologie grecque » (UCL, Institut orientaliste) tirent partie d’UNITEX et de ELAG — l’interface de désambiguïsation lexicale implémentée dans UNITEX — pour traiter des corpus écrits en grec ancien.  L’accent sera mis d’abord sur la description des outils et sur les adaptations nécessaires pour qu’ils puissent assurer un traitement efficace du grec ancien. Il sera ensuite question de la démarche suivie pour construire des règles de désambiguïsation. L’exposé se clôturera par une évaluation des règles décrites, ce qui permettra de mettre en évidence les atouts ou les limites du système ELAG. Remarque : la connaissance du grec ancien n’est pas indispensable pour suivre ce séminaire.

Support de la présentation

 

30 octobre 2009

Serge Verlinde (Institut interfacultaire des langues vivantes, K.U.Leuven)

Du dictionnaire informatisé au système d’information lexical intégré.

Repenser entièrement le concept du dictionnaire pour tirer profit au maximum des possibilités qu’offre le support informatique. Voilà le défi que nous avons tenté de relever avec la Base lexicale du français (BLF : ilt.kuleuven.be/blf). Le résultat est un système d’information lexical intégré (Heid 2008) avec des voies d’accès aux informations déterminées par les besoins des utilisateurs, l’intégration de diverses ressources (lexicales) disponibles sur le web et différents types d’aide à la lecture, la traduction et la rédaction.

L’intérêt de la BLF réside en outre dans l’emploi que l’on peut en faire dans différentes situations d’enseignement et dans l’analyse des traces laissées par les utilisateurs.

Support de la présentation

 

13 novembre 2009

François Yvon (Limsi/CNRS, Université Paris 11)

Une architecture pour le traitement automatique des SMS.

Le "langage SMS" fait désormais partie intégrante des nouveaux moyens de communication, puisqu'il est massivement utilisé dans les messages inter-personnels échangés via les téléphones portables, dans les forums de discussion, les commentaires de blogs, etc.). Traiter automatiquement ces messages, par exemple en vue d'applications de vocalisation automatique, d'indexation de pages Web, d'extraction d'information, etc, présuppose une étape préalable de normalisation. Les procédés les plus typiques de l'écriture SMS (écriture "phonétique", "consonantique" ou "rébus") nous ont motivés à mettre en oeuvre un système de normalisation s'inspirant des méthodes de décodage phonétique traditionnellement utilisées en reconnaissance vocable. Ainsi, le SMS à transcrire est converti en un graphe de phonétisations possibles; l'accès à un dictionnaire inverse de phonétisation permet de retrouver l'ensemble des séquences de mots pouvant figurer dans le SMS initial. Enfin, l'application d'un modèle de langage nous permet d'en retirer la séquence de mots la plus probable. Dans cet exposé, après avoir présenté les problèmes liés à la normalisation des SMS, nous détaillerons cette approche, son implémentation par des transducteurs finis pondérés, et discuterons un certain nombre de résultats quantitatifs et qualitatifs qu'elle permet d'obtenir, en les contrastant avec d'autres approches du problème.

Support de la présentation

 

27 novembre 2009 de 11h à 12h15

Nathalie Dehaut (Université Toulouse II)

Terminologie et interdisciplinarité : le cas de l'exobiologie.

Depuis  quelques années, la terminologie textuelle ébranle les principes de monosémie et d'univocité sur lesquels se base la terminologie traditionnelle. Alors que la terminologie traditionnelle est profondément prescriptive, la terminologie textuelle devient descriptive et étudie les termes en contexte. Dans ce type de perspective, l’exobiologie constitue un lieu d’observation précieux car il s’agit d’un domaine en train de se constituer et des termes sont « empruntés » aux diverses disciplines impliquées (biologie, chimie, physique, géologie…) mais nécessairement adaptés afin de contribuer à créer un objet commun.L'interdisciplinarité peut-elle être source de polysémie dans la terminologie du domaine? Polysémie qui, jusqu'à présent, a été considérée comme absente des vocabulaires techniques et scientifiques. Une étude des termes en contexte est donc menée. Etant donné que nous ne pouvons nous appuyer sur nos seules intuitions linguistiques dans ce domaine où nous n’avons aucune compétence, nous faisons appel à des experts, issus des principales disciplines représentées en exobiologie, que nous interrogeons pour éviter toute erreur d’interprétation.

Support de la présentation

 

11 décembre 2009

Antoine Désir (Labage).

Qui a peur de l'UPL ? SCP_f / LocalMaxs : une méthode statistique oubliée pour la gestion des unités polylexicales.

Le token - souvent utilisé en TAL - est une unité graphique et non sémantique. Pour traiter un corpus au niveau sémantique, il est plus pertinent de regrouper certains tokens en unités polylexicales. Le recours aux dictionnaires de mots composés n'est pas toujours possible et peut être limitatif. Les outils probabilistes s'arrêtent en général au bigramme, en calculant le degré d'association entre les deux mots qui le composent. Nous verrons qu'il existe une technique peu connue (qui combine SCP_f et LocalMaxs) pour dépasser cette limite et pour extraire automatiquement d'un corpus les unités polylexicales statistiquement pertinentes, quelle que soit leur longueur. Dans le cadre du moteur de recherche CL!Psci, nous utilisons cette technique pour enrichir nos corpus avant de calculer le voisinage sémantique.

 

12 février 2010

Yves Peirsman (KULeuven)

Crossing Corpora. Modelling Semantic Similarity across Languages and Lects.

Semantic spaces help us identify the semantic similarity between two words on the basis of the contexts in which they are used. So far, these spaces have been constructed mainly on the basis of one corpus. In this talk I will show how this paradigm can be extended to situations with two corpora, in order to support research in variational linguistics and cross-lingual knowledge induction. For the investigation of language variation, we can build a semantic space on the basis of two corpora from different language varieties (or lects) of the same language. The resulting space can be used to automatically identify the words that are typical of either variety, and to extract their synonyms from the other lect. I will present case studies from Dutch and German to illustrate this method. In a similar vein, it is also possible to construct a semantic space on the basis of two corpora from different languages. With this type of space, we can bootstrap a bilingual lexicon with word translations between the two languages in a fully unsupervised way. These word translations can subsequently support tasks of cross-lingual knowledge induction, where semantic or syntactic knowledge is generalized from one language to the other. I will apply this idea to a cross-lingual model of verbal selectional preferences in particular.

Support de la présentation

 

26 février 2010

Marc Van Campenhoudt (Centre de recherche TERMISTI, Institut supérieur de traducteurs et interprètes)

Le traitement lexicographique des termes spécialisés.

Cette communication proposera une synthèse des principales avancées réalisées en matière de description et de traitement des données terminographiques dans le cadre des dictionnaires électroniques. En se basant sur les travaux menés au sein du Centre de recherche en linguistique appliquée Termisti (ISTI, Bruxelles), on s'attachera à montrer que les oppositions théoriques censées opposer la lexicographie et la terminographie sont rendues caduques par l'émergence de nouvelles méthodologies issues de l'ingénierie linguistique et de la linguistique de corpus.

Support de la présentation

 

12 mars 2010

Philippe Martin (Université Paris 7)

Détection des proéminences syllabiques et contraintes phonologiques.

La détection des proéminences syllabiques est essentielle pour la validation des théories phonologiques de l'intonation. Parmi les différents algorithmes proposés récemment, quelques uns font appel à des contraintes phonologiques et notamment à la règle des 7 syllabes, vouant que dans une séquence de 7 syllabes consécutives, l'une d'elles au moins soit proéminente. Un algorithme  récent (Martin) utilise cette propriété pour conférer à chaque syllabe un coefficient de proéminence sans nécessiter de segmentation syllabique préalable.

Toutefois, l'examen attentif des procédures manuelles (Avanzi-Simon) montre que la caractérisation « manuelle » de la proéminence ne peut se faire ex nihilo et met en oeuvre des connaissances phonologiques, syntaxiques et sémantiques auxquelles l'algorithme n'a pas accès. C'est pourquoi la détection automatique des proéminences syllabiques ne peut être qu'indicative, et apparaître comme une aide à la décision des phonologues plutôt que comme une procédure totalement fiable.

Support de la présentation

 

19 mars 2010

Zhiwei Feng (Institute of Applied Linguistics, Chinese Ministry of Education (IAL-MOE) and Communication University of China (CUC))

Inter-textual English vocabulary growth patterns.

This talk will explore two fundamental issues concerning the inter-textual vocabulary growth patterns for Marine Engineering English based on the large-scale authentic corpus. They are vocabulary growth models and newly occurring vocabulary distributions in cumulative texts.

Four mathematical models (Brunet’s model, Guiraud’s model, Tuldava’s model, and Herdan’s model) are tested against the empirical growth curve for Marine Engineering English.

A new growth model is derived from the logarithmic function and the power law.

The theoretical mean vocabulary size and the 95% upper and lower bound values are calculated and plotted as functions of the sample size. The research is carried out on the basis of the DMMEE (Dalian Maritime University Marine Engineering English) corpus of DMU (Dalian Maritime University, China).

This research has application in explicit EFL (English as Foreign Language) teaching and learning. The new growth model can make reliable estimates not only on the vocabulary size and its 95% confidence intervals for a given textbook, but also on the volume of individual texts that are needed to produce a particular vocabulary size.

Support de la présentation

 

31 mars 2010

Jean-Léon Bouraoui (Orange Labs)

Expansion sémantique de requête.

Ce séminaire sera consacré à l'expansion sémantique de requête. Il s'agit d'une technique employée en Recherche d'Information, qui consiste à ajouter des termes à une requête, voire à remplacer celle-ci. L'objectif est de retourner à l'utilisateur des documents qu'il n'aurait pas trouvé avec sa requête initiale (exemple; la requête "voiture" ne permettra pas de trouver les documents ne contenant que le terme "automobile").

Dans un premier temps, nous présenterons en détail la problématique de l'expansion de requête, et les différentes techniques décrites dans la littérature. Nous exposerons ensuite les solutions que nous avons mises en place dans le cadre de notre travail sur ce thème à Orange Labs.

Support de la présentation

 

7 mai de 11h à 12h15

Libei Chen (Vadis Consulting)

Automated modelling tools for large scale classification and prediction

Our automated tools are made for solving classification problems on huge data sets with multiple classification objectives: (1) Large amounts of data in terms of number of records; (2) Large number of dimensions and (3) multiple classification problems based on common data sources.

These tools are made by analysts for analysts and combine advanced modelling techniques and best practices in data mining. Their core engine is built to allow an analyst to quickly build models on huge data sets, and have all elements to control the model choices and its quality, in order to focus his attention on the most important part of the modelling process: data quality, overfitting, stability and robustness. Using this engine, the analyst will get support for many modelling phases: audit, variable recoding, variable selection, robustness improvement, result analysis and industrialisation.

These tools are indeed suitable in the multiple classification objectives of documents based on structured information extracted from free texts.

In this talk we are going to see the modelling principles and the automated steps behind these tools. A demo will be made on some practical examples.

Support de la présentation

 

21 mai 2010

Cynthia Rud et Cédric Bounameaux (ALTISSIA)

Comment intégrer efficacement l’e-learning dans l’apprentissage d’une langue étrangère ?

Ce séminaire a pour but de comparer différentes façons d’intégrer l’e-learning dans le cadre de l’apprentissage d’une langue étrangère chez l’adulte.

Il est basé sur l’expérience acquise par l’équipe qui a développé ALTISSIA, une plateforme de cours en ligne permettant d’apprendre l’anglais, le néerlandais, l’allemand, l’espagnol et le français.

L’exposé débutera par une courte présentation de la pédagogie et des cours proposés sur la plateforme ALTISSIA. Nous proposerons ensuite un aperçu des différents dispositifs de formation intégrant l’e-learning à des degrés divers ; nous reviendrons ainsi sur les concepts d’auto-apprentissage, de « blended learning » et de tutorat ou coaching.

Nous nous concentrerons enfin sur les forces et faiblesses des différents dispositifs de formation afin de mieux comprendre dans quels contextes ils sont les plus appropriés.

Support de la présentation

3 octobre 2008
Laurence Danlos, Université Paris 7, France.
Architecture et formalisme de génération de textes.

Après avoir rappelé l'architecture standard d'un système de génération de textes, nous présenterons G-TAG, un formalisme de génération basé sur les TAG (Tree Adjoining Grammar).  Ce formalisme a été implémenté dans des applications industrielles.

support de la présentation


17 octobre 2008
Marianna Apidianaki, Université de Paris 7, France.
Induction automatique de sens pour la désambiguïsation lexicale en traduction

La désambiguïsation lexicale constitue une étape intermédiaire de traitement dans les applications de TAL, qui sert à améliorer leur performance. Néanmoins, les besoins des applications en matière de désambiguïsation divergent et devraient être pris en considération lors du choix de la méthode de désambiguïsation et de l’inventaire de sens utilisé. Les problèmes posés par l’exploitation de ressources sémantiques prédéfinies et l’inadéquation de méthodes indépendantes des applications dans certains contextes ont provoqué le développement de méthodes non supervisées d’induction de sens et de désambiguïsation, orientées vers des applications précises.
Nous présentons une méthode d’induction de sens dirigée par les données et opératoire dans un contexte bilingue. Les sens d’un mot ambigu sont identifiés en combinant des informations distributionnelles et traductionnelles provenant d’un corpus parallèle d’apprentissage. Ces informations servent au clustering des équivalents de traduction du mot ambigu sur la base de leur similarité sémantique. Les clusters créés sont projetés sur le mot ambigu et servent à déterminer ses sens. La méthode proposée étant entièrement fondée sur des données, elle est, par conséquent, indépendante de la langue et permet l’élaboration d’inventaires sémantiques relatifs aux domaines représentés dans les corpus traités.
L’inventaire construit est exploité par une méthode de désambiguïsation lexicale, afin d’attribuer un sens à de nouvelles instances de mots ambigus en contexte, et par une méthode de sélection lexicale, qui propose leur traduction la plus adéquate.

support de la présentation


7 novembre 2008
Cédrick Fairon, Université catholique de Louvain, Belgique.
La mise à jour des dictionnaires électroniques : le cas du DELAF

Les dictionnaires électroniques DELA ont été parmi les premières ressources lexicales à large couverture pour le français (Courtois 1990). Ils sont aujourd'hui diffusés sous une licence LGPL qui fixe clairement les conditions d'utilisation et facilite dès lors leur réemploi dans toutes sortes de projets. Malheureusement, l'absence de mises à jour systématiques depuis le début des années 2000 a conduit ce dictionnaire à prendre quelques rides : ne cherchez pas les mots blog, biodiversité, cybercriminalité, microcrédit, téraoctet, bancassureur ou paralympique, ils n'y sont pas, même si les réalités qu'ils dénotent sont devenues, elles, très communes. Il est donc utile de se pencher sur ce problème et d'apporter aussi vite que possible des compléments permettant de... rattraper la néologie.

Nous présenterons une expérience réalisée avec des étudiants du Master en linguistique à l'UCL (Belgique), dans le cadre d'un cours de lexicologie, et visant à identifier et étudier les "mots inconnus" d'un corpus de presse couvrant la période 2000-2006 (le DELAF servant de "corpus d'exclusion). Nous présenterons la méthodologie de collecte des candidats qui repose sur l'usage d'un logiciel de "veille linguistique" (Fairon et Paumier 2006) et les critères de sélection des nouvelles entrées lexicales. En particulier, nous soumettrons au débat la problématique des "mots composés". Outre l'apport concret d'une liste de mots nouveaux pour le DELAF, cette expérience permet de prendre une mesure du phénomène de la néologie sur une période de 5 ans.
Le dictionnaire constitué dans le cadre de cette expérience sera prochainement livré pour une intégration dans le DELAF.


21 novembre 2008
Camilla Clausen, Université de Bergen, Norvège.
"Une mise en défi": La dynamique lexicale et le traitement automatique de la langue.

Pour le traitement automatique de la langue, l’instabilité des unités  lexicales représente un défi considérable. Même si on fait  l’inventaire de lexique et note les divers traits sémantiques et  syntaxiques pour telle et telle unité, leur emploi se fait - en fin de  compte - toujours au gré des locuteurs qui, eux, peuvent former,  réformer voire déformer la langue et les mots à leurs propres fins et  même sans s’en rendre compte. Dans cette dynamique lexicale, certaines  unités sont repérées et répertoriées en tant que néologismes, d’autres  pas. Dans cet exposé, nous allons voir comment les constructions  nominales une mise en place, une mise en scène, une mise en boîte et  d’autres de ce type reflètent bien cette dynamique, tout en posant des  inconvénients et difficultés par rapport aux notions ‘néologie’ et  ‘productivité lexicale’.

Présentation


5 décembre 2008
Pierre Lison, Universität des Saarlandes, Saarbrücken, Germany.
Vers la conception de robots conversationnels.

Est-il possible de concevoir des robots capables d'interagir avec des êtres humains au moyen de langues naturelles ?  Plus précisément, est-il possible de rendre un robot capable de comprendre la signification d'un dialogue parlé, et de participer lui-même à ce dialogue, en contribuant à l'interaction de manière pertinente?
Dans cet exposé, nous présentons les questions fondamentales qui sont abordées dans le cadre d'interactions hommes-robots.  Nous décrivons l'architecture générale de systèmes de dialogue pour des robots parlants, ainsi que les difficultés rencontrées dans le développement de tels systèmes.

Nous portons en particulier notre attention sur les relations que ce domaine de recherche entretient avec les sciences cognitives, la philosophie du langage, et bien sûr la linguistique.

support de la présentation


6 février 2009
Benoît Crabbé, Université Paris 7, France.
Analyse syntaxique statistique du Français : constituants et dépendances

L'exposé traitera de l'analyse syntaxique statistique de textes journalistiques Français en constituants et en dépendances.
Nous commencerons par présenter le corpus utilisé (le corpus arboré de LLF/Paris 7)
Après un exposé des motivations sous-jacentes à la démarche, nous présenterons et motiverons une architecture d'analyse ainsi que les algorithmes utilisés.
L'analyse en constituants est réalisée par un algorithme d'apprentissage semi-supervisé reposant sur un calcul d'annotations latentes.
L'annotation fonctionnelle est réalisée en pipeline de l'analyse en constituants par des machines à vecteurs support.
On terminera en montrant comment extraire des dépendances des analyses, en présentant divers résultats d'évaluation et en indiquant les limitations techniques et formelles de l'approche présentée.

support de la présentation


20 février 2009
Joël Van Hoolandt, KPMG, Belgique.
La gestion des connaissances dans un Big Four: retour d'expérience et mise en pratique.

L’exposé visera à présenter une vue d’ensemble reprenant les différents aspects de gestion des connaissances mis en place chez KPMG en Belgique depuis dix ans. Après une rapide introduction de l’entreprise et de ses départements, nous détaillerons les solutions mises en place afin de répondre aux attentes de ce groupe concernant sa gestion de l’information. Enfin, nous conclurons l’exposé par une session de questions / réponses, ainsi que la présentation de certaines sources d’information utilisées au quotidien, là où les recherches en linguistique offrent des perspectives nouvelles.

support de la présentation


6 mars 2009
Stéphanie Weiser, Université Paris 10, France.
Pages Web touristiques : repérage automatique d'informations temporelles et comparaison avec guides touristiques papier

Dans le cadre de la réalisation d'un portail touristique sur Internet, les expressions temporelles sont primordiales. Elles ont des caractéristiques précises : elles ont une visée informative et sont assez spécifiques. Notre travail consiste à extraire ces informations des pages Web et à les annoter afin d'alimenter une base de connaissance. Après avoir caractérisé les informations que nous voulons détecter, nous verrons les difficultés qui peuvent se poser, au moment de l'extraction ou de l'annotation.

Sur un plan technique nous présenterons notre méthode d'extraction, et les transducteurs qui ont été réalisés à l'aide d'Unitex pour les besoins du projet.

Sur un plan théorique, nous ferons une étude comparative des expressions temporelles touristiques sur Internet et dans les guides touristiques papier. Nous étudierons également la façon dont le temps est représenté sur le Web : informations sans cesse actualisées, dates relatives, etc.

support de la présentation


20 mars 2009
Anne-Sophie Gasser, Acapela Group, Belgique.
Synthèse vocale: nouveaux développements

Lors de cet exposé, Anne-Sophie Gasser nous présentera une brève introduction générale à la synthèse vocale.  Elle détaillera ensuite les nouveautés sur lesquelles son équipe travaille au sein d'Acapela Group: synthèse émotionnelle, Acapela TV, création de voix à la demande.

support de la présentation


24 avril 2009
Fiammetta Namer, UMR « ATILF » et Université de Nancy2, France.
Morphologie, sens lexical et TAL : ou comment définir automatiquement le sens des néologismes construits

Cet exposé présente DériF (« Dérivation en Français »), un système d’analyse automatique du vocabulaire morphologiquement construit du français (Namer, 2005). La présentation se focalise sur l’usage de cet analyseur dans la prédiction :
(1) de la définition de noms, verbes et adjectifs inconnus du vocabulaire général, calculée en fonction du sens de la base morphologique de ces lexèmes inconnus, ainsi que
(2) des informations que la morphologie est capable d’affecter aux lexèmes qu’elle met en relation (transitivité des verbes, nature sémantique des noms …) (Namer, 2002).

support de la présentation

10 mars 2008

Stijn Christiaens, Semantics Technology and Applications Research Laboratory (STARLab), VUB.
The meaning of semantics

A major problem in todays information society is the large amount of available ontent. It can be a tedious task to find the information one seeks. The main reason for this problem is that the data is highly instructured or semi-structured and that meaning is only visible to human agents. A lot of research is trying to solve this problem in order to enable the Semantic web, and beyond that, the Pragmatic Web. In todays research, topics like ontology creation, representation, merging and alignment and evolution receive a lot of attention. Research on collaborative ontology engineering has already begin, but needs further exploration. Currently, high quality ontology engineering is a task mostly done by knowledge engineers. An ontology is seen as a shared and agreed upon resource, but most ontologies are created by single (or a small group of) knowledge engineers. Current trends in the Web (the so-called Web 2.0) succeed in activating the users to participate in metadata creation. Although rather limited in quality, these mechanisms deliver metadata in a quantity that Semantic Web researchers can only dream of.  It is clear that we need to investigate how users in communities can get deeply involved in meaning creation. Stakeholders need the power to capture and evolve their ontologies themselves. We have to find out how and where we can glue the Semantic Web to the user interaction in the so- called Web 2.0.
support de la présentation


21 avril 2008

Pierre Zweigenbaum, LIMSI-CNRS, Orsay
Acquisition de ressources lexicales spécialisées monolingues et multilingues

Pierre Zweigenbaum présentera des travaux menés dans l'équipe du LIMSI et en collaboration pour mettre au point et appliquer des méthodes d'aide à l'acquisition de ressources lexicales spécialisées. Ces travaux visent à aider à obtenir plusieurs types de connaissances sur des mots et des termes : relations morphologiques, variantes, traductions. Les méthodes employées incluent l'exploitation de thésaurus existants et de corpus monolingues et multilingues.
support de la présentation


25 février 2008
Christophe Lejeune, Université de Liège.
Cassandre, ou la rencontre de l'analyse textuelle et de la sociologie qualitative

Docteur en sociologie, l'auteur présente le logiciel Cassandre, issu d'un partenariat entre l'Université de Liège et l'Université de Technologie de Troyes. Destiné à l'analyse qualitative en sciences humaines et sociales, Cassandre repose sur des dictionnaires construits par les utilisateurs. Grâce au protocole Hypertopic, il constitue en outre une plateforme collaborative (un /collaboratoire/) permettant aux chercheurs de confronter leurs analyses. La conférence discute en outre l'apport de fonctionnalités lexicométriques à un outil de ce type.


11 février 2008
Matthieu Constant, Université Paris-Est
LGExtract : un outil générique pour reformater les informations des tables du lexique-grammaire

Les tables du lexique-grammaire forment un lexique-syntaxique à large couverture d'une précision linguistique remarquable. Leur forme tabulaire facilite leur lecture et leur maintenance. Cependant, ce format est très rarement compatible avec le format de lexiques utilisés dans des applications de TAL comme les analyseurs syntaxiques. Pour pallier ce problème, nous proposons un outil de reformatage des tables dans différents formats. Contrairement aux approches travaillant table par table avec une configuration différente pour chaque table, notre outil n'a qu'une seule configuration et est conçu pour fonctionner à l'aide de la table des tables (en cours de construction à l'IGM). Nous avons mis au point un petit langage où chaque propriété est associée à une opération et un objet linguistique sous la forme de listes ou/et de structures de traits. Suivant les propriétés sélectionnées pour chaque entrée, les opérations et objets linguistiques associés seront combinés pour former une entrée reformatée. Dans cet exposé, nous présenterons d'abord une description des principes généraux de l'outil. Nous illustrerons ensuite notre propos de différents exemples de lexiques que l'on peut obtenir et d'une démonstration.


28 janvier 2008
Olivier Ferret, CEA, Paris.
Segmentation thématique de textes : au-delà de la récurrence lexicale

A la suite de la méthode TextTiling proposée par Marti Hearst, de nombreux algorithmes de segmentation thématique de textes fondés sur le contenu, et plus précisément sur la récurrence lexicale, ont été développés. Toutes ces méthodes se fondent plus ou moins explicitement sur l'hypothèse que la proximité thématique de deux segments de texte est liée au nombre de mots qu'ils partagent. Cette hypothèse est opérante lorsque les concepts véhiculés par les textes se manifestent au travers d'un vocabulaire spécifique mais se trouve mise en défaut lorsqu'ils apparaissent sous des formes plus diverses. Dans cette présentation, je proposerai deux pistes de solution pour faire face à ce problème. La première est de nature endogène et exploite la similarité distributionnelle des mots au sein des documents pour en découvrir les thèmes. Ces thèmes sont ensuite utilisés pour faciliter l'identification des similarités thématiques entre segments de texte. La seconde réalise le même but en faisant appel à une ressource externe, en l'occurrence un réseau de cooccurrences lexicales construit à partir d'un large corpus.
support de la présentation


Lundi 10 décembre 2007
Jean-Michel Renders, XEROX XRCE
Quelques perspectives récentes en recherche documentaire trans-lingue et trans-media

Cette presentation sera consacrée à un panorama non-exhaustif de méthodes récentes en recherche d'information multi-lingue d'une part, et multi-media (texte + image) d'autre part. Nous montrerons comment certaines de ces méthodes peuvent émerger d'un cadre commun, en mettant en évidence la similarité des processus mis en oeuvre (processus de "traduction" et d'enrichissement généralisés). En particulier, nous examinerons comment des mécanismes de pseudo-boucles de pertinence permettent de résoudre, primo, des problèmes d'adaptation de dictionnaires de traduction  (cas multi-lingue) et, secundo, des problèmes de représentation transmodale (texte vers image ou image vers texte) pour combler le fossé sémantique entre les deux modes. Les concepts présentés seront illustrés dans le cadre de tâches de la Conférence d'Evaluation CLEF 2007.


19 novembre 2007
Guy Deville
Mise en oeuvre d'un outil original d'aide en ligne à la lecture de textes en langue étrangère

support de la présentation


22 octobre 2007
Sophie Roekhaut
L'analyse morpho-syntaxique dans un synthétiseur de parole
support de la présentation


3 octobre 2007
Carl Vogel
Intensional Semantics for Sense Extension and Metaphoricity


10 mai 2007
Laurent Kevers
Traitement des expressions temporelles dans les dépêches de presse


4 mai 2007
Richard Beaufort
Synthèse de la parole par sélection d'unités non uniformes
support de la présentation


26 avril 2007
Hubert Naets
Traitement automatique des langues peu dotées


20 avril 2007
Piet Mertens
Un analyseur syntaxique pour grammaires de dépendance et de valence