Aller au contenu principal

Séminaires du CENTAL

cental | Louvain-la-Neuve

Les séminaires organisés par le CENTAL sont entièrement gratuits et accessibles à tous. Ils ont pour objectif de rassembler enseignants, étudiants et chercheurs, qu’ils soient issus du milieu académique ou industriel, autour de thématiques liées au traitement automatique des langues.

Pour rester informé(e) des séminaires à venir et des dernières actualités du CENTAL, nous vous invitons à rejoindre notre liste de diffusion en vous y inscrivant dès maintenant.

 

Programme de l'année académique 2025-2026

Organisation : Elodie Vanzeveren et Lingyun Gao.

👤  Speaker :  ​Pierre Lison 

 

💬  Titre ​:  L’anonymisation/désidentification de données textuelles : pourquoi et comment

 

Abstract :

 

Durant cette présentation, je vais faire un tour d’horizon des recherches à l’intersection du TAL et de la protection de la vie privée. La grande majorité des textes contiennent en effet, sous une forme ou une autre, des *données personnelles*, c’est-à-dire des données se rapportant à une personne physique identifiée ou identifiable.  L’identité des personnes mentionnées ou évoquées dans un texte est typiquement révélée au travers de différents « indices », qui peuvent être directs (comme un nom ou un numéro de téléphone portable) ou indirects (comme le lieu de travail, l’âge, la nationalité ou l’appartenance à un club sportif).

 

Diverses méthodes peuvent heureusement être utilisées pour masquer automatiquement ces indices (souvent regroupés sous l’appellation de « personally identifiable information » ou PII) dans un texte. Ces méthodes de masquage peuvent reposer sur des systèmes classiques de reconnaissance des entités nommées ou sur l’utilisation de LLMs. Ce masquage des PII est notamment crucial pour des données personnelles au contenu particulièrement sensible comme des décisions de justice ou des rapports cliniques. Mais ces méthodes permettent-elles réellement de rendre un texte « anonyme » au sens du RGPD ? Et comment peut-on mesurer si un texte a été suffisamment désidentifié ? Dans un article que nous avons récemment publié (Lien) , nous avons notamment montré comment il est possible « d’attaquer » un texte désidentifié en tentant activement de réidentifier la personne dont l’identité devait être cachée à partir de connaissances contextuelles auxquelles un adversaire (fictif) peut avoir accès.

 

📅  Date  :  03/10/2025

📍 Local  :  Maison Des Langues A118 (FIAL)  ( Google Map link

 

👤  Speaker :  ​Santiago Herrera 

 

💬  Titre ​:  Extraction de règles de grammaire quantitatives à partir de treebanks syntaxiques

 

Abstract : 

 

Cette présentation a pour objectif de montrer comment extraire des règles grammaticales quantitatives et interprétables à partir de treebanks syntaxiques. Cette démarche s'inscrit dans le cadre des grammaires descriptives, qui exigent des analyses fines pour décrire des phénomènes linguistiques complexes tout en intégrant les propriétés générales des langues étudiées. Pour y parvenir, nous proposons une formalisation de règles grammaticales guidées par les corpus, faciles à généraliser et à mettre en œuvre via des méthodes automatiques facilement interprétables.

 

Les règles ainsi obtenues sont concises, présentent différents niveaux de granularité, permettent une sélection flexible et sont ordonnées par importance. Les résultats sont évalués sur plusieurs langues afin d'examiner sa capacité à répondre aux besoins descriptifs, puis sont comparés à d'autres approches existantes.


La méthodologie est ensuite étendue à la description contrastive des langues, ce qui permet de mettre en évidence leurs différences et leurs similitudes. Cette approche permet d'obtenir des profils linguistiques, c'est-à-dire des ensembles de motifs communs et distinctifs qui caractérisent une langue par rapport à une autre. Les expériences portent sur plusieurs langues et genres textuels.


Une attention particulière est accordée à la nature des règles extraites et à leur évaluation.


L'objectif final est de démontrer la faisabilité de l'extraction d'une grammaire guidée par des corpus afin de décrire des langues, en exploitant la grammaire implicite contenue dans les corpus annotés.

 

📅  Date  :  07/11/2025

📍 Local  :  Auditoires UCLouvain Agora (AGOR 01) ( Google Map link

🗒️ : Slides

👤  Speaker :  ​ Mathieu Constant 

 

💬  Titre ​: Modélisation lexicale pour le traitement automatique des langues :  les cas des expressions polylexicales et de la complexité lexicale

 

Abstract : 

Dans cet exposé, nous nous intéresserons à la modélisation lexicale dans le cadre du traitement automatique des langues. Après avoir dressé le contexte général de nos travaux en lien avec le sujet, nous présenterons plus en détail nos recherches sur deux aspects différents : (i) l’identification des expressions polylexicales et (ii) la prédiction de la complexité lexicale.


Les expressions polylexicales (EP) sont des combinaisons de plusieurs unités lexicales montrant une certaine idiosyncrasie dans leur composition (ex. crever l’écran, cordon bleu, en dépit [de]). En particulier, nous présenterons des méthodes d’annotation de ces expressions à base de critères linguistiques qui ont permis de construire différents corpus annotés. Ces derniers ont ensuite servi à l’apprentissage et à l’évaluation de modèles d’identification automatique d’EP en corpus.


La prédiction de la complexité lexicale telle que nous la considérons consiste à estimer le degré de difficulté (un nombre réel entre 0 et 1) qu’un lecteur ou une lectrice ressent pour comprendre un mot cible dans son contexte. Nous comparerons en particulier les performances pour cette tâche de modèles profonds supervisés avec des grands modèles de langue génératifs.


En conclusion, nous présenterons différentes pistes d’amélioration des méthodes étudiées, ainsi que des perspectives pour articuler et combiner ces deux volets.

 

 

📅  Date  :  21/11/2025

📍 Local  :  Maison Des Langues A118 (FIAL)  ( Google Map link

📺  Enregistrement du séminaire

 

👤  Speaker :  ​Sebastian Schuster

 

💬  Titre ​: Entity tracking in language models

 

Abstract : 

Keeping track of how states and relations of entities change as a text or dialog unfolds is a key prerequisite to discourse understanding as well as other AI tasks such as planning, and yet it remains unclear to what extent pretrained language models systematically exhibit this capability. In my talk, I will first discuss the challenges that come with evaluating such general abilities in LMs, and then I will present a new evaluation task for assessing entity tracking abilities in LMs. I will then present results on GPT-3/3.5/4, Flan-T5, and Llama 2 models and discuss the influence of pretraining on code for entity tracking abilities. I will also show that smaller models can learn to track entities but their generalization abilities are still quite limited, and present some preliminary results from a subsequent probing study that investigates how the model solves this task.
 

📅  Date  :  28/11/2025

📍 Local  :  Maison Des Langues A118 (FIAL)  ( Google Map link

 

👤  Speaker ​Wafa Aissa 

 

💬  Titre ​: iRead4Skills : Technologies linguistiques inclusives au service des adultes faibles lecteurs.

 

Abstract : 

Reading proficiency is crucial for learning, professional development, and social participation, yet many adults continue to face reading difficulties that hinder access to information and training. These challenges motivate the iRead4Skills project, which aims to improve reading skills in the adult population by creating an intelligent system that assesses text complexity and suggests appropriate reading materials. 
In this talk, I will present the iRead4Skills project, its context, and its current state of development, as well as the research carried out in this scope. I will focus in particular on how AI- and NLP-driven approaches can be leveraged to model text complexity. I will also discuss the design and evaluation of readability models tailored for adults with low literacy skills.

 

📅  Date  :  05/12/2025

📍 Local  :  Auditoires UCLouvain Agora (AGOR 01) ( Google Map link