Arkey

ARKEY - Un accès aux archives numériques, centré-utilisateur et enrichi par le contenu

Le projet ARKEY implique d’une part les Archives générales du Royaume et les Archives de l’État dans les Provinces (en bref les « Archives de l’État » ou AGR), institution scientifique fédérale, et d’autre part l’Université catholique de Louvain (UCLouvain).

L’objectif principal du profil de recherche ARKEY est d’optimiser la valorisation numérique des collections d'archives grâce à des outils informatiques pérennes. Il propose (1) la recherche et le développement de moyens d'accès enrichis au contenu numérisé, et (2) l'amélioration de l'expérience de navigation au sein des collections d'archives. Il s'appuie sur l'expertise d'une équipe pluridisciplinaire des AGR et de plusieurs groupes de recherche au sein de l'UCLouvain (MiiL, Cental, Service d’archives de l’UCLouvain, GEMCA). ARKEY vise à apporter une valeur ajoutée pour la société et le service public en améliorant l'accessibilité et l'intelligibilité des archives : une priorité pour de nombreux chercheurs et chercheuses, et un fondement des États démocratiques.

Actuellement, les AGR et l'UCLouvain possèdent un grand nombre de documents numérisés provenant d'une grande variété de sources issues d'époques différentes. Cette diversité pose un défi à l'analyse de contenu automatisée, en particulier aux outils de reconnaissance de texte, qui ne sont pas entraînés à de telles variations. Les archives sont également confrontées aux problématiques de stockage, de format, de métadonnées et de navigation des documents numérisés : la plupart de ces documents ne sont pas suffisamment mis en lumière. Pour répondre à ces enjeux, ARKEY propose un projet en 3 étapes :

1. Reconnaissance de texte et de structure (text and layout recognition) assistée par l'Intelligence Artificielle (IA). ARKEY développera et évaluera des techniques semi-automatiques d'apprentissage-machine (machine learning) pour l’analyse de contenu, spécialement conçues pour les documents manuscrits et les premiers livres imprimés. Elles s'appuieront sur des méthodes existantes de reconnaissance de caractères (OCR) et de reconnaissance de texte manuscrit (HTR) et se concentreront sur l'extraction d'informations basée sur une analyse de la structure des documents (layout analysis).

2. Représentation archivistique numérique enrichie par le contenu. Les données extraites de l’analyse de contenu seront exploitées pour enrichir la représentation des documents d’archive. Ce deuxième défi vise dès lors à étudier et à améliorer les méthodes de traitement automatique du langage pour enrichir les fichiers standardisés de description archivistique (EAD) avec des métadonnées générées automatiquement et basées sur la modélisation sémantique, la reconnaissance des entités nommées et l'expansion de requêtes.

3. Navigation orientée utilisateur et adaptée au contexte de recherche. Le troisième défi d'ARKEY est de permettre aux utilisateurs et utilisatrices d'archives d'améliorer leur expérience de navigation au sein des archives en se basant notamment sur les descriptions enrichies décrites ci-dessus. Cela implique la mise en œuvre d'une méthode de conception orientée vers les besoins de ces utilisateurs et utilisatrices, et visant à élaborer des aides à la recherche et des outils de visualisation appropriés. En particulier, le projet contribuera à résoudre les deux problèmes suivants : (1) la méconnaissance des représentations archivistiques disponibles et de leurs relations les unes avec les autres, et (2) la difficulté de traduire une question initiale en une recherche spécifique et un scénario de navigation.

Promoteurs: Pr. Antonin Descampe (UCLouvain) & Pr. Eddy Put (AGR)

Partenaires: Dr. Louise-Amélie Cougnon, Pr. Aurore François, Pr. Agnès Guiderdoni, Pr. Suzanne Kieffer, Dr. Patrick Watrin

Chercheur: Dr. Xavier Gillard

Durée: 2023-2033