Segmentation de corpus lexicographiques numérisés à l’aide de LLMs : étude du Dictionnaire Universel François-Latin et de La Grande Encyclopédie

Date: November 06, 2025

Présentation invitée à la journée IXXI 2025. Le programme complet de la journée est disponible ici : (https://www.ixxi.fr/evenements/journee-ixxi-2025)[https://www.ixxi.fr/evenements/journee-ixxi-2025]

Titre: “Segmentation de corpus lexicographiques numérisés à l’aide de LLMs : étude du Dictionnaire Universel François-Latin et de La Grande Encyclopédie”

Ce projet financé par la MSH LSE et l’IXXI pour la période 2026-2027 souhaite explorer l’application des grands modèles de langage (LLMs) pour la segmentation automatique de documents lexicographiques anciens numérisés. À partir de deux corpus majeurs — le Dictionnaire Universel François-Latin de Trévoux (1704–1771) et La Grande Encyclopédie (1886–1902) —, il vise à extraire automatiquement les entrées lexicographiques depuis deux types de données : PDF (image) et XML METS/ALTO (issus des chaînes de numérisation de la BnF). Deux approches seront expérimentées, respectivement fondées sur les modèles GPT, LLaMA et MistralOCR, afin d’évaluer leur efficacité sur des formats distincts mêlant texte et structure. L’objectif est de renforcer la segmentation de ces corpus complexes et de proposer une méthode réplicable pour l’analyse de collections patrimoniales numérisées.

Share on

X (formerly Twitter) Facebook LinkedIn

Ludovic Moncla

Share on