Segmentation de corpus lexicographiques numérisés à l’aide de LLMs : étude du Dictionnaire Universel François-Latin et de La Grande Encyclopédie
Date:
Présentation invitée à la journée IXXI 2025. Le programme complet de la journée est disponible ici : (https://www.ixxi.fr/evenements/journee-ixxi-2025)[https://www.ixxi.fr/evenements/journee-ixxi-2025]
Titre: “Segmentation de corpus lexicographiques numérisés à l’aide de LLMs : étude du Dictionnaire Universel François-Latin et de La Grande Encyclopédie”
Ce projet financé par la MSH LSE et l’IXXI pour la période 2026-2027 souhaite explorer l’application des grands modèles de langage (LLMs) pour la segmentation automatique de documents lexicographiques anciens numérisés. À partir de deux corpus majeurs — le Dictionnaire Universel François-Latin de Trévoux (1704–1771) et La Grande Encyclopédie (1886–1902) —, il vise à extraire automatiquement les entrées lexicographiques depuis deux types de données : PDF (image) et XML METS/ALTO (issus des chaînes de numérisation de la BnF). Deux approches seront expérimentées, respectivement fondées sur les modèles GPT, LLaMA et MistralOCR, afin d’évaluer leur efficacité sur des formats distincts mêlant texte et structure. L’objectif est de renforcer la segmentation de ces corpus complexes et de proposer une méthode réplicable pour l’analyse de collections patrimoniales numérisées.
