Atelier Librairies Python et Services Web pour la reconnaissance d’entités nommées et la résolution de toponymes organisé dans le cadre de la formation ANF TDM 2022 du CNRS (Exploration documentaire et extraction d’information).

Le support de formation est disponible ici : https://gitlab.liris.cnrs.fr/lmoncla/tutoriel-anf-tdm-2022-python-geoparsing

Présentation :
Cet atelier a pour objectif de présenter l’utilisation de librairies Python (ie. NLTK, Stacy, Stanza) et de services Web (ie. PERDIDO) pour l’extraction d’entités nommées à partir de textes. Nous nous intéresserons en particulier au repérage des noms de lieux et à leur localisation sur une carte géographique. Nous mettrons en avant la simplicité d’utilisation de ces outils mais également leur limites.
Programme :
Introduction et comparaison de différents outils de NER : librairies Python (NTLK, Spacy et Stanza), et Services Web (Perdido) Sélection des outils en fonction des corpus (nature des textes, choix de la langue, etc) Les expérimentations seront réalisées sur 2 cas d’application : descriptions de randonnées et articles encyclopédiques Notebook en ligne (Google Collab’) pour développer des prototypes d’applications faciles à utiliser et intuitifs en Python

Updated: