ASLAN ICAR ENS UDL

Ingénieur d’études : TAL et Humanités Numériques CDD 18 mois

Contexte

Le poste s’inscrit dans le cadre du projet GÉODE ("Encyclopedic GEOgraphical DiscoursE: Writing about Geography in France from the Enlightenment to the Age of Wikipedia", 2020-2024) financé par le LabEx ASLAN pour une période de 18 mois (démarrage prévu en janvier 2021). L’objectif de ce projet est l’étude des changements majeurs survenus dans les discours géographiques dans les encyclopédies françaises éditées en France entre 1751 (parution du premier tome de l’Encyclopédie ou dictionnaire raisonné des sciences, des arts et des métiers de Diderot et d’Alembert) et nos jours (Wikipédia, version 2018). Notre démarche interdisciplinaire réunit des spécialistes de linguistique (D. Vigier), de TAL (B. Crabbé, A. Falaise, O. Kraif), de géographie et de géomatique (T. Joliveau, L. Moncla), d’histoire des idées et d’humanités numériques (K. McDonough). En nous appuyant sur les outils et méthodologies de classification semi-supervisée des textes, de génération de modèles de langues et de repérage automatique des routines discursives, nous étudierons les changements survenus dans l’expression des informations géographiques dans les encyclopédies.

L’ingénieur·e sera intégré·e à l’équipe de recherche CÉDILLES du laboratoire ICAR (CNRS UMR 5191) qui développe ses recherches à l’interface de la linguistique descriptive et de la sémiotique, de l’informatique linguistique et de la linguistique de corpus.

Missions

La personne recrutée interviendra dans les deux premiers lots du projet en collaboration avec différents partenaires. Ces deux lots concernent : (1) la préparation et l’enrichissement des corpus et (2) l’étude linguistique pour l’amélioration d’une chaîne d’extraction automatique d’information.

Dans un premier temps la mission consistera à homogénéiser les formats des différents corpus étudiés (l’Encyclopédie de Diderot et d’Alembert (1751-1772), La Grande Encyclopédie (1885-1902), l’Encyclopedia Universalis (2018) et Wikipédia) en vue d’un encodage le plus automatisé possible en XML-TEI. Dans cette perspective, il sera nécessaire i) de développer de nouveaux outils automatiques, ii) de réutiliser des outils existants en les adaptant éventuellement aux particularités du projet. Ces outils pourront être généraux (Khemakhem et al., 2017) ou développés pour des besoins similaires (une suite d'outils pour traiter le format ALTO a ainsi été écrite dans le cadre du projet DISCO-LGE). Les corpus structurés seront ensuite importés dans la plateforme [TXM](http://textometrie.ens-lyon.fr) en vue de leur exploration linguistique et textométrique. En complément, le travail consistera également à enrichir ces corpus par l’annotation automatique des lemmes, des catégories grammaticales et des rôles syntaxiques. L’ingénieur-e sera ainsi conduit-e à travailler avec les équipes des laboratoires du LLF et du LIDILEM. Cette tâche s’appuiera sur les résultats de précédents travaux de l’équipe (Diwersy et al., 2017 ; Vigier et al. 2020).

Dans une seconde phase, l’ingénieur·e recruté·e aura pour objectif de participer à une étude linguistique afin d’améliorer et d’adapter les différentes étapes de la reconnaissance des entités nommées spatiales implémentées dans la plateforme [PERDIDO](http://textometrie.ens-lyon.fr) (Gaio & Moncla, 2019). Ce travail s’appuie sur des travaux déjà entamés par les différents partenaires du projet GEODE (McDonough et al., 2019 ; Moncla et al., 2019 ; Vigier et al., 2020). L’objectif sera par exemple d’utiliser des méthodes de statistique textuelle (Blumenthal & Vigier, 2017) pour l’amélioration des grammaires d’annotation sémantique.

Profil recherché

  • Diplôme: Master (ou équivalent) en Informatique (mention TAL), linguistique-informatique ou Humanités Numériques
  • Compétences :
    • Solides compétences en informatique : programmation (Java, Python), programmation web, XML, base de données.
    • TAL : statistique textuelles et R, outils d’exploration et d’annotation de corpus, XML-TEI.
    • Langues : excellent niveau en français requis et bon niveau en anglais.
  • Qualités personnelles : l’ingénieur-e devra faire preuve d’aptitude relationnelles pour le travail en équipe, de qualités de rigueur scientifique, d’autonomie et d’esprit d’initiative.

Information pratiques

  • Durée du CDD : 18 mois
  • Début du contrat : janvier 2021
  • Salaire : suit la grille ingénieur d’étude du CNRS : entre 1685 € et 1892 € net par mois selon expérience.
  • Lieu de travail : École Normale Supérieure de Lyon, Bâtiment Recherche, 15 parvis René Descartes, 69007 Lyon.
  • Affectation : Laboratoire ICAR CNRS/Université de Lyon UMR 5191
  • Contacts : Denis Vigier (denis.vigier@ens-lyon.fr) et Ludovic Moncla (ludovic.moncla@insa-lyon.fr)
  • Dossier de candidature : CV, lettre de motivation et lettres de recommandation. Les candidatures seront examinées au fur et à mesure de leur réception. Le dossier est à adresser à D. Vigier et L. Moncla au plus tard le 30 septembre 2020. Entretiens de recrutement courant octobre pour une prise de fonction en janvier 2021.

Références

  • Blumenthal, P., Vigier, D. (2017), Du quantitatif au qualitatif en diachronie. Présentation, Langages 2017/2 (N° 206), p. 5- 20.
  • Diwersy S., Falaise A., Lay, M-H & Souvay G. (2017), Ressources et méthodes pour l’analyse diachronique in Blumenthal & Vigier (eds.), “Du quantitatif au qualitatif en diachronie. Prépositions françaises”, Langages 206, 21-44.
  • Gaio, M., & Moncla, L. (2019), Geoparsing and geocoding places in a dynamic space context. In The semantics of Dynamic Space in French: Descriptive, experimental and formal studies on motion expression. In Human Cognitive Processing: Vol. 66 (Michel Aurnague and Dejan Stosic, pp. 354-386). John Benjamins Publishing Company.
  • Khemakhem, M., Foppiano, L., & Romary, L. (2017), Automatic Extraction of TEI Structures in Digitized Lexical Resources using Conditional Random Fields. In: electronic lexicography, eLex 2017, Leiden, Netherlands.
  • McDonough, K., Moncla, L. & Van de Camp, M. (2019), Named entity recognition goes to old regime France : geographic text analysis for early modern French corpora. International Journal of Geographical Information Science (IJGIS), 33 (12), 25 pages
  • Moncla, L., McDonough, K., Vigier, D., Joliveau T., & Brenon, A. (2019), Toponym Disambiguation in Historical Documents Using Network Analysis of Qualitative Relationships. In: Proceedings of the 3rd ACM SIGSPATIAL International Workshop on Geospatial Humanities, 4 pages, Chicago, IL, USA, November 5th–8th
  • Vigier, D., Moncla, L., Brenon, A., McDonough, K., & Joliveau T. (2020), Classification des entités nommées dans l’Encyclopédie ou dictionnaire raisonné des sciences des arts et des métiers par une société de gens de lettres} (1751-1772). In: 7th Congrès Mondial de Linguistique Française (CMLF), Montpellier, France, July 6th–10th