En poursuivant votre navigation sur ce site, vous acceptez le dépôt de cookies dans votre navigateur. (En savoir plus)
Portail > Offres > Offre UMR5191-LUCBUJ-006 - Ingénieur·e d'études TAL et Humanités Numériques H/F

Ingénieur·e d'études TAL et Humanités Numériques H/F


Assurez-vous que votre profil candidat soit correctement renseigné avant de postuler. Les informations de votre profil complètent celles associées à chaque candidature. Afin d’augmenter votre visibilité sur notre Portail Emploi et ainsi permettre aux recruteurs de consulter votre profil candidat, vous avez la possibilité de déposer votre CV dans notre CVThèque en un clic !

Faites connaître cette offre !

Informations générales

Référence : UMR5191-LUCBUJ-006
Lieu de travail : LYON 07
Date de publication : mercredi 1 juillet 2020
Type de contrat : CDD Technique/Administratif
Durée du contrat : 18 mois
Date d'embauche prévue : 1 janvier 2021
Quotité de travail : Temps complet
Rémunération : entre 1685 et 1892 net
Niveau d'études souhaité : Bac+4
Expérience souhaitée : Indifférent

Missions

La personne recrutée interviendra dans les deux premiers lots du projet en collaboration avec différents partenaires. Ces deux lots concernent : (1) la préparation et l'enrichissement des corpus et (2) l'étude linguistique pour l'amélioration d'une chaîne d'extraction automatique d'information.

Activités

Première phase :
- Homogénéiser les formats des différents corpus étudiés (l'Encyclopédie de Diderot et d'Alembert (1751-1772), La Grande Encyclopédie (1885-1902), l'Encyclopædia Universalis (2018) et Wikipédia) en vue d'un encodage le plus automatisé possible en XML-TEI.
- Développer de nouveaux outils automatiques
- Réutiliser des outils existants en les adaptant éventuellement aux particularités du projet. Ces outils pourront être généraux (Khemakhem et al., 2017) ou développés pour des besoins similaires (une suite d'outils pour traiter le format ALTO a ainsi été écrite dans le cadre du projet DISCO-LGE).
- Importation des corpus structurés dans la plateforme TXM en vue de leur exploration linguistique et textométrique.
- Enrichir ces corpus par l'annotation automatique des lemmes, des catégories grammaticales et des rôles syntaxiques.
L'ingénieur-e sera ainsi conduit.e à travailler avec les équipes des laboratoires du LLF et du LIDILEM. Cette tâche s'appuiera sur les résultats de précédents travaux de l'équipe (Diwersy et al., 2017 ; Vigier et al. 2020).
Seconde phase :
l'ingénieur·e recruté·e aura pour objectif de participer à une étude linguistique afin d'améliorer et d'adapter les différentes étapes de la reconnaissance des entités nommées spatiales implémentées dans la plateforme PERDIDO (Gaio & Moncla, 2019). Ce travail s'appuie sur des travaux déjà entamés par les différents partenaires du projet GEODE (McDonough et al., 2019 ; Moncla et al., 2019 ; Vigier et al., 2020). L'objectif sera par exemple d'utiliser des méthodes de statistique textuelle (Blumenthal & Vigier, 2017) pour l'amélioration des grammaires d'annotation sémantique.

Compétences

- Diplôme : Master (ou équivalent) en Informatique (mention TAL), linguistique-informatique ou Humanités Numériques
- Compétences :
Solides compétences en informatique : programmation (Java, Python), programmation web, XML, base de données.
TAL : statistique textuelles et R, outils d'exploration et d'annotation de corpus, XML-TEI.
- Langues : excellent niveau en français requis et bon niveau en anglais.
- Qualités personnelles : l'ingénieur-e devra faire preuve d'aptitude relationnelles pour le travail en équipe, de qualités de rigueur scientifique, d'autonomie et d'esprit d'initiative.

Contexte de travail

Le poste s'inscrit dans le cadre du projet GÉODE (« Encyclopedic GEOgraphical DiscoursE: Writing about Geography in France from the Enlightenment to the Age of Wikipedia », 2020-2024) financé par le LabEx ASLAN pour une période de 18 mois (démarrage prévu en janvier 2021). L'objectif de ce projet est l'étude des changements majeurs survenus dans les discours géographiques dans les encyclopédies françaises éditées en France entre 1751 (parution du premier tome de l'Encyclopédie ou dictionnaire raisonné des sciences, des arts et des métiers de Diderot et d'Alembert) et nos jours (Wikipédia, version 2018). Notre démarche interdisciplinaire réunit des spécialistes de linguistique (D. Vigier), de TAL (B. Crabbé, A. Falaise, O. Kraif), de géographie et de géomatique (T. Joliveau, L. Moncla), d'histoire des idées et d'humanités numériques (K. Mc Donough). En nous appuyant sur les outils et méthodologies de classification semi-supervisée des textes, de génération de modèles de langues et de repérage automatique des routines discursives, nous étudierons les changements survenus dans l'expression des informations géographiques dans les encyclopédies.
L'ingénieur·e sera intégré·e à l'équipe de recherche CÉDILLES du laboratoire ICAR (CNRS UMR 5191) qui développe ses recherches à l'interface de la linguistique descriptive et de la sémiotique, de l'informatique linguistique et de la linguistique de corpus.

On en parle sur Twitter !