En poursuivant votre navigation sur ce site, vous acceptez le dépôt de cookies dans votre navigateur. (En savoir plus)
Portail > Offres > Offre UPR841-BRUBON-002 - Ingénieur-e d'études en traitement de données textuelles (H/F)

Ingénieur-e d'études en traitement de données textuelles (H/F)


Assurez-vous que votre profil candidat soit correctement renseigné avant de postuler. Les informations de votre profil complètent celles associées à chaque candidature. Afin d’augmenter votre visibilité sur notre Portail Emploi et ainsi permettre aux recruteurs de consulter votre profil candidat, vous avez la possibilité de déposer votre CV dans notre CVThèque en un clic !

Faites connaître cette offre !

Informations générales

Référence : UPR841-BRUBON-002
Lieu de travail : AUBERVILLIERS
Date de publication : samedi 19 octobre 2019
Type de contrat : CDD Technique/Administratif
Durée du contrat : 12 mois
Date d'embauche prévue : 1 février 2020
Quotité de travail : Temps complet
Rémunération : Entre 2 139 € (expérience < 3 ans) et 2 727 € (expérience > 20 ans) bruts mensuels
Niveau d'études souhaité : Bac+3
Expérience souhaitée : 1 à 4 années

Missions

La personne retenue participera à l'élaboration d'un corpus représentatif du latin médiéval (environ 100 millions de mots) dans le cadre du projet ANR "Velum" (Visualisation, exploration et liaison de ressources innovantes pour le latin médiéval). Certains documents sont déjà disponibles dans un format texte, d'autres non.

Activités

La personne recrutée, en étroite collaboration avec l'équipe du projet, aura pour tâches principales de :
- numériser, océriser et corriger des documents non disponibles au format texte ;
- encoder en masse la structure des documents (titres, livres, chapitres, vers des poèmes, etc.), et corriger le résultat de cet encodage ;
- annoter en masse les documents (lemmatisation, marquage morphosyntaxique), et corriger le résultat de cette annotation ;
- préparer et mettre en place des procédures de reconnaissance des entités nommées sur les documents.
Elle sera également chargée de :
- mener une veille sur la lemmatisation et la reconnaissance des entités nommées des langues anciennes.
- développer un modèle d'évaluation des outils utilisés.

Compétences

Connaissances :
- Bonne connaissance de la langue latine.
- Notions de linguistique de corpus.
Compétences techniques :
- Bonne connaissance du langage XML, et des outils de traitement XML (XSLT, Oxygen, etc.)
- Connaissance des outils d'OCR (PoCoTo, Transkribus, etc.) et de PoS-Tagging (Treetagger, etc.)
- Notions de traitement des données linguistiques (Python, Perl, etc.)

Contexte de travail

L'Institut de recherche et d'histoire des textes se consacre à la recherche fondamentale sur les manuscrits médiévaux et les imprimés anciens. La personne recrutée sera affectée à la section de lexicographie de l'IRHT (Comité Du Cange - Institut de France - Paris 6e). Cette section a pour missions :
- la recherche en sémantique historique du latin médiéval ;
- la rédaction du dictionnaire européen du latin médiéval ("Novum Glossarium Mediæ Latinitatis").
Elle compte une Ingénieure d'études (IE 50%), un Ingénieur de recherche (IR) et une Directrice de recherche émérite, sous la responsabilité d'un IR, porteur du projet ANR Velum, qui sera le responsable de la personne recrutée.

Contraintes et risques

Compte tenu de la taille restreinte de l'équipe, et des multiples activités de ses membres, qui les amènent à de fréquents déplacements (en France et à l'étranger), la personne recrutée devra faire preuve d'une grande autonomie dans son travail.

On en parle sur Twitter !