En poursuivant votre navigation sur ce site, vous acceptez le dépôt de cookies dans votre navigateur. (En savoir plus)
Portail > Offres > Offre UMR5190-VERGON-006 - H/F Research Engineer position Information extraction, Text Recognition in Historical Document Collections

H/F Research Engineer position Information extraction, Text Recognition in Historical Document Collections


Assurez-vous que votre profil candidat soit correctement renseigné avant de postuler. Les informations de votre profil complètent celles associées à chaque candidature. Afin d’augmenter votre visibilité sur notre Portail Emploi et ainsi permettre aux recruteurs de consulter votre profil candidat, vous avez la possibilité de déposer votre CV dans notre CVThèque en un clic !

Faites connaître cette offre !

Informations générales

Référence : UMR5190-VERGON-006
Lieu de travail : LYON 07
Date de publication : vendredi 17 juillet 2020
Type de contrat : CDD Technique/Administratif
Durée du contrat : 12 mois
Date d'embauche prévue : 1 septembre 2020
Quotité de travail : Temps complet
Rémunération : Selon les grilles du CNRS, soit environ 2460 euros brut
Niveau d'études souhaité : Bac+5
Expérience souhaitée : Indifférent

Missions

Développer un pipeline de traitement dédié à la compréhension des tableaux et à la reconnaissance des champs manuscrits, et du développement d'une application web dédiée à la visualisation des résultats de la reconnaissance, à la validation et/ou à la correction par l'interaction avec les utilisateurs finaux.
Intégrer des fonctionnalités d'apprentissage actif en ligne à la plate-forme par la combinaison des interactions des utilisateurs avec le pipeline de reconnaissance, grâce à l'intégration de la sémantique connue des tables.

Activités

La mission comprendra les étapes suivantes :
1- Développer une application web pour l'annotation, la segmentation et la visualisation d'images de documents.
2- Intégrer un module de compréhension de la structure des tableaux au sein de la plate-forme
3- Intégrer un module de reconnaissance de texte manuscrit au sein de la plate-forme
4- Intégrer un module d'apprentissage actif dédié à la conduite des interactions des utilisateurs avec la plate-forme
5- Mener des expérimentations tout au long des phases de développement et de production
6- Production des données, préparation et validation des données

Compétences

- Ingénieur informaticien, avec de bonnes références en programmation web
- Connaissances en matière d'apprentissage automatique, de vision par ordinateur et/ou de traitement des langues naturelles
- fait preuve d'une capacité à travailler en équipe, d'un esprit curieux et rigoureux
- Excellentes aptitudes à la communication écrite et orale (français ou anglais)

Compétences techniques :
Expert en Python, et en technologies du web : Django et vue.js ( alternativement angulaire ou swelte)
Connaissance et capacité à maintenir le code java avec le cadre de Spring

Contexte de travail

POPP project : Projet d'Océrisation des recensements de la Population Parisienne
https://www.collexpersee.eu/aap19_20-resultats/
Ce projet vise à développer une vaste base de données (12 millions d'individus) basée sur les recensements nominaux de Paris de 1926, 1931, 1936 et 1946, qui sont les seuls recensements de la population parisienne existant avant la fin du 20ème siècle. Ces recensements ont déjà été numérisés et mis en ligne sur le site des Archives de Paris, mais l'objectif est ici de créer une base de données pour l'exploitation statistique de ces documents particulièrement riches. Ce projet a deux intérêts principaux : méthodologique et scientifique. Au niveau de l'enrichissement des connaissances scientifiques, l'analyse de ces recensements permettrait de connaître la population parisienne pendant l'entre-deux-guerres dans sa globalité. L'analyse quantitative et statistique des populations est rendue particulièrement difficile dans l'histoire en raison du manque de bases de données. L'indexation des recensements de Paris de 1926, 1931, 1941 et 1946 serait l'occasion d'une avancée majeure dans la connaissance de la population urbaine européenne, jusqu'alors peu étudiée. Surtout, ce projet allait ouvrir la voie à des recherches beaucoup plus approfondies grâce à l'utilisation et à l'amélioration des nouvelles techniques d'OCR. La reconnaissance optique de caractères est une méthode innovante qui est constamment améliorée. Le traitement qui peut être appliqué aux données manuscrites du recensement de la population parisienne peut alors être reproduit sur de nombreux documents, rendant ainsi disponibles des milliers de données. Dans le cadre du projet LITIS est en charge de la phase de numérisation des 4 recensements nominaux de Paris, chacun composé de 50 000 pages, comme dans l'exemple ci-dessous.

On en parle sur Twitter !