En poursuivant votre navigation sur ce site, vous acceptez le dépôt de cookies dans votre navigateur. (En savoir plus)
Portail > Offres > Offre UMR5190-VERGON-005 - H/F Research Engineer Information extraction, Text Recognition in Historical Document Collections

H/F Research Engineer Information extraction, Text Recognition in Historical Document Collections


Assurez-vous que votre profil candidat soit correctement renseigné avant de postuler. Les informations de votre profil complètent celles associées à chaque candidature. Afin d’augmenter votre visibilité sur notre Portail Emploi et ainsi permettre aux recruteurs de consulter votre profil candidat, vous avez la possibilité de déposer votre CV dans notre CVThèque en un clic !

Faites connaître cette offre !

Informations générales

Référence : UMR5190-VERGON-005
Lieu de travail : LYON 07
Date de publication : vendredi 17 juillet 2020
Type de contrat : CDD Technique/Administratif
Durée du contrat : 12 mois
Date d'embauche prévue : 1 septembre 2020
Quotité de travail : Temps complet
Rémunération : Selon les grilles du CNRS, soit environ 2460 euros brut
Niveau d'études souhaité : Bac+5
Expérience souhaitée : Indifférent

Missions

Dans le cadre du projet, vous serez responsable du module de reconnaissance des tables manuscrites, y compris la compréhension des tables et la reconnaissance des champs manuscrits. Le module de reconnaissance doit intégrer chaque sémantique de champ de table connue à l'avance pour l'ensemble du corpus afin d'améliorer la précision de la reconnaissance, comme par exemple Nom de la personne, fonction de la personne, adresse, date de naissance, sexe, état civil, etc... Un deuxième aspect est lié à l'exploration des capacités d'adaptation du système de reconnaissance à l'écriture, les corpus ayant été écrits par un petit nombre de personnes.

Activités

La mission comprendra les étapes suivantes :
1- Compréhension et extraction de la structure des tableaux à l'aide de réseaux neuronaux profonds
2- Système de lecture basé sur l'apprentissage automatique du champ de la table, y compris des modèles optiques profonds, et des modèles linguistiques basés sur des statistiques et/ou des grammaires
3- Préparation des données à des fins d'évaluation
4- Intégration du système dans un pipeline de production avec des services web et des fonctionnalités de crowd sourcing
5- Interaction avec les partenaires du projet.

Compétences

Le candidat retenu doit avoir une solide expérience dans l'apprentissage de machines statistiques pour la vision par ordinateur et/ou le traitement du langage naturel et avoir une expérience dans une plate-forme et un langage de programmation populaires dans ce domaine, afin de concevoir, développer et faire évoluer le prototype.
- Doctorat, ou ingénieur en informatique, avec un bon dossier en apprentissage machine
- fait preuve d'une capacité à travailler en équipe, d'un esprit curieux et rigoureux
- Excellentes aptitudes à la communication écrite et orale (français ou anglais)

Compétences techniques :
Expert en Python, Tensor Flow, Keras, PyTorch, Kaldi...
Connaissance des technologies et des bases de données du Web

Contexte de travail

POPP project : Projet d'Océrisation des recensements de la Population Parisienne
https://www.collexpersee.eu/aap19_20-resultats/
Ce projet vise à développer une vaste base de données (12 millions d'individus) basée sur les recensements nominaux de Paris de 1926, 1931, 1936 et 1946, qui sont les seuls recensements de la population parisienne existant avant la fin du 20ème siècle. Ces recensements ont déjà été numérisés et mis en ligne sur le site des Archives de Paris, mais l'objectif est ici de créer une base de données pour l'exploitation statistique de ces documents particulièrement riches. Ce projet a deux intérêts principaux : méthodologique et scientifique. Au niveau de l'enrichissement des connaissances scientifiques, l'analyse de ces recensements permettrait de connaître la population parisienne pendant l'entre-deux-guerres dans sa globalité. L'analyse quantitative et statistique des populations est rendue particulièrement difficile dans l'histoire en raison du manque de bases de données. L'indexation des recensements de Paris de 1926, 1931, 1941 et 1946 serait l'occasion d'une avancée majeure dans la connaissance de la population urbaine européenne, jusqu'alors peu étudiée. Surtout, ce projet allait ouvrir la voie à des recherches beaucoup plus approfondies grâce à l'utilisation et à l'amélioration des nouvelles techniques d'OCR. La reconnaissance optique de caractères est une méthode innovante qui est constamment améliorée. Le traitement qui peut être appliqué aux données manuscrites du recensement de la population parisienne peut alors être reproduit sur de nombreux documents, rendant ainsi disponibles des milliers de données. Dans le cadre du projet LITIS est en charge de la phase de numérisation des 4 recensements nominaux de Paris, chacun composé de 50 000 pages, comme dans l'exemple ci-dessous.

On en parle sur Twitter !