En poursuivant votre navigation sur ce site, vous acceptez le dépôt de cookies dans votre navigateur. (En savoir plus)

H/F Ingénieur d'études en production, traitement, analyse de données et enquêtes


Date Limite Candidature : dimanche 1 juin 2025 00:00:00 heure de Paris

Assurez-vous que votre profil candidat soit correctement renseigné avant de postuler

Informations générales

Intitulé de l'offre : H/F Ingénieur d'études en production, traitement, analyse de données et enquêtes
Référence : UMR5190-VERGON-010
Nombre de Postes : 1
Lieu de travail : PARIS
Date de publication : mercredi 30 avril 2025
Type de contrat : IT en contrat CDD
Durée du contrat : 12 mois
Date d'embauche prévue : 16 juin 2025
Quotité de travail : Complet
Rémunération : A compter de 2 491€ brut par mois selon expérience et grille de l'organisme
Niveau d'études souhaité : BAC+3/4
Expérience souhaitée : Indifférent
BAP : D - Sciences Humaines et Sociales
Emploi type : Ingénieur-e d’études en production, traitement, analyse de données et enquêtes

Missions

L’ANR EXO-POPP (Extraction Optique des entités nommées manuscrites pour les actes de mariage de la population de Paris (1880-1940) a été lancée en 2021 dans le but de créer une vaste base de données à partir de 300 000 actes de mariages de Paris et sa banlieue entre 1880 et 1940 grâce aux derniers progrès en reconnaissance d’écritures manuscrites et en traitement automatique du langage naturel.
Une première version de la base M-POPP (en SQL) sera terminée par les informaticiens du LITIS au mois de septembre 2025. Si la reconnaissance automatique est très bonne, il reste cependant 5 à 10 % d’erreur de reconnaissance d’écriture qu’il faudra tenter de réduire au maximum. Il s’agira ensuite d’adapter la base de données (SQL) à l’analyse statistique. Enfin, les adresses devront être liées à un SIG.
L’objectif final est de produire une base de données exploitable par les chercheur·e·s pour l’étude et l’analyse, à l’aide d’outils de traitement de données.
L'ingénieur·e d'études en production, traitement, analyse de données et enquêtes assurera la correction et l’adaptation de la base SQL M-POPP (créée à partir d’actes de mariage de Paris et de sa banlieue pour la période 1880-1940 grâce à l’océrisation de documents et au Deep Learning) à l’analyse statistique.
Il/elle mettra en place le SIG de la base M-POPP.
Il/elle participera à la pérennisation de la base, en la préparant pour qu’elle soit partagée et ouverte.

Activités

- Participer à la structuration et la curation de la base M-POPP : mise en ordre de la base après l’océrisation, en corrigeant les valeurs de variables non reconnues ou mal interprétées au cours du processus d’océrisation.
- Mettre en place le SIG de la base à l’aide du logiciel Géocodeur, pour chaque adresse présente dans la base ; ainsi que, le cas échéant, correction des données SIG obtenues avec le Géocodeur en collaboration avec les ingénieur·e·s du logiciel, afin d’obtenir des résultats fiables et précis.
- Préparation technique de la base de données en vue de sa publication, de son stockage, de sa diffusion et de sa mise en œuvre sur des plateformes de distribution de données, telles que Quetelet-Progedo.
- Assurer le dialogue entre les chercheurs en informatique de l’Observatoire (équipe du LITIS, Université de Rouen) et les chercheur·ses en sciences sociales (porté par le LARHRA, Université de Lyon).
- Suivre l'état de l'art en matière de publication et de valorisation des données historiques.
- Participer à la réflexion sur les méthodes de représentation et d'analyse des données numériques
- Participer aux réunions du projet EXO-POPP

Compétences

Savoirs :
- Une formation en Humanités numériques ou en sciences humaines quantitatives est INDISPENSABLE
- Connaissance approfondie des principes des systèmes de gestion des bases de données relationnelles.
- Maîtrise des outils de traitement et d’analyse de données (modélisation et représentation statistique des données) pour correction des bases.
- Maîtrise des techniques d’informations géographiques
- Connaissance des principes FAIR, de l'interopérabilité des données, et des cadres formels de l'Open data.

Savoir-faire :
- Maîtrise d'au moins un Système de Gestion de Bases de Données libre (Mysql, Postgresql) et du langage de requête SQL
- Maîtrise d'un langage de programmation utilisé pour les statistiques (R/Python)
- Compréhension de la nature des Systèmes d’Information Géographique (SIG) et capacité à coordonner l’intégration des données SIG dans une base de données, en collaboration avec les développeurs du programme de géocodage. Connaissance de l’usage des SIG dans les sciences sociales et humaines - analyse spatiale des données sociales ou visualisation des données – à l’aide de RStudio ou de logiciels comme QGIS, ArcGIS ou GRASS GIS.
- Savoir suivre des projets au sein d'une équipe ou en partenariat

Contexte de travail

Le poste est situé dans les locaux de l'UAR 2506 IR* Progedo, 54 boulevard Raspail
75006 Paris où travaille l'ingénieur en charge de la base de données.
« En intégrant le CNRS, nous vous proposons :
• Un environnement de travail stimulant aux contacts des personnels de la recherche
• D'excellentes conditions de travail (horaires flexibles, télétravail)
• Le remboursement partiel des titres de transport (75%) + forfait mobilité durable pouvant aller jusqu'à 300€/an
• Participation financière au frais de mutuelle »