En poursuivant votre navigation sur ce site, vous acceptez le dépôt de cookies dans votre navigateur. (En savoir plus)

Ingénieur-e de recherche en production, traitement et analyse de données H/F


Date Limite Candidature : jeudi 15 janvier 2026 17:00:00 heure de Paris

Informations générales

Réservé uniquement aux agents CNRS (fonctionnaires et CDI)
Intitulé de l'offre : Ingénieur-e de recherche en production, traitement et analyse de données H/F
Référence : UAR2999-MOBINT-K54018
Lieu de travail : AUBERVILLIERS
Institut : INSHS - Institut des sciences humaines et sociales
Date de publication : mercredi 3 décembre 2025
Session : Campagne Hiver 2026
Groupe de Fonction : IRG3
BAP : D - Sciences Humaines et Sociales
Emploi type : Ingenieure ou ingenieur de recherche en production, traitement et analyse de donnees

Missions

Le-la responsable en production, traitement et analyse de données du web conçoit et développe des outils open source pour la collecte, la traçabilité et l'analyse de contenus issus de sources en ligne.

Activités

- Concevoir, développer et optimiser des protocoles de collecte et de traitement de données issues principalement du web chinois (documents officiels, sites spécialisés, médias sociaux), en assurant leur robustesse scientifique et leur reproductibilité.
- Développer, maintenir et documenter des outils open source avancés (scraping, suivi de contenus, analyse de texte) dans un environnement collaboratif (GitHub).
- Mettre en œuvre des analyses complexes en traitement automatique du langage (TAL) incluant la modélisation thématique, la classification de documents et la caractérisation de dynamiques discursives. S'appuyer au besoin sur l'intelligence artificielle et le machine learning (ML) en particulier.
- Contribuer à la production scientifique (articles, rapports, communications), en collaboration avec des chercheur.es.
- Encadrer ou co-encadrer des stagiaires ou jeunes chercheur·es et transférer les compétences techniques et méthodologiques (rédaction de protocoles, tutoriels ou guides méthodologiques notamment).
- Contribuer à la veille technologique et scientifique sur les méthodes de collecte de données numériques et d'analyse de discours sur les plateformes chinoises.
- Contribuer au GT sur l'archivage du web et aux activités de Distam en matière de fouille de textes et fouille multimodale.

Compétences

Connaissances :
- Expertise avancée en programmation Python (structuration de projets, bonnes pratiques, développement open source).
- Maîtrise des outils de collecte de données en ligne (scraping, APIs) et des cadres juridiques associés (RGPD, éthique).
- Maîtrise des bibliothèques Python de TAL, de ML et plus largement des outils d'analyse de corpus.
- Connaissance approfondie des méthodes de recherche en SHS.
- Compétences rédactionnelles scientifiques (rapports, articles, documentation technique)
- Bonnes connaissances en structuration de bases de données, gestion de corpus massifs, traitement de données multilingues.
- Anglais niveau B2, chinois niveau B2 souhaitable.

Savoir-faire :
- Concevoir et adapter des protocoles de collecte de données en ligne et métadonnées
- Savoir structurer des données, sous la forme de bases de données notamment, en vue de l'exploitation des corpus (requêtes, scripts).
- Maîtriser la manipulation de grands ensembles de données.
- Assurer la qualité, la traçabilité et la documentation des données produites.
- Accompagner les chercheurs dans la montée en compétence sur les outils développés
- Assurer la prise en main des méthodes et techniques en interne au travers de l'animation d'ateliers, de formations internes et de l'encadrement des stagiaires.
- Diffuser les pratiques et savoir-faire acquis dans le cadre des projets dans le cadre d'ateliers, formations, écoles thématiques- Intervenir en tant que référent.e technique sur les problématiques de collecte / traitement / analyse de données numériques.

Savoirs-être :
- Rigueur scientifique et minutie.
- Capacité à travailler en équipe pluridisciplinaire.
- Autonomie et sens de l'initiative.
- Adaptabilité, écoute active et ouverture à différents contextes.

Contexte de travail

L'unité CNRS « Études aréales » porte les trois Groupements d'Intérêt Scientifique (GIS) Asie, Études africaines, et Moyen-Orient et mondes musulmans (MOMM), le consortium de l'IR* Huma-Num DISTAM (DIgital Studies Africa, Asia and Middle East) ainsi que le projet Chine CoREF (Connaissance ,Recherche, Expertise, Formation).
L'ensemble de ces réseaux fédère plus de 40 établissements de l'ESR, et plus de 100 laboratoires en SHS. Localisé sur le Campus Condorcet à Aubervilliers (métro 12 Front Populaire), l'unité est constituée d'une dizaine d'agents du CNRS, plus une dizaine de membres des équipes de direction des GIS et de DISTAM. Les services support de l'unité sont organisés en quatre pôles : Gestion administrative et financière, Pôle des chargées d'appui au pilotage, Pôle Enquête et Prospective, Pôle Accompagnement numérique.
Tout en renforçant les actions du consortium Distam, la personne recrutée servira plus spécifiquement celles du projet Chine CoREF pour les ressources chinoises (documents officiels, sites spécialisés, médias sociaux).
Il/elle travaillera au sein du pôle Accompagnement numérique et sera placé(e) sous la responsabilité hiérarchique de la directrice de l'unité. Ce pôle se compose d'une ingénieure d'étude chargée de l'édition de corpus numériques, d'une chargée de l'édition de corpus numériques ainsi que deux post-doctorantes.
Un maximum de deux jours de télétravail par semaine peut être mis en place selon les règles en vigueur au CNRS.
L'agent pourra disposer de l'offre de formation dispensée par le CNRS, l'IR* Huma-Num et ses partenaires, et s'appuyer sur les tutoriels en ligne sur le site du carnet Distam (https://distam.hypotheses.org/). Son travail s'exercera en étroite collaboration avec le comité de pilotage du consortium HN Distam et le Comité exécutif du projet Chine CoREF.
Le campus de Condorcet dispose d'une cantine et de nombreux points de restauration se trouvent à proximité.