Informations générales
Réservé uniquement aux agents CNRS (fonctionnaires et CDI)
Intitulé de l'offre : Ingénieur-e de recherche en apprentissage statistique H/F
Référence : UMR7641-MOBINT-J59002
Lieu de travail : PALAISEAU
Institut : INSMI - Institut national des sciences mathématiques et de leurs interactions
Date de publication : mercredi 4 décembre 2024
Session : Campagne Hiver 2025
Groupe de Fonction : IRG3
BAP : E - Informatique, Statistiques et Calcul scientifique
Emploi type : Expert-e en information statistique
Missions
La missions de l'ingénieur-e est de valoriser la recherche en apprentissage statistique portée par le laboratoire, et en particulier par l'équipe SIMPAS (Statistique, Image, Probabilités numériques, Signal et Apprentissage Statistique), à travers la conception et le développement de librairies scientifiques open-source et sous la forme de participation à des projets de recherche nécessitant de l'ingénierie (GPU, deep learning).
Activités
Activités principales :
- Participer à la gestion du cluster du laboratoire, en particulier les GPUs (graphics processing units),
- Développer des librairies logicielles de recherche libres,
- Développer des codes en lien avec les travaux de recherche des membres du laboratoire.
Activités secondaires :
- Rechercher de solutions pour mettre à l'échelle les méthodes et algorithmes développés au sein du laboratoire,
- Concevoir, développer ou adapter des méthodes d'analyse : calcul numérique, statistique, traitement du signal, traitement d'images, modélisation,
- Conduire des projets techniques qui concourent à la résolution d¿une problématique scientifique dans ses dimensions techniques, humaines et administratives,
- Assurer une veille technologique sur l'évolution des architectures matérielles, des systèmes, et les techniques numériques d'optimisation et parallélisation de codes,
- S'investir dans la formation des utilisateurs et veiller au transfert des connaissances ou des savoir-faire les plus récents, en particulier par la rédaction de documentation,
- Participer aux réseaux métiers de développeurs, locaux ou nationaux,
- Apporter son soutien à la pérennisation de codes développés dans le cadre de doctorats, postdoctorats ou contrats.
Compétences
Savoirs :
- Maîtrise des algorithmes d'apprentissage statistique : techniques d'apprentissage avancées telles que les réseaux de neurones, les méthodes bayésiennes, et les modèles génératifs,
- Maîtrise des langages de programmation et développement logiciel couramment utilisés en data science (Python) et des bibliothèques scientifiques (TensorFlow, PyTorch, Scikit-learn...),
- Gestion de données et pipelines de traitement : Être capable de manipuler et traiter de grands volumes de données, de construire des pipelines de traitement efficaces, et d'exploiter des techniques d'ETL (Extract, Transform, Load) pour intégrer des données dans des systèmes d'apprentissage,
- Solides compétences en mathématiques appliquées et statistiques : méthodes d'apprentissage statistique, probabilités, optimisation, théorie des graphes, statistiques inférentielles,
- Bonnes compétences dans la gestion des infrastructures et du cloud de calcul, notamment l'utilisation de clusters de calcul sous slurm et de services cloud (AWS, Azure, GCP), ainsi que l'optimisation des ressources GPU pour l'entraînement de modèles complexes.
Savoir-faire :
- Compétences en communication scientifique : rédaction d'articles de recherche, documentation des résultats, présentation de travaux (conférences ou réunions internes),
- Aisance relationnelle : capacité à travailler en équipe avec des chercheurs, data scientists, et ingénieurs dans un environnement pluridisciplinaire pour mener à bien des projets de recherche complexes.
Note importante : Ces compétences sont attendues pour mener à bien les missions mais peuvent tout à fait être acquises en poste si le candidat a montré ses capacités d'adaptation. L'ingénieur-e pourra avoir accès à des formations spécifiques (IDRIS) et pourra développer ses connaissances en apprentissage statistique à travers le développement open source prévu dans les missions.
Contexte de travail
Au sein de l'Ecole Polytechnique (Palaiseau, 91), le Centre de Mathématiques Appliquées (CMAP) a pour objectif le développement et l'exploration des mathématiques en liaison avec des applications. L'ouverture du CMAP à d'autres disciplines (physique, mécanique, informatique, biologie, finance...), la variété et la complexité de ses thèmes de recherche permettent à ses équipes (60 chercheurs ou enseignants-chercheurs permanents, une centaine de doctorants, une vingtaine de post-doctorants ainsi que de nombreux visiteurs et chercheurs invités) d'explorer et d'initier des thématiques nouvelles.
Sous la responsabilité du Directeur de l'unité, l'ingénieur sera membre de l'équipe SIMPAS, spécialisée dans le domaine de l'apprentissage et de l'intelligence artificielle.
Les projets immédiats de l'équipe SIMPAS auxquels l'ingénieur-e pourrait participer sont :
- Développement de la librairie Kooplearn (https://github.com/Machine-Learning-Dynamical-Systems/kooplearn/) dédié à l'analyse des systèmes dynamiques stochastiques et l'apprentissage de représentation,
- Développement de la librairie POT (https://pythonot.github.io/) dédiée au transport optimal computationnel, ainsi que SKADA dédiée à l'adaptation de domaine (https://scikit-adaptation.github.io),
- Développer des solutions logicielles pour l'apprentissage fédéré et l'assistance de preuves par ordinateur (https://pepit.readthedocs.io),
- Initier la création d'un logiciel open-source permettant l'utilisation des méthodes génératives par diffusion les plus réputées, ainsi que la mise en place d'un benchmark pertinent pour les nouvelles méthodes en cours de développement.