Doctorat en physique statistique et échantillonnage (H/F)

Nouveau

Laboratoire de physique de l'ENS

PARIS 05 • Paris

  • CDD Doctorant
  • 36 mois
  • BAC+5

This offer is available in English version

Cette offre est ouverte aux personnes disposant d’un titre leur reconnaissant la qualité de travailleur handicapé ou travailleuse handicapée.

L'offre en un coup d'oeil

L'unité

Laboratoire de physique de l'ENS

Type de Contrat

CDD Doctorant

Temps de Travail

Complet

Lieu de Travail

75005 PARIS 05

Durée du contrat

36 mois

Date d'Embauche

01/10/2026

Rémuneration

La rémunération est d'un minimum de 2300,00 € mensuel

Postuler Date limite de candidature : mardi 9 juin 2026 23:59

Description du Poste

Sujet De Thèse

La modélisation générative vise à l'apprentissage non supervisé d'un modèle probabiliste capable de générer des données correspondant aux réalisations typiques fournies en tant que données d'entraînement. Diverses approches ont désormais démontré que les modèles génératifs profonds peuvent modéliser fidèlement des distributions de données complexes, telles que des distributions sur des images, de l'audio ou des textes. Un exemple célèbre serait la génération d'une image avec un certain contenu, disons un visage, à partir d'une collection de telles images. Récemment, il a été proposé de réorienter ces puissants modèles génératifs (MG) pour s'attaquer au problème d'échantillonnage, c'est-à-dire lorsqu'on ne dispose pas de données issues de la distribution d'intérêt, mais plutôt de la connaissance de sa densité non normalisée [LW18 ; AKS19 ; Noé+19]. L'objectif devient alors d'entraîner un modèle génératif qui s'approchera de cette distribution cible et facilitera son échantillonnage, tel que requis en mécanique statistique ou en inférence bayésienne.
Ici, une étape de débiaisage est cruciale pour éviter des approximations non contrôlées lors de l'échantillonnage. Des travaux pionniers dans cette direction, dont ceux de la directrice [RV22 ; Gre+23], ont démontré que des sous-classes de MG — les flots normalisants et les réseaux autorégressifs — peuvent atteindre un échantillonnage exact en permettant le calcul de la repondération des réalisations générées par rapport à la mesure cible. Des preuves de concept ont été présentées dans divers domaines de la physique et de la chimie, notamment les théories quantiques des champs sur réseau [Abb+24], les biomolécules [Noé+19] ou encore les nano-agrégats d'atomes lourds [Mol+24]. Cependant, si le débiaisage est direct et peu coûteux en calcul pour les flots normalisants et les réseaux autorégressifs grâce à leur vraisemblance tractable, ces classes de MG sont limitées par leur manque d'expressivité.

Projet : L'objectif de ce projet est de tester et de développer des méthodes de débiaisage pour les modèles de diffusion plus puissants [Soh+15 ; Son+21] et les modèles de flot matching [Lip+23 ; ABV23]. Nous chercherons à explorer deux stratégies possibles. D'une part, une vraisemblance approchée de ces modèles peut être calculée en utilisant la description par équation différentielle ordinaire (EDO) équivalente à leur implémentation traditionnelle par équation différentielle stochastique (EDS). D'autre part, ces modèles sont enracinés dans la mécanique statistique hors équilibre, qui fournit des outils pour estimer la repondération des trajectoires [Cro98 ; AV24], d'une manière étroitement liée au Monte Carlo séquentiel [CP20] développé en statistiques. En partant du cas simple de l'échantillonnage à partir de mélanges gaussiens, nous développerons et testerons des approches exploitant ces deux directions. La conception la plus performante sera ensuite évaluée sur des tâches plus difficiles, telles que l'échantillonnage à partir de systèmes moléculaires.

[Abb+24] Ryan Abbott et al. "Applications of flow models to the generation of correlated lattice QCD ensembles". In: Physical Review D 109.9 (May 2024), p. 094514. doi: 10.1103/PhysRevD.109.094514.
[ABV23] Michael S. Albergo, Nicholas M. Boffi, and Eric Vanden-Eijnden. Stochastic Interpolants: A Unifying Framework for Flows and Diffusions. en. arXiv:2303.08797 [cond-mat]. Mar. 2023.
[AKS19] M.S. Albergo, G. Kanwar, and P.E. Shanahan. "Flow-based generative models for Markov chain Monte Carlo in lattice field theory". en. In: Physical Review D 100.3 (Aug. 2019), p. 034515. issn: 2470-0010, 2470-0029. doi: 10.1103/PhysRevD.100.034515.
[AV24] Michael S. Albergo and Eric Vanden-Eijnden. NETS: A Non-Equilibrium Transport Sampler. arXiv:2410.02711. Oct. 2024. doi: 10.48550/arXiv.2410.02711.
[CP20] Nicolas Chopin and Omiros Papaspiliopoulos. An introduction to sequential Monte Carlo. eng. 1st ed. 2020. Springer Series in Statistics. Cham: Springer International Publishing, 2020. isbn: 978-3-030-47847-6 978-3-030-47845-2. doi: 10.1007/978-3-030-47845-2.
[Cro98] Gavin E. Crooks. "Nonequilibrium Measurements of Free Energy Differences for Microscopically Reversible Markovian Systems". en. In: Journal of Statistical Physics 90.5 (Mar. 1998), pp. 1481–1487. issn: 1572-9613. doi: 10.1023/A:1023208217925.
[Gre+23] Louis Grenioux et al. "On Sampling with Approximate Transport Maps". In: Proceedings of the 40th International Conference on Machine Learning. PMLR, July 2023, pp. 11698–11733.
[Lip+23] Yaron Lipman et al. "Flow Matching for Generative Modeling". en. In: ICLR. Sept. 2023.
[LW18] Shuo-Hui Li and Lei Wang. "Neural Network Renormalization Group". en. In: Physical Review Letters 121.26 (Dec. 2018), p. 260601. issn: 0031-9007, 1079-7114. doi: 10.1103/PhysRevLett.121.260601.
[Mol+24] Ana Molina-Taborda et al. "Active Learning of Boltzmann Samplers and Potential Energies with Quantum Mechanical Accuracy". In: J. Chem. Theory Comput. (Oct. 2024). issn: 1549-9618. doi: 10.1021/acs.jctc.4c00506.
[Noé+19] Frank Noé et al. "Boltzmann generators: Sampling equilibrium states of many-body systems with deep learning". en. In: Science 365.6457 (Sept. 2019), eaaw1147. issn: 0036-8075, 1095-9203. doi: 10.1126/science.aaw1147.
[RV22] Gabrié Marylou, Grant M. Rotskoff, and Eric Vanden-Eijnden. "Adaptive Monte Carlo augmented with normalizing flows". In: Proceedings of the National Academy of Sciences 119.10 (Mar. 2022). issn: 0027-8424. doi: 10.1073/pnas.2109420119. arXiv: 2105.12603.
[Soh+15] Jascha Sohl-Dickstein et al. "Deep Unsupervised Learning using Nonequilibrium Thermodynamics". In: Proceedings of the 32nd International Conference on Machine Learning. Lille, France: PMLR, July 2015, pp. 2256–2265.
[Son+21] Yang Song et al. "Score-Based Generative Modeling through Stochastic Differential Equations". In: International Conference on Learning Representations. Oct. 2021.

Votre Environnement de Travail

Le doctorat sera effectué au sein du LPENS et du Centre de Sciences des Données de l'École Normale Supérieure.

Contraintes et risques

Aucuns

Rémunération et avantages

Rémunération

La rémunération est d'un minimum de 2300,00 € mensuel

Congés et RTT annuels

44 jours

Pratique et Indemnisation du TT

Pratique et indemnisation du TT

Transport

Prise en charge à 75% du coût et forfait mobilité durable jusqu’à 300€

À propos de l’offre

Référence de l’offre UMR8023-MARGAB-003
Section(s) CN / Domaine de recherche Physique de la matière complexe et du vivant

À propos du CNRS

Le CNRS est un acteur majeur de la recherche fondamentale à une échelle mondiale. Le CNRS est le seul organisme français actif dans tous les domaines scientifiques. Sa position unique de multi-spécialiste lui permet d’associer les différentes disciplines pour affronter les défis les plus importants du monde contemporain, en lien avec les acteurs du changement.

Le CNRS

Les métiers de la recherche

Créer une alerte

Ne manquez aucune opportunité de trouver le poste qui vous correspond. Inscrivez-vous gratuitement et recevez les nouvelles offres directement dans votre boite mail.

Créer une alerte

Doctorat en physique statistique et échantillonnage (H/F)

CDD Doctorant • 36 mois • BAC+5 • PARIS 05

Ces offres pourraient aussi vous intéresser !

    Toutes les offres