Informations générales
Intitulé de l'offre : Thèse en statistique pour l'imagerie spectrale H/F
Référence : UAR3461-REGOPR-024
Nombre de Postes : 1
Lieu de travail : ST AUBIN
Date de publication : mardi 18 novembre 2025
Type de contrat : CDD Doctorant
Durée du contrat : 36 mois
Date de début de la thèse : 10 décembre 2025
Quotité de travail : Complet
Rémunération : La rémunération est d'un minimum de 2200,00 € mensuel
Section(s) CN : 01 - Interactions, particules, noyaux du laboratoire au cosmos
Description du sujet de thèse
Contexte
Les algorithmes d’apprentissage non-supervisé, et plus particulièrement les algorithmes de segmentation ou de factorisation, peuvent jouer un rôle central dans l’exploitation des images spectrales pour lesquelles chaque pixel est caractérisé par un spectre complet. L’utilisation de la spectroscopie de rayon X permet de caractériser la composition élémentaire de chaque pixel et les instruments de mesure permettent actuellement de collecter des images de plusieurs millions de pixels correspondant à plusieurs Go, voire des dizaines de Go. La richesse des informations ainsi collectées est utile par exemple pour la caractérisation des matériaux très complexes et hétérogènes, tels que ceux rencontrés dans l’étude des matériaux anciens. Toutefois, cette richesse d’information appelle à développer des algorithmes d’analyse performants en termes de coût de calcul, là où les algorithmes standards de segmentation sont sous optimaux, tant en termes de coût de calculs qu’en termes d’exploitation des connaissances à priori sur les données.
Nous avons déjà proposé un algorithme de segmentation d’images spectrales de fluorescence de rayons X (X-ray fluorescence / XRF), algorithme qui combine classification hiérarchique ascendante et contraintes spatiales. Ce premier travail utilise la distance du χ2 comme critère d’agrégation. Dans un second temps, nous avons exploité le critère de perte de vraisemblance lié au passage d’un modèle saturé à un modèle d’homogénéité des spectres. Ces résultats méthodologiques démontrent qu’une approche rigoureuse du point de vue statistique permet de réduire par un facteur entre 100 et 1000 le nombre de photons nécessaire pour caractériser chacun des pixels du matériau et ainsi réduire d’autant à la fois le temps de mesure et le risque d’endommagement dû aux radiations. Indirectement, cela ouvre la possibilité d’étudier plus d’échantillons, mais aussi des échantillons plus fragiles.
Objectifs de la thèse
Les résultats théoriques qui sont la base de ces travaux considèrent un modèle dans lequel l’incertitude sur les mesures ne provient que du processus stochastique de mesure. Ainsi les démonstrations ne sont, pour l’instant, vérifiées que pour un modèle précis de loi sur le bruit, à savoir un bruit Poisson. Ce modèle est incomplet du point de vue de la complexité réelle des matériaux anciens (archéologie, paléontologie, patrimoine culturel…), et si ces premières modélisations donnent déjà des résultats très prometteurs tant sur des données synthétiques que sur des données réelles, l’extension et la généralisation des résultats théoriques permettraient d’élargir leur exploitation à d’autres modalités d’observation et d’autres problématiques de modélisation. Dans le cadre de la thèse, il s’agit donc de :
— Concernant la modélisation du bruit de mesure, les signaux XRF actuellement exploités suivent une loi de Poisson. Ce n’est pas le cas de toutes les modalités utilisé sur synchrotron et il sera donc nécessaire de modéliser finement le bruit de mesure d’autres modalités telle que la photoluminescence, l’imagerie infrarouge, l’absorption des rayons X… ;
— Généraliser les résultats théoriques concernant les propriétés du critère de perte de vraisemblance du modèle homogène vis-à-vis du modèle saturé quand la loi des variables n’est pas simplement une loi de Poisson ;
— Être en mesure d’effectuer ces calculs de vraisemblance dans le cadre de modèles d’incertitude provenant de multiples sources, prenant ainsi en compte tant la variabilité due à la mesure (aspect stochastique de la mesure) que celle due à la variabilité compositionnelle du matériau (conséquence des processus d’altération du matériau — taphonomie —) ;
— Étudier l’efficacité du critère de perte de vraisemblance dans le cadre d’autres algorithmes de segmentation (nous avons déjà pu montrer l’efficacité de ce critère dans un algorithme de type k-means), mais aussi pour des algorithmes de factorisation (dans le prolongement des algorithmes de factorisation positive de matrice).
Concrètement, le travail de thèse fournira à la fois un apport théorique sur les questions mentionnées ci-dessus et un volet d’implémentation (calcul numérique, implémentation efficace et applications).
Contexte de travail
Le doctorat sera dirigé́ par le laboratoire IPANEMA (CNRS/MNHN/ministère de la Culture/Université́ de Versailles Saint-Quentin, Gif-sur-Yvette ; https://ipanema.cnrs.fr/) et co-dirigé par le synchrotron SOLEIL. L’école doctorale de rattachement sera l’ED de Mathémathiques Hadamard de l’université Paris-Saclay.
La personne recrutée sera localisée principalement à IPANEMA sur le site du synchrotron SOLEIL. IPANEMA est une unité mixte du CNRS, du ministère de la Culture, de l’université de Versailles Saint-Quentin-en-Yvelines et du Muséum national d’histoire naturelle (UAR 3461). Le laboratoire mène une recherche méthodologique visant la caractérisation avancée de matériaux de l’archéologie, des paléoenvironnements, de la paléontologie et du patrimoine culturel, et accompagne la recherche synchrotron à travers l’hébergement d’utilisateurs externes. Le doctorant ou la doctorante sera principalement localisé·e à IPANEMA et travaillera régulièrement dans les locaux de SOLEIL. Des réunions régulières impliquant les deux entités seront conduites.
Informations complémentaires
Le candidat ou la candidate doit apprécier travailler à la fois de manière indépendante et dans un environnement fortement interdisciplinaire et collaboratif. De bonnes compétences en communication et une compréhension écrite et orale de l'anglais sont requises pour la diffusion des résultats auprès de la communauté scientifique internationale des domaines impliqués.
Contraintes et risques
Néant