En poursuivant votre navigation sur ce site, vous acceptez le dépôt de cookies dans votre navigateur. (En savoir plus)

H/F Thèse en biostatistiques et intelligence artificielle : Apprentissage par renforcement à base de modèles pour le contrôle de processus de décision semi-markoviens déterministes par morceaux, partiellement observables

Cette offre est disponible dans les langues suivantes :
Français - Anglais

Date Limite Candidature : vendredi 1 juillet 2022

Assurez-vous que votre profil candidat soit correctement renseigné avant de postuler. Les informations de votre profil complètent celles associées à chaque candidature. Afin d’augmenter votre visibilité sur notre Portail Emploi et ainsi permettre aux recruteurs de consulter votre profil candidat, vous avez la possibilité de déposer votre CV dans notre CVThèque en un clic !

Informations générales

Référence : UMR5149-NATCOL-007
Lieu de travail : MONTPELLIER
Date de publication : vendredi 10 juin 2022
Nom du responsable scientifique : Benoite de Saporta
Type de contrat : CDD Doctorant/Contrat doctoral
Durée du contrat : 36 mois
Date de début de la thèse : 1 octobre 2022
Quotité de travail : Temps complet
Rémunération : 2 135,00 € brut mensuel

Description du sujet de thèse

Nous souhaitons fournir les premières contributions au contrôle de processus semi-Markoviens déterministes par morceaux, partiellement observés et à modèle mal connu.
Les processus Markoviens déterministes par morceaux (PMDM) forment une classe de processus particulièrement adaptés pour la modélisation [D93]. Si la littérature concernant les aspects théoriques du contrôle de ces processus est abondante, les aspects numériques sont nettement moins étudiés, en particulier lorsque les dates de saut ne sont pas observées [CdS18]. On peut réduire le problème à un processus décisionnel Markovien partiellement observable (PDMPO) à espace d'états continu, pour lequel il n'existe que peu d'approches de résolution [dSDN16], [Z13], Z10]. Nous ne connaissons au-cune approche pour le contrôle de PMDM dans le cas partiellement observable et à modèle inconnu. Toutefois, [DSD20] se sont intéressés récemment à l'application de méthodes d'apprentissage par renforcement bayésien (ARB) utilisant des ODEs pour le contrôle de processus décisionnels semi-Markoviens à temps continu. Par ailleurs, quelques approches d'ARB ont été développées pour ré-soudre des PDMPO [GMPT15]. Néanmoins, ces approches (i) ne traitent pas le cas semi-Markovien et (ii) ignorent le cas des dynamiques “déterministes par morceaux”. Or il est vraisemblable que ce type de dynamiques, très fréquentes dans les modèles de biologie ou de médecine, admette des méthodes de contrôle (vraisemblablement approché) intéressantes.
Après une étude bibliographique consacrée à la familiarisation avec les modèles de processus (semi-) markoviens déterministes par morceaux et leur pendants décisionnels, les méthodes d'apprentissage par renforcement, y compris bayésien et la prise en main des données médicales et de la problématique de suivi et traitement de maladies longues, la thèse se concentrera sur la modélisation de sous-familles de problèmes de plus en plus complexes.
On s'intéressera notamment à la résolution des méthodes de difficulté croissante :
• Cas où les marqueurs sont parfaitement observés à des dates discrètes, et seuls les paramètres de la dynamique déterministe sont inconnus.
• Cas où les observations des marqueurs à des dates discrètes sont bruitées et seuls les para-mètres de la dynamique déterministe sont inconnus.
• Cas le plus complexe, où les dates d'observations des marqueurs sont “rares” et optimisées par une stratégie de contrôle. Ce cas nécessitera l'élaboration de méthodes d'AR bayesien mises en œuvre dans un contexte de “batch RL” (c'est-à-dire exploitation du jeu de données complet de suivi des malades, pour construire en ligne une stratégie adaptée à un patient particulier).
La thèse s'attachera à des retours constants vers l'application, avec, si possible, la construction de stratégies de traitement de patients intelligibles par les médecins.
Cette thèse a une forte composante méthodologique, à la frontière entre les statistiques (modèles de processus) et l'Intelligence artificielle (décision, apprentissage). Des compétences dans l'un de ces domaines sont donc demandées. La doctorante ou le doctorant acquerra de nouvelles compétences méthodologiques durant la thèse et présentera ainsi, à la sortie de la thèse, un profil méthodologique pluridisciplinaire, très recherché. Elle ou il sera également amené·e à implémenter les algorithmes de contrôle et d'apprentissage développés (R, Python..), et devra être familier·e avec l'un au moins de ces langages de programmation. Enfin, elle ou il sera amené·e à évoluer dans un environnement pluridisciplinaire, en étant régulièrement au contact de nos partenaires biologistes et médecins. Elle ou il progressera dans la compréhension d'enjeux pluridisciplinaires et la communication de résultats de recherche auprès de communautés différentes. Une personnalité ouverte et curieuse des enjeux de domaines scientifiques connexes est donc requise.

Contexte de travail

La thèse se déroulera essentiellement à l'Université de Montpellier mais des séjours de plus ou moins longues durées seront organisés à l'INRAE à Toulouse en fonction de la mobilité de la candidate ou du candidat.
L'encadrement sera partagé entre Benoîte de Saporta, professeure à l'université de Montpellier, Régis Sabaddin, Directeur de Recherches à l'INRAE de Toulouse, et Alice Cleynen, chargée de recherches au CNRS à Montpellier.
Des collaborations externes avec le CRCT de Toulouse sont prévues.

Contraintes et risques

Travail sur ordinateur essentiellement

On en parle sur Twitter !