Doctorant (H/F) - Politique optimale comme problème de classification
Nouveau
- CDD Doctorant
- 36 mois
- Doctorat
L'offre en un coup d'oeil
L'unité
Institut de Recherche en Informatique de Toulouse
Type de Contrat
CDD Doctorant
Temps de Travail
Complet
Lieu de Travail
31071 TOULOUSE
Durée du contrat
36 mois
Date d'Embauche
01/09/2026
Rémuneration
La rémunération est d'un minimum de 2300,00 € mensuel
Postuler Date limite de candidature : vendredi 29 mai 2026 23:59
Description du Poste
Sujet De Thèse
Ce projet de doctorat propose de considérer la recherche d’une politique optimale en apprentissage par renforcement comme un problème de classification, en exploitant la structure géométrique selon laquelle les actions optimales partitionnent l’espace des états. Plutôt que d’apprendre des fonctions de valeur complètes, l’idée est d’apprendre directement les frontières où deux actions deviennent équivalentes, lesquelles définissent les régions dans lesquelles chaque action est optimale. Le projet débute par un cadre simple à deux dimensions et deux actions afin d’étudier comment ces frontières de décision peuvent être apprises efficacement, d’abord via des mises à jour basées sur des seuils, puis à l’aide de fonctions de frontière paramétrées. Il généralise ensuite cette approche à des espaces d’états et d’actions de dimension plus élevée en utilisant des méthodes basées sur le gradient et des approximateurs de fonctions tels que des modèles linéaires ou des réseaux de neurones. En se concentrant sur l’apprentissage de ces frontières plutôt que sur celui des fonctions de valeur complètes, le projet vise à développer des algorithmes d’apprentissage par renforcement nécessitant moins de données et convergeant plus rapidement.
Votre Environnement de Travail
Le poste est basé à l’IRIT (Institut de Recherche en Informatique de Toulouse), un laboratoire majeur en informatique regroupant plusieurs centaines de chercheurs et doctorants. Le doctorant sera accueilli au sein du département ASR (Architecture, Systèmes et Réseaux), dont les thématiques couvrent notamment les réseaux, les systèmes distribués et l’apprentissage automatique appliqué aux systèmes. Le projet s’inscrit dans un environnement scientifique dynamique, avec des collaborations possibles avec plusieurs chercheurs du laboratoire travaillant sur l’apprentissage par renforcement et les systèmes en réseau, ainsi qu’avec l’écosystème toulousain de recherche en intelligence artificielle, notamment dans le cadre de la chaire ANITI dédiée à l’apprentissage par renforcement.
Rémunération et avantages
Rémunération
La rémunération est d'un minimum de 2300,00 € mensuel
Congés et RTT annuels
44 jours
Pratique et Indemnisation du TT
Pratique et indemnisation du TT
Transport
Prise en charge à 75% du coût et forfait mobilité durable jusqu’à 300€
À propos de l’offre
| Référence de l’offre | UMR5505-CHLBOU-106 |
|---|---|
| Section(s) CN / Domaine de recherche | Sciences informatiques : fondements de l'informatique, calculs, algorithmes, représentations, exploitations |
À propos du CNRS
Le CNRS est un acteur majeur de la recherche fondamentale à une échelle mondiale. Le CNRS est le seul organisme français actif dans tous les domaines scientifiques. Sa position unique de multi-spécialiste lui permet d’associer les différentes disciplines pour affronter les défis les plus importants du monde contemporain, en lien avec les acteurs du changement.
Créer une alerte
Ne manquez aucune opportunité de trouver le poste qui vous correspond. Inscrivez-vous gratuitement et recevez les nouvelles offres directement dans votre boite mail.