En poursuivant votre navigation sur ce site, vous acceptez le dépôt de cookies dans votre navigateur. (En savoir plus)

Doctorant en robotique H/F

Cette offre est disponible dans les langues suivantes :
- Français-- Anglais

Date Limite Candidature : lundi 5 mai 2025 23:59:00 heure de Paris

Assurez-vous que votre profil candidat soit correctement renseigné avant de postuler

Informations générales

Intitulé de l'offre : Doctorant en robotique H/F
Référence : UPR8001-NICMAN-021
Nombre de Postes : 1
Lieu de travail : TOULOUSE
Date de publication : lundi 14 avril 2025
Type de contrat : CDD Doctorant
Durée du contrat : 36 mois
Date de début de la thèse : 1 juin 2025
Quotité de travail : Complet
Rémunération : La rémunération est d'un minimum de 2200,00 € mensuel
Section(s) CN : 01 - Interactions, particules, noyaux du laboratoire au cosmos

Description du sujet de thèse

Étude de l'algorithmie de l'apprentissage par renforcement pour la robotique

L’apprentissage par renforcement (RL) a démontré un fort potentiel pour les applications robotiques, en particulier en locomotion de robots à pattes. Toutefois, l’efficacité des solveurs RL reste insuffisante pour répondre aux exigences pratiques.

Ce projet, s’appuyant sur les avancées en optimisation de trajectoire, propose d’explorer l’utilisation de solveurs d’optimisation standards comme alternatives aux algorithmes RL populaires tels que PPO ou SAC. Nous nous concentrerons dans un premier temps sur les stratégies évolutionnaires (ES), en tirant parti de leur efficacité sur les architectures CPU, tout en explorant leur mise à l’échelle sur GPU afin d’obtenir des gains de performance significatifs.

À partir de cette base, nous chercherons à affiner la formulation du problème, notamment en étudiant l’approche du multiple shooting, afin d’améliorer l’exploration dans l’espace des états plutôt que dans celui des commandes. Nous mettrons en évidence les propriétés et l’intérêt de cette formulation – appelée transcription en optimisation de trajectoire – qui est rarement prise en compte dans le cadre du RL.

Par ailleurs, nous explorerons l’intégration de gradients issus du simulateur ou de réseaux de neurones lorsque cela est possible. L’objectif final est d’appliquer ces méthodes à des tâches réelles de locomotion de robots quadrupèdes.

Contexte de travail

Equipe Gepetto

Le poste se situe dans un secteur relevant de la protection du potentiel scientifique et technique (PPST), et nécessite donc, conformément à la réglementation, que votre arrivée soit autorisée par l'autorité compétente du MESR.

Contraintes et risques

Néant