En poursuivant votre navigation sur ce site, vous acceptez le dépôt de cookies dans votre navigateur. (En savoir plus)

(H/F) Thèse en Apprentissage par renforcement et espace de travail global pour les robots à pattes et manipulateur mobile.

Cette offre est disponible dans les langues suivantes :
- Français-- Anglais

Date Limite Candidature : lundi 22 juillet 2024 23:59:00 heure de Paris

Assurez-vous que votre profil candidat soit correctement renseigné avant de postuler

Informations générales

Intitulé de l'offre : (H/F) Thèse en Apprentissage par renforcement et espace de travail global pour les robots à pattes et manipulateur mobile.
Référence : UPR8001-OLISTA-012
Nombre de Postes : 1
Lieu de travail : TOULOUSE
Date de publication : lundi 1 juillet 2024
Type de contrat : CDD Doctorant/Contrat doctoral
Durée du contrat : 36 mois
Date de début de la thèse : 1 octobre 2024
Quotité de travail : Temps complet
Rémunération : La rémunération est d'un minimum de 2135,00 € mensuel
Section(s) CN : Interactions, particules, noyaux du laboratoire au cosmos

Description du sujet de thèse

Le but de cette thèse est d’adapter les outils fondamentaux de la robotique au concept d’espace de travail global (ou ”Global Workspace”). Ce concept est basée sur une théorie de l’esprit introduite dans l’article [1]. La thèse prend place dans la chaire ”Cobots with Conversation, Cognition and PerceptiOn (C3-PO)” acceptée dans l’institut Artificial and Natural Intelligence Toulouse Institute qui a démarré en 2024. Le lien avec la vision sera investigué avec l’équipe de Rufin Van Rullen [2] (CERCO), Thomas Serre (Brown University). Le lien avec le traitement du language naturel prendra place avec l’équipe de Nicolas Asher et Philippe Muller (IRIT).
Plus spécifiquement cette thèse va fournir la partie robotique de l’espace de travail global. L’état de l’art courant prendra ces racines dans les avancées récentes en apprentissage par renforcement appliqués aux robots à pattes [3]. En effet de nouveaux
outils comme Isaac Gym, permettent de tester plusieurs années d’expérience en quelques heures de simulation. L’équipe Gepetto a construit sur de tels outils pour générer des mouvements très dynamiques pour le robot open source SOLO [4]. Le travail consistera à évaluer les résultats récents sur des systèmes vision-action-languages tels qu’Octo [5] ou OpenVLA [6]. Ces deux architectures utilisent la base de données Open-X [7] qui ne contient presque pas de données venant de robots à pattes (un seul robot A-1 unitree).
Il est attendu que la personne retenue pour la thèse interagisse avec les autres membres de la chaire synergie en thèse pour investiguer le lien entre le contrôle prédictif basé modéle et l’apprentissage par renforcement [8]. En effet, les approches classiques basées modèles apportent un moyen intéressant de démarrer et d’explorer l’espace de trajectoire des robots. Il faudra interagir avec d’autres chaires d’ANITI telle que la chaire internationale NERL dirigée par Ludovic Righetti.

[1] B. Baars, “Global workspace theory of consciousness: toward a cognitive neuroscience of human experience,” Progress in brain research, vol. 150, pp. 45–53, 2005.
[2] L. Maytié, B. Devillers, A. Arnold, and R. VanRullen, “Zero-shot cross-modal transfer of reinforcement learning policies through a global workspace,” in Reinforcement learning, 2024.
[3] T. Miki, J. Lee, J. Hwangbo, L. Wellhausen, V. Koltun, and M. Hutter, “Learning robust perceptive locomotion for quadrupedal robots in the wild,” Science robotics, vol. 7, no. 62, 2022, Available: https://doi.org/10.48550/arXiv.2201.08117
[4] E. Chane-Sane, P.-A. Leziart, T. Flayols, O. Stasse, P. Souères, and N. Mansard, “Cat: Constraints as terminations for legged locomotion reinforcement learning,” in Iros, 2024. Available: https://arxiv.org/pdf/2403.18765
[5] Octo Model Team and al., “Octo: An open-source generalist robot policy,” in Proceedings of robotics: Science and systems, Delft, Netherlands, 2024. Available: https://octo-models.github.io/
[6] M. J. Kim et al., “Openvla: An open-source vision-language-action model,” Arxiv preprint arxiv:2406.09246, 2024, Available: https://openvla.github.io/
[7] Open X-Embodiment Collaboration and al., “Open X-Embodiment: Robotic learning datasets and RT-X models,” in Icra, https://arxiv.org/abs/2310.08864, 2024.
[8] F. Jenelten, J. He, F. Farshidian, and M. Hutter, “Dtc: Deep tracking control,” Science robotics, vol. 9, no. 86, 2024, Available: https://doi.org/10.48550/arXiv.2309.15462

Qualifications:

• Master en robotiques, apprentissage automatique, informatique, contrôle, optimisation numérique
• Une expérience avec le déploiement d’architecture de contrôlel sur un robot réel est requise.
• Une expérience avec le développement de code: C++, python, github, cmake, ROS
ROS/2, les architectures de contrôle telles que ros\control , OCS2, Croccodyl est requise.
• Une expérience du déploiement pratique d’apprentissage automatique sur des clusters sera appréciée

Contexte de travail

L'équipe Gepetto, LAAS fournie un environnement de recherche internationale et le language de travail est l’Anglais. Localisé dans la ville Universitaire de Toulouse, dans le sud-ouest de la France, le laboratoire CNRS- LAAS (Laboratoire pour l’Analyse et l’Architecture des Systèmes), fort de 640 permanents est un centre de recherche avec 90 personnes travaillent sur la robotique. Il bénéficie de fortes connections avec les universités locales, et l’industrie spatiale et aéronautique.

Le poste se situe dans un secteur relevant de la protection du potentiel scientifique et technique (PPST), et nécessite donc, conformément à la réglementation, que votre arrivée soit autorisée par l'autorité compétente du MESR.

Contraintes et risques

La personne choisie devra être présente aux réunions de la chaire synergie C3PO.
Elle sera responsable de la mise en oeuvre des expériences sur les robots.