Informations générales
Intitulé de l'offre : (H/F) Ingénieur en Apprentissage par renforcement et espace de travail global pour les robots à pattes et manipulateur mobile.
Référence : UPR8001-OLISTA-015
Nombre de Postes : 1
Lieu de travail : TOULOUSE
Date de publication : mardi 14 janvier 2025
Type de contrat : IT en contrat CDD
Durée du contrat : 2 mois
Date d'embauche prévue : 5 février 2025
Quotité de travail : Complet
Rémunération : entre 2466€ et 2849€ brut mensuel selon expérience
Niveau d'études souhaité : BAC+5
Expérience souhaitée : Indifférent
BAP : E - Informatique, Statistiques et Calcul scientifique
Emploi type : Ingénieur-e en ingénierie logicielle
Missions
Le but de ce poste est d’adapter les outils fondamentaux de la robotique au concept d’espace de travail global (ou ”Global Workspace”). Ce concept est basée sur une théorie de l’esprit introduite dans l’article [1]. Le travail prend place dans la chaire ”Cobots with Conversation, Cognition and PerceptiOn (C3-PO)” acceptée dans l’institut Artificial and Natural Intelligence Toulouse Institute qui a démarré en 2024. Le lien avec la vision sera investigué avec l’équipe de Rufin Van Rullen [2] (CERCO), Thomas Serre (Brown University). Le lien avec le traitement du language naturel prendra place avec l’équipe de Nicolas Asher et Philippe Muller (IRIT).
Plus spécifiquement ce travail doit fournir la partie robotique de l’espace de travail global. L’état de l’art courant prendra ces racines dans les avancées récentes en apprentissage par renforcement appliqués aux robots à pattes [3]. En effet de nouveaux
outils comme Isaac Lab, permettent de tester plusieurs années d’expérience en quelques heures de simulation. L’équipe Gepetto a construit sur de tels outils pour générer des mouvements très dynamiques pour le robot open source SOLO [4]. Le travail consistera à évaluer les résultats récents sur des systèmes vision-action-languages tels qu’Octo [5] ou OpenVLA [6]. Ces deux architectures utilisent la base de données Open-X [7] qui ne contient presque pas de données venant de robots à pattes (un seul robot A-1 unitree).
Il est attendu que la personne retenue pour ce poste interagisse avec les autres membres de la chaire synergie pour investiguer le lien entre le contrôle prédictif basé modéle et l’apprentissage par renforcement [8]. En effet, les approches classiques basées modèles apportent un moyen intéressant de démarrer et d’explorer l’espace de trajectoire des robots. Il faudra interagir avec d’autres chaires d’ANITI telle que la chaire internationale NERL dirigée par Ludovic Righetti.
[1] B. Baars, “Global workspace theory of consciousness: toward a cognitive neuroscience of human experience,” Progress in brain research, vol. 150, pp. 45–53, 2005.
[2] L. Maytié, B. Devillers, A. Arnold, and R. VanRullen, “Zero-shot cross-modal transfer of reinforcement learning policies through a global workspace,” in Reinforcement learning, 2024.
[3] T. Miki, J. Lee, J. Hwangbo, L. Wellhausen, V. Koltun, and M. Hutter, “Learning robust perceptive locomotion for quadrupedal robots in the wild,” Science robotics, vol. 7, no. 62, 2022, Available: https://doi.org/10.48550/arXiv.2201.08117
[4] E. Chane-Sane, P.-A. Leziart, T. Flayols, O. Stasse, P. Souères, and N. Mansard, “Cat: Constraints as terminations for legged locomotion reinforcement learning,” in Iros, 2024. Available: https://arxiv.org/pdf/2403.18765
[5] Octo Model Team and al., “Octo: An open-source generalist robot policy,” in Proceedings of robotics: Science and systems, Delft, Netherlands, 2024. Available: https://octo-models.github.io/
[6] M. J. Kim et al., “Openvla: An open-source vision-language-action model,” Arxiv preprint arxiv:2406.09246, 2024, Available: https://openvla.github.io/
[7] Open X-Embodiment Collaboration and al., “Open X-Embodiment: Robotic learning datasets and RT-X models,” in Icra, https://arxiv.org/abs/2310.08864, 2024.
[8] F. Jenelten, J. He, F. Farshidian, and M. Hutter, “Dtc: Deep tracking control,” Science robotics, vol. 9, no. 86, 2024, Available: https://doi.org/10.48550/arXiv.2309.15462
Activités
- Développement logiciel
- Lectures d'articles
- Test sur les robots
- Prépartions des containers Apptainer
Compétences
- Reinforcement Learning
- ROS/2
- Robotique expérimentale, mise en place de protocole expérimental robotique
- C++
- Capacité rédactionnel
Contexte de travail
Le travail sera fait dans le contexte d'ANITI 2.0 et plus spécifiquement la chaire Synergie C3PO
Le poste se situe dans un secteur relevant de la protection du potentiel scientifique et technique (PPST), et nécessite donc, conformément à la réglementation, que votre arrivée soit autorisée par l'autorité compétente du MESR.
Contraintes et risques
Assister aux réunions de la chaire.