En poursuivant votre navigation sur ce site, vous acceptez le dépôt de cookies dans votre navigateur. (En savoir plus)

Proposition de thèse H/F : Apprentissage du langage chez le robot : un modèle de langage bio-inspiré ancré dans des motivations intrinsèques

Cette offre est disponible dans les langues suivantes :
- Français-- Anglais

Date Limite Candidature : vendredi 13 juin 2025 23:59:00 heure de Paris

Assurez-vous que votre profil candidat soit correctement renseigné avant de postuler

Informations générales

Intitulé de l'offre : Proposition de thèse H/F : Apprentissage du langage chez le robot : un modèle de langage bio-inspiré ancré dans des motivations intrinsèques
Référence : UMR8051-VIRLAI-012
Nombre de Postes : 1
Lieu de travail : CERGY
Date de publication : vendredi 23 mai 2025
Type de contrat : CDD Doctorant
Durée du contrat : 36 mois
Date de début de la thèse : 1 octobre 2025
Quotité de travail : Complet
Rémunération : La rémunération est d'un minimum de 2200,00 € mensuel
Section(s) CN : 01 - Interactions, particules, noyaux du laboratoire au cosmos

Description du sujet de thèse

Contexte
Les récents progrès des modèles de langage de grande taille (LLMs) basés sur les Transformers [1] ont conduit à des systèmes capables de générer des conversations cohérentes et de répondre à une grande variété de requêtes avec une fluidité impressionnante. Cependant, ces modèles nécessitent d’être alimentés par d’immenses corpus de textes à l’échelle d’Internet, alors que les enfants humains reçoivent environ 4 à 5 ordres de grandeur de moins de données langagières pour atteindre la maîtrise du langage. Cette inefficacité en termes d’échantillonnage constitue un enjeu central pour la réduction de l’empreinte environnementale de l’IA générative, d’autant plus que ce secteur est appelé à devenir un marché de 1 300 milliards de dollars d’ici 2032, selon un rapport récent de Bloomberg Intelligence [2].
Une autre différence fondamentale entre les LLMs et les êtres humains est que ces derniers sont inextricablement ancrés dans un corps et dans le monde physique [3], alors qu’il reste très difficile d’établir un lien entre le langage produit par les LLMs et le monde réel, en dehors d’interactions purement textuelles [4]. Cela limite notamment leur utilisation en robotique, où l’adaptation à l’environnement physique et perceptif, ainsi qu’aux partenaires sociaux, est cruciale pour agir de manière appropriée. Ce défi, qui consiste à associer le langage aux objets et aux actions, est connu sous le nom de problème de l’ancrage symbolique (Symbol Grounding Problem) [5].
Nous faisons l’hypothèse que des principes inspirés de l’acquisition du langage chez l’humain peuvent permettre de surmonter ces limitations. En outre, concevoir des modèles de langage capables d’apprendre à partir du même type et de la même quantité de données que les humains pourrait conduire à des modèles cognitifs plus plausibles de l’acquisition du langage, et améliorer notre compréhension de la manière dont les humains parviennent à apprendre le langage avec une telle efficacité.
Cette interrogation est au cœur du présent projet.
________________________________________
Objectifs
Notre objectif est double :
1. Améliorer le potentiel des modèles de langage de grande taille en tant que modèles cognitifs de la compréhension du langage humain ;
2. Contourner leurs limitations en s’appuyant sur des approches bio-inspirées, en termes d’efficacité échantillonnale, d’ancrage symbolique, et de compétence sociale, pour des applications en robotique sociale.
Dans ce but, cette thèse vise à proposer un modèle computationnel cognitif permettant d’ancrer un LLM dans un agent robotique intrinsèquement motivé, interagissant socialement avec le monde en s’inspirant des mécanismes d’acquisition du langage chez l’humain.
Programme de recherche
En s’appuyant sur des travaux antérieurs inspirés du développement langagier de l’enfant, dans lesquels nous avons proposé un modèle cognitif pour l’ancrage symbolique basé sur des motivations fondamentales [6,7], ce projet de thèse explorera les axes suivants :
1. Enrichir le module de motivation intrinsèque, en permettant au système de générer de manière autonome de nouvelles motivations, découvertes par l’interaction [7][8]. Ces motivations seront guidées par des besoins homéostatiques, la curiosité et les récompenses sociales. Ce passage de motivations statiques et définies manuellement à des objectifs émergents et flexibles rendra l’agent plus adaptatif.
2. Développer un modèle cognitif intégrant ce système de motivation avec un modèle de langage, permettant à l’agent d’interpréter et de produire du langage en fonction de ses états internes évolutifs et de ses expériences sociales.
3. Évaluer et valider le modèle à travers une série d’expérimentations sur un robot humanoïde (Reachy, de Pollen Robotics), allant de protocoles contrôlés à des scénarios plus réalistes, inspirés d’études en psychologie du développement. Cela permettra de comparer les performances du système avec les schémas observés chez l’humain lors du développement langagier.

[1] A. Vaswani et al., “Attention is all you need,” Adv. Neural Inf. Process. Syst., vol. 30, 2017,
[2] B. Intelligence, “Generative AI to become a $1.3 trillion market by 2032, research finds,” Bloom. Com, 2023.
[3] G. Pezzulo, T. Parr, P. Cisek, A. Clark, and K. Friston, “Generating meaning: active inference and the scope and limits of passive AI,” Trends Cogn. Sci., vol. 28, no. 2, pp. 97–112, Feb. 2024, doi: 10.1016/j.tics.2023.10.002.
[4] E. Pavlick, “Symbols and grounding in large language models,” Philos. Trans. R. Soc. Math. Phys. Eng. Sci., vol. 381, no. 2251, p. 20220041, Jul. 2023, doi: 10.1098/rsta.2022.0041.
[5] S. Harnad, “The symbol grounding problem,” Phys. Nonlinear Phenom., vol. 42, no. 1–3, pp. 335–346, 1990.
[6] L. Cohen and A. Billard, “Social babbling: The emergence of symbolic gestures and words,” Neu. Net., vol. 106, pp. 194–204, 2018.
[7] Z. Lemhaouri, L. Cohen, and L. Cañamero, “The role of the caregiver’s responsiveness in affect-grounded language learning by a robot: Architecture and first experiments,” in 2022 IEEE ICDL, IEEE, 2022, pp. 349–354.
[8] N. Duminy, S. M. Nguyen, J. Zhu, D. Duhaut, and J. Kerdreux, “Intrinsically motivated open-ended multi-task learning using transfer learning to discover task hierarchy,” Appl. Sci., vol. 11, no. 3, p. 975, 2021.
[9] A. Manoury, S. M. Nguyen, and C. Buche, “Hierarchical Affordance Discovery using Intrinsic Motivation,” in Proceedings of the 7th HAI, Kyoto Japan: ACM, Sep. 2019, pp. 186–193. doi: 10.1145/3349537.335189

Contexte de travail

Ce doctorat est financé par le projet ANR JCJC GISMo (Grounding Meaning in Intrinsic Social Motivation), porté par Laura Cohen (CY Cergy Paris Université). Il s’inscrit dans une dynamique collaborative et interdisciplinaire, impliquant notamment Julia Ive (University College London, spécialiste des modèles de langage) et Sao Mai Nguyen (ENSTA, experte en motivation intrinsèque). Le·la doctorant·e bénéficiera également du soutien d’autres membres du projet, dont plusieurs stagiaires recrutés en parallèle.
La recherche sera menée au sein de l’équipe NEURO du laboratoire ETIS, une unité conjointe de CY Cergy Paris Université, ENSEA et du CNRS (UMR 8051), reconnue pour ses travaux en robotique bio-inspirée et intelligence artificielle.
L’équipe NEURO conçoit des robots cognitifs et sociaux en s’appuyant sur des modèles biologiques de la cognition humaine, avec un fort ancrage dans les sciences du développement, la psychologie et les neurosciences. Elle rassemble 16 membres permanents et 22 doctorant·e·s et post-doctorant·e·s, et participe à de nombreux projets collaboratifs nationaux et internationaux.

Contraintes et risques

Prérequis
• Master ou diplôme d’ingénieur en informatique, robotique ou domaines connexes
• Langages de programmation : Python, C/C++
• Expérience en réseaux de neurones, traitement d’images, apprentissage par renforcement et robotique
• Intérêt pour l’analyse statistique des résultats et les sciences cognitives
• Rigueur scientifique et compétences rédactionnelles ; capacité à mener une revue de littérature
• Un bon niveau d’anglais est un atout ; le français n’est pas obligatoire

Processus de recrutement
Toutes les candidatures doivent être soumises via ce portail (c'est-à-dire le Portail emploi CNRS) avant le 15 Juin 2025 et doivent inclure :
• CV détaillé
• Relevés de notes de M1 et M2
• Lettre de motivation comprenant une brève description de votre parcours, une déclaration de vos intérêts de recherche et de votre motivation pour ce poste, et pourquoi vous pensez que vous seriez un·e bon·ne candidat·e (1 page)
• Deux lettres de référence ou coordonnées de deux référents public sont acceptés

Pour un examen complet de votre candidature, tous les éléments énumérés ci-dessus doivent être inclus ou leur absence justifiée.
Les demandes informelles par e-mail avant les candidatures complètes sont les bienvenues.
Les candidat·e·s présélectionné·e·s seront invité·e·s à un entretien.