Informations générales
Intitulé de l'offre : Évaluation et adaptation émotionnelle de LLMs vocaux pour la robotique d’assistance aux personnes âgées et enjeux d'éthique (H/F)
Référence : UMR9015-LAUDEV-005
Nombre de Postes : 1
Lieu de travail : GIF SUR YVETTE
Date de publication : jeudi 24 juillet 2025
Type de contrat : CDD Doctorant
Durée du contrat : 36 mois
Date de début de la thèse : 1 novembre 2025
Quotité de travail : Complet
Rémunération : La rémunération est d'un minimum de 2200,00 € mensuel
Section(s) CN : 07 - Sciences de l'information : traitements, systèmes intégrés matériel-logiciel, robots, commandes, images, contenus, interactions, signaux et langues
Description du sujet de thèse
Contexte : Dans le cadre de la chaire ANR HUMAAINE : HUMAN-MACHINE AFFECTIVE INTERACTION & ETHICS au LISN-CNRS, nous avons développé des recherches sur l’interaction orale avec des robots sociaux. 5 thèses ont déjà été soutenues sur des systèmes de détections des émotions (Feng, 2025 ; Deschamps-berger, 2024a ; Ali mehenni, 2023) et des études sur le nudge affectif (Kalashnikova, 2024 ; Kobylyanskaya, 2024). Dans le cadre de cette chaire, nous avons la possibilité d’utiliser des robots pour jouer une interaction émotionnelle.
Des premières analyses ont montré l’intérêt des Large Language Models (LLM) (Vaswani et al., 2017), acoustiques (wav2vec) et textuels (Flaubert) en multimodalité pour la modélisation émotionnelle (Deschamps-berger et al., 2024b). L’émergence des LLMs a conduit à la construction de systèmes de dialogue parle tel GPT-4o qui reconnait et imite la parole humaine.
Beaucoup d’entre nous prêtent à ces dispositifs d’IA des capacités qu’ils n’ont pas : avoir des connaissances, des affects voire des valeurs morales. Nous sommes très vulnérables devant ces IA sujettes aux hallucinations. ChatGPT, qui n’est pas explicitement construit pour être émotionnellement intelligent, emploie tout de même des patterns émotionnels présents dans les données (Fang et al., 2025). Désormais les LLMs sont largement répandus dans les systèmes d’interaction avec des utilisateurs. Parmi eux, quelques approches sont dites “speech-to-speech” comme MOSHI (Defossez et al., 2025). Moshi est un système capable d’interagir à l’oral qui a été directement “fine-tuné” sur des interactions émotionnelles (Defossez et al., 2022, 2024) plutôt que de se limiter à une représentation des émotions implicites formées à partir des corpus d’apprentissage traditionnels.
Description : Le sujet de thèse porte sur l’obtention d’un meilleur contrôle sur l’aspect émotionnel des réponses données par des systèmes LLM et sur leurs déviances possibles (hallucination, toxicité, ...). Notamment, pour une application de robot assistant pour les personnes âgées, il est fondamental d’adapter et de contrôler ce type de système afin de mieux maitriser les réponses de l’agent. De nouvelles mesures sur les dimensions éthiques et d'explicabilité ainsi que des benchmarks seront développés.
La thèse se concentrera principalement sur l’hybridation de LLMs speech-to-speech avec des méthodes classiques. Une expérience sera menée avec une hybridation entre LLMs et des modèles de détection des émotions. En complément, nous souhaitons expérimenter des méthodes de fine-tuning et de RAGs (Lewis et al., 2021 ; Huang et al., 2024, 2025) pour améliorer le contrôle et la représentation des émotions de ces LLMs. L'adaptation des modèles LLM speech to speech aux émotions sera évaluée auprès de personnes âgées. Les résultats attendus sont des apports méthodologiques et de bonnes pratiques pour un meilleur design de ces dispositifs d'interaction vocale pour prendre en compte les émotions et les dimensions éthiques des échanges avec des personnes âgées.
Quelques références bibliographiques :
(Ali Mehenni, 2023) Hugues Ali Mehenni. « ’Nudges’ dans l’interaction homme-machine : analyse et modélisation d’un agent capable de nudges personnalisés ». 2023UPASG043. Thèse de doct. 2023. url : http://www.theses.fr/2023UPASG043/document.
(Défossez et al., 2022) Alexandre Défossez et al. High Fidelity Neural Audio Compression. 2022. arXiv :2210.13438 [eess.AS]. url : https://arxiv.org/abs/2210.13438.
(Défossez et al., 2024) Alexandre Défossez et al. Moshi : a speech-text foundation model for real-time dialogue. 2024. arXiv : 2410.00037 [eess.AS]. url : https://arxiv.org/abs/2410.00037.
(Défossez, 2025) Alexandre Défossez. “Moshi : a speech-text foundation model for real-time dialogue” - Alexandre Défossez. YouTube, mars 2025. url : https://www.youtube.com/watch?v=0_c3bw_x6uU.
(Deschamps-Berger, 2024a) Théo Deschamps-Berger. « Social Emotion Recognition with multimodal deep learning architecture in emergency call centers ». 2024UPASG036. Thèse de doct. 2024. url : http://www.theses.fr/2024UPASG036/document.
(Deschamps-Berger et al., 2024b) Theo Deschamps-Berger, Lori Lamel et Laurence Devillers. « Exploring Attention Mechanisms for Multimodal Emotion Recognition in an Emergency Call Center Corpus ». In : ICASSP 2023 - 2023 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). 2023, p. 1-5. doi : 10.1109/ICASSP49357.2023.10096112.
(Fang et al., 2025) Cathy Mengying Fang et al. How AI and Human Behaviors Shape Psychosocial Effects of Chatbot Use : A Longitudinal Randomized Controlled Study. 2025. arXiv : 2503.17473 [cs.HC]. url : https://arxiv.org/abs/2503.17473.
(Feng, 2025) Yajing Feng, « Continuous emotion recognition in real-life call center conversations », Thèse de doct. 2025.
(Huang et al., 2024) Le Huang et al. Emotional RAG : Enhancing Role-Playing Agents through Emotional Retrieval. 2024. arXiv : 2410.23041 [cs.AI]. url : https://arxiv.org/abs/2410.23041.
(Huang et al., 2025) Ailin Huang et al. Step-Audio : Unified Understanding and Generation in Intelligent Speech Interaction. 2025. arXiv : 2502.11946 [cs.CL]. url : https://arxiv.org/abs/2502.11946.
(Kalashnikova, 2024) Natalia Kalashnikova. « Towards detection of nudges in Human-Human and Human-Machine interactions ». 2024UPASG031. Thèse de doct. 2024. url : http://www.theses.fr/2024UPASG031/document.
(Kobylyanskaya, 2024) Sofiya Kobylyanskaya. « Towards multimodal assessment of L2 level : speech and eye tracking features in a cross-cultural setting ». 2024UPASG111. Thèse de doct. 2024. url : http://www.theses.fr/2024UPASG111/document.
(Lewis et al., 2021) Patrick Lewis et al. Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks. 2021. arXiv : 2005.11401 [cs.CL]. url : https://arxiv.org/abs/2005.11401.
(Vaswani et al., 2017) Ashish Vaswani et al. Attention Is All You Need. 2017. arXiv : 1706.03762 [cs.CL]. url : https://arxiv.org/abs/1706.03762.
Contexte de travail
LISN, parc de GPU, labIA, Jean-Zay
Le poste se situe dans un secteur relevant de la protection du potentiel scientifique et technique (PPST), et nécessite donc, conformément à la réglementation, que votre arrivée soit autorisée par l'autorité compétente du MESR.
Contraintes et risques
RAS