En poursuivant votre navigation sur ce site, vous acceptez le dépôt de cookies dans votre navigateur. (En savoir plus)

Contrat doctoral sur la modélisation des gestes et de la parole en contexte interactionnel (H/F)

Cette offre est disponible dans les langues suivantes :
Français - Anglais

Date Limite Candidature : lundi 23 août 2021

Assurez-vous que votre profil candidat soit correctement renseigné avant de postuler. Les informations de votre profil complètent celles associées à chaque candidature. Afin d’augmenter votre visibilité sur notre Portail Emploi et ainsi permettre aux recruteurs de consulter votre profil candidat, vous avez la possibilité de déposer votre CV dans notre CVThèque en un clic !

Faites connaître cette offre !

Informations générales

Référence : UMR5267-FABHIR-001
Lieu de travail : MONTPELLIER
Date de publication : lundi 12 juillet 2021
Nom du responsable scientifique : Fabrice Hirsch & Slim Ouni
Type de contrat : CDD Doctorant/Contrat doctoral
Durée du contrat : 36 mois
Date de début de la thèse : 1 octobre 2021
Quotité de travail : Temps complet
Rémunération : 2 135,00 € brut mensuel

Description du sujet de thèse

** Contexte
L'un des principaux objectifs de la recherche en robotique sociale est de concevoir et de développer des robots capables de s'engager dans des environnements sociaux d'une manière qui soit attrayante et familière pour les humains. Cependant, l'interaction est souvent difficile, car les utilisateurs ne comprennent pas les états internes, les intentions, les actions et les attentes du robot. Ainsi, pour faciliter une interaction réussie, les robots sociaux doivent offrir une fonctionnalité de communication à la fois naturelle et intuitive. Étant donné la conception des robots humanoïdes, on s'attend généralement à ce qu'ils affichent des comportements de communication semblables à ceux des humains, en utilisant la parole et les expressions non verbales tout comme les humains. Les gestes aident à transmettre des informations que la parole seule ne peut fournir et qui doivent être complétées, comme des informations référentielles, spatiales ou iconiques [HAB11]. En outre, le fait de proposer plusieurs modalités permet de lever l'ambiguïté typique de la communication unimodale et, par conséquent, d'accroître la robustesse de la communication. Dans la communication multimodale, les gestes peuvent rendre l'interaction avec les robots plus efficaces. En fait, les gestes et la parole interagissent. Ils sont liés dans la production et la perception du langage, et leur interaction contribue à une communication efficace [WMK14]. Dans la communication orale, il a été démontré que les auditeurs humains sont bien attentifs aux informations véhiculées par ces comportements non verbaux pour mieux comprendre le message acoustique [GM99].

Ce sujet peut être abordé dans le domaine de la robotique où quelques approches intègrent à la fois l'analyse et la synthèse de la parole et des gestes [GBK06, SL03], mais aussi dans le domaine du développement d'agents conversationnels virtuels (avatars parlants), où le défi de la génération de la parole et des gestes co-verbaux a déjà été abordé de différentes manières [NBM09, KW04, KBW08].

Pour les agents virtuels, la plupart des systèmes existants simplifient la communication augmentée par le geste en utilisant des lexiques de mots et présentent les comportements non verbaux sous la forme de gestes pré-produits [NBM09]. Pour les robots humanoïdes, les modèles existants de synthèse de gestes se concentrent principalement sur les aspects techniques de la génération de mouvements robotiques qui remplissent une fonction de communication, mais ils ne combinent pas les gestes générés avec la parole ou avec des gestes préenregistrés qui ne sont pas générés en ligne, mais simplement rejoués pendant l'interaction homme-robot.

** Missions
L'objectif de cette thèse est de développer un modèle gestuel pour un comportement crédible de robot communicant pendant la parole. La génération de gestes sera étudiée lorsque le robot est un locuteur et/ou lorsqu'il est un auditeur. Dans le contexte de cette thèse, le robot sera remplacé par un agent virtuel incarné. Cela permet d'appliquer les résultats de ce travail à la fois dans le monde virtuel et dans le monde réel. Il est possible de tester les résultats de ce travail sur un robot réel en transférant le comportement de l'agent virtuel au robot, lorsque cela est possible, mais ce n'est pas une fin en soi.

Dans cette thèse, deux sujets principaux seront abordés : (1) la prédiction de la réalisation et de la synchronisation des gestes liés à la communication à partir de la parole, et (2) la génération des gestes appropriés pendant la synthèse de la parole. Lorsque l'agent virtuel écoute un interlocuteur humain, le mouvement de la tête est un geste de communication important qui peut donner l'impression que l'agent virtuel comprend ce qui lui est dit et qui peut rendre l'interaction avec l'agent plus efficace. L'un des défis consiste à extraire de la parole des indices acoustiques et linguistiques [KA04], afin de caractériser l'énoncé prononcé et de prédire le bon geste à générer (posture de la tête, expressions faciales et regard des yeux [KCD14]). La synchronisation des gestes avec le discours de l'interlocuteur est critique. En effet, toute désynchronisation peut induire une ambiguïté dans la compréhension de la réaction de l'agent virtuel. La synchronisation des gestes avec la parole sera étudiée. Dans ce travail, la génération du geste approprié pendant la synthèse vocale, principalement la posture de la tête, les expressions faciales et le regard, sera abordée.

Pour atteindre ces objectifs, les données de capture de mouvement pendant le discours prononcé seront acquises de manière synchrone avec le signal acoustique. Différents contextes seront envisagés pour parvenir à la collecte de données suffisamment riches. Nous nous basons sur les travaux de recherche sur la gestualité, tel qu'elle est étudiée dans le domaine des sciences du langage. Ces données seront utilisées pour identifier des caractéristiques appropriées à intégrer dans le cadre de techniques d'apprentissage automatique. Comme les données sont multimodales (acoustiques, visuelles, gestuelles), chaque composante sera utilisée efficacement pour collecter des données complémentaires. Le signal vocal sera utilisé dans le cadre d'un système de reconnaissance vocale pour extraire les informations linguistiques, et les caractéristiques acoustiques permettront d'extraire des informations non linguistiques, comme le F0 par exemple. La corrélation entre les gestes et le signal vocal sera également étudiée. Le but de ces différentes analyses est de contribuer à la compréhension du mécanisme de la communication orale combinée avec des gestes et de développer un modèle qui puisse prédire la génération de gestes dans les contextes de la parole et de l'écoute.


** Bibliographie
• [GBK06] Gorostiza J, Barber R, Khamis A, Malfaz M, Pacheco R, Rivas R, Corrales A, Delgado E, Salichs M (2006) Multimodal human-robot interaction framework for a personal robot. In: RO-MAN 06: Proc of the 15th IEEE international symposium on robot and human interactive communication
• [GM99] Goldin-Meadow S (1999) The role of gesture in communication and thinking. Trends Cogn Sci 3:419–429
• [HAB11] Hostetter AB (2011) When do gestures communicate? A meta- analysis. Psychol Bull 137(2):297–315
• [NBM09] Niewiadomski R, Bevacqua E, Mancini M, Pelachaud C (2009) Greta: an interactive expressive ECA system. In: Proceedings of 8th int conf on autonomous agents and multiagent systems (AA- MAS2009), pp 1399–1400

Contexte de travail

Le projet GEPACI (Gestes et parole en contexte opérationnel) est un programme de recherche financé par la MITI et porté conjointement par les UMR 5267 Praxiling (Montpellier) et UMR 7503 LORIA (Nancy).
L'UMR Praxiling est un laboratoire de recherche spécialisé en analyse de discours et en phonétique. Il est sous la double tutelle du CNRS et de l'Université Paul Valéry. Les 49 membres de l'Unité travaillent sur trois thèmes : (1) discours, langue ; (2) Parole, interactions, santé ; (3) Nouveaux discours et veille sociétale. Le projet GEPACI fait partie du thème 2 de l'Unité.
L'UMR LORIA est un laboratoire de recherches en mathématiques et STIC, constitué de 29 équipes structurées en 5 départements, dont 15 sont communes avec l'Inria. Le LORIA compte 400 personnes, ce qui en fait l'un des plus grands laboratoires de la région lorraine.
Le/la doctorant(e) retenu(e) sera sous la responsabilité de ces deux Unités de recherche.

Contraintes et risques

Contraintes :
Master en informatique (avec une spécialisation en intelligence artificielle et/ou interaction est un plus).
Expérience en apprentissage profond
Bonnes compétences en programmation (de préférence en Python)
Expérience en technique de capture de mouvement est un plus

Informations complémentaires

Financement PRIME80 MITI.

On en parle sur Twitter !