En poursuivant votre navigation sur ce site, vous acceptez le dépôt de cookies dans votre navigateur. (En savoir plus)

Thèse: Synthèse vocale audiovisuelle expressive pour un agent conversationnel incarné H/F

Cette offre est disponible dans les langues suivantes :
Français - Anglais

Assurez-vous que votre profil candidat soit correctement renseigné avant de postuler. Les informations de votre profil complètent celles associées à chaque candidature. Afin d’augmenter votre visibilité sur notre Portail Emploi et ainsi permettre aux recruteurs de consulter votre profil candidat, vous avez la possibilité de déposer votre CV dans notre CVThèque en un clic !

Faites connaître cette offre !

Informations générales

Référence : UMR5216-ALLBEL-020
Lieu de travail : ST MARTIN D HERES
Date de publication : lundi 27 avril 2020
Nom du responsable scientifique : Gérard BAILLY
Type de contrat : CDD Doctorant/Contrat doctoral
Durée du contrat : 36 mois
Date de début de la thèse : 1 octobre 2020
Quotité de travail : Temps complet
Rémunération : 2 135,00 € brut mensuel

Description du sujet de thèse

Ce doctorat s'inscrit dans le projet THERADIA, visant à concevoir un agent conversationnel pour assister des thérapies digitales. La bourse implique une collaboration avec des partenaires industriels (SBT, ATOS, Pertimm) et académiques (EMC, LIG). L'agent, incarné par un avatar virtuel, gérera l'interaction entre les patients, les thérapeutes et les aidants. GIPSA-lab est responsable du développement de l'avatar et de son comportement verbal et co-verbal - interactif, expressif et adaptatif. Un jeu de comportements interactifs, expressifs et adaptatifs est en cours de collecte à l'aide d'expériences de magicien d'Oz où un pilote humain interagit avec les patients, les thérapeutes et les soignants en pilotant l'avatar virtuel, afin de fournir des données multimodales contextuelles qui serviront à construire un modèle d'avatar autonome par apprentissage automatique.
De nombreuses architectures d'apprentissage profond pour la synthèse de parole de "bout en bout" (end-to-end) ont déjà été proposées. De tels systèmes sont généralement entrainés en utilisant des dizaines d'heures de texte brut aligné avec les signaux vocaux correspondants, à partir de livres audio lus à haute voix par des donneurs de voix. La qualité de la parole en sortie est assez impressionnante mais de tels systèmes manquent de plusieurs propriétés requises par THERADIA: multimodalité, adaptabilité et expressivité contrôlée.
Pour développer un agent autonome constitué d'un visage et d'une voix, contrôlés par une entrée textuelle enrichie d'éléments de contexte, le projet s'attaquera au problème de la construction de modèles génératifs adaptatifs et expressifs multimodaux de bout en bout en utilisant deux approches:
• A: Transfert d'apprentissage et entrainement multitâches - L'objectif principal du travail sera de concevoir des modèles qui acceptent des données de sortie hétérogènes (audio, visuelles, phonétiques) à différentes échelles temporelles. Le défi ici est de combiner des données provenant de différentes sources (livres audio, Wizard of Oz, transcriptions) et de factoriser les différentes sources de variation observées dans ces données (locuteurs, styles, etc.)
• B: Styles vocaux - En complément de l'approche A, nous étudierons les moyens d'augmenter l'entrée textuelle avec des indices supplémentaires capturant les différentes sources de variation, soit explicitement par des étiquettes paralinguistiques ou l'identité de l'interlocuteur) ou implicitement par des "plongements" (embeddings) de style latents (par exemple "style tokens" de Google) ou indices perceptifs (comportement verbal et co-verbal de l'interlocuteur). Le défi est ici d'assurer la contrôlabilité et l'interprétabilité de ces entrées supplémentaires.

Contexte de travail

Cette bourse de doctorat est soutenue par THERADIA et offre un financement pendant 3 ans, plus un soutien pour les déplacements, l'infrastructure de calcul et les coûts expérimentaux. Plusieurs doctorants travaillent dans le domaine de la synthèse vocale au sein de l'équipe GIPSA-lab / CRISSP. Ce travail s'inscrit également dans le cadre de la chaire «Systèmes Intelligents Collaboratifs» de l'institut d'IA de Grenoble. Le travail de thèse sera co-supervisé par une personne du laboratoire qui possède une solide expérience en traitement de la parole et en synthèse expressive. Le lauréat travaillera ainsi dans un écosystème riche.

Contraintes et risques

Parce que nous traitons des données de parole en français et travaillons dans un environnement multilingue, une bonne connaissance du français et de l'anglais est requise.
Ce travail fait partie d'un ensemble de lots de travail du projet THERADIA et fera l'objet de rapports intermédiaires.
Une premier système de synthèse vocale de "bout-en-bout" pour le français est déjà disponible et constitue une base solide pour le défi de l'apprentissage par transfert. Les risques sont limités et les solutions de secours sont faciles à mettre en œuvre.

On en parle sur Twitter !