En poursuivant votre navigation sur ce site, vous acceptez le dépôt de cookies dans votre navigateur. (En savoir plus)

(H/F) offre de thèse "Prédiction automatique de l'intonation à partir des gestes de la parole"

Cette offre est disponible dans les langues suivantes :
- Français-- Anglais

Date Limite Candidature : dimanche 30 juin 2024 00:00:00 heure de Paris

Assurez-vous que votre profil candidat soit correctement renseigné avant de postuler

Informations générales

Intitulé de l'offre : (H/F) offre de thèse "Prédiction automatique de l'intonation à partir des gestes de la parole"
Référence : UMR5216-CHRROM-033
Nombre de Postes : 1
Lieu de travail : ST MARTIN D HERES
Date de publication : vendredi 24 mai 2024
Type de contrat : CDD Doctorant/Contrat doctoral
Durée du contrat : 36 mois
Date de début de la thèse : 1 octobre 2024
Quotité de travail : Temps complet
Rémunération : La rémunération est d'un minimum de 2135,00 € mensuel
Section(s) CN : Sciences de l'information : traitements, systèmes intégrés matériel-logiciel, robots, commandes, images, contenus, interactions, signaux et langues

Description du sujet de thèse

Lors d'interactions orales, la prosodie de la parole, qui comprend l'intonation et le rythme, est un canal de communication spécifique qui véhicule à la fois des informations sur la structuration du discours (par ex., les limites syntaxiques, l'accentuation) et l'expressivité (par ex., attitudes ou émotions). Pourtant, un nombre croissant de pathologies de la parole (par ex., cancer de la gorge ou du cou, etc.) affecte la vibration des plis vocaux et prive les patients de leur contrôle de l'intonation, ce qui a un impact sévère sur leur intelligibilité vocale et leurs interactions sociales. Les solutions de suppléance vocale consistent à reconstruire les parties dégradées d'un signal de parole à partir de sources d'information alternatives. Dans le cas particulier d'une déficience laryngée, un aspect central de la suppléance vocale est la prédiction de l'intonation à partir d'autres canaux de production de la parole. En particulier, une forte corrélation a été observée entre les variations prosodiques (l'intonation, en particulier) et les gestes co-occurrents à la parole tels que les mouvements des lèvres, de la langue, des sourcils, ou de la tête.

De ce constat, nous proposons dans cette thèse de : concevoir un système de prédiction automatique de l'intonation à partir des gestes oro-faciaux qui sera intégré dans un système de reconstruction de la parole en temps réel ; et d'évaluer ce système en interaction face-à-face. En particulier, les trois étapes suivantes seront abordées :
1) Acquisition de données : Nous visons à concevoir plusieurs scénarios d'interaction qui seront utilisés pour entraîner et évaluer le système de prédiction automatique de l'intonation. En particulier, ces scénarios doivent induire la production de phrases dont le sens ne diffère que par leur intonation. Nous enregistrerons un corpus de plusieurs locuteurs en interaction face-à-face, tout en mesurant les mouvements oro-faciaux (par exemple, à l'aide d'une caméra et/ou d'imagerie ultrasons).

2) Prédiction automatique de l'intonation : Le ou la doctorante mettra en œuvre et comparera des méthodes de prédiction automatique de l'intonation à partir de gestes oro-faciaux. Le principal défi est de trouver le bon équilibre entre l'utilisation de méthodes d'apprentissage profond les plus récentes et des architectures adaptées au traitement en ligne. Par exemple, nous pourrons quantifier le contexte de gestes oro-faciaux nécessaire pour une prédiction de l'intonation en comparant diverses architectures temporelles (convolution, auto-attention, auto-régression). Pour faciliter la prédiction de l'intonation, le modèle superpositionnel d'intonation PENTA permet d'aborder la prédiction de chaque fonction de l'intonation (focalisation, délimitation, modalité) indépendamment.
3) Evaluation par une étude comportementale : L'intégration du module de prédiction automatique de l'intonation dans un système de reconstruction de parole en temps-réel permet à l'utilisateur d'obtenir un retour sur la qualité de prédiction de l'intonation par la compréhension du destinataire. Par conséquent, l'utilisateur peut spontanément adapter ses gestes au système, afin d'améliorer la compréhensibilité au cours de l'interaction. La question de l'adaptation de l'utilisateur au système, et de l'adaptation du système à l'utilisateur en affinant ce dernier sur de nouvelles bases de données, sera explorée dans cette dernière partie, sur la base des différents scénarios d'interaction conçus précédemment.
Description complète avec les références bibliographiques : https://www.gipsa-lab.grenoble-inp.fr/~olivier.perrotin/media/others/SilentPitch_PhD.pdf.

Contexte de travail


Le Gipsa-lab est un laboratoire de recherche mixte du CNRS, Grenoble-INP -UGA et de l’Université de Grenoble Alpes. Il est conventionné avec l’Inria et l’Observatoire des Sciences de l'Univers de Grenoble. Il mène des recherches théoriques et appliquées sur l’AUTOMATIQUE, le SIGNAL, les IMAGES, la PAROLE, la COGNITION, la ROBOTIQUE et l’APPRENTISSAGE.
Pluridisciplinaire et à l’interface entre l’humain, les mondes physiques et numériques, nos recherchent se confrontent à des mesures, des données, des observations provenant des systèmes physiques, physiologiques, cognitifs. Elles portent sur la conception de méthodologies et d’algorithmes de traitement et d’extraction de l’information, de décisions, d’actions et de communications viables, performants et compatibles avec la réalité physique et humaine. Nos travaux s’appuient sur des théories mathématiques et informatiques pour le développement de modèles et d’algorithmes, validés par des implémentations matérielles et logicielles.
En s’appuyant sur ses plateformes et ses partenariats, Gipsa-lab garde un lien constant avec des applications dans des domaines très variés : la santé, l’environnement, l’énergie, la géophysique, les systèmes embarqués, la mécatronique, les procédés et systèmes industriels , les télécommunications, les réseaux, les transports et véhicules, la sécurité et la sûreté de fonctionnement, l’interaction homme-machine, l’ingénierie linguistique, la physiologie et la biomécanique…
De part la nature de ses recherches, Gipsa-lab est en relation directe et constante avec le milieu économique et la société.
Son potentiel d’enseignants-chercheurs et chercheurs est investi dans la formation au niveau des universités et écoles d’ingénieurs du site grenoblois (Université Grenoble Alpes).
Gipsa-lab développe ses recherches au travers de 16 équipes ou thèmes organisés en 4 pôles :
• Automatique et Diagnostic (PAD)
• Science des Données (PSD)
• Parole et Cognition (PPC)
• Géométries, Apprentissage, Information et Algorithmes (GAIA).
Le personnel accompagnant la recherche (38 ingénieurs et techniciens) est réparti dans les services communs répartis au sein de 2 pôles :
• Le Pôle Administratif et Financier
• Le Pôle Technique
Gipsa-lab compte environ 150 permanents dont 70 enseignants-chercheurs et 41 chercheurs. Il accueille également des chercheurs invités, des post-doctorants.
Gipsa-lab encadre près de 150 thèses dont environ 50 nouvelles chaque année. Toutes les thèses effectuées au laboratoire sont financées et encadrées par des enseignants-chercheurs et chercheurs dont 50 titulaires d’une HDR.
Enfin, une soixantaine de stagiaires de Master vient chaque printemps grossir les rangs du laboratoire.
Ce doctorat se déroulera au GIPSA-lab, Grenoble, dans les équipe CRISSP et PCMD. Il fait partie du projet ANR SilentPitch qui implique une équipe puri-disciplinaire de chercheurs comprenant l'apprentissage automatique, les sciences de la parole, la cognition et les études comportementales. Si toutes les disciplines sont abordées dans ce sujet, les candidats qui n'ont pas d'expertise dans certains des domaines énumérés ci-dessous sont néanmoins encouragés à soumettre leur candidature.
- Apprentissage automatique et traitement du signal.
- Sciences et technologies de la parole.
- Programmation Python nécessaire pour le développement des systèmes.
- Forte motivation pour l'enregistrement de corpus de données, la méthodologie et l'expérimentation.

Une visite de quelques mois à l'University College London pour travailler avec le Professeur Yi Xu sur le modèle PENTA est prévue pendant le doctorat. Nous visons également une participation à au moins une conférence internationale par an.
Débutant accepté.

Contraintes et risques

Aucun

Informations complémentaires

Débutant accepté.