En poursuivant votre navigation sur ce site, vous acceptez le dépôt de cookies dans votre navigateur. (En savoir plus)

Contrat doctoral sur la coordination entre gestes articulatoires et contrôle des plis vocaux pour la synthèse articulatoire de la parole (H/F)

Cette offre est disponible dans les langues suivantes :
Français - Anglais

Date Limite Candidature : mardi 6 juillet 2021

Assurez-vous que votre profil candidat soit correctement renseigné avant de postuler. Les informations de votre profil complètent celles associées à chaque candidature. Afin d’augmenter votre visibilité sur notre Portail Emploi et ainsi permettre aux recruteurs de consulter votre profil candidat, vous avez la possibilité de déposer votre CV dans notre CVThèque en un clic !

Faites connaître cette offre !

Informations générales

Référence : UMR7503-YVELAP-001
Lieu de travail : VANDOEUVRE LES NANCY
Date de publication : mardi 25 mai 2021
Nom du responsable scientifique : Yves Laprie
Type de contrat : CDD Doctorant/Contrat doctoral
Durée du contrat : 36 mois
Date de début de la thèse : 1 octobre 2021
Quotité de travail : Temps complet
Rémunération : 2 135,00 € brut mensuel

Description du sujet de thèse

Contexte
------------

Pour produire de la parole il faut une source de signal – la vibration des plis vocaux ou un bruit de turbulence dans le conduit vocal – et un système de cavités résonnantes – le conduit vocal. Les articulateurs de la parole que sont la mâchoire, la langue, les lèvres, le larynx, le voile du palais et l'épiglotte servent à modifier la forme du conduit vocal, et donc ses propriétés acoustiques dont les résonances.
La synthèse articulatoire imite ce processus en générant d'abord la forme du conduit vocal à partir d'une séquence de phonèmes à prononcer, puis le signal acoustique en résolvant les équations de l'aéro-acoustique [2, 3]. Par rapport à d'autres approches de la synthèse de la parole qui offrent un niveau de qualité très élevé, l'intérêt est avant tout de contrôler l'ensemble du processus de production, au-delà du seul signal acoustique. Il devient possible d'expliquer l'origine articulatoire des contrastes phonétiques, de jouer sur le mouvement des articulateurs (voire d'en bloquer certains), de modifier les paramètres de contrôle des plis vocaux, de s'adapter à un nouveau locuteur en modifiant la taille et la forme des articulateurs, et enfin d'accéder à des grandeurs physiques (par exemple la pression en un point quelconque du conduit vocal) sans devoir introduire de capteurs.
Nous avons développé une approche de la synthèse articulatoire qui génère la forme du conduit vocal à l'aide d'un modèle articulatoire et utilise ensuite notre simulation aéro-acoustique pour synthétiser le signal de parole.
Il reste que la qualité du signal acoustique dépend de la proximité entre la forme géométrique du conduit vocal artificiel et celle réalisée par un locuteur humain d'une part, et de la coordination entre les paramètres de la source et ceux de la forme du conduit vocal d'autre part. Jusqu'à présent nous avons utilisé une approche empirique qui demande des ajustements manuels et qui n'est pas optimale.
Le but de cette thèse est d'optimiser le contrôle de la forme géométrique à chaque instant de la synthèse et de développer une stratégie de coordination optimale entre la source et le conduit vocal.

Description du travail
----------------------------
Deux flux de données alimentent les simulations numériques de l'aéro-acoustique dans le conduit vocal.
Le premier flux de données concerne la source qui excite le conduit vocal. Il s'agit de l'ouverture à la glotte qui détermine le mode de voisement et la fréquence de vibration des plis vocaux d'une part, et d'autre part conditionne l'existence d'une éventuelle source de bruit due à un resserrement fort à l'intérieur du conduit vocal, par exemple entre les dents et la pointe de la langue pour le son /s/.
Le deuxième est l'évolution temporelle de la géométrie du conduit vocal. Comme la forme tridimensionnelle est difficile à atteindre elle est approchée à l'aide de la géométrie du conduit vocal dans le plan médio-sagittal qui correspond à la donnée du contour des différents articulateurs. Ces contours peuvent être prédits à partir des phonèmes à articuler ou extraits des images IRM. Les incertitudes sont dues à l'acquisition des données IRM qui n'est pas instantanée puisqu'une « image » nécessite un temp d'acquisition total de 20 ms et qu'elle correspond en fait à une coupe épaisse (8 mm) avec un effet d'intégration. La perte de la 3ème dimension (dans la direction perpendiculaire au plan médiosagittal) ajoute une incertitude sur les propriétés acoustiques du conduit vocal.
La coordination de ces deux flux de données joue un rôle décisif dans la qualité de la parole produite et fera donc l'objet de la première partie du travail. Nous disposons pour cela de données sur l'ouverture à la glotte obtenues par EPGG (électro-photo-glottographie) au laboratoire LPP à Paris avec lequel nous collaborons dans le cadre de ce projet [1]. Le travail consistera à développer un premier scenario de contrôle de la glotte en fonction de la suite des phonèmes à articuler et ensuite à l'optimiser par apprentissage grâce aux données EPGG et des données d'IRM temps réel qui fournissent la géométrie du conduit vocal.
La deuxième partie du travail concernera l'optimisation de la géométrie du conduit vocal qui influence directement les caractéristiques acoustiques du signal synthétiser aussi bien en termes de qualité que d'intelligibilité. Les données d'IRM temps réel fournissent une image en niveaux de gris dont les contours sont extraits à l'aide de techniques de suivi automatique. Leurs performances se sont considérablement améliorées ces dernières années grâce à l'apprentissage profond et les contours extraits sont en général de très bonne qualité [4]. Il y a malgré tout deux points faibles. Le premier est lié à la technique d'acquisition IRM qui nécessite 20 ms pour acquérir une image correspondant à une coupe épaisse de 8mm ce qui signifie que l'image ne correspond pas exactement à la forme du conduit vocal. Le second point faible est le passage de la coupe médiosagittale au volume qui utilise une transformation simpliste pour récupérer la 3ème direction.
Plusieurs niveaux d'optimisation du plus grossier au plus fin seront étudiés :
• position des articulateurs critiques (par exemple la position de la pointe de la langue par rapport aux dents pour la fricative /s/) pour assurer les propriétés acoustiques essentielles,
• fonction d'aire (aire transverse à la propagation de l'onde dans le conduit vocal),
• cibles acoustiques par modification fine de la fonction d'aire.
Ces différentes optimisations qui utiliseront largement l'apprentissage profond pourront exploiter des connaissances de phonétiques, des images IRM dynamiques dans un plan perpendiculaire au plan médiosagittal et les données images dynamiques IRM complétées par le signal acoustique débruité.
Les pistes explorées jusqu'à présent, notamment sur la prédiction de la fonction d'aire [5], apportent des solutions très insuffisantes.
Ce projet doctoral devrait conduire à des progrès très significatifs en matière de synthèse articulatoire. Le développement de stratégie de contrôle optimal de la synthèse articulatoire sera un succès remarquable au niveau international.

Bibliographie
1. Benjamin Elie, Angelique Amelot, Yves Laprie, Shinji Maeda. Glottal Opening Measurements in VCV and VCCV Sequences. ICA 2019 - 23rd International Congress on Acoustics, Sep 2019, Aachen, Germany. ⟨hal-02180626⟩
2. Benjamin Elie, and Yves Laprie, Extension of the single-matrix formulation of the vocal tract: consideration of bilateral channels and connection of self-oscillating models of the vocal folds with a glottal chink. Speech Comm. 82, pp. 85-96 (2016). https://hal.archives-ouvertes.fr/hal-01199792v3
3. Benjamin Elie, and Yves Laprie. Copy-synthesis of phrase-level utterances. EUSIPCO, Budapest 2016 https://hal.archives-ouvertes.fr/hal-01278462
4. Karyna Isaieva, Yves Laprie, Freddy Odille, Ioannis Douros, Jacques Felblinger, et al.. Measurement of Tongue Tip Velocity from Real-Time MRI and Phase-Contrast Cine-MRI in Consonant Production. Journal of Imaging, MDPI, 2020, 6 (5), pp.31. ⟨10.3390/jimaging6050031⟩. ⟨hal-02923466⟩
5. Richard S. McGowan and Michel T-T. Jackson, Analyses of vocal tract cross-distance to area mapping: An investigation of a set of vowel images, JASA, 131, pp. 424-434 (2012); https://doi.org/10.1121/1.3665988

Contexte de travail

Ce projet rentre dans le cadre d'un projet de l'ANR ; il sera mené conjointement au laboratoire Loria (équipe MultiSpeech dont le thème de recherche est le traitement automatique de la parole) et au laboratoire IADI (INSERM U1254) qui collaborent ensemble depuis plusieurs années sur l'imagerie du conduit vocal et la production de la parole.
Cela permettra en particulier de faire appel au système d'acquisition IRM bidimensionnelle en temps réel (à 50 images par seconde) dont s'est équipé le laboratoire IADI dans le cadre d'une collaboration régionale avec Loria. Ce système, unique en France, permet d'imager le conduit vocal à une fréquence de 50 Hz dans n'importe quelle direction ce qui intéressant pour la récupération de la fonction d'aire.

La thèse sera encadrée par Yves Laprie.

On en parle sur Twitter !