En poursuivant votre navigation sur ce site, vous acceptez le dépôt de cookies dans votre navigateur. (En savoir plus)

Doctorat en Informatique (H/F) / Estimation de la force de voix

Cette offre est disponible dans les langues suivantes :
- Français-- Anglais

Date Limite Candidature : samedi 21 septembre 2024 23:59:00 heure de Paris

Assurez-vous que votre profil candidat soit correctement renseigné avant de postuler

Informations générales

Intitulé de l'offre : Doctorat en Informatique (H/F) / Estimation de la force de voix
Référence : UMR9015-ALBRIL-002
Nombre de Postes : 1
Lieu de travail : GIF SUR YVETTE
Date de publication : samedi 31 août 2024
Type de contrat : CDD Doctorant/Contrat doctoral
Durée du contrat : 36 mois
Date de début de la thèse : 1 novembre 2024
Quotité de travail : Temps complet
Rémunération : La rémunération est d'un minimum de 2135,00 € mensuel
Section(s) CN : Sciences de l'information : traitements, systèmes intégrés matériel-logiciel, robots, commandes, images, contenus, interactions, signaux et langues

Description du sujet de thèse

Étude d'un modèle de la Force de Voix.
Le projet ANR “VERS” (Vocal Effort: from Recognition to Synthesis), vise le développement d’outils à même d’estimer la force (ou intensité) originale d’une voix enregistrée, pour l’appliquer à des extraits d’archives de télévision et de radio. Cette Force de Voix originale (FdV) constitue une information cruciale pour la compréhension des caractéristiques acoustiques et articulatoires d’une production parlée (Liénard, 2019). Il s’agit d’un facteur qui régit de nombreux aspects de l’articulation de la parole : de sa source (avec une influence importante sur la fréquence fondamentale) aux résonances du conduit vocal (dont les valeurs sont adaptées à différents niveaux d’effort). Cette information de FdV est perdue lors des enregistrements, en particulier ceux effectués pour les médias audiovisuels. Elle reste toutefois perceptible à l’oreille et on sait qu’il est possible de l’estimer en utilisant des caractéristiques spectrales à long terme de la parole (Liénard, 2019; Alku et al., 2024). La possibilité d’effectuer de meilleures estimations de VS (plus fines et plus robustes à différentes sources de distorsion) permettrait d’approfondir l’analyse des postures sociales et affectives des locuteurs. Cela permettra notamment de mieux décrire la dimension psychologique d’activation-arousal qui explique la plus grande part des variations acoustiques observées dans les performances de parole émotionnelle (Goudbeek and Scherer, 2010). Connaître la FdV originale aiderait également à guider d’autres analyses plus fines liées aux performances orales publiques, destinées à des travaux dans le domaine des sciences politiques et pour la description de phénomènes liés aux discours de haine notamment. Le projet de recherche est divisé en quatre parties principales, (i) avec une implication importante dans la construction d’un corpus de données audio calibrées qui servira de référence, et comprendra des lectures guidées, ainsi que des lectures de contes, dans une chambre anéchoïque ; (ii) le développement de modèles de ML pour la prédiction à long et court terme, qui devront être appliqués à différents signaux de parole non calibrés ; (iii) la modification d’enregistrements de parole pour changer la FdV perçue ; et (iv) un travail visant à relier les caractéristiques acoustiques utilisées par les modèles de ML avec la dimension psychologique d’activation-arousal pour la parole affective. Ce projet se déroulera sur une période de trois ans, dans le cadre du projet VERS, et via des collaborations nationales et internationales.

Voir le sujet complet ici:
https://adum.fr/as/ed/voirproposition.pl?matricule_prop=58770#version

Contexte de travail

La thèse s’inscrit dans le cadre du projet ANR « VERS » (pour Effort Vocal : de l'Estimation à la Synthèse), projet qui vise une série de développements autour de la description, de l’estimation et de la modification des caractéristiques de l’effort vocal. Dans ce projet, ces modèles seront utilisés pour aider des chercheurs travaillant sur les médias audiovisuels à recueillir des informations à grande échelle et à affiner leurs analyses, principalement – mais pas exclusivement – dans le domaine des sciences politiques. Le projet de recherche comprendra une collaboration avec un chercheur de l’Institut National de l’Audiovisuel (INA) qui archive les émissions de télévision et de radio diffusées en France.

Le LISN (Laboratoire Interdisciplinaire des Sciences du Numérique) est un laboratoire multidisciplinaire doté d’un département spécialisé en Traitement Automatique des Langues. Au sein de ce département, les équipes M3 (Modèles, Méthodes et Multilinguisme) et LIPS (Langue, Interaction, Parole & Signe) se concentrent plus particulièrement sur la parole et son traitement acoustique, au travers du développement de logiciels dédiés à plusieurs facettes des langues.

Le doctorat sera financé par le projet ANR VERS, qui dure jusqu'en 2027. Le candidat travaillera au LISN - un laboratoire situé sur le campus principal de l'Université Paris Saclay à Orsay (30 km au sud de Paris). Le laboratoire met à disposition un bureau avec les outils de bureautique et des ressources bibliographiques nécessaires, ainsi qu’un accès à de puissantes ressources de calcul. Le laboratoire propose également des formations complémentaires sur divers sujets, et la région parisienne regorge d'opportunités de conférences et de congrès.

Le doctorat est co-encadré à 50% par deux chercheurs de l'Université Paris Saclay, LISN.


Le poste se situe dans un secteur relevant de la protection du potentiel scientifique et technique (PPST), et nécessite donc, conformément à la réglementation, que votre arrivée soit autorisée par l'autorité compétente du MESR.

Contraintes et risques

• Étude des architectures des Machine Learning : modèles neuronaux et auto-supervisés pour le traitement des signaux audio
• Création et Augmentation de corpus par l'application de dégradations acoustiques
• Construction d'un modèle de restauration de la force vocale à partir de signaux dégradés (par exemple, compression, réverbération, bruit)
• Présentation d'une évaluation objective des performances du modèle, ainsi qu'une évaluation subjective via des évaluations perceptives
• Étude de l'interprétation-explication des modèles
• Construction d'un modèle de modification de la voix pour permettre le contrôle du VS
• Rapport des résultats dans des conférences et revues internationales à comité de lecture

Informations complémentaires

La recherche doctorale s'inscrit dans le cadre du projet ANR français « VERS » (pour Effort Vocal : de l’Estimation à la Synthèse).