En poursuivant votre navigation sur ce site, vous acceptez le dépôt de cookies dans votre navigateur. (En savoir plus)
Portail > Offres > Offre UMR7503-NATBUS-014 - Ingénieur (H/F) Reconnaissance automatique de la parole de locuteurs non natifs dans un environnement bruyant

Ingénieur (H/F) Reconnaissance automatique de la parole de locuteurs non natifs dans un environnement bruyant

Cette offre est disponible dans les langues suivantes :
- Français-- Anglais

Date Limite Candidature : lundi 12 juin 2023

Assurez-vous que votre profil candidat soit correctement renseigné avant de postuler. Les informations de votre profil complètent celles associées à chaque candidature. Afin d’augmenter votre visibilité sur notre Portail Emploi et ainsi permettre aux recruteurs de consulter votre profil candidat, vous avez la possibilité de déposer votre CV dans notre CVThèque en un clic !

Informations générales

Intitulé de l'offre : Ingénieur (H/F) Reconnaissance automatique de la parole de locuteurs non natifs dans un environnement bruyant
Référence : UMR7503-NATBUS-014
Nombre de Postes : 1
Lieu de travail : VANDOEUVRE LES NANCY
Date de publication : lundi 22 mai 2023
Type de contrat : CDD Technique/Administratif
Durée du contrat : 12 mois
Date d'embauche prévue : 1 juillet 2023
Quotité de travail : Temps complet
Rémunération : environ 2600€ brut par mois "ajustable selon le niveau d'expérience"
Niveau d'études souhaité : Niveau 6 - (Bac+3 ou 4)
Expérience souhaitée : Indifférent
BAP : Informatique, Statistiques et Calcul scientifique
Emploi type : Ingénieur-e en calcul scientifique

Missions

Contexte
Lorsqu'une personne a les mains occupées à effectuer une tâche comme conduire une voiture ou piloter un avion, la voix est un moyen rapide et efficace d'établir une interaction. Dans les communications aéronautiques, la langue anglaise est le plus souvent obligatoire. Malheureusement, une grande partie des pilotes ne sont pas anglophones et parlent avec un accent dépendant de leur langue maternelle et sont donc influencés par les mécanismes de prononciation de cette langue. Dans un cockpit d'avion, les prononciations non natives et les bruits environnants sont des défis difficiles à surmonter afin d'avoir une reconnaissance automatique de la parole (RAP) efficace. Les problèmes de la parole non native sont nombreux : prononciations incorrectes ou approximatives, erreurs d'accord en genre et en nombre, utilisation de mots inexistants, articles manquants, phrases grammaticalement incorrectes, etc. L'environnement acoustique ajoute une composante perturbatrice au signal de parole. Une grande partie du succès de la reconnaissance vocale repose sur la capacité à prendre en compte différents accents et bruits ambiants dans les modèles utilisés par la RAP.
La reconnaissance automatique de la parole a fait de grands progrès grâce au développement spectaculaire du deep learning. Ces dernières années, la reconnaissance vocale automatique de bout en bout, qui optimise directement la probabilité de la séquence de caractères de sortie en fonction des caractéristiques acoustiques d'entrée, a fait de grands progrès [Chan et al., 2016 ; Baevski et al., 2020 ; Gulati, et al., 2020].

Activités

Objectifs
La personne recrutée devra développer des méthodologies et des outils afin d'obtenir une reconnaissance automatique de la parole non native performante dans le contexte aéronautique et plus spécifiquement dans un cockpit d'avion (bruyant).
Ce projet sera fondé sur un système de reconnaissance vocale automatique de bout en bout [Shi et al., 2021] utilisant wav2vec 2.0 [Baevski et al., 2020]. Ce modèle est l'un des plus performants de l'état de l'art actuel. Ce modèle wav2vec 2.0 permet un apprentissage auto-supervisé des représentations à partir de données audio brutes (sans transcription).

Réferences
[Baevski et al., 2020] A. Baevski, H. Zhou, A. Mohamed, and M. Auli. Wav2vec 2.0: A framework for self-supervised learning of speech representations, 34th Conference on Neural Information Processing Systems (NeurIPS 2020), 2020.
[Chan et al., 2016] W. Chan, N. Jaitly, Q. Le and O. Vinyals. Listen, attend and spell: A neural network for large vocabulary conversational speech recognition. IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), 2016, pp. 4960-4964, 2016.
[Chorowski et al., 2017] J. Chorowski, N. Jaitly. Towards better decoding and language model integration in sequence to sequence models. Interspeech, 2017.
[Houlsby et al., 2019] N. Houlsby, A. Giurgiu, S. Jastrzebski, B. Morrone, Q. De Laroussilhe, A. Gesmundo, M. Attariyan, S. Gelly. Parameter-efficient transfer learning for NLP. International Conference on Machine Learning, PMLR, pp. 2790–2799, 2019.
[Gulati et al., 2020] A. Gulati, J. Qin, C.-C. Chiu, N. Parmar, Y. Zhang, J. Yu, W. Han, S. Wang, Z. Zhang, Y. Wu, and R. Pang. Conformer: Convolution-augmented transformer for speech recognition. Interspeech, 2020.
[Shi et al., 2021] X. Shi, F. Yu, Y. Lu, Y. Liang, Q. Feng, D. Wang, Y. Qian, and L. Xie. The accented english speech recognition challenge 2020: open datasets, tracks, baselines, results and methods. IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), pp. 6918–6922, 2021.

Compétences

compétences:
- master en traitement de la parole / audio, vision par ordinateur, apprentissage automatique ou dans un domaine connexe,
- capacité à travailler aussi bien en autonomie qu'en équipe,
- solides compétences en programmation (Python, PyTorch) et connaissances approfondies en apprentissage,
- anglais écrit et parlé

Contexte de travail

Equipe Multispeech du laboratoire Loria-CNRS à Nancy