Informations générales
Intitulé de l'offre : Contrat doctoral: analyse syntaxique automatique de la parole H/F/NB
Référence : UMR5217-MAXCOA-002
Nombre de Postes : 1
Lieu de travail : ST MARTIN D HERES
Date de publication : mardi 9 avril 2024
Type de contrat : CDD Doctorant/Contrat doctoral
Durée du contrat : 36 mois
Date de début de la thèse : 1 septembre 2024
Quotité de travail : Temps complet
Rémunération : La rémunération est d'un minimum de 2135,00 € mensuel
Section(s) CN : Sciences de l'information : traitements, systèmes intégrés matériel-logiciel, robots, commandes, images, contenus, interactions, signaux et langues
Description du sujet de thèse
Le projet ANR SynPaX (Analyse syntaxique de la parole spontanée avec apprentissage par transfert transmodal) vise à développer des systèmes d'analyse syntaxiques automatiques pour la parole et de construire des corpus de parole spontanée annotés automatiquement en syntaxe.
La plupart des recherches sur l'analyse syntaxique de la parole se sont concentrées sur l'analyse des transcriptions, et font face à deux limitations : (i) les transcriptions prédites peuvent être très bruyantes, (ii) les transcriptions ne contiennent aucun information prosodique, pourtant cruciale pour inférer la structure syntaxique.
Un premier modèle d'analyse de la parole de bout en bout a été proposé par Pupier et al (2022) et évalué sur le corpus oral français Orféo.
Les principaux problèmes du modèle découlent de: (i) la rareté des données d'entraînement, (ii) la difficulté d'analyser la parole spontanée.
Par conséquent, le projet de thèse s'appuiera sur ce travail pour développer de nouvelles méthodes d'analyse en dépendances de bout en bout de la parole. Les directions de recherche potentielles comprennent:
- l'évaluation multilingue du parseur de Pupier et al 2022
- les méthodes d'augmentation de données (par exemple, l'exploitation de corpus audio sans annotation syntaxique)
- l'étude de l'utilisation de modèles pré-entraînés multimodaux ou de méthodes de fusion de modalités visant à combiner des modèles BERT avec des modèles wav2vec.
- toute direction de recherche proposée par la personne postulante sont les bienvenues (dans le cadre général de l'analyse syntaxique de la parole).
Contexte de travail
La thèse sera menée au sein de l'équipe Getalp (https://lig-getalp.imag.fr/), au Laboratoire d'informatique de Grenoble (LIG). La thèse sera encadrée par Maximin Coavoux et Benjamin Lecouteux
Le poste se situe dans un secteur relevant de la protection du potentiel scientifique et technique (PPST), et nécessite donc, conformément à la réglementation, que votre arrivée soit autorisée par l'autorité compétente du MESR.
Contraintes et risques
pas de risques particuliers.
Profil:
- Master en informatique / TALN / linguistique computationnelle
- Expérience dans le TALN et/ou traitement de la parole
- Python (transformers, pytorch)
- Anglais courant