En poursuivant votre navigation sur ce site, vous acceptez le dépôt de cookies dans votre navigateur. (En savoir plus)

Contrat doctoral: analyse syntaxique automatique de la parole H/F/NB

Cette offre est disponible dans les langues suivantes :
- Français-- Anglais

Date Limite Candidature : mardi 30 avril 2024

Assurez-vous que votre profil candidat soit correctement renseigné avant de postuler

Informations générales

Intitulé de l'offre : Contrat doctoral: analyse syntaxique automatique de la parole H/F/NB
Référence : UMR5217-MAXCOA-002
Nombre de Postes : 1
Lieu de travail : ST MARTIN D HERES
Date de publication : mardi 9 avril 2024
Type de contrat : CDD Doctorant/Contrat doctoral
Durée du contrat : 36 mois
Date de début de la thèse : 1 septembre 2024
Quotité de travail : Temps complet
Rémunération : La rémunération est d'un minimum de 2135,00 € mensuel
Section(s) CN : Sciences de l'information : traitements, systèmes intégrés matériel-logiciel, robots, commandes, images, contenus, interactions, signaux et langues

Description du sujet de thèse

Le projet ANR SynPaX (Analyse syntaxique de la parole spontanée avec apprentissage par transfert transmodal) vise à développer des systèmes d'analyse syntaxiques automatiques pour la parole et de construire des corpus de parole spontanée annotés automatiquement en syntaxe.
La plupart des recherches sur l'analyse syntaxique de la parole se sont concentrées sur l'analyse des transcriptions, et font face à deux limitations : (i) les transcriptions prédites peuvent être très bruyantes, (ii) les transcriptions ne contiennent aucun information prosodique, pourtant cruciale pour inférer la structure syntaxique.

Un premier modèle d'analyse de la parole de bout en bout a été proposé par Pupier et al (2022) et évalué sur le corpus oral français Orféo.
Les principaux problèmes du modèle découlent de: (i) la rareté des données d'entraînement, (ii) la difficulté d'analyser la parole spontanée.
Par conséquent, le projet de thèse s'appuiera sur ce travail pour développer de nouvelles méthodes d'analyse en dépendances de bout en bout de la parole. Les directions de recherche potentielles comprennent:

- l'évaluation multilingue du parseur de Pupier et al 2022
- les méthodes d'augmentation de données (par exemple, l'exploitation de corpus audio sans annotation syntaxique)
- l'étude de l'utilisation de modèles pré-entraînés multimodaux ou de méthodes de fusion de modalités visant à combiner des modèles BERT avec des modèles wav2vec.
- toute direction de recherche proposée par la personne postulante sont les bienvenues (dans le cadre général de l'analyse syntaxique de la parole).

Contexte de travail

La thèse sera menée au sein de l'équipe Getalp (https://lig-getalp.imag.fr/), au Laboratoire d'informatique de Grenoble (LIG). La thèse sera encadrée par Maximin Coavoux et Benjamin Lecouteux

Le poste se situe dans un secteur relevant de la protection du potentiel scientifique et technique (PPST), et nécessite donc, conformément à la réglementation, que votre arrivée soit autorisée par l'autorité compétente du MESR.

Contraintes et risques

pas de risques particuliers.

Profil:
- Master en informatique / TALN / linguistique computationnelle
- Expérience dans le TALN et/ou traitement de la parole
- Python (transformers, pytorch)
- Anglais courant