En poursuivant votre navigation sur ce site, vous acceptez le dépôt de cookies dans votre navigateur. (En savoir plus)

Doctorant (H/F) - Communicative acts and interactions modeling

Cette offre est disponible dans les langues suivantes :
- Français-- Anglais

Date Limite Candidature : lundi 31 mars 2025 23:59:00 heure de Paris

Assurez-vous que votre profil candidat soit correctement renseigné avant de postuler

Informations générales

Intitulé de l'offre : Doctorant (H/F) - Communicative acts and interactions modeling
Référence : UMR9015-CAMGUI-001
Nombre de Postes : 1
Lieu de travail : GIF SUR YVETTE
Date de publication : lundi 10 mars 2025
Type de contrat : CDD Doctorant
Durée du contrat : 36 mois
Date de début de la thèse : 1 octobre 2025
Quotité de travail : Complet
Rémunération : 2200,00 €
Section(s) CN : 01 - Interactions, particules, noyaux du laboratoire au cosmos

Description du sujet de thèse

La majorité des interactions humaines se déroulent sous forme de conversations orales. Si ce mode d’interaction semble naturel et facile pour les humains, il demeure un défi pour les modèles de traitement du langage parlé, car la parole conversationnelle soulève plusieurs enjeux majeurs :

L’information non verbale peut être essentielle à la compréhension d’un message. Par exemple, un visage souriant et une voix joyeuse peuvent aider à détecter l’ironie ou l’humour dans un message.
L’ancrage visuel entre les participants est souvent nécessaire dans une conversation pour intégrer la posture et les gestes du corps ainsi que les références au monde environnant. Par exemple, un locuteur peut parler d’un objet posé sur une table et s’y référer en disant cet objet tout en le désignant de la main.
L’ancrage sémantique entre les participants est essentiel pour établir une connaissance partagée et permettre une communication fluide. Cela inclut la connaissance du monde (connaissances générales et de bon sens), la connaissance du domaine et la connaissance du contexte (qui peut évoluer au cours de la conversation). Par exemple, une conversation entre un enfant et un adulte n’aura pas les mêmes caractéristiques qu’un échange entre adultes.
Si les grands modèles de langage (LLMs) ont transformé le domaine du traitement automatique du langage naturel (TALN) en permettant de traiter une large gamme de tâches applicatives grâce à un simple prompt, la gestion des conversations reste un défi. Le traitement des conversations se limite souvent à inclure la transcription brute dans le contexte du prompt. Prendre simplement la transcription d’une conversation comme entrée textuelle d’un modèle génératif pour des tâches en aval, comme le résumé ou la réponse à des questions, peut donner des résultats utiles, mais reste limité : le résumé ne retranscrira que le contenu verbal de la conversation, sans prendre en compte les autres dimensions mentionnées ci-dessus.

Afin de répondre à ces défis, le projet MINERAL ambitionne de générer des transcriptions enrichies sous la forme d’un script conversationnel. Ce script décrira la conversation de manière exhaustive, en intégrant les dimensions linguistiques, paralinguistiques, discursives et pragmatiques sous forme de langage naturel. Une telle représentation est particulièrement précieuse dans les scénarios où la dynamique et la structure des interactions sont primordiales, lorsque les schémas d’échange et le déroulement de la conversation sont aussi informatifs que le contenu verbal lui-même.

Nous soutenons qu’il est nécessaire de prendre en compte les trois défis mentionnés précédemment pour atteindre un niveau de compréhension de la parole conversationnelle suffisant afin de développer des applications pratiques. Nous pensons que la génération de scripts de conversation, qui seraient idéalement autosuffisants pour rejouer la conversation, a une valeur intrinsèque pour l’accessibilité et l’inclusion. De plus, la création d’un script conversationnel complet pourrait impacter un large éventail de tâches applicatives en aval et, d’un autre côté, contribuer à une meilleure compréhension des conversations humaines d’un point de vue scientifique. En effet, dans le domaine des sciences cognitives, ce type de représentation pourrait fournir un matériau riche permettant d’élaborer de nouvelles méthodes quantitatives pour étudier les comportements dans un contexte conversationnel complexe.

L’objectif global du projet MINERAL est d’entraîner un modèle de représentation multimodale des conversations, dédié aux actes communicatifs (c’est-à-dire les plus petites unités de communication, verbales ou non verbales, avec une intention de communication cohérente) et à l’étude des structures communicatives (comment et pourquoi les actes communicatifs sont liés). Ce modèle sera ensuite exploité sur un panel de jeux de données conversationnels issus de divers domaines afin d’évaluer la qualité des scripts générés et leur impact sur des cas d’usage pertinents.

Dans ce contexte, nous proposons un sujet de doctorat portant sur la modélisation des actes communicatifs et des interactions. L’objectif est, dans un premier temps, de proposer une définition unifiée des actes communicatifs et des interactions entre modalités, puis de calculer la représentation de ces actes communicatifs.

Dans un premier temps, le doctorant travaillera sur la production de représentations d’actes communicatifs indépendants à partir de descripteurs multimodaux de bas niveau. Les actes communicatifs (CAs) sont envisagés comme une extension du concept d’acte de dialogue à la communication multimodale, en intégrant les interactions non verbales et en capturant la notion d’intention d’un participant à un moment donné dans la conversation. Le doctorant devra :

Définir formellement le concept d’actes communicatifs dans le cadre du projet ;
* Concevoir des systèmes capables de segmenter et représenter implicitement et explicitement ces actes communicatifs à partir d’entrées brutes et de descripteurs de bas niveau ;
* Évaluer ces représentations à l’aide de méthodes de probing, en s’appuyant sur des jeux de données de référence existants.

Dans la seconde partie de la thèse, l’objectif sera de permettre un traitement global de la conversation, en cohérence avec l’objectif de génération de script conversationnel. Cela implique la détection, la caractérisation et la représentation des relations qui lient les actes communicatifs entre eux. Après avoir défini les relations d’intérêt, le doctorant se concentrera sur leur prédiction et étudiera quelles représentations sont les plus efficaces pour les tâches en aval, dans la perspective de la génération de scripts conversationnels.

Contexte de travail

Le travail se déroulera au Laboratoire Interdisciplinaire des Sciences du Numérique (LISN) sur le site "Belvédère". Le candidat retenu intégrera de l'équipe LIPS (Langue, Interaction, Parole et Signe) du département STL (Sciences et Technologies du Langage). Cette équipe, composée de chercheurs et enseignants-chercheurs en linguistique et traitement automatique des langues, conduit des recherches pluridisciplinaires sur les langues orales, parlées et signées, dans un contexte multimodal. Elle coopère largement avec les autres équipes du département STL, ainsi qu'avec d'autres départements du laboratoire.

Le poste se situe dans un secteur relevant de la protection du potentiel scientifique et technique (PPST), et nécessite donc, conformément à la réglementation, que votre arrivée soit autorisée par l'autorité compétente du MESR.

Le poste se situe dans un secteur relevant de la protection du potentiel scientifique et technique (PPST), et nécessite donc, conformément à la réglementation, que votre arrivée soit autorisée par l'autorité compétente du MESR.

Contraintes et risques

Risques liés au travail sur écran.