En poursuivant votre navigation sur ce site, vous acceptez le dépôt de cookies dans votre navigateur. (En savoir plus)

Doctorant/Doctorante - Modélisation automatique de zones d’intérêt dans des corpus oraux pour la recherche en sciences humaines et sociales (H/F)

Cette offre est disponible dans les langues suivantes :
- Français-- Anglais

Date Limite Candidature : lundi 9 juin 2025 23:59:00 heure de Paris

Assurez-vous que votre profil candidat soit correctement renseigné avant de postuler

Informations générales

Intitulé de l'offre : Doctorant/Doctorante - Modélisation automatique de zones d’intérêt dans des corpus oraux pour la recherche en sciences humaines et sociales (H/F)
Référence : UMR9015-IOAVAS-014
Nombre de Postes : 1
Lieu de travail : GIF SUR YVETTE
Date de publication : lundi 19 mai 2025
Type de contrat : CDD Doctorant
Durée du contrat : 36 mois
Date de début de la thèse : 1 octobre 2025
Quotité de travail : Complet
Rémunération : La rémunération est d'un minimum de 2200,00 € mensuel
Section(s) CN : 01 - Interactions, particules, noyaux du laboratoire au cosmos

Description du sujet de thèse

Le doctorat proposé s’appuie sur les données recueillies dans le volet sociologique du projet ANR VOLI, et a pour objectif de développer une méthodologie d’analyse et de modélisation de données verbales en vue de leur exploitation dans les disciplines SHS investies dans le projet. A terme, il vise la mise en œuvre d’un outil d’aide à la recherche permettant d’identifier automatiquement des zones d’intérêt dans ces données.
La preuve de concept reposera sur un corpus d’entretiens réalisés en espagnol auprès de micro-travailleurs d’Amérique latine, enrichi de métadonnées socio-démographiques issues de questionnaires. Utilisées pour étayer des hypothèses sociologiques, ces corpus oraux seront analysées à travers les outils de la variation linguistique segmentale et supra-segmentale et de la modélisation automatique afin de détecter des segments de discours potentiellement riches d’un point de vue analytique pour les SHS.
L’identification de ces « zones d’intérêt » reposera sur la corrélation entre des indices acoustiques, prosodiques et expressifs (intensité, indices émotionnels etc.), et sera confrontée à plusieurs dimensions, notamment une validation manuelle par les chercheurs en SHS et une comparaison avec d’autres corpus portant sur d’autres métiers et d’autres langues.
L’objectif final est de proposer une approche généralisable et partiellement automatisable pour assister les chercheurs dans l’analyse qualitative de corpus oraux, tout en leur offrant un gain de temps substantiel et une réflexion sur leurs pratiques d’interprétation.

Activités :
Le travail de thèse portera sur les 4 principaux axes suivants :
1- Analyse et modélisation statistique de la variation acoustique et prosodique de l’oral : (1) définition, extraction et modélisation statistique de descripteurs de variation acoustique et prosodique et (2) corrélation avec d’autres niveaux linguistiques (POS)
2- Construction de patrons de variation selon différentes variables (socio-démographiques ou issues de l’exploration qualitative du corpus) et validation statistique (PCA, clustering etc.)
3- Modélisation de l’expressivité : (1) Extraction de mesures acoustiques liées à l’émotion (activation, valence, intensité, etc.) et (2) Analyse de leur pertinence par rapport à des annotations manuelles (étiquetage qualitatif réalisé par des sociologues ou linguistes).
4. Détection automatique des zones dites « expressives » ou « d’intérêt » à l’aide d’algorithmes de classification, de segmentation ou d’apprentissage automatique et implémentation de modèles IA/ML pour automatiser l’identification et la comparaison des zones pertinentes au sein des corpus oraux.


Compétences attendues :
Linguistique et sciences affectives : linguistique de corpus, phonétique expérimentale, analyse segmentale et supra-segmentale de l’oral, modélisation de l’expressivité etc. Les connaissances en sociolinguistique appliquées à la variation de l’oral représentent un plus.
Compétences informatiques :
• Traitement automatique de la parole (Python, Praat, OpenSMILE, etc.) ;
• Modélisation statistique, classification, apprentissage automatique
• Connaissance des outils d’annotation linguistique (par ex. ELAN, Praat etc.).
Qualités personnelles :
• Intérêt pour la recherche interdisciplinaire ;
• Intérêt pour les corpus oraux et les sciences humaines ;
• Capacité à travailler en interaction avec des équipes pluridisciplinaires.

Contexte de travail

Ce sujet de doctorat s’inscrit dans le cadre du projet VOLI (Voices from Online Labour: Inequalities in digital earning activities across countries), financé par l’ANR pour la période 2024–2028, et coordonné au LISN par Ioana Vasilescu. Ce projet interdisciplinaire combine de manière novatrice des hypothèses et des méthodes issues de la sociologie, de la linguistique de corpus à grande échelle, ainsi que des technologies de la parole et de l’intelligence artificielle. En plus de questionner les enjeux économiques et sociaux liés au travail sur plateformes numériques, VOLI s’intéresse aux variations linguistiques dans la langue parlée des travailleurs des plateformes (décrits comme « micro-travailleurs de l’IA »), en enrichissant les corpus avec des métadonnées issues d'enquêtes sociologiques Parallèlement, VOLI contribue au développement de nouveaux outils pour l’analyse de la variation en langue parlée et le traitement automatique de l’oral.

Le poste se situe dans un secteur relevant de la protection du potentiel scientifique et technique (PPST), et nécessite donc, conformément à la réglementation, que votre arrivée soit autorisée par l'autorité compétente du MESR.

Contraintes et risques

Le candidat retenu devra participer activement aux activités du laboratoire LISN et du projet VOLI. Le poste ne comporte pas de risques particuliers.
Pour candidater, veuillez soumettre deux fichiers : (1) un CV détaillé et (2) une lettre de motivation expliquant votre intérêt et vos qualifications pour ce poste.