En poursuivant votre navigation sur ce site, vous acceptez le dépôt de cookies dans votre navigateur. (En savoir plus)

Thèse en traitement automatique des langues: Détection d'anomalies dans les textes par analyse statistique des distibutions lexicales (H/F)

Cette offre est disponible dans les langues suivantes :
Français - Anglais

Date Limite Candidature : jeudi 14 juillet 2022

Assurez-vous que votre profil candidat soit correctement renseigné avant de postuler. Les informations de votre profil complètent celles associées à chaque candidature. Afin d’augmenter votre visibilité sur notre Portail Emploi et ainsi permettre aux recruteurs de consulter votre profil candidat, vous avez la possibilité de déposer votre CV dans notre CVThèque en un clic !

Informations générales

Référence : UMR9015-FRAYVO-009
Lieu de travail : ST AUBIN
Date de publication : jeudi 23 juin 2022
Nom du responsable scientifique : François Yvon / Pablo Piantanida
Type de contrat : CDD Doctorant/Contrat doctoral
Durée du contrat : 36 mois
Date de début de la thèse : 1 octobre 2022
Quotité de travail : Temps complet
Rémunération : 2 135,00 € brut mensuel

Description du sujet de thèse

Les textes falsifiés, la désinformation et les mécanismes d'enfermement dans des bulles informationnelles apparaissent des problèmes de plus en plus critiques posés par l'algorithmisation de notre accès à l'information numérique. Des algorithmes de traitement automatique des langues médiatisent notre accès aux informations, en les triant, les classant, les filtrant selon des procédures opaques, avec pour objectif de susciter des réactions émotionnelles et conforter nos opinions. Sur les plateformes de médias sociaux, ces méthodes sont utilisées par des États, des entreprises et des particuliers malveillants pour produire des informations erronées, amplifier les doutes sur des données factuelles ou ternir la réputation de leurs concurrents ou adversaires, renforçant ainsi leurs propres positions stratégiques ou économiques. Ces pratiques de désinformation généralisées peuvent être le résultat de différents facteurs et incitations; cependant, toutes posent le même problème fondamental à l'humanité en brouillant la compréhension de ce qui est vrai et de ce qui est faux.

L'utilisation de modèles d'apprentissage profond, comme le modèle GPT-3 de OpenAI, pour la génération de textes à grande échelle, s'est généralisée ces dernières années. Avec ces méthodes, la génération du texte est effectuée par le biais d'une procédure autorégressive qui échantillonne des suites de mots à partir d'une distribution apprise pour imiter la "vraie" distribution de textes naturels. Ces modèles s'avèrent très supérieurs aux méthodes de génération traditionnelles, et ont démontré leur capacité à produire des textes cohérents et pertinents, parfois difficiles à distinguer de productions humaines. Employées de manière malveillante ou criminelle, elles sont donc susceptibles de constituer des armes de désinformation massive.

Pour lutter contre ces phénomènes, la première étape est le repérage des contenus les plus problèmatiques; nous nous focalisons dans cette thèse sur les contenus générés automatiquement. La détection de textes artificiels peut être considérée comme un cas particulier de la détection d'anomalies, définie au sens large comme la tâche consistant à identifier des exemples qui s'écartent des exemples habituels à un degré tel qu'ils éveillent les soupçons. Les recherches actuelles en matière de détection d'anomalies se concentrent en grande partie sur les classificateurs profonds (par exemple, la détection de points abberants, les attaques adverses) ou s'appuient sur la sortie de grands modèles de langue (LM) lorsque les étiquettes ne sont pas disponibles. Bien que ces axes de recherche soient attrayants, les faire passer à l'échelle exige une très grande quantité de calculs. En outre, ces méthodes reposent sur les hypothèses fondamentales suivantes : (1) les informations statistiques nécessaires à l'identification des anomalies sont disponibles dans le modèle entraîné, (2) l'incertitude du modèle est fiable, ce qui n'est généralement pas le cas, comme l'illustre la présence d'un petit changement dans la distribution des données d'entrée. Les approches basées sur les LMs ne sont pas performantes lorsqu'elles sont utilisées sur des grands fragments de texte, comme cela peut être nécessaire dans des applications pratiques (par exemple, la génération de longs documents, d'histoires ou de nouvelles), en raison du contexte de longueur fixe utilisé lors de l'entraînement du modèle de langue.

Cette thèse de doctorat se concentre sur le développement de méthodes hybrides de détection des anomalies en utilisant des techniques basées sur des réseaux de neurones profonds et des distributions de fréquence de mots qui sont linguistiquement fondées. La plupart des recherches menées à ce jour sur les modèles de langue se concentrent sur le traitement au niveau de la phrase et ne parviennent pas à capturer les dépendances à long terme au niveau du discours. Pour pallier ce problème, nous nous appuierons sur les distributions de fréquence de mots et les mesures d'information pour caractériser les longs documents, en modélisant des phénomènes tels que le très grand nombre de mots rares, ce qui conduit souvent à des phénomènes statistiques étranges comme les variations systématiques des fréquences moyennes lorsque le nombre d'observations augmente. Des concepts avancés de statistiques et de mesures d'information sont nécessaires pour comprendre l'analyse des distributions de fréquences de mots et pour capturer l'information au niveau du document. Des expériences approfondies sur des ensembles de données du monde réel seront réalisées pour démontrer la viabilité de notre approche.

Contexte de travail

Cette thèse est un partenariat entre le Laboratoire Interdisciplinaire des Sciences du Numérique (LISN, Université Paris-Saclay) et l'International Research Laboratory on Learning Systems (ILLS, Montréal). Une cotutelle avec l'Université McGill ou l'École de Technologie Supérieure (ETS) de Montréal sous la co-direction de Pablo Piantanida (Directeur de l'ILLS) est prévue. Le doctorant/e partagera l'année académique entre le LISN à l'université Paris-Saclay et ILLS à Montréal, ce qui facilitera les collaborations avec d'autres chercheurs des institutions canadiennes impliquées dans ILLS (MILA, ETS, McGill University).

L'école doctorale de rattachement à l'université Paris-Saclay sera l'école doctorale STIC dans le Pôle B (Données, connaissances, apprentissage et interactions).

On en parle sur Twitter !