En poursuivant votre navigation sur ce site, vous acceptez le dépôt de cookies dans votre navigateur. (En savoir plus)

Thèse/PhD (Doctorant H/F) : Modèles de langue en présence de changements de distribution

Cette offre est disponible dans les langues suivantes :
- Français-- Anglais

Date Limite Candidature : lundi 17 juin 2024 23:59:00 heure de Paris

Assurez-vous que votre profil candidat soit correctement renseigné avant de postuler

Informations générales

Intitulé de l'offre : Thèse/PhD (Doctorant H/F) : Modèles de langue en présence de changements de distribution
Référence : UMR9015-PIEZWE-007
Nombre de Postes : 1
Lieu de travail : ORSAY CEDEX
Date de publication : jeudi 23 mai 2024
Type de contrat : CDD Doctorant/Contrat doctoral
Durée du contrat : 36 mois
Date de début de la thèse : 1 octobre 2024
Quotité de travail : Temps complet
Rémunération : La rémunération est d'un minimum de 2135,00 € mensuel
Section(s) CN : Sciences de l'information : traitements, systèmes intégrés matériel-logiciel, robots, commandes, images, contenus, interactions, signaux et langues

Description du sujet de thèse

Les grands modèles de langue (LLM) et les plongements contextuels profonds (BERT et ses variantes) sont entraînés sur de grands corpus, généralement extraits de diverses sources web. Ces modèles peuvent produire des résultats indésirables, notamment en raison de changements dans la distribution des données dans les applications en aval : les corpus web peuvent ne pas être représentatifs des cas d'utilisation réels. Bien qu'il soit possible d'entraîner un modèle à partir de zéro ou d'affiner les modèles en utilisant des jeux de données spécialisés, cela nécessite un effort d'ingénierie important de la part de grandes équipes de chercheurs (par exemple, voir CroissantLLM [1] et SaulLm-7B [2]).

Dans le cas de la génération de textes, une approche courante consiste à aligner le modèle sur les préférences humaines, soit par apprentissage par renforcement [3], soit par minimisation d'une perte supervisée [4]. Malheureusement, cela nécessite des jeux de données annotées avec des préférences humaines. En pratique, pour des raisons de coût, ces jeux de données sont souvent préparés avant l'entraînement et à partir de modèles distincts. En d'autres termes, les méthodes d'alignement courantes ne bénéficient pas d'un retour d'information en ligne [5].

L'objectif de ce projet de doctorat est de proposer de nouvelles méthodes pour construire des LLM et/ou des modèles de type BERT distributionnellement robustes. Au lieu d'utiliser des jeux de données annotées avec des préférences humaines, nous explorerons l'utilisation de ressources existantes telles que des bases de données, des lexiques, des connaissances linguistiques, etc. En fonction des intérêts du candidat, les applications en aval envisagées peuvent couvrir :

- l'adaptation à des domaines spécialisés (données biomédicales, juridiques) ;
- l'amélioration de la capacité multilingue (c'est-à-dire des langues sous-représentées dans les données d'entraînement) ;
- la réduction des biais de genre ;
- etc.

À cette fin, deux axes de recherche peuvent être envisagés :

- les stratégies d'entraînement et d'affinage qui pourraient être utilisées pour améliorer la robustesse des modèles, voir par exemple [6, 7, 8] ;
- les modifications du modèle au moment du test qui permettent d'ajouter des préférences et des contraintes sur les résultats générés [9, 10, 11].

La priorité sera donnée aux méthodes peu gourmandes en ressources informatiques.

Le candidat doit avoir une solide formation en informatique avec un intérêt pour les mathématiques appliquées, ou une solide formation en mathématiques avec des connaissances en apprentissage profond et en Python+Pytorch. L'objectif du projet étant de proposer de nouvelles méthodes, le candidat devra être capable de développer son propre code et modifier des bibliothèques comme Pytorch et HuggingFace, c'est-à-dire que le projet nécessitera d'aller au-delà d'une simple utilisation d'outils.

Les résultats de ce projet devraient être publiés dans les principales conférences/revues de traitement automatique des langues (*ACL/EMNLP/TACL) et/ou les principales conférences/revues d'apprentissage automatique (NeurIPS/ICLR/ICML/AISTATS/TMLR).

Références

[1] CroissantLLM: A Truly Bilingual French-English Language Model (Manuel Faysse, Patrick Fernandes, Nuno M. Guerreiro, António Loison, Duarte M. Alves, Caio Corro, Nicolas Boizard, João Alves, Ricardo Rei, Pedro H. Martins, Antoni Bigata Casademunt, François Yvon, André F.T. Martins, Gautier Viaud, Céline Hudelot, Pierre Colombo) https://arxiv.org/abs/2402.00786

[2] SaulLM-7B: A pioneering Large Language Model for Law (Pierre Colombo, Telmo Pessoa Pires, Malik Boudiaf, Dominic Culver, Rui Melo, Caio Corro, Andre F. T. Martins, Fabrizio Esposito, Vera Lúcia Raposo, Sofia Morgado, Michael Desa) https://arxiv.org/abs/2403.03883

[3] Deep reinforcement learning from human preferences (Paul Christiano, Jan Leike, Tom B. Brown, Miljan Martic, Shane Legg, Dario Amodei) https://proceedings.neurips.cc/paper_files/paper/2017/file/d5e2c0adad503c91f91df240d0cd4e49-Paper.pdf

[4] Direct Preference Optimization: Your Language Model is Secretly a Reward Model (Rafael Rafailov, Archit Sharma, Eric Mitchell, Stefano Ermon, Christopher D. Manning, Chelsea Finn) https://arxiv.org/abs/2305.18290

[5] Direct Language Model Alignment from Online AI Feedback (Shangmin Guo, Biao Zhang, Tianlin Liu, Tianqi Liu, Misha Khalman, Felipe Llinares, Alexandre Rame, Thomas Mesnard, Yao Zhao, Bilal Piot, Johan Ferret, Mathieu Blondel) https://arxiv.org/abs/2402.04792

[6] Distributionally Robust Models with Parametric Likelihood Ratios (Paul Michel, Tatsunori Hashimoto, Graham Neubig) https://arxiv.org/pdf/2204.06340.pdf

[7] Beyond Uniform Sampling: Offline Reinforcement Learning with Imbalanced Datasets (Zhang-Wei Hong, Aviral Kumar, Sathwik Karnik, Abhishek Bhandwaldar, Akash Srivastava, Joni Pajarinen, Romain Laroche, Abhishek Gupta, Pulkit Agrawal) https://proceedings.neurips.cc/paper_files/paper/2023/file/0ff3502bb29570b219967278db150a50-Paper-Conference.pdf

[8] Distributionally Robust Neural Networks for Group Shifts: On the Importance of Regularization for Worst-Case Generalization (Shiori Sagawa, Pang Wei Koh, Tatsunori B. Hashimoto, Percy Liang) https://arxiv.org/abs/1911.08731

[9] Tractable Control for Autoregressive Language Generation (Honghua Zhang, Meihua Dang, Nanyun Peng, Guy Van den Broeck) https://arxiv.org/abs/2304.07438

[10] Gradient-Based Constrained Sampling from Language Models (Sachin Kumar, Biswajit Paria, Yulia Tsvetkov) https://aclanthology.org/2022.emnlp-main.144/

[11] Structured Voronoi Sampling (Afra Amini, Li Du, Ryan Cotterell) https://arxiv.org/abs/2306.03061

Contexte de travail

Le doctorat se déroulera à l'Université Paris-Saclay (LISN), avec la possibilité de rejoindre le laboratoire de l'un des autres encadrants, en fonction des préférences géographiques du candidat.

La personne recrutée rencontrera ses encadrants au moins une fois par semaine.

Ce doctorat s'inscrit dans le cadre du projet InExtenso : https://anr-inextenso.loria.fr/
A ce titre, la personne recrutée aura la possibilité de collaborer avec une large équipe de chercheurs, y compris d'autres doctorants. Elle sera amenée à participer à des réunions et conférences en France et à l'étranger.

La personne recrutée aura accès aux clusters de GPU de l'Université Paris-Saclay. Des ressources supplémentaires pourront être fournies par le supercalculateur Jean-Zay.

Le poste se situe dans un secteur relevant de la protection du potentiel scientifique et technique (PPST), et nécessite donc, conformément à la réglementation, que votre arrivée soit autorisée par l'autorité compétente du MESR.

Contraintes et risques

Travail sur écran.