Informations générales
Intitulé de l'offre : Doctorant en informatique (H/F): apprentissage continu des grands modèles de langage
Référence : UMR7503-CHRCER-001
Nombre de Postes : 1
Lieu de travail : VANDOEUVRE LES NANCY
Date de publication : vendredi 8 septembre 2023
Type de contrat : CDD Doctorant/Contrat doctoral
Durée du contrat : 36 mois
Date de début de la thèse : 1 novembre 2023
Quotité de travail : Temps complet
Rémunération : 2 135,00 € brut mensuel
Section(s) CN : Sciences de l'information : traitements, systèmes intégrés matériel-logiciel, robots, commandes, images, contenus, interactions, signaux et langues
Description du sujet de thèse
Les grands modèles de langage (LLM) ont obtenu des performances exceptionnelles pour la plupart des tâches de traitement automatique du langage naturel (TAL), parfois même surpassant les performances humaines. Toutefois, les performances “zero-shot”, c'est-à-dire sans qu'ils aient vu auparavant d'exemples de la classe cible à reconnaître au test, de ces modèles restent encore inférieurs à celles obtenues en adaptant (finetuning) des modèles génériques à la tâche cible. Ceci a motivé le développement de nombreuses méthodes permettant d'adapter efficacement ces modèles. De plus, les informations factuelles contenues dans les paramètres de ces LLMs datent de la création du corpus d'apprentissage, et maintenir ces modèles à jour nécessite des méthodes d'adaptation continu qui ne soient pas sujettes à l'oubli catastrophique.
L'objectif de cette thèse est d'explorer et de proposer de nouvelles méthodes pour adapter les LLM avec de nouvelles informations. Le domaine de l'apprentissage continu se démarque de cet objectif en se focalisant sur une succession de tâches et de corpus et en continuant l'apprentissage du modèle afin qu'il n'oublie pas les tâches précédentes. Avec les LLM, cet objectif est autre car il s'agit d'injecter des informations factuelles à jour dans un LLM en garantissant qu'il n'oublie pas les connaissances précédentes.
Plusieurs options seront explorées pour atteindre cet objectif, en particulier la combinaison de méthodes d'augmentation progressive du nombre de paramètres du LLM et de sparsité. Les réseaux progressifs sont en effet des solutions partielles possibles au problème de l'oubli catastrophique (Evci et al. 2022; Moeed et al. 2020); l'équipe Synalp a une expérience conséquente dans ce type de réseaux (Caillon 2023). Cependant, passer à l'échelle des très grands LLM requiert d'adapter ces approches via des méthodes d'apprentissage efficaces en paramètres (Wang et al. 2023), ce que nous proposons de faire dans ce projet, par exemple en faisant grossir des prompts continues, ou toute autre méthode de ce type, comme les adapteurs ou LoRA afin d'accumuler de nouvelles connaissances. Ainsi, nous proposerons un LLM open-source qui pourra prendre en entrée un flux continu d'informations and intégrer automatiquement ces nouvelles connaissances dans ses paramètres. En ce qui concerne l'évaluation, les méthodes d'évaluation traditionnelles de TAL ne sont pas adaptées à ces modèles continus, car elles sont également datées. Nous considérerons donc de nouveaux protocoles d'évaluation inspirés de realtime-QA, qui mets à jour une base de données de question-réponses régulièrement à partir d'un flux d'information continu (Kasai et al. 2022).
Au-delà des modèles multilingues purement textuels, un cas d'usage envisagé sera de démontrer ces contributions théoriques pour l'adaptation de LLM multimodaux, notamment améliorer les systèmes état de l'art de reconnaissance automatique de la parole grâce à des LLM à jour, en particulier pour des domaines cibles où le lexique peut notamment évoluer rapidement. Nous adapterons et évaluerons ainsi de tels modèles dans les domaines de la régulation des urgences, et des dialogues dans les réunions. Nous nous appuierons sur des transformers de transcription de la parole comme Whisper et MMS. Un des objectifs affiché sera de mettre à jour en continu ces modèles état de l'art en leur permettant de reconnaître de nouveaux mots. Un défi important réside dans le fait que l'architecture encodeur-décodeur du transformer encode conjointement l'acoustique et le langage. Modifier la partie langagière sans affecter la partie acoustique est donc délicat. L'étudiant explorera plusieurs méthodes permettant de réaliser cet objectif, même lorsqu'il n'y a pas ou pe de données acoustiques associées aux nouveaux mots. Nous considérerons pour cela éventuellement des méthodes de synthèse de la parole, de projection du texte dans l'espace de représentation latent, ou de combiner les prédictions du modèle avec un LLM a posteriori. Le modèle sera évalué par ses erreurs de transcription des mots et des caractères, en particulier concernant un vocabulaire spécifique au domaine médical (par ex. les noms de drogues, symptômes et maladies).
Références
Caillon, Paul. 2023. “Weakly Supervised Deep Learning for Natural Language Processing.” PhD thesis, Nancy, France: Université de Lorraine.
Evci, Utku, Max Vladymyrov, Thomas Unterthiner, Bart van Merrienboer, and Fabian Pedregosa. 2022. “GradMax: Growing Neural Networks Using Gradient Information.” ArXiv abs/2201.05125. https://api.semanticscholar.org/CorpusID:245906452.
Kasai, Jungo, Keisuke Sakaguchi, Yoichi Takahashi, Ronan Le Bras, Akari Asai, Xinyan Velocity Yu, Dragomir R. Radev, Noah A. Smith, Yejin Choi, and Kentaro Inui. 2022. “RealTime Qa: What's the Answer Right Now?” ArXiv abs/2207.13332. https://api.semanticscholar.org/CorpusID:251105205.
Moeed, Abdul, Gerhard Hagerer, Sumit Dugar, Sarthak Gupta, Mainak Ghosh, Hannah Danner, Oliver Mitevski, Andreas Nawroth, and Georg Groh. 2020. “An Evaluation of Progressive Neural Networksfor Transfer Learning in Natural Language Processing.” In Proceedings of the Twelfth Language Resources and Evaluation Conference, 1376–81. Marseille, France: European Language Resources Association. https://aclanthology.org/2020.lrec-1.172.
Wang, Peihao, Rameswar Panda, Lucas Torroba Hennigen, Philip Greengard, Leonid Karlinsky, Rogério Schmidt Feris, David Cox, Zhangyang Wang, and Yoon Kim. 2023. “Learning to Grow Pretrained Models for Efficient Transformer Training.” ArXiv abs/2303.00980. https://api.semanticscholar.org/CorpusID:257280093.
Contexte de travail
La thèse est financée par le projet ANR LLM4ALL.
Le salaire mensuel brut est de 2135€, soit 1716€ net.
Des contributions théoriques dans le domaine de l'apprentissage automatique et profond et/ou TAL sont attendues, ainsi que des validations expérimentales rigoureuses. L'objectif est de publier en open-source les résultats et des articles dans des conférences et revues prestigieuses du domaine (ICLR, *ACL, NeurIPS, ICML, AAAI...).
L'étudiant passera 100% de son temps de travail au laboratoire LORIA à Nancy. Il bénéficiera d'une adresse email académique, d'un accès aux librairies, journaux et proceedings scientifiques, d'un accès à des clusters de GPU, aux manifestations scientifiques du laboratoire et de l'école doctorale IAEM.