Informations générales
Intitulé de l'offre : Thèse en Traitement Automatique de la Langue et Recherche d'Information (H/F)
Référence : UMR5217-JEACHE-001
Nombre de Postes : 1
Lieu de travail : ST MARTIN D HERES
Date de publication : vendredi 20 septembre 2024
Type de contrat : CDD Doctorant/Contrat doctoral
Durée du contrat : 36 mois
Date de début de la thèse : 1 décembre 2024
Quotité de travail : Temps complet
Rémunération : La rémunération est d'un minimum de 2135,00 € mensuel
Section(s) CN : Sciences de l'information : traitements, systèmes intégrés matériel-logiciel, robots, commandes, images, contenus, interactions, signaux et langues
Description du sujet de thèse
Adaptation de grands modèles de langue pour la recherche d'information
L'objectif général de cette thèse est d'explorer les modèles et les approches d'apprentissage automatique en particulier les Grands Modèles de Langues (Larges Langage Models LLM) pour les adapter au contexte de la Recherche d'Information (RI). Nous nous intéresserons uniquement aux LLM ouverts et libres existants, avec la perspective de développer des systèmes de RI interactifs de pointe. En effet, les Systèmes de Recherche d'Informations, appelé aussi moteurs de Recherche sur le WEB, sont en pleine évolution depuis la disponibilité des LLM génératifs qui permettent de dialoguer en langue naturel avec l'utilisateur humain, et ainsi l'aider à préciser son besoin d'information mais aussi reformuler les réponses.
Contexte de travail
La thèse sera réalisée au sein de l'équipe MRIM du laboratoire LIG (https://lig-getalp.imag.fr/). Le LIG est une unité mixte de recherche (Université Grenoble Alpes, CNRS, et Grenoble INP). La personne recrutée sera accueillie au sein de l'équipe qui offre un environnement de travail stimulant, multinational et agréable. Le poste de doctorant sera co-encadré par Jean-Pierre Chevallet et Eric Gaussier.
Pour atteindre l'objectif de cette thèse, nous exploiterons et combinerons plusieurs approches, y compris, mais sans s'y limiter, des approches de prompting. La technique de prompting consiste à fournir un texte de départ à un LLM génératif pour l'orienter dans sa génération automatique. Dans ce travail de thèse, nous proposons d'utiliser à la fois des prompts existants et des prompts qui seront développés dans le contexte du projet ANR GUIDANCE, ainsi que des approches de génération augmentée de recherche et l'apprentissage par renforcement humain pour une adaptation plus forte au contexte de la RI. Dans ce dernier cas, nous visons à nous passer de l'annotation humaine dans la phase d'apprentissage par renforcement en utilisant des annotations faibles qui s'appuient sur les résultats de modèles existants très larges tels que chatGPT, Alpaca ou Vicuna. Cela devrait nous permettre de construire des séquences de dialogues de bonne qualités semi automatiquement et en grande quantité. Ces bases de dialogues serviront de base d’apprentissage et de vérité terrain pour l'évaluation du système obtenu.
References
[1] https://guidance.anr.isir.upmc.fr/
[2] INTERS: Unlocking the Power of Large Language Models in Search with Instruction Tuning. Zhu et al., arXiv:2401.06532v3
[3] Retrieval-Augmented Generation for Large Language Models: A Survey. Gao et al., arXiv:2312.10997
[4] https://crfm.stanford.edu/2023/03/13/alpaca.html, https://vicuna.lmsys.org/
Le poste se situe dans un secteur relevant de la protection du potentiel scientifique et technique (PPST), et nécessite donc, conformément à la réglementation, que votre arrivée soit autorisée par l'autorité compétente du MESR.
Contraintes et risques
Le système devra être évalué sur des collections académiques standard pour différentes tâches de RI et de NLP.
Le poste se situe dans un secteur relevant de la protection du potentiel scientifique et technique (PPST), et nécessite donc, conformément à la réglementation, que votre arrivée soit autorisée par l'autorité compétente du MESR.