En poursuivant votre navigation sur ce site, vous acceptez le dépôt de cookies dans votre navigateur. (En savoir plus)

Thèse Provenance et explicabilité dans les LLM (H/F)

Cette offre est disponible dans les langues suivantes :
- Français-- Anglais

Date Limite Candidature : lundi 2 juin 2025 23:59:00 heure de Paris

Assurez-vous que votre profil candidat soit correctement renseigné avant de postuler

Informations générales

Intitulé de l'offre : Thèse Provenance et explicabilité dans les LLM (H/F)
Référence : UMR5217-SILMAN-005
Nombre de Postes : 1
Lieu de travail : ST MARTIN D HERES
Date de publication : lundi 12 mai 2025
Type de contrat : CDD Doctorant
Durée du contrat : 36 mois
Date de début de la thèse : 1 octobre 2025
Quotité de travail : Complet
Rémunération : La rémunération est d'un minimum de 2200,00 € mensuel
Section(s) CN : 06 - Sciences de l'information : fondements de l'informatique, calculs, algorithmes, représentations, exploitations

Description du sujet de thèse

Les systèmes d'IA conversationnelle sont des modèles de langage à grande échelle utilisant des réseaux de neurones transformateurs. Ces modèles sont entraînés sur une grande quantité de données textuelles collectées sur le web à l'aide de supercalculateurs pendant plusieurs jours. À titre d'exemple, PaLM, un modèle LLM de Google, comporte 540 milliards de paramètres et nécessite plus d'un mois d'entraînement sur un cluster de calcul spécialisé. L'adoption rapide des LLM a dépassé le développement des techniques d'évaluation de la qualité de leurs résultats. Cette surveillance est cruciale, car il a été démontré que les LLM sont susceptibles de produire ce que l'on appelle des « hallucinations », des réponses plausibles mais factuellement incorrectes ou incompatibles avec l'intention de l'utilisateur. Par conséquent, se fier aux LLM sans une évaluation appropriée peut avoir de graves conséquences. Garantir la qualité des résultats des LLM est essentiel pour exploiter le pouvoir transformateur de ces modèles tout en limitant les risques potentiels. En développant des méthodologies de validation robustes et en intégrant des mesures de contrôle qualité, les entreprises peuvent exploiter les avantages des LLM tout en préservant leur prise de décision.

Un autre problème des LLM est qu'ils ne sont pas totalement capables de retracer leur raisonnement, en particulier dans les longs fils de conversation ou dans les requêtes complexes effectuées à partir de données primaires.

L'objectif de cette thèse de doctorat MSCA est de contribuer à une meilleure explicabilité des LLM en visant les objectifs suivants :
Établir un formalisme pour l'explicabilité et la provenance des données utilisées par les LLM, en les reliant à leur source et en expliquant la manière dont les données primaires ont été utilisées pour dériver le contenu généré, en étendant les approches connues de la provenance des données.
Lier le formalisme d'explicabilité aux approches d'ancrage basées sur les graphes de connaissances
Mettre en œuvre le système d'explicabilité soit au niveau supérieur (« prompt » à une ou plusieurs reprises), soit en modifiant ou en améliorant l'architecture du LLM au niveau inférieur.

Le candidat retenu doit être à l'aise avec le raisonnement abstrait (logique et bases de données, algèbre linéaire et non linéaire), mais aussi avec son implémentation (programmation en C/C++, Python).

Contexte de travail

Projet MSCA Doctoral Network ARMADA au sein du Laboratoire d'Informatique de Grenoble. La rémunération pourra être supérieure en fonction des critères de financement du MSCA.

Le LIG est un laboratoire de 500 membres composé d'enseignants-chercheurs, de chercheurs permanents, de doctorants et de personnel administratif et technique. Sa mission est de contribuer au développement des aspects fondamentaux de l'informatique (modèles, langages, méthodologies, algorithmes) et de relever les défis conceptuels, technologiques et sociétaux. Les 24 équipes de recherche du LIG visent à accroître la diversité et le dynamisme des données, des services, des dispositifs d'interaction et des cas d'usage, afin d'influencer l'évolution des logiciels et des systèmes pour garantir des propriétés essentielles telles que la fiabilité, la performance, l'autonomie et l'adaptabilité. La recherche au sein du LIG s'articule autour de cinq axes : Systèmes intelligents pour relier les données, la connaissance et l'humain, Ingénierie des logiciels et des systèmes d'information, Méthodes formelles, modèles et langages, Systèmes interactifs et cognitifs, Systèmes distribués, Calcul parallèle et Réseaux.

ARMADA est un réseau doctoral visant à former 15 jeunes chercheurs polyvalents et interconnectés, spécialisés dans le domaine de l'intelligence artificielle conversationnelle (IA) et les défis liés aux avancées récentes dans le développement de grands modèles de langage (LLM), tels que ChatGPT et Bard. Ces spécialistes acquerront des connaissances et des compétences uniques en intelligence artificielle, traitement du langage naturel, apprentissage automatique, gestion des données et conception d'algorithmes afin d'améliorer la fiabilité des LLM. Un LLM fiable produira des réponses rapides, cohérentes et vérifiables, et guidera l'utilisateur. Grâce à son caractère fortement interdisciplinaire, le programme proposé propose de nombreuses activités de formation visant à perfectionner les compétences des stagiaires. Le réseau propose une formation à la recherche avec des écoles d'été et d'hiver sur les aspects multidisciplinaires du sujet, ainsi que des ateliers et des cours visant à développer des compétences sociales et interpersonnelles non techniques, telles que la rédaction scientifique, l'innovation, la supervision et le management. Ce programme répond aux besoins cruciaux de l'UE en matière de réglementation de l'IA en proposant de former des experts en IA conversationnelle qui pourront conseiller les instances européennes sur les questions techniques liées à l'adoption de ces technologies dans des disciplines clés telles que la médecine, l'éducation et l'informatique décisionnelle. Les huit organisations réparties dans sept pays forment une plateforme d'interopérabilité pour le partage de connaissances et de compétences.

Le poste se situe dans un secteur relevant de la protection du potentiel scientifique et technique (PPST), et nécessite donc, conformément à la réglementation, que votre arrivée soit autorisée par l'autorité compétente du MESR.

Le poste se situe dans un secteur relevant de la protection du potentiel scientifique et technique (PPST), et nécessite donc, conformément à la réglementation, que votre arrivée soit autorisée par l'autorité compétente du MESR.