Informations générales
Intitulé de l'offre : Doctorant (H/F) vulnérabilités dans codes générés par LLM (projet TAP)
Référence : UMR6074-OLIZEN-003
Nombre de Postes : 1
Lieu de travail : RENNES
Date de publication : lundi 2 décembre 2024
Type de contrat : CDD Doctorant
Durée du contrat : 36 mois
Date de début de la thèse : 27 janvier 2025
Quotité de travail : Complet
Rémunération : La rémunération mensuelle est d'un minimum de 2200 euros bruts (1769 euros nets payés)
Section(s) CN : 6 - Sciences de l'information : fondements de l'informatique, calculs, algorithmes, représentations, exploitations
Description du sujet de thèse
Depuis les 60 à 70 dernières années, la programmation a largement prévalu dans le domaine de l'informatique, englobant la capture d'intentions et la production de code. Les spécifications formelles ont gagné en importance grâce aux avancées en modélisation et conception de systèmes, ce qui permet une capture plus précise des objectifs. Malgré les progrès réalisés, les ingénieurs en logiciel hésitent à rédiger des spécifications formelles, ce qui se traduit par l'absence d'une déclaration formelle d'intention pour les grands systèmes logiciels, rendant ainsi le débogage et la correction d'erreurs difficiles. Malgré l'absence de capture d'intention, des tests et des analyses ont été utilisés pour élaborer des bases de code fiables. Lors des tests, ces travaux visent à obtenir une couverture comportementale plus étendue et utilisent des oracles de test. Les approches de fuzzing ont gagné en importance au cours de la dernière décennie. Cependant, obtenir la correction fonctionnelle du logiciel sans exigence formelle approfondie reste un objectif difficile.
Les récents progrès dans la génération automatique de code à partir de grands modèles de langage (LLMs) offrent une nouvelle perspective. Il est envisageable de programmer à partir de spécifications en langage naturel en utilisant la génération de code par LLM, ce qui suggère que l'autocodage est réalisable. Cela soulève la question de la correction et la sécurité du code généré automatiquement par les LLMs et des conditions dans lesquelles il est possible de lui faire confiance.
Le projet TAP (Trustworthy Automatic Programming), se focalise spécifiquement sur ces aspects. Les objectifs de ce projet consistent à identifier les vulnérabilités dans le code généré par LLM, à les analyser et les classifier, ainsi qu'à déterminer si certains types de vulnérabilités sont plus fréquents dans le code généré par LLM que dans le code rédigé par des humains. Les objectifs du projet comprennent également la correction automatique des vulnérabilités dans le code généré par LLM et le renforcement des LLM par rapport aux vulnérabilités dans les codes générés.
L'objectif principal de l'équipe DiverSE sur ce projet est d'effectuer les travaux de recherche permettant d'identifier les vulnérabilités dans les codes générés par les LLM. Pour atteindre cet objectif, nous mettrons en place un système capable de générer automatiquement des ensembles de données (datasets) de vulnérabilités. Cela sera réalisé en utilisant les catalogues web disponibles pour les vulnérabilités et en modélisant ces vulnérabilités de manière à les intégrer de manière transparente dans un outil de test, nous permettant ainsi d'analyser le code et les bibliothèques générés par LLM. Les langages cibles seront prioritairement C et Java, du fait de leur grande utilisation et afin de maximiser l’impact de nos travaux.
Dans ce cadre, l’équipe DiverSE (en étroite collaboration avec le laboratoire IPAL et la DGA) recrute une doctorante ou un doctorant pour une durée de 36 mois, sous la responsabilité scientifique et technique de permanents de l’équipe impliqués dans le projet. Cette personne sera chargée des travaux de recherche et de conception liés aux objectifs de DiverSE indiqués ci-dessus, dans le but d'analyser l'état de l'art, et de concevoir techniques et méthodes qui seront ensuite mises en oeuvre dans des prototypes des prototypes et démonstrateurs.
Les synergies avec d’autres travaux effectués dans l’équipe seront également explorées et exploitées.
Les résultats de nos travaux seront utilisés par les partenaires de NUS à Singapour.
Le développement exponentiel de l'usage des LLMs pour toutes sortes de tâches, dont la production assistée de code source, assure aux résultats du projets un impact considérable. En effet, la sécurisation des codes produits par le LLMs est actuellement balbutiante, et fournir un système s'acquittant de cette tâche automatiquement répondrait à un besoin mondial tout à fait immense. Les enjeux de cybersécurité qui en découlent sont donc considérables en pratique.
Contexte de travail
L’IRISA (Institut de Recherche en Informatique et Systèmes Aléatoires) est aujourd'hui l'un des plus grands laboratoires de recherche français (+ de 850 personnes) dans le domaine de l'informatique et des nouvelles technologies de l'information.
Organisé en sept départements scientifiques, le laboratoire est un centre de recherche d'excellence axé sur des domaines prioritaires tels que la bio-informatique, la sécurité des systèmes, les nouvelles architectures logicielles, la réalité virtuelle, l'analyse des données massives et l'intelligence artificielle.
L’IRISA est au centre d'un écosystème régional dynamique en recherche et innovation, se démarquant en France et à l'étranger grâce à son expertise reconnue, notamment à travers des collaborations scientifiques internationales.
Orienté vers l'avenir de l'informatique et tourné vers l'international, l'IRISA est au cœur de la transition numérique et de l'innovation pour la cybersécurité, la santé, l'environnement, les transports, la robotique, l'énergie, la culture et l'intelligence artificielle.
L'équipe de recherche DiverSE étudie les techniques de l'ingénierie logicielle pour la construction fiable et efficace d'applications, avec des travaux déclinés notamment autour de la cybersécurité et des LLMs.
Avec actuellement une quinzaine de permanents F/H (chercheurs Inria et CNRS, enseignants-chercheurs et enseignante-chercheuse INSA/Université de Rennes dont 3 IUFs), une quinzaine de doctorantes et doctorants, plusieurs ingénieurs et un ingénieur associé de la DGA, l'équipe est reconnue au niveau mondial dans ces domaines d'expertise. Elle met de plus un point d'honneur à ce que ses recherches soient applicables voire appliquées, avec de très forts liens avec l'industrie internationale, nationale et locale.
Elle est aussi reconnue en local pour son ambiance sur site, ses pauses café et ses séminaires au vert mémorables.
Dans le cadre du projet TAP, les contacts seront fréquents avec nos partenaires de NUS (National University of Singapore) et d'IPAL (Nantes). Un ou des séjours à Singapour pourront être envisagés selon vos souhaits. De façon plus générale, les contacts dans et hors de l'équipe DIverSE seront pour vous une opportunité pour voir au-delà de vos propres travaux, offrant un contexte large et varié avec les nombreux projets de recherche, innovation et transfert industriel de l'équipe.
Après le projet, vous ferez partie des (nombreux) anciens de l'équipe DiverSE, dont la plupart sont toujours en contact.
Avantages
Télétravail possible jusqu'à 2 jours par semaine
Prise en charge partielle des frais de transport en commun sur le trajet domicile-travail ou FMD
Prise en charge partielle des frais de mutuelle
Restauration subventionnée sur place
Parking voitures et vélos gratuits sur place; bus à 5 minutes à pied; métro à 10 minutes à pied.
Localisation
Campus de Beaulieu Irisa/Inria Rennes
Bâtiment 12
263 avenue du Général Leclerc
35 042 RENNES cedex
Présentation du CNRS en tant qu'employeur : https://www.cnrs.fr/fr/le-cnrs
Présentation de l'IRISA en tant que laboratoire d'affectation : https://www.irisa.fr/umr-6074
Le poste se situe dans un secteur relevant de la protection du potentiel scientifique et technique (PPST), et nécessite donc, conformément à la réglementation, que votre arrivée soit autorisée par l'autorité compétente du MESR.
Contraintes et risques
Le travail peut impliquer des voyages en France et à l'étranger, y compris par avion.