Informations générales
Intitulé de l'offre : Postdoctorat en informatique : intelligence artificielle pour les réseaux H/F
Référence : UMR5668-MARBOZ--008
Nombre de Postes : 1
Lieu de travail : LYON 07
Date de publication : jeudi 28 novembre 2024
Type de contrat : Chercheur en contrat CDD
Durée du contrat : 12 mois
Date d'embauche prévue : 6 janvier 2025
Quotité de travail : Complet
Rémunération : à partir de 3021 euros bruts selon expérience
Niveau d'études souhaité : Doctorat
Expérience souhaitée : 1 à 4 années
Section(s) CN : 6 - Sciences de l'information : fondements de l'informatique, calculs, algorithmes, représentations, exploitations
Missions
Inférer la qualité des applications et des services est crucial pour les Fournisseurs d’Accès Internet (FAI) afin de détecter les problèmes de réseau et de faciliter la planification de la capacité. Cependant, avec l’adoption généralisée du chiffrement de bout en bout, les FAI ne peuvent plus observer directement les métriques de qualité des applications à partir du trafic traversant leur réseau. Malgré l’opacité croissante du trafic, des travaux récents ont démontré qu’il est possible d’inférer des métriques de qualité en entraînant un modèle d’apprentissage automatique sur des caractéristiques du trafic. Pourtant, ces modèles n’ont pas encore été adoptés en pratique par les FAI. Bien que les modèles d’inférence aient prouvé leur précision, leur adoption est freinée par des facteurs qui vont au-delà de la conception des modèles. Un défi clé pour obtenir des modèles précis en pratique est la nécessité d’une grande similarité entre les données utilisées lors de l’entraînement et celles observées lors du déploiement. Cependant, la collecte de données étiquetées est difficile en raison des coûts élevés de collecte, des préoccupations en matière de confidentialité et de l’accès limité à la vérité terrain des applications. L’enrichissement des ensembles de données réelles par des données synthétiques de haute fidélité s’est imposé comme une solution au problème de rareté des données. Récemment, les Réseaux Antagonistes Génératifs (GANs) sont devenus la technique conventionnelle pour générer du trafic réseau réaliste. Toutefois, entraîner des GANs pour modéliser le trafic réseau nécessite une prise en compte rigoureuse de la distribution des données et de l’interprétabilité des modèles. De plus, les approches basées sur les GANs ont tendance à se concentrer sur un ensemble limité d’attributs ou de statistiques, sont notoirement difficiles à entraîner et montrent une stabilité limitée dans la génération à long terme. Dans ce post-doctorat, nous étudierons le rôle des techniques d’intelligence artificielle générative pour résoudre les problèmes non résolus liés à la rareté des données nécessaires à l’entraînement des modèles d’inférence de qualité et pour traduire les résultats des modèles d’inférence en actions concrètes. Nous prévoyons d’exploiter les avantages uniques offerts par les modèles d’intelligence artificielle générative pour développer de nouveaux outils destinés à déployer des modèles d’inférence de qualité de bout en bout, notamment en générant des traces réseau synthétiques pour entraîner ces modèles
Activités
Des approches très récentes basées sur des modèles fondamentaux préentraînés ont montré leur potentiel pour générer des traces au niveau des paquets plus réalistes. En particulier, nos travaux récents ont démontré que les modèles de diffusion texte-vers-image contrôlés constituent une solution viable pour générer un trafic réseau brut synthétique respectant les règles des protocoles des couches de transport et réseau. Cependant, plusieurs limitations restent à explorer, notamment en ce qui concerne les modèles d’apprentissage automatique pour l’inférence de la qualité. Les tâches de ce post-doctorat s’articuleront autour de la résolution de ces défis. Premièrement, les modèles de diffusion reposent sur une taille d’image constante pour l’entraînement et la génération, limitant ainsi les traces synthétiques à une longueur fixe. Deuxièmement, bien que les modèles de diffusion soient très expressifs, produisant des traces synthétiques qui imitent plus fidèlement les dynamiques réelles du réseau, ils génèrent des sorties bruitées qui peuvent compromettre l’exactitude des traces produites et ne tiennent pas compte des temps inter-paquets. Troisièmement, les modèles de diffusion sont incapables de capturer des corrélations complexes entre les traces et leurs métadonnées associées, telles que la qualité des applications correspondant à une trace réseau. Pour relever ces défis, nous envisageons d’explorer des techniques d’intelligence artificielle générative mieux adaptées à la génération de données séquentielles complexes. Par exemple, les transformeurs ont démontré leur efficacité dans la génération de données séquentielles telles que le texte, ce qui suggère leur potentiel pour la génération de trafic réseau. Les principaux défis pour atteindre cet objectif incluent la tokenisation appropriée des captures de paquets et le maintien de contextes longs pour générer des flux significatifs, la génération de charges utiles de trafic “sémantiquement cohérentes” (c’est-à-dire les données au sein de chaque paquet), ainsi que la génération de séries temporelles multidimensionnelles associant des collections de flux et leurs métadonnées correspondantes.
Compétences
Les candidat(e) s doivent être titulaires d’un doctorat en informatique et posséder une solide expertise en réseaux, intelligence artificielle appliquée ou dans un domaine connexe, disposer d’excellentes compétences en programmation et démontrer de fortes aptitudes à la communication en anglais, tant à l’écrit qu’à l’oral.
Contexte de travail
La recherche s'effectuera au laboratoire LIP (ENS de Lyon, France) au sein de l'équipe “HoWNet” sous la supervision de Francesco Bronzino (MCF HDR, ENS de Lyon).
Le Laboratoire de l'Informatique du Parallélisme (LIP) est le laboratoire d'Informatique de l'ENS Lyon. Le LIP regroupe 62 professeurs et chercheurs permanents, avec 45 à 50 doctorants et plus de 20 scientifiques non permanent, avec l'appui d'un personnel administratif et technique de 11 ingénieurs et assistants.
La recherche est développée sur de nombreux sujets clés en informatique et en sciences de l'information, et est impliqué dans diverses initiatives interdisciplinaires.
Contraintes et risques
N/A