En poursuivant votre navigation sur ce site, vous acceptez le dépôt de cookies dans votre navigateur. (En savoir plus)

Doctorant en Apprentissage automatique décentralisé (H/F)

Cette offre est disponible dans les langues suivantes :
- Français-- Anglais

Date Limite Candidature : mercredi 17 juillet 2024 23:59:00 heure de Paris

Assurez-vous que votre profil candidat soit correctement renseigné avant de postuler

Informations générales

Intitulé de l'offre : Doctorant en Apprentissage automatique décentralisé (H/F)
Référence : UMR7271-VIVROS-064
Nombre de Postes : 1
Lieu de travail : VALBONNE
Date de publication : mercredi 26 juin 2024
Type de contrat : CDD Doctorant/Contrat doctoral
Durée du contrat : 36 mois
Date de début de la thèse : 1 octobre 2024
Quotité de travail : Temps complet
Rémunération : La rémunération est d'un minimum de 2135,00 € mensuel
Section(s) CN : Sciences de l'information : traitements, systèmes intégrés matériel-logiciel, robots, commandes, images, contenus, interactions, signaux et langues

Description du sujet de thèse

Le projet de thèse s'inscrit dans le thème général de l'apprentissage statistique décentralisé. En reconnaissant la tendance à la collecte de données en continu par les nœuds (clients, appareils, etc.), l'accent sera mis sur le développement de méthodes capables de traiter efficacement les données en continu et en temps réel. De plus, en reconnaissant que les modèles sous-jacents de génération de données peuvent changer au fil du temps, les approches développées doivent s'adapter à ces changements, en garantissant la robustesse et la précision du processus d'apprentissage. Les applications modernes d'apprentissage automatique impliquent souvent des sources de données et des systèmes hétérogènes. Le projet de thèse doit relever les défis liés à l'hétérogénéité statistique, en se concentrant sur le développement de techniques capables de gérer diverses distributions et caractéristiques de données. La thèse tiendra également compte de la diversité des dispositifs participant au processus d'apprentissage décentralisé, y compris les variations dans les capacités de calcul, les contraintes de mémoire et les protocoles de communication. En se concentrant sur ces aspects, l'objectif de cette thèse est de développer des solutions pratiques et évolutives qui peuvent être appliquées à des applications réelles d'apprentissage automatique, répondant ainsi aux défis rencontrés dans les environnements modernes de données distribuées.

En proposant une famille d'approches d'apprentissage décentralisées capables de gérer des environnements statistiques hétérogènes et des environnements d'acquisition de données hétérogènes, la thèse vise à faire progresser l'état de l'art en matière d'apprentissage automatique décentralisé. Les approches développées permettront un apprentissage efficace et adaptatif dans des environnements dynamiques tout en relevant les défis de l'hétérogénéité des données. En outre, les analyses et les expériences menées tout au long de la thèse fourniront des informations précieuses sur le comportement et la performance des méthodes d'apprentissage décentralisées, contribuant ainsi à une meilleure compréhension de l'apprentissage automatique dans des environnements distribués.
La prolifération des réseaux distribués modernes, tels que les téléphones mobiles, les dispositifs portables, les hôpitaux, les véhicules autonomes et les maisons intelligentes, a conduit à la génération de quantités massives de données chaque jour. Cet afflux de données, associé aux préoccupations relatives à la protection de la vie privée et aux limites du traitement centralisé des données, a conduit à l'adoption d'approches fédérées et décentralisées pour l'apprentissage de modèles statistiques. Dans ces approches, chaque appareil participant (appelé client ou agent) dispose d'un ensemble de données d'apprentissage local qui n'est jamais téléchargé vers le serveur. Les données d'apprentissage sont conservées localement sur les appareils des utilisateurs, et les appareils sont utilisés comme des agents effectuant des calculs sur leurs données locales afin de mettre à jour les modèles globaux d'intérêt. Cette approche permet de former des modèles sans centraliser les données sensibles, ce qui répond aux préoccupations en matière de protection de la vie privée tout en tirant parti de la connaissance collective présente dans les ensembles de données distribués. De grandes entreprises comme Google et Apple ont commencé à intégrer ces technologies dans leurs produits et services. Par exemple, l'équipe du clavier Gboard de Google utilise l'apprentissage fédéré pour améliorer la prédiction du mot suivant sur les appareils mobiles. Dans les applications où la communication avec un serveur devient un goulot d'étranglement, les topologies décentralisées (où les agents ne communiquent qu'avec les appareils voisins) sont des alternatives potentielles aux topologies fédérées (où un serveur central se connecte à tous les appareils distants).

Contrairement aux approches traditionnelles d'apprentissage fédéré qui fonctionnent sur l'hypothèse d'un ensemble fixe de clients avec des ensembles de données locales statiques, la thèse reconnaît la nature dynamique de la collecte de données dans les environnements distribués modernes. Ici, les appareils collectent continuellement des données et les modèles de génération de données sous-jacents évoluent au fil du temps. Par conséquent, les solutions proposées doivent s'adapter à ces conditions dynamiques et apprendre continuellement à partir de données en continu.

En outre, dans les applications modernes d'apprentissage automatique, les appareils génèrent des données qui ne sont pas distribuées de manière identique en raison des variations du comportement des utilisateurs et de l'utilisation des appareils. Cela pose un défi car les approches traditionnelles, qui supposent des données distribuées de manière identique, peuvent conduire à une mauvaise performance du modèle. La thèse se concentre sur les réseaux statistiques hétérogènes, où les distributions de données varient de manière significative entre les appareils. Dans ces réseaux, les agents peuvent avoir besoin d'estimer et de suivre simultanément des tâches multiples et distinctes. Cela nécessite le développement d'algorithmes capables de gérer efficacement des scénarios d'apprentissage multitâches. Ces algorithmes doivent pouvoir s'adapter à la nature dynamique des tâches et ajuster les paramètres du modèle en conséquence. En outre, dans les contextes où les données étiquetées sont rares ou indisponibles pour certains dispositifs, l'apprentissage semi-supervisé devient essentiel. Les systèmes d'apprentissage semi-supervisé exploitent à la fois les données étiquetées et non étiquetées pour améliorer les performances du modèle. Le développement d'algorithmes d'apprentissage semi-supervisé efficaces, capables d'utiliser les données non marquées de manière effective, est crucial pour de telles applications.

Enfin, il convient de noter que la majorité des algorithmes d'optimisation fédérés sont encore proches des configurations centralisées puisqu'ils nécessitent un coordinateur central. Dans les applications où la communication avec un serveur devient un empêchement, les topologies décentralisées sont des alternatives potentielles aux topologies fédérées. La thèse se concentre sur le développement d'approches d'inférence décentralisées et reconnaît le défi associé à la conception de telles approches où un comportement global doit émerger des interactions et des calculs locaux.

Contexte de travail

Le/la doctorant(e) sera membre du projet CEDRO, financé par l'ANR JCJC, au sein de l'équipe principale impliquée dans cette thèse : MediaCoding. Cette équipe est membre du pôle SIS du laboratoire i3S (CNRS, Université Côte d'Azur).
Le/la doctorant(e) bénéficiera d'un environnement scientifique riche et pourra acquérir une formation solide sur les résultats les plus récents en apprentissage automatique décentralisé (traitement du signal et optimisation stochastique. Il/elle sera principalement supervisé(e) par :
- Roula Nassif, maître de conférences dans l'équipe MediaCoding du laboratoire i3S.
Ce poste est entièrement financé par le projet ANR CEDRO. Le contrat doctoral débutera en 2024, pour une durée de 3 ans. Le lieu de travail de l'étudiant sera le laboratoire i3S (où se trouve l'équipe MediaCoding), dans la technopole de Sophia Antipolis, sur la Côte d'Azur.

Compétences :
- doit être un(e) étudiant(e) diplômé(e) en génie électrique ou informatique ou télécommunication, en mathématiques appliquées, ou en informatique;
- doit avoir de solides connaissances en apprentissage automatique ainsi que de bonnes connaissances en traitement du signal, en algèbre linéaire, en problèmes inverses (régularisation) et en optimisation;
- doit avoir une bonne expérience de programmation (Matlab ou Python) ;
- doit avoir un bon niveau d'anglais écrit/parlé.

Le poste se situe dans un secteur relevant de la protection du potentiel scientifique et technique (PPST), et nécessite donc, conformément à la réglementation, que votre arrivée soit autorisée par l'autorité compétente du MESR.

Contraintes et risques

Aucune