En poursuivant votre navigation sur ce site, vous acceptez le dépôt de cookies dans votre navigateur. (En savoir plus)
Portail > Offres > Offre UMR7030-MUSLEB-003 - CHERCHEUR-Postdoc en apprentissage statistique non supervisé (H/F)

CHERCHEUR-Postdoc en apprentissage statistique non supervisé (H/F)

Cette offre est disponible dans les langues suivantes :
Français - Anglais

Date Limite Candidature : jeudi 3 février 2022

Assurez-vous que votre profil candidat soit correctement renseigné avant de postuler. Les informations de votre profil complètent celles associées à chaque candidature. Afin d’augmenter votre visibilité sur notre Portail Emploi et ainsi permettre aux recruteurs de consulter votre profil candidat, vous avez la possibilité de déposer votre CV dans notre CVThèque en un clic !

Faites connaître cette offre !

Informations générales

Référence : UMR7030-MUSLEB-003
Lieu de travail : VILLETANEUSE
Date de publication : lundi 13 décembre 2021
Type de contrat : CDD Scientifique
Durée du contrat : 18 mois
Date d'embauche prévue : 1 février 2022
Quotité de travail : Temps complet
Rémunération : entre 2743 brut/mois à 3896 brut/mois selon l'expérience (contrat 14 à 18 mois)
Niveau d'études souhaité : Doctorat
Expérience souhaitée : Indifférent

Missions

L'apprentissage non supervisé scalable (i.e. applicable sur de gros volumes de données en temps et en mémoire "raisonnables") est un domaine de recherche adressé depuis maintenant plusieurs années. Parmi les sujets récurrents de ce domaine, celui du clustering scalable, où l'objectif est de partitionner un jeu de données en groupes relativement “homogènes” est très populaire. Les recherches de ces dernières années dans le domaine du clustering scalable, auxquelles l'équipe de chercheurs du LIPN travaillant dans cette thématique a grandement contribué, ont permis des avancées importantes sur différents aspects du problème.

En général, l'apprentissage non supervisé multi-vues fournit des résultats supérieurs à ceux à vue et/ou modalité unique. Ces données sont souvent hétérogènes et présentent une divergence importante. Au delà de l'apprentissage multi-vues, des algorithmes ont récemment été proposés pour augmenter les propriétés des algorithmes de Clustering scalable existant préalablement :

Le Co-clustering, regroupant les individus ET les variables servant à les décrire;
Le Clustering probabiliste;
Le Multi-clustering, visant à réaliser un Clustering multi-vues tout en raffinant l'appartenance des variables aux diverses vues;
Le Clustering topologique, visant à apprendre les regroupements tout en organisant ces derniers sur une carte à faible dimension;
Le Co-clustering par cellules, où l'atome de données n'est pas nécessaire un scalaire mais peut-être étendu à une structure plus complexe;
Le Clustering par transfert permettant d'utiliser le résultat d'un Clustering pour accélérer et diminuer le besoin en données d'un Clustering réalisé ultérieurement.

Bien que pertinentes et intéressantes séparément, les propriétés des algorithmes mentionnés plus haut gagneraient à être regroupées en un algorithme général multi-vues afin de profiter des résultats les plus complets et explicites possibles avec un effort moindre.

L'objectif de ce projet de recherche est de proposer un algorithme général regroupant le plus de propriétés telles que mentionnées plus haut, afin de limiter les efforts nécessaires à une personne pour réaliser un Multi-Co-clustering topologique de qualité, fiable et aux résultats riches et explicites (à forte valeur ajoutée pour cette personne) sur des jeux de données très différents et aux multiples vues / représentations.
Au vu de l'état de l'art actuel en Co-clustering scalable, nous proposons d'aborder la dimension fondamentale selon deux axes principaux : le premier vise à regrouper les propriétés de Multi-Co-clustering multi-vues topologique probabiliste par cellules sur des données multi-représentations, avec l'appui de travaux récemment réalisés en collaboration avec le LIPN; le second vise à aborder la problématique de l'apprentissage par transfert dans le cadre du contexte multi-vues.

Activités

-Participer à des projets de recherche, au sein du LIPN et en collaboration avec la start-up HephIA, sur les plans nationaux et internationaux, et aux publications associées.
-Orienter le choix des algorithmes et des outils pertinents en fonction du problème posé.
-Concevoir des algorithmes pour le Co-clustering scalable et la restitution visuelle des résultats en suivant les normes de la start-up HephIA.

Le planning prévisionnel proposé sur 18 mois (adaptable en fonction de l'expérience du candidat sur les thématiques) est le suivant.

**T0+6 mois
Actions :
-Etudier l'éventail des algorithmes de l'historique de recherche de l'équipe A3 sur le clustering scalable, ainsi que les algorithmes de la bibliothèque HephIA.
-Comprendre les concepts liés à l'apprentissage non supervisé pour des données multi-vues (état de l'art).
-Proposer une première approche de Multi-Co-clustering topologique multivues (V1) en se basant sur les travaux de l'équipe A3 et tenant compte des prérequis de la bibliothèque HephIA. La combinaison de modèles et l'évolutivité seront une préoccupation majeure pour la rendre utilisable avec des chaînes de traitement de données différentes.
-Test sur des benchmarks d'apprentissage non supervisé typiques, y compris des benchmarks de séries temporelles.

Modalités de suivis :
- Réunions
- Rédaction d'un livrable sur l'état de l'art
- Rédaction d'un livrable sur les spécifications de la première version
- Rédaction d'un livrable sur les premières expérimentations et résultats

**T6 : T6+12
Actions :
-Fournir des améliorations de la version V1.
-Proposer des directions de recherche pour l'utilisation du transfert learning dans ce contexte multi-vues.
-Identification des spécificités du problème du transfert, notamment dans le contexte des données multi-vues. A savoir les spécificités théoriques du problème liées au clustering / Co-lustering de données multi-vues.

Modalités de suivis :
- Réunions
- Mise à jour du livrable état de l'art
- Publications scientifiques / participation aux événements scientifiques
- Présentation du bilan de l'activité sur l'année écoulée.

**T12 : T12+18
Actions :
-Etudes et évaluations des performances des algorithmes sélectionnés avec les besoins de HephIA, mais aussi sur les bases de données générales répertoriées.
- Comparaison des performances des solutions de l'état de l'art.

Modalités de suivis :
- Réunions
- Publication scientifique
- Organisation d'un workshop
- Présentation du bilan final de l'activité.

Compétences

PhD en apprentissage statistique ou en informatique (data science).
Solide bases en statistique (modèle de mélange) et en informatique.
Maîtrise de la programmation en Python, Java/Scala
Connaissances de Git, Docker, Environnements Cloud, Calcul distribué sur des clusters
Connaissances en génie logiciel
Esprit de synthèse.
Créativité, force de proposition.

Contexte de travail

Le chercheur post-doc recruté rejoindra l'équipe A3 : Apprentissage artificielle & Applications (A3) du LIPN. L'équipe A3 traite les problèmes liés à l'apprentissage artificiel (machine learning) et couvre un large spectre de problématiques, allant de l'apprentissage supervisé et non supervisé à l'apprentissage par renforcement. Ses recherches sont alimentées, coordonnées et évaluées grâce à diverses applications dans le domaine de la reconnaissance des formes et de la fouille de données. L'équipe A3 développe des recherches fondamentales tout en intensifiant ses coopérations avec les grands organismes et les industriels.

Ce recrutement s'inscrit dans le cadre du financement de l'AMIES en collaboration avec la Start-up HephIA (https://hephia.com/).

Informations complémentaires

Projet PEPS2 :« Multi-co-clustering topologique des données multi-vues » proposé par le LIPN (UMR CNRS 7030) et financé par l'AMIES et la Start-up HephIA. Le sujet détaillé du post-doc sera disponible après la première sélection des candidats .

On en parle sur Twitter !