Informations générales
Intitulé de l'offre : Chercheur Post-Doctorant (H/F) en HPC (Tolérance aux pannes) et optimisation combinatoire
Référence : UMR9189-NOUMEL-002
Nombre de Postes : 1
Lieu de travail : VILLENEUVE D ASCQ
Date de publication : jeudi 24 août 2023
Type de contrat : CDD Scientifique
Durée du contrat : 12 mois
Date d'embauche prévue : 1 février 2024
Quotité de travail : Temps complet
Rémunération : Salaire mensuel brut (avant taxes) entre 2 833.40€ et 3 257.06€
Niveau d'études souhaité : Niveau 8 - (Doctorat)
Expérience souhaitée : Indifférent
Section(s) CN : Sciences de l'information : fondements de l'informatique, calculs, algorithmes, représentations, exploitations
Missions
L'un des obstacles sur la route de l'optimisation exaflopique (et de l'informatique en général) est la probabilité croissante de pannes dans les supercalculateurs modernes. En effet, avec l'augmentation de la taille de ces derniers à des millions de cœurs de calcul [Top500], leur temps moyen entre deux pannes successives (MTBF) tend à être de plus en plus court. Les pannes peuvent avoir différentes sources: matérielles et logicielles, des erreurs silencieuses, etc. [Snir2014]. Dans ce projet, nous prenons en compte les pannes entraînant la perte d'unité(s)/sous-problèmes de travail traité.e.s par certains threads au cours du processus d'optimisation. Le problème majeur, qui est particulièrement critique en optimisation exacte, est de savoir comment récupérer les unités de travail défaillantes pour assurer une exécution fiable. Un tel défi est abordé dans la littérature en utilisant/mélangeant différentes approches : tolérance aux pannes basée sur des algorithmes, point de contrôle/redémarrage (sur disque ou sans disque), journalisation des messages et redondance.
Ces dernières années, nous avons publié les quelques travaux existants traitant de la tolérance aux pannes dans le contexte de l'optimisation combinatoire parallèle arborescente. En effet, dans [Mezmaz2007], nous avons proposé une approche originale de type Master-Worker pour les grilles de calcul permettant de stocker et de récupérer efficacement des pools (sous-arborescents ou non) de sous-problèmes de manière compacte (en utilisant des intervalles). Dans [Benjoudi2014], nous avons proposé une nouvelle approche distribuée hiérarchique pour le checkpointing sur disque de l'optimisation arborescente sur les grilles de calcul. L'approche tire particulièrement parti de la propriété arborescente pour récupérer les sous-problèmes générés pendant le processus de résolution, même dans des situations extrêmes où tous les nœuds de calcul tombent en panne. Dans toutes ces approches, seul le parallélisme à petite et moyenne échelle a été pris en compte. De plus, les accélérateurs GPU n'ont pas été considérés. L'objectif de cette proposition est de revoir ces approches et d'en étudier de nouvelles dans le contexte de gros clusters hétérogènes équipés de GPU. En outre, l'approche basée sur les PGAS (en utilisant Chapel [Chamberlain2018, Carneiro2020]) sera prise en compte dans la conception d'algorithmes tolérants aux pannes pour résoudre de gros problèmes d'optimisation sur ces supercalculateurs.
Bibliographie
[Snir2014] M. Snir et al. Addressing Failures in Exascale Computing. Int. J. High Performance Computing Applications, 28(2):129-173, May 2014.
[Top500] Top500 international ranking: https://www.top500.org/
[Mezmaz2007] M. Mezmaz, N. Melab and E-G. Talbi. A Grid-enabled Branch and Bound Algorithm for Solving Challenging Combinatorial Optimization Problems. IEEE IPDPS 2007, Long Beach, California USA, March 26-30, 1-9, 2007.
[Bendjoudi2014] A. Bendjoudi, N. Melab, E-G. Talbi. FTH-B&B: a Fault Tolerant Hierarchical Branch and Bound for Large Scale Unreliable Environments. IEEE Transactions on Computers, Vol. 63(9), pp 2302-2315, 2014.
[Carneiro2020] T. Carneiro, J. Gmys, N. Melab and D. Tuyttens. Towards ultra-scale Branch-and-Bound using a high-productivity language. Future Generation Computer Systems, Elsevier, Vol. 105, pages 196-209, April 2020.
[Chamberlain2018] B. L. Chamberlain et al. Chapel comes of age: Making scalable programming productive. In: CUG 2018, Stockholm Sweden, May 22, 2018.
Activités
Les activités de la personne recrutée seront notamment :
- concevoir et implémenter des méthodes de tolérance aux pannes dans le contexte de l'optimisation exacte combinée aux métaheuristiques: checkpointing, résilience by design, ...
- valider ces méthodes sur différents problèmes d'optimisation (Flow-Shop, N-Queens, TSP, ...) en utilisant des supercalculateurs petascale/exascale
- communiquer les contributions à la communauté à travers des publications dans des revues et conférences internationales
- participer à l'animation scientifique du projet ANR UltraBO
Compétences
Les candidats doivent être titulaires d'un doctorat ou d'un diplôme équivalent en informatique ou dans une discipline connexe. Toutes les personnes qualifiées sont encouragées à postuler. Une demande anticipée est fortement encouragée car les demandes seront traitées au fil de l'eau.
Les candidat.e.s doivent avoir une solide expérience et des compétences en calcul distribué parallèle et en calcul GPU, ainsi qu'en langages / bibliothèques de programmation parallèle associés (MPI, OpenMP, Cuda). Une expérience en optimisation combinatoire, en tolérance aux pannes et/ou en programmation basée sur PGAS (Chapel) sera appréciée mais pas nécessaire.
Pour postuler joindre les documents suivants :
• Votre CV, y compris une liste de publications et un article en texte intégral représentatif de vos contributions à la recherche,
• Une lettre de motivation comprenant une déclaration sur votre motivation personnelle à postuler,
• Les noms (et adresses e-mail, coordonnées) de deux / trois référents.
Contexte de travail
La proposition Post-Doc s'inscrit dans le cadre du projet ANR/FNR PRCI UltraBO (2023-2026), qui signifie Ultra-scale computing for Big Optimization. Il s'agit d'un projet bilatéral entre les deux groupes de recherche BONUS (Université de Lille – France) et PCOG (Université du Luxembourg) cofinancés par les agences de financement de la recherche ANR et FNR. L'objectif est d'étudier les approches basées sur MPI+X et PGAS pour la conception et la mise en œuvre d'algorithmes hybrides compatibles avec l'exascale combinant des méthodes exactes (par exemple, Branch-and-Bound) et des métaheuristiques (par exemple, des algorithmes évolutifs) pour résoudre des problèmes d'optimisation combinatoire difficiles.
Contraintes et risques
Aucun.e