Informations générales
Intitulé de l'offre : Calcul haute performance pour le LHC (LHC : grand collisionneur de hadrons) H/F
Acronyme : HPC4LHC
Référence : CPJ-2023-001
Nombre de Postes : 1
Site(s) concerné(s) : Université Lyon / Centre de Calcul de l’IN2P3
Région(s) académique(s) : Lyon
Etablissement(s) partenaire(s) envisagé(s) : Université de Lyon 1
Code(s) établissement(s) : UAR6402
Date de publication : jeudi 16 mars 2023
Type de contrat : Chaire de professeur Junior
Durée du contrat : 4 ans
Date d'embauche prévue : 1 juillet 2023
Quotité de travail : Temps complet
Rémunération : Rémunération brute annuelle de 54 600 Euros à 57 800 Euros selon l’expérience professionnelle
Thématique scientifique : Traitement des grandes masses de données expérimentales ou observationnelles, à haut débit et en temps réel sur des infrastructures de calcul haute performance. Des approches relevant de l'Intelligence Artificielle seront utilisées dans la perspective de l'Exascale en tenant compte des impératifs de sobriété énergétique.
Mots clés : Big Data, HPC, HTC, Intelligence artificielle, Calcul en temps réel, Exascale
Section(s) CN : Sciences de l'information : fondements de l'informatique, calculs, algorithmes, représentations, exploitations
Profil Recherché
Titulaire d’un doctorat ou diplôme équivalent ou justifiant de titres et travaux scientifiques jugés équivalents par l’instance compétente de l’établissement. Il n’y a aucune condition d’âge ou de nationalité pour candidater. Tous les emplois CNRS sont accessibles aux personnes en situation de handicap en bénéficiant d’aménagement d’épreuves rendus nécessaires par la nature du handicap
Stratégie d'établissement
La diffusion des résultats passera par des productions scientifiques (publications, logiciels, patents…) de niveau mondial. Par ailleurs, le projet mettra en œuvre une communication vers des cibles diverses telles que communautés scientifiques, médias, décideurs, grand public, scolaires, etc., avec un calendrier adapté. Des outils spécifiques pourront être développés comme des sites web, des newsletters ou encore des rencontres, colloques internationaux, écoles d’été et conférences.
Plus précisément, les résultats de ces recherches et leurs impacts pour les applications de physique ainsi que les méthodes numériques développées dans le cadre de ce projet feront l’objet de présentations aux conférences dédiées et seront publiées dans les revues scientifiques du domaine. Ainsi outre les revues du domaine de l’informatique, la très prestigieuse série de conférences (organisée tous les 18 mois) International Conference on Computing in High Energy & Nuclear Physics (CHEP) et des publications dans la revue Computing and Software for Big Science seront visés.
Stratégie du laboratoire d'accueil
Ce projet se place dans la continuité de la synergie entre le CC-IN2P3, l’IDRIS et GENCI initiée par le projet FITS afin d’apporter ressources (calcul, stockage) et outils pour le traitement des données des infrastructures de recherche (IR et IR*). En aval de la disponibilité des calculateurs Exascale, caractérisés par des architectures massivement accélérées, le projet proposé permettra de se préparer à leur utilisation, dans l’optique de traitements de données massives en particulier pour les expériences du LHC. Les collaborations LHC ont déjà produit 2 exaoctets de données et leur exploitation actuelle repose principalement sur des infrastructures de calcul du type High Throughput Computing distribué. Ainsi, la grille de calcul WLCG est bâtie sur un réseau mondial de plus de 250 sites opérant des fermes de calcul et des moyens de stockage interconnectés pour traiter l’ensemble des données. Le CC-IN2P3 est l’un des douze centres de premier niveau. Explorer d’autres architectures possibles, en particulier une utilisation optimisée des infrastructures tel que le supercalculateur Jean Zay, pourrait permettre à terme une utilisation croisée des différentes infrastructures de calcul. Ce projet permettra en outre de renforcer les coopérations entre l’équipe de recherche du CC-IN2P3 et celles des laboratoires lyonnais de l’INS2I, le LIRIS ou le LIP.
Stratégie Internationale
Grâce à ce rapprochement, le CNRS peut se doter d’infrastructures de traitements de données complémentaires interopérées telles qu’elles existent dans d’autres pays européens (Allemagne, Pays-Bas, Italie). L’utilisation du calcul HPC pour le traitement des données massives est déjà fortement utilisée aux États-Unis. La collaboration entre le CC-IN2P3 et l’IDRIS sur les questions d’utilisation croisée des ressources s’inscrit dans la continuité des projets dans lesquels ces 2 unités se sont engagées depuis plusieurs années et dans de le cadre de collaborations internationales de premier plan, notamment avec le CERN, qui conduit le développement des architectures du traitement des données du LHC d’une part, et contribue, d’autre part, à des actions visant à proposer des architectures de traitement ou de stockage unifiées également capables de répondre aux besoins d’autres communautés scientifiques.
Répertoire national des structures de recherche (RNSR) du laboratoire d'accueil
197619804K
Résumé du projet scientifique
Le projet doit développer les outils nécessaires pour un traitement des données sur des infrastructures de calcul et de stockage de données de différents types. Pour cela, les outils doivent être conçus pour rendre cette utilisation largement transparente aux utilisateurs, en tenant compte des contraintes imposées par chaque type d’infrastructure. Des workflows et des logiciels qui gèrent à la fois les ressources de calcul et le stockage des données et leur transfert de manière optimisée doivent être conçus, adaptés, intégrés. Ces développements nécessiteront l’utilisation d’intelligence artificielle et de technologies de calcul diversifiées ainsi que l'adaptation ou la conception de nouvelles méthodes permettant d'exploiter au mieux les calculateurs exascale. La sobriété énergétique des chaînes de traitement de données devra aussi être au cœur de ces recherches. Bien que le traitement de données du HL-LHC sera pris comme exemple concret d’implémentation, les travaux auront une portée plus large et guideront certainement les pratiques pour le traitement intensif des données d’autres grandes infrastructures de recherche à venir.
Résumé du projet d'enseignement
Les activités de la personne recrutée s’inscriront dans la dynamique de formation de l'un des établissements lyonnais partenaires dans le domaine du calcul, du traitement et de la gestion des donné, qui mènent à un profil communément appelé « Data Scientist ». A travers ce projet de chaire, la personne sera naturellement amenée à proposer des modules de formation par la recherche sur le terrain. Ses compétences ne doivent pas seulement relever du domaine des architectures des infrastructures de calcul, mais également de celles des domaines et de l’intelligence artificielle. Le candidat recruté pourra contribuer à des formations à de niveaux variés telles que l’IUT de l’Université Claude Bernard Lyon 1, à la Licence et le Master de Physique ou encore à l’enseignement de ENS Lyon. L’enseignant-chercheur aura pour tâche de développer un enseignement de haut niveau, également en langue anglaise afin de répondre à la dynamique d’ouverture internationale
Environnement Financier
- Total financé (dont package ANR) : 200 k€
- Co financement : 210 k€
- Total du projet : 410 k€
Diffusion scientifique
La diffusion des résultats passera par des productions scientifiques (publications, logiciels, patents…) de niveau mondial. Par ailleurs, le projet mettra en œuvre une communication vers des cibles diverses telles que communautés scientifiques, médias, décideurs, grand public, scolaires, etc., avec un calendrier adapté. Des outils spécifiques pourront être développés comme des sites web, des newsletters ou encore des rencontres, colloques internationaux, écoles d’été et conférences.
Plus précisément, les résultats de ces recherches et leurs impacts pour les applications de physique ainsi que les méthodes numériques développées dans le cadre de ce projet feront l’objet de présentations aux conférences dédiées et seront publiées dans les revues scientifiques du domaine. Ainsi outre les revues du domaine de l’informatique, la très prestigieuse série de conférences (organisée tous les 18 mois) International Conference on Computing in High Energy & Nuclear Physics (CHEP) et des publications dans la revue Computing and Software for Big Science seront visés.
Science ouverte
Le CNRS développe une politique forte en faveur de la science ouverte. La science ouverte consiste à rendre « accessibles autant que possible et fermés autant que nécessaire » les résultats de la recherche. À ce titre, le CNRS vise à ce que 100 % des textes des publications issues des travaux de ses unités soient rendues accessibles, notamment grâce au dépôt dans HAL. Les données produites doivent aussi être rendues disponibles et réutilisables, sauf restriction particulière. Par ailleurs, les principes directeurs de l’évaluation individuelle sont revus en conformité avec la déclaration DORA, plus qualitatifs et tenant compte de toutes les facettes du métier de chercheur.
La publication des codes est une pratique généralisée et motrice de progrès dans la science des données. Ce projet adopte naturellement cette culture établie et rendra publiques les méthodes, algorithmes et codes développés. Par ailleurs les collaborations du LHC mentionnées dans ce projet ont chacune une politique forte d’ouverture des données, des logiciels et des publications soutenues par le CERN qui a été précurseur en la matière. De même la très grande majorité (>90%) des publications de l’IN2P3 sont déjà actuellement en accès ouvert.
Science et société
La relation science-société est désormais reconnue comme une dimension à part entière de l'activité scientifique. Le projet développera cette dimension en synergie avec tous les partenaires. Les travaux de recherche qui en seront issus contribueront à éclairer la décision publique. Des initiatives de sciences participatives pourront être initiées avec des acteurs de l’écosystème socio-économique et culturel du projet.
Par ailleurs, le projet mettra en œuvre une communication vers des cibles diverses telles que communautés scientifiques, médias, décideurs, grand public, scolaires, etc., avec un calendrier adapté. Ainsi, les actions de communication au CC-IN2P3 utilisent une grande diversité de formats : articles, conférence, rencontres avec le public (fête de la science), visite des infrastructures et du musée, événements numériques interactifs (plateforme twitch,...).
Indicateurs
L’activité sera évaluée notamment sur la base de la production scientifique (publications, logiciels, patent, etc.), sur les partenariats institutionnels et privés formalisés par des contrats, sur le rayonnement international, sur la valorisation des travaux vers des communautés scientifiques pluridisciplinaires, sur l’innovation et son transfert vers la société et sur la diffusion scientifique à destination de publics non spécialistes.
Plus spécifiquement, l’avancée du projet sera suivie pas les revues de projets pratiqués de manière standard au CC-IN2P3 et à l’IN2P3. Le succès du projet se mesurera par la fonctionnalité du système développé, mais aussi par les publications dans les revues telles que Computing and Software for Big Science et celles liées aux domaines de recherche concernés, ainsi que des présentations en conférence telle que l’International Conference on Computing in High Energy & Nuclear Physics (CHEP)) et des communications et démonstrations par exemple à la conférence Supercomputing organisée tous les ans aux États-Unis ou dans des revues et conférences relevant du calcul haute performance, de l'analyse de données ou de l'IA.
Modalités d'organisation des auditions
Seul(e)s seront convoqué(e)s aux auditions les candidat(e)s sélectionné(e)s sur dossier par la commission de sélection