En poursuivant votre navigation sur ce site, vous acceptez le dépôt de cookies dans votre navigateur. (En savoir plus)
Portail > Offres > Offre UMR6074-ANNBUZ-027 - Ingénieur en analyse de données bioinformatiques (H/F)

Ingénieur en analyse de données bioinformatiques (H/F)


Date Limite Candidature : samedi 18 janvier 2025 23:59:00 heure de Paris

Assurez-vous que votre profil candidat soit correctement renseigné avant de postuler

Informations générales

Intitulé de l'offre : Ingénieur en analyse de données bioinformatiques (H/F)
Référence : UMR6074-ANNBUZ-027
Nombre de Postes : 1
Lieu de travail : RENNES
Date de publication : samedi 28 décembre 2024
Type de contrat : IT en contrat de projet
Durée du contrat : 36 mois
Date d'embauche prévue : 17 mars 2025
Quotité de travail : Complet
Rémunération : Entre 2 466,98 € et 3 185,96 € selon expérience
Niveau d'études souhaité : BAC+5
Expérience souhaitée : Indifférent
BAP : E - Informatique, Statistiques et Calcul scientifique
Emploi type : Ingénieur-e en ingénierie logicielle

Missions

La mission du CDD projet est de mettre en place l’environnement informatique permettant de produire de façon automatisée :
• l’annotation fonctionnelle des gènes et protéines identifiés dans les génomes séquencés : à cette fin, des logiciels d’analyse bioinformatique seront conçus, testés et appliqués sur les données issues du projet ciblé SEQ-SEA. Cette étape cruciale doit permettre d’attribuer de façon automatique une fonction putative aux gènes identifiés dans chaque génome. Ces informations seront mises à disposition de la communauté scientifique via les différents portails web mis en place dans le cadre des autres work-packages de BYTE-SEA ;
• des annotations structurales expertes sur des groupes d’espèces spécifiques : l’objectif est de créer des logiciels d’annotation structurales spécifiquement dédiés aux génomes de certains groupes d’espèces de la biodiversité. En effet, si le projet SEQ-SEA doit produire une annotation de base selon une méthodologie unique, il est attendu que face à l’immense diversité des 4500 espèces séquencées, cette méthode nécessite d’être adaptée pour certaines des espèces séquencées en raison de leurs caractéristiques génomiques (e.g. sites d’épissages non canoniques, densité en gène, taille et nombre d’exons).

Activités

Déroulement des activités du CDD de projet
La mission se déroulera sur 3 années à travers la réalisation en parallèle de 2 « workpackages » détaillés ci-dessous (correspondant aux workpackages 4.1 et 4.2 du projet ciblé BYTE-SEA). Les tâches de chaque « workpackage » seront menées simultanément pour atteindre les sous-livrables intermédiaires et finaux. L’état d’avancement des sous-livrables sera réalisé à la fin de chaque « workpackage » (prévus à t0+36) par l'IE CNRS au laboratoire IRISA (UMR 6074), Responsable technique de la plateforme GenOuest.
Le résultat objectif, qui déterminera la fin du contrat, sera l'obtention de logiciels finalisés pour l'annotation fonctionnelle et l'annotation structurale des génomes, et de leur utilisation de façon automatisée sur les données produites par le projet ciblé SEQ-SEA.
L'évènement de fin de projet sera la publication de ces logiciels sous une forme réutilisable sur des dépôts publics (en particulier sur le site européen WorkflowHub.eu) avec l'obtention de DOIs (Digital Object Identifiers) associés.

WORKPACKAGE 4.1 : t0  t0 + 36 mois
Tâches :
• Implémentation d’un logiciel automatique d’annotations fonctionnelles
o Revue des composants logiciels existants dans la littérature
o Réalisation de benchmarks permettant d’identifier le meilleur enchaînement de traitements pour les génomes séquencés dans le cadre du projet ATLASea
o Implémentation du logiciel final dans un langage permettant sa réutilisation libre (e.g. Galaxy, Nextflow, SnakeMake)

• Automatisation de l’exécution du logiciel d’annotations fonctionnelles
o Intégration du logiciel dans un système d’intégration continue (GitLab CI) assurant son exécution automatisée sur toutes les données produites par le projet ciblé SEQ-SEA
• Publication du logiciel sur des dépôts publiques
o Dépôt du logiciel en version créé sur des dépôts publiques sous une forme librement réutilisable, en particulier sur le dépôt européen WorkflowHub.eu.
Sous-livrables :
• Délivrance d’un logiciel finalisé d’annotations fonctionnelles à la moitié puis à la fin de la mission (v2.0 et v3.0, D 4.1.2 et D 4.1.3)

WORKPACKAGE 4.2 : t0 mois  t0 + 36 mois
Tâches :
• Intégration de logiciels d’annotations structurales expertes
o Revue des composants logiciels existants dans la littérature
o Mise au point d’une méthode d’évaluation de la qualité des annotations structurales
o Réalisation de benchmarks permettant d’identifier les meilleurs enchaînements de traitements pour différents groupes d’espèces séquencées dans le cadre du projet ATLASea
o Implémentation de logiciels finaux, chacun adapté à certains groupes d’espèces, dans un langage permettant leur réutilisation libre (e.g. Galaxy, Nextflow, SnakeMake)
• Automatisation de l’exécution du logiciel d’annotations fonctionnelles
o Intégration des logiciels produits dans un système d’intégration continue (GitLab CI) assurant leur exécution automatique sur des groupes identifiés de données, produites par le projet ciblé SEQ-SEA.
• Publication des logiciels produits sur des dépôts publiques
o Dépôt d’un ensemble de logiciels créés sur des dépôts publiques sous une forme librement réutilisable, en particulier sur le dépôt européen WorkflowHub.eu.
Sous-livrables :
• Délivrance d’un ensemble de logiciels finalisés d’annotation structurale experte à la fin de la mission (v1.0, D 4.2.2).

Compétences

Savoir-faire :
- Connaissances théoriques et pratiques en annotation de génomes
- Connaissances de systèmes de traitement de données (Galaxy, NextFlow, ...)
- Techniques de packaging logiciel et de conteneurisation (Conda, Docker)
- Maîtrise des langages Python, XML, YML
- Outil de versionning Git et outils de collaboration associés (GitHub, Gitlab, …)
- Bases en intégration continue (GitHub Actions, GitLab CI)
- Bonne connaissance de l'environnement Linux
- Bonne compréhension de l'anglais oral et écrit (niveau européen B2-C1).
- Savoir rédiger des documentations
Savoir-être :
- Capacité à travailler en mode projet et en équipe.
- Capacité à travailler à distance.
- Réactivité, autonomie, initiative, rigueur.
- Capacité d'écoute et sens du contact.
- Capacité à apprendre et se former en continu dans un contexte scientifique en évolution rapide

Résultats attendus et contrôles

Livrable de fin de projet :
Logiciels finalisés d’annotation structurale et fonctionnelle mis au point et validés sur les données du projet ATLASea (D 4.1.2, D4.1.3 et D4.2.2 du projet ciblé BYTE-SEA).
Évènement marquant la fin du projet :
Publication des logiciels produits sur le dépôt européen WorkflowHub.eu.

Contexte de travail

Le PEPR ATLASea est un programme focalisé sur la génomique de la biodiversité marine le long des côtes françaises. Piloté par le CNRS et le CEA, il inclut de nombreuses institutions partenaires en France et s'intègre dans un large contexte international. ATLASea va séquencer les génomes de 4500 espèces le long du littoral français en métropole et en outre-mer. Le programme s'étendant sur 8 ans, va échantillonner la biodiversité marine sous la coordination du MNHN à travers des expéditions et avec l'aide des stations marines (projet ciblé DIV-SEA). Le séquençage et l'assemblage des génomes seront réalisés au Genoscope (projet ciblé SEQ-SEA) sous la coordination de France Génomique, et les données seront gérées et analysées sous la coordination de l'Institut Français de BioInformatique (projet ciblé BYTE-SEA). Des projets pilotes coordonnés par l'ANR proposeront à la communauté scientifique française d'exploiter ces données massives dans le contexte de l’analyse et de la synthèse de molécules marines, de l'écologie des espèces invasives, et de l'innovation.
Le projet ciblé BYTE-SEA, assure l’amélioration et le stockage de l’annotation informatique des génomes séquencés pour y repérer les gènes, retracer leur histoire évolutive et leur assigner des fonctions ; les génomes seront finalement stockés dans des bases de données ouvertes et accessibles à la communauté internationale.
Cette offre de CDD projet CNRS, proposée par la plateforme Genouest du laboratoire IRISA (UMR 6074), partenaire de BYTE-SEA, a spécifiquement pour objectif de mettre en place l’environnement informatique permettant de produire de façon automatisée des annotations fonctionnelles et structurales pour les génomes séquencés par le projet SEQ-SEA.

Le poste sera rattaché à la plate-forme GenOuest du laboratoire de recherche informatique IRISA (UMR 6074) à Rennes. La plate-forme GenOuest est membre de l’Institut Français de Bioinformatique. Implantée dans la communauté bioinformatique depuis plus de 20 ans, GenOuest offre ses services à une large communauté de plus de 800 scientifiques et porte de nombreux projets de développements se focalisant sur le calcul, la reproductibilité des traitements et la gestion des données scientifiques.
L'ingénieur développeur travaillera en étroite collaboration avec les ingénieurs de la plateforme et les partenaires du programme (IFREMER-SeBiMer (Plouzané), ABiMS (Roscoff), IFBcore (Paris), ENS Ulm (Paris), MNHN (Paris) et Genoscope (Evry).
L'IRISA est aujourd'hui l'un des plus grands laboratoires de recherche français (plus de 850 personnes) dans le domaine de l'informatique et des technologies de l'information. Structuré en sept départements scientifiques, l'IRISA est un laboratoire d'excellence dont les priorités scientifiques sont la bioinformatique, la sécurité des systèmes, les nouvelles architectures logicielles, la réalité virtuelle, l'analyse des big data et l'intelligence artificielle. Tourné vers l'avenir de l'informatique et nécessairement tourné vers l'international, l'IRISA est au cœur même de la transition numérique de la société et de l'innovation au service de la cybersécurité, de la santé, de l'environnement et de l'écologie, des transports, de la robotique, de l'énergie, de la culture et de l'intelligence artificielle.


Le poste se situe dans un secteur relevant de la protection du potentiel scientifique et technique (PPST), et nécessite donc, conformément à la réglementation, que votre arrivée soit autorisée par l'autorité compétente du MESR.