En poursuivant votre navigation sur ce site, vous acceptez le dépôt de cookies dans votre navigateur. (En savoir plus)
Portail > Offres > Offre UMR5535-CHALEC-001 - Post-doc 3 ans en apprentissage automatique et régulations génomiques (H/F)

Post-doc 3 ans en apprentissage automatique et régulations génomiques (H/F)

Cette offre est disponible dans les langues suivantes :
Français - Anglais

Date Limite Candidature : mercredi 12 octobre 2022

Assurez-vous que votre profil candidat soit correctement renseigné avant de postuler. Les informations de votre profil complètent celles associées à chaque candidature. Afin d’augmenter votre visibilité sur notre Portail Emploi et ainsi permettre aux recruteurs de consulter votre profil candidat, vous avez la possibilité de déposer votre CV dans notre CVThèque en un clic !

Informations générales

Référence : UMR5535-CHALEC-001
Lieu de travail : MONTPELLIER
Date de publication : mercredi 21 septembre 2022
Type de contrat : CDD Scientifique
Durée du contrat : 36 mois
Date d'embauche prévue : 1 janvier 2023
Quotité de travail : Temps complet
Rémunération : 2833€ Brut 2280€ Net
Niveau d'études souhaité : Bac+5
Expérience souhaitée : 1 à 4 années

Missions

Comprendre comment les séquences ADN régulatrices agissent pour contrôler l'expression du génome, et déchiffrer le code cis-régulateur de l'ADN, est essentiel pour interpréter cliniquement la myriade de variations génétiques observées dans les génomes individuels et pour favoriser la médecine génomique [Zeitlinger, 2020]. La richesse des données génomiques à haute résolution offre une occasion unique de décoder cette syntaxe à l'échelle du génome, et, dans cette tâche, la bioinformatique et les méthodes d'apprentissage automatique sont déterminantes. De nombreuses approches ont déjà été développées [Libbrecht & & Noble, 2015 ; Eraslan et al., 2019], non seulement pour identifier les motifs des facteurs de transcription (TF) [Bailey TL & Elkan, 1944 ; Bussmaker et al., 2001] mais aussi les motifs prédictifs des modifications des histones, de l'ouverture de la chromatine ou directement de l'expression des ARN, avec souvent une grande précision [Zhou et al., 2015 ; Agarwal et al., 2020 ; Kelley et al., 2018 ; Avsec et al., 2021]. Si les hautes précisions obtenues par ces méthodes confirment l'existence d'instructions au niveau de la séquence pour la régulation du génome et l'expression de l'ARN, la plupart d'entre elles se concentrent sur des nucléotides et des motifs uniques (typiquement des sites de liaison de facteurs de transcription (TF)) et ne tiennent pas compte du fait que la distribution des nucléotides le long du génome n'est pas uniforme [Bernardi et al., 1985 ; Bessière et al., 2018]. Or, cette distribution particulière crée de grandes régions relativement homogènes de faible complexité (LCR), qui peuvent être dues à un biais dans le contenu en nucléotides ou à la présence de répétitions en tandem (par exemple, les microsatellites), ou à une combinaison de ces deux caractéristiques [Bernardi et al., 1985 ; Orlov & Potapov, 2004]. Les LCR peuvent jouer des fonctions essentielles dans diverses régulations génomiques, ce qui en fait des éléments clés du code cis-régulateur de l'ADN. Alors que plusieurs approches ont depuis longtemps été proposées pour modéliser leur complexité textuelle [Orlov & Potapov, 2004], la méthode DExTER développée par notre équipe reste la seule approche conçue pour caractériser spécifiquement et automatiquement les LCRs associés à leurs fonctions régulatrices désormais largement admises [Menichelli et al., 2021]. Dans le présent projet, nous proposons de poursuivre nos efforts et de développer des méthodes statistiques d'apprentissage automatique, inspirées des modèles de Markov cachés (HMMs) et des réseaux de neurones convolutifs (CNNs), visant à caractériser spécifiquement les LCRs impliqués dans deux processus biologiques fondamentaux : La transcription de l'ARN et la liaison des TF. Ces modèles seront entraînés avec des données collectées dans différentes lignées cellulaires et dans différentes espèces (de l'homme au Plasmodium falciparum). Les processus biologiques choisis seront étudiés par ces méthodes, en ne changeant que la variable prédite (régression et variable continue pour la transcription de l'ARN ; classification binaire pour la liaison des TF) et les algorithmes d'apprentissage. Les LCR identifiés par ces analyses seront ensuite validés expérimentalement par les expérimentateurs du consortium (laboratoire S. Spicuglia, Marseille, pour les cellules humaines, et JJ. Lopez-Rubio, Montpellier, pour P. falciparum).

D'un point de vue fondamental, notre projet permettra d'identifier de nouvelles régions régulatrices et d'évaluer leur évolution/conservation chez plusieurs espèces. Ces résultats devraient fournir de nouvelles pistes de recherche expliquant au moins en partie l'hétérogénéité de la composition nucléotidique des génomes. Ils permettront également de mieux comprendre les régulations transcriptionnelles observées chez un pathogène humain important, P. falciparum, qui demeurent encore mal connues. Notre projet a également des applications prometteuses et innovantes en santé publique, notamment en médecine génomique. Nos méthodes sont en effet de première importance pour délimiter de nouvelles régions régulatrices et caractériser leurs compositions nucléotidiques, permettant ainsi une meilleure interprétation de milliers de variations situées dans ces régions et parfois liées à des traits cliniques (par GWAS ou eQTL) sans qu'aucun mécanisme moléculaire ne soutienne ces régulations. En fait, la plupart des variations génétiques observées chez les individus sont situées dans des régions non codantes non annotées du génome, ce qui empêche leurs interprétations biologiques et cliniques. Notre projet devrait commencer à combler cette lacune.

Activités

- développement de méthodes statistiques et d'apprentissage automatique inspirées des modèles de Markov cachés (HMM) et des réseaux neuronaux convolutifs (CNN)

- diffusion des modèles à la communauté scientifique afin de rendre les codes librement disponibles.

Compétences

- Le candidat devra être titulaire d'un doctorat en bioinformatique, en informatique, en statistique ou dans un domaine connexe, et posséder une expérience de moins de deux ans après la soutenance de thèse.
- Solides compétences en programmation (Python, R et/ou C++).
- Être familier avec la génétique, la génomique et/ou l'expression des gènes est un avantage mais ces connaissances peuvent être acquises au cours du projet par les interactions avec les membres du consortium et/ou avec des cours théoriques et des ateliers dédiés.
- Des qualités individuelles telles que l'adaptabilité, la persévérance, la créativité et le travail en équipe sont attendues.
- Niveau d'anglais équivalent à B2

Contexte de travail

Le candidat travaillera dans une équipe pluridisciplinaire (alliant biologie, informatique et statistiques), hébergée au Laboratoire d'Informatique, de Robotique et de Micro-élctronique de Montpellier, en collaboration avec des expérimentateurs (Montpellier et Marseille), et dans un environnement international très actif (avec des collaborateurs du CRG, Barcelone, Espagne ; UBC, Vancouver, Canada ; RIKEN Yokohama, Japon).

On en parle sur Twitter !