En poursuivant votre navigation sur ce site, vous acceptez le dépôt de cookies dans votre navigateur. (En savoir plus)

Thèse (H/F): Fouille de grandes banques de données de séquences pour l'identification de signatures ARN prédictives du phénotype.

Cette offre est disponible dans les langues suivantes :
Français - Anglais

Date Limite Candidature : mardi 23 août 2022

Assurez-vous que votre profil candidat soit correctement renseigné avant de postuler. Les informations de votre profil complètent celles associées à chaque candidature. Afin d’augmenter votre visibilité sur notre Portail Emploi et ainsi permettre aux recruteurs de consulter votre profil candidat, vous avez la possibilité de déposer votre CV dans notre CVThèque en un clic !

Informations générales

Référence : UMR9198-DANGAU-002
Lieu de travail : GIF SUR YVETTE
Date de publication : mardi 2 août 2022
Nom du responsable scientifique : Daniel Gautheret
Type de contrat : CDD Doctorant/Contrat doctoral
Durée du contrat : 36 mois
Date de début de la thèse : 1 novembre 2022
Quotité de travail : Temps complet
Rémunération : 2 135,00 € brut mensuel

Description du sujet de thèse

Le séquençage d'ARN à haut débit (RNA-seq) est un outil unique pour la découverte de biomarqueurs médicaux et de cibles pharmaceutiques. Cependant, alors que plus d'un million de banques RNA-seq humaines sont publiquement disponibles, ce trésor d'information médicale ne peut réaliser son plein potentiel car il est impossible d'interroger directement cette ressource pour mesurer l'expression d'un ARN d'intérêt. Pusieurs projets bioinformatiques ont abordé cette question, mais ils reposent sur des ARN de référence normaux qui ne capturent pas toute la diversité des transcrits qu'on oberve dans les maladies. De nouvelles structures de données sans référence utilisant des k-mers pourraient permettent d'interroger ces grandes bases de séquences. Toutefois, plusieurs améliorations sont nécessaires pour en faire de véritables outils de data mining permettant de découvrir des ARN associés aux maladies humaines.

Dans le cadre d'un nouveau projet ANR, nous allons développer des structures d'indexation capables de gérer des requêtes quantitatives sans référence dans des dizaines de milliers de banques RNA-seq tout en optimisant la consommation disque et mémoire. A cette fin, nous nous appuierons sur notre système d'indexation Reindeer [1]. Nous apporterons des innovations importantes permettant de réduire l'empreinte disque et mémoire de l'outil. D'autre part, nous implémenterons dans la nouvelle version de Reindeer des outils statistiques permettant de cribler les index pour y découvrir des ARN significativement associés à des caractères qualitatifs ou quantitatifs liés au phénotype des échantillons. Ceci nous permettra de découvrir des ARN associés à des caractéristiques cliniques ou cellulaires, et in fine produire de nouveaux modèles de diagnostic/pronostic. Nous créerons des index d'environ 10.000 échantillons à partir des bases de données publiques. A l'aide de ces index, nous proposons une série d'applications visant à mieux comprendre les déterminants du vieillissement et de la senescence cellulaire, deux processus liés et impliqués dans un grand nombre de pathologies. Nous générerons les premiers modèles modèles prédictifs de vieillissement et senescence utilisant des ARN non répertoriés. L'architecture distribuée de notre système, combinée à des serveurs web permettant des interrogations publiques permettra une large communauté d'évaluer d'évaluer nos outils, ouvrant la voie à une gamme d'applications diverses. Notre consortium est composé de bioinformaticiens de quatre institutions, dotés d'une solide expérience en informatique, structure de données, analyse de séquences ARN à haut débit et transcriptomique en santé.

L'étudiant(e) participera aux activités suivantes:

- Une contribution mineure au développement de l'outil d'indexage et son application pour la réalisation d'index transcriptomiques de grande dimension, chainés entre différentes entités et interrogeables de manière centralisée. Il s'agit d'une activité majoritairement informatique qui sera dirigée par nos collaborateurs informaticiens (notamment INRIA/CNRS/Univ Lille). Notre étudiant(e) participera à la sélection et à la récupération des échantillons, ainsi qu'à la création des index.
- La mise en place d'outils biostatistiques permettant d'extraire dans l'index des séquences associées à des caractéristiques d'intérêt biologique (age/senescence, pathologie, type de cellule), de produire des modèles prédictifs à partir de ces variables et de tester ces modèles. Ceci impliquera le développement de procédures de normalisation et d'aggrégation de modèles adaptées à la dimension et à l'hétérogénéité des tables analysées. L'activité sera co-encadrée par une biostaticienne de l'I2BC et menée en collaboration avec nos collègues bioinformaticiens du projet ANR.

L'étudiant(e) acquerera donc une solide experience en intelligence artificielle appliquée à la santé, tout en ayant l'opportunité unique de faire avancer les connaissances sur le vieillissement et le cancer.

Contexte de travail

L'équipe d'accueil, spécialisée en bioinformatique, est composée de 5 chercheurs et enseignants chercheurs permanents. L'étudiant(e) sera intégré à un consortium ANR ("full-RNA": 2022-2026) composé de 4 laboratoires d'informatique et de bioinformatique. Il/elle participera aux réunions de consortium et bénéficiera de nos collaborations au sein de ce groupe.


References
1. Marchet, C., Iqbal, Z., Gautheret, D., Salson, M. & Chikhi, R. REINDEER: efficient indexing of k-mer presence and abundance in sequencing datasets. Bioinformatics. 36, i177–i185 (2020).

Contraintes et risques

NA.

On en parle sur Twitter !