Informations générales
Intitulé de l'offre : H/F Étudiant en thèse en apprentissage statistique pour la génomique
Référence : UMR5525-NELVAR-002
Nombre de Postes : 1
Lieu de travail : LA TRONCHE
Date de publication : vendredi 26 mai 2023
Type de contrat : CDD Doctorant/Contrat doctoral
Durée du contrat : 36 mois
Date de début de la thèse : 1 septembre 2023
Quotité de travail : Temps complet
Rémunération : 2 135,00 € brut mensuel
Section(s) CN : Modélisation mathématique, informatique et physique pour les sciences du vivant
Description du sujet de thèse
# Contexte scientifique
Les protéines sont des molécules biologiques composées d'acides aminés qui se regroupent en centaines de milliers de familles différentes, dont les fonctions varient. Elles s'associent souvent entre elles pour remplir des fonctions cellulaires et s'assemblent en systèmes macromoléculaires. Un exemple de ces systèmes macromoléculaires est celui des systèmes de sécrétion, systèmes utilisés par les bactéries pour interagir avec leur environnement pour l'acquisition de nutriments, la défense, l'administration de toxines, …
Il existe souvent plusieurs sous-types (ou variants) d'un système macromoléculaire, qui se spécialisent en différentes fonctions au cours de l'évolution. Ils peuvent être constitués de familles de protéines très similaires. La détection précise du nombre de types de systèmes macromoléculaires et des familles de protéines impliquées dans chaque sous-type est d'une importance cruciale pour évaluer correctement la fonction des nouvelles protéines dans les génomes : un processus appelé "annotation fonctionnelle".
Les méthodes actuelles de détection et d'annotation des systèmes macromoléculaires codés par les génomes identifient d'abord les protéines d'intérêt à partir de la similarité des séquences des familles de protéines impliquées dans des systèmes similaires. Elles s'appuient ensuite sur l'étude d'un certain nombre de propriétés, telles que les schémas de cooccurrence dans de grandes bases de données de génomes, les schémas de co-expression, la co-localisation des gènes correspondants sur le génome, etc. Ces approches nécessitent donc un travail manuel important pour identifier les schémas d'organisation génomique spécifiques à chaque système et sous-système.
Nous proposons d'étudier et de développer des approches d'apprentissage automatique pour relever le défi de l'annotation fonctionnelle de manière automatisée.
Objectifs: Développer des outils d'apprentissage statistique pour répondre aux questions suivantes : Étant donné un ensemble de protéines candidates impliquées dans une fonction / un complexe pour un grand nombre d'organismes, pouvons-nous détecter automatiquement le nombre de sous-types du système macromoléculaire (par exemple, le nombre de types de systèmes de sécrétion) et quelle famille de protéines est impliquée dans chaque sous-type ?
Les approches d'apprentissage automatique sont particulièrement puissantes pour extraire et généraliser de nouvelles connaissances à partir de données hautement dimensionnelles, complexes et bruyantes. En particulier, les approches d'apprentissage non supervisé telles que la factorisation de la matrice non négative sont utilisées pour détecter automatiquement des modèles de corrélation dans de grands ensembles de données et constituent une voie prometteuse pour résoudre automatiquement ce problème.
# Méthodologie
Pour atteindre cet objectif, nous proposons la feuille de route suivante.
- **Approches de déconvolution pour la détection de sous-types de systèmes** Étant donné une matrice X où chaque ligne correspond à un organisme, chaque colonne à une famille de protéines et chaque entrée au nombre de fois que cette famille de protéines est trouvée dans un organisme, pouvons-nous factoriser X en deux matrices non négatives, l'une correspondant à quels homologues sont trouvés dans quel sous-type de système macromoléculaire, l'autre correspondant au nombre de fois que chaque système macromoléculaire est trouvé dans chaque organisme ? Un défi lors de l'utilisation de telles approches non supervisées est d'ajuster l'hyperparamètre du modèle (par exemple, le nombre de sous-types). Nous proposons d'étudier deux stratégies. Premièrement, dans ce cas particulier, certains systèmes macromoléculaires sont bien connus et bien étudiés. Nous proposons d'utiliser ces connaissances pour superviser l'apprentissage des hyperparamètres. Deuxièmement, pour s'assurer qu'une telle approche peut être appliquée à des systèmes pour lesquels aucune connaissance partielle n'est connue, nous examinerons si l'analyse de stabilité peut être utilisée à la place.
- **Codage des caractéristiques et n-grammes de protéines** Les familles de protéines impliquées dans ces systèmes macromoléculaires ont tendance à être liées. En tant que tel, un "codage unique" de chaque protéine de ces familles de protéines peut s'avérer naïf. En outre, la colocalisation des familles de protéines le long du génome peut fournir des informations précieuses. En s'inspirant du traitement du langage naturel, un meilleur codage des caractéristiques pourrait tirer parti de ces informations précieuses (avec un codage des catégories sales et/ou des n-grammes de protéines).
- Faciliter la reproductibilité et l'ouverture de la science en partageant la méthode dans un package open-source de haute qualité.
## Ensembles de données
Plusieurs systèmes macromoléculaires peuvent être annotés à l'aide d'un outil que nous avons développé et qui s'appelle MacSyFinder. Nous avons téléchargé et annoté environ 30 000 génomes complets de bactéries avec les systèmes macromoléculaires suivants :
- Les systèmes de sécrétion sont essentiels pour permettre aux organismes bactériens d'interagir avec leur environnement, comme l'acquisition de nutriments, la mise en place de défenses biotiques, ainsi que la délivrance de facteurs de virulence. On connaît actuellement 12 systèmes de sécrétion bactériens de taille variable (1 à 15 protéines impliquées).
- Systèmes de défense utilisés par les organismes bactériens pour se défendre contre les virus et les éléments génétiques mobiles.
Contexte de travail
TIMC est une unité de recherche mixte CNRS/Université Grenoble Alpes qui rassemble des scientifiques et cliniciens à travers le développement et l'utilisation de la science informatique et de la biologie computationnelle afin de comprendre et contrôler les processus normaux et pathologiques en biologie et santé. L'unité est basée à Grenoble, une des villes étudiantes et académiques les plus grandes de France, située près des Alpes, campus de La Tronche (Tram B).
Le candidat sera hébergé au TIMC, dans l'équipe TrEE, supervisé par Nelle Varoquaux et Sophie Abby. l'équipe TrEE combine des approches interdisciplinaires expérimentales et in silico pour comprendre les mécanismes évolutifs d'adaptation des microorganismes à leur environnement ou à l'hôte qu'ils habitent ou infectent, et pour développer des applications biotechnologiques.
- Site internet TIMC : https://www.timc.fr/presentation
- Site internet du groupe de travail compbio@TrEE: https://tree-timc.github.io/compbio
- Site internet de l'équipe: http://www.timc.fr/en/tree
Cette thèse est financée par une bourse ANR qui vise à développer des approches d'apprentissage automatique pour détecter de nouveaux systèmes de sécrétion en collaboration avec des experts de ces systèmes.
Contraintes et risques
Aucun risque identifié
Informations complémentaires
Le profil recherché est celui d'un étudiant diplômé (Master ou équivalent) en informatique (spécialité intelligence artificielle, science des données ou bio-informatique) ou en mathématiques appliquées (spécialité traitement du signal ou statistiques) qui a un fort intérêt pour le travail interdisciplinaire en biologie. Ils doivent avoir des compétences en programmation (R ou Python) et parler couramment le français ou l'anglais.