En poursuivant votre navigation sur ce site, vous acceptez le dépôt de cookies dans votre navigateur. (En savoir plus)

Doctorant (H/F) en algorithmique/informatique pour la modélisation de protéines désordonnées

Cette offre est disponible dans les langues suivantes :
Français - Anglais

Assurez-vous que votre profil candidat soit correctement renseigné avant de postuler. Les informations de votre profil complètent celles associées à chaque candidature. Afin d’augmenter votre visibilité sur notre Portail Emploi et ainsi permettre aux recruteurs de consulter votre profil candidat, vous avez la possibilité de déposer votre CV dans notre CVThèque en un clic !

Faites connaître cette offre !

Informations générales

Référence : UPR8001-JUACOR-005
Lieu de travail : TOULOUSE
Date de publication : vendredi 31 juillet 2020
Nom du responsable scientifique : Juan CORTES
Type de contrat : CDD Doctorant/Contrat doctoral
Durée du contrat : 36 mois
Date de début de la thèse : 1 novembre 2020
Quotité de travail : Temps complet
Rémunération : 2 135,00 € brut mensuel

Description du sujet de thèse

Résumé :

Jusqu'à présent, les problèmes informatiques de biologie structurale, tels que la prédiction de la structure, l'amarrage, etc., ont été principalement formulés en supposant que les protéines, dans leur forme fonctionnelle, sont des molécules statiques / rigides. Néanmoins, il existe un corpus croissant de travaux montrant l'importance des protéines qui n'adoptent pas une forme tridimensionnelle bien définie [1,2]. Ce sont les soi-disant protéines intrinsèquement désordonnées (IDPs, acronyme anglais). Les IDPs sont pleinement fonctionnels malgré l'absence de structure permanente secondaire ou tertiaire, et elles exploitent leur plasticité pour effectuer des tâches hautement spécialisées qui sont complémentaires de celles de leurs homologues globulaires [3]. La plupart des IDPs n'ont pas une structure purement aléatoire. Très souvent, elles contiennent de courts fragments partiellement structurés conservés dans l'évolution qui sont responsables de la reconnaissance et de la fonction du partenaire [4]. Le dysfonctionnement des protéines désordonnées dû à des mutations ou à la dérégulation des processus homéostatiques ou post-traductionnels peut induire des maladies graves, telles que le cancer ou la neurodégénérescence. Les propriétés structurelles des IDPs sont essentielles pour déchiffrer les bases de ces processus fonctionnels ou pathologiques. Outre leur importance pour la santé, les IDPs présentent un intérêt majeur dans la science des biomatériaux, où leur nature polymérique hébergeant une grande diversité de fonctionnalités chimiques offre d'innombrables possibilités [5].

La modélisation des IDPs est extrêmement difficile et nécessite un couplage étroit de méthodes expérimentales et informatiques [6,7]. Contrairement aux protéines structurées / globulaires, les IDPs ne peuvent pas être représentées par une seule conformation, et leurs modèles doivent être basés sur des ensembles, impliquant généralement des milliers de conformations représentant une distribution d'états que la protéine adopte en solution [8,9]. Ces dernières années, des chercheurs du LAAS-CNRS (Toulouse) et du CBS (CNRS-Inserm-UM, Montpellier) ont collaboré sur la modélisation d'IDPs, et ils ont développé une nouvelle approche pour générer des ensembles conformationnels réalistes qui surpassent les méthodes existantes [10].

L'objectif de cette thèse, qui sera menée sous la co-direction de Juan Cortés au LAAS-CNRS et Pau Bernadó au CBS, est d'approfondir la relation entre la séquence polypeptidique et les propensions structurelles locales, ce qui est essentiel pour comprendre les fonctions des IDPs. Pour cela, nous nous appuierons sur des méthodes de calcul exploitant plusieurs types de données extraites de méthodes expérimentales (cristallographie aux rayons X, RMN et SAXS). Le point clé de notre approche actuelle est une base de données de conformations de tripeptides extraits de structures protéiques à haute résolution résolues expérimentalement, qui sont organisées à l'aide d'outils de mathématiques appliquées et d'informatique (clustering, structures de données hiérarchiques, ...), puis utilisées pour construire les modèles d'IDPs. Nos premiers résultats ont démontré la capacité de notre méthodologie à construire des modèles réalistes d'IDPs, qui sont en accord avec les données expérimentales de RMN et SAXS [10]. L'objectif de cette thèse est d'aller plus loin dans cette direction, en améliorant et en étendant nos méthodes de modélisation moléculaire pour renforcer leurs capacités prédictives. En ce sens, nous prévoyons de mettre en œuvre des méthodes d'apprentissage automatique et d'exploiter plusieurs bases de données récentes contenant des séquences IDPs, des motifs d'interaction insérés dans des IDPs, et des informations spécifiques aux résidus extraites d'analyses par RMN.

Les développements méthodologiques seront mis en œuvre dans un prototype de logiciel qui sera testé sur deux IDPs pour évaluer expérimentalement sa capacité prédictive:
(1) p53: TP53 est le gène le plus fréquemment muté dans le cancer [11]. Selon cBioPortal (www.cbioportal.org), la plus grande base de données de cellules cancéreuses séquencées, plusieurs mutations oncogènes ont été trouvées dans les extrémités N et C de p53, qui sont des régions intrinsèquement désordonnées contenant des motifs d'interaction pour plusieurs partenaires [12] . Un logiciel développé au cours de la thèse sera appliqué pour évaluer les changements structurels induits par ces mutations. Les mutants induisant les effets structurels les plus forts seront produits et caractérisés structurellement par RMN afin de valider les prédictions.
(2) TIF2: TIF2 est une IDP qui régule la transcription des gènes dans plusieurs récepteurs nucléaires (NR) [13]. Les collaborateurs du CBS ont étudié les caractéristiques structurales d'un fragment de TIF2 contenant trois motifs de liaison NR LLXXLL (manuscrit en préparation). Fait intéressant, ces trois motifs présentent une affinité différente pour les NR, probablement en raison de leurs différentes séquences. Les nouveaux outils de calcul développés au cours de la thèse seront utilisés pour analyser d'autres séquences qui, tout en conservant les résidus de Leucine importants, modifient la structure des motifs. De cette manière, TIF2 sera conçu pour avoir différentes affinités de liaison locales et globales pour les NR. Des expériences de RMN seront menées pour valider nos versions d'ingénierie de TIF2.


Références :
[1] P.E. Wright, H.J. Dyson (2015) Nat Rev Mol Cell Biol, 16:18-29.
[2] V. Csizmok, A.V. Follis, R.W. Kriwacki, J.D. Forman-Kay (2016) Chem Rev, 116:6424-6462.
[3] H. Xie, et al. (2007) J Proteome Res, 6:1882-1898.
[4] P. Tompa, E. Schad, A. Tantos, L. Kalmar (2015) Curr Opin Struct Biol, 35:49-59.
[5] Y. J. Yang, A. L. Holmberg and B. D. Olsen (2017) Annu Rev Chem Biomol Eng, 8:549–575.
[6] D. Eliezer (2009) Curr Opin Struct Biol, 19(1):23-30.
[7] T. N. Cordeiro, F. Herranz-Trillo, A. Urbanek, A. Estaña, J. Cortés, N. Sibille and P. Bernadó (2017) Curr Opin Struct Biol, 42:15-23.
[8] P. Bernadó, L. Blanchard, P. Timmins, D. Marion, R. Ruigrok and M. Blackledge (2005) PNAS, 102:17002-17.
[9] P. Bernadó, M. Blackledge (2010) Nature, 468(7327):1046-8.
[10] A. Estaña, N. Sibille, E. Delaforge, M. Vaisset, J. Cortés, P. Bernadó (2019) Structure, 27(2), 381-391.E2.
[11] C. Kandoth, et al. (2013) Nature, 502:333-339.
[12] H. Tidow, et al. (2007) Proc Natl Acad Sci USA, 104(30):12324-9.
[13] C. Leo, J.D. Chen (2000) Gene, 245:1-11.

Contexte de travail

Ce travail sera effectué au sein du groupe "Robotique et InteractionS" (RIS) du LAAS-CNRS, qui développe une thématique de recherche originale pour la modélisation de biomolécules flexibles basée sur des algorithmes inspirés de la robotique et de l'IA. Le travail se situe dans le contexte d'une collaboration avec le Centre de Biochimie Structurale (CBS) à Montpellier et l'Institut de Mathématiques de Toulouse (IMT).

Contraintes et risques

Pas de risques ni de contraintes spécifiques

On en parle sur Twitter !