En poursuivant votre navigation sur ce site, vous acceptez le dépôt de cookies dans votre navigateur. (En savoir plus)

TransIA: Inférence de la transmission culturelle du succès reproducteur à partir des données génomiques avec des méthodes d'IA - H/F

Cette offre est disponible dans les langues suivantes :
Français - Anglais

Assurez-vous que votre profil candidat soit correctement renseigné avant de postuler. Les informations de votre profil complètent celles associées à chaque candidature. Afin d’augmenter votre visibilité sur notre Portail Emploi et ainsi permettre aux recruteurs de consulter votre profil candidat, vous avez la possibilité de déposer votre CV dans notre CVThèque en un clic !

Faites connaître cette offre !

Informations générales

Référence : UMR7206-TAOLAH-001
Lieu de travail : PARIS 16
Date de publication : vendredi 10 mai 2019
Nom du responsable scientifique : HEYER Evelyne
Type de contrat : CDD Doctorant/Contrat doctoral
Durée du contrat : 36 mois
Date de début de la thèse : 1 octobre 2019
Quotité de travail : Temps complet
Rémunération : 2 135,00 € brut mensuel

Description du sujet de thèse

Résumé
L'accès à de grandes quantités de données génomiques amène à développer des méthodes basées sur l'apprentissage statistique automatique afin de reconstituer l'histoire démographique des populations (notamment humaines) en exploitant au mieux ces données. Un des défis est d'intégrer dans ces analyses des phénomènes culturels comme la transmission culturelle du succès reproducteur.
Cette transmission existe lorsque le succès reproducteur des individus dépend d'un trait culturel (la richesse, le statut social, le réseau de connaissance) qui est lui-même transmis d'une génération à la suivante. Elle influe alors fortement l'évolution de la diversité génétique et nous avons déjà défini une statistique basée sur le déséquilibre des arbres de coalescence qui permet de détecter la transmission unilinéaire (par les femmes avec l'ADN mitochondrial ou par les hommes avec le chromosome Y). Il s'agit maintenant de développer à une toute autre échelle, à partir de grands jeux de données génomiques, des méthodes d'IA capable de détecter cette transmission lorsqu'elle touche l'ensemble du génome du fait d'une transmission tant par les hommes que par les femmes.

Contexte
L'histoire démographique des populations humaines est faite de changements démographiques, de structuration géographique, de migrations mais elle dépend aussi de facteurs culturels. Ainsi, la transmission culturelle du succès reproducteur est un des phénomènes qui potentiellement influe fortement l'évolution génétique des populations humaines. Ce phénomène existe lorsque le succès reproducteur des individus dépend d'un trait culturel (la richesse, le statut social (von Rueden et Jaeggi, 2016), des traditions (Beaujouan et Solaz, 2016), l'étendue du réseau social (Page et al., 2017) qui est lui-même transmis d'une génération à la suivante (Chaudhary et al., 2016). La transmission culturelle du succès reproducteur a un impact fort sur la diversité génétique des populations : il réduit l'effectif efficace et modifie la forme des arbres de coalescence (Sibert et al., 2002). A partir de ces propriétés, nous avons pu dans les années précédentes développer une statistique basée sur le déséquilibre des arbres de coalescence. Ainsi nous avons mis en évidence l'existence de cette transmission culturelle lorsqu'elle est transmise par une filiation unilinéaire ; par les hommes, ou par les femmes. Les tests développés sont basés sur la phylogénie du chromosome Y et de l'ADN mitochondrial respectivement (Brandenburg et al., 2012). Ils nous ont permis de démontrer l'existence d'une transmission par les femmes du succès reproducteur chez les populations de chasseurs-cueilleurs (Blum et al., 2006), et celle d'une transmission par les hommes dans les populations d'éleveurs-nomades patrilinéaires (Heyer et al., 2015), et plus récemment chez les amérindiens d'Amazonie par les hommes (Arias et al., 2018).
Dans les rares populations humaines où des données démographique et généalogiques existent sur plusieurs générations, il a été possible de mesurer directement une corrélation du succès reproducteur d'une génération à la suivante : le Québec (Austerlitz et Heyer, 1998), l'Islande (Helgason et al., 2003), les Huttérites (Pluzhnikov et al., 2002). Cette corrélation n'est pas simplement unilinéaire, c'est-à-dire les cas où le nombre de fils corrèle avec le nombre de frères ou le nombre de filles corrèle avec le nombre de sœurs, mais c'est la taille moyenne des familles qui est transmise d'une génération à la suivante tout sexe confondu , on parle de transmission indifférenciée. Il s'agit maintenant de développer un nouveau test statistique qui 1) puisse détecter une transmission non-unilinéaire 2) s'appuie sur les grands jeux de données génomiques pour ensuite l'appliquer aux données NGS disponibles soit au laboratoire soit dans la littérature.

Objectif
Développer une méthode qui puisse détecter dans les grands jeux de données génomiques l'existence de cette transmission du succès reproducteur en combinant un ensemble de signaux. Les approches d'apprentissage statistique permettent justement d'utiliser conjointement des multi-signaux que ce soit à partir de signaux précalculés à l'aide d'une connaissance experte, ou de sigaux détectés automatiquement au cours de l'apprentissage. Cependant ces méthodes et en particulier celles d'apprentissage profond n'ont à notre connaissance jamais été utilisées pour l'inférérence de traits culturels et émergent depuis très peu en génétique des populations.

Méthodologies à mettre en place
(1) Simulations de données génétiques whole genome sous différents scénarios, avec ou sans transmission du succès reproducteur (reposant sur des simulations forward individu centré où il est possible d'intégrer dans la fonction reproduction le nombre d'enfants de la génération précédente)
(2) Implémentation de différentes statistiques reliées à la tansmission du succès reproducteur, à la démographie et à la sélection (forme de l'arbre, Fst, longueurs d'haplotypes partagés, fréquences alléliques) et exploration de leur distribution le long du génome pour des scénarios extrêmes.
Les données et statistiques ainsi générées seront ensuite analysées par des approches d'apprentissage (machine learning et deep learning)
(3) Apprentissage statistique semi-automatique. Développement d'une méthode de classification (ie prédire s'il y a oui ou non transmission du succès reproducteur) et d'inférence (estimation du facteur de transmission) à partir des statistiques résumées proposées à l'étape (2) à partir d'un algorithme de type ABC-RF (Approximate Bayesian Computation Random Forest ; Pudlo et al., 2016 ; Raynal et al., 2017) ou à partir de réseaux de neuronnes profonds MLP (Multi Layer Perceptron, Sheehan and Song 2016). Cette approche permettra l'utilisation d'un grand nombre de statistiques résumées couvrant donc mieux les caractéristiques du processus de transmission.
(4) Apprentissage automatique. Remplacer la tâche de construction de statistiques expertes par la détection automatique des signaux caractérisant la transmission du succès reproducteur. Pour ce faire le même jeu de données génétiques simulées peut être utilisé pour entrainer un réseau profond plus complexe. En particulier, il a été très récemment montré qu'il est possible de détecter des signaux démographiques, de sélection et de recombinaison (à l'échelle de la population) à l'aide de réseaux de neurones convolutionnels (travaux en cours au LRI, Sanchez et al., 2017 ; Chan et al., 2018 ; Flagel et al., 2018). Ces réseaux devront être étendus à l'estimation de la transmission du succès reproducteur.
(5) Applications aux données de populations actuelles

Compétences
Programmation python et/ou R, bash
Machine learning / statistiques
Connaissances en génétique des populations


Mots-clés
IA - Big data génomique – transmission culturelle – évolution humaine

Contexte de travail

Affecté.e au Musée de l'Homme,Paris au Laboratoire d'Eco-anthropologie - UMR 7206 et rattaché.e à l'équipe Anthropologie Génétique (AGène), sous la direction du Pr Evelyne HEYER, et la codirection de Frédéric AUSTERLITZ (Directeur de recherche, Eco-anthropologie) et Flora JAY (Chargée de recherche,Laboratoire de Recherche en Informatique (LRI) Orsay/Saclay - UMR8623)

Horaires 38h30 répartis du lundi au vendredi (plage horaire 8h-20h)

Contraintes et risques

Bien qu'affecté.e principalement à l'UMR 7206 Eco-anthropologie, prévoir des déplacements au Laboratoire de Recherche en Informatique (LRI), Orsay/Saclay (UMR8623)

On en parle sur Twitter !