Informations générales
Intitulé de l'offre : Doctorant : Correction d’erreurs pour le stockage de données dans des molécules d’ADN (H/F)
Référence : UMR6074-DOMLAV-022
Nombre de Postes : 1
Lieu de travail : RENNES
Date de publication : mardi 22 juillet 2025
Type de contrat : CDD Doctorant
Durée du contrat : 36 mois
Date de début de la thèse : 1 novembre 2025
Quotité de travail : Complet
Rémunération : La rémunération est d'un minimum de 2200,00 € brut mensuel
Section(s) CN : 06 - Sciences de l'information : fondements de l'informatique, calculs, algorithmes, représentations, exploitations
Description du sujet de thèse
STOCKAGE DE DONNEES DANS DES MOLECULES D’ADN SYNTHETIQUE
Les centres de données représentent aujourd’hui autour de 20% de la consommation d’énergie du numérique en France. Une alternative, le stockage de l’information dans des molécules d’ADN synthétique, est ainsi explorée activement depuis quelques années. En plus d’offrir une densité de stockage bien supérieure aux technologies actuelles (jusqu’`a plusieurs exabits au mm3), l’ADN est un support robuste, capable de résister à de fortes variations de température, et durable dans le temps. Il devrait donc permettre de conserver l’information sur le long terme, et de diminuer significativement la consommation d’énergie du stockage.
Une molécule d’ADN est constituée d’une séquence de bases, ou nucléotides, de types A,C,G,T. L’opération de synthèse de l’ADN consiste à construire la molécule correspond à une suite donnée de symboles quaternaires. Actuellement, l’opération de synthèse représente le principal goulot d’étranglement de cette technologie, car elle est lente et coûteuse, bien que très fiable car dédiée à l’origine au domaine médical. La lecture de l’information se fait ensuite par une opération de séquençage, une technique qui introduit une proportion importante d’erreurs (environ 5%) dans les données séquencées.
CORRECTION D’ERREURS
Le codage canal consiste à introduire des redondances structurées dans les données, qui seront exploitées lors du décodage pour corriger les erreurs introduites lors de la transmission ou du stockage des données. Les solutions modernes de codage canal telles que les codes Turbo, les codes LDPC ou les codes Polaires, sont aujourd’hui un rouage indispensable de la majorité des standards de télécommunications (Wi-Fi, radio mobile, etc.) et de stockage de l’information (mémoires RAM, disques durs, etc.), car ils permettent de fiabiliser la transmission et le stockage. Cependant, le stockage de données dans l’ADN introduit des erreurs (insertions, délétions), que les codes canal usuels ne savent pas corriger car ces erreurs cassent leur structure de redondance.
Ceci dit, une opportunité intéressante du point de vue de la correction d’erreurs réside dans le fait que le séquençage produit naturellement un grand nombre de lectures de la même molécule, avec des erreurs différentes à chaque lecture. Une solution issue du domaine de la bio-informatique consiste à utiliser des algorithmes de consensus pour reconstruire la séquence d’entrée `à partir des lectures multiples. Dans cette thèse, l’idée sera de développer des approches hybrides combinant ces deux solutions complémentaires (algorithmes de consensus et codage canal), pour reconstruire plus efficacement les données d’entrée en exploitant à la fois les lectures multiples et les redondances du code.
Contexte de travail
La thèse s’effectuera dans le cadre du PEPR MolécularXiv (voir https://pepr-molecularxiv.fr/le-pepr/). La personne recrutée sera affectée à l’équipe GebScale de l’IRISA à Rennes, et travaillera également avec le département MEE de l’IMT Atlantique, à Brest. Cette thèse s’adresse à des personnes ayant un diplôme de Master, ou d’ingénieur, ou équivalent, ayant suivi un cursus en informatique, en télécommunications, ou en traitement du signal. Des connaissances préalables en codage canal seraient un plus. En revanche, il n’est pas nécessaire d’avoir des connaissances préalables en biologie pour travailler sur ce sujet.
A propos du laboratoire
=============
www.irisa.fr
L'IRISA est aujourd'hui l'un des plus grands laboratoires de recherche français (plus de 850 personnes) dans le domaine de l'informatique et des technologies de l'information. Structuré en sept départements scientifiques, l'IRISA est un laboratoire d'excellence dont les priorités scientifiques sont la bioinformatique, la sécurité des systèmes, les nouvelles architectures logicielles, la réalité virtuelle, l'analyse des big data et l'intelligence artificielle. Tourné vers l'avenir de l'informatique et nécessairement tourné vers l'international, l'IRISA est au cœur même de la transition numérique de la société et de l'innovation au service de la cybersécurité, de la santé, de l'environnement et de l'écologie, des transports, de la robotique, de l'énergie, de la culture et de l'intelligence artificielle.
Présentation du CNRS en tant qu'employeur : https://www.cnrs.fr/fr/le-cnrs
Présentation de l'IRISA comme laboratoire d'affectation : https://www.irisa.fr/umr-6074
Le poste se situe dans un secteur relevant de la protection du potentiel scientifique et technique (PPST), et nécessite donc, conformément à la réglementation, que votre arrivée soit autorisée par l'autorité compétente du MESR.
Le poste se situe dans un secteur relevant de la protection du potentiel scientifique et technique (PPST), et nécessite donc, conformément à la réglementation, que votre arrivée soit autorisée par l'autorité compétente du MESR.