En poursuivant votre navigation sur ce site, vous acceptez le dépôt de cookies dans votre navigateur. (En savoir plus)

Doctorant en Stockage à long terme d'images et de vidéos numériques sur de l'ADN synthétique H/F

Cette offre est disponible dans les langues suivantes :
Français - Anglais

Assurez-vous que votre profil candidat soit correctement renseigné avant de postuler. Les informations de votre profil complètent celles associées à chaque candidature. Afin d’augmenter votre visibilité sur notre Portail Emploi et ainsi permettre aux recruteurs de consulter votre profil candidat, vous avez la possibilité de déposer votre CV dans notre CVThèque en un clic !

Faites connaître cette offre !

Informations générales

Référence : UMR7271-VIVROS-016
Lieu de travail : SOPHIA ANTIPOLIS
Date de publication : jeudi 30 juillet 2020
Nom du responsable scientifique : ANTONINI MARC
Type de contrat : CDD Doctorant/Contrat doctoral
Durée du contrat : 36 mois
Date de début de la thèse : 1 novembre 2020
Quotité de travail : Temps complet
Rémunération : 2 135,00 € brut mensuel

Description du sujet de thèse

Le stockage des données numériques devient un défi pour l'humanité en raison de la durée de vie relativement courte des dispositifs de stockage. Dans le même temps, l'"univers numérique" (toutes les données numériques du monde) devrait atteindre plus de 160 zettaoctets en 2025. Une fraction importante de ces données est dite "froide" ou peu fréquente. Les anciennes photographies stockées par les utilisateurs sur Facebook sont un exemple de données "froides" ; Facebook a récemment construit un centre de données entier dédié au stockage de ces photographies "froides". Malheureusement, tous les supports de stockage actuels utilisés pour le stockage de données à froid (disques durs ou bandes) souffrent de deux problèmes fondamentaux. Premièrement, le taux d'amélioration de la densité de stockage est au mieux de 20 % par an, ce qui est nettement inférieur au taux de croissance de 60 % des données froides. Deuxièmement, les supports de stockage actuels ont une durée de vie limitée de cinq (disque dur) à vingt ans (bande). Comme les données sont souvent stockées pendant une durée beaucoup plus longue (50 ans ou plus) pour des raisons de conformité légale et réglementaire, les données doivent être migrées régulièrement vers de nouveaux dispositifs de stockage, ce qui augmente le prix de la propriété des données.
Une autre approche peut découler de l'utilisation de l'ADN, support de l'hérédité dans les organismes vivants. L'utilisation de l'ADN pour stocker des données à froid est une possibilité intéressante car il est extrêmement dense, avec une limite brute de 1 exabyte/mm3, et durable, avec une demi-vie observée de beaucoup plus de 500 ans. Ceci est dû aux récents développements biotechnologiques permettant une écriture (synthèse) et une lecture (séquençage) de l'ADN faciles et abordables. Cependant, un problème majeur du stockage sur ADN est que toutes les informations stockées souffrent de l'introduction d'erreurs tant dans la phase de synthèse que dans celle du séquençage. Les erreurs prennent la forme de substitutions, d'insertions et de suppressions de nucléotides individuels. En ce qui concerne l'introduction d'erreurs, la phase la plus critique est le séquençage des brins : dans ce cas, le choix de différents appareils de séquençage entraîne des fluctuations importantes du nombre d'erreurs de séquençage, puisque différentes techniques sont disponibles pour s'attaquer à cette tâche.
Le projet est réalisé dans le cadre du projet Européen OligoArchive (https://oligoarchive.eu) qui a pour but de développer un prototype pour le stockage d'informations dans l'ADN synthétique. Le but de ce projet de doctorat est de développer les bases mathématiques pour l'encodage et le décodage de l'information, permettant ainsi à l'ADN de remplacer les dispositifs tels que les disques durs ou les bandes pour l'archivage des images. À cette fin, dans ce projet de doctorat commun, nous visons à développer une nouvelle stratégie de codage/décodage efficace et adaptée à la nature du signal à coder, c'est-à-dire à développer des techniques de traitement du signal et de compression des images pour permettre le stockage à haute densité d'images non structurées dans l'ADN. La solution de codage proposée devrait respecter deux contraintes principales : (i) le code ADN construit devrait tenir compte des restrictions biologiques et (ii) le code ADN construit devrait être robuste au bruit de séquençage, c'est-à-dire aux erreurs introduites par la technologie de séquençage. Il sera basé sur des travaux antérieurs développés par le groupe de recherche MediaCoding du laboratoire I3S [1, 2, 3, 4, 5]. Le projet de doctorat se concentrera également sur les moyens de décoder plus rapidement l'ADN synthétique grâce à l'utilisation de modèles d'apprentissage automatique et à des hypothèses sur les informations stockées dans l'ADN (par opposition à l'ADN naturel où de telles hypothèses ne peuvent pas être faites).
Le titulaire du poste travaillera au laboratoire I3S dans le groupe de recherche SIS/MediaCoding (http://mediacoding.i3s.unice.fr). Le projet permet une certaine flexibilité dans le profil des candidats. Les candidats ayant des compétences dans les domaines suivants peuvent avoir une bonne adéquation :
- Codage d'images,
- L'apprentissage automatique dans son sens le plus large,
- ADN, biologie synthétique.

Tous les candidats doivent être en mesure de démontrer :
- Une solide formation en informatique et de solides compétences en programmation,
- La capacité à travailler avec des logiciels tiers et à établir des contacts constructifs avec les développeurs de ces logiciels,
- La capacité à travailler de manière indépendante et à mener à bien le programme de recherche et de développement de logiciels.

Le candidat retenu sera titulaire d'une maîtrise en sciences (ou l'équivalent) dans un domaine en rapport avec le sujet traité, idéalement l'informatique.

Compétences :
- Très motivé, esprit d'équipe.
- Master 2 en traitement du signal ou de l'image ou dans une discipline connexe.
- Compétences de développement expérimentées, C/C++ ou équivalent, Matlab, Python.
- Une expérience dans le domaine de la synthèse et du séquençage de l'ADN sera appréciée.
- Curiosité, ouverture d'esprit, créativité, persévérance, professionnalisme, responsabilité et esprit d'équipe sont les principales compétences personnelles que nous recherchons pour ce poste.



References:
1. Appuswamy R., Lebrigand K., Barbry P., Antonini M., Madderson, O., Freemont P., MacDonald J. and Heinis T. OligoArchive: Using DNA in the DBMS storage hierarchy. In Conference on Innovative Data Systems Research (CIDR), 2019.
2. Dimopoulou M., Antonini M., Barbry P., and Appuswamy R. A biologically constrained encoding solution for long-term storage of images onto synthetic DNA. EUSIPCO, Sep 2019, A Coruña, Spain.
3. Melpomeni Dimopoulou M., Marc Antonini, Pascal Barbry, Raja Appuswamy. Storing Digital Data into DNA: A Comparative Study of Quaternary Code Construction, ICASSP, May 2020, Barcelona, Spain
4. Melpomeni Dimopoulou, Marc Antonini. Efficient Storage of Images onto DNA Using Vector Quantization Data Compression Conference, (DCC) 2020, Mar. 2020, Utah, United States
5. Dimopoulou M., Antonini M. Image storage in DNA using Vector Quantization, to be published EUSIPCO, Sep. 2020, Amsterdam, The Netherlands.

Contexte de travail

L'étudiant travaillera au laboratoire I3S dans le cadre d'une collaboration entre le CNRS et l'Imperial College de Londres.

On en parle sur Twitter !