En poursuivant votre navigation sur ce site, vous acceptez le dépôt de cookies dans votre navigateur. (En savoir plus)

DOCTORANT EN STOCKAGE INTELLIGENT SUR ADN SYNTHETIQUE POUR L'ARCHIVAGE DES IMAGES ET DES VIDEOS NUMERIQUES (H/F)

Cette offre est disponible dans les langues suivantes :
Français - Anglais

Assurez-vous que votre profil candidat soit correctement renseigné avant de postuler. Les informations de votre profil complètent celles associées à chaque candidature. Afin d’augmenter votre visibilité sur notre Portail Emploi et ainsi permettre aux recruteurs de consulter votre profil candidat, vous avez la possibilité de déposer votre CV dans notre CVThèque en un clic !

Faites connaître cette offre !

Informations générales

Référence : UMR7271-VIVROS-009
Lieu de travail : SOPHIA ANTIPOLIS
Date de publication : mardi 30 juillet 2019
Nom du responsable scientifique : ANTONINI Marc
Type de contrat : CDD Doctorant/Contrat doctoral
Durée du contrat : 36 mois
Date de début de la thèse : 1 octobre 2019
Quotité de travail : Temps complet
Rémunération : 2 135,00 € brut mensuel

Description du sujet de thèse

Le stockage des données numériques devient un défi pour l'humanité en raison de la durée de vie relativement courte des périphériques de stockage. Dans le même temps, on prévoit que « l'univers numérique » (toutes les données numériques du monde) atteindra plus de 160 zetta-octets en 2025. Une fraction importante de ces données est appelée « froide » ou rarement utilisée. Les anciennes photographies stockées par les utilisateurs sur Facebook sont un exemple de données froides ; Facebook a récemment construit un centre complet dédié au stockage de telles photographies froides. Malheureusement, tous les supports de stockage actuels utilisés pour le stockage de données (disques durs ou bandes magnétiques) souffrent de deux problèmes fondamentaux. Premièrement, le taux d'amélioration de la densité de stockage est au mieux de 20% par an, ce qui est sensiblement inférieur au taux de croissance de 60% des données froides. Deuxièmement, les supports de stockage actuels ont une durée de vie limitée de cinq (disque dur) à vingt ans (bande magnétique). Comme les données sont souvent stockées pendant une durée beaucoup plus longue (50 ans ou plus) pour des raisons de conformité légale et réglementaire, elles doivent régulièrement être migrées vers de nouveaux périphériques de stockage, ce qui augmente le prix de leur coût de stockage.
Une approche alternative peut provenir de l'utilisation de l'ADN, le support de l'hérédité chez les organismes vivants. L'utilisation de l'ADN pour stocker des données froides est une possibilité attrayante, car elle est extrêmement dense, avec une limite brute de 1 exabyte / mm3, et de longue durée avec une demi-vie observée de plus de 500 ans. Cela découle des récents développements biotechnologiques permettant une écriture (synthèse) et une lecture (séquençage) faciles et abordables de l'ADN. Cependant, un problème majeur du stockage sur ADN est que toutes les informations stockées subissent l'introduction d'erreurs à la fois dans la phase de synthèse et dans la phase de séquençage. Les erreurs prennent la forme de substitutions, d'insertions et de suppression de nucléotides simples. En ce qui concerne l'introduction d'erreurs, la phase la plus critique est le séquençage des brins : dans ce cas, le choix de différentes machines de séquençage entraîne des fluctuations importantes du nombre d'erreurs de séquençage, car différentes techniques sont disponibles pour s'acquitter de cette tâche. Dans ce contexte, l'objectif du doctorant sera de développer un processus de codage/décodage permettant de générer un flux quaternaire adapté au séquençage de l'ADN. La solution proposée sera basée sur des travaux antérieurs développés par le groupe de recherche MediaCoding du laboratoire I3S [1, 2, 3] et devra répondre à certaines contraintes :
- Efficace en termes de compression, c'est-à-dire, générant un flux quaternaire avec une longueur compacte.
- Décodable et robuste aux erreurs de synthèse et de séquençage
- Adapté aux contraintes de séquençage de l'ADN (éviter les homopolymères, limiter le nombre de nucléotides par lecture, créer des paires plausibles de nucléotides, etc.).

Références:
1. Dimopoulou M., Antonini M., Barbry P., and Appuswamy R. DNA coding for image storage using image compression techniques. In CORESA, 2018.
2. Appuswamy R., Lebrigand K., Barbry P., Antonini M., Madderson, O., Freemont P., MacDonald J. and Heinis T. OligoArchive: Using DNA in the DBMS storage hierarchy. In Conference on Innovative Data Systems Research (CIDR), 2019.
3. Dimopoulou M., Antonini M., Barbry P., and Appuswamy R. A biologically constrained encoding solution for long-term storage of images onto synthetic DNA. To be published, EUSIPCO, 2019.

Contexte de travail

Compétences :
•Très motivé et esprit d'équipe.
•Master 2 en traitement du signal ou des images ou dans une discipline connexe.
•Compétences en développement, C / C ++ ou équivalent, Matlab, Python.
•Une expérience dans le domaine de la synthèse d'ADN et le séquençage serait appréciée.
•Curiosité, ouverture d'esprit, créativité, persévérance, professionnalisme, responsabilité et esprit d'équipe sont les principales compétences personnelles que nous recherchons dans ce poste.

L'étudiant travaillera au laboratoire I3S dans le cadre du projet européen Horizon 2020, "Oligo Archive".

On en parle sur Twitter !