En poursuivant votre navigation sur ce site, vous acceptez le dépôt de cookies dans votre navigateur. (En savoir plus)

Thèse transcription automatique précise de documents manuscrits H/F

Cette offre est disponible dans les langues suivantes :
- Français-- Anglais

Date Limite Candidature : vendredi 26 juillet 2024 23:59:00 heure de Paris

Assurez-vous que votre profil candidat soit correctement renseigné avant de postuler

Informations générales

Intitulé de l'offre : Thèse transcription automatique précise de documents manuscrits H/F
Référence : UMR9010-VERONIQUE-021
Nombre de Postes : 1
Lieu de travail : GIF SUR YVETTE
Date de publication : vendredi 5 juillet 2024
Type de contrat : CDD Doctorant/Contrat doctoral
Durée du contrat : 36 mois
Date de début de la thèse : 1 octobre 2024
Quotité de travail : Temps complet
Rémunération : La rémunération est d'un minimum de 2135,00 € mensuel
Section(s) CN : Mathématiques et interactions des mathématiques

Description du sujet de thèse

La préservation du patrimoine culturel est une préoccupation mondiale, et l'UNESCO a lancé des politiques de numérisation des documents historiques afin de réduire le risque de dégradation. Cette tendance à la numérisation s'étend aux registres de population, rendant des données précieuses accessibles aux généalogistes, aux historiens et aux chercheurs. De nombreux gouvernements d'Amérique latine et des Caraïbes numérisent leurs archives d'état civil et établissent des index en transcrivant certains des champs clés des documents. Il en résulte de grandes bases de données d'images de textes manuscrits partiellement transcrits.

L'objectif principal de ce projet est d'exploiter ces données pour développer des outils de transcription complète et exacte de documents officiels manuscrits structurés, tels que les registres de naissances et de décès. L'approche proposée comprend l'utilisation de techniques de reconnaissance de texte manuscrit (handwritten text recognition, HTR) pour reconnaître l'auteur du document et transcrire le texte avec précision, dans le but d'assurer l'exactitude à travers différents formats de documents dans une même langue.

Le processus d’HTR relève de la reconnaissance automatique de texte (automatic text recognition, ATR) et se concentre sur la reconstitution de la structure de document ainsi que la conversion d'image en texte. Les méthodes traditionnelles, qui consistent en des heuristiques de segmentation, d'extraction de caractéristiques et de classification, ont atteint un plafond en précision. Récemment, l'apprentissage profond a révolutionné le domaine, en particulier par les modèles basés sur l'attention. Cependant, les réseaux neuronaux profonds à haute performance nécessitent de grandes bases de données annotées et manquent en interprétabilité, ce qui entrave les efforts visant à améliorer leur précision. Le projet aborde ces questions en traitant conjointement un ensemble de documents similaires, grâce à des techniques de traitement d'images et en exploitant les similarités de structure (par exemple, les registres d'état civil d'un certain type) ou de style d'écriture (par exemple, les registres d'état civil créés par le même fonctionnaire), pour construire une chaîne d'apprentissage profond interprétable et capable d'exploiter les bases de données disponibles de registres d'état civil partiellement annotés.

La méthode proposée commence par le prétraitement des données afin de les débruiter et de réduire leur variabilité par les normalisations géométrique et dynamique de l'image. Ensuite, des réseaux neuronaux légers sont entraînés sur un ensemble d'apprentissage réduit par les méthodes développées à l'étape précédente. Pour chaque document, une première interprétation partielle est obtenue par ces réseaux neuronaux légers. Par la suite, l'analyse d'image classique est introduite dans une 'boucle vertueuse' sur chaque résultat fiable afin de créer un modèle de l’écriture manuscrite de chaque auteur à partir de l'interprétation partielle obtenue précédemment, pour atteindre un modèle bayésien précis de chaque caractère. Enfin, il sera obtenu une version de chaque document où tous les endroits nécessitant une vérification manuelle sont identifiés par leur probabilité d'erreur calculée par la méthode bayésienne.

En résumé, ce projet vise à créer des outils de transcription exacte pour les documents manuscrits structurés. Il s'aligne sur les efforts mondiaux visant à préserver le patrimoine culturel, en mettant des données précieuses à disponibilité des chercheurs. L'approche proposée s'appuie sur des techniques d'apprentissage profond dans le domaine de l'ATR et combine le traitement d'image, le prétraitement des données et les méthodes bayésiennes pour des transcriptions précises.

Contexte de travail

Le Centre Borelli est une unité mixte de recherche (UMR 9010) réunissant des chercheurs en mathématiques, en informatique et en neurosciences très investis dans les interfaces avec le domaine biomédical et le transfert industriel. Il est implanté sur plusieurs sites dont l’ENS Paris-Saclay, l’Université Paris Cité (Campus Saint-Germain-des-Prés), les hôpitaux d'Instruction des Armées l'HIA Bégin et l’HIA Percy. Le groupe de traitement d'images du Centre Borelli UMR 9010 (ancien CMLA), à l'ENS Paris- Saclay est une équipe d'une trentaine de chercheurs et enseignants-chercheurs munis autour de Gabriele Facciolo. L'équipe est reconnue internationalement par plusieurs inventions en traitement d'images mathématique; notamment la méthode de débruitage dite non-local means, la théorie de détection de structures a-contrario et plusieurs applications des équations différentielles en dérivées partielles au traitement d'images. Il a aussi fondé le journal IPOL, pionnier de la recherche reproductible en traitement d'images. Actuellement, les chercheurs du groupe travaillent étroitement en collaboration avec plusieurs partenaires industriels, sur une multitude de sujets de pointe. Cela va de l'analyse d'images satellites et modelisation en 3D (avec le CNES, Nam.R, EDF, et Kayrros), du débruitage et de la super-résolution d'images et de séquences vidéo (avec DxOMark, Thales), à la synthèse de textures (Tarkett, Surys) et à la vérification d'images (AFP, SNPS).

Contraintes et risques

sans objet