En poursuivant votre navigation sur ce site, vous acceptez le dépôt de cookies dans votre navigateur. (En savoir plus)

Thèse H/F en traitement automatique des langues : Plongement de termes complexes pour l'extraction d'information et la classification de textes cliniques

Cette offre est disponible dans les langues suivantes :
Français - Anglais

Date Limite Candidature : mardi 7 décembre 2021

Assurez-vous que votre profil candidat soit correctement renseigné avant de postuler. Les informations de votre profil complètent celles associées à chaque candidature. Afin d’augmenter votre visibilité sur notre Portail Emploi et ainsi permettre aux recruteurs de consulter votre profil candidat, vous avez la possibilité de déposer votre CV dans notre CVThèque en un clic !

Faites connaître cette offre !

Informations générales

Référence : UMR9015-PIEZWE-005
Lieu de travail : ST AUBIN
Date de publication : mardi 16 novembre 2021
Nom du responsable scientifique : Pierre Zweigenbaum
Type de contrat : CDD Doctorant/Contrat doctoral
Durée du contrat : 36 mois
Date de début de la thèse : 1 février 2022
Quotité de travail : Temps complet
Rémunération : 2 135,00 € brut mensuel

Description du sujet de thèse

Le but global de la thèse est de concevoir une architecture neuronale qui optimise une tâche de classification de textes en s'appuyant sur la détection d'entités. Comme les termes complexes jouent un rôle important dans les domaines spécialisés, la thèse fait l'hypothèse qu'une meilleure prise en compte de leur représentation améliorera la détection d'entités et la classification de textes. Le domaine d'application de la thèse est la médecine. Plus particulièrement, la tâche de classification est la prédiction de la réhospitalisation ou du décès de patients insuffisants cardiaques à partir du texte et des données structurées de leurs dossiers patient informatisés.

Cette thèse a les trois objectifs suivants :
- Détection et représentation d'entités et termes complexes.
La médecine, comme la plupart des domaines techniques et spécialisés, emploie une riche terminologie comportant de nombreux termes complexes. Les méthodes courantes du TAL neuronal se fondent sur des représentations de mots simples voire de morceaux de mots, et la création de représentations pertinentes pour des termes polylexicaux reste un défi. Un objectif de la thèse est de concevoir des méthodes de plongement qui représentent mieux les unités sémantiques clés telles que les entités et termes polylexicaux.

- Entraînement de plongements lexicaux spécialisés avec des données limitées sur le domaine.
Une faible quantité de données d'entraînement pose des problèmes pour toutes les méthodes d'apprentissage automatique. Dans ce contexte, le pré-entraînement est une pratique répandue dans les méthodes neuronales actuelles du TAL. La thèse explorera des méthodes qui exploitent des corpus de textes hors domaine et de domaines proches, ainsi que des ontologies et graphes de connaissance, pour obtenir de meilleurs plongements lexicaux spécialisés pour les textes cliniques.

- Classification de textes pour la prédiction de risque.
Les méthodes ci-dessus seront testées à travers leur contribution à une tâche réelle : la prédiction de réhospitalisation ou de décès de patients insuffisants cardiaques à partir du texte et des données structurées de leurs dossiers patient informatisés. Une architecture de bout en bout sera conçue, et les contributions respectives des données structurées et du texte seront étudiées.

Cette thèse s'inscrit dans un ensemble de travaux récents et en cours au LISN, notamment dans le prolongement du projet ANR ADDICTE sur l'analyse distributionnelle en domaine spécialisé.

Contexte de travail

Laboratoire de recherche pluridisciplinaire du CNRS et de l'Université Paris-Saclay, le LISN rassemble des chercheurs et enseignants-chercheurs relevant des Sciences de l'Ingénieur et des Sciences de l'Information ainsi que des Sciences du Vivant et des Sciences Humaines et Sociales. Le LISN se compose de cinq départements, dont celui intitulé Sciences et Technologies de la Langue (STL), qui mène des recherches sur le traitement automatique de la langue, parlée, écrite et signée depuis le traitement du signal acoustique jusqu'à la modélisation sémantique (équipes ILES et TLP). L'équipe ILES du LISN a de fortes compétences dans les applications du traitement automatique des langues au domaine biomédical.

L'équipe ILES est porteur du projet ANR PREDHIC (Traitement automatique des langues pour la PRÉdiction du risque de Décès ou de réHospitalisation des patients Insuffisants Cardiaques), un projet ANR de 42 mois entre deux laboratoires d'informatique (LISN et LS2N) et deux hôpitaux (Groupe Hospitalier Paris Saint-Joseph et CHU de Lille), qui finance cette thèse.

La personne recrutée contribuera au projet PREDHIC. Elle sera affectée à l'équipe ILES et travaillera avec les membres de l'équipe qui participent au projet. Elle sera encadrée par Pierre Zweigenbaum (Directeur de recherche, LISN, Orsay), coordinateur général du projet, et Emmanuel Morin (Professeur, LS2N, Université de Nantes), responsable du projet à l'Université de Nantes. Le travail sera effectué dans les locaux du LISN à Orsay ; une collaboration étroite est prévue avec l'Hôpital Saint-Joseph pour l'accès aux données. Le LISN a accès au cluster de GPU Lab-ia, et un accès à la très grande grille de GPU nationale Jean-Zay peut être demandé en sus.

Des déplacements sont prévus en France auprès des partenaires du projet, et à des ateliers et conférences en France et à l'étranger. La thèse est liée au cadre temporel du projet PREDHIC, avec ses activités et ses livrables. Du télétravail pourra être mis en place si la situation le requiert.

Contraintes et risques

Risques liés au travail sur écran.

On en parle sur Twitter !