Informations générales
Intitulé de l'offre : Doctorant (H/F)
Référence : UMR7503-EMMVIN-001
Nombre de Postes : 1
Lieu de travail : VANDOEUVRE LES NANCY
Date de publication : mardi 21 novembre 2023
Type de contrat : CDD Doctorant/Contrat doctoral
Durée du contrat : 36 mois
Date de début de la thèse : 1 janvier 2024
Quotité de travail : Temps complet
Rémunération : Rémunération de 2135€ brut/mois
Section(s) CN : Sciences de l'information : fondements de l'informatique, calculs, algorithmes, représentations, exploitations
Description du sujet de thèse
La régulation des appels d’urgences médicales vise à évaluer le niveau d’urgence et à donner la réponse appropriée. Compte tenu de l’impact significatif de cette réponse sur la trajectoire de santé du patient, l’amélioration du processus de régulation est de la plus haute importance. Une prise de décision rapide avec un accès limité à des informations médicales complètes est nécessaire [1]. Les modèles prédictifs basés sur de grands volumes de données d’appels améliorent considérablement la sûreté et la précision des décisions, par exemple en cas d’arrêt cardiaque [2]. En parallèle, l’apprentissage profond de représentations des patients à partir des données de santé a rapidement suivi les tendances en TAL [3] et trouvé des applications en médecine d’urgence [4]. Cependant, l'évolution vers les grands modèles de langage (LLM) et leur impact n'ont pas encore été évalués dans le contexte des services médicaux d'urgence et de la régulation des appels.
L'objectif de cette thèse est d'adapter un LLM ouvert et généraliste tel que Llama2 [5] ou Falcon [6] au domaine des appels d'urgence médicale afin d'aider les médecins régulateurs. Fine-tuner le LLM sur les données du domaine [7] est utile mais pas suffisant, en raison de la petite quantité de données pour adapter le LLM au domaine et à la tâche [8]. Au lieu de cela, nous chercherons à incorporer des connaissances médicales structurées sous la forme d'ontologies médicales telles que le Unified Medical Language System (UMLS) [9] ou de modules de mémoire comme dans les réseaux de neurones à mémoire augmentée [10]. Nous augmenterons également le LLM en utilisant des connaissances médicales semi-structurées [2,3], par exemple en utilisant un ensemble de données de notes médicales d'urgence internes qui rapportent les observations du médecin sur l'état médical d'un patient sous forme textuelle en utilisant des sections telles que « Comorbidités », « Traitement » et « Examen clinique », ainsi que des données non textuelles, notamment des résultats de laboratoire, un score de gravité, le code diagnostic ICD-10 (International Classification of Diseases) de facturation du séjour hospitalier et le résultat clinique. L’enjeu global sera d’aligner les représentations des appels d’urgence médicale et ces autres sources de connaissances. Différentes sources de connaissances peuvent se traduire par différentes approches d’augmentation des données et/ou de fine-tuning pour améliorer le LLM tout en évitant le catastrophic forgetting.
Les résultats seront évalués sur le jeu de données SimSAMU, un ensemble d'appels d'urgences médicales joués avec des annotations de diarisation, transcription, actes de dialogue et slot filling. La durée des appels est de 1 à 8 min, pour une durée totale de 3 heures. Les modèles seront évalués en termes de perplexité et d'autres mesures telles que le Slot Error Rate, la Sentence Level Semantic Accuracy, les scores F1 sur des sous-tâches (par exemple, la détection d'actes de dialogue) et BLEU/METEOR pour la qualité de la surface. La qualité de la représentation latente apprise par le modèle sera également évaluée en prédisant le score de gravité, le code ICD-10 et le résultat clinique. Les experts de l’AP-HP, dirigés par le Dr Ivan Lerner, examineront manuellement la qualité de la réponse du système.
[1] K. Bohm and L. Kurland, “The accuracy of medical dispatch — A systematic review”, Scandinavian Journal of Trauma, Resuscitation and Emergency Medicine 26:94, 2018.
[2] M. L. Scholz, H. Collatz-Christensen, S. N. F. Blomberg, S. Boebel, J. Verhoeven, and T. Krafft, “Artificial intelligence in Emergency Medical Services dispatching: assessing the potential impact of an automatic speech recognition software on stroke detection taking the Capital Region of Denmark as case in point”, Scandinavian Journal of Trauma, Resuscitation and Emergency Medicine 30(1):36, 2022.
[3] X. Yang, A. Chen, N. PourNejatian, H. C. Shin, K. E. Smith, et al., “A large language model for electronic health records”, Digital Medicine 5:194, 2022.
[4] J. S. Obeid, E. R. Weeda, A. J. Matuskowitz, K. Gagnon, T. Crawford et al., “Automated detection of altered mental status in emergency department clinical notes: a deep learning approach”, BMC Medical Informatics and Decision Making 19:164, 2019.
[5] H. Touvron, L. Martin, K. Stone, P. Albert, A. Almahairi et al., “Llama 2: Open foundation and fine-tuned chat models”, arXiv preprint arXiv:2307.09288, 2023.
[6] G. Penedo, Q. Malartic, D. Hesslow, R. Cojocaru, A. Cappelli et al., “The RefinedWeb dataset for Falcon LLM: outperforming curated corpora with web data, and web data only”, arXiv preprint arXiv:2306.01116, 2023.
[7] I. A. Sheikh, E. Vincent, I. Illina, “Training RNN language models on uncertain ASR hypotheses in limited data scenarios”, Computer Speech and Language, pp.101555, 2023.
[8] G. Guibon, M. Labeau, L. Lefeuvre, and C. Clavel, “An adaptive layer to leverage both domain and task specific information from scarce data”, in AAAI Conference on Artificial Intelligence, 37(6), 2023.
[9] I. Lerner, N. Paris, and X. Tannier, “Terminologies augmented recurrent neural network model for clinical named entity recognition”, Journal of Biomedical Informatics 102: 103356, 2020.
[10] A. Santoro, S. Bartunov, M. Botvinick, D. Wierstra, and T. Lillicrap, “Meta-learning with memory-augmented neural networks”, in International Conference on Machine Learning (ICML), pp. 1842–1850, 2016.
Contexte de travail
Cette thèse fait partie du projet ANR LLM4All (2023-2027), qui vise à concevoir des mécanismes d'apprentissage continu et de réduction de l'empreinte pour les LLM, et à les exploiter dans des scénarios de dialogue parlé difficiles, y compris les appels d'urgence médicale. Elle sera co-encadrée par Gaël Guibon (https://gguibon.github.io/), Dr. Ivan Lerner (https://scholar.google.fr/citations?user=1TglQmsAAAAJ) et Emmanuel Vincent (https://members.loria.fr/EVincent/). Le doctorant aura l'opportunité de passer du temps dans les équipes Synalp (https://synalp.gitlabpages.inria.fr/synalp-website/) et Multispeech (https://team.inria.fr/multispeech/) du LORIA et l'équipe PRIME de l'Assistance Publique - Hôpitaux de Paris (AP-HP)(https://www.aphp.fr/), et bénéficier de l'expertise pratique du Dr. Gustave Toury, médecin urgentiste au SAMU 92.