En poursuivant votre navigation sur ce site, vous acceptez le dépôt de cookies dans votre navigateur. (En savoir plus)

Qualité des données issues de textes dans les systèmes d'intégration : application en santé (H/F)

Cette offre est disponible dans les langues suivantes :
Français - Anglais

Date Limite Candidature : vendredi 2 juillet 2021

Assurez-vous que votre profil candidat soit correctement renseigné avant de postuler. Les informations de votre profil complètent celles associées à chaque candidature. Afin d’augmenter votre visibilité sur notre Portail Emploi et ainsi permettre aux recruteurs de consulter votre profil candidat, vous avez la possibilité de déposer votre CV dans notre CVThèque en un clic !

Faites connaître cette offre !

Informations générales

Référence : UMR5205-MOHHAC0-007
Lieu de travail : VILLEURBANNE
Date de publication : vendredi 11 juin 2021
Nom du responsable scientifique : Mohand-Saïd HACID
Type de contrat : CDD Doctorant/Contrat doctoral
Durée du contrat : 36 mois
Date de début de la thèse : 1 septembre 2021
Quotité de travail : Temps complet
Rémunération : 2 135,00 € brut mensuel

Description du sujet de thèse

Cette annonce concerne 2 sujets de thèse connexes inscrits dans le même projet : l'un porte sur l'intégration de données, l'autre sur le traitement automatique des langues. La personne candidate pourra se concentrer sur l'un ou l'autre de ces sujets. Le lieu de la thèse pourra être l'Université Paris-Saclay (Orsay) pour le volet analyse de texte ou bien Lyon ou Clermont-Ferrand pour le volet gestion et intégration de données.

L'exploitation de grandes masses de données est aujourd'hui une problématique omniprésente dans l'ensemble des domaines scientifiques. D'une manière générale, lier des données issues de sources distribuées et autonomes nécessite des approches pour spécifier et qualifier l'existence et la signification des correspondances entre les éléments décrits dans ces données. Comme les données sont collectées selon des processus plus ou moins formalisés et contrôlés, il y a aussi un besoin crucial pour la caractérisation et la maintenance de la fiabilité des sources de données. La fiabilité des informations contenues dans les sources et la fiabilité des informations induites par l'intégration d'informations émanant de diverses sources est l'une des principales caractéristiques que doivent exhiber les systèmes d'information distribués d'aujourd'hui. Dans ce projet, nous nous intéressons au problème de la mise à disposition sélective de données distribuées. Le problème principal que nous considérons est la fiabilité de l'information construite par intégration et agrégation de sources de données.

L'originalité de ce projet tient dans l'exploitation de méthodes de traitement automatique des langues pour concevoir un système d'intégration agile qui permet de formaliser, et d'expliciter pour les utilisateurs, différents niveaux de qualité et de fiabilité des informations. Le travail de thèse portera sur l'un des deux sujets suivants.

Sujet de thèse N°1 Qualité des données issues de textes. Est-il possible de concevoir et d'implémenter des mécanismes automatiques d'identification de données et d'informations considérées peu crédibles avant leur intégration avec d'autres données ou informations, lorsque ces données sont extraites à partir de textes ?
L'extraction de données structurées à partir de textes repose actuellement sur des méthodes d'extraction d'information neuronales. La fiabilité et la confiance dans les informations extraites par ces méthodes peuvent être caractérisées à plusieurs niveaux. D'une part, un fait est explicitement exprimé par son auteur comme étant certain, hypothétique, etc. ; s'y ajoute le positionnement subjectif de l'auteur par rapport au sujet et les biais associés. La détection automatique précise de cette factualité et de ce positionnement peut être effectuée par des méthodes de traitement automatique des langues. Ensuite, un algorithme d'apprentissage profond lui-même reconnaît avec une probabilité plus ou moins élevée la mention d'informations dans un texte : il accorde une plus ou moins grande confiance à sa propre détection. Enfin, la connaissance des performances passées du système d'extraction d'information, en matière de correction de sa détection des informations dans les textes, donne un troisième indicateur de confiance dans la pertinence de ses résultats. En complément pour l'utilisateur final, une explication des indicateurs de fiabilité et de confiance obtenus sera proposée. Il s'agira de faire avancer les méthodes d'estimation de ces différents niveaux de confiance pour les données obtenues à partir de textes.

Références bibliographiques - sujet N°1
Clément Dalloux, Vincent Claveau, Natalia Grabar. Speculation and negation detection in French biomedical corpora. RANLP 2019 - Recent Advances in Natural Language Processing, Sep 2019, Varna, Bulgaria. pp.1-10. https://doi.org/10.26615/978-954-452-056-4_026
Jacob Devlin, Ming-Wei Chang, Kenton Lee, and Kristina Toutanova. 2018. BERT: pre-training of deep bidirectional transformers for language understanding. NAACL-HLT 2019. https://www.aclweb.org/anthology/N19-1423/
Alon Jacovi and Yoav Goldberg. 2020. Towards Faithfully Interpretable NLP Systems: How Should We Define and Evaluate Faithfulness?. In Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics. Association for Computational Linguistics, Online, 4198-4205. https://doi.org/10.18653/v1/2020.acl-main.386
Alon Jacovi, Ana Marasović, Tim Miller, and Yoav Goldberg. 2021. Formalizing Trust in Artificial Intelligence: Prerequisites, Causes and Goals of Human Trust in AI. In Proceedings of the 2021 ACM Conference on Fairness, Accountability, and Transparency (FAccT '21). Association for Computing Machinery, New York, NY, USA, 624–635. https://doi.org/10.1145/3442188.3445923
Anna Koroleva, Sanjay Kamath, Patrick Bossuyt, Patrick Paroubek. DeSpin: a prototype system for detecting spin in biomedical publications. BioNLP 2020: 49-59. https://www.aclweb.org/anthology/2020.bionlp-1.5/
Ruohan Li and Ayoung Suh. Factors Influencing Information credibility on Social Media Platforms: Evidence from Facebook Pages. Procedia Computer Science, Volume 72, 2015, Pages 314-328, ISSN 1877-0509. https://doi.org/10.1016/j.procs.2015.12.146.
Lin C, Bethard S, Dligach D, Sadeque F, Savova G, Miller TA. Does BERT need domain adaptation for clinical negation detection? J Am Med Inform Assoc. 2020 Apr 1;27(4):584-591. doi: 10.1093/jamia/ocaa001.
Gabriella Pasi and Marco Viviani. Information Credibility in the Social Web: Contexts, Approaches, and Open Issues. CoRR, 2020, https://arxiv.org/abs/2001.09473.
Soo Young Rieh and David R. Danielson. Credibility: A multidisciplinary framework. Journal Annu. Rev. Inf. Sci. Technol., 41(1), pages 307--364, 2007. https://doi.org/10.1002/aris.2007.1440410114
Elena Sergeeva, Henghui Zhu, Amir Tahmasebi, and Peter Szolovits. 2019. Neural Token Representations and Negation and Speculation Scope Detection in Biomedical and General Domain Text. In Proceedings of the Tenth International Workshop on Health Text Mining and Information Analysis (LOUHI 2019), pages 178–187, Hong Kong. Association for Computational Linguistics. https://www.aclweb.org/anthology/D19-6221/
Karishma Sharma, Feng Qian, He Jiang, Natali Ruchansky, Ming Zhang, and Yan Liu. 2019. Combating Fake News: A Survey on Identification and Mitigation Techniques. ACM Trans. Intell. Syst. Technol. 10, 3, Article 21 (May 2019), 42 pages. DOI:https://doi.org/10.1145/3305260
Rivera Zavala R, Martinez P. The Impact of Pretrained Language Models on Negation and Speculation Detection in Cross-Lingual Medical Text: Comparative Study. JMIR Med Inform. 2020 Dec 3;8(12):e18953. doi: 10.2196/18953.

Compétences attendues - sujet N°1 :
- Connaissance des méthodes d'apprentissage supervisé
- Connaissance du traitement automatique des langues par des méthodes neuronales
- Niveau professionnel en anglais parlé, lu et écrit
- Goût pour le travail d'équipe
- Respect des échéances

Formation attendue - sujet N°1 : Master en traitement automatique des langues, apprentissage automatique, ou intelligence artificielle

Sujet de thèse N°2 Étude de l'impact de la qualité et de la fiabilité des données sur le processus d'évaluation de requêtes. L'intégration de données dans un environnement ouvert, sans connaissance a priori des données disponibles et de leur sémantique, constitue un enjeu majeur des applications modernes [Miller2018]. Les techniques d'apprentissage automatique peuvent être très utiles pour automatiser le processus d'intégration de données dans un tel contexte [Dong2018]. Plus particulièrement, l'analyse de fragments de textes permet d'enrichir les données collectées à partir de sources hétérogènes par des métadonnées et d'induire des liens de correspondance (liage) entre les différentes sources. Ces liens de correspondance permettent de raisonner sur les requêtes pour mieux caractériser les réponses souhaitées [Burdick2011, Golshan2017, Miller2018]. L'objectif de ce travail de thèse est de revisiter le processus classique d'évaluation de requêtes dans un système d'intégration de données [Dong2018, Golshan2017] de manière à tenir compte des indicateurs sur la fiabilité des données et des correspondances qui découlent de l'exploitation des fragments de textes. Les questions de recherche sous-jacentes portent sur :
la représentation des liens de correspondance sémantique extraits à partir de textes,
la représentation adéquate des métadonnées destinées à estimer la qualité et la fiabilité des données, et
la conception d'algorithmes de réécriture et d'évaluation de requêtes qui tiennent compte de ces métadonnées.

Références bibliographiques - sujet N°2
[Burdick2011] D. Burdick, M. A. Hernandez, H. Ho, G. Koutrika, R. Krishnamurthy, L. Popa, I. Stanoi, S. Vaithyanathan, and S. R. Das. Extracting, linking and integrating data from public sources: A financial case study. IEEE Data Eng. Bull., 34(3):60–67, 2011.
[Dong2018] Xin Luna Dong,, Xin Luna Dong, Data Integration and Machine Learning: A Natural Synergy. VLDB Endowment, Vol. 11, No. 12, 2018.
[Golshan2017] Behzad Golshan, Alon Y. Halevy, George A. Mihaila, Wang-Chiew Tan: Data Integration: After the Teenage Years. PODS 2017: 101-106.
[Miller2018] Renée J. Miller. Open Data Integration. Vol. 11, No. 12, 2018.
[Aihua2013] Aihua Wu. Query Rewriting Algorithms for Computing Credible Query Answers over Annotated Inconsistent Database. Journal of Software. Vol. 8, No. 2, February 2013. http://www.jsoftware.us/vol8/jsw0802-17.pdf.
[Fusco2020] Fusco, G., & Aversano, L. (2020). An approach for semantic integration of heterogeneous data sources. PeerJ. Computer science, 6, e254. https://doi.org/10.7717/peerj-cs.254
[Quamar2020] Abdul Quamar and Jannik Straube and Yuanyuan Tian :Enabling Rich Queries Over Heterogeneous Data From Diverse Sources In HealthCare. 10th Conference on Innovative Data Systems Research (CIDR 2020), Amsterdam, The Netherlands, January 12-15, 2020. http://cidrdb.org/cidr2020/papers/p20-quamar-cidr20.pdf.
[Mountantonakis2019] Michalis Mountantonakis and Yannis Tzitzikas. Large-scale Semantic Integration of Linked Data: A Survey. ACM Comput. Surv. Vol. 52, Number 5, pp. 103:1--103:40. 2019. https://doi.org/10.1145/3345551.
[Ginsca2015] Alexandru L. Ginsca, Adrian Popescu and Mihai Lupu. Credibility in Information Retrieval. Foundations and Trends in Information Retrieval. Volume 9, Number 5, pages 355-475, 2015. http://dx.doi.org/10.1561/1500000046
[Cong2019] Peng Cong and Goswami Prashant and Bai Guohua : A literature review of current technologies on health data integration for patient-centered health management. Health Informatics Journal. Vol. 26, month 12, 2019.
[Harrison2007] D. Harrison McKnight and Charles J. Kacmar. Factors and effects of information credibility. In Proceedings of the 9th International Conference on Electronic Commerce: The Wireless World of Electronic Commerce, 2007, University of Minnesota, Minneapolis, MN, USA, August 19-22, 2007, pages 423-432. https://doi.org/10.1145/1282100.1282180.
[Laufer2017] Carlos Laufer and Daniel Schwabe. On Modeling Political Systems to Support the Trust Process. Proceedings of the 5th Workshop on Society, Privacy and the Semantic Web - Policy and Technology (PrivOn2017) co-located with 16th International Semantic Web Conference (ISWC 2017), Vienna, Austria, October 22, 2017, CEUR Workshop Proceedings. http://ceur-ws.org/Vol-1951/PrivOn2017_paper_7.pdf.

Compétences attendues - sujet N°2 : Bases de données (modélisation et interrogation), système distribués

Formation attendue - sujet N°2 : Conception et mise en œuvre d'un système d'intégration de données, approches pour estimer la qualité et la crédibilité des données, approche pour l'optimisation de requêtes sur des sources distribuées. traitement de données distribuées, raisonnement sur la sémantique des données

Contexte de travail

Contexte de travail : les laboratoires
LIRIS : Le Laboratoire d'InfoRmatique en Image et Systèmes d'information (LIRIS UMR 5205, https://liris.cnrs.fr) est localisé à Lyon, Campus Scientifique LyonTech-La-Doua. Il compte 330 membres. Les recherches du LIRIS concernent un large spectre de la science informatique au sein de ses douze équipes de recherche structurées en six pôles de compétences : Données, Système et Sécurité (équipes BD, DRIM, SOC et DM2L), Informatique Graphique et Géométrie (équipe ORIGAMI), Images, Vision et Apprentissage (équipe IMAGINE), Interactions et cognition (équipes SICAL, SyCoSMA et TWEAK), Algorithmique et Combinatoire (équipe GOAL), Simulation et Sciences du Vivant (équipes SAARA et BEAGLE). Les recherches menées au LIRIS concernent les défis du monde numérique, notamment ceux posés par l'intelligence artificielle (IA), l'analyse de données volumineuses (Big Data), la vision par ordinateur, la cyber-sécurité, la transformation digitale ou l'apprentissage humain. Une partie des activités du LIRIS se situent aux interfaces des sciences humaines et sociales, de l'ingénierie, de la médecine, des sciences de la vie et des sciences de l'environnement. L'équipe concernée par le présent sujet de thèse est l'équipe Bases de Données (BD).

LISN : Le Laboratoire Interdisciplinaire des Sciences du Numérique (UMR 9015, CNRS et Université Paris-Saclay) a été créé en janvier 2021 par la fusion du LIMSI (laboratoire d'informatique pour la mécanique et les sciences de l'ingénieur) et du LRI (laboratoire de recherche en informatique). Localisé à Orsay et Gif-sur-Yvette (91), le laboratoire compte 390 membres. Le LISN se compose de cinq départements, dont celui intitulé Sciences et Technologies des Langues (STL), qui mène des recherches sur le traitement automatique de la langue, parlée, écrite et signée depuis le traitement du signal acoustique jusqu'à la modélisation sémantique (équipes ILES et TLP). L'équipe ILES, concernée par ce sujet de thèse, collabore avec diverses équipes dans le domaine de la santé, notamment avec le CRESS (Paris) sur les données des essais cliniques mondiaux concernant le Covid-19. Ce sujet est né dans le contexte d'une collaboration sur ces données avec l'équipe Bases de données du LIRIS (Lyon) et l'équipe Données, Services, Intelligence du LIMOS (Clermont-Ferrand).

LIMOS :
Le Laboratoire d'Informatique, de Modélisation et d'Optimisation des Systèmes (LIMOS) est localisé à Clermont-Ferrand. Le LIMOS est une Unité Mixte de Recherche (UMR 6158) du CNRS qui a pour tutelles académiques l'Université Clermont Auvergne et l'Ecole Nationale Supérieure des Mines de Saint-Etienne (EMSE). Le LIMOS est impliqué dans ce projet à travers le thème DSI (Données, Services, Intelligence : https://limos.fr/themes/3) dont les travaux de recherche portent notamment sur la gestion des grandes masses de données ainsi que sur l'extraction de connaissances et l'apprentissage artificiel.

Localisation - sujet n°1 :
La personne recrutée sera affectée à l'équipe ILES du LISN et travaillera avec les membres de l'équipe qui participent à cette collaboration. Elle sera encadrée par Thierry Hamon (LISN) et Patrick Paroubek (LISN). Le travail sera effectué dans les locaux du LISN (Orsay), avec des déplacements à des ateliers et conférences en France et à l'étranger. Des contacts avec le LIRIS et le LIMOS seront effectués à intervalles réguliers. Du télétravail pourra être mis en place si la situation le requiert.

Localisation - sujet n°2 :

La personne recrutée choisira son lieu d'affectation :
Lyon, au laboratoire LIRIS, équipe Bases de Données ( https://liris.cnrs.fr/equipe/bd) ou
Clermont-Ferrand, au laboratoire LIMOS, équipe DSI : Données, Service et Intelligence (https://limos.fr/themes/3).
Dans tous les cas, elle sera encadrée par Emmanuel Coquery (LIRIS), Mohand-Said Hacid (LIRIS) et Farouk Toumani (LIMOS) et travaillera avec les membres de l'équipe qui participent à cette collaboration. Elle sera amenée à effectuer des déplacements à l'étranger (Milan-Italie et Vancouver-Canada) dans le cadre de collaborations en cours et participera également à des conférences et ateliers en France et à l'étranger. Des contacts avec le LISN seront effectués à intervalles réguliers. Du télétravail pourra être mis en place si la situation l'exige.

On en parle sur Twitter !