En poursuivant votre navigation sur ce site, vous acceptez le dépôt de cookies dans votre navigateur. (En savoir plus)

Offre de thèse - H/F - Informatique - Multimodal representations for Multimedia Question Answering - M/F

Cette offre est disponible dans les langues suivantes :
Français - Anglais

Assurez-vous que votre profil candidat soit correctement renseigné avant de postuler. Les informations de votre profil complètent celles associées à chaque candidature. Afin d’augmenter votre visibilité sur notre Portail Emploi et ainsi permettre aux recruteurs de consulter votre profil candidat, vous avez la possibilité de déposer votre CV dans notre CVThèque en un clic !

Faites connaître cette offre !

Informations générales

Référence : UPR3251-CAMGUI-001
Lieu de travail : ORSAY
Date de publication : jeudi 25 juin 2020
Nom du responsable scientifique : Camille GUINAUDEAU
Type de contrat : CDD Doctorant/Contrat doctoral
Durée du contrat : 36 mois
Date de début de la thèse : 1 octobre 2020
Quotité de travail : Temps complet
Rémunération : 2 135,00 € brut mensuel

Description du sujet de thèse

Contexte de la thèse

La thèse se déroulera dans le cadre du projet MEERQAT qui vise à aborder le problème de l'analyse de contenus visuels et textuels ambigus en apprenant et en combinant leurs représentations et en prenant en compte les connaissances existantes sur les entités. L'objectif du projet est non seulement de lever l'ambiguïté d'une modalité en utilisant l'autre de manière appropriée, mais également de lever l'ambiguïté conjointement en les représentant dans un espace commun.

L'ensemble complet des contributions proposées dans le projet sera utilisé pour résoudre une nouvelle tâche, à savoir un system questions-réponses multimédia (Multimedia Question-Answering MQA). Cette tâche nécessite de s'appuyer sur trois sources d'informations différentes pour répondre à une question textuelle concernant les données visuelles ainsi qu'une base de connaissances (KB) contenant des millions d'entités uniques et des textes associés. Sous une forme simple, la tâche MQA est en fait couramment utilisée dans la vie quotidienne. Par exemple, en regardant un film ou une série télévisée, on peut se demander "Dans quel film ai-je déjà vu cette actrice?". La réponse nécessite généralement de déterminer d'abord le nom de l'actrice à partir des crédits du film, puis d'accéder à une base de connaissances telle que IMDB ou Wikipedia pour obtenir la liste des films précédents dans lesquels l'actrice a joué. Dans une forme plus simple, un tel scénario répond également aux besoins industriels. Par exemple, dans le cadre de la maintenance ou du support technique, il peut être nécessaire de déterminer la référence d'un produit particulier pour accéder aux informations disponibles nécessaires à la réalisation d'une opération technique; la référence peut être obtenue à l'aide d'une requête visuelle (prise d'une photo de l'objet, d'autres moyens n'étant pas toujours disponibles); l'accès aux informations pertinentes peut alors être posé comme un problème de Question-Réponse.

La tâche de MQA est liée au problème récent de Visual Question Answering (VQA), qui consiste à répondre aux questions sur le contenu des images données, mais est différent de celui-ci puisque nous proposons de considérer des questions dont le sens résulte de la combinaison de texte et de l'image, par exemple, l'image peut fournir un contexte pour comprendre le texte, le texte peut aider à se concentrer sur une région d'image ou les deux modalités donnent des indices pour rechercher une réponse. De même, les systèmes VQA existants ne considèrent que des catégories assez générales [1], même lorsqu'ils utilisent un KB [2], alors que nous proposons de traiter un grand nombre d'entités. De plus, nous proposons d'étudier comment modéliser la collaboration entre les différentes modalités afin de répondre aux questions, ce qui est un sujet assez nouveau car, même dans des systèmes de questions-réponses basés texte et base de connaissances, la plupart des systèmes sont dédiés à la recherche d'une réponse soit dans le texte soit dans la base de connaissances, mais pas les deux. Seuls certains systèmes hybrides récents texte et KB ont développé une stratégie collaborative. [3] ont défini des techniques d'expansion et de relaxation des requêtes pour rechercher des informations dans les contextes de texte associés aux triplets. [4], au contraire, recherche d'abord des informations dans des textes annotés avec des entités KB, puis utilise des requêtes SPARQL si la stratégie sur le texte échoue. Dans [5], une recherche hybride est réellement effectuée en décomposant les questions en sous-parties qui sont recherchées dans deux types de ressources et les réponses résultantes sont agrégées pour la sélection de réponse finale.

Dans le projet, trois types de modalité sont considérées, à savoir (1) la modalité visuelle extraite des pixels des images (2) la modalité textuelle extraite des questions en langage naturel, les légendes et autres contenus textuels qui sont «proches» d'une image et les documents textuels utilisés pour alimenter une base de données de connaissances sur les entités et, (3) par une modalité structurelle qui reflète les liens identifiés entre les entités et enregistrés dans la base de connaissances. MEERQAT vise ainsi à répondre à une question composée des modalités textuelle et visuelle en s'appuyant sur une base de connaissances contenant des informations relatives aux modalités visuelles, textuelles et structurelles.

Objectifs de la thèse

L'objectif de la thèse est d'exploiter des représentations partagées par plusieurs modalités, plus spécifiquement le texte, l'image et les connaissances, pour proposer, implémenter et évaluer des modèles pour la tâche de MQA. Cet objectif sera atteint suivant une approche incrémentale en se concentrant d'abord sur la sélection des réponses à partir de textes ou KB puis en intégrant, tradivement, puis précocement, toutes les modalités.

À cette fin, le candidat travaillera d'abord sur la définition d'une typologie de questions reposant sur l'utilisation de l'image, du texte et de la base de connaissances et étudiera le rôle de chaque modalité en fonction du type de questions, c'est-à-dire quelle modalité est la plus appropriée pour répondre à un type de questions donné. Cette taxonomie conduira à la sélection de corpus existants et à la construction automatique de nouveaux.

Ensuite, le candidat se concentrera sur la fusion tardive des modalités pour proposer un premier modèle MQA. Il proposera une approche extractive pour sélectionner une réponse où les entités agissent comme pivot : les entités mentionnées dans la question sont recherchées dans la base de connaissances et les informations qui leur sont liées sont extraites afin de correspondre à la question et de sélectionner les candidats à la réponse. Ces informations sont ensuite alignées sur les sous-parties de la question. La réponse est définie comme l'entité ou le morceau de texte qui justifie le mieux l'alignement, c'est-à-dire les liens dans la base de connaissances qui correspondent le mieux à la question. Cette approche offre une grande flexibilité pour la saisie : des saisies textuelles et visuelles peuvent être utilisées pour rechercher des entités dans la base de connaissances. Le problème de question-réponse consiste donc à décomposer la question en sous-questions élémentaires pouvant être alignées sur des informations connues. La décomposition peut être basée sur des connaissances linguistiques comme dans [5] ou apprise avec le processus d'alignement. Le candidat étudiera d'abord deux modalités (texte et KB), en utilisant les représentations existantes de mots et d'entités. Il explorera une fusion tardive des modalités en décomposant les questions en sous-questions et en apprenant leur alignement avec les différentes sources (textes, entités ou triplets) à l'aide de modèles neuronaux avec un mécanisme d'attention visant à sélectionner les informations pertinentes dans les deux représentations qui sont comparés [6]. Il agrégera ensuite les résultats, par exemple en s'appuyant sur une approche de programmation linéaire en nombres entiers [5], qui permet de modéliser les contraintes de sélection du meilleur candidat comme réponse.

Enfin, le candidat étudiera les architectures de réseaux de neurones profonds pour modéliser la tâche complète et testera plusieurs stratégies pour intégrer différents types de plongements. Plus particulièrement, il adaptera différents mécanismes d'attention pour comparer la représentation multimodale des questions avec les informations multimodales extraites de la base de connaissances pour guider le processus de sélection des réponses. Il étudiera également l'apprentissage de la décomposition des questions ainsi que les alignements et la prédiction des réponses par apprentissage conjoint ou multi-tâches. Nous nous attendons à ce qu'une telle architecture intégrée pour la tâche de MQA se traduise par 1) l'amélioration de la reconnaissance des entités dans la base de connaissance 2) l'amélioration de la représentation des questions en fournissant un contexte plus riche et en apprenant une représentation sémantique globale.

References
[1] Q. Wu, C. Shen, P. Wang, A. Dick, and A. van den Hengel. Visual question answering: A survey of methods and datasets. Computer Vision and Image Understanding, 163:21 – 40, 2017. Language in Vision.
[2] Q. Wu, C. Shen, P. Wang, A. Dick, and A. van den Hengel. Image captioning and visual question answering based on attributes and external knowledge. IEEE T. PAMI, 2017.
[3] M. Yahya, K. Berberich, S. Elbassuoni, and G. Weikum. Robust question answering over the web of linked data. In CIKM, 2013.
[4] S. Park, S. Kwon, B. Kim, and G. G. Lee. Isoft at qald-5: Hybrid question answering system over linked data and text data. In Working Notes of CLEF 2015, 2015.
[5] K. Xu, S. Reddy, Y. Feng, S. Huang, and D. Zhao. Question answering on freebase via relation extraction and textual evidence. In ACL 2016, August 7-12, 2016, Berlin, Germany, Volume 1, 2016
[6] H.-Y. Huang, C. Zhu, Y. Shen, and W. Chen. Fusionnet: Fusing via fully-aware attention with application to machine comprehension. In International Conference on Learning Representations, 2018.

Contexte de travail

Le doctorant sera accueilli au sein de l'équipe de recherche TLP (Traitement du Langage Parlé) au Laboratoire d'Informatique pour le Mécanique et les Sciences de l'Ingénieur situé à Orsay (91400).

On en parle sur Twitter !