En poursuivant votre navigation sur ce site, vous acceptez le dépôt de cookies dans votre navigateur. (En savoir plus)
Portail > Offres > Offre UMR5263-LUDTAN-002 - Ingénieur d'étude en Traitement Automatique des Langues (H/F)

Ingénieur d'étude en Traitement Automatique des Langues (H/F)


Assurez-vous que votre profil candidat soit correctement renseigné avant de postuler. Les informations de votre profil complètent celles associées à chaque candidature. Afin d’augmenter votre visibilité sur notre Portail Emploi et ainsi permettre aux recruteurs de consulter votre profil candidat, vous avez la possibilité de déposer votre CV dans notre CVThèque en un clic !

Faites connaître cette offre !

Informations générales

Référence : UMR5263-LUDTAN-002
Lieu de travail : TOULOUSE
Date de publication : lundi 3 décembre 2018
Type de contrat : CDD Technique/Administratif
Durée du contrat : 12 mois
Date d'embauche prévue : 1 mars 2019
Quotité de travail : Temps complet
Rémunération : autour de 2000€ bruts (1700 nets) mensuels
Niveau d'études souhaité : Bac+5
Expérience souhaitée : Indifférent

Missions

Dans le cadre du projet ANR ADDICTE (Analyse distributionnelle en domaine de spécialité) le laboratoire CLLE recrute un ingénieur d'étude en TAL pour une période de 12 mois.

Contexte scientifique :

L'objectif du projet ADDICTE (Analyse distributionnelle en domaine de spécialité) est de proposer une solution opérationnelle à l'analyse sémantique distributionnelle en domaine de spécialité pour construire des représentations sémantico-conceptuelles du domaine (ontologies de domaine, thésaurus, ressources terminologiques) qui sont utilisables à la fois en ingénierie des connaissances et dans certaines applications documentaires (indexation de documents notamment).
Aujourd'hui les modèles d'analyse distributionnelle performants fournissent des ressources « prêt-à-porter » construites à partir de très gros corpus tout-venant de langue générale. Ces word embeddings génériques ne sont pas suffisants pour représenter la sémantique d'un domaine de spécialité, et il est donc nécessaire de les construire sur la base de corpus spécialisés. Or, les corpus de textes spécialisés présentent des caractéristiques problématiques pour l'application de ces méthodes distributionnelles, dont l'efficacité est corrélée à la quantité de données disponibles. D'une part, ces corpus sont de taille modeste (généralement en deçà du million de mots) par comparaison aux très grand corpus de langue générale. D'autre part, les unités terminologiques, et en particulier les termes complexes, y prédominent qui, par leur spécificité, réduisent encore le volume des contextes mobilisables pour le calcul sémantique. En revanche, ces données présentent des caractéristiques intéressantes pouvant être exploitées par un système d'analyse distributionnelle : ces textes sont généralement très structurés, le lexique est réduit, et des ressources sémantiques sont souvent disponibles et peuvent être injectées dans le processus d'analyse.

Détails de la mission

L'ingénieur se concentrera sur le traitement des données issues de corpus spécialisés et plus particulièrement sur l'extraction des contextes des unités lexicales et terminologiques pour pour la construction de modèles distributionnels (modèles prédictifs à base de réseaux de neurones de type Word2vec). Il s'agira de caractériser ces contextes sur différents niveaux (syntaxiques, structurels, discursifs) et d'étudier leur impact sur les représentations distributionnelles.
Pour cela, une première phase de préparation des corpus sera nécessaire, notamment pour pouvoir accéder à la structure du document et à une représentation enrichie des contextes.
Dans un second temps, l'ingénieur devra mettre en place un dispositif expérimental permettant d'observer les liens entre les caractéristiques des contextes et les représentations distributionnelles.

Activités

L'ingénieur aura en charge les tâches suivantes :

- constitution d'un corpus spécialisé annoté structurellement (en-tête, sections, titres, tableaux, etc.). Ce corpus devra au moins en partie être converti à partir de formats finalisés (PDF) en exploitant les indices de surface du document et en se basant sur les bibliothèques disponibles (xpdf, pdfminer, etc.)

- développement de procédures de sélection et d'observation de contextes dans le corpus. Il s'agira de mettre au point des méthodes permettant l'extraction de contextes en fonction de caractéristiques a priori (linguistiques en se basant sur une annotation syntaxique automatique et/ou structurelles en se basant sur le balisage évoqué précédemment).

Compétences

Profil recherché :
- Master en traitement automatique des langues
- Solides connaissances en programmation (Python)
- Pratique des corpus numériques : balisage XML, annotation automatique
- Des connaissances sur les modèles distributionnels seraient un plus
- Langues : français et anglais courants

Contexte de travail

Pluridisciplinaire et polyvalent en SHS, le laboratoire CLLE mène des recherches qui quadrillent un vaste périmètre des domaines de la linguistique (équipe ERSS) et de la psychologie (équipe LTC). Ses 218 membres dont 76 doctorants sont répartis en 8 axes de recherche qui permettent de couvrir un large spectre des sciences du langage et de la psychologie cognitive. Il est dirigé par Hélène Giraudo. Au sein de l'équipe ERSS (Equipe de Recherche en Syntaxe et Sémantique), l'axe CARTEL (Corpus, Applications, Ressources pour le Traitement et l'Etude du Langage), coordonné par Ludovic Tanguy, regroupe les recherche en linguistique informatique et en traitement automatique des langues (TAL).

L'ingénieur recruté sera rattaché à l'axe Cartel. Il interagira avec les membres du laboratoire (permanents et doctorants) impliqués dans le projet ANR ADDICTE ainsi qu'avec les autres équipes partenaires de ce projet.

Contraintes et risques

nil

On en parle sur Twitter !