En poursuivant votre navigation sur ce site, vous acceptez le dépôt de cookies dans votre navigateur. (En savoir plus)
Portail > Offres > Offre UMR6074-LAUAMS-003 - Ingénieur (H/F) de recherche en traitement de la langue naturelle

Ingénieur (H/F) de recherche en traitement de la langue naturelle


Date Limite Candidature : lundi 28 octobre 2024 23:59:00 heure de Paris

Assurez-vous que votre profil candidat soit correctement renseigné avant de postuler

Informations générales

Intitulé de l'offre : Ingénieur (H/F) de recherche en traitement de la langue naturelle
Référence : UMR6074-LAUAMS-003
Nombre de Postes : 1
Lieu de travail : RENNES
Date de publication : lundi 7 octobre 2024
Type de contrat : CDD Technique/Administratif
Durée du contrat : 24 mois
Date d'embauche prévue : 12 novembre 2024
Quotité de travail : Temps complet
Rémunération : Entre 2847,42 et 3206.65€
Niveau d'études souhaité : Niveau 7 - (Bac+5 et plus)
Expérience souhaitée : Indifférent
BAP : Informatique, Statistiques et Calcul scientifique
Emploi type : Chef-fe de projet ou expert-e en ingénierie des systèmes d’information

Missions

Dans le contexte d’un laboratoire commun entre l’IRISA et le journal Ouest-France, premier quotidien régional de France, vous apporterez votre expertise en traitement automatique du langage naturel pour accompagner la recherche académique dans ses missions fondamentales, déployer et tester in vivo les avancées scientifiques sur les cas d’usage du journal. Vos missions tourneront principalement, mais pas exclusivement, autour du développement, de l’analyse et du test de grands modèles de langues adaptés aux spécificités du journal et des cas d’usages envisagés.

Activités

Le succès actuel des techniques de traitement automatique des langues tient en grande partie à l’utilisation de modèles de langue génériques pré-entrainés sur des grands volumes de données, encodant ainsi des connaissances générales sur le langage. Néanmoins, ces modèles génériques disponibles sur étagère sont mal adaptés aux spécificités des contenus des collections Ouest-France.

En lien avec les chercheurs de l’IRISA et les équipes de Ouest-France, vous serez amené ou amenée à évaluer, analyser et entraîner des grands modèles de langues spécifiques au journal et à tester leur apport dans différents cas d’usage. Ces derniers impliquent des tâches de classification de documents, de détection d’entités ou de relations, de génération de texte, de constitution de bases de connaissance, etc. Dans un contexte de grand volume de données et d’exploitation in vivo, la maîtrise des coûts calculatoires en inférence sera un enjeu majeur dans la conception de modèles et dans leur utilisation. Le couplage entre connaissances formalisés (thesaurus, référentiels, triplet store) et modèles de langue sera aussi au cœur des travaux.

Un premier jalon réside dans l'entraînement et la mise à disposition de modèles de langue entraînés sur les archives de Ouest-France. Les modèles de langue conçus pour l’extraction d’information et la classification de texte devront refléter les contenus de Ouest France et être adapté aux types d’informations contenues dans les archives du journal. Les modèles de langue ciblant la génération du langage devront quant à eux refléter les habitudes de rédaction du journal. On s’intéressera dans un second temps à l’exploitation de ces modèles pour répondre à des besoins applicatifs, via leur analyse fine et leur spécialisation dans un contexte de données d’apprentissage limité. On étudiera notamment l’apport de techniques d’apprentissage permettant de combiner des connaissances formalisées, des données fiables, bien annotées, et des données non annotées ou annotées de manière automatique (apprentissage hybride, mixte, supervision distante, etc.).

Compétences

Le candidat ou la candidate doit :
- posséder une thèse en informatique ou un diplôme d'ingénieur (ou équivalent Bac+5) en informatique avec une spécialisation en apprentissage automatique et/ou traitement automatique du langage : une expérience/spécialisation en traitement automatique des langues ou à défaut en apprentissage artificiel et réseaux de neurones est indispensable
- posséder de solides connaissances de programmation en Python, une grande habitude de la programmation, une familiarité avec les techniques de génie logiciel modernes facilitant la reproductibilité des résultats
- avoir idéalement une expérience dans le déploiement d’algorithmes d’apprentissage à grande échelle dans des infrastructures HPC
- avoir un niveau d'anglais (niveau B2) et de français (A2) permettant d'analyser les données et d'échanger avec les partenaires
- être autonome, avoir une approche scientifique rigoureuse, être force de propositions et d'initiatives

Contexte de travail

Le poste proposé se situe sur le campus de Beaulieu à Rennes, avec une présence occasionnelle dans les locaux de Ouest-France à Rennes. Vous serez affecté à l’équipe de recherche LINKMEDIA de l’IRISA et intégré à l’équipe du laboratoire commun SYNAPSES regroupant des chercheurs de l’IRISA (équipes LINKMEDIA, EXPRESSION) et des ingénieurs de Ouest France.

L’IRISA est aujourd'hui l'un des plus grands laboratoires de recherche français (plus de 850 personnes) dans le domaine de l'informatique et des technologies de l'information. Structuré en sept départements scientifiques, l'IRISA est un laboratoire d'excellence dont les priorités scientifiques sont la sécurité des systèmes informatiques, les réseaux du futur et les systèmes distribués à grande échelle, les nouvelles architectures logicielles et matérielles, les humains numériques et la réalité étendue, l'analyse des masses de données et l'intelligence artificielle. Tourné vers l'avenir de l'informatique et nécessairement tourné vers l'international, l'IRISA est au cœur même de la transition numérique de la société et de l'innovation au service de la sécurité, de la santé, de l'environnement et de l'écologie, des transports, de l'énergie, de la culture.

Présentation du CNRS en tant qu'employeur : https://www.cnrs.fr/fr/le-cnrs
Présentation de l'IRISA comme laboratoire d'affectation : https://www.irisa.fr/umr-6074
Présentation de l’équipe LINKMEDIA : http://www-linkmedia.irisa.fr/

Poste à temps plein, 38h30 hebdomadaires avec RTT.
Télétravail possible.

Le poste se situe dans un secteur relevant de la protection du potentiel scientifique et technique (PPST), et nécessite éventuellement, conformément à la réglementation, que votre arrivée soit autorisée par l'autorité compétente du MESR.