En poursuivant votre navigation sur ce site, vous acceptez le dépôt de cookies dans votre navigateur. (En savoir plus)
Portail > Offres > Offre UMR5596-FRASEI0-001 - Chercheur postdoctorant H/F en linguistique de corpus / morphologie à Lyon (3 ans)

Chercheur postdoctorant H/F en linguistique de corpus / morphologie à Lyon (3 ans)

Cette offre est disponible dans les langues suivantes :
Français - Anglais

Assurez-vous que votre profil candidat soit correctement renseigné avant de postuler. Les informations de votre profil complètent celles associées à chaque candidature. Afin d’augmenter votre visibilité sur notre Portail Emploi et ainsi permettre aux recruteurs de consulter votre profil candidat, vous avez la possibilité de déposer votre CV dans notre CVThèque en un clic !

Faites connaître cette offre !

Informations générales

Référence : UMR5596-FRASEI0-001
Lieu de travail : LYON 07
Date de publication : lundi 7 janvier 2019
Type de contrat : CDD Scientifique
Durée du contrat : 36 mois
Date d'embauche prévue : 15 mars 2019
Quotité de travail : Temps complet
Rémunération : environ 2 500 € bruts mensuels
Niveau d'études souhaité : Doctorat
Expérience souhaitée : Indifférent

Missions

Le chercheur participera à la création du corpus DoReCo, basée sur une documentation d'environ 50 langues minoritaires et souvent menacées (au moins 10 000 mots par langue). Il étudiera également les caractéristiques universelles et spécifiques de différentes langues dans la distribution temporelle des morphèmes, à travers deux études interlinguistiques basées sur DoReCo: (i) le débit d'information (le nombre de morphèmes par seconde), et (ii) le groupement de information (nombre de morphèmes moyens dans les unités inter-pause). Les deux études contribueront à mieux comprendre les contraintes cognitives de l'utilisation de la langue. Le travail sera effectué en collaboration avec les partenaires du projet en Allemagne, où les données seront alignées temporellement au niveau du phonème, et avec les créateurs des corpus d'origine; le travail de projet sera soutenu par deux assistants.

Activités

1) Création du corpus DoReCo (du 1er au 12ème mois) à partir de fichiers d'annotations originaux dans un format conforme à TEI, comprenant:
- Spécification d'un sous-ensemble de champs TEI utilisés pour les données DoReCo ;
- Développement de scripts de conversion bidirectionnels pour importer / exporter des données au format DoReCo-TEI de/vers: le format EAF utilisé par le logiciel ELAN, le format NXT du corpus Switchboard, le format CSV, et le format Toolbox / Shoebox (* .txt / * .tbt) ;
- Incorporation des métadonnées dans les fichiers TEI (informations sur les noms des orateurs, des chercheurs et des annotateurs, date et lieu d'enregistrement, etc.);
- Conversions des fichiers au format TEI au cours desquelles (i) les niveaux d'annotation (transcription, traduction, segmentation des morphèmes, etc.) seront étiquetés de façon consistante; (ii) les incohérences seront résolues en ce qui concerne, par exemple, les associations morphème-gloss.
- Archivage de tous les fichiers d'annotation avec des identificateurs persistants dans NAKALA ;
- Collaboration avec les autres membres du projet à Lyon, les partenaires en Allemagne et les créateurs des corpus d'origine; supervision des deux assistants.

2) Réalisation, en collaboration avec les autres membres du projet, de deux études comparatives interlinguistiques utilisant le corpus DoReCo (du 13 au 36ème mois): une étude sur le débit d'information, et une autre sur le groupement de information en unités inter-pause ; présentation des résultats dans deux publications et lors de conférences scientifiques.

Compétences

- Expérience en linguistique de corpus, en linguistique informatique et en archivage de langues
- Expérience ou connaissance en recherche (interlinguistique) sur le débit d'information ;
- Une connaissance préalable de XML / TEI n'est pas nécessaire mais constituerait un avantage.
- Une connaissance du français n'est pas nécessaire mais constituerait un avantage.

Contexte de travail

Le poste fait partie d'un projet commun franco-allemand financé par la DFG et l'ANR intitulé «Phonétique et morphologie interlinguistiques utilisant un corpus de référence multilingue aligné temporellement et construit à partir de documentations de 50 langues: Big data sur de petites langues» (DoReCo). À Lyon, le chercheur principal est Frank Seifart, en collaboration avec François Pellegrino et Laurent Romary. En Allemagne, le chercheur principal est Manfred Krifka en collaboration avec Susanne Fuchs. Le projet allemand va étudier l'allongement phonétique en relation à la nature des segments et en tant qu'indicateurs des limites de la phrase. Un objectif important du projet est que le corpus de référence DoReCo soit mis à la disposition des recherches futures.

On en parle sur Twitter !