MoDyCo
Intranet

Projet ColAnTal

Nom du projet :

Faire collaborer les anthropologues et les linguistes sur le Traitement Automatique des Langues peu dotées

Acronyme du projet :

ColAnTal

Année/date de début :

2025

Année/date de fin :

2026

Durée :

1 an

Responsable(s) du projet :

Aleksandra Miletic (Modyco), Nicolas Bontemps (Lesc), Aude Da Cruz Lima (Modyco)

Partenaires :

Lesc UMR7186 ; Modyco UMR7114 ; Musée du quai Branly – Jacques Chirac

Membre participant (Modyco) :

Pôle/Axe (Modyco) :

DAM

Financeur :

AAP MSH Mondes 2025

Budget/Montant : 

Type de projet :

Ateliers éphémères (pour élaborer collectivement une expérimentation, une question de recherche et, le cas échéant, lui donner la forme d’un projet de recherche)

Description/résumé :

Ce projet se situe à l’intersection du traitement automatique du langage (dorénavant TAL) et de l’anthropologie. Il est motivé par un double constat.

Premièrement, malgré des avancées récentes en TAL, la majorité du patrimoine linguistique du monde en reste exclue : sur quelque 7000 langues recensées, entre 200 et 500 bénéficient des outils les plus récents (Costa-jussà et al. 2022,  Xue et al. 2021, Zeman et al. 2024). Ceci est dû au fait que ces technologies reposent sur des données écrites, le plus souvent récoltées sur Internet. Par conséquent, toute langue ayant une faible présence numérique s’en trouve exclue.

Deuxièmement, les données et archives de l’anthropologie représentent des trésors de données, qui font souvent l’objet d’une numérisation ou documentation partielle, limitant les possibilités de leur utilisation, mais aussi de leur pérennisation et valorisation.

Ce projet propose donc une exploration des collaborations possibles entre ces deux disciplines dans le but d’une mise en commun des données existantes. Cela aura deux résultats concrets : l’amélioration de la visibilité et de la pérennité des données anthropologiques, et l’amélioration de la couverture des langues en TAL.

Mots clés :

TAL, langues peu dotées, anthropologie, données, archives, diversité et inclusion linguistique

Site du projet :

Evènements :

Jeudi 26 juin 2025 : 1ère rencontre Lesc-Modyco

Publications :

Illustration (ou logo) :