Aleksandra Miletic (MoDyCo) : Outillage de langues moins dotées : perspectives pour le TAL et pour la linguistique
janvier 21 @ 10 h 00 min - 12 h 00 min
En TAL, des avancées importantes ont été faites depuis dix ans pour augmenter le nombre de langues dotées. Mais même les méthodes et outils multilingues les plus récents intègrent rarement plus de 100 – 200 langues. La majorité des 7000 langues mondiales en est donc exclue. Par ailleurs, l’irruption récente des grands modèles de langue dans le domaine du TAL risque d’aggraver les disparités existantes, du fait que la majorité des langues du monde ne disposent pas d’assez de données écrites pour être bien représentées dans ces nouvelles technologies. Cela signifie que les langues bien dotées pourront bénéficier des technologies de plus en plus puissantes, à l’instar de ChatGPT, et que l’écart par rapport aux langues moins dotées continuera à se creuser. Dans ce contexte, l’effort pour doter, outiller et documenter les langues moins bien représentées devient essentiel et urgent.
Ma présentation dans le cadre de ce séminaire s’articulera en deux temps. Je présenterai d’abord une sélection de mes travaux précédents, portant sur la création et sur l’exploitation de ressources linguistiques en serbe et en occitan. Dans un deuxième temps, je présenterai quelques travaux entamés depuis mon arrivée à MoDyCo en octobre 2024 : l’exploration d’une extraction de grammaire automatisée à partir d’un corpus hausa (langue tchadique), ainsi que des projets de constitution de treebanks pour le pesh (langue chibcha ; projet piloté par N. Cáceres) et le nenets (langue ouralienne ; projet piloté par N. Mus).
Aleksandra Miletic est chargée de recherche au CNRS, membre du laboratoire MoDyCo.
salle séminaire 2 du bâtiment Max Weber
[lien de visioconférence communiqué sur la liste de diffusion Modyco]