Nom du projet :
Induction de textes grammaticaux à partir de données linguistiques grâce à l’intelligence artificielle / AI-based induction of grammatical texts from linguistic data
Acronyme du projet :
Autogramm IA / Autogramm AI
Année/date de début :
2026
Année/date de fin :
2030
Durée :
4 ans
Responsable(s) du projet :
Sylvain Kahane (Modyco)
Partenaires :
Irisa, Llacan, Lisn, Modyco
Membre participant (Modyco) :
Pôle/Axe (Modyco) :
DAM
Financeur :
Budget/Montant :
Type de projet :
Projet collaboratif
Description/résumé :
Résumé :
Le projet Autogramm AI a pour objectif d’induire des grammaires descriptives à partir de données linguistiques annotées. Cet objectif est partagé avec le projet ANR Autogramm (2021-2025). Néanmoins, les avancées récentes extraordinaires dans le domaine de l’IA nous permettent d’envisager autrement la question.
Premièrement, nous pouvons maintenant viser de véritables textes grammaticaux en langue naturelle contrairement à Autogramm qui avait pour objectif de produire seulement des descriptions formelles à partir de données linguistiques structurées. Nous nous focaliserons sur les approches dites de prompting en utilisant de grands modèles de langues (LLM) pour extraire l’information de façon structurée des textes et pour la régénérer.
Deuxièmement, nous pouvons mettre en place de nouvelles méthodes d’IA pour l’induction à partir de corpus annotés : nouvelles approches fondées sur des méthodes de fouille de graphes et d’apprentissage pour l’extraction de caractéristiques ; et développement de nouvelles architectures neuronales, interprétables by design (“white-box”).
Troisièmement, nous proposerons une nouvelle formalisation de la notion de grammaire, basée sur une logique modale (un choix est possible mais pas obligatoire), non-monotone (toute règle possède ses exceptions) et permettant d’exprimer des quantifications de nature fréquentielle. Ce langage servira de pivot permettant de confronter les informations grammaticales extraites d’un texte rédigé par un.e linguiste avec celles induites des données linguistiques attestées.
Quatrièmement, même si les grammaires descriptives de langues sous-dotées et la typologie des langues restent dans nos objectifs prioritaires, la possibilité de pouvoir induire des grammaires contrastives ouvre des applications à de nouveaux domaines (enseignement L2, analyse du discours, acquisition du langage).
Nous développerons des méthodes de génération de textes contrôlées, qui tireront profit de la compétence des LLM à produire des textes en langage naturel, mais dont la génération sera contrainte dans son contenu afin de (a) garantir la validité des faits énoncés, faits qui dans notre cas sont les règles de grammaire écrites dans notre nouvelle formalisation; (b) s’adapter aux exigences des utilisateurs humains.
Le consortium comporte deux équipes en informatique (LISN et IRISA) qui s’intéressent aux méthodes d’IA en TAL, et deux équipes de linguistique (Modyco et Llacan), avec des spécialistes de diverses langues, des formalistes et théoriciens et des spécialistes de la variation (analyse du discours, acquisition, apprentissage L2…). Les chercheurs du consortium ont une expérience de travail en commun et de nombreuses publications communes.
Summary :
The goal of the Autogramm AI project is to induce descriptive grammars from annotated linguistic data. This goal is shared with the ANR Project Autogramm (2021-2025). However, thanks to impressive recent advances in AI, it is now possible to tackle this question in novel ways.
First, it is now possible to aim for authentic grammatical texts written in natural human language, unlike during Autogramm, whose end goal was to produce grammatical descriptions in a formal language. In Autogramm AI, we will deploy Large Language Models through prompting approaches in order to extract structured data from grammatical texts and to generate new texts.
Secondly, we will implement new AI methods for corpus-driven grammar induction: these approaches will be based on graph mining and features extraction learning, and we will also work on developing novel neural architectures which will be interpretable by design (“white-box”).
Thirdly, we will introduce a novel formalisation of the notion of grammars, based on a logic which will be modal (a choice is possible but not mandatory), non-monotonic (every rule has a set of examples), and capable of expressing frequency-based quantifications. This formal language will operate as a pivot enabling a direct comparison between grammatical information extracted from a text written by a linguist on the one hand and information induced from attested linguistic data on the other.
Lastly, while descriptive grammars for low-resourced languages and linguistic typology remain a high priority in Autogramm AI, the possibility of inducing contrastive grammars clears the way for new application domains (second language teaching, discourse analysis, language acquisition).
We will develop controlled text generation methods, which will draw on the linguistic competence of LLMs in order to produce text written in natural language. Text generation will be constrained so as to (2) guarantee the validity of the stated facts, which in our case correspond to grammatical rules expressed in the new formal language; (b) be adapted to needs and preferences of human users.
The consortium includes two IT teams (LISN and IRISA) that work on AI methods in NLP, and two linguistics teams (Modyco and Llacan), with experts of various languages, formal and theoretical linguists, as well as experts in linguistic variation (discourse analysis, language acquisition, second language learning…). The members of the consortium have collaborated previously, including numerous co-publications.
Mots clés :
exploration de graphes, modèles de langage à grande échelle (LLM), génération de texte, grammaire descriptive, base de données d’arbres syntaxiques / graph mining, LLM, text generation, descriptive grammar, syntactic treebank
