MoDyCo
Intranet

Projet ANR Autogramm

Nom du projet :

Autogramm : Induction de grammaires descriptives à partir de corpus annotés

Acronyme du projet :

Autogramm

Année/date de début :

2022-01-01

Année/date de fin :

2025-12-31

Durée :

4 ans

Responsable(s) du projet :

Sylvain Kahane

Partenaires :

Établissement de rattachement (CNRS, Université de Nantes, CEA, etc.)Code Unité (UMR, UPR, EA, etc.)Nom du laboratoire et/ou de l’équipeInstitut principal Pour les unités rattachées au CNRSDélégation régionaleCivilité/NOM/Prénom des personnes impliquées
INRIA Grand EstModèles, Dynamiques Corpus MoDyCoBruno Guillaume
Université Paris NanterreUMR 7114Modèles, Dynamiques Corpus MoDyCoINSHSDR05 Meudon Ile de FranceSylvain Kahane
Université Paris SaclayLISNKim Gerdes
INALCOLACITO

Sylvain Loiseau

Membres participants (Modyco) :

Pôle/Axe (Modyco) :

Modélisation

Financeur :

ANR

Budget/Montant : 

525k€

Type de projet :

Projet collaboratif entre chercheurs en linguistique de terrain, TAL et linguistique formelle visant à développer des ressources pour des langues peu dotées : corpus annoté, grammaire quantitative, description typologique.

Description/résumé :

Le but de ce projet est d’automatiser, dans la mesure du possible, l’extraction de grammaires descriptives et de descriptions grammaticales à partir de corpus annotés, à des fins d’études linguistiques et typologiques. Nous visons des descriptions qui mettent en évidence les principales propriétés du corpus (et par extension la langue ou la variété que le corpus représente) ; sont facilement compréhensibles pour un linguiste ; peuvent être visualisées par des textes, des diagrammes ou des tableaux, y compris les bases de données grammaticales généralement orientées vers les études comparatives et typologiques ;
et peuvent varier en taille.

Comme ces descriptions grammaticales sont induites à partir d’un corpus, elles contiennent des informations quantitatives associées à chaque observation faite sur ce corpus, ainsi que des exemples pertinents extraits de celui-ci.

Le projet promeut également le développement de treebanks pour des langues sous-dotées, afin d’extraire des grammaires descriptives quantitatives pour ces langues. Le projet utilise le schéma d’annotion SUD (Surface-syntactic Universal Dependencies), l’outil de requête Grew-match et l’outil d’annotation ArboratorGrew.

Mots clés :

treebank, corpus annoté, syntaxe de dépendance, grammaire formelle, typologie quantitative

Site du projet :

https://autogramm.github.io/

Evènements :

Publications :

Illustration (ou logo) :