Nom du projet :
Autogramm : Induction de grammaires descriptives à partir de corpus annotés
Acronyme du projet :
Autogramm
Année/date de début :
2022-01-01
Année/date de fin :
2025-12-31
Durée :
4 ans
Responsable(s) du projet :
Sylvain Kahane
Partenaires :
Établissement de rattachement (CNRS, Université de Nantes, CEA, etc.) | Code Unité (UMR, UPR, EA, etc.) | Nom du laboratoire et/ou de l’équipe | Institut principal Pour les unités rattachées au CNRS | Délégation régionale | Civilité/NOM/Prénom des personnes impliquées |
INRIA Grand Est | Modèles, Dynamiques Corpus MoDyCo | Bruno Guillaume | |||
Université Paris Nanterre | UMR 7114 | Modèles, Dynamiques Corpus MoDyCo | INSHS | DR05 Meudon Ile de France | Sylvain Kahane |
Université Paris Saclay | LISN | Kim Gerdes | |||
INALCO | LACITO | Sylvain Loiseau |
Membres participants (Modyco) :
Pôle/Axe (Modyco) :
Modélisation
Financeur :
ANR
Budget/Montant :
525k€
Type de projet :
Projet collaboratif entre chercheurs en linguistique de terrain, TAL et linguistique formelle visant à développer des ressources pour des langues peu dotées : corpus annoté, grammaire quantitative, description typologique.
Description/résumé :
Le but de ce projet est d’automatiser, dans la mesure du possible, l’extraction de grammaires descriptives et de descriptions grammaticales à partir de corpus annotés, à des fins d’études linguistiques et typologiques. Nous visons des descriptions qui mettent en évidence les principales propriétés du corpus (et par extension la langue ou la variété que le corpus représente) ; sont facilement compréhensibles pour un linguiste ; peuvent être visualisées par des textes, des diagrammes ou des tableaux, y compris les bases de données grammaticales généralement orientées vers les études comparatives et typologiques ;
et peuvent varier en taille.
Comme ces descriptions grammaticales sont induites à partir d’un corpus, elles contiennent des informations quantitatives associées à chaque observation faite sur ce corpus, ainsi que des exemples pertinents extraits de celui-ci.
Le projet promeut également le développement de treebanks pour des langues sous-dotées, afin d’extraire des grammaires descriptives quantitatives pour ces langues. Le projet utilise le schéma d’annotion SUD (Surface-syntactic Universal Dependencies), l’outil de requête Grew-match et l’outil d’annotation ArboratorGrew.
Mots clés :
treebank, corpus annoté, syntaxe de dépendance, grammaire formelle, typologie quantitative