- Cet évènement est passé
Aline Etienne, Jade Mekki & Delphine Battistelli
4 février 2020 @ 10 h 00 min - 12 h 00 min
Détecter automatiquement des registres de langue : une question pour la linguistique de corpus ou pour le TAL ?
Toute production langagière est évaluée par l’interlocuteur. Il la situe dans un “registre”, qui peut être vu intuitivement comme un certain usage de la langue à un moment donné et/ou dans un contexte donné. Cette notion se trouve abordée dans des travaux divers en linguistique comme en sociolinguistique. Selon l’angle d’étude privilégié (linguistique ou socio-linguistique) mais aussi selon le corpus pris pour objet d’analyse, on observe alors dans ces divers travaux des manières différentes de partitionner l’espace linguistique et de nommer les composantes de cet espace vues comme des “registres” s’opposant plus ou moins les uns aux autres. En linguistique de corpus comme en TAL, l’analyse de ces composantes constitue un enjeu important et ambitieux, tant sur le plan descriptif (de par l’ensemble des niveaux de langue à prendre en compte : phonétique, lexical, syntaxique, …) et calculatoire (de par la nécessite de méthodes algorithmiques efficientes à même de gérer des corpus de taille importante). Nous présenterons des travaux que nous menons sur cette thématique avec une perspective de TAL avec trois cas d’usage. Le premier s’intéresse à l’identification automatique des registres “familier”, “neutre” et “soutenu” ; le second à l’identification du registre “enfantin” (entendu comme langage destiné à des enfants) ; le dernier à l’identification du registre de “haine”.