MoDyCo
Intranet

Chargement Évènements

« Tous les Évènements

  • Cet évènement est passé

Annotation pragmatique de corpus oraux : actes de langage et structure informationnelle

21 janvier 2020 @ 9 h 00 min - 18 h 30 min

 

Workshop organisé par le laboratoire Modyco, UMR7114, Université Paris-Nanterre

Date : 20-21 janvier 2020

Entrée libre

Programme

Lundi 20 janvier

9h45-10h

Introduction aux journées

Anne Lacheret-Dujour, Modyco, Nanterre

 

10h-11h

Presentation of the Language into Act Theory

Emanuela Cresti et Massimo Moneglia, Université de Florence

11h-12h

Segmenter un discours en actes de langage : problèmes et propositions

Caroline Mellet, Modyco, Nanterre

12h-13h

Annoter les processus de co-construction des savoirs dans les données de langue parlée en interaction

Elizaveta Chernyshova, ICAR, Lyon

14h30-15h30

Système d’annotation des “questions en discussion” et de la structure informationnelle d’un corpus de données réelles

Lisa Brunetti, LLF, Université de Paris 7

15h30-16h30

Représenter la structure informationnelle dans les langues peu décrites : quelles étiquettes ?

Candide Simard, Université du Pacifique Sud

 

16h30-18h30

Discussion

Mardi 21 janvier

Matinée : atelier d’annotation

10h-13h

 

Atelier Rhapsodie, Language into Act Theory (L-AcT)

Annotation macrosyntaxique : et la suite ?

Sylvain Kahane, Modyco, Nanterre & Paola Pietrandrea, STL, Université de Lille

Prosodie et pragmatique :

Dialogue entre le modèle Rhapsodie et le modèle L-ACT

Anne Lacheret-Dujour et Caroline Mellet ; Emanuela Cresti et Massimo Moneglia

14h30-15h30

Discussion autour de l’atelier du matin

15h30-16h30

Méthode pour l’annotation pragmatique des intentions implicites exprimées dans les questions

Angèle Barbedette, Eptica, Paris & Iris Eshkol-Taravella, Modyco

 

16h30-18h30

Table ronde : et après ?

 

 

Objectifs du workshop

 

La segmentation du continuum sonore en unités pragmatiques élémentaires, qui relèvent conjointement de l’activité illocutoire et de l’instanciation de la structure communicative dans le message, constitue une question de fond en linguistique de l’oral, intensément balisée avec l’essor de la linguistique de corpus (Izreel et al., à paraître). Nombreux sont les travaux, ces quinze dernières années, consacrés au marquage intonosyntaxique de ces opérations (entre autres : Raso et Mello 2014, Adamou et al. 2018). Ces études ont constitué des étapes importantes pour l’enrichissement des savoir-faire en termes d’annotation prosodique et syntaxique, tant sur le plan de la linguistique outillée (développement de schémas d’annotation homogènes et d’outils pour interroger les données), que de la linguistique théorique et descriptive (apport d’une approche guidée par les données pour conduire les analyses fonctionnelles, intérêt de la perspective macrosyntaxique – Blanche-Benveniste 1990, Cresti et Moneglia 2005 – pour représenter les constructions spécifiques de la langue parlée, et des modèles perceptifs pour le traitement prosodique – Hart et al. 1990).

Néanmoins à ce jour, les résultats obtenus ne constituent qu’une étape dans le processus global de traitement et il apparaît de plus en plus nécessaire d’intégrer une couche d’annotation pragmatique à part entière pour enrichir significativement les analyses. C’est dans ce contexte que nous avons souhaité organiser ces journées d’étude.

Au travers de six présentations et d’un atelier d’annotation centré autour du corpus Rhapsodie (Lacheret-Dujour et al 2019) et de la théorie Language into Act (Moneglia & Raso 2014), il s’agira de sonder différentes questions à l’interface de la pragmatique et de l’analyse conversationnelle auxquelles est confrontée l’annotation pragmatique de corpus oraux, quand il s’agit de rendre compte de l’activité illocutoire, de la gestion de la structure informationnelle et de leurs marqueurs linguistiques dans les textes. Seront abordés en particulier les points suivants : quel jeu d’étiquettes (types, sous-types et nombre) proposer pour annoter la dimension illocutoire d’un côté, la structure informationnelle de l’autre ? Ces deux niveaux d’annotation sont-ils conçus de façon orthogonale ou interdépendante ? Comment distinguer contenu explicite et contenu implicite dans cette tâche d’annotation et dans quel but ? Comment segmenter et identifier les unités à annoter ? Sur quels critères – contextuels, discursifs, énonciatifs et/ou formels – repose la sélection des éléments à annoter et les étiquettes qu’on leur attribue ? Dans quelle mesure enfin, les systèmes d’annotation proposés peuvent prendre en charge la variation linguistique (types de langues et types de discours) et que peuvent nous apprendre à cet égard les études conduites sur les langues peu décrites ?

Références

 

Adamou, E., Haude, K. et Vanhove M. (eds). 2018. Information structure in lesser-described languages: Studies in prosody and syntax. Amsterdam, Philadelphia: Benjamins (coll. Studies in Language Companion Series 199).

Blanche-Benveniste, Cl. (1990 éd.). Le français parlé. Paris : Editions du CNRS.

Cresti, E. et Moneglia, M. (2005 eds). C-ORAL-ROM. Integrated Reference Corpora for Spoken Romance Languages. Amsterdam : John Benjamins.

Hart, J. ‘t, Collier, R. & Cohen, A. 1990. In Perceptual Study of Intonation: An Experimental-Phonetic Approach to Speech Melody. Cambridge: Cambridge University Press.

Izreel et al., forthcoming. In search of a reference unit for speech: a corpus-driven cross linguistic approach to spontaneous spoken communication.

Moneglia, M. & Raso, T. 2014. Notes on the Language into Act Theory.  In T. Raso & H. Mello (eds), Spoken corpora and linguistics studies, Amsterdam: Benjamins, 468–494.

Raso, T. et Mello, H. (2014). Spoken Corpora and Linguistic Studies, Amsterdam: Benjamins.

Lacheret-Dujour, A, Kahane, S. et Pietrandrea, P. (2019). Rhapsodie, a prosodic and syntactic treebank of spoken French. Amsterdam : John Benjamins.

Résumés des présentations

Presentation of the Language into Act Theory

Emanuela Cresti & Massimo Moneglia (LABLITA, University of Florence)

 

Language into Act Theory (L-AcT) (Cresti, 2000) takes a pragmatic approach to the study of spoken language within the tradition of Austin (1962). A novelty with respect to Austin is that prosody behaves as the necessary interface between the pragmatic activation and the linguistic content of the speech act. L-AcT results specifically centred on speaker’s activity, focussing on illocutionary force and information structure.

L-AcT’s research is based on spoken Romance corpora (LABLITA Corpus of Spoken Italian, C-ORAL-ROM, C-ORAL BRASIL, C-ORDIAL) and on the IPIC data base, available online. It constitutes a balanced sampling of the overall dataset, comprising a set of comparable mini-corpora (at least 5000 reference units each) for spontaneous speech (Brazilian Portuguese, Italian, Spanish, American English).

The reference units in the flow of speech (utterances, stanzas) are identified through prosodic cues: each sequence ending with a terminal prosodic break is a reference unit. The transcription of CORAL corpora implies the alignment of each reference unit to its acoustic counterpart following terminal breaks detection.

The basic annotation layer in the L-AcT framework is the information structure. Prosodic units within the utterance are marked by non-terminal prosodic breaks and each prosodic unit corresponds to an information unit, therefore the information structure and the prosodic structure of the utterance stand in one-to-one correlation. The information pattern finds its core in a necessary and sufficient information unit, known as Comment, which is functionally dedicated to the accomplishment of the illocutionary force and for this reason it is the core (noyau) in the reference unit (Cresti & Moneglia 2018).

Within an information pattern the Comment may be accompanied by optional units developing different functions: the textual ones (Topic, Parenthesis, Appendix, Locutive Introducer) participating to the content of the utterance, and the dialogical ones, supporting the communicative ongoing, i.e. in literature Discourse Markers (Moneglia & Raso 2014).

According to L-AcT the syntactic structure of each information unit is an island, and compositional syntactic rules apply only within each information unit (Cresti 2014): syntax depends on pragmatic functions expressed through prosodic means, and prosodic boundaries constitute also syntactic boundaries.

The identification of an illocutionary type is carried out empirically (Cresti 2017). Many examples of Comment belonging to the same illocutionary type discovered in corpora are gathered on the basis of prosodic and pragmatic features (proxemics, gesture, cognition, social role, expected effects).

The presentation will provide excerpts of French spontaneous dialogues and monologues (French part of C-ORAL-ROM, Corpus de français parlé parisien, Rhapsodie) that have been dealt with according to the L-AcT methodology. We will show:

  • The identification in the flow of speech of reference units (utterance, stanza) through the perceptive recognition of prosodic terminal breaks and their acoustic correlations;
  • The necessity of the Comment information unit as the core of the information pattern;
  • How information tagging of utterances works, with examples of different information unit types;
  • What is the consequence for syntactic analysis of this kind of approach;
  • Some illocutionary attribution and interpretations.

 

References

 

Cresti, E. 2000. Corpus di italiano parlato. Firenze: Accademia della Crusca.

Cresti, E.  2014. Syntactic properties of spontaneous speech in the Language into Act Theory: data on Italian complements and relative clauses, in T. Raso & H. Mello (eds), Spoken Corpora and Linguistic Studies. Amsterdam: Benjamins, 365-410.

Cresti, E. 2017. The empirical foundation of illocutionary classification, in A. De Meo & F. Dovetto, (eds) La comunicazione parlata, Napoli: Aracne, 243-264. 

Cresti, E. & Moneglia, M. (eds). 2005. C-ORAL-ROM. Integrated reference corpora for spoken romance languages. Amsterdam: Benjamins.

Cresti, E. & Moneglia, M. 2018. The illocutionary basis of Information Structure. Language into Act Theory (L-AcT), in   E. Adamou, K. Haude & M. Vanhove (eds.) Information structure in lesser-described languages: Studies in prosody and syntax, Amsterdam: Benjamins, 359-401

Moneglia, M. & Raso, T. 2014. Notes on the Language into Act Theory.  In T. Raso & H. Mello (eds), Spoken corpora and linguistics studies, Amsterdam: Benjamins, 468–494.

 

Segmenter un discours en actes de langage : problèmes et propositions

Caroline Mellet, (Modyco, Département des sciences du langage, université de Nanterre)

 Cette intervention a un double objectif : il s’agit d’abord de présenter quelques typologies d’actes de langage permettant de segmenter les discours et les interactions en unités illocutoires. Cette revue permettra ensuite d’identifier quelques problèmes récurrents dans cette tâche de segmentation et de catégorisation : délimitation, appartenance possible d’un segment à plusieurs catégories d’actes, relation entre macro-acte et micro-acte, etc.

 

Références

 

Austin, J.L. 1955. How To Do Things With Words. Londres, OUP. (traduction française, Quand dire c’est faire, Le Seuil, Paris, 1970).

Cresti, E., et Moneglia, M. 2018. The illocutionary basis of information structure. Information Structure in Lesserdescribed Languages, 359-402.

Kerbrat-Orecchioni, C. 2001., Les actes de langage dans le discours, Paris, Nathan.

Roulet, E., Auchlin, A., Moeschler J., Rubattel, Ch. et Schelling, M. L’Articulation du discours en français contemporain. Peter Lang, Berne, 1985.

Nef, F. 1980. Notes pour une pragmatique textuelle. Communications, n°32, 1980, p.183-189.

Récanati, F. 1982. Les Enoncés performatifs. Paris, Minuit.

Searle, J.R. 1969.Speech Acts, Londres, CUP. (traduction française,  Les actes de langage, Hermann, 197,).

Traverso, V. 2016. Décrire le français parlé en interaction, Ophrys, Paris.

Vanderveken, D. 1992. Théorie des actes de langage et analyse des conversationsCahiers de linguistique française, 13, 9-61.

 

 

Annoter les processus de co-construction des savoirs dans les données de langue parlée en interaction

Elizaveta Chernyshova (ICAR, Lyon)

 

 

Cette présentation, issue de mon travail de thèse, se focalise sur un modèle de gestion des savoirs dans l’interaction. Avec l’objectif initial de décrire le processus d’explicitation, c’est-à-dire le processus par lequel les participants à une conversation rendent un contenu explicite, accessible à tous, ce travail de thèse a cherché à modéliser la co-construction des savoirs partagés à chaque instant d’un échange. Les données naturelles, issues de la base de données CLAPI, ont ainsi été annotées en s’inspirant des modélisations du dialogue du point de vue de la gestion informationnelle (le modèle KoS de Ginzburg en particulier). De façon plus large, ce travail a permis de mettre à l’épreuve une approche mixte, se situant entre l’analyse conversationnelle et la modélisation, et a permis d’obtenir des résultats suggérant que cette approche analytique est opérationnelle. 

 

Références

 

Chernyshova, E. (2018). Expliciter et inférer dans l’interaction : Modélisation de la séquence d’explicitation dans la conversation. Thèse de doctorat, Université Lumière Lyon 2

Heritage, J., Watson, D.R. (1979). Formulations as conversational objects. Everyday language: Studies in ethnomethodology, G. Psathas (éd.), Irvington, New York, 123–162. 

Heritage, J. (2012). The Epistemic Engine: Sequence Organization and Territories of Knowledge. Research on Language and Social Interaction, 45(1), 30–52. 

Ginzburg, J. (2012). The Interactive Stance. Meaning for Dialogue. Oxford University Press, Oxford.

 

 

Système d’annotation des “questions en discussion” et de la structure informationnelle d’un corpus de données réelles.

Lisa Burnetti (LLF, Paris 7)

 

Dans cet exposé, je présenterai un système d’annotation de la structure informationnelle élaboré par Riester, Brunetti et de Kuthy (2018) qui se base sur la notion de “question under discussion” (QUD). Ce système vise à identifier la structure informationnelle de chaque énoncé uniquement à partir de propriétés discursives, indépendamment de la forme de l’énoncé. Les catégories de focus, arrière plan et topique (contrastif) sont reconnues à partir de la question en discussion (généralement implicite, parfois explicite) qui précède chaque énoncé. Je montrerai ensuite comment ce modèle permet d’identifier une nouvelle catégorie informationnelle qui s’applique en particulier aux éléments à fonction grammaticale d’ajout. Les langues sur lesquelles se base l’analyse sont premièrement l’anglais, le français, l’allemand et l’italien. 

 

Références

 

Büring, Daniel (1997). The Meaning of Topic and Focus: The 59th Street Bridge Accent. Routledge, London, UK.

Büring, Daniel (2008). What’s New (and what’s Given) in the theory of focus? In Proceedings of the 34th Annual Meeting of the Berkeley Linguistics Society, pages 403–424, Berkely, USA.

Riester, Arndt, Brunetti, Lisa et De Kuthy, Kordula 2018, “Annotation guidelines for Questions under Discussion and information structure” dans (Evangelia Adamou, Katharina Haude and Martine Vanhove, eds): Information Structure in Lesser-described Languages: Studies in prosody and syntax, Ch. 14. Studies in Language Companion Series 199, 403–444, Benjamins.

Roberts, Craige  (2012). Information structure in discourse: Towards an integrated formal theory of pragmatics. Semantics and Pragmatics, 5(6): 1-69. (1996 version: OSU Working Papers in Linguistics 49. The Ohio State University.)

Rooth, Mats (1992). A Theory of focus interpretation. Natural Language Semantics, 1(1):75–116.

Schwarzschild, Roger (1999). GIVENness, AvoidF, and other constraints on the placement of accent. Natural Language Semantics, 7(2):141–177.

Simons, Mandy, Tonhauser, Judith, Beaver, David and Craige Roberts (2010). What projects and why. In Proceedings of SALT 20, pages 309–327, Vancouver

 

 

Représenter la structure informationnelle dans les langues peu décrites : quelles étiquettes ?

 Candide Simard (University of the South Pacific, Fiji & Soas, London )

L’étude de la structure informationnelle (SI), comme tout autre domaine linguistique, implique l’identification des corrélations forme-fonction. Une avancée importante dans l’étude de la structure informationnelle dans les corpus oraux réside dans l’affinement de l’inventaire descriptif de ses catégories, pour lesquelles une certaine confusion terminologique et conceptuelle persiste dans la littérature. Nous abordons dans cette présentation les problèmes d’identification des catégories dans les corpus de langues peu décrites. Nous commençons par délimiter et organiser les concepts saillants du domaine. Ensuite, en nous fondant sur nos travaux menés actuellement sur le projet NaijaSynCor, nous étudions les réalisations de ces catégories et leurs relations en contexte, et présentons le choix des étiquettes utilisées pour le Naija.

 

Références

 

Caron, B. (2017). NaijaSynCor, a corpud-based macro-syntactic study of Naija (Nigeria Pidgin), http://naijasyncor.huma-num.fr/

Dipper, Stefanie, Michael Götze and Stavros Skopeteas (Hgg.) (2007). Information Structure in CrossLinguistic Corpora: Annotation Guidelines for Phonology,Morphology, Syntax, Semantics, and Information Structure. Potsdam: Universitätsverlag.

Krifka, M. (2007). Basic notions of information structure. Interdisciplinary Studies on Information Structure (ISIS), 6, 13–55.

Maslova, Elena and Giuliano Bernini (2006). Sentence topics in the languages of Europe and beyond. In Giuliano Bernini and Marcia L. Schwartz (Hgg.), Pragmatic organization of discourse in the languages of Europe: EUROTYP. Berlin, etc.: de Gruyter, 67–120.

Matic, Dejan, and Daniel Wedgwood. (2012). The meanings of focus: the significance of an interpretation-based category in cross-linguistic analysis. Journal of Linguistics, 1-37.

Sanghoun Song. (2017). Modeling information structure in a cross-linguistic perspective (Topics at the Grammar-Discourse Interface 1). Berlin: Language Science Press.

 

Méthodologie de l’annotation des intentions implicites exprimées dans les questions

Angèle Barbedette & Iris Taravella (Modyco, Université de Nanterre)

 

Ce travail propose une annotation des intentions des locuteurs exprimées dans des questions lors d’interactions au quotidien, dans le but d’en effectuer la classification automatique. Les intentions correspondent ici à l’activité illocutoire d’un énoncé (Ducrot, 1972), qui permet de le caractériser selon son but, que celui-ci soit explicite – repérable directement dans l’énoncé – ou implicite – s’appuyant sur les connaissances communes des locuteurs – (Chen et coll., 2013). Elles s’inscrivent dans la continuité des recherches portant sur les actes de langage illocutoires (Austin, 1962), également définis comme des actions intentionnelles (Allen et Perrault, 1980), ainsi que sur les actes de langage directs et indirects (Searle, 1975). À partir de l’exploration des transcriptions du corpus ESLO, nous avons pu dégager des classes explicites (demande d’information et demande d’accord) et implicites (avis, doute et volonté) et ainsi constituer notre corpus de référence. Nous avons procédé à l’évaluation collaborative des étiquettes grâce à un formulaire en ligne proposant l’annotation de questions issues du corpus et à des mesures d’accord inter-annotateur. Celles-ci ont montré un accord supérieur à 0,73 pour l’explicite et à 0,6 pour l’implicite pour la moitié des participations et un accord supérieur à 0,86 pour l’explicite et à 0,8 pour l’implicite pour un quart des participations. Nous avons obtenu pour la tâche de classification automatique des questions en tant qu’intentions implicites des scores de précision, rappel et f-mesure avoisinant 0,62, ce qui montre une certaine cohérence entre les annotations manuelles et les étiquettes retrouvées automatiquement. Les enjeux de ce travail sont multiples car il s’agit d’établir une typologie permettant une analyse plus fine de la conversation en s’intéressant à des aspects nécessitant une interprétation. 

Références

Allen J. F., Perrault C. R., « Analyzing intention in utterances », Articial intelligence, vol. 15, no 3, p. 143-178, 1980. 

Austin J. L., How to do things with words, William James Lectures, Oxford University Press, 1962.

Chen Z., Liu B., Hsu M., Castellanos M., Ghosh R., « Identifying intention posts in discussion forums », Proceedings of the 2013 conference of the North American chapter of the association for computational linguistics : human language technologies, p. 1041-1050, 2013.

Ducrot O., « Dire et ne pas dire : principes de sémantique linguistique », 1972.

SearleJ., « Indirect Speech Acts », Pragmatics : Critical Concepts, vol. 5, p. 639-657, 01, 1975.

Détails

Date :
21 janvier 2020
Heure :
9 h 00 min - 18 h 30 min
Catégorie d’Évènement:

Lieu

Université Paris-Nanterre Bâtiment Max Weber – salle séminaire 2
Université Paris-Nanterre Bâtiment Max Weber - salle séminaire 2 + Google Map