La constitution de corpus en diachronie longue :méthodologies, objectifs et exploitations linguistiques et stylistiques
Colloque à l'Université Grenoble Alpes, les 13 et 14 octobre 2022
Depuis plusieurs décennies, la numérisation des textes anciens et les progrès du TAL pour les traiter et les interroger ont largement modifié nos habitudes de travail. Il est désormais possible d’obtenir des données quantitatives massives qui affinent notre perception des phénomènes linguistiques ou stylistiques pour des corpus écrits dans des états de langue anciens. Les corpus numériques créés depuis maintenant près d’un quart de siècle permettent d’envisager plus facilement la dynamique du français en diachronie longue dont l’aboutissement, après de nombreuses années de travail, de la Grande Grammaire Historique du Français (Marchello-Nizia et alii, 2020) constitue un bel exemple. Nous définissons un corpus en diachronie longue comme un corpus périodisé, regroupant des textes choisis pour leur caractère représentatif des états de langue (de l’ancien français au français contemporain) des périodes couvertes par le corpus.
Depuis les années 1980, les chercheurs et chercheuses bénéficient de la base textuelle Frantext, la première en langue française, qui a permis de mener des investigations, au sein de textes littéraires, sur un très large empan temporel. Le travail pionnier de la Base de Français Médiéval (1989) a permis la constitution d’un corpus de textes littéraires et non littéraires, toutefois limité, comme son nom l’indique, à la période de l’ancien français et du moyen français. De très nombreux corpus plus spécifiques à un genre textuel les ont rejoints (par exemple, le corpus sur 6 siècles de coutumiers normands du projet Condé ou le corpus de sermons protestants du 16e au 18e siècle du projet Sermo).
La première étape dans la construction d’un corpus, comme le rappellent Reppen (2010 : 31) et Nelson (2010 : 53), est de savoir précisément quel est l’objectif poursuivi. Par exemple, la sélection de sources comparables pour permettre des analyses quantitatives homogènes est essentielle et la temporalité prise en compte dépend des phénomènes que l’on veut observer (GGHF 2020 : 43). Ensuite, la construction d’un corpus est le fruit de choix raisonnés qui visent à satisfaire le principe de la représentativité : « [a corpus is] a collection of texts assumed to be representative of a given language put together so that it can be used for linguistic analysis. » (Tognini-Bonelli, 2001 : 2). Ce principe de représentativité recouvre des réalités diverses en fonction des objectifs visés par celles et ceux qui construisent les corpus : les lexicographes qui souhaitent rendre compte du sens d’unités lexicales n’auront pas les mêmes exigences de représentativité que les linguistes et stylisticiens qui travaillent sur la caractérisation d’un genre textuel. Certains posent comme essentiels le fait de recourir exclusivement à des textes intégraux (Rastier, 2011 : 33), d’autres rappellent qu’un corpus ne peut être qu’un échantillon et qu’à ce titre, il peut être construit à partir d’échantillons (Renouf, 1987 ; Biber, 1993). Ainsi, l’objectif de ce colloque est d’interroger d’une part les choix constitutifs de nos corpus en diachronie longue, d’autre part les objectifs linguistiques mais aussi stylistiques ou littéraires qui déterminent leur constitution.
Les axes de recherche que nous proposons peuvent se situer dans une perspective à la fois rétrospective (quel a été l’apport des corpus diachroniques ? comment valoriser les corpus constitués au cours des dernières décennies ?) et prospective (quels sont les défis théoriques et méthodologiques qui attendent la recherche en diachronie à l’ère des humanités numériques et des corpus outillés ?). Les réflexions pourront s’appuyer sur des corpus en langue française ou en langue étrangère.
Axe 1 : La constitution d’un corpus
Créer des corpus aptes à fournir des données en diachronie longue pose de nouvelles questions d’homogénéité des outils et des supports à tous les niveaux de la chaîne de préparation du matériau : de la sélection des textes à leur traitement. Par exemple, dans la présentation des critères choisis pour construire le corpus de la GGHF (2020 : 42-43), Sophie Prévost oppose d’un côté les textes sélectionnés selon des critères paratextuels, « qui relèvent davantage du point de vue que le locuteur moderne porte sur ces textes » et qui impliquent de choisir des textes de référence comme la Chanson de Rolandou la Queste del Saint Graal, et d’un autre côté les critères descripteurs qui relèvent plutôt de la temporalité propre à chaque phénomène linguistique. On interrogera en particulier la diversité ou l’homogénéité des textes, selon différents niveaux hiérarchiques (domaines, discours, genres ; sur ces catégories, voir par exemple, Malrieu & Rastier, 2001 ; Marchello-Nizia et alii, 2020) ou différentes variétés du français (diatopiques ou diastratiques) ;
l’origine des textes que l’on veut y inclure selon que l’on s’appuie sur des sources secondaires (textes déjà édités) ou primaires (des textes restant à éditer). Si l’on privilégie des textes déjà édités, comment compenser l’inévitable hétérogénéité des choix éditoriaux ? Pour les sources primaires, quels choix éditoriaux effectuer sur le plan graphique (sachant que les traditions philologiques d’édition de textes diffèrent selon les siècles considérés en ce qui concerne par exemple la segmentation des mots, la graphie, les accents, la ponctuation, les majuscules) ?
les types de codage mis en place dans le traitement des textes (quelles informations additionnelles ont été privilégiées pour l’enrichissement des textes ? combien de couches d’annotations ont été choisies ?)
Axe 2 : Effectuer des recherches avec les corpus constitués
L’objectif d’un corpus influe sur sa constitution, il importe alors de s’interroger sur les données qu’on souhaite en extraire.
Quel type de recherches permettent les corpus en diachronie longue, tant sur le plan linguistique (lexique, syntaxe, morphologie, graphie, pragmatique, etc.) que sur le plan stylistique (repérage des évolutions des stylèmes et des phraséologismes) ou littéraire (repérage des topiques ou des motifs narratifs) ?
Quels sont les modes d’interrogation choisis parmi les multiples possibilités offertes par l’outil adopté ?
Quels méthodes et outils spécifiques ont été développés en vue de l’exploitation de corpus en diachronie longue ? les propositions pourraient s’axer par exemple sur les techniques de périodisation automatique (Gries & Hilpert, 2008), sur des indicateurs textométriques permettant de mesurer des tendances (Herman & Kovář, 2013 ; Hilpert & Gries, 2009 : 388-390), sur des caractéristiques chronologiques spécifiques (Salem, 1988 : 126-131 ; Lebart et alii, 1998 : 155-161 ; Diwersy et alii, 2021), ou sur de nouvelles méthodes textométriques dédiées à l'étude diachronique. On pourra également détailler des outils d'exploration et de visualisation originaux.
Conférenciers invités / Invited Speakers
Céline Guillot-Barbance et Alexei Lavrentiev (ENS Lyon, IRHIM UMR5317, France)
France Martineau (U. of Ottawa, Canada)
Carine Skupiens Dekens (U. de Neuchâtel, Suisse)
*
Comité scientifique / Scientific Committee
Antonella Amatuzzi (U. di Torino, Italie)
Wendy Ayres-Bennett (U. of Cambridge, Royaume-Uni)
Claire Badiou-Monferran (U. Paris 3 Sorbonne nouvelle, CLESTHIA, France)
Daniela Capin (U. de Strasbourg, LiLPa, France)
Corinne Denoyelle (U. Grenoble Alpes, Litt&Arts UMR5316, France)
Sacha Diwersy (U. Paul Valéry Montpellier 3, Praxiling UMR5267, France)
Annette Gerstenberg (U. Postdam, Allemagne)
Julie Glikman (U. de Strasbourg, LiLPa, France)
Sonia Gomez-Jordana Ferary (U. Complutense de Madrid, Espagne)
Olivier Kraif (U. Grenoble Alpes, LIDILEM, France)
Pierre Larrivée (U. de Caen Normandie, CRISCO, France)
Sophie Marnette (U. of Oxford, Royaume-Uni)
Nicolas Mazziotta (U. Liège, Belgique)
Pascale Mounier (U. Grenoble Alpes, Litt&Arts UMR5316, France)
Sophie Prevost (ENS-LATTICE, UMR 8094, France)
Adam Renwick (U. Grenoble Alpes, LIDILEM, France)
Amalia Rodríguez Somolinos (U. Complutense de Madrid, Espagne)
Marta Saiz Sanchez : (U. Complutense de Madrid, Espagne)
André Salem (U. Paris 3 Sorbonne nouvelle, France)
Lene Schøsler (U. of Copenhagen, Danemark)
Julie Sorba (U. Grenoble Alpes, LIDILEM, France)
Agnès Steuckardt (U. Paul Valéry Montpellier 3, Praxiling UMR5267, France)
Comité d’Organisation / Organising Committee
Corinne Denoyelle (U. Grenoble Alpes, Litt&Arts UMR5316, France)
Iris Fabry (U. Grenoble Alpes, LIDILEM, France)
Olivier Kraif (U. Grenoble Alpes, LIDILEM, France)
Cécile Lignereux (U. Grenoble Alpes, Litt&Arts UMR5316, France)
Mellie Mattana-Basset (U. Grenoble Alpes, Litt&Arts UMR5316, France)
Pascale Mounier (U. Grenoble Alpes, Litt&Arts UMR5316, France)
Adam Renwick (U. Grenoble Alpes, LIDILEM, France)
Julie Sorba (U. Grenoble Alpes, LIDILEM, France)
*
Calendrier / Calendar
Date limite dépôt des propositions : 1er juin 2022
Réponses aux auteurs : 15 juillet 2022
Inscriptions : 1er septembre au 14 octobre 2022 (Frais 40 euros ; gratuit pour doctorant.es)
Colloque : 13 et 14 octobre 2022
Lieu : Université Grenoble Alpes
Contact : julie.sorba@univ-grenoble-alpes.fr ; corinne.denoyelle@univ-grenoble-alpes.fr
*
Références
Biber D. (1993). Representativeness in Corpus Design. Literary and Linguistic Computing, 8(4): 243-257.
Diwersy S., Jackiewicz A., Luxardo G. & Steuckardt A. (2021). Les sens de « numérique » : émergence d’emplois et dynamique du changement sémantique. Linx 82. https://doi.org/10.4000/linx.8153
Galleron I., Fatiha I., Lavrentiev A., Demonet M.-L. & Réach-Ngô A. (2021). Décrire les textes dans le cadre d’une édition numérique : Le thésaurus “Typologie textuelle” du Consortium CAHIER.
Glikman J. & Verjans T. (dir.) (2021). Regards linguistiques sur les éditions de textes médiévaux, Diachroniques, 8 : 7-16.
Gries S. Th. & Hilpert M. (2008). The identification of stages in diachronic data: variability-based neighbour clustering. Corpora, 3: 59–81.
Herman O. & Kovář V. (2013). Methods for Detection of Word Usage over Time. In Seventh Workshop on Recent Advances in Slavonic Natural Language Processing, RASLAN 2013: 79–85.
Hilpert, M. & Gries, S. Th. (2009). Assessing frequency changes in multistage diachronic corpora: Applications for historical corpus linguistics and the study of language acquisition. Literary and Linguistic Computing, 24(4): 385–401.
Lavrentiev A., Guillot-Barbance C. & Heiden S. (2021). Enjeux philologiques, linguistiques et informatiques de la philologie numérique : l’exemple de la segmentation des mots, Diachroniques, 8 : 76-102.
Lebart L., Salem A. & Berry L. (1998). Exploring Textual Data. Kluwer Academic Publisher.
Malrieu D. & Rastier F. (2001). Genres et variations morphosyntaxiques. Traitement automatique des langues, 42.2 : 547-577.
Marchello-Nizia C., Combettes B., Scheer T. & Prévost S (2020). Grande Grammaire Historique du Français (GGHF). De Gruyter.
Martineau F. (2008). Un corpus pour l’analyse de la variation et du changement linguistique, Corpus, 7 <https://doi.org/10.4000/corpus.1508>
Martineau F. & Séguin M.-C. (2016). Le Corpus FRAN : réseaux et maillages en Amérique française, Corpus, 15 <https://doi.org/10.4000/corpus.2925>
McEnery T. & Wilson A. (dir.) (2001). Corpus linguistics, Edinburgh University Press.
Nelson M. (2010). Building a written corpus. In A. O’Keeffe & M. Mc Carthy (éd.), The Routledge Handbook of Corpus Linguistics (p.53-65). Routledge.
Prévost S. (2015). Diachronie du français et linguistique de corpus : une approche quantitative renouvelée. Langages, 197 : 23-45 <https://doi.org/10.3917/lang.197.0023>
Rastier F. (2011). La mesure et le grain. Sémantique de corpus. Honoré Champion.
Reppen R. (2010). Building a corpus. What are the key considerations? In A. O’Keeffe & M. Mc Carthy (éd.), The Routledge Handbook of Corpus Linguistics (p.31-37). Routledge.
Salem A. (1988). Approches du temps lexical. Mots, 17 : 105–143. <https://doi.org/10.3406/mots.1988.1401>
Tognini-Bonelli E. (2001). Corpus Linguistics at Work. John Benjamins Publishing Company.
Zufferey S. (2020). Introduction à la linguistique de corpus, ISTE Editions.