Читать книгу Kommunikationsdynamiken zwischen Mündlichkeit und Schriftlichkeit - Группа авторов - Страница 22
Оглавление2 Corpus d’étude
2.1 ESLO-MD
Le corpus ESLO-MD (« microdiachronique ») est un corpus oral de français hexagonal composé d’un million de mots (environ 80h enregistrées) issus d’interactions parmi les corpus ESLO1 (1968-1971) et ESLO2 (2008-2019). Les données d’études sont équilibrées entre les deux périodes, en veillant à une répartition équilibrée également entre les genres interactionnels (conférences, repas, entretiens). L’échantillon est constitué comme suit :
ESLO-MD | Conférences | Repas | Entretiens | TOTAL | Nombre de mots |
ESLO1 | 192 mn | 196 mn | 2042 mn | 2430 mn | 453298 |
ESLO2 | 186 mn | 201 mn | 2034 mn | 2421 mn | 521931 |
TOTAL | 378 mn | 397 mn | 4076 mn | 4851 mn | 975229 |
Tableau 1:
Composition de ESLO-MD
Si l'on décline la taille de ESLO-MD en termes du nombre des sous-échantillons ainsi que des mots-occurrences, on obtient la ventilation suivante par genre et sous-corpus :
Conférences | Repas | Entretiens | ||||
Sous-corpus | Echantillons | Mots | Echantillons | Mots | Echantillons | Mots |
ESLO1 | 2 | 32866 | 4 | 40665 | 30 | 384279 |
ESLO2 | 5 | 30432 | 8 | 40864 | 31 | 452293 |
TOTAL | 7 | 63298 | 12 | 81529 | 61 | 836572 |
Tableau 2 :
Nombre de sous-échantillons et de mots-occurrences par genre et sous-corpus
Les considérations méthodologiques liées aux variables sociologiques qui ont présidé au choix de l’échantillon ESLO-MD sont détaillées dans Abouda/Skrovec (2018). Si les deux sous-corpus ne sont pas sociologiquement représentatifs ni même comparables au sens strict, les méthodologies de recueil le sont dans une large mesure, ce qui rend possible la documentation d’une temporalité intermédiaire des dynamiques linguistiques, entre changement et variation synchronique, dans un intervalle de 40 ans.
Le corpus ESLO dans son intégralité est librement accessible en ligne1. Les transcriptions de l’échantillon ESLO-MD ont été enrichies avec une annotation morpho-syntaxique automatique par TreeTagger (Schmid 1994), sous TXM, outil d'analyse textométrique libre (Heiden et al. 2010)2. Nous reproduisons les extraits tels qu'ils apparaissent dans la transcription ESLO.3
2.2 Limitation du champ
Notre étude est basée sur une concordance que nous avons créée au moyen de TXM. Comme le codage orthographique dans le corpus avec ou sans trait d’union montre des inconsistances, liées ou non à l’ambivalence sémantique de là, nous avons extrait ses occurrences à partir de son lemme (tel qu’annoté par TreeTagger). Les occurrences ont été annotées sans tenir compte de la variabilité de la transcription. En vue de l’analyse détaillée selon les différents critères syntaxiques, sémantiques et énonciatifs, que nous allons exposer dans la section 3, nous avons procédé à un échantillonnage aléatoire en retenant un tiers des 5134 occurrences obtenues au départ, ce qui nous donne une concordance de travail comprenant au bout du compte 1711 occurrences.
L'inventaire des catégories structurelles sous 3. fera apparaitre de nombreux types d'ambiguïtés structurelles. Certaines de ces ambiguïtés sont réelles et incitent à opérer avec des catégories « floues » ; dans d'autres cas, il s'agit d'un artéfact induit par la représentation écrite des données dynamiques. Une désambiguïsation par la prosodie était théoriquement possible pour ce corpus, dont le signal est disponible. Les outils d'annotation utilisés n'en permettaient cependant pas un traitement outillé, et l'annotation manuelle n'était pas envisageable au vu de la quantité de données. Pour cette étude exploratoire, ces (nombreux) cas ont fait l'objet d'une double annotation.