Читать книгу Kommunikationsdynamiken zwischen Mündlichkeit und Schriftlichkeit - Группа авторов - Страница 22

Оглавление

2 Corpus d’étude

2.1 ESLO-MD

Le corpus ESLO-MD (« microdiachronique ») est un corpus oral de français hexagonal composé d’un million de mots (environ 80h enregistrées) issus d’interactions parmi les corpus ESLO1 (1968-1971) et ESLO2 (2008-2019). Les données d’études sont équilibrées entre les deux périodes, en veillant à une répartition équilibrée également entre les genres interactionnels (conférences, repas, entretiens). L’échantillon est constitué comme suit :

ESLO-MD	Conférences	Repas	Entretiens	TOTAL	Nombre de mots
ESLO1	192 mn	196 mn	2042 mn	2430 mn	453298
ESLO2	186 mn	201 mn	2034 mn	2421 mn	521931
TOTAL	378 mn	397 mn	4076 mn	4851 mn	975229

Tableau 1:

Composition de ESLO-MD

Si l'on décline la taille de ESLO-MD en termes du nombre des sous-échantillons ainsi que des mots-occurrences, on obtient la ventilation suivante par genre et sous-corpus :

	Conférences		Repas		Entretiens
Sous-corpus	Echantillons	Mots	Echantillons	Mots	Echantillons	Mots
ESLO1	2	32866	4	40665	30	384279
ESLO2	5	30432	8	40864	31	452293
TOTAL	7	63298	12	81529	61	836572

Tableau 2 :

Nombre de sous-échantillons et de mots-occurrences par genre et sous-corpus

Les considérations méthodologiques liées aux variables sociologiques qui ont présidé au choix de l’échantillon ESLO-MD sont détaillées dans Abouda/Skrovec (2018). Si les deux sous-corpus ne sont pas sociologiquement représentatifs ni même comparables au sens strict, les méthodologies de recueil le sont dans une large mesure, ce qui rend possible la documentation d’une temporalité intermédiaire des dynamiques linguistiques, entre changement et variation synchronique, dans un intervalle de 40 ans.

Le corpus ESLO dans son intégralité est librement accessible en ligne1. Les transcriptions de l’échantillon ESLO-MD ont été enrichies avec une annotation morpho-syntaxique automatique par TreeTagger (Schmid 1994), sous TXM, outil d'analyse textométrique libre (Heiden et al. 2010)2. Nous reproduisons les extraits tels qu'ils apparaissent dans la transcription ESLO.3

2.2 Limitation du champ

Notre étude est basée sur une concordance que nous avons créée au moyen de TXM. Comme le codage orthographique dans le corpus avec ou sans trait d’union montre des inconsistances, liées ou non à l’ambivalence sémantique de là, nous avons extrait ses occurrences à partir de son lemme (tel qu’annoté par TreeTagger). Les occurrences ont été annotées sans tenir compte de la variabilité de la transcription. En vue de l’analyse détaillée selon les différents critères syntaxiques, sémantiques et énonciatifs, que nous allons exposer dans la section 3, nous avons procédé à un échantillonnage aléatoire en retenant un tiers des 5134 occurrences obtenues au départ, ce qui nous donne une concordance de travail comprenant au bout du compte 1711 occurrences.

L'inventaire des catégories structurelles sous 3. fera apparaitre de nombreux types d'ambiguïtés structurelles. Certaines de ces ambiguïtés sont réelles et incitent à opérer avec des catégories « floues » ; dans d'autres cas, il s'agit d'un artéfact induit par la représentation écrite des données dynamiques. Une désambiguïsation par la prosodie était théoriquement possible pour ce corpus, dont le signal est disponible. Les outils d'annotation utilisés n'en permettaient cependant pas un traitement outillé, et l'annotation manuelle n'était pas envisageable au vu de la quantité de données. Pour cette étude exploratoire, ces (nombreux) cas ont fait l'objet d'une double annotation.

Kommunikationsdynamiken zwischen Mündlichkeit und Schriftlichkeit

Подняться наверх

Читать книгу Kommunikationsdynamiken zwischen Mündlichkeit und Schriftlichkeit - Группа авторов - Страница 22

2 Corpus d’étude 2.1 ESLO-MD

2.2 Limitation du champ

2 Corpus d’étude

2.1 ESLO-MD