Читать книгу El español hablado en Guadalajara - Patricia Córdova Abundis - Страница 7
ОглавлениеPor una lingüística de corpus del español hablado en Guadalajara
¿Cómo relacionar la fotografía del siglo XIX con la lingüística del siglo XXI? Con «VERDAD Y BELLEZA». En efecto, el lema de De la Mora todavía promete inspirar al lingüista que lo haga suyo para capturar la instantánea de una lengua en un periodo definido, dentro de un espacio delimitado, mediante una tipología de textos determinada (Martín Butragueño, 2020, p. 345). Si «[u]n corpus está formado por textos, pero es mucho más que un simple agregado de textos» (Rojo, 2021, p. 3), entonces «VERDAD Y BELLEZA» serán los objetivos que su diseño, construcción y explotación aspiren a alcanzar. La verdad estará garantizada al seleccionar el número suficiente de textos creados con una intención comunicativa real, correspondientes a aquellos géneros que sean significativos para lo que se pretenda investigar, a fin de formar una muestra representativa y equilibrada. La belleza radicará en lograr la recuperación selectiva de la información, gracias a la conversión de los textos a formato electrónico y a su posterior codificación y anotación. Tal formato se vuelve imprescindible en el manejo de los corpus actuales con cientos o miles de millones de palabras (Rojo, 2021, pp. 1-2, 294). En conjunto, la verdad y la belleza propiciarán una «aproximación al estudio de los hechos lingüísticos de orientación empírica y basada en el análisis detallado de gran cantidad de datos», esto es, una lingüística de corpus (p. 48).
En una nota reciente, Francisco Moreno Fernández (2016, p. 370) resaltó como antecedente de la lingüística de corpus en español al Proyecto de estudio del habla culta de las principales ciudades de Hispanoamérica. Ese fue el nombre con que Juan M. Lope Blanch lo presentó en agosto de 1964 ante la Comisión de Lingüística y Dialectología Iberoamericanas del Programa Interamericano de Lingüística y Enseñanza de Idiomas, reunido en Bloomington, Indiana, con ocasión de su segundo simposio (Lope Blanch, 1986, p. 9).1 Emprender «el estudio riguroso y completo del habla normal urbana de los principales centros de población iberoamericanos» (Lope Blanch, 1986, p. 13) era su intención. Desarrollarlo a través de un «plan de trabajo coordinado» entre los centros filológicos de la región era su estrategia (Lope Blanch, 1986, p. 9). Justificarlo como una «tarea fácilmente realizable y de suma utilidad y urgencia» fue su incentivo (Lope Blanch, 1986, p. 13).
Moreno Fernández admite que en aquella época no se hablaba de lingüística de corpus (2016, p. 370) —que Lope Blanch prefiera referirse en su propuesta a «materiales» en vez de corpus parece comprobarlo (1986, p. 16)—. Sin embargo, la palabra corpus intitulará, 34 años más tarde, la obra cumbre del proyecto: el Macrocorpus de la norma lingüística culta de las principales ciudades del mundo hispánico (Samper Padilla, Hernández Cabrera y Troya Déniz, 1998). Editado en CD-ROM, el Macrocorpus compila las transliteraciones inéditas o publicadas de 168 entrevistas, de alrededor de 30 minutos de duración —84 horas de grabación en total—, realizadas entre un encuestador y un informante culto en diez capitales nacionales —Buenos Aires, Caracas, La Paz, Lima, Madrid, México, Santafé de Bogotá, Santiago de Chile, San José de Costa Rica y San Juan de Puerto Rico—2 y en dos capitales de comunidades autónomas españolas —Las Palmas de Gran Canaria y Sevilla—3 (Samper Padilla, 1995, pp. 263-264). Así, el Macrocorpus consolidó la pertenencia a la lingüística de corpus del primigenio proyecto lopeano e inauguró, de acuerdo con Moreno Fernández, «en un sentido contemporáneo, una línea de trabajo que ha sumado notables contribuciones para el estudio de la lengua española hablada» (2016, p. 370).
Son justo los corpus orales los que desafían más abiertamente a la lingüística de corpus futura. Falta superar desde retos conceptuales —como reconocer la especificidad de las unidades, estructuras y gramática de la lengua hablada— hasta retos informáticos —como perfeccionar programas de transcripción automática y diseñar herramientas para el análisis automatizado de textos de lengua hablada, incluso de lengua tecleada: mensajes enviados por SMS, por WhatsApp, tuits, blogs, etcétera—. El montaje de corpus multimodales con alineación de audio, imagen, transcripción ortográfica, análisis morfosintáctico y análisis sintáctico valdrá como el reto final (Rojo, 2021, pp. 296-297).
Las limitaciones empíricas, teóricas y tecnológicas que encontraron Lope Blanch y colegas en los años sesenta del siglo pasado no fueron menos severas. Resulta innegable que esos primeros corpus carecían de una interpretación profunda de la realidad sociolingüística del español (Moreno Fernández, 2016, p. 370). Es evidente que los materiales se grababan en cintas magnetofónicas y se transcribían y revisaban a mano (Lope Blanch, 1986, pp. 25, 132-152). Por cierto, es esta ardua labor previa de transcripción manual la que explica por qué los corpus orales no tienen un gran tamaño ni ocupan un alto porcentaje en los corpus de referencia (Rojo, 2021, p. 24). Con todo, Lope Blanch y colegas merecen mayor elogio por haber vencido semejantes limitaciones y por dar a la imprenta, entre 1971 y 1992, diez corpus de otras tantas ciudades hispanoamericanas4 que sustentarían el Macrocorpus años después. Haber sacado a la luz otros corpus, a más de El habla de la ciudad de México: materiales para su estudio (1971), hace igualmente dignos de alabanza a los investigadores mexicanos que siguieron la línea de los estudios dialectológicos dibujada por Lope Blanch. Sin ellos no existirían El habla popular de la ciudad de México: materiales para su estudio (1976), El habla popular de la República Mexicana: materiales para su estudio (Lope Blanch, 1995) y El habla de Sinaloa. Materiales para su estudio (López Berríos y Mendoza Guerrero, 1997).
El cambio de enfoque de la dialectología (social) a la sociolingüística (variacionista) fue abanderado por dos corpus orales de la década de los ochenta (Moreno Fernández, 2016, p. 370). El corpus mexicano y el venezolano se ponían de esta suerte a la par de los canadienses: el monolingüe del francés de Montreal y el bilingüe del francés e inglés de Ottawa-Hull (pp. 370-371). Las 600 entrevistas de El habla de Monterrey se levantaron en 1985 y 1986 (Rodríguez Alfano, 2012, p. 2); las 160 del Estudio sociolingüístico de Caracas, 1987 en 1987 y 1988 (Bentivoglio y Sedano, 1993, pp. 3-4).
¿Cuántos y cuáles corpus han documentado el español hablado en Guadalajara, Jalisco? Cuatro. Uno elaborado durante las dos últimas décadas del siglo XX y tres durante las dos primeras décadas del siglo XXI. El primero tiene su origen en el Proyecto de investigación sobre el habla culta de Guadalajara, dirigido por María del Rosario Heras Poncela en la maestría en Letras y Literatura Española e Hispanoamericana de la antigua Facultad de Filosofía y Letras de la Universidad de Guadalajara (Heras Poncela, 1999, p. 9). Fue creado con el propósito de «conocer las variables dialectales en el uso del español, propias del hablante tapatío que en sus estudios sistemáticos alcanzó el nivel, por lo menos, de licenciatura o equivalente» (Heras Poncela, 2001, p. 1). Entre abril de 1988 y abril de 1992, se recolectaron 200 muestras de habla en cintas magnetofónicas que cubren 116 horas y 14 minutos de grabación. Con base en la metodología lopeana, estas contienen entrevistas estructuradas a un informante (40 %), diálogos dirigidos entre uno o más informantes o con el investigador (40 %), grabaciones secretas de conversaciones (10 %) y elocuciones formales como discursos, conferencias y clases (10 %); todas fueron transcritas a mano, luego en máquina de escribir y, finalmente, en computadora. Se seleccionaron 200 hablantes, 101 hombres y 99 mujeres, pertenecientes a tres generaciones: 24 a 35 años (25 %), 36 a 55 años (50 %) y 56 años en adelante (25 %). De ellos, 163 eran licenciados, 5 especialistas, 26 maestros y 6 doctores. 197 habían nacido en Guadalajara, 2 en Tlaquepaque, 1 en Zapopan, y ninguno en Tonalá (Heras Poncela, 2001, pp. 1-2; Heras Poncela, 1999, pp. 15, 31-36). La muestra confirma de manera parcial que el «universo objeto de la investigación está constituido por los hablantes cultos de la Zona Metropolitana de Guadalajara» (Heras Poncela, 1999, pp. 31): es veraz en cuanto a la instrucción superior, mas no lo es respecto a la distribución equitativa por nacimiento o por residencia en los cuatro municipios que formaban la Zona Metropolitana de Guadalajara.5
Es penoso que el corpus no haya sido publicado en su totalidad y que únicamente 31 transcripciones estén accesibles: 7 como apéndice de la monografía El habla culta de la zona metropolitana de Guadalajara (Heras Poncela, 1999) y 24 en El habla culta de Guadalajara. Materiales para escudriñar en los entresijos de su estudio (Heras Poncela, 2001), recopilación ofrecida a los investigadores para evitarles «la carga de trabajo que supone el proceso de captación y transcripción fiel de las mismas [muestras]» (Heras Poncela, 2001, p. 2). De hecho, no son 31, sino 26, pues cinco se repitieron en ambos libros, quedando apenas siete entrevistas estructuradas, siete diálogos dirigidos, seis grabaciones secretas y seis elocuciones formales.
El segundo es el Corpus Conversacional Tapatío,6 coordinado por Rebeca Martínez Gómez y Karol Ibarra Zetter, estudiantes de posgrado en la Universidad de Nuevo México en el momento que lo recopilaron. Se recurrió a dos estrategias singulares para capturar interacciones coloquiales cara a cara: en lo relativo a la recolección de los datos, dejar que los hablantes se grabaran ellos mismos —sin guion de entrevista— mientras realizaban labores domésticas, trabajaban en oficinas, departían en cafés, convivían en reuniones sociales o se trasladaban por la ciudad; en lo tocante a la conformación de la muestra, reclutar a los participantes a través de amigos de amigos de las investigadoras, es decir, mediante la técnica de redes sociales. Con estas tácticas, de diciembre de 2010 a 2015, se acopiaron más de 80 conversaciones con duración de diez minutos a dos horas, que suman unas 40 horas de grabación. Las transcripciones adoptaron los lineamientos de John Du Bois y, en 2017, aún no concluían. Los hablantes fueron 114: 46 hombres y 68 mujeres, de 18 a 98 años, de todos los grados de instrucción —licenciatura, sobre todo (49)—, con diversas profesiones y ocupaciones, habitantes de los municipios de Guadalajara y Zapopan —20 y 19 colonias, respectivamente—, San Pedro Tlaquepaque y Tlajomulco de Zúñiga —6 y 5 colonias, respectivamente—. Si se hubiera incluido a residentes de El Salto y Tonalá, se habría cubierto, sin duda, la unidad territorial escogida: la Zona Metropolitana de Guadalajara con seis municipios centrales (Martínez Gómez e Ibarra Zetter, 2017, pp. 87-92, 103-108).
Es lamentable que el corpus permanezca inédito y que solo se tenga noticia de él por un artículo de las coordinadoras sobre el marcador discursivo o sea abordado desde la fonología basada en el uso (Martínez Gómez e Ibarra Zetter, 2017, pp. 95-102) y por la tesis doctoral de Martínez Gómez (2018), cuyos capítulos tercero y cuarto examinan la producción y la percepción social de la entonación ascendente al final de enunciados declarativos, distintiva del estilo fresa (pp. 34-92).
El tercero es el Corpus oral del español de México bajo la responsabilidad de Pedro Martín Butragueño, de El Colegio de México, y de Érika Mendoza y Leonor Orozco, de la Universidad Nacional Autónoma de México. Su objetivo fue dar «una imagen actual, geográfica y sociolingüística, de las hablas mexicanas» (Martín Butragueño, Mendoza y Orozco, coords., en preparación) de 15 localidades urbanas que cobraron importancia lingüística por su tamaño, influencia, función histórica y valor de representar a un área dialectal. Tras identificarlas, fueron dispuestas en cuatro subsistemas —Norte, Occidente, Centro-Golfo y Sur-Sureste— configurados según sus relaciones en el pasado y sus intercambios sociales y lingüísticos en el presente. Guadalajara, Guanajuato, Lagos de Moreno y Morelia integraron el agrupamiento de Occidente. Entre 2010 y 2015, en ellas y en las demás ciudades, de 12 a 18 hombres y mujeres de diferentes edades y niveles de escolaridad fueron grabados en audio y video (Martín Butragueño, 2019, pp. 28-30; Martín Butragueño, Mendoza y Orozco, coords., en preparación). Es deseable que el corpus pronto esté disponible con miras a descubrir los perfiles y las voces de los participantes tapatíos.
La tipología de corpus que planteó Guillermo Rojo (2021, pp. 71-76) facilitará la caracterización de esos tres corpus (y también del cuarto). Todos son generales, muestrales, cerrados, sincrónicos, dialectales, monolingües y orales. En concreto, entran en los llamados spoken corpora, los cuales reúnen transcripciones de eventos comunicativos como conferencias, entrevistas, tertulias, narraciones, conversaciones… con la finalidad, entre otras dos, de profundizar en la variación diatópica, diastrática o diafásica: «[a]quí es donde se sitúan todos los corpus de orientación dialectológica o sociolingüística» (Rojo, 2021, p. 74).
La clasificación de corpus que propuso Gerardo E. Sierra Martínez (2017) permitirá detectar la principal diferencia entre los cuatro corpus: su grado de acceso o disponibilidad de uso (pp. 54, 57). Al momento de escribir estas líneas —junio de 2021—, el grueso de las muestras del Corpus del habla culta de la Zona Metropolitana de Guadalajara, el Corpus Conversacional Tapatío y el Corpus oral del español de México permanecen de uso privado o restringido. Por el contrario, las 26 transcripciones que sí se publicaron de ese mismo corpus del habla culta y el cuarto corpus son de dominio público. Aunque tales transcripciones sean públicas, cabría calificarlas como un «corpus comercial», dado que no pueden consultarse si no se compran los dos libros libros que tratan sobre el corpus del habla culta. El cuarto corpus es de dominio público, de uso no comercial y de acceso abierto gracias a la publicación en línea de las entrevistas a 18 hablantes7 y del corpus completo en la presente obra. El formato establecerá otra diferencia indiscutible: en papel para los materiales del habla culta, digital para los tres corpus restantes.
El cuarto corpus acaba de ser aludido y caracterizado en los dos párrafos anteriores sin desvelar su nombre. Es el corpus PRESEEA–Guadalajara. PRESEEA equivale a Proyecto para el Estudio Sociolingüístico del Español de España y de América. La trayectoria de la lingüística de corpus en español trazada por Moreno Fernández (2016) y resumida páginas arriba, más los aportes de la sociolingüística anglosajona sirvieron de «caldo de cultivo idóneo» (p. 371) a este proyecto «que ha marcado la sociolingüística hispánica desde su presentación pública en 1996» (p. 371). Sobre estos hombros de gigantes descansa PRESEEA–Guadalajara. La siguiente sección detallará su afán por capturar con «VERDAD Y BELLEZA» una instantánea del español hablado en Guadalajara durante la segunda década del siglo XXI.
1 Proyecto de estudio coordinado de la norma lingüística culta de las principales ciudades de Iberoamérica y de la Península Ibérica fue su nombre final (Lope Blanch, 1986, p. 8).
2 Dos capitales modificaron sus nombres en el siglo XXI: Santafé de Bogotá es denominada Bogotá desde 2000; México es llamada Ciudad de México desde 2016.
3 Las Palmas de Gran Canaria comparte la capitalidad de la Comunidad Autónoma de Canarias con Santa Cruz de Tenerife. Sevilla es la capital de la Comunidad Autónoma de Andalucía.
4 Buenos Aires, Caracas, La Paz, Lima, Madrid, México, Santafé de Bogotá, Santiago de Chile, San Juan de Puerto Rico y Sevilla. El corpus más antiguo era el mexicano (1971); el más reciente, el boliviano (1992). El Macrocorpus reunió, además, algunas entrevistas de Madrid, México y San Juan de Puerto Rico que no habían sido publicadas. Aquellas de Las Palmas de Gran Canaria y San José de Costa Rica eran todas inéditas (Samper Padilla, 1995, pp. 264-265).
5 Guadalajara, San Pedro Tlaquepaque, Tonalá y Zapopan.
6 «Que es natural de Guadalajara, capital del estado de Jalisco; que pertenece a esta ciudad o se relaciona con ella» (Lara, dir., 2010, p. 1561).
7 En <https://preseea.linguas.net/Corpus.aspx>.