Читать книгу Lingüística computacional y de corpus - Jorge Mauricio Molina Mejía - Страница 6
ОглавлениеPrefacio
Motivación inicial
La idea de escribir un libro de texto en español acerca de la lingüística computacional y de su relación intrínseca con la lingüística de corpus nace de la necesidad que existe, en esta lengua, de tener una bibliografía más amplia al respecto en nuestros países latinoamericanos. Luego de numerosas búsquedas de material bibliográfico acerca del tema en Colombia, en sus ámbitos teórico, metodológico y práctico (sus posibles aplicaciones), me di cuenta del poco material existente, dado que la mayor parte de este ha sido editado en España y en México. Por el momento, y según mi conocimiento personal, en Colombia solo unas pocas obras se han publicado acerca de la lingüística computacional y de la lingüística de corpus, y estas analizan de una forma más bien tangencial la relación entre estos dos campos del conocimiento.1
Por otra parte, este libro de estudio nació del trabajo realizado por el semillero de investigación Corpus Ex Machina, creado en el 2016 y adscrito a la Facultad de Comunicaciones y Filología de la Universidad de Antioquia, en el que se han planteado diversos interrogantes acerca de la importancia de emplear herramientas informáticas, modelizar y crear sistemas informáticos que tengan en cuenta el lenguaje humano desde distintas perspectivas: textos escritos, lenguaje hablado, relación entre lenguaje y música, etc. (véase anexo A).
Espero, por lo tanto, que este manual sea recibido como una contribución a estos dos campos de la lingüística, tan poco conocidos en nuestro país, y se convierta en una herramienta teórica para los interesados en el tema. Es este, pues, un trabajo de índole pluridisciplinaria.
Importancia de los estudios pluridisciplinarios
En la actualidad, en una época en la que se habla más bien poco de disciplinas aisladas, los equipos de investigación son, generalmente, interdisciplinarios, pluridisciplinarios o transdisciplinarios, y los investigadores se enfrentan, cada vez más, a trabajos en los que se les demandan competencias en varias disciplinas a la vez, consideramos que se hace cada vez más importante dar cuenta de esta pluridisciplinariedad, así como escribir libros de texto y manuales que se fundamenten en la investigación y se interesen, además, por esta opción —la plurisdisciplinariedad—, cada vez más recurrente, a partir de varios campos del conocimiento que pueden parecer lejanos los unos de los otros.
Esta obra es fruto de varios años de investigación, en los que el docente-investigador que aquí escribe, y quien, en un comienzo, se dedicaba exclusivamente a la enseñanza de lenguas extranjeras, se vio abocado a aprender de otros campos del conocimiento, como lo son: la lingüística computacional, la lingüística de corpus, la lingüística textual, la informática, las tecnologías de la información y la comunicación para la enseñanza —tice—, y, dentro de estas, más concretamente, el aprendizaje y la enseñanza de lenguas asistidos por ordenador. Hemos considerado importante presentar en este libro los aspectos más relevantes de varios de estos campos. Por ello este manual pretende convertirse en un compendio teórico de varios campos disciplinares para que sirva, más adelante, a estudiantes e investigadores interesados en su práctica.
Consideramos que los trabajos que se realizan de forma pluridisciplinaria tienen un valor más allá del tema que tratan, puesto que permiten la consulta de los estudiantes de pregrado y posgrado, quienes pueden así informarse de los aspectos relevantes de la lingüística computacional, la lingüística de corpus y los análisis que desde la lingüística teórica y aplicada se pueden dar en campos tan variados como la enseñanza y el aprendizaje de lenguas, la traducción automática, el etiquetado morfológico y sintáctico de textos, entre otros. La idea, entonces, es que los lectores puedan encontrar en esta obra los aspectos tanto teóricos como prácticos de estas grandes disciplinas y que, al final, puedan vislumbrar la relación específica entre ellas, con algunos ejemplos reales de su utilización.
De esta manera basamos la presente obra en la propia trayectoria y proceso de formación, en la que se unen:
La didáctica de las lenguas extranjeras. Francés y español como lenguas extranjeras, fundamentadas en el empleo de las tic.
La lingüística teórica y aplicada, dentro de la cual se entrelazan los cursos de introducción a los estudios del lenguaje, fonética y fonología, y sintaxis, entre otros.
La lingüística textual, como campo de investigación y de trabajo en el que se entremezclan varios años de trabajo investigativo en Francia y los recientes proyectos dirigidos a estudiantes de pregrado y posgrado de la Universidad de Antioquia.
La lingüística computacional, de donde parte el proceso de investigación relativo al traitement automatique des langues (tratamiento automático de lenguas), que fue continuado en los cursos impartidos en la Universidad de Antioquia, así como en la formación del semillero de investigación antes mencionado.
La lingüística de corpus, donde contamos con la creación de corpus textuales y orales para el estudio de las lenguas francesa y española.
Estos temas han sido motivo de indagación durante más de dieciocho años de actividad académica e investigativa del autor del presente manual.
Organización del libro de texto
Este libro se encuentra dividido en tres partes; las dos primeras cubren los campos del conocimiento que son la lingüística computacional y la lingüística de corpus, así como algunos aspectos ligados al alao —aprendizaje de lenguas asistido por ordenador—; y la tercera parte, que es más de carácter aplicativo de los diferentes sistemas y herramientas informáticas basados en los campos mencionados. Finalmente, un último capítulo de conclusiones y perspectivas de trabajo, vinculadas a los ejes abordados, complementa el presente manual o libro de texto.
Mediante un capítulo introductorio mostramos la actual importancia de la lingüística computacional y de corpus con respecto al estudio del lenguaje. Abordamos allí la manera en la que la lingüística computacional hace presencia en el día a día de las personas, y constatamos la importancia de la inter- y la pluridisciplinariedad en cuanto a los estudios de los campos que tienen que ver con la lingüística computacional y de corpus.
Posteriormente, la primera parte está dedicada a la definición, el estudio histórico y los campos de aplicación de la lingüística computacional. Esta primera parte se subdivide, a su vez, en tres capítulos.
El capítulo 1 aborda la definición, desde la lingüística computacional, del procesamiento del lenguaje natural y del tratamiento automático de las lenguas naturales, y trata de dilucidar, además, si son campos similares o diferentes. Exploramos allí los aspectos conceptuales y la terminología de este campo del conocimiento, así como los aspectos teóricos y metodológicos ligados a él. Hacemos un especial énfasis en los modelos gramaticales que han permitido, de alguna forma, tratar las lenguas naturales, desde las gramáticas regulares, o de estados finitos, hasta las gramáticas de unificación, pasando por aquellas basadas en la gramática generativa transformacional de Noam Chomsky o en la gramática de dependencias de Lucien Tesnière e Igor Mel’čuk, entre otras.
El capítulo 2, por su parte, hace un recorrido histórico por la lingüística computacional. En él se exploran las etapas y desarrollos que han permitido el crecimiento de este campo desde su inicio, en la década de 1940, más ligado a la traducción automática, hasta nuestros días.
Cierra esta primera parte el capítulo 3, que presenta las principales áreas de aplicación de la lingüística computacional, teniendo en cuenta, para ello, los actuales trabajos de investigación vinculados a diversas disciplinas, que pueden llegar a tener una influencia directa en la sociedad y en los estudios del lenguaje natural. Con esta finalidad, se incluyen varias herramientas que pueden ser útiles en diferentes áreas, como el análisis de sentimientos, la corrección de textos y la traducción automática, entre otras.
La segunda parte de este trabajo tiene como objetivo presentar la lingüística de corpus. Para ello trabajamos a partir de tres aspectos importantes: su terminología, su desarrollo histórico y sus posibles aplicaciones, también mediante tres capítulos.
Así, el capítulo 4 refiere los aspectos teóricos y las definiciones concernientes a la lingüística de corpus, comenzando por la noción de corpus en varias perspectivas. Aquí abordamos la disyuntiva de si nos encontramos frente a un campo disciplinar como tal (lo que sucede con la lingüística computacional), o si se trata de un enfoque metodológico (aplicable a la lingüística, entre otros campos). Luego, se introduce una serie de términos ligados a esta teoría o metodología, y se finaliza con aspectos jurídicos y éticos vinculados al empleo de corpus en la investigación.
En el capítulo 5 presentamos el desarrollo histórico de la lingüística de corpus, y mostramos, para ello, algunos de los principales corpus disponibles en línea, que se pueden consultar (la mayor parte de ellos) de forma gratuita. Se describen minuciosamente las etapas que han sido claves para el desarrollo del campo, así como la manera en que estas han influido en los estudios actuales que utilizan corpus para el análisis de diferentes fenómenos lingüísticos.
El capítulo 6, que cierra esta segunda parte, vincula aquellos campos y áreas del conocimiento en general que utilizan o se fundamentan en un trabajo de corpus, mediante algunos ejemplos del campo de la lingüística en particular y algunas aplicaciones que se emplean en la cotidianidad.
Finalmente, la tercera parte, que consta del capítulo 7, invita a explorar algunas de las aplicaciones reales en las que se relacionan la lingüística de corpus y la lingüística computacional. Para ello hemos incluido aquí los diferentes pasos o etapas que se deben tener en cuenta en la elaboración de un corpus, el cual puede ser estudiado, más adelante, con la ayuda de herramientas computacionales. Para finalizar, el capítulo 8 de este libro da cuenta de las consideraciones finales, las cuales hemos dividido en conclusiones y en diversos ítems de aplicación futura, o perspectivas de uso, que nos sugieren los aspectos teóricos, metodológicos y prácticos (o de aplicabilidad) de la lingüística de corpus y la lingüística computacional. Así, en esta parte, se abarcan aplicaciones relacionadas con el aprendizaje o la enseñanza de lenguas (extranjeras o maternas) y la lingüística textual (o textolingüística).
Asignaturas y programas hacia los cuales se dirige esta obra
El presente libro de texto se dirige particularmente a los estudiantes de alguna de las asignaturas listadas a continuación de los diferentes programas de pregrado y posgrado, en este caso de la Universidad de Antioquia, que tienen que ver con las ciencias del lenguaje. Así mismo, a los estudiantes de otras instituciones y facultades con currículos afines.
Cursos de estadística y lingüística computacional, sintaxis, investigación lingüística (pregrado en Filología Hispánica).
Sintaxis, proyecto de investigación en lingüística (Licenciatura en Literatura y Lengua Castellana).
Seminarios del área de lingüística (Maestría en Lingüística).
Seminarios del área de lingüística y trabajo de investigación (Doctorado en Lingüística).
1 Hablamos de los siguientes libros: Lingüística computacional aplicada (Baquero Velásquez, 2010), Introducción a la lingüística computacional (Rubio López y Bernal Chávez, 2016) y Lingüística de corpus (Hincapié Moreno y Bernal Chávez, 2018). En el primer libro, publicado por la editorial de la Universidad Nacional de Colombia, la autora aborda la lingüística computacional desde una perspectiva práctica, con algo de teoría, sin analizar de fondo los aspectos metodológicos de este campo del conocimiento. El segundo libro es, como su título lo anuncia, una breve introducción al tema, en el cual se hace una somera referencia a los aspectos metodológicos de la lingüística computacional. El tercer libro constituye un breve compendio, tanto teórico como aplicativo, de lo que es la lingüística de corpus; en este último, sin embargo, no se establece la relación con la lingüística computacional. Estos tres libros realizan, no obstante, un primer y valioso aporte al estudio de estos campos de investigación en nuestro país.