Читать книгу Desarrollo de motores de búsqueda utilizando herramientas open source - Jose Manuel Ortega Candel - Страница 31

1.7 HERRAMIENTAS DE PROCESAMIENTO DE LENGUAJE NATURAL (PLN)

Оглавление

Las tecnologías de procesamiento de lenguaje natural son un conjunto de herramientas lingüísticas que permiten extraer información relativa a características léxicas, morfosintácticas y semánticas de un determinado texto.

Existen muchas propuestas en este ámbito, y entre ellas destacan las siguientes:

• OpenNLP (https://opennlp.apache.org) es un proyecto de la fundación Apache que consiste en una librería de aprendizaje automático cuyo objetivo es el procesamiento del lenguaje humano en texto. Posee soporte para las tareas de procesamiento de lenguaje natural (PLN) más comunes. No tiene soporte para el uso de distintos idiomas, pero posee una serie de modelos entrenados en diferentes idiomas para propósitos específicos. En el caso del español, encontramos cuatro modelos entrenados en reconocimiento de entidades: personas, organizaciones, localizaciones y misceláneo. Cualquier extractor de interés que no esté en los modelos tendría que ser entrenado para su objetivo específico.

• CoreNLP (https://stanfordnlp.github.io/CoreNLP) es un proyecto de la Universidad de Stanford que provee una serie de herramientas de análisis de lenguaje humano (figura 1.5). Proporciona instrumentos para un amplio análisis gramático, además de diferentes elementos de extracción de la información. Posee soporte oficial para seis idiomas, aunque no todos tienen disponibles todas las funciones. La integración con otros proyectos se realiza a través de una serie de API en distintos lenguajes. A nivel práctico, esta herramienta es utilizada por la Biblioteca Virtual Miguel de Cervantes, concretamente en el componente correspondiente al analizador sintáctico: http://data.cervantesvirtual.com/analizador-sintactico-automatico.

• FreeLing (http://nlp.lsi.upc.edu/freeling/node/1) es un proyecto de la Universitat Politècnica de Catalunya (figura 1.6). Se trata de una librería con una serie de herramientas open source para el análisis de lenguaje humano. Está escrita en C++ y tiene soporte para muchos idiomas y dialectos españoles, pero carece de una comunidad sólida que utilice la herramienta de manera asidua; tampoco cuenta con una documentación tan extensa como las propuestas anteriores.

Tanto CoreNLP como FreeLing proporcionan una web para demostraciones en la que puede insertar texto y extraer características.

http://nlp.stanford.edu:8080/corenlp/process

Figura 1.5 Prueba de texto con CoreNLP.

http://nlp.lsi.upc.edu/freeling/demo/demo.php

Figura 1.6 Prueba de texto con FreeLing.

Desarrollo de motores de búsqueda utilizando herramientas open source

Подняться наверх