Читать книгу Desarrollo de motores de búsqueda utilizando herramientas open source - Jose Manuel Ortega Candel - Страница 23

1.5.1 Extracción de información

Оглавление

La extracción de información es un área de investigación que comprende la intersección entre lingüística computacional, machine learning, data mining, bases de datos y recuperación de información. Se trata de un proceso que consiste en obtener información relevante a partir de un conjunto de documentos. Por tanto, el problema estriba en extraer la información y convertirla en información estructurada para poder buscar, manejar y explotar la información que se desee de forma eficiente.

El objetivo final es elaborar sistemas que permitan encontrar y relacionar información relevante mientras ignoran otras informaciones no relevantes. La relevancia se determina a partir de una serie de guías que permiten especificar con la mayor exactitud posible el tipo de información a extraer.

Desde la perspectiva del procesamiento de lenguaje natural, los sistemas de extracción de información deben trabajar a distintos niveles: desde el reconocimiento de palabras hasta el análisis de frases, y desde el entendimiento a nivel de frase hasta el texto completo. A grandes rasgos, entre las principales tareas relacionadas con la extracción de la información podemos destacar:

• Extracción de entidades y relaciones:

Entidades: con nombre y genéricas.

Relaciones: entidades relacionadas de una forma predefinida.

Eventos: pueden estar compuestos de múltiples relaciones.

• Subtareas comunes en la extracción:

Preproceso: segmentación de frases, análisis morfológico y sintáctico.

Creación de reglas y/o patrones de extracción: de forma manual, automática o mixta.

Aplicación de reglas o patrones de extracción: para extraer nueva información.

Post-proceso: integración de la información, resolución y desambiguación de términos.

Desarrollo de motores de búsqueda utilizando herramientas open source

Подняться наверх