Читать книгу Desarrollo de motores de búsqueda utilizando herramientas open source - Jose Manuel Ortega Candel - Страница 23
1.5.1 Extracción de información
ОглавлениеLa extracción de información es un área de investigación que comprende la intersección entre lingüística computacional, machine learning, data mining, bases de datos y recuperación de información. Se trata de un proceso que consiste en obtener información relevante a partir de un conjunto de documentos. Por tanto, el problema estriba en extraer la información y convertirla en información estructurada para poder buscar, manejar y explotar la información que se desee de forma eficiente.
El objetivo final es elaborar sistemas que permitan encontrar y relacionar información relevante mientras ignoran otras informaciones no relevantes. La relevancia se determina a partir de una serie de guías que permiten especificar con la mayor exactitud posible el tipo de información a extraer.
Desde la perspectiva del procesamiento de lenguaje natural, los sistemas de extracción de información deben trabajar a distintos niveles: desde el reconocimiento de palabras hasta el análisis de frases, y desde el entendimiento a nivel de frase hasta el texto completo. A grandes rasgos, entre las principales tareas relacionadas con la extracción de la información podemos destacar:
• Extracción de entidades y relaciones:
− Entidades: con nombre y genéricas.
− Relaciones: entidades relacionadas de una forma predefinida.
− Eventos: pueden estar compuestos de múltiples relaciones.
• Subtareas comunes en la extracción:
− Preproceso: segmentación de frases, análisis morfológico y sintáctico.
− Creación de reglas y/o patrones de extracción: de forma manual, automática o mixta.
− Aplicación de reglas o patrones de extracción: para extraer nueva información.
− Post-proceso: integración de la información, resolución y desambiguación de términos.