Читать книгу Агрегация контента и его обработка. Сборник статей по архитектуре распределенных систем и программной инженерии - Д. А. Попов, Денис Александрович Шевчук, Денис Александрович Мурзин - Страница 12
Гибридная категориальная экспертная система для использования в агрегации контента
Перевод с английского
6. Задачи категоризации и классификации с использованием экспертных систем
ОглавлениеЭкспертные системы могут использоваться для решения проблемы категоризации, т. е. они могут определять некоторые объекты или последствия неопределенных знаний посредством иерархической категоризации. База знаний таких категориальных систем состоит из таксономического набора вербальных категорий, а их целью является определение категории входного объекта на основе имеющихся фактов [83].
Поскольку категориальное знание состоит только из логических связей между фактами и не подвергается сомнению, его можно выразить в виде правил ЕСЛИ – ТО. Категориальные экспертные системы также требуют механизма логического вывода для решения конкретной проблемы. Механизм логического вывода может использовать методы как обратной (backward chaining), так и прямой (forward chaining) цепочки рассуждений и, кроме того, включать модули объяснения и разрешения конфликтов [84, с. 25—30].
Текущие исследования показывают, что при разработке модулей классификации в подобных экспертных системах в качестве альтернативы подходу, основанному на правилах, широкое применение находят нейронные сети. Экспертные системы очень часто применяются для решения задач классификации и категоризации данных, и в этом разделе содержится описание некоторых из них.
6.1. Категориальная экспертная система Jurassic
Jurassic [85] является хорошо известным примером категориальной экспертной системы. Ее база знаний состоит из 423 правил, которые представлены в виде ориентированного ациклического графа с глубиной, равной пяти.
В Jurassic используется подход [86] представления объектов не в виде наборов признаков, а в виде списков, что позволяет включать в одно объектное представление копии одного и того же объекта, различающиеся своим положением в списке. Система выполняет категоризацию с использованием нейронной дедуктивной системы. В случае неопределенных знаний сходство определяется на основе общих признаков.
6.2. Экспертная система для классификации множественного интеллекта учащихся
В работе [87] представлена экспертная система, которая классифицирует способности студентов в одной из трех областей: инженерия, менеджмент и естественные науки. Архитектура системы включает в себя пользовательский интерфейс, механизм логического вывода, базу знаний, базу данных студентов и базу данных, содержащую ответы студентов на вопросы, которые используются для определения наиболее подходящего курса для каждого студента.
База знаний системы содержит предустановленные правила, которые необходимо корректировать в процессе работы. Система определяет предпочтительный курс для учащегося на основе весов, рассчитанных с помощью специальных функций, определенных для каждого типа интеллекта для каждого класса.
6.3. Экспертная система классификации трещин дорожного покрытия
В исследовании [88] рассматривается мультиагентная экспертная система автоматического обнаружения признаков разрушения дорожного покрытия. В качестве компонента, выполняющего задачу классификации, в ней используется экспертная система, работающая при помощи нейронной сети. Данная система является гибридной [89] и имеет довольно сложную архитектуру, состоящую из трех подсистем, и помимо экспертной системы использует различные технологии, такие как нечеткая логика [90], обработка изображений, методы мягких вычислений (soft computing) и т. д.
6.4. Экспертная система классификации скачков напряжения
В работе [91] представлена экспертная система классификации скачков напряжения в энергосистеме. Экспертная система обрабатывает четыре класса событий, которые могут быть вызваны неисправностями трансформатора или индукционного двигателя, а также скачкообразными изменениями напряжения. Задача классификации основана на характеристиках данных событий, связанных с временным снижением напряжения. База знаний системы содержит признаки, однозначно характеризующие события в наборе правил.
6.5. Экспертная система классификации твитов
Экспертные системы часто используются в задаче классификации контента. Например, в исследовании [92] представлена MISNIS – экспертная система, которая автоматически классифицирует твиты по набору интересующих тем. Система использует метод Twitter Topic Fuzzy Fingerprints [93] и сравнивает нечеткие отпечатки отдельного текста с отпечатками потенциального автора. Чтобы определить, относится ли твит к определенной теме, система создает отпечаток темы и отпечаток трендовых тем.
6.6. Экспертная система категоризации многоязычных документов
Проект GENIE, описанный в статье [94], представляет собой многоязычную экспертную систему категоризации текста на основе правил, которая состоит из пяти этапов: предварительная обработка, классификация на основе атрибутов, статистическая классификация, географическая классификация и онтологическая классификация.
Процесс категоризации начинается с этапа предварительной обработки, который включает в себя лемматизацию [95], распознавание именованных сущностей (named entity recognition, NER) [96] и извлечение ключевых слов [97]. Затем выполняется классификация на основе атрибутов, основанная на тезаурусе (thesaurus), то есть списке слов и наборе их отношений. Следующим этапом является статистическая классификация, где методы машинного обучения используются для поиска закономерностей, соответствующих статистической информации, и получения меток, соответствующих общим темам документа.
После система применяет географический классификатор для определения возможных географических ссылок, включенных в текст. Географический классификатор использует специальный компонент – географический справочник (gazetteer) [98], который представляет систематизированную информацию о местах и географических названиях.
На конечном этапе осуществляется онтологическая классификация с использованием лексической базы данных, которая содержит наборы синонимов и семантических отношений между ними.
Подобный подход к построению архитектуры модуля классификации используется в проекте Hypatia [99] – экспертной системе, разработанной для отделов канцелярии и делопроизводства и обеспечивающей категоризацию, семантический поиск, обобщение, извлечение знаний, агрегацию и многие другие функции в области анализа текстовых документов.