Читать книгу Укрощение больших данных. Как извлекать знания из массивов информации с помощью глубокой аналитики - Билл Фрэнкс - Страница 42

Часть I
Появление больших данных
Глава 3
Источники больших данных и их ценность
Разные отрасли: значение текстовых данных

Оглавление

Текст – один из самых мощных и широко используемых источников больших данных. Только представьте себе существующий совокупный объем текста! Есть электронные письма, текстовые сообщения, твиты, комментарии в социальных медиа, мгновенные сообщения, чаты и аудиозаписи, переведенные в текст. Текстовые данные – один из наименее структурированных источников данных. К счастью, на сегодняшний день уже многое сделано для того, чтобы освоить текстовые данные и использовать их для принятия более эффективных бизнес-решений.

Анализ текста обычно начинается с его разбора и осмысления различных слов, фраз и компонентов, из которых он состоит. Это может быть сделано путем простого подсчета частотности употребления или с помощью более сложных методов. Существует дисциплина под названием «Обработка естественного языка», она часто используется в таких аналитических методах. Но это не является предметом обсуждения в данной книге. Инструменты для интеллектуального анализа текста существуют в качестве как компонентов основных аналитических систем, так и автономных приложений для анализа текста.

В основе одних инструментов для анализа текста лежит подход, при котором пользователи должны настроить программное обеспечение для идентификации интересующих их закономерностей. Другие инструменты используют машинное обучение и прочие алгоритмы, позволяющие отыскивать модели автоматически. Каждый подход имеет свои преимущества и недостатки, однако их обсуждение выходит за рамки этой книги. Мы сосредоточимся не на получении результатов, а на их использовании.

После разбора и классификации приступают к анализу. Результаты, полученные в процессе анализа текста, часто используются в качестве входных данных для других аналитических процессов. Например, после определения тона электронного письма клиента генерируется переменная, которая определяет тон заказчика как негативный или позитивный. Теперь этот тег – часть структурированных данных, которые можно использовать в качестве входных для аналитического процесса. Создание структурированных данных на основе неструктурированного текста часто называется извлечением информации.

В качестве другого примера предположим, что мы знаем, о каких товарах клиент оставил комментарии в процессе общения с нашей компанией. Мы создаем набор переменных, которые определяют товары, обсуждаемые клиентом. Эти переменные также представляют собой структурированные метрики, которые можно использовать в процессе анализа. Эти примеры показывают способы сбора фрагментов неструктурированных данных и создания из них релевантных и структурированных данных.

Создавайте структуру там, где ее нет

Анализ текста – отличный пример того, как абсолютно неструктурированные данные могут быть обработаны и превращены в структурированные, которые используются в традиционных аналитических процессах. Один из основных аспектов процесса укрощения больших данных заключается в применении творческого подхода к процессу подготовки неструктурированных и полуструктурированных данных к дальнейшему использованию.

Интерпретация текстовых данных на самом деле довольно сложна. Смысл наших слов меняется в зависимости от того, какое из них мы акцентируем, а также от контекста, в который мы их помещаем. При взгляде на простой текст вы наверняка не знаете, на каком слове сделан акцент, и вам часто неизвестен весь контекст. Это означает, что придется сделать некоторые предположения. Мы поговорим об этом более подробно в главе 6.

Анализ текста – это одновременно искусство и наука, и он всегда будет подразумевать некоторый уровень неопределенности. При проведении анализа текста будут возникать проблемы, вызванные ошибками классификации и неоднозначностью. Это нормально. Если найденная в тексте закономерность позволяет принять более эффективное решение, то ее следует использовать. Цель анализа текста – улучшить принимаемые решения, а не достичь совершенства. Текстовые данные позволяют повысить качество принимаемых решений и предоставляют более ценную информацию, даже несмотря на содержащийся в них шум и неоднозначность.

Укрощение больших данных. Как извлекать знания из массивов информации с помощью глубокой аналитики

Подняться наверх