Читать книгу Укрощение больших данных. Как извлекать знания из массивов информации с помощью глубокой аналитики - Билл Фрэнкс - Страница 43
Часть I
Появление больших данных
Глава 3
Источники больших данных и их ценность
Использование текстовых данных
ОглавлениеОдин из самых популярных вариантов анализа текста на сегодняшний день – исследование настроения. Анализ настроения позволяет изучить общее мнение большого количества людей, чтобы понять, о чем говорит рынок, что он чувствует и думает об организации. При этом часто используются данные социальных сетей. Вот некоторые примеры:
• В чем суть шумихи вокруг компании или продукта?
• О каких корпоративных инициативах говорят люди?
• Положительно или отрицательно высказываются люди об организации и ее товарах и услугах?
Мы уже говорили о том, что одна из сложностей анализа текста заключается в том, что слова могут иметь позитивное или негативное значение в зависимости от контекста. Это необходимо принимать во внимание, однако общее настроение множества людей должно быть ясно. Зная о том, что говорят люди в социальных сетях или при общении с отделом обслуживания клиентов, можно более уверенно планировать дальнейшие действия.
Если организация уловит настроения отдельного клиента, она сможет судить о его намерениях и мнениях. Подобно веб-данным, которые помогают определить намерения, мнение потребителя о товаре является ценной информацией. Это особенно верно, если потребитель ранее не покупал этот продукт. Анализ настроений показывает, насколько легко или трудно будет убедить клиента приобрести данный продукт.
Текстовые данные применяются для распознавания закономерностей. Анализируя жалобы, заявки на ремонт и другие комментарии, сделанные клиентами, организация сможет быстрее выявлять и решать вопросы, пока они не превратились в серьезные проблемы. После вывода нового продукта на рынок и начала поступления жалоб анализ текста поможет определить, с какими трудностями сталкиваются клиенты. Иногда удается даже выявить назревающую проблему и предотвратить волну звонков в отдел обслуживания клиентов. Это позволит реагировать намного быстрее. Организация не только исправит дефекты в продуктах, которые будут выпущены позже, но и поможет клиентам справиться со сложностями, которые они испытывают сегодня.
Важной сферой использования текстовых данных является обнаружение мошенничества. В США в области страхования здоровья или трудоспособности, например, анализ текста можно использовать для разбора комментариев клиентов и заявлений на получение страховой выплаты. Затем выявляются закономерности, связанные со случаями мошенничества, чтобы оценить степень риска того или иного заявления. Заявления, которым присущ более высокий риск, следует проверять более тщательно. С другой стороны, некоторые заявления можно проверять автоматически. При наличии в заявлении закономерностей, терминов и фраз, относящихся к оправданным требованиям, его рассматривают как низкорисковое и проводят через систему в ускоренном режиме, а основные ресурсы сосредоточивают на заявлениях с более высоким риском.
Преимущества анализа текста используются и в сфере юриспруденции. В судебных делах часто анализируются электронная переписка и другие истории сообщений с целью выявить информацию, которая может иметь отношение к делу. Например, какие из электронных писем могут содержать инсайдерскую информацию? Кто предоставлял заведомо ложную информацию при взаимодействии с другими людьми? Что особенного в природе угроз?
Применение такого способа анализа в судебном делопроизводстве называют обнаружением электронных данных (eDiscovery). Все перечисленные методы анализа могут помочь в раскрытии преступлений. Без анализа текста, «вручную», было бы практически невозможно проверить все необходимые документы. Даже если такая попытка была бы предпринята, высока вероятность упустить ключевую информацию в связи с монотонностью занятия.
Текстовые данные могут быть востребованы во всех отраслях. Это будет один из наиболее широко используемых источников больших данных. Умение собирать, разбирать и анализировать текст имеет для организаций решающее значение. Текст – это один из источников больших данных, которые необходимо укротить.