Читать книгу Укрощение больших данных. Как извлекать знания из массивов информации с помощью глубокой аналитики - Билл Фрэнкс - Страница 17

Часть I
Появление больших данных
Глава 1
Что такое «большие данные» и каково их значение?
Эффективная фильтрация больших данных

Оглавление

Самая большая трудность при работе с большими данными может заключаться не в анализе, а в процессе извлечения, преобразования и загрузки данных (ETL), который необходимо наладить перед проведением анализа. ETL – это процесс сбора необработанных данных, их чтения и получения полезных выходных данных. Сначала данные извлекаются (E, extracted) из соответствующего источника. Затем они преобразуются (Т, transformed) путем агрегации, комбинирования и применения функций, чтобы обеспечить возможность их дальнейшего использования. И, наконец, данные загружаются (L, loaded) в среду для анализа данных. Это и есть ETL-процесс.

Вернемся к нашему примеру. Когда вы пьете воду из шланга, вам все равно, какая часть потока воды попадет в рот. В случае с большими данными, напротив, очень важно, какие части потока данных будут собраны. Сначала вам потребуется изучить весь поток данных, и только после этого можно отфильтровать нужные вам фрагменты информации. Вот почему процесс укрощения больших данных может занять так много времени.

Как попить из шланга

Работу с большими данными можно сравнить с попыткой попить из шланга. Большая часть данных будет пропущена, как и большая часть воды. Цель в том, чтобы отхлебнуть нужное количество данных из потока, а не выпить его полностью. Если вы сосредоточитесь на важных фрагментах данных, то работать с большими данными будет проще.

Аналитические процессы могут потребовать наличия фильтров, чтобы при получении данных отбросить часть информации. По мере обработки данных будут применяться и другие фильтры. Например, при работе с данными интернет-журнала можно отфильтровать информацию о версии браузера или операционной системы. Такие данные редко бывают нужны. Позднее в процессе обработки можно отфильтровать данные о конкретных страницах или действиях пользователя, которые можно исследовать для решения бизнес-задач.

Сложность правил и объем отфильтрованных или сохраненных на каждом этапе данных зависят от источника данных и бизнес-задачи. Для достижения успеха решающее значение имеют правильные процессы загрузки и фильтры. Традиционные структурированные данные не требуют таких усилий, поскольку они заранее исследованы и стандартизированы. Большие данные часто приходится исследовать и стандартизировать в процессе анализа.

Объединение больших данных с традиционными данными

Вероятно, наибольший интерес представляет даже не то, что большие данные могут сделать для вашего бизнеса сами по себе, а то, что они могут сделать для бизнеса в сочетании с другими данными организации.

Так, например, мощный источник данных – история посещения веб-страниц. Информация о важности потребителя для организации и о покупках, совершенных им ранее через различные каналы, повышает ценность веб-данных, если их поместить в более широкий контекст. Мы поговорим об этом подробнее в главе 2.

Для предприятия коммунального обслуживания чрезвычайно значимы данные интеллектуальных сетей (Smart Grid). Знание закономерностей, связанных с оплатой счетов, типов жилищ потребителей и других факторов, делает данные, полученные от интеллектуальных счетчиков, еще более ценными. Об этом говорится в главе 3.

Текст электронной переписки с отделом обслуживания клиентов также ценный источник данных. Знание подробных спецификаций обсуждаемых товаров, информации о продажах и дефектах повышает важность этих текстовых данных. Об этом речь пойдет в главах 3 и 6.

Своей популярностью хранилища данных предприятия (EDW) по большей части обязаны не тому, что они дают возможность централизовать многочисленные витрины данных в целях уменьшения затрат на оборудование и программное обеспечение. Хранилища данных создают ценность, так как с их помощью можно объединять различные источники данных, благодаря чему они дополняют друг друга. Хранилища данных позволяют совместно анализировать данные о потребителях и сотрудниках, поскольку они хранятся в одном и том же месте. Они больше не являются полностью разделенными. Например, правда ли, что одни сотрудники приносят компании больше дохода, чем другие? Ответить на такие вопросы гораздо легче, если данные хранятся в одном месте. Добавление больших данных увеличивает масштаб решаемых проблем, поскольку все больше новых типов данных могут быть объединены для обеспечения новых точек зрения и контекстов.

Комбинируйте!

Потенциал больших данных раскрывается в полной мере при взаимодействии с другими данными корпорации. Если включить итоги анализа больших данных в более широкий контекст, количество и качество полученных результатов стремительно возрастут. Вот почему большие данные должны быть частью общей стратегии работы с данными, а не отдельной стратегией, созданной специально для них.

Крайне важно, чтобы разработанная организацией стратегия работы с большими данными не отличалась от стратегии работы с традиционными данными. Это не приведет к нужному результату. Большие данные и традиционные данные – части общей стратегии. Большие данные должны быть еще одной гранью корпоративной стратегии работы с данными. С самого начала необходимо продумать и спланировать не только процессы сбора и анализа больших данных, но и то, как их использовать в сочетании с другими корпоративными данными, а также в качестве компонента целостного подхода к корпоративным данным.

Укрощение больших данных. Как извлекать знания из массивов информации с помощью глубокой аналитики

Подняться наверх