Читать книгу Укрощение больших данных. Как извлекать знания из массивов информации с помощью глубокой аналитики - Билл Фрэнкс - Страница 19

Часть I
Появление больших данных
Глава 1
Что такое «большие данные» и каково их значение?
Сегодняшние большие данные отличаются от завтрашних больших данных

Оглавление

Как мы уже упоминали, принятые определения понятия «большие данные» неоднозначны, а единого и точного не существует. Это понятие определено в относительных терминах, связанных с существующей технологией и источниками. В результате то, что считается большими данными в одной компании или отрасли, может не считаться таковыми в другой. Понятие «большие данные» для крупной компании электронной коммерции будет отличаться от того, что считает большими данными мелкий производитель.

Еще более важно, что со временем изменятся характеристики больших данных, поскольку инструменты и методы работы с ними будут развиваться наряду с увеличением размеров хранилищ необработанных данных и вычислительной мощности. Десять или двадцать лет назад файлы с демографическими данными о миллионах клиентов, содержащие сотни полей, считались огромными и трудноуправляемыми. Сегодня эти данные умещаются на флеш-накопителе и могут быть проанализированы на низкопроизводительном ноутбуке. Понятия о большом объеме, высокой скорости передачи, большом разнообразии и сложности будут меняться вместе с большими данными.

Понятие «большой» изменится

То, что сегодня считается большими данными, не будет считаться большими данными завтра, так же как данные, считавшиеся большими десять лет назад, не считаются таковыми сегодня. Большие данные будут продолжать развиваться. То, что невозможно или немыслимо сегодня с точки зрения объема данных, скорости передачи, разнообразия и сложности, в будущем станет в порядке вещей. Так было всегда и так будет продолжаться в эпоху больших данных.

Данные о транзакциях в отраслях розничной торговли, телекоммуникаций и банковского дела считались очень большими и трудноуправляемыми еще десять лет назад. Фактически в конце 1990-х годов во многих организациях такие данные не были широкодоступны для анализа и отчетности. Сегодня эти данные считаются необходимым и основным активом. Практически каждая компания вне зависимости от своего размера имеет к ним доступ.

То, что пугает нас сегодня, не будет казаться страшным через несколько лет. Через десять лет поток кликов может стать стандартным легкообрабатываемым источником данных. Активная обработка каждого электронного письма, переписки с отделом обслуживания клиентов, а также комментариев в социальных медиа может стать обычной практикой для большинства организаций. Ежесекундное отслеживание сотен метрик, может быть, уже не потребует большого труда.

Пока мы будем осваивать существующие сегодня потоки больших данных, появятся новые источники еще больших данных. Что они будут собой представлять? Этого не знает никто. Попробуем представить себе, каким образом довольно быстро существующие источники данных могут превратиться в источники еще больших данных.

• Представьте себе, что история просмотра веб-страниц включает данные о движениях мыши и глаз пользователя, что позволяет уловить каждую деталь процесса навигации, а не только отследить элементы, по которым пользователь щелкнул кнопкой мыши. Это совершенно новый масштаб больших данных.

• Представьте, что телеметрические данные видеоигры больше не ограничиваются нажатием кнопки или совершенным действием. Что они также включают движение глаз и тела игрока, а также расположение и статус каждого объекта в сцене, а не только тех объектов, с которыми происходит взаимодействие. Это уже происходит.

• Представьте себе, что RFID-метка находится на каждом отдельном товаре в каждом магазине, на оптовой базе и заводе. Представьте себе, что эти чипы собирают десятки метрик в секунду, например данные о температуре, влажности воздуха, скорости, ускорении, давлении и т. д. Такой объем данных сегодня сложно себе представить.

• Представьте себе, что существует возможность записи и перевода в текст каждого разговора с отделом обслуживания клиентов или с отделом продаж. Добавьте к этому все электронные письма, переписку в чатах и комментарии в социальных медиа и на сайтах отзывов. Теперь попробуйте разобраться и проанализировать весь этот текст. Ваша голова еще не взорвалась?


Дело в том, что большие данные никуда не исчезнут. То, что страшит нас сегодня, не будет столь пугающим через несколько лет, однако к тому времени появятся новые устрашающие источники данных. Организациям необходимо будет продолжать корректировать свои методы и цели, чтобы обеспечить возможность использовать данные по мере их развития. Тем не менее, прежде чем корректировать и обновлять методы работы с большими данными, вашей организации необходимо с чего-то начать.

Укрощение больших данных. Как извлекать знания из массивов информации с помощью глубокой аналитики

Подняться наверх