Читать книгу Цифровая трансформация для директоров и собственников. Часть 1. Погружение - Джимшер Бухутьевич Челидзе - Страница 25
Глава 2. Технологии. Плюсы, минусы, личное мнение
Большие данные (Big Data)
ОглавлениеБольшие данные (big data) – совокупное название структурированных и неструктурированных данных. Причём в таких объёмах, которые просто невозможно обработать в ручном режиме.
Часто под этим ещё понимают инструменты и подходы к работе с такими данными: как структурировать, анализировать и использовать для конкретных задач и целей.
Неструктурированные данные – это информация, которая не имеет заранее определённой структуры или не организована в определённом порядке.
Области применения
• Оптимизация процессов
Например, крупные банки используют большие данные, чтобы обучать чат-бота – программу, которая может заменить живого сотрудника на простых вопросах, а при необходимости переключит на специалиста. Или выявление потерь, которые генерируются этими процессами.
• Подготовка прогнозов
Анализируя большие данные о продажах, компании могут предсказать поведение клиентов и покупательский спрос в зависимости от времени года или расположения товаров на полке. Также они используются, чтобы спрогнозировать отказы оборудования.
• Построение моделей
Анализ данных об оборудовании помогает строить модели наиболее выгодной эксплуатации или экономические модели производственной деятельности.
Источники сбора Big Data
• Социальные – все загруженные фото и отправленные сообщения, звонки, в общем всё, что делает человек в Интернете.
• Машинные – генерируются машинами, датчиками и «интернетом вещей»: смартфоны, умные колонки, лампочки и системы умного дома, видеокамеры на улицах, метеоспутники.
• Транзакционные – покупки, переводы денег, поставки товаров и операции с банкоматами.
• Корпоративные базы данных и архивы. Хотя некоторые источники не относят их к Big Data. Тут возникают споры. И ключевая проблема – несоответствие критериям «обновляемости» данных. Подробнее об этом чуть ниже.
Категории Big Data
• Структурированные данные. Имеют связанную с ними структуру таблиц и меток. Например, таблицы Excel, связанные между собой.
• Полуструктурированные или слабоструктурированные данные. Не соответствуют строгой структуре таблиц и отношений, но имеют «метки», которые отделяют смысловые элементы и обеспечивают иерархическую структуру записей. Например, информация в электронных письмах.
• Неструктурированные данные. Вообще не имеют никакой связанной с ними структуры, порядка, иерархии. Например, обычный текст, как в этой книге, файлы изображений, аудио и видео.
Обрабатывают такие данные на основе специальных алгоритмов: сначала данные фильтруются по условиям, которые задаёт исследователь, сортируются и распределяются между отдельными компьютерами (узлами). После этого узлы параллельно рассчитывают свои блоки данных и передают результат вычислений на следующий этап.
Характеристики больших данных
По разным источникам, большие данные характеризуются тремя, четырьмя, а по некоторым мнениям пятью, шестью и даже восемью компонентами. Но давайте остановимся на самой, как мне кажется, разумной концепции из 4 компонентов.
• Volume (объём): информации должно быть много. Обычно говорят о количестве от 2 терабайт. Компании могут собирать огромное количество информации, размер которой становится критическим фактором в аналитике.
• Velocity (скорость): данные должны обновляться, иначе они устаревают и теряют ценность. Практически всё происходящее вокруг нас (поисковые запросы, социальные сети) производит новые данные, многие из которых можно использовать для анализа.
• Variety (разнообразие): генерируемая информация неоднородна и может быть представлена в различных форматах: видео, текст, таблицы, числовые последовательности, показания датчиков.
• Variety (достоверность): качество анализируемых данных. Они должны быть достоверными и ценными для анализа, чтобы им можно было доверять. Также данные с низкой достоверностью содержат высокий процент бессмысленной информации, которая называется шумом и не имеет ценности.
Ограничения на пути внедрения Big Data
Основное ограничение – качество исходных данных, критическое мышление (а что мы хотим увидеть? какие боли? – для этого делаются онтологические модели), правильный подбор компетенций. Ну, и самое главное – люди. Работой с данными занимаются дата-саентисты. И тут есть одна расхожая шутка: 90% дата-сайентистов – это дата-сатанисты.