Читать книгу Цифровая трансформация для директоров и собственников. Часть 1. Погружение - Джимшер Бухутьевич Челидзе - Страница 25

Глава 2. Технологии. Плюсы, минусы, личное мнение
Большие данные (Big Data)

Оглавление

Большие данные (big data) – совокупное название структурированных и неструктурированных данных. Причём в таких объёмах, которые просто невозможно обработать в ручном режиме.

Часто под этим ещё понимают инструменты и подходы к работе с такими данными: как структурировать, анализировать и использовать для конкретных задач и целей.

Неструктурированные данные – это информация, которая не имеет заранее определённой структуры или не организована в определённом порядке.

Области применения

Оптимизация процессов

Например, крупные банки используют большие данные, чтобы обучать чат-бота – программу, которая может заменить живого сотрудника на простых вопросах, а при необходимости переключит на специалиста. Или выявление потерь, которые генерируются этими процессами.

Подготовка прогнозов

Анализируя большие данные о продажах, компании могут предсказать поведение клиентов и покупательский спрос в зависимости от времени года или расположения товаров на полке. Также они используются, чтобы спрогнозировать отказы оборудования.

Построение моделей

Анализ данных об оборудовании помогает строить модели наиболее выгодной эксплуатации или экономические модели производственной деятельности.

Источники сбора Big Data

• Социальные – все загруженные фото и отправленные сообщения, звонки, в общем всё, что делает человек в Интернете.

• Машинные – генерируются машинами, датчиками и «интернетом вещей»: смартфоны, умные колонки, лампочки и системы умного дома, видеокамеры на улицах, метеоспутники.

• Транзакционные – покупки, переводы денег, поставки товаров и операции с банкоматами.

• Корпоративные базы данных и архивы. Хотя некоторые источники не относят их к Big Data. Тут возникают споры. И ключевая проблема – несоответствие критериям «обновляемости» данных. Подробнее об этом чуть ниже.

Категории Big Data

• Структурированные данные. Имеют связанную с ними структуру таблиц и меток. Например, таблицы Excel, связанные между собой.

• Полуструктурированные или слабоструктурированные данные. Не соответствуют строгой структуре таблиц и отношений, но имеют «метки», которые отделяют смысловые элементы и обеспечивают иерархическую структуру записей. Например, информация в электронных письмах.

• Неструктурированные данные. Вообще не имеют никакой связанной с ними структуры, порядка, иерархии. Например, обычный текст, как в этой книге, файлы изображений, аудио и видео.

Обрабатывают такие данные на основе специальных алгоритмов: сначала данные фильтруются по условиям, которые задаёт исследователь, сортируются и распределяются между отдельными компьютерами (узлами). После этого узлы параллельно рассчитывают свои блоки данных и передают результат вычислений на следующий этап.

Характеристики больших данных

По разным источникам, большие данные характеризуются тремя, четырьмя, а по некоторым мнениям пятью, шестью и даже восемью компонентами. Но давайте остановимся на самой, как мне кажется, разумной концепции из 4 компонентов.

Volume (объём): информации должно быть много. Обычно говорят о количестве от 2 терабайт. Компании могут собирать огромное количество информации, размер которой становится критическим фактором в аналитике.

Velocity (скорость): данные должны обновляться, иначе они устаревают и теряют ценность. Практически всё происходящее вокруг нас (поисковые запросы, социальные сети) производит новые данные, многие из которых можно использовать для анализа.

Variety (разнообразие): генерируемая информация неоднородна и может быть представлена в различных форматах: видео, текст, таблицы, числовые последовательности, показания датчиков.

Variety (достоверность): качество анализируемых данных. Они должны быть достоверными и ценными для анализа, чтобы им можно было доверять. Также данные с низкой достоверностью содержат высокий процент бессмысленной информации, которая называется шумом и не имеет ценности.

Ограничения на пути внедрения Big Data

Основное ограничение – качество исходных данных, критическое мышление (а что мы хотим увидеть? какие боли? – для этого делаются онтологические модели), правильный подбор компетенций. Ну, и самое главное – люди. Работой с данными занимаются дата-саентисты. И тут есть одна расхожая шутка: 90% дата-сайентистов – это дата-сатанисты.

Цифровая трансформация для директоров и собственников. Часть 1. Погружение

Подняться наверх