Читать книгу Big data изменяют Китай - - Страница 6
ГЛАВА 1. ПРОШЛОЕ И НАСТОЯЩЕЕ БОЛЬШИХ ДАННЫХ
1.4. Как интеллектуальный анализ данных «превращает цифры в золото»
ОглавлениеПрорыв, сделанный в отношении возможностей использовать данные, проявляется в интеллектуальном анализе данных.
Под интеллектуальным анализом данных (data mining) подразумевается осуществляющийся с помощью специальных алгоритмов автоматический анализ больших объёмов данных, имеющий целью выявление скрытых в них закономерностей и тенденций, иными словами, получение из данных большого объёма новых знаний, от которых можно отталкиваться, принимая те или иные решения. Основная причина прогресса в интеллектуальном анализе данных, то есть способность человека непрерывно изобретать всё более сложные алгоритмы распознавания образов3 в сущности является прогрессом в программном обеспечении. Самой знаменательной вехой развития интеллектуального анализа данных стала 1-я ежегодная научная конференция по data mining, организованная в 1989 году американской Ассоциацией вычислительной техники (Association for Computing Machinery, ACM), Специальной группой по обнаружению информации и интеллектуальному анализу данных (Special Interest Group on Knowledge Discovery and Data Mining, SIGKDD). Результаты работы конференции были отражены в специальной периодике. После этого развитие интеллектуального анализа данных получило огромное ускорение.
И действительно, в последние десятилетия благодаря технологиям интеллектуального анализа данных в самых разных крупных компаниях отмечалось немало удивительных историй, связанных с «превращением цифр в золото». Приведём несколько примеров. Накапливавшиеся в течение долгого времени записи о финансовых операциях пользователей позволили компании Alibaba проникнуть в финансовую сферу. Теперь сервис может за несколько минут определить кредитные данные пользователя и на этом основании принять решение о выдаче ему кредита. Walmart повысил объём продаж товаров в магазинах за счёт связи «пиво и подгузник». Netflix, используя учёт смены предпочтений своих пользователей, строит предположения о том, что им понравится смотреть, на основании чего осуществляется целенаправленный маркетинг.
Непрерывное обновление, которое в последние годы характеризует применение интеллектуального анализа данных, позволяет надеяться на новые достижения в этой сфере в будущем. Например, к переломному моменту своего развития приближаются продовольственные рынки, с которыми мы вот уже несколько тысяч лет «смотрим друг на друга и не можем насмотреться». На проводившемся в начале 2019 года собрании местных партнёров Alibaba по поставкам свежей пищевой продукции компания Ele. me заявила о намерении «изменить продовольственный рынок», создать совершенно новую открытую платформу для доставки свежих продуктов, переместить продовольственный рынок в онлайн-формат, заставить традиционный продовольственный рынок попрощаться с существовавшей в течение нескольких тысяч лет моделью функционирования, когда «каждый сам за себя» и «продаёт не по спросу, а то, что выросло», кроме того, сделать так, чтобы платформа содействовала превращению продажи овощей в тренд.
Каким же образом осуществить это содействие? Основным инструментом для этого как раз и является интеллектуальный анализ данных. Главная болевая точка традиционного продовольственного рынка – это информационная асимметрия: продавцы, завозят продукцию на продажу и не имеют в своём распоряжении точной информации о рыночном спросе, что приводит к накапливанию товаров или возникновению проблем с качеством. В этой ситуации Ele.me, опираясь на огромные массивы данных, накопленных Alibaba, может предоставить продавцу максимально точный портрет покупателя, что позволит регулировать деятельность по поставкам продукции на продажу. Таким образом поставки продукции на продовольственные рынки больше не будут произвольными – процесс принятия решения передаётся алгоритмам, и уже они решают, какие товары необходимо завезти. Резонанс интересов предпринимателей и самой платформы, достигающийся за счёт подобного рода цифрового маркетинга, может стимулировать возникновение огромной коммерческой стоимости. Описанная модель была опробована и на рынке: после того, как сервис Dingdong Maicai вошел в Ele.me, количество заказов на платформе за 2018 год увеличилось в 20 раз, а ежемесячный оборот торговли превысил 10 миллионов юаней [9].
Приведём ещё одну небольшую историю об интеллектуальном анализе данных. Во время проведения Чемпионата Европы по футболу в июне 2012 года в Китайских ресурсах появилось много сообщений о том, что «пока мужчины смотрят футбол, женщины занимаются онлайн-шоппингом» [10]. Сообщалось, что, согласно данным Taobao по продажам, после открытия чемпионата Европы торговый оборот женского сегмента онлайн-шоппинга очевидным образом вырос, при этом «пиковое время онлайн-продаж сдвинулось на два часа позднее, переместившись на отрезок с 23 до 24 часов». Кроме того, в период между окончанием первого матча в 1:45 ночи и началом второго матча в 2:45 ночи возник ещё один пик онлайн-продаж, и торговый оборот увеличился более чем на 260 % по сравнению с торговым оборотом в тот же отрезок времени в период до начала кубка.
Логику, составившую основу этого явления, несложно понять. Во время футбольного матча мужчины полностью погружались в просмотр, оставляя жён (или подруг) и детей без внимания. Женщины, особенно замужние, могли испытывать подавленность, раздражение и разочарование. Каждый раз, когда вечером начинался матч, у каждой женщины в такой ситуации появлялся большой выбор: например, начать делать домашние дела, болтать с подругами, звонить родителям, заниматься онлайн-шоппингом. Её поведение характеризует неопределённость, и предсказать, что именно она в конечном итоге будет делать, сложно. Однако если мы суммируем данные о продажах нескольких электронных торговых площадок и проанализируем их, то увидим, что групповое поведение женщин демонстрирует закономерности, поддающиеся отслеживанию. С началом кубка стал расти объём товаров, купленных женщинами онлайн, среди них увеличилось, по сравнению с обычным временем, и количество товаров высокой ценовой категории, то есть клиентки наконец позволили себе те вещи, на которые в обычной жизни у них не поднималась рука. До наступления эпохи больших данных утверждение «пока мужчины смотрят футбол, женщины занимаются онлайн-шоппингом» так и осталось бы не более чем догадкой, которую невозможно ничем подтвердить. Теперь же, в эпоху больших данных, получить ей подтверждение невероятно просто, причём мы можем проанализировать даже то, какие особенности отличают купленные товары. Во время следующего чемпионата магазины могли давать уже более предметную рекламу, они смогли не только более точно сфокусировать рекламные объявления исходя из адресата рекламы, выбор продвигаемых в них товаров также стал более адресным. Когда догадка выросла в знание, знание создало прибыль.
Помимо описанного выше применения в коммерции всё более распространённым становится использование интеллектуального анализа данных для решения общественных проблем. В июне 2013 года появились сообщения, что некая девушка из Восточно-китайского педагогического университета получила смс от администрации университета следующего содержания: «Уважаемый студент, мы обнаружили, что в прошлом месяце ваши затраты на питание в столовой были сравнительно небольшими. Возможно, вы испытываете финансовые трудности?» [11] Происхождение этого заботливого сообщения также объясняется интеллектуальным отбором данных: в результате анализа данных о тратах, полученных с университетских карточек на питание, администрация обнаружила, что затраты девушки на каждый приём пищи оказались сниженными, что и вылилось в отправку приведённого выше участливого сообщения. Впоследствии, однако, обнаружилось, что была допущена прекрасная ошибка: в действительности девушка просто хотела похудеть. Можно подумать, что причина возникновения ошибки в том, что данные были недостаточно «большими». Особенность больших данных в том, что помимо «большого объёма» они также являются «многоисточниковыми». Если бы помимо карточек на питание были проанализированы другие вспомогательные источники данных, вывод, вероятно, был бы более точным.
Несмотря на расцвет интеллектуального анализа данных, в определённой степени он уже не является передовым и горячим направлением в рамках больших данных, на лидирующих позициях его сменило машинное обучение. Интенсивно развивающееся в настоящий момент машинное обучение также опирается на компьютерные алгоритмы, но его алгоритмы, по сравнению с алгоритмами, использующимися в data mining, вовсе не являются фиксированными, они содержат саморегулирующиеся параметры, то есть в процессе машинного обучения по мере увеличения количества выполненных вычислений и анализов данных параметры алгоритмов непрерывно саморегулируются, вследствие чего результат анализа данных и прогнозирования становится более точным. Кроме того, предлагая компьютеру большой объём данных, мы даём ему возможность, подобно человеку, путём обучения постепенно самосовершенствоваться, поэтому данная технология и получила название «машинное обучение».
Наравне с интеллектуальным анализом данных и машинным обучением очень зрелыми являются также технологии анализа и применения данных, сформировавшие при этом единую систему. Хранилища данных, интерактивная аналитическая обработка (OLAP), визуализация данных, анализ машинной памяти – всё это важные составные элементы данной системы, и в процессе развития технологий сбора и обработки данных они все сыграли важную роль4.
Оглядываясь на более чем полувековую историю информационного общества, отметим, что материальный базис феномена больших данных был заложен только благодаря непрекращающемуся уменьшению размеров транзисторов и снижению их себестоимости, в результате чего у людей появилась возможность создать колоссальное, подобное огромному литому сосуду, хранилище для огромного массива данных. Технология же интеллектуального анализа данных, расцвет которой начался в 1989 году, сопоставима с технологией перегонки сырой нефти в готовый продукт: она является ключом к тому, чтобы большие данные произвели «большую ценность», без этой технологии, насколько огромен бы ни был массив данных, мы могли бы только «глядеть на нефть и бессильно вздыхать». Появившиеся в 2004 году социальные медиа, в свою очередь, сделали каждого из нас потенциальным создателем данных, который вносит свою лепту в наполнение отлитого вследствие действия закона Мура «сосуд», что и является главным фактором формирования «большого объёма». Схематично совокупность описанных факторов показана на рисунке 1.7.
Рисунок 1.7. Три основных формирующих элемента больших данных
Проанализировав статичное понятие «большие данные» и формирующие их динамичные элементы, мы можем более ясно представить особенности этого явления, а также раскрыть его и дать ему определение исходя из разных точек зрения, как это показано на рисунке 1.8.
Рисунок 1.8. Понятие «большие данные» и характеризующие его факторы
Как мы уже говорили выше, в настоящее время 75 % производимых человеком данных – это данные неструктурированные, и именно в форме неструктурированных данных воплощаются крупные массивы зарегистрированных данных. Если мы хотим обнаружить ценность крупных массивов зарегистрированных данных и неструктурированных данных, главный способ обработки их в настоящее время – это всё же преобразование их в строго структурированные, то есть традиционные малые данные. Поэтому, по мнению автора, ценность больших данных главным образом заключается в малых данных и структурированных данных, а их объёмность – прежде всего в существующих в настоящее время крупных массивах зарегистрированных данных и в неструктурированных данных.
Подъём больших данных заставил учёных всего мира строить предположения и гипотезы о том, какое влияние эта «новая волна», вызванная развитием информационных технологий, принесёт человеческому обществу и в каком направлении она поведёт Китай и мир в целом. В следующих главах мы попробуем ответить на эти вопросы применительно к нескольким областям.
3
Алгоритмы – это специальные шаги, использующие методы и приёмы математики и статистики и предназначенные для решения определённого типа задач.
4
Читатели, интересующиеся эволюцией технологий анализа данных, могут обратиться к четвёртой главе книги «Большие данные» («Прошлое и настоящее бизнес-аналитики»), написанной одним из составителей настоящего издания – Ту Цзыпэем [12].