Читать книгу Большие данные, цифровизация и машинное обучение для собственников и топ-менеджеров, Или как зарабатывать больше с помощью информации - Алексей Сергеевич Гутора - Страница 20
Большие данные в компании
Как начать собирать большие данные
Отделение по работе с клиентами и партнерами
ОглавлениеИменно в отделении по работе с клиентами и партнерами, в которое в том числе входит отдел по связям с общественностью, работают над тем, чтобы организация стала всемирно известной. И это действие напрямую влияет на стоимость привлечения новых клиентов.
Имидж создается различными способами: от публикаций в прессе до участия в общественных движениях, а иногда даже за счет обнародования некоторой закрытой информации с целью привлечения внимания партнеров и поиска клиентов-почитателей. Например, если компания собирает большие данные о своем продукте, то в публичный доступ может попасть часть уже обработанных сведений. Чтобы любители могли потренироваться в создании собственной системы для предсказаний, используя машинное обучение. Именно так и поступил «Сбербанк»[10], который выложил на соревновательную платформу Kaggle набор больших данных о недвижимости в России. Сейчас это один из самых популярных тренажеров, на котором учат будущих специалистов по данным на различных отечественных курсах по машинному обучению.
По опубликованному набору можно сразу понять, как профессионалы в банке относятся к большим данным. Достаточно взглянуть на количество параметров, рассматриваемых для каждой квартиры:
• Описание квартир – 14 параметров.
• Описание ближайшей недвижимости – 24 параметра.
• Макроэкономические факторы, касающиеся недвижимости, – 101 параметр.
• Дополнительное описание ближайшей недвижимости – 288 параметров.
Данные представлены в форме таблиц, где квартиры – это строчки, а их параметры – колонки. Подобный вид является обычным для больших данных. Именно такие таблицы затем передаются машине для обучения, цель которого – натренировать ее на предсказание цены квартиры в зависимости от значений параметров.
В опубликованном наборе данных часть параметров не зависит от времени: количество комнат, географическое положение дома, расстояние от квартиры до ближайшей атомной станции, музея и университета. Таких пунктов почти триста. То есть в таблицах будет три сотни колонок, описывающих каждую квартиру.
Стоит обратить внимание на то, что значения некоторых изменяющихся параметров могут записываться несколько раз в привязке ко времени. Например, уровень безработицы или рождаемости в стране в разные дни[11]:
В таких временных данных тоже содержится скрытая информация. Например, если пару лет назад резко снизилась безработица, а сейчас увеличилась рождаемость, то спрос на квартиры увеличится. Обычному человеку не под силу заметить такую тонкую взаимосвязь между всеми этими цифрами и предсказать их влияние на стоимость «однушки» на окраине столицы. А машина с легкостью определяет значимость и вклад каждого параметра в цену квартиры. После обучения она сможет предсказывать эту величину самостоятельно, принимая в расчет лишь значения параметров. Человек будет в буквальном смысле спрашивать машину: «Сколько, по твоему мнению, сейчас стоит квартира в 5 минутах ходьбы от атомной станции, в 10 минутах пешком от университета, если безработица сегодня составляет 5.6 %, а коэффициент рождаемости равен 2.3?» Натренированный алгоритм – результат машинного обучения – в ответ на такой вопрос выдаст конкретную стоимость квартиры.
Банк вряд ли многое потерял из-за публикации этой информации о недвижимости. Зато теперь во многих школах программирования по всему миру используют этот набор данных в качестве наглядной демонстрации для студентов возможностей машинного обучения.
С помощью больших данных можно привлечь интерес не только студентов, но и партнеров. Даже если компания не может напрямую делиться с ними собранной информацией, то всегда есть вариант создать предсказательный сервис, который будет использовать алгоритмы, обученные на этих данных. В таком случае партнерские системы отправляют запрос алгоритму и получают ответ в виде прогноза. Партнеры не видят всех таблиц данных, но, поверьте, они очень благодарны за доступ к подобному алгоритму (подробнее об этой схеме мы поговорим в разделе «Торговля большими данными»).
Таким образом, предоставив хотя бы ограниченный доступ к своим большим данным в каком угодно виде, можно улучшить имидж организации. Благодаря чему компания без финансовых вложений сможет снизить стоимость привлечения новых клиентов и удержания старых.
10
Sberbank Russian Housing Market Dataset (https://www.kaggle.com/c/sberbank-russian-housing-market/data).
11
В таблице приведены вымышленные числа, они не связаны с реальными данными рождаемости и безработицы.