Читать книгу Виртуальная конкуренция. Посулы и опасности алгоритмической экономики - Ариэль Эзрахи - Страница 14
Часть I
Подготовка сцены
2
Новая экономическая реальность: рост использования больших данных и анализа больших данных
Рост использования больших данных и аналитики больших данных
ОглавлениеКак показывает рассмотренный пример компании Amazon, сегодня наш мир онлайновой торговли во всевозрастающей степени зависит от больших данных и аналитики больших данных. Существуют различные определения понятия больших данных. Многие из них являются широкими и полными38. Хотя цифровые данные могут быть разными, здесь мы главным образом сосредоточиваем внимание на персональных данных, которые обычно означают «любую информацию, относящуюся к определенному или потенциально устанавливаемому лицу (субъекту данных)»39. Большие данные обычно характеризуют четырьмя свойствами: объемом цифровых данных; скоростью их сбора, использования и распространения; многообразием собранной информации; наконец, ценностью этих данных40.
Использование больших данных и их ценность возросли с ростом использования аналитики больших данных – способности разрабатывать алгоритмы, которые могут получать доступ к огромному количеству информации и анализировать ее. Кроме того, внедрение машинного обучения дополнительно стимулировало активность в данной области.
В недавние годы имели место прорывные исследования и грандиозный прогресс в деле разработки и развития умных самообучающихся алгоритмов, помогающих в принятии ценовых решений, планировании, торговле и логистике. Эта область привлекла значительные инвестиции в технологии глубокого обучения со стороны ведущих игроков рынка41.
В 2011 г. созданный компанией International Business Machines (IBM) компьютер Watson, победивший в телевизионной игре Jeopardy!42, продемонстрировал возможности подхода глубокого обучения, которые позволили ему оптимизировать свою стратегию методом проб и ошибок43. С тех пор IBM осуществляла инвестиции в расширение мощности и функциональности данной технологии. Цель компании – создать «эквивалент вычислительной операционной системы для перспективного класса приложений искусственного интеллекта, работающих за счет больших данных»44.
Недавний запуск компанией Google сети Deep Q показал достоинства усовершенствованной способности к самообучению. Компьютер настроили для прохождения старых игр компании Atari. Важно, что он не был запрограммирован, как реагировать на все возможные действия в игре. Лучше сказать, что он опирался на модели, которые позволяли ему «изучать» положения игры методом проб и ошибок, с течением времени улучшая свои результаты. Эта технология имитирует обучение человека за счет «изменения силы моделируемых нейронных связей на основе жизненного опыта. Сеть Google Brain, включающая 1 млн моделируемых нейронов и 1 млрд моделируемых нейронных связей, была в десять раз больше, чем любая прежняя глубокая нейронная сеть»45.
Методы глубокого обучения были также задействованы в технологиях, связанных с повседневной жизнью. Умные алгоритмы всё активнее используются для осуществления автоматической поддержки клиентов, электронной коммерции, онлайнового общения и для создания интерактивного контента для интернет-пользователей. Уже в 2015 г. Европейская инспекция по защите данных (European Data Protection Supervisor) отметила, что «алгоритмы способны понимать и переводить языки, распознавать образы, писать новостные заметки и анализировать медицинские данные»46. Например, компания Microsoft использовала данную технологию в своей операционной системе Windows Phone и в голосовом поиске Bing47; Google, Toyota, Apple, Audi и Jaguar – при разработке «беспилотных» автомобилей48; их также применяют при анализе фондовых рынков и в других операциях49.
Большие данные повышают роль аналитики больших данных, и наоборот. Ценность больших данных была бы ниже, если бы компании не могли быстро анализировать цифровые данные и принимать соответствующие решения. Машинное обучение, в свою очередь, основано на доступе к большим наборам данных. Как отметила Европейская инспекция по защите данных, «компьютеры, использующие глубокое обучение, учатся выполнять задачи, перерабатывая большие наборы данных с использованием (в числе прочего) нейронных сетей, которые имитируют биологические нейронные сети мозга»50. Способность алгоритмов к обучению увеличивается по мере того, как они обрабатывают большие количества релевантных данных. Считается, что простые алгоритмы, обрабатывающие большие массивы данных51, в итоге должны превосходить по эффективности сложные алгоритмы с малым объемом данных52. Это происходит, с одной стороны, благодаря способности алгоритмов обучаться методом проб и ошибок. Другой действующий фактор – выявление корреляций на основе наборов больших данных.
Таким образом, единственное, что необходимо компьютеру Watson, созданному IBM, и вообще искусственному интеллекту (ИИ) для «выполнения осмысленной работы» – это цифровые данные53. Именно по этой причине компания IBM приобрела цифровые активы у Weather Co., собственника телеканала Weather Channel. Watson получил возможность анализировать накопленный объем погодных данных для совершенствования своих алгоритмов54. Доступ к сервисам Watson, в свою очередь, можно продавать другим сторонам, таким как поставщики страховых приложений. Например, компания Octo Telematics получает от IBM данные о погоде в реальном времени и использует их «как ключевой входной ресурс для своего приложения, которое оценивает в баллах поведение водителя за рулем»55. Бесплатное мобильное приложение этой компании предлагает индивидуальные страховые тарифы, основанные на стиле вождения конкретного автомобилиста56. Алгоритм компании Octo учитывает не только скорость вождения, торможение и набор скорости, но и «внешние переменные, на которые зачастую непосредственно влияет погода (такие как состояние дороги и дорожная обстановка), чтобы выставить оценку водителю»57. Водители с высокими баллами по статистике алгоритма Octo получают в награду возможность воспользоваться льготным предложением со стороны ряда страховщиков, которых они могут выбирать по своему усмотрению. Здесь мы видим, как использующий большие данные алгоритм компании IBM помогает пользователю «создавать более четкую и надежную систему балльного оценивания конкретного водителя, основанную на точно известных погодных условиях в конкретном месте и в конкретное время его поездки»58. Мы также видим, как меняются подходы к установлению индивидуальных страховых тарифов. Мы видим, как страховщики переходят от данных прошлых периодов (например, о количестве штрафов за превышение скорости, полученных водителем за последние несколько лет) к данным в почти реальном времени (о том, как данный водитель вел себя на обледеневших дорогах вчерашним вечером).
Другой пример – компания Facebook, для которой сочетание умных алгоритмов и огромной базы пользователей может расширить адресность рекламы и продвижения. В 2016 г. на ежегодной конференции разработчиков компании обсуждалось, каким образом искусственный интеллект (ИИ) мог бы взаимодействовать с обильным потоком данных от ее пользователей. Главный исполнительный директор Facebook Марк Цукерберг обозначил, каким образом «ИИ и обработка естественного языка (natural language processing) при участии пользователей дадут людям возможность общаться с ботами Messenger59 точно так же, как они общаются с друзьями»60. Дэвид Маркус, вице-президент Facebook по коммуникационным продуктам, рассказал, каким образом компания в настоящее время «проверяет, способны ли бизнес-боты вернуть пользователей к обсуждениям, содержащим спонсируемые сообщения»61. Неудивительно, что Apple, Amazon, Google и Microsoft также инвестируют в разработку голосовых помощников, которые «обучаются» принимать решения, а не просто следовать инструкциям62. Будущее средств мгновенного и онлайнового общения будет весьма серьезно зависеть от развития усиливающих и дополняющих друг друга больших данных и аналитики больших данных.
Другое недавнее значимое событие связано со способностью компьютеров действовать в условиях ограниченной информации. Компьютерные алгоритмы давно находили решения в играх с полной информацией (таких, как настольные шашки), когда игроки знают всё, что происходило ранее. В 2015 году произошло знаменательное событие. Несколько специалистов по информатике объявили о появлении нового компьютерного алгоритма, способного находить решения в «играх с неполной информацией», допускающих развернутую форму представления, – значительно более сложных, чем прежде. Их новый алгоритм «слабо решает» одну из популярных разновидностей покера.
Посмотрим на ценность таких достижений. В шашках оба игрока знают все прошлые ходы и текущее состояние партии (зависящее от положения на доске каждой шашки). В покере игроки не обладают полным знанием о прошлых событиях (ненаблюдаемых картах соперника в предыдущих раундах) и текущем раунде (ненаблюдаемых картах)63. Таким образом, найти решение игры в покер намного сложнее: в ней 3,16 х 1017 состояний и 3,19 х 1014 точек принятия решений (в которых тот или иной игрок должен принять решение). Обсуждаемый алгоритм, однако, вычислил стратегию для одной из разновидностей покера – лимитного техасского холдема с двумя игроками (two-player limit Texas Hold ’Em poker). В итоге эта стратегия оказывается беспроигрышной при сохранении статистического уровня значимости в течение человеческой жизни64. Для поклонников покера мы упомянем, что этот алгоритм подтвердил, что дилер обладает существенным преимуществом, а оптимальная стратегия второго игрока чаще состоит в том, чтобы играть (play), а не пасовать (fold)65. В результате достигнутого прогресса компьютер стал способен справляться со свойственной реальному миру проблемой неполной информации, тем самым получив техническую возможность сложного «человекоподобного» взаимодействия и принятия решений.