Читать книгу Работа с данными в любой сфере - Кирилл Еременко - Страница 9
Часть первая
«Что это?» Ключевые принципы
01
Определение данных
Хранение и обработка данных
ОглавлениеС изобретением компьютера появилась возможность автоматизации процесса хранения и обработки данных. Но большие массивы данных увязли в первых машинах; ученым, работавшим с электронными массивами данных в 1950-х гг., приходилось ждать решения простой задачи несколько часов. Вскоре пришли к выводу, что для правильной обработки больших массивов данных – для установления связей между элементами и использования этих связей с целью получения точных и значимых прогнозов – нужно создавать информационные носители, которые могли бы управлять данными и справляться с их хранением. Разумеется, по мере совершенствования технологий, основанных на вычислениях, менялись и возможности компьютеров по хранению и обработке данных. И за последние 70 лет мы не только научились эффективно хранить информацию, но и смогли сделать эту информацию переносимой. Те же самые данные, которые в 1970-х гг. помещались только на 177 778 гибких дисках, к 2000-му могли поместиться на одном флеш-накопителе. Сегодня вы можете хранить все это и многое другое в облаке (хранилище с виртуализированной инфраструктурой, которая позволяет просматривать ваши личные файлы из любой точки мира)[2]. Когда вы в следующий раз обратитесь к личным документам, хранящимся в местной библиотеке, у вас на работе или просто в вашем мобильном устройстве, имейте в виду: вы фактически делаете то, что в 1970-х гг. потребовало бы использования более 100 000 дискет.
Когда новые технологии облегчили хранение данных, исследователи начали обращать внимание на то, как эти сохраненные данные могут быть использованы на практике. Как мы начали создавать порядок из хаоса? Вернемся к нашему предыдущему примеру – фильму, который вы в последний раз смотрели в кинотеатре. Вероятно, вы были выбраны, чтобы увидеть этот фильм, не проницательным маркетологом, сосредоточенно изучавшим соответствующие критерии, а умной машиной, которая изучила ваши «выхлопные данные» и сопоставила их с найденными ею демографическими сведениями о тех, кто увидел этот фильм и получил от него удовольствие. Это может казаться новинкой, но, как мы уже установили, данные и их (ручная) обработка уже давно существуют. Некоторые из киностудий Голливуда еще в 1950-х гг. собирали данные о том, что конкретно – от актера до режиссера и жанра – хотела увидеть их аудитория, а потом преобразовывали эту информацию в демографические характеристики респондентов, включавшие в себя возраст, местожительство и пол. Даже в то время люди принимали способные изменить ход событий решения в соответствии с информацией, извлеченной из данных.
RKO Pictures
Почему RKO Pictures, одна из голливудских студий «Большой пятерки» в 1950-х гг., продолжала снимать Кэтрин Хепберн в своих фильмах? Потому что данные показывали, что это был беспроигрышный выбор, способный привлечь внимание людей и в конечном итоге заставить их пойти в кинотеатры.
Конечно, есть место и для интуиции. На первом кастинге режиссер Джордж Кьюкор нашел актрису странной, но также признал, что «она обладала огромным чувством, которое проявлялось даже в том, как она брала стакан. Я подумал, что она очень талантлива…» (Fowles, 1992). Вот пример интуиции.
Опираясь на данные о положительном восприятии Хепберн зрительской аудиторией, RKO позже смогла воспользоваться и интуитивными предположениями Кьюкора относительно таланта актрисы и превратить их в надежные прогнозы о том, что студия сможет и дальше зарабатывать свои миллионы.
Это произошло благодаря Джорджу Гэллапу – первому человеку, который рассказал руководителям Голливуда о возможности использовать данные для принятия решений и прогнозирования, включая подбор актеров на главные роли и определение того, в какой жанр наиболее целесообразно вкладывать деньги[3].
Чтобы помочь RKO сделать это, Гэллап собрал, объединил и проанализировал качественные и количественные данные, которые охватывали демографическую информацию о зрительской аудитории RKO и ее мнение о фильмах, выпускаемых киностудией. Собирая эти данные, Гэллап создал модель, которая в первый раз сегментировала аудиторию кинозрителей демографически, выделив тех, кто благоприятно реагировал на определенные жанры, – модель, которая может и будет использоваться в дальнейшем для выборки и анализа данных.
Разрекламированный как предсказатель, помогающий студиям разбогатеть, Гэллап быстро стал любимцем многих лидеров киноиндустрии США, проверяя по данным опросов и интервью отношение аудитории к персонажам различных лент, от мультиков Уолта Диснея до фильмов Орсона Уэллса[4].
Своим успехом Гэллап был обязан только данным (возможно, его можно назвать первым высокооплачиваемым аналитиком данных в мире). Его усилия в области статистики привели к тому, что этот ресурс по-прежнему имеет ценность за пределами своего первоначального замысла, обладая потенциалом охвата неструктурированных данных: записанных интервью представителей аудитории, отражающих культурные и социальные ценности того времени. Возможно, Гэллап подозревал, что потенциал анализа данных может только расти.
2
Облачные данные хранятся за пределами сайта и в основном перемещаются по подводным кабелям, которые укладываются на дно океана. Так что облако находится не в воздухе, как мы могли подумать, а под водой. Карту расположения этих кабелей можно найти на www.submarinecablemap.com.
3
Гэллап был статистиком, впервые ставшим известным публике, когда разработал метод, с помощью которого он точно предсказал переизбрание Франклина Д. Рузвельта в 1936 г.
4
Более подробно о новаторской работе Джорджа Гэллапа см. Ohmer (2012).