Читать книгу Ценность ваших данных - Николай Скворцов - Страница 6
Часть 1. Данные: Смена парадигм
От первой научной революции до четвертой промышленной
Глава 1. Цифровое многообразие
1.2. Данные для науки
ОглавлениеНаше время породило уникальное явление, позволяющее различным научным течениям проверить и скорректировать основополагающие теории и результаты открытий прошлого. Это возможность обратиться к самому ценному и честному архиву знаний о человечестве – данных, формирующих описание человеческой природы в размерах и формах, поражающих даже самое развитое воображение. Еще никогда научному сообществу не был доступен такой объем знаний о жизни, экономике, потреблении, передвижении и любых других сферах человеческой деятельности. Вместе с тем накопленный объем информации в частных компаниях, государственных, медицинских, образовательных и социальных институтах позволяет проводить уникальные по своим масштабам и качеству результатов исследования.
Нравится нам это или нет, но информация играет все более важную роль в жизни каждого из нас, и эта роль будет становиться значительнее. Сейчас в газетах встречаются целые разделы, полностью посвященные данным. В компаниях есть группы, единственная задача которых – анализ собранных данных. Инвесторы дают десятки миллионов долларов стартапам, если те могут собрать и сохранить большие объемы данных[21].
Знания и инструменты работы с данными позволяют формировать эффективные и точные прогностические модели даже в таких неожиданных областях, как избирательный процесс, что ранее невозможно было представить ни в социологии, ни в политологии.
Приведем несколько цитат из книги Сета Стивенса-Давидовица «Все лгут»: «…например, информация о том, кто на самом деле будет принимать участие в выборах. Больше половины граждан, которые не голосуют, говорят исследователям, проводящим опросы непосредственно перед выборами, что они намерены пойти голосовать, что искажает оценку явки, в то время как данные о поиске в Google по фразам “как голосовать” или “где голосовать” за неделю перед выборами помогут более точно предсказать, где предполагается большая активность на избирательных участках.
Можно даже узнать, за кого они пойдут голосовать. Мы со Стюартом Гэбриэлом, профессором университета штата Калифорния (Лос-Анджелес), нашли удивительную подсказку. Большой процент поисков, связанных с выборами, содержат запросы с именами обоих кандидатов. Во время выборов 2016 года, когда соперничали Дональд Трамп и Хиллари Клинтон, некоторые люди делали запрос: “выборы: Трамп – Клинтон”. Другие искали: “Клинтон – Трамп, дебаты”. По сути, 12 % поисковых запросов со словом “Трамп” включали и слово “Клинтон”. Более четверти поисковых запросов с фамилией Клинтон также содержали и фамилию Трамп. Мы обнаружили, что эти, казалось бы, нейтральные поиски могут дать нам некоторые подсказки о том, какого кандидата человек поддерживает. Как? Все зависит от порядка, в котором кандидаты появляются в запросе. Наши исследования показывают, что человек со значительно большей вероятностью поставит имя кандидата, которого он поддерживает, первым в поисковом запросе, содержащем имена обоих кандидатов»[22].
«Даже если вы обманываете самого себя, Google способен узнать правду. За пару дней до выборов вы и некоторые из ваших соседей можете считать, что обязательно пойдете на избирательный участок и проголосуете. Но если ни вы, ни они не искали информацию о том, как и где проголосовать, специалисты по поиску и обработке данных вроде меня могут сказать: явка в вашем районе будет низкой»[23].
21
Stephens-Davidowitz, S. Everybody lies. Big Data, New Data, and What the Internet Can Tell Us About Who We Really Are. 2017. P. 40.
22
Stephens-Davidowitz, S. Everybody lies. Big Data, New Data, and What the Internet Can Tell Us About Who We Really Are. 2017. Pp. 21–22.
23
Stephens-Davidowitz, S. Everybody lies. Big Data, New Data, and What the Internet Can Tell Us About Who We Really Are. 2017. P. 138.