Читать книгу Неизведанная территория. Как «большие данные» помогают раскрывать тайны прошлого и предсказывать будущее нашей культуры - Эрец Эйден - Страница 8
Глава 1
Зазеркалье
Длинные данные
ОглавлениеО начале работы проекта Google Books мы, как и все остальные, узнали из новостей. Однако лишь через два года, в 2006 году, влияние Google стало ощущаться в реальной жизни. В то время мы завершали научное исследование по английской грамматике. Для нее мы оцифровали вручную несколько учебников по грамматике староанглийского.
Самые нужные нам книги таились в дальних углах гарвардской Вайднеровской библиотеки. Вот как их можно найти. Сначала вам нужно подняться на второй этаж восточного крыла библиотеки. Затем пройти мимо «Рузвельтовской коллекции» и раздела, посвященного языкам американских индейцев. Там вы увидите проход с номерами каталога от 8900 и далее. Наши книги располагались на второй полке сверху.
На протяжении ряда лет, работая над своим исследованием, мы туда регулярно приходили. Мы были единственными, кто вытаскивал эти книги с полок за много лет, а то и десятилетий. Никого, кроме нас, не интересовала эта полка.
В один прекрасный день мы заметили, что книга, которой мы регулярно пользовались в своих исследованиях, появилась в Интернете как часть проекта Google Books. Заинтересовавшись, мы начали искать там и другие книги с нашей полки. Оказалось, что и они там уже есть. И дело вовсе не в том, что корпорацию Google так сильно заботит средневековая английская грамматика. В сущности, почти у каждой из проверенных нами книг, вне зависимости от полки, теперь появился цифровой близнец[27]. За то время, которое нам потребовалось для изучения нескольких книг, Google успела оцифровать содержимое нескольких зданий.
Усилия компании Google позволяли получить совершенно новый тип больших данных и даже изменить то, как люди оценивают свое прошлое. В основном большие данные являются большими, но «короткими» – это недавние записи, фиксирующие недавние события. Это связано с тем, что создание данных катализируется Интернетом, сравнительно недавним изобретением. Наша цель состояла в изучении культурных изменений, которые могут охватывать длительные периоды времени по мере того, как целые поколения людей живут и умирают. Когда речь заходит об изучении изменений в историческом масштабе, короткие данные, вне зависимости от степени своей обширности, нам мало чем помогут.
Google Books как база данных по своему масштабу не превышает любую другую базу в нашу эпоху цифровых средств передачи и хранения информации. Однако значительная часть того, что оцифровывает Google, не связана с современностью – в отличие от электронной почты, RSS-фидов и онлайновых игр, книги уходят в глубину веков. Поэтому данные проекта Google Books – это не просто большие, а еще и длинные данные[28].
Поскольку в книгах содержатся длинные данные, оцифрованные книги не ограничиваются описанием современной жизни, в отличие от большинства других больших массивов данных. Книги могут показать нам, как менялась наша цивилизация на протяжении довольно больших периодов времени – превышающих не только человеческую жизнь, но и жизни целых государств.
Книги представляют собой отличный массив данных еще и вот почему. Они охватывают широкий круг тем и демонстрируют различные точки зрения.
Об изучении масштабной коллекции книг можно думать как об изучении большого количества людей, многие из которых к моменту изучения уже мертвы. В исследованиях по истории и литературе книги, относящиеся к определенному времени и месту, становятся чуть ли не самыми важными источниками информации об этом времени и месте.
Это заставило нас предположить, что, изучив через цифровую линзу книги проекта Google, мы сможем создать новый «скоп» для изучения человеческой истории. И мы знали – сколько бы времени ни потребовалось, мы сможем изучить эти данные.
27
См., к примеру, оцифрованное издание книги Klipstein Louis F. Grammar of the Anglo-Saxon Language. New York: George P. Putnam, 1848, доступно в сети Интернет: http://goo.gl/cWRlJ. Стоит отметить, что из юридических и этических опасений Гарвард принял решение выйти из программы Google Books, позволив Google произвести оцифровку лишь материалов, не защищенных копирайтом. См. Mirviss Laura G. Harvard-Google Online Book Deal at Risk // Harvard Crimson (30 октября 2008 г.), доступно в сети Интернет: http://goo.gl/0tYflD.
28
Этот термин не так давно предложен исследователем социальных сетей Сэмюелем Арбесманом. См. Arbesman Samuel. Stop Hyping Big Data and Start Paying Attention to Long Data // Wired (29 января 2013 г.), доступно в сети Интернет: http://goo.gl/X7oEC.