Неизведанная территория. Как «большие данные» помогают раскрывать тайны прошлого и предсказывать будущее нашей культуры | страница 12



стоит заняться бизнесом по сканированию и оцифровке книг. И Пейдж подумал, что Google вполне по силам оцифровать все книги в мире.

Слишком смело? Несомненно. Однако компания Google лихо принялась за дело. Через девять лет после публичного заявления о начале проекта Google оцифровала более 30 миллионов книг[26]. Это примерно каждая четвертая когда-либо опубликованная книга. Коллекция Google превышает по своему размеру коллекцию Гарвардского университета (17 миллионов томов), Стэнфорда (9 миллионов), оксфордской Бодлианской библиотеки (11 миллионов) или любой другой университетской библиотеки. В ней больше книг, чем в Российской государственной библиотеке (15 миллионов), Национальной библиотеке Китая (26 миллионов) и Национальной библиотеке Германии (25 миллионов). На момент написания этой книги единственной библиотекой, в которой хранилось еще больше книг, была Библиотека Конгресса США (33 миллиона). Не исключено, что к тому моменту, как вы прочтете эти строки, Google удастся обогнать и ее.

Длинные данные

О начале работы проекта Google Books мы, как и все остальные, узнали из новостей. Однако лишь через два года, в 2006 году, влияние Google стало ощущаться в реальной жизни. В то время мы завершали научное исследование по английской грамматике. Для нее мы оцифровали вручную несколько учебников по грамматике староанглийского.

Самые нужные нам книги таились в дальних углах гарвардской Вайднеровской библиотеки. Вот как их можно найти. Сначала вам нужно подняться на второй этаж восточного крыла библиотеки. Затем пройти мимо «Рузвельтовской коллекции» и раздела, посвященного языкам американских индейцев. Там вы увидите проход с номерами каталога от 8900 и далее. Наши книги располагались на второй полке сверху.

На протяжении ряда лет, работая над своим исследованием, мы туда регулярно приходили. Мы были единственными, кто вытаскивал эти книги с полок за много лет, а то и десятилетий. Никого, кроме нас, не интересовала эта полка.

В один прекрасный день мы заметили, что книга, которой мы регулярно пользовались в своих исследованиях, появилась в Интернете как часть проекта Google Books. Заинтересовавшись, мы начали искать там и другие книги с нашей полки. Оказалось, что и они там уже есть. И дело вовсе не в том, что корпорацию Google так сильно заботит средневековая английская грамматика. В сущности, почти у каждой из проверенных нами книг, вне зависимости от полки, теперь появился цифровой близнец