Неизведанная территория. Как «большие данные» помогают раскрывать тайны прошлого и предсказывать будущее нашей культуры | страница 43
Другая тень – это полный текст всех книг, находящихся в открытом доступе, то есть всех книг, в отношении которых закончился срок копирайта. Этот набор данных по-настоящему интересен и потенциально свободен от сложностей, возникающих при наличии правообладателей. Однако у него есть два недостатка. Во-первых, поскольку копирайт имеет срок давности, в открытом доступе находится совсем немного книг, опубликованных после 1920 года. Это значит, что периоды, в которые больших данных очевидно больше – XX и начало XXI века, – почти не представлены. Во-вторых, устаревшие законы в области копирайта часто не позволяют четко определить статус каждой книги. Подобная проблема преследует подавляющее большинство книг в коллекции Google. А поскольку непонятно, какие книги можно включать, это может значительно усложнить процесс расчета тени.
Итак, что мы могли предложить Норвигу?
Мы вновь подумали о книге Legendary, Lexical, Loquacious Love Карен Реймер. Разве изучение книги Реймер и то, как частота тех или иных слов позволяет увидеть скрытые стороны произведения и мысли его автора, не стало бы еще интереснее, если бы сюжет представлял собой значительную часть исторических записей западной цивилизации, а автором оказался в каком-то смысле каждый?
Чем больше мы думали об этом, тем больше этот алфавитный роман казался нам источником тени, простой и прекрасной, прекрасной, прекрасной, прекрасной, прекрасной. Почему бы нам просто не воспользоваться частотой слов в книгах Google?
Если быть более точными, наша идея состояла в том, чтобы создать теневой массив данных, содержащий одну запись для каждого слова и фразы, появлявшихся в написанных на английском языке книгах.
Эти слова и фразы – в компьютерных науках для этого используется забавный термин n-грам – включают 3.14159 (1-грам), banana split (2-грам) и the United States of America (5-грам). Для каждого слова и каждой фразы запись могла бы состоять из длинного списка чисел, показывающих, насколько часто определенный n-грам появлялся в книгах, год за годом, за последние 5 столетий. Это не просто невероятно интересно, но и стало бы юридически безупречным решением. Насколько мы могли судить, против Реймер никогда не подавались иски за публикацию алфавитной версии чужого произведения.