Создание инструмента научных исследований на основе XML: Проблемы и методология | страница 8
• Далее файлы, содержащие выпуски Летописи, подвергаются заключительному ручному редактированию и проверке. На данном этапе исправляются ошибки, выявленные в результате проверки на соответствие требованиям XML, и прочие неточности.
3. Проблемы
3.1. Слишком большой объем данных, слишком мало времени
Одной из основных проблем, с которыми мы столкнулись в ходе реализации проекта, является попытка перевода в цифровую форму громадного объема данных. Наша цель, повторюсь, перевод в электронный формат и кодирование выпусков Летописи за период в двадцать лет. Этот объем соответствует 1040 еженедельным выпускам Летописи, с более чем 250000 страниц и более чем тремя миллионами отдельных библиографических ссылок. Создание цифровых изображений страниц с печатных оригиналов и последующая обработка при помощи OCR прошли относительно гладко и безболезненно в первый год работы по гранту (октябрь 1999 — сентябрь 2000). Трудоемкий процесс кодирования и корректирования текста гораздо болезненнее и поглощает много времени.
В основном кодирование и исправление ошибок могут производится с использованием программ, однако даже после этого остается большой объем работы, которая может быть сделана только вручную специально обученными людьми с хорошим знанием русского языка. Наш проект реализуется на базе университета Большой Десятки, имеющего сильную кафедру славянских исследований, много иностранных студентов, так что у нас нет недостатка в русско-говорящих работниках. Мы обучаем персонал производить ручную кодировку и корректирование текста. Будущее покажет, сможем ли мы обработать все двадцать лет Летописи за трехлетний период гранта. Мы итак были вынуждены идти на компромиссы с целью увеличения производительности.
3.1.1. Компромиссы DTD
Один из компромиссов, на которые мы были вынуждены пойти с целью увеличения производительности, было радикальное упрощение DTD, в особенности содержательной модели библиографической ссылки, заключемой в символы элемента cit (ссылка). Первоначально мы планировали использовать несколько других элементов внутри элемента cit. В частности элемент contributor с атрибутами type, обозначающими авторов, редакторов, иллюстраторов и т.д.; элемент title с атрибутами типа, обозначающими название статьи и журнала; элемент enumeration, в который предполагалось заключать год выпуска и номера страниц статьи в журнале; и элемент notes для прочей информации, содержащейся в библиографической ссылке. Ниже приводятся примеры вариантов кодирования одной и той же ссылки «до» и «после» - с использованием первоначального, более сложного варианта DTD, и нового, упрощенного.