Перевод в электронный формат текста и создание сайта в Интернете "Летописи журнальных статей" советского периода (1956-1975 гг.) | страница 4



В результате отбора было принято решение заключить контракт с компанией Northern Micrographics. Поскольку используемые технологии работы с бумажными оригиналами Летописи не позволяют привести их по окончании проекта в первоначальный вид, мы стараемся сохранить всю содержащуюся на них информацию в полном объеме. На сегодняшний день мы имеем первые восемьдесят тысяч страниц текста в электронном формате, и откорректированный электронный текст Летописи за один год. В ходе работы г-н Спенсер обучил пять сотрудников XML-кодированию текста.

Проблемы, связанные с данным проектом, многочисленны и сложны. Первая трудность заключалась в выборе метода сканирования, поскольку бумага, на которой напечатан текст Летописи, хрупкая и пожелтевшая. После нескольких проб было принято решение сканировать материал в двухтональном режиме, а не с 12-битовой серой шкалой изображения, что облегчило сканирование и сократило объем памяти, необходимой для сохранения файлов. В соответствии с этими параметрами мы разослали предложение подать заявки на участие в проекте на этапе сканирования семи компаниям. Очень скоро мы поняли, что необходимо поддерживать высокоинтенсивный режим работы, поскольку проект предполагает обработку приблизительно 250000 страниц обесцвеченного текста, напечатанного мелким шрифтом. Другая трудность состояла в обучении нанятых студентов без нарушения нормального режима их работы. Их работа требует большой тщательности и состоит во внимательном прочтении электронного изображения страниц текста, соответствие которых оригиналу после сканирования должно составлять 99,8 %, проверке соблюдения правил пунктуации, последовательности номеров ссылок, правильности дат выпуска периодических изданий и т. д. Компьютерная программа OCR (Оптического распознавания символов), рассчитанная на кириллицу, не справляется с такими специфическими проблемами как правильное прочтение математических символов, ссылок в разделах о флоре и фауне, насыщенных латинскими названиями. В числе прочих проблем следует упомянуть разгадывание многочисленных сокращений, используемых в библиографических ссылках, а также отличение слов с дефисом от случаев переноса части слова на следующую строку. Все упомянутые сложные случаи должны редактироваться вручную. Значительное количество ошибок при использовании OCR связано с низкой степенью точности распознавания этим программным продуктом случаев употребления греческих и кириллических букв.