Исторические информационные системы: теория и практика | страница 39
Наборы метаданных источников в историко-ориентированных информационных системах могут быть краткими или расширенными. Детализированная разметка метаданных предоставляет, соответственно, более широкие возможности для последующего поиска необходимых пользователю ресурсов. Использование XML-разметки при структурировании метаданных не всегда означает ее применение в самих текстах опубликованных источников. Так, в проекте The Early Americas Digital Archive[24], посвященном публикации документов по ранней американской истории (1492–1820-е годы), в качестве метаданных источников размечены авторство, предметно-тематическая рубрика, принадлежность к временному периоду, географическая принадлежность, жанр, тип текстового источника и форма. При этом тексты источников также опубликованы в машиночитаемом формате на сайте проекта (и реализован контекстный поиск), но сами тексты не размечены дополнительно с помощью XML.
Широкие возможности для использования имеют информационные системы с XML-разметкой текстов публикуемых источников.
В настоящее время многие текстовые источники, в особенности рукописные, представляются преимущественно в форматах изображений. Это связано и с необходимостью репрезентации внешнего вида источника, и с затратностью распознавания и транскрибирования текста. Представление текстовых источников исключительно в форматах изображений несет массу ограничений: поскольку они не идентифицируются как текст, то, соответственно, не могут быть обработаны на содержательном уровне компьютеризированными методами. В связи с этим возникает необходимость разнопланового представления данных – в качестве текста (в совокупности его содержательных особенностей, слоев и смысловых уровней) и изображения источника. Современные информационные системы позволяют представить документы в многоформатном отображении; для решения этой задачи используется XML.
Разметка особенностей текстовых источников на основе XML позволяет в более полной мере передать аутентичный характер источника. Многие источники имеют слабоструктурированный характер, поэтому их публикация в традиционных для цифрового мира форматах (как, например, HTML) несет существенные ограничения. Использование XML-разметки для публикации текстовых источников имеет значительные преимущества перед традиционными типами электронной публикации ввиду возможностей репрезентации комплексного характера источников. Использование языка XML в историко-ориентированных информационных системах позволяет повысить качество представления цифровых версий документов. Разметка структуры документов (заголовков, абзацев, строк и других элементов текста), особенностей синтаксиса и морфологии позволяет максимально полно представить многослойность источника без потери информативности.