Исторические информационные системы: теория и практика | страница 37



Даже в случае использования структурированных источников проблемой являются неунифицированные, значительно отличающиеся по объему и формату записи данных. Историкам сложно иметь дело с полями фиксированной длины, при этом значения полей часто вообще отсутствуют либо поля имеют множественные значения. Например, в пределах одной метрической книги могли использоваться разные способы записи даты рождения и разная степень детализации информации о родителях.

Распространенной проблемой реляционных исторических баз данных является работа с датами. Это связано с использованием даже в пределах одного источника разных хронологических систем, традиций записи дат, религиозных календарей, а также с неполнотой данных. Для разных событий в пределах одной базы данных может быть известна точность до века, года, месяца, дня или часа. Причиной тому может быть как неполнота исторических данных, так и специфика разных типов процессов и явлений. Так, дата начала экономического кризиса редко может быть определена с точностью до дня, для других же событий даже дневная точность будет недостаточной. Особенно остро это ощущается при создании ресурсов на основе больших хронологических периодов и при объединении в одной базе разнотипных событий. Решения этой проблемы существуют, но все они имеют недостатки – необходимо либо отказаться от точности, либо вводить для каждой даты несколько полей, порождая содержательную избыточность данных.

Еще одна типичная особенность – изменение топонимов и границ территорий (физическое и политическое).

Несмотря на указанные ограничения, реляционные модели и СУБД часто используются при создании историко-ориентированных информационных систем, однако одновременно развиваются альтернативные варианты.

2.4. XML-разметка текстов и исторические системы

Обеспечение доступа к историческим источникам – важная задача развития информационной инфраструктуры гуманитарных наук. С одной стороны, размещение источников в сети – залог успешного выполнения этой задачи, а с другой – формирование единой информационной среды зависит от качества создаваемых ресурсов и используемых методов, среди которых технологии XML-разметки имеют существенное значение, расширяя функциональные возможности систем.

XML – это язык глубокой разметки текстов, предназначенный для решения широкого круга задач: программной обработки документов; описания, структурирования, хранения и передачи данных; их отображения для просмотра пользователями. Разметка представляет собой набор тегов, позволяющих выделить элементы текста и его внешние особенности для компьютерной идентификации и сортировки информации. В частности, XML-разметка позволяет придавать унифицированные значения сущностям в тексте.