Исторические информационные системы: теория и практика | страница 45





Рис. 2.6. Пример организации данных по деятельности парламентариев на основе XML-разметки указателей к стенографическим отчетам



Рис. 2.7. DTD-документ показывает структуру размеченных на основе XML указателей к стенографическим отчетам Государственной Думы I–IV созывов начала XX в.


Другие информационные системы интегрируют исследовательский инструментарий и источники и позволяют оперировать возможностями разметки. Так, в Ланкастерском университете (Великобритания) разработана платформа Corpus Query Processor для работы с созданными корпусами текстов[44]. Платформа содержит опубликованные корпусы текстов на различных языках, среди которых как национальные, так и специализированные корпусы, в том числе исторические (в первую очередь это совокупность корпусов периодической печати Великобритании с XVIII в. по настоящее время). Часть корпусов исторических текстов размечена на основе XML. Инструментарий платформы обеспечивает поиск по контексту с выбором необходимых метаданных, а также предоставляет широкие возможности для анализа текстов по заданной структуре разметки.

Развитие информационного пространства исторических источников и использование единых стандартов XML-разметки являются важной основой формирования гуманитарной семантической сети информационных ресурсов. Объединение создаваемых ресурсов – вопрос будущего, однако наработки в этом направлении свидетельствуют об эффективности и ценности такого подхода. Таким инструментом является Fawcett Toolkit [Robertson, 2009] – свободно распространяемая компьютерная программа для агрегирования исторических данных, размеченных на основе XML, и их визуализации в виде карт, таймлайнов и анимаций. Fawcett Toolkit агрегирует XML-теги, использованные редакторами ресурсов по действующему стандарту TEI P5. Таким образом, программа позволяет выявлять разнообразные ресурсы, размеченные общими тегами, в том числе персоналии, географические объекты, исторические события, даты и т. д.

Развитие Semantic Web и использование XML-разметки в исторических исследованиях открывают возможности для более глобальных научных изысканий, связанных с Data Mining [Meroño-Peñuela, Ashkpour, van Erp, Mandemakers, Breure, Scharnhorst, Schlobach, van Harmelen, 2014].

Таким образом, использование языка разметки XML при создании информационных систем позволяет учитывать содержание, структуру и иерархию текста; фиксировать различные прочтения и интерпретации источниковой информации; эффективно работать с многослойными текстовыми источниками; сделать заметной для машины ту информацию, которую историк считывает на интуитивном уровне, между строк. Использование разметки XML обеспечивает широкие возможности для обработки текстов, представления документов и анализа информации; позволяет повысить эффективность информационной отдачи источников, углубить представление об их информационном потенциале, получить скрытую для анализа традиционными методами источниковую информацию.