Исторические информационные системы: теория и практика | страница 44



Отдельная группа элементов разметки может описывать работу над электронным документом, даты его изменений и историю (как, например, сведения о новых тегированных данных)[40]. Группа вспомогательных тегов используется для корректного отображения факсимиле источников в браузере, по аналогии с обычным представлением HTML-документов[41].

Использование разметки XML по единым стандартам способствует более активному развитию Semantic Web в плане наполнения семантическими публикациями исторических источников. Несмотря на массу средств и технологических решений, созданных для Семантической паутины, XML является одним из наиболее простых в использовании [Варфоломеев, Иванов, 2013].

Кроме электронных публикаций, XML востребован и для анализа текстов источников. Одним из направлений является компьютерная лингвистика и использование XML-разметки текстов при изучении языка и его развития, когда с помощью XML обозначаются морфологические и синтаксические признаки единиц текста (могут быть размечены как отдельные буквы и символы, так и их совокупности, а также слова, словосочетания, предложения и т. д.). Другой областью применения XML является текстометрический анализ, используемый в гуманитарных исследованиях.

В исторических информационных системах также применяется XML для анализа текстов. При этом системы имеют разные возможности и инструментарий для работы с историческими источниками. Так, на портале «Парламентская история позднеимперской России»[42] опубликованы размеченные на основе XML указатели к стенографическим отчетам Государственной Думы начала XX в. Схема разметки разработана для изучения деятельности парламентариев (рис. 2.6) и анализа динамики развития указателей как исторического источника (рис. 2.7). Информационная система предоставляет доступ к размеченным файлам с возможностью их скачивания и дальнейшего анализа.

Для анализа, обработки данных и публикации источников, тексты которых размечены с помощью XML, требуется дополнительное программное обеспечение. Многие программные продукты для этих целей являются коммерческими. Однако в Лионском университете (Франция), в лаборатории ICAR, была разработана платформа TXM с открытым кодом[43]. Данная платформа является программным обеспечением, предназначенным для работы в наиболее распространенных операционных системах (Windows, Mac OC X, Linux), а также поддерживает онлайн-публикацию источников при помощи веб-навигаторов с возможностью контроля доступа к ресурсам и их редактированию. Платформа TXM имеет широкие возможности для проведения текстометрического анализа текстов источников.