Исторические информационные системы: теория и практика | страница 42



. По состоянию на март 2020 г. в информационную систему введено более 183 тыс. документов. Чтобы обеспечить работу со всеми источниками, в том числе и с теми, которые находятся на ранней стадии обработки и аннотирование которых продолжается, было принято решение открыть к ним предварительный доступ (Early Access). Работа с такими документами осуществляется через специально разработанное веб-приложение Document Compass. Архитектура информационной системы Founders Online основана на платформе управления данными MarkLogic, а также использует приложения для индексации и обработки текстового контента, размеченного на основе XML. Поисковая система способна реализовывать многозадачные запросы для получения релевантной выгрузки.

Стандартизация тегов разметки метаданных и текстов исторических источников является ключевым вопросом для обеспечения устойчивости, долговременности и эффективности развития гуманитарной информационной среды в целом и историко-ориентированных информационных ресурсов в частности. В этом плане важную роль играет консорциум TEI (Text Encoding Initiative)[32], основная цель функционирования которого – развитие и поддержка стандарта представления текстов в цифровой форме, а также помощь создателям электронных ресурсов в кодировании текстов методом глубокой разметки по единому стандарту, разработанному TEI. Этот консорциум включает различные организации, в числе которых издательства, университеты, а также индивидуальных ученых, использующих и развивающих стандарт TEI в гуманитарной сфере.

Целесообразность использования единого стандарта описания (с 2007 г. действует Руководство версии TEI P5) связана с тем, что исследователи и разработчики проектов по разметке текстов, с одной стороны, могут пользоваться стандартными элементами разметки и при необходимости добавлять отсутствующие теги в стандарт TEI, а с другой – при использовании единого стандарта становится принципиально возможным интегрирование данных различных корпусов (проектов) и обмен ими.

На сайте консорциума TEI доступен список проектов, выполненных с помощью разметки по стандарту TEI[33]. Значительная доля этих проектов является историко-ориентированными ресурсами. Среди них, например, проект Menota (Medieval Nordic Text Archive), посвященный норвежским рукописям[34]; CELT Project: TheCorpus of Electronic Texts[35]; Chronicling America, связанный с американскими газетами 1836–1922 гг.[36], и др.