Компьютерра PDA N166 (31.03.2012-06.04.2012) | страница 23



Эк меня понесло! Короче говоря, один из разработчиков, Дмитрий Силницкий, зная о моих слабостях в сфере интерпретации смыслов и дата-майнинга, прислал на тестирование демо-версию совершенно уникального движка, который выполняет сравнительный анализ текстов по авторскому стилю и жанру.  

При этом движок понятия не имеет о существовании автора имярек, да и вообще не догадывается о смысле слов и денотатах в принципе. Основа движка -  графематический анализ, оперирующий лишь цепочками языковых символов -  знаками, буквами и словоформами!

Для хотя бы приблизительного объяснения этого монстра позволю небольшую цитату из теоретического сопровождения разработок (текст Игоря Ножова из РГГУ): 

«Основная цель графематического блока получить выборку полных словоформ из массива текстов базы данных.  Графематический анализ работает с внешним представлением текста и использует таблицу стоп-слов. В этой таблице хранятся цифры, спецсимволы и частотные слова языка, нерелевантные для поиска по текстам.

Графематический анализ выполняет три функции:

1. отсечение стоп-слов в тексте;

2. разбиение данных на три потока;

3. индексация каждого потока.

Единицей графематического анализа является цепочка символов, выделенная с двух сторон пробелами. Выделенная цепочка символов подвергается последовательной обработке эвристическими правилами: отсечь знаки пунктуации, проверить присутствие гласных внутри цепочки, чередование верхнего и нижнего регистров и т.д. В зависимости от результатов обработки полученная цепочка символов направляется в один из трех потоков данных:

- цифровые и символьные комплексы (‘кг’, ‘ст.’, ’12.01.99’);

- аббревиатуры - названия государств, организаций, предприятий (‘СССР’, ‘ЮНЕСКО’, ‘ДорСтройСервис’);

- полные словоформы»

В результате столь необычного и внешне совершенно схоластического анализа мы получаем более, чем осмысленные результаты. Именно созерцание практических результатов произвело на меня неизгладимое впечатление.

Я получил демо-версии аналитического движка для двух баз данных. Первая - англоязычная - проводила  стилистический и жанровый анализ относительно хоть и скромной, но вполне репрезентативного массива данных, насчитывающего 2995 авторов и 6266 произведений. Вторая - русскоязычная - чисто номинальная - лишь 700 книг авторов, выражающих мысли на великом и могучем. 

Естественно я начал тестирование с себя любимого: ввел в анализатор текст книги «Как зовут вашего бога». На выходе получил такой результат: