Компьютерра, 2006 № 24 (644) | страница 24



В этих ответах рассчитывается также индекс информационного благоприятствования (ИИБ). Он учитывает массу факторов, связанных с упоминанием объекта: скажем, его роль в сообщении (уникален или перечислен в списке из десяти других), тональность оценки (позитив, негатив или нейтральность) и т. п. Формула расчета ИИБ сложна, как сложна и технология оценок, классификации подобных объектов с многочисленными атрибутами и — очень важно! — связями. Технология, используемая в системе, была разработана с участием известного математика, специалиста по классификации и статистическому анализу Юрия Благовещенского.

Именно благодаря этой технологии — надо подчеркнуть, что она не сводится к алгоритмам, заложенным в систему; выбор параметров классификации, методика их присвоения объектам, лингвистический анализ — все это тоже в конечном счете элементы технологии текст-майнинга — появляется возможность очень быстро получать ответы на сложные запросы к базе.

«Прочее», или В разведку

Для демонстрационного сеанса я попросил Катю поработать с давно знакомым «объектом», часто упоминаемым и на наших страницах — Российской академией наук.

Первым шагом был простой запрос списка публикаций, упоминающих РАН, с начала этого года (рис. 1). Их оказалось около пяти тысяч — включая и телесюжеты, которые можно было немедленно просмотреть. После этого мы заказали график динамики публикаций за тот же период, с разбивкой по неделям (рис. 2).

Полученная картинка выглядела не очень выразительно. Пики и спады были выражены нечетко, ясного представления о динамике общественного внимания к делам Академии они не давали. Вот тут мы и воспользовались одной из более сложных черт системы — запросили график числа публикаций, в которых Академия фигурировала в качестве главного объекта. Полученный по такому запросу рис. 3 был заметно более информативным. Как нетрудно заметить, он демонстрирует весьма четкие узкие пики, явно указывающие на серьезные события. Исследовать их все возможности не было, но щелкнув мышкой по самому позднему (он же самый высокий), мы взглянули на несколько появившихся на экране текстов, и сразу получили объяснение этому всплеску публикаций — в этот период прошли выборы новых академиков. С этим, как явствовало из тех же публикаций, была связана любопытная интрига с попыткой выдвижения в академики крупных бизнесменов и чиновников, чуть не приведшая к большому скандалу (Сергей Степашин, например, вежливо, но твердо отказался баллотироваться).