Компьютерра, 2005 № 42 (614) | страница 70



И не прогадал: я гонял «Архивариус» с пристрастием, отлавливал баги и жаловался демиургу на отсутствие важных (на мое скромное имхо) фич. Поразительна оперативность, с которой Евгений Троицкий вносит изменения в программу, дополняя ее не косметическими рюшками, а фундаментальными опциями. Так, прочитав из любопытства последние «Голубятни», посвященные Data Mining, Евгений аки змей-искуситель буквально в течение одного дня усилил «Архивариус» поддержкой формата MyBase (Nyf).

Напомню читателям, которые сегодня первый раз в жизни услышали про «Голубятню»: весь октябрь нас основательно клинило на датамайнинге (или инфокопстве) - процессе сбора, обработки и анализа информации. Одним из важнейших аспектов этого процесса является создание реляционных индексируемых баз данных, и именно к этой софтверной группе относится «Архивариус».

Долгие годы эталонной для меня была программа Cros, вознесшаяся на небосклон датамайнинга за счет скорости индексации: огромные информационные массивы, которые «Евфрат» - любимец россиянской бюрократии - был даже не в состоянии обработать (зависая), Cros проглатывал в считанные минуты. Но то, что в 1999 году казалось огромным (300 Мбайт), сегодня играючи отъедается какими-нибудь четырьмя (из шестнадцати) томами «Энциклопедии животных Гржимека» в формате PDF. Сам же книжный мой архив давно перевалил за три гигабайта. Тут-то и нанес «Архивариус» роковую хиза-гери-мовашу в ухо Cros’а: и не просто опередил по скорости индексации былого фаворита, а прямо-таки растерзал его (рис. 1).

32 тысячи документов и 190 миллионов слов: на обработку этого монстра «Архивариус» затратил 53 минуты! Размер созданного индекса - 1,32 Гбайт: меньше половины исходного материала. Феноменальный результат, учитывая, что треть файлов в моей библиотеке упакована в изначально компрессированный формат PDF. А что же Cros? В моей персональной Библии - «Цитадели» Сент-Экзюпери - сказано: «Нельзя унижать тех, кто главенствовал и кому воздавали почести. Нельзя отнимать у царя царство и превращать в нищего подававшего милостыню». Посему не буду придавать огласке ужасающие показатели, продемонстрированные Cros при индексации моего нового книжного архива. Ограничусь щадящей констатацией: цифры моего любимца хуже на порядок.

Наиболее рельефно технологическое отставание Cros проявляется на фоне многообразия настроек, демонстрируемых «Архивариусом» при создании индекса. Начнем с того, что программа Евгения Троицкого умопомрачительно всеядна: кроме файлов, директорий и жестких дисков она индексирует почтовые базы The Bat!, Netscape, Mozila, Thunderbird, Firebird, Firefox, Outlook Express, Outlook и Eхchange всех версий (рис. 2).