Компьютерра, 2007 № 15 (683) | страница 69



. Поисковому гиганту нет нужды в выделении дополнительных мощностей под хранение данных тематического поиска, достаточно лишь использовать уже существующую базу.

Как раз благодаря использованию готовой глобальной базы отпадает надобность в поисковом роботе — достаточно настроить фильтрацию существующей поисковой базы. Настройка Google CSE — гибкая, простая и интуитивно понятная — заключается в указании фрагментов ссылок на страницы, которые будут использоваться в тематическом поиске. У автора поисковика также есть возможность присвоить сайтам теги, выбирая которые, пользователь сможет лучше конкретизировать запрос.

В отличие от «Персонального поиска», Google CSE не позволяет экспортировать результаты в XML. Интеграция с поиском возможна только с использованием JavaScript или AJAX. Это действительно проще, но накладывает ограничения на программную обработку результатов поиска.

Google SCE, как и системе от «Новотеки», не хватает поддержки регулярных выражений в масках. Нельзя сказать, что она нужна позарез, но порой довольно удобна. В некоторых случаях регулярные выражения позволили бы сделать запись более компактной. Например, вместо нескольких ссылок, вроде site.ru/hunting, site.ru/fishing и site.ru/justforfun, можно было бы прибегнуть к более краткому варианту: site.ru (hunting|fishing|justforfun).

Сервисная специфика

Опыт использования упомянутых движков для реализации поиска по материалам о программировании1 показывает, что Google CSE часто позволяет более качественно и в то же время просто фильтровать контент при включении в поиск только отдельных частей сайтов. В «Персональном поиске» нередко приходилось использовать несколько точек входа, количество которых, к слову, для одного сайта ограничено, что сужает возможности настройки.

На многих сайтах размещены материалы на самую разную тему. Например, на одном и том же сайте может присутствовать как документация по программированию на PHP, так и статьи о веб-дизайне. Можно выделить два способа построения ссылок при разбиении сайта на тематические разделы. В первом случае имеют место статьи с адресами вида site1.ru/category_name/article_name.htm и оглавление раздела со ссылками на статьи по адресу site1.ru/category_name. А во втором соответственно site2.ru/article_name.htm и site2.ru/category_name.htm.

При работе с «Персональным поиском» оба способа одинаково удобны: задается одна или несколько точек входа — по количеству страниц оглавлений разделов, — и статьи, на которые эти точки ссылаются, будут проиндексированы.