Поисковик для наладонников продолжает развиваться

    Поисковый портал для пользователей КПК и мобильной связи PDANewsCollector.ru объявил сегодня о модернизации системы поиска по форумам. В новой версии поискового механизма обеспечивается учет специфичных для интерактивных онлайновых конференций особенностей, новые алгоритмы обеспечивают сокращение времени поиска в среднем на 40-80%.

    “Онлайновые форумы — традиционно представляют собой “крепкий орешек” с точки зрения поисковых систем, — отметил Игорь Кесин, создатель проекта PDANewsCollector.ru, — в силу их особенностей общепринятые алгоритмы повышения качества поиска практически неприменимы. В новой версии ядра нашей поисковой системы мы приложили немало усилий для решений этой проблемы, и, хотя до окончательной “победы над форумами” пока далеко, нам удалось преодолеть несколько принципиальных проблем, заметно повысив качество поиска”.

    При индексации форумов и онлайновых конференций разработчики поисковых систем сталкиваются с несколькими проблемами. Во-первых, большое количество текстовых фрагментов (реплик), содержащих цитаты из постингов предыдущих авторов затрудняют определение релевантности документов на основе определения ключевых слов и “ссылочное ранжирование”. Отвечая на послание своего виртуального корреспондента, пользователь может запросто забыть убрать ненужную в общем-то ссылку или лишние ключевые слова. Кроме того, форумы обычно характеризуются избыточным количеством служебных ссылок (“версия для печати”, “послать другу”, “отслеживать новые ответы” и пр.), причем, многие из них нередко содержат ключевые слова, тоже не имеющие отношения к делу (скажем, “отслеживать новые реплики в форуме PalmOS”, понятно, что учитывать термин PalmOS здесь не нужно). Разработка алгоритма, который позволил бы интеллектуально игнорировать “ненужное” и учитывать “правильные” ссылки в форуме фактически требует построения модели его работы, с учетом ряда аспектов, связанных с областью, которой посвящен форум, а также активности пользователей, частоты обновления и пр. В то же время, при работе над решением этой задачи, специалистам поисковой системы PDANewsCollector.ru удалось выявить ряд эмпирических закономерностей, которые можно использовать для повышения качества индексации и поиска в архивах интерактивных сервисов (форумы, гостевые книги, блоги и пр.), и реализовать их в рамках существующего ядра поисковой системы (попутно заложив основу для реализации ряда алгоритмов, которые появятся в новой версии поискового механизма PDANewsCollector.ru, известного под кодовым названием Candaru, выход которого ожидается во второй половине 2004 г.).

    На сегодня поисковый механизм PDANewsCollector.ru обеспечивает корректную (с учетом внутренней структуры) индексацию наиболее распространенных типов форумов (phpBB, IkonBoard, YaBB и ряда других). Кроме того, расширен язык запросов, реализована возможность игнорирования заданных поисковых терминов (с помощью оператора -, в качестве аргумента может быть указан как тип информации, так и конкретный термин).

    В будущем планируется реализация более тесного учета внутренней структуры наиболее распространенных скриптов для ведения форумов и систем управления контентом, расширение списка поддерживаемых форумов.

    Основатель Searchengines.ru. С 2005 по 2014 год работал генеральным директором компании "Яндекс.Украина". Основатель и директор крупнейшего коворкинга Одессы — "Терминал 42". Ведет блог, участвует в подкастах. Больше ничего не умеет.