Новая архитектура поиска Rambler: введено ежедневное обновление базы (обновлено)

    На Rambler введена в строй новая версия поисковой машины, которая принципиально отличается от предыдущей по двум основным параметрам. Во-первых, значительно увеличилась скорость поиска; во-вторых, появилась возможность оперативного обновления поискового индекса. Если раньше индексная база обновлялась в среднем раз в месяц, то теперь, благодаря новой архитектуре поисковой системы, обновление может происходить каждый день, и даже несколько раз в день.

    После изменения механизма работы поисковой машины, в течение двух месяцев последовательно перестраивались все компоненты системы. Вначале был запущен новый индексатор, затем технология автоматической доставки данных на поисковые сервера. В результате с середины июля индекс стал пополняться ежедневно.

    С момента создания поисковой машины и до недавнего времени индекс состоял из двух больших частей, одна из которых использовалась для поиска, а другая — для формирования цитат и подсветки найденных слов запроса. Копии этих частей размещались соответственно на поисковых и цитирующих серверах. Такая архитектура позволяла поднимать по запросу все имеющиеся данные и проводить поиск и ранжирование, опираясь на полную информацию о документах. Однако обновление индексной базы на всех серверах одновременно было непростой и трудоемкой процедурой. Кроме того, с ростом Интернета увеличивался и размер индекса, что приводило к замедлению поиска. Поэтому было принято решение изменить структуру поисковой системы. В новой версии индексная база разбита на восемь частей. Семь из них представляют собой поисковые индексы, каждый из которых построен по седьмой части русскоязычного Интернета. Ежедневно обновляется одна из частей индекса. Таким образом, с момента скачивания страницы роботом до ее появления в поиске проходит от 2 до 8 дней.

    Восьмая часть индекса представляет собой <быструю базу>, постороение которой занимает всего два часа. В быструю базу входят страницы, содержащие счетчик Тор100. Каждый раз, когда в рейтинге Тор100 появляется новая страница, которой еще нет в индексе, она отправляется в очередь на обработку. Перед обработкой страницы фильтруются, из них отбираются наиболее посещаемые. В настоящее время быстрая база обновляется два раза в сутки, однако в ближайшее время планируется обновлять ее чаще.

    Поиск по всем восьми базам осуществляется параллельно, результаты поиска объединяются. За счет этого поиск происходит в несколько раз быстрее по сравнению с поиском по монолитной индексной базе. Каждая из семи частей основной базы размещена на семи серверах. Такое распределение обеспечивает устойчивость и стабильность работы системы при повышении нагрузки или авариях. В подобных случаях из результатов поиска не пропадают соответствующие части индекса, так как поток запросов динамически перенаправляется на наименее нагруженные машины.

    В результате поисковая система Рамблер содержит актуальную информацию обо всех событиях, представленных в сети. Поэтому если что-то сегодня обсуждалось на страницах Интернета, на следующее утро это можно найти в поисковой базе.

    Мы, однако, не смогли получить комментарии представителей поисковой системы.

    20 сентября редакция Searchengines.ru обратилась в пресс-службу компании “Рамблер” за комментариями по поводу пресс-релиза компании, попросив вице-директора “Рамблер” по PR Ивана Засурского ответить на несколько вопросов для издания.

    21 сентября один из разработчиков поисковой системы — Влад Шабанов — связался со руководителем проекта по поводу публикации ответов на вопросы и поставил условием предоставления материала его публикацию целиком и полностью в открытом доступе на сайте Searchengines.ru. Гарантия такой публикации была незамедлительно предоставлена.

    22 сентября в конце рабочего дня тот же Влад Шабанов анонсировал публикацию на сервере поисковой системы “Рамблер” подборки вопросов и ответов, в которую практически полностью вошли вопросы, подготовленные Searchengines.ru. При этом в личной переписке такой шаг он мотивировал некорректностью ответа всем пользователям через один сайт Searchengines.ru и его рассылку.

    Мы оставляем на суд читателей вопрос корректности действий поисковой системы Rambler. Searchengines.ru, тем не менее, никогда не ставил себе целью копировать публично доступные заявления поисковых систем с целью создания иллюзии полноты своих материалов. Этого не будет даже в том случае, если эти материалы действительно являются своими для Searchengines.ru.

    Читателям платной рассылки, как всегда, в ближайшем выпуске будет доступен расширенный комментарий на тему нововведений поисковой системы Rambler.

    Основатель Searchengines.ru. С 2005 по 2014 год работал генеральным директором компании "Яндекс.Украина". Основатель и директор крупнейшего коворкинга Одессы — "Терминал 42". Ведет блог, участвует в подкастах. Больше ничего не умеет.