Поиск@Mail.ru: что там внутри?

23 апреля, на конференции РИФ+КИБ 2010, в рамках секции «Поиск: настоящее и перспективы (ЧАСТЬ 1)» состоялся доклад Владислава Шабанова, руководителя группы поиска Mail.ru.
Доклад был посвящен «серебряным пулям, полупулям и другим боеприпасам современного поисковика».

В. Шабанов говорил о том, что можно считать «серебряной пулей» — учет гиперссылок при ранжировании, основываясь на том, что это улучшает выдачу сразу по очень большому количеству запросов, и может быть реализовано небольшой группой разработчиков. Но как быть с тем, что этой «пуле» уже 10 лет? И она плохо разит, ведь большую часть гиперссылок сегодня можно и нужно игнорировать?

Где сейчас взять другую серебряную пулю? Такой больше нет. Есть другие, но более мелкие.

Первая из них – социальное ранжирование, позволяющее учитывать какие запросы вводят пользователи в поисковую строку, куда переходят, сколько времени находятся на странице и многое другое. Например, запрос [война и мир]. Вводя этот запрос, пользователи могут подразумевать либо роман Л.Н. Толстой, либо экранизацию романа, либо просто понятия «война» и «мир».

Проанализировав поведение пользователей можно применять полученные знания в поисковой машине. Каким образом? Например, если по какому-нибудь запросу мы всё время показываем результат, но в него никто не кликает, его неплохо бы убрать. И наоборот, если много пользователей часто кликают в какой-то из результатов, неплохо бы поднять его повыше.

Владислав Шабанов отметил также, что официальные сайты иностранных компаний никому не нужны.

Кроме того, результаты исследования показали, что пользователи хорошо реагируют на естественные раздражители. Например, если в результатах поиска в сниппете выводятся скидки, метки «в подарок», пользователи кликают на такие сайты в поисковой выдаче чаще.

Подводя итог всему сказанному выше, Владислав сообщил:

• Если данных по какому-нибудь запросу мало, на всякий случай выбрасываем.
• Если сессия пользователя выглядит странно, на всякий случай выбрасываем.
• Если в результатах есть раздражители, будем обрабатывать отдельно.
• Ну и, наконец, если сомневаемся в каком-либо результате, то пробуем: поместим его на какое-нибудь место, через пару часов поместим другой, сравним поведение.

Социальное ранжирование похоже на работу системы контекстной рекламы: ротация результатов
внизу списка, измерение кликабельности, анализ факторов, отсев роботов. Основываясь на анализе поведения пользователей, и имея под боком социальную сеть и почту, можно сделать отдельные «социальные добавки» в ранжирование для мужчин и женщин, для молодых и постарше, для людей с высшим образованием и для людей без образования.

Именно в этом докладчику видится будущее поиска. А также в глубоком анализе сайтов. Поисковая машина должна разбираться в том, что за страницу она обрабатывает:
• Если это новость, то надо извлечь и учесть в ранжировании её дату.
• Если это страница “контакты”, то её также надо обработать особо.
• Из сообщений на форумах можно извлекать число ответов или число просмотров

Скачать презентацию можно здесь

Основатель Searchengines.ru. С 2005 по 2014 год работал генеральным директором компании «Яндекс.Украина». Основатель и директор крупнейшего коворкинга Одессы — «Терминал 42». Ведет блог, участвует в подкастах. Больше ничего не умеет.