Доклад Александра Садовского на открывшейся сегодня Optimization 2016 был посвящен Палеху — новому алгоритму ранжирования Яндекса. В своем выступлении руководитель поисковых сервисов Яндекса подробно описал механизм работы нового алгоритма.

paleh_s_1

Нейросети для эффективного обучения нужны примеры, как положительные, так и отрицательные.

Наивный подход – это когда в качестве положительных примеров используются кликнутые документы, а в качестве отрицательных – документы без клика. Дело в том, что отсутствие клика далеко не всегда свидетельствует о том, что документ нерелевантен. Справедливо и обратное утверждение — наличие клика не гарантирует релевантности документа.

Простой пример:

paleh_s_2

А пользователь искал расшифровку РНО – «работа над ошибками».

Яндекс научился находить верные примеры. По версии Яндекса положительными примерами являются те, где модель предсказывает, что пользователь задержится на сайте долго или «останется там навсегда» (шутка). Метрик, говорящих об удовлетворенности пользователя на самом деле много. Стратегия выбора отрицательных примеров тоже была изменена. Для достижения главной цели – понимания семантической близости, хорошими отрицательными примерами являются такие документы, которые гарантированно нерелевантны запросу, но при этом помогают нейронной сети лучше понимать смыслы слов.

Это:

• Случайные документы
• Случайные документы с включением слов запроса
• Hard negative mining

В основе Палеха лежит нейронная сеть. Если сравнить эффективность нейронной сети и простого текстового фактора, основанного на соответствии слов запроса и текста, bm25 для нечетких запросов, то можно увидеть следующие результаты (для информационных запросов):

paleh_s_3

Для коммерческих:

paleh_s_4

 

paleh_s_5

Оказалось, что для BM25 переформулировка запроса превращается в настоящую катастрофу — фактор становится нулевым на релевантных заголовках. А Палех демонстрирует отличную устойчивость к переформулировке: релевантные заголовки по-прежнему имеют высокое значение фактора, а нерелевантный заголовок — низкое.

Но надо помнить, что цель разработчиков поиска Яндекса состоит не в том, чтобы обогнать BM25, а в том, чтобы добиться улучшения на фоне всего множества ранее внедренных факторов и моделей ранжирования.

Александр также сообщил, что алгоритм Палех применяется абсолютно ко всем типам запросов, ко всем регионам и языкам.

Эффективность Палеха – pFound1+1,6% (на запросах длинного хвоста)

Он также сказал, что изменения трафика, которые в последнее время могли наблюдать вебмастера, в том числе могут быть результатом работы Палеха.

Алгорим Палех эффективно работает абсолютно во всех областях и тематиках, исключение составляет только поиск цитат.

paleh_s_7

Журналист, новостной редактор, работает на сайте с 2009 года. Специализация: интернет-маркетинг, SEO, поисковые системы, обзоры профильных мероприятий, отраслевые новости рунета. Языки: румынский, испанский. Кредо: Арфы нет, возьмите бубен.

Прокомментировать

1 Комментарий на "Александр Садовский: «Палех умный. Будь как Палех!»"

Notify of
Sort by:   newest | oldest | most voted
Алексей Чибисков
Гость

ну например по запросу IP телефония и «SIP телефония» выдача скачет очень сильно (разброс десятки позиций), Палех не догадывается ни как, что по сути это одно и тоже у нас в РФ так же как и «VOIP телефония» даже если посмотреть компании, которые в директе по этим запросам и состав услуг, предлагаемыми ими). Писал Платону Щукину ) как всегда ничего дельного еще пару мес назад… А вот запрос Виртуальная АТС и Облачная АТС, даже Офисная АТС (тоже % 90 уже подходит с развитием SAAS) тоже по сути одно и тоже… Но Палех видимо об этом не знает.

wpDiscuz