«Свежесть» как фактор в поисковой системе

26 июня 2017

4471

Алексей Шаграев, специалист Яндекс.Поиска по новостям и свежим документам, о «свежести» запроса и документа, об особенностях задач, возникающих в ранжировании с учетом свежести, а также о способах их решения

За последний год Яндекс добился значительного прогресса в качестве поиска для запросов, требующих наличия в выдаче актуальных документов. Теперь популярные документы в большинстве своем попадают в результаты поиска по релевантным запросам практически сразу после публикации. Добиться этого непросто, ведь добавление только что созданных документов в поисковые выдачи, как правило, противоречит другим важным пользовательским метрикам: релевантности, авторитетности и т.д. Как Яндекс оценивает потребность пользователей в «свежести» выдачи и о том, какие задачи приходится решать, чтобы отвечать свежими документами на запросы к поиску, читайте в этой статье.

#Когда пользователям нужна «свежесть»?

Иногда одному и тому же пользователю по одному и тому же запросу в разные моменты времени могут требоваться различные результаты.

Не вполне очевидно, почему так, если думать о таких запросах, как [вконтакте] или [одноклассники]. А вот если взять такой запрос как [евровидение], и посмотреть на его историческое развитие в 2016 году, то можно оценить справедливость приведенного утверждения.

Пользователи начали интересоваться этим вопросом еще до начала конкурса. Их интересовало, кто поедет на Евровидение от России, какую песню там будет исполнять Сергей Лазарев, будет ли онлайн-трансляция, каковы прогнозы букмекеров и проч. Такие запросы начали появляться за несколько месяцев до самого события.

Когда Евровидение стартовало, пользователей начало интересовать, кто вышел в финал, песни финалистов и проч.:

Через несколько месяцев после того, как конкурс закончился, запросы снова меняются – людям уже не нужна онлайн-трансляция, не нужны прогнозы букмекеров, а просто нужно знать результат, посмотреть выступление российского представителя и узнать что-то о дате проведения следующего Евровидения:

Популярность этого запроса совершенно очевидно привязана к событию. Мы видим нарастание пользовательского интереса по мере приближения к дате финала, пик популярности запросов со словом «евровидение» непосредственно в день финала и затем, постепенное угасание частоты запроса.

Примерно так в поиске отражаются все значимые продолжающиеся события, во время которых наблюдается пиковый пользовательский интерес, который потом постепенно идет на спад. Так, в разные моменты пользователям важны разные аспекты события. Ожидаемые события интересны еще до их наступления: прогнозы, даты, информация об участниках и проч. Непосредственно во время события пользователей интересуют прямые трансляции и актуальные новости по теме. После окончания событий – интересны результаты и дальнейшее возможное развитие. В общем, в каждый отдельно взятый момент времени пользователям нужна самая актуальная информация о том, что происходит. Это и есть то, что мы называем «свежесть» в веб-поиске.

#Что такое «свежесть» с точки зрения поиска

Свежесть – это документы, появившиеся в течение последних трех суток. Именно эти документы по некоторым запросам добавляются в поисковую выдачу.

По данным Яндекса, 73% пользователей интересуются событием в первые сутки, а 97% в первые трое суток. Именно на этом зиждется концепция показа свежей информации в течение трех суток, потому что именно в этом отрезке времени и сосредоточен весь пользовательский интерес.

Основные задачи веб-свежести, которые приходится решать поиску Яндекса:

1. Понять, какие именно свежие документы наилучшим образом отвечают на запрос пользователя («ранжирование свежего»)

2. Определить, на какие позиции в выдаче необходимо ставить эти документы

По точному запросу нетрудно понять, что пользователю нужна свежесть, например: [летные испытания мс-21 начнутся через несколько недель]. Но, понятное дело, мало кто задает поиску запросы в подобной форме. Свежесть запроса детектируется, если частота запроса растет, если появляется много свежих документов, отвечающих на него, если увеличивается количество кликов на свежие документы.

Это график некоего неожиданного резонансного события без привязки к датам и конкретным происшествиям:

Уже в первые полчаса после произошедшего пользовательский интерес к свежему вырастает почти на порядок. Доля свежих запросов среди всех запросов к поиску в такие моменты может увеличиваться до 25%.

Так как же понять, что свежесть нужна по общим запросам типа: [мс-21] или [самолет]? В таких запросах и контрастности-то никакой нет, особенно если событие не очень значительное, и свежие документы по таким запросам появляются в общем-то постоянно. Для определения «свежести» общих запросов, Яндекс использует real-time (RT) расширения свежих запросов.

Если запрос легко расширить до контрастного, то вероятней всего там свежесть нужна. Например: [мс-21] расширяется до [мс-21 летные испытания]. Поиск запоминает слова, встречающиеся в свежих запросах, и увеличивает вес свежести для запросов, в которых встречаются эти слова.

В подмешивании свежего к результатам поиска ключевой технологией является Real Time MapReduce, позволяющая в считанные секунды доносить любой сигнал до поиска. Поиск получает информацию о событиях на выдачах с задержкой всего в несколько секунд и тут же обновляет статистики. Это позволяет отрабатывать «общие» запросы практически сразу после того, как возникли соответствующие «точные запросы». В результате происходит увеличение количества кликов, которые свежие документы добавляют на поисковых выдачах.

Что же касается задачи быстрого добавления свежих документов в выдачу, то тут не обойтись без специальной контент-системы, такого робота, который поможет быстро эти документы найти и добавить их в выдачу, затем нужно ранжировать всю эту свежесть таким образом, чтобы самые актуальные и максимально релевантные документы были на высоких позициях, ну и, естественно, максимально быстро понимать, что тот или иной запрос требует свежести.

#Как работает «свежий» робот Яндекса

От этого робота требуется быстрый поиск свежих документов и быстрая выкладка их в поисковую базу. Для этого ему нужно очень часто обходить хорошие источники хороших свежих урлов (например, главные страницы хороших новостных изданий).

«Свежий» робот Яндекса справляется с этой задачей очень хорошо. В качестве примера можно привести график общей актуальности результатов поиска, от анализаторов компании «Ашманов и партнеры»:

Здесь хорошо виден прогресс Яндекса (красная линия) в скорости индексации документов, который был достигнут в течение последнего года. «Свежий» робот действительно способен за считанные минуты узнать о появлении нового документа и доставить его до поискового индекса Свежести с тем, чтобы он был показан пользователям по релевантным запросам.

Без «свежего» робота, также как и без RT, никакое свежее ранжирование невозможно. Но свежее ранжирование это не только это, это еще и размеченные асессорами пары «запрос-документ» и так называемая «кликовая добавка», предсказывающая клики на документы. Последняя помогает поиску понять, насколько свежесть понравилась пользователю и насколько вообще она была хороша и уместна.

Глобальной проблемой свежего ранжирования является то, что большинство запросов, касающихся какого-либо события, задаются через несколько часов после того, как оно произошло. И формулам, обучающимся на такой выборке, очень трудно понять, что нужны максимально свежие документы, и что документ, возрастом 3 минуты, в данном случае, это хорошо и уместно, потому что таких документов практически нет.

Есть несколько подходов к решению этой задачи.

Некоторая модификация показанного выше метода используется как в асессорской формуле, так и в «кликовой добавке».

#Обучение свежих подмешиваний

Эта область касается того, на какие позиции в выдаче найденный свежий документ нужно поставить. Здесь на помощь поиску приходит асессорская оценка и опять же «кликовая добавка».

Асессор отвечает на вопрос: какова вероятность того, что по данному запросу пользователь хотел увидеть свежие результаты? А «кликовая добавка» вычисляет вероятное количество кликов, которые свежая выдача может получить на той или иной позиции в поиске.

При этом вопрос: "что делать с документом, возрастом 3 минуты?" по-прежнему остается, по уже приведенным выше причинам. Как же научить формулу срабатывать раньше?

Во-первых, это перебалансировка выборки: использование различных весов на разных стадиях развития события – запросы из начала события получают больший вес. Во-вторых, добавление в выборку фиктивных запросов:

Если взять, например, все достаточно популярные документы за последний год (которые показывались на выдачах хотя бы 1000 раз в день) и посмотреть на медианное время между их публикацией и первым показом на выдаче, то можно увидеть, что эта величина уменьшилась с четырех минут до примерно двух. Это и означает, что свежие документы сейчас становятся доступными для пользователей практически моментально.

Такой прогресс был достигнут благодаря высокому качеству работы «свежего» робота, а также описанным способам обучения формулы ранжирования.

#Какая еще бывает свежесть

Свежесть необходима во всех видах поиска – не только в текстовых документах, но еще и в поиске по видео и по картинкам. Кроме того, свежесть важна для поисковых подсказок, где также важно предсказывать популярность тех или иных запросов и показывать их достаточно высоко. И в распознавании голоса: когда вышел мультфильм «Зверополис» и люди начали спрашивать про него у поиска голосом, очень важно было сразу же научиться такой запрос детектить, и показывать пользователю релевантную выдачу.

Смысл в том, что какой сервис не возьми, везде важна и нужна свежесть. Но внутри свежести тоже присутствуют свои аспекты:

• Актуальность

• Авторитетность

• Представление

• Возраст документа

Сходу можно придумать еще с десяток параметров, очень важных для свежести и, как правило, противоречащих друг другу. Но именно поэтому работу над Яндекс.Поиском нельзя назвать скучной. Тем боле, что перед инженерами поиска все еще остается очень много открытых проблем, таких как: скорость реакции на событие и форматы донесения свежей информации до пользователя.

Текст подготовлен по материалам мероприятия «Как устроен поиск Яндекса»

7 советов по защите сайта от негативного SEO

«Свежесть» как фактор в поисковой системе

7 советов по защите сайта от негативного SEO

Рекомендации для корректного представления сайта в поиске Яндекса

Как и когда использовать Page Authority, Domain Authority и другие ссылочные метрики

Как выбрать хостинг: часто задаваемые вопросы

Как Google обрабатывает текст, скрытый с помощью CSS и JavaScript

Быстрое руководство по настройке AMP на WordPress