Поймать многорукого бандита

14 сентября 2015 года Яндекс объявил о новом подходе к определению релевантности документов. Основная мысль заключалась во введении искусственного подмешивания в ТОП выдачи по запросу релевантных ему сайтов, по какой-то причине получивших низкую оценку алгоритма ранжирования и находящихся за пределами видимой части органической выдачи. В анонсе содержалась ссылка на статью под названием «Gathering Additional Feedback on Search Results by Multi-Armed Bandits with Respect to Production Ranking», и поэтому в SEO-кругах эту искусственную примесь к органической выдаче стали называть «многоруким бандитом».

В ноябре 2015 года аналитик отдела безопасного поиска Яндекса Екатерина Гладких на конференции «Поисковый маркетинг и продвижение бизнеса в интернете. Optimization-2015» чуть подробнее рассказала о нововведении в своем докладе «Практика детерминированного хаоса». Стало понятно, что явление обещает быть достаточно заметным, и с ним придется считаться.

Однако сразу же в изучении этого явления возникла серьезная трудность – надежная идентификация «бандитской» примеси. В своей статье «Многорукие бандиты Яндекса», написанной по мотивам доклада на конференции «Поисковый маркетинг и продвижение бизнеса в интернете. Optimization-2015», руководитель направления продвижения компании Webit Станислав Поломарь предложил для идентификации «бандитской» примеси использовать способ попарного сравнения анализируемого сайта с сайтами, находящимися ниже его в выдаче. «Бандитски» подмешанный сайт в попарном сравнении должен им проигрывать. В общем-то способ попарного сравнения не нов, и он использовался для определения некоторых пост-штрафов, наложенных на сайт Яндексом. Правда, логика в определении штрафа была обратная – оштрафованный сайт при попарном сравнении должен, наоборот, выигрывать у сайтов, которые в общей выдаче ранжируются лучше него.

Но, тем не менее, самым интересным вариантом для исследования «бандитской примеси» представляется поиск результатов в ТОПЕ, обладающих свойствами, нехарактерными для органической выдачи, и дальнейшее их исследование.

Один из подобных любопытных примеров был упомянут в одной из тем на форуме Searchengines.guru. В ТОПЕ (на 11.03.16 занимая 7-е место в режиме «инкогнито» в Хроме c отключенными персональными настройками) по достаточно конкурентному коммерческому запросу в выдаче для Москвы находится документ, найденный по ссылке, то есть с нулевой текстовой релевантностью:

Судя по сниппету, индексатор Яндекса заглянул на сайт в не очень подходящей момент, когда сервер по какой-то причине «потерял» контент. В результате, текстовая релевантность главной страницы оказалась равной нулю, и в сниппете указано, что она найдена по тексту ссылки (на данный момент сайт нормально функционирует и его главная страница вполне релевантна запросу). Однако этот факт не сильно повлиял на его позиционирование – сайт остался в ТОПе выдачи. Это вполне могло случиться в том случае, если результат искусственно подмешан в ТОП выдачи, и численная величина его органической релевантности, рассчитанной алгоритмом ранжирования, не влияет на позицию.

История ранжирования по данному запросу, которую любезно предоставляет сервис Megaindex, показывает, что исследуемый сайт появился в топ-10 из ниоткуда в декабре 2015 года и с тех пор находится там с периодическими «миганиями» (отметим, что в день последнего апдейта Яндекса 06.03.2016 сервис не обнаружил исследуемый сайт в топе выдачи, но, как мы видим из упомянутой выше темы на форуме, он появился там уже к 09.03.2016):

Что также наводит на мысли, что появился он там, в результате подмешивания примеси «многорукого бандита».

Проверим гипотезу Станислава Поломаря об изменении поведения сайта в выдаче при попарном сравнении с чуть ниже ранжируемыми в общей выдаче сайтами. Однако, в данном случае мы видим, что это не так, исследуемый пациент и при попарном сравнении целенаправленно бьет тех, кто в общей выдаче находится ниже:

Получается, что, либо «многорукий бандит» в данном случае не при чем, либо методика, предложенная Станиславом, на данный момент не работает.

В своей статье «Примеси к органической выдаче Яндекса» я упоминал об одном способе идентификации «спектральной» примеси, заключающейся в некоторой модификации исходного запроса, которая не влияет на расчет органической релевантности. Идея метода идентификации заключается в том, что подмешивание примеси осуществляется к конкретному ограниченному набору запросов, и из-за того, что запрос формально изменен, у модифицированного запроса примесь исчезает. В частности, в той статье предлагался вариант с добавлением символа @ в конец запроса. Однако, в данном случае подобная модификация не оказывает влияния на положение в выдаче исследуемого сайта.

Тем не менее, экспериментируя с различными модификациями исходного запроса, удалось получить интересные результаты с использованием оператора << (неранжирующее И).

Так, например, выставив по правую сторону от оператора <<< заведомо выполняемое для всех документов запроса ограничение по дате (все документы должны иметь дату переиндексации меньшую, чем еще не наступившая дата 01.01.2017), мы получаем выдачу, в которой исследуемый документ перемещается на 80 позиций вниз:

А ограничив выдачу сайтами на русском и английском языке (английский язык добавляем потому, что исследуемый документ, судя по сниппету, содержит англоязычный текст, состоящий из служебных сообщений об ошибке добавления контента), обнаруживаем перемещение исследуемого сайта на 70-е место в выдаче, причем со сменой релевантной страницы:

Поиск внутри сайта по этому запросу подтверждает, что смена релевантной страницы действительно имеет место:

Таким образом, мы видим, что в определенных случаях поведение исследуемого документа действительно очень напоминает искусственную примесь к органической выдаче. Обращает на себя внимание тот факт, что попарное сравнение с использованием того же оператора << подобного эффекта не дает, как мы убедились ранее. Не исключено, что модификация исходного запроса с помощью операторов url: и site: уже по какой-то причине не приводит к отключению «бандитской примеси».

Анализируя ТОПы выдачи по другим запросам, был найден еще один пример с похожими свойствами:

Он появился в ТОП-10 в декабре 2015 года. И так же, как и в первом случае, модификация запроса с помощью оператора << отбрасывает этого счастливчика на много позиций вниз:

Причем, опять-таки происходит смена самой релевантной страницы сайта с главной на внутреннюю:

Возможно, это тоже проделки «многорукого бандита»? В любом случае, метод модификации запроса представляется весьма интересным в плане возможной идентификации «бандитской» примеси. Ну, или идентификации еще какого-нибудь интересного артефакта, если «многорукий бандит» тут все-таки ни при чем.

Сергей Людкевич
Независимый консультант, супермодератор форума о поисковых системах Searchengines.Guru. Сфера профессиональных интересов - исследование алгоритмов ранжирования поисковых машин, разработка методик поискового продвижения сайтов.