Неуловимый Бандит Яндекса

Автор: Станислав Поломарь, руководитель направления продвижения Webit

Сегодня в среде специалистов актуален вопрос, как более простым способом идентифицировать результаты работы Бандита в выдаче. Недавно Сергей Людкевич поднял данную проблематику и предложил комбинации с неранжирующим И «<<»: «запрос << (lang:ru | lang:en)» или «запрос << lang:ru» «запрос << date:<20170101».

Это было бы действительно интересно, т.к. если разбирать ситуацию, используя метод попарного сравнения, то можно лишь проводить проверку уже выявленных кандидатов. Также дополнительно рассмотрим корректно ли работает попарное сравнение в выдаче.

Попробуем разобраться в правильности гипотезы. Все данные ниже представлены в двух временных точках: 19 марта и 22 марта (+ 24 марта – отдельные документы).

Данные собирались как по XML, так и по выдаче.

1. Про «не ранжирующие И»

Выдачи «запрос << date:<20170101» и «запрос << lang:ru» в целом похожи, а вот «запрос << (lang:ru | lang:en)» иногда дает сильно отличающиеся изменения (3-я колонка).

Колонки:

  • запрос
  • место сейчас
  • документ
  • место «модифицированный дата»
  • разница с текущим состоянием
  • место «модифицированный lang:ru»
  • разница с текущим состоянием
  • место «модифицированный lang:ru | lang:en»
  • разница с текущим состоянием

И прочие.

Выберем пока в качестве модификации запрос с датой.

На примерах запросов «стройматериалы» и «пиломатериалы» по ТОП-100 имеем следующую картину:

  1. ТОП-10 по составу сохраняется на 70% и 60%.
  2. ТОП-10 по точной позиции сохраняется на 10% и 10%.
  3. ТОП-10 по +/- 1 сохраняется на 30%.

Порядок меняется достаточно значимо.

Вывод: поскольку выдача меняется значимо (70-90%), то стоит рассмотреть только наиболее сильные изменения модифицированной выдачи к обычной как возможных кандидатов.

2. Корреляция сильно вылетевших с Бандитом

Возьмем сайты из ТОП-10, которые упали от 10 позиций при модифицированном запросе.

Колонки:

  1. запрос
  2. место сейчас
  3. документ
  4. место «модифицированный дата»

Разница с текущим состоянием

http://dostavka-stroymaterialov.ru/ — находится в ТОП-10 около года (ниже  — с 05/2015 по 18/03/2016)

Сложно отнести к Бандиту.

http://www.RDStroy.ru/ — вылетал и появлялся, хотя изначально (до ввода Бандита был в ТОП-20)

Кандидат на проверку.

http://www.pilomateriali.ru/ — находится в ТОП-10 около года, причем как правило в ТОП1.

Практически невозможно отнести к Бандиту.

http://www.lesobaza.ru/ — вылетал и появлялся, изначально был в ТОП-20.

Кандидат на проверку.

https://ru.wikipedia.org/ — больше похоже на потребность в Википедии.

Сложно отнести к Бандиту.

Также замечено, что многие сайты, которые по поведению вполне могли бы быть кандидатами, — не выявляются при таком подходе.

Например, колонки:

  • запрос
  • место сейчас
  • документ
  • место «модифицированный дата»
  • разница с текущим состоянием

http://sbitsnab.ru/

http://les-snab.ru/

Выводсравнение модифицированной выдачи и обычной не дает только кандидатов на Бандита, а также непонятно, выявляет ли это сравнение всех кандидатов на попадание под действие Бандита.

Попарное сравнение

Проведём попарное сравнение для кандидатов, перечисленных выше. Добавим в перечень ещё несколько сайтов из ТОП-20, которые кажутся кандидатами «по прыжкам в выдаче»:

http://dostavka-stroymaterialov.ru/

http://www.RDStroy.ru/

http://zergud.ru/

http://stroy-gin.ru/

http://tdRemont.ru/

http://www.andreevstroy.ru/

https://StroiMaterialy-deshevo.ru/

http://www.pilomateriali.ru/

http://www.lesobaza.ru/

http://severlesmarket.ru/

http://les-snab.ru/

http://severderevo.ru/

http://sbitsnab.ru/

http://www.opmplus.ru/

Напомним, что Бандит в итоге пересчитывается в реальную релевантность, поэтому если сейчас при попарном сравнении мы не видим, что сайт должен быть ниже, – не означает, что когда-то в прошлом (месяц-два назад) он не был подкинут Бандитом.

Кандидаты на звание подкинутых Бандитом (разбирательство, почему местами не совпадает XML и выдача, оставим за скобкой):

http://stroy-gin.ru/

http://tdRemont.ru/

По паттерну поведения – вполне похоже.

Что касается http://www.RDStroy.ru/, то ранее предполагалось, что он находится в ТОПе за счет Бандита, т.к. у него – низкая текстовая релевантность (нет сохраненной копии). Но появление текста в индексе (18/03/2016) никак не сказалось на ранжировании. То есть нахождение в ТОПе ранее вряд ли можно считать артефактом, связанным именно с добавочной релевантностью от Бандита (но артефактом его, всё же, считать стоит).

Куда «пропадал» этот сайт аж на 3 месяца – большой вопрос.

Видно, что плюс-минус 1 позиция совпадают все сайты, кроме:

http://severderevo.ru/

http://www.opmplus.ru/

Но 2 более чем вероятных кандидата — http://sbitsnab.ru/ и http://les-snab.ru/ — не подтвердились.

Вывод: попарным сравнением пользоваться можно, т.к. оно «подтверждает» кандидатов на Бандита, остальные либо уже пересчитали релевантность, либо Бандит тут ни при чём (что требует отдельного анализа).

Что касается сравнения выдачи в разных браузерах, IP и пр., то это не должно быть связанно с Бандитом. Как вариант, можно делать постоянные замеры одной и той же выдачи (2 раза в сутки), тогда есть шанс кого-то отловить.

Для попарного сравнения кажется более надежным использовать XML.

4. Что происходит в динамике?

На выкладке, представленной, выше все данные снимались на 19/03/2016. Посмотрим, что поменялось на 22/03/2016.

Вот, кто сильно понизил позицию из старых ТОП-20:

Колонки:

  • позиция была
  • документ
  • позиция стала
  • разница

Как мы помним, http://stroy-gin.ru/ и http://tdRemont.ru/ были подкинуты Бандитом и должны были находиться примерно на этих местах. Для https://StroiMaterialy-deshevo.ru/ изменения ранее и сейчас — не столь значительны. Остальные сайты не проверялись.

Проверим, какие места они должны занимать сейчас.

Как видно, эти сайты сохранили свои позиции с незначительными колебаниями. Причем для подкинутых видны прыжки в основной выдаче. В результате, они практически вернулись на «свое» место.

Возможно, мы видим такие качели по Бандиту, т.к. он с определённой периодичностью «включает» свою добавку и поэтому сайт скачет «туда-сюда». Так, например, уже 24/03/2016 stroy-gin.ru снова оказался в ТОП-10.

Нужно отметить, что поменялся состав ТОП-100, с которым производится сравнение позиций. Поэтому место сайта по сравнению с ним и должно было измениться.

Также было замечено, что:

  • Корректнее производить сравнение по url, а не site
  • Бывают непонятные скачки знака сравнения (было выше, стало ниже). Причём, не во всех браузерах. Этот аспект однако требует отдельных проверок.

Аналогичное сравнение проводим и для второго запроса.

Колонки:

  • позиция была
  • документ
  • позиция стала
  • разница

http://severderevo.ru/ и http://www.opmplus.ru/ по итогам проверки оказались выше и должны были занимать примерно это место, а вот http://les-rub.ru/ просел еще ниже. Остальные не проверялись.

Проверим, какие места они должны занимать сейчас.

Видно, что moskva-snab.ru и lesorama.ru явно были подкинуты Бандитом (второй сайт на данный момент времени уже занимает примерно свое место). Часть заниженных сайтов – firma-elka.ru, lesmos.ru – вернулась 24/03/2016 на свои позиции.

Что касается модифицированных запросов – видны достаточно странные скачки, когда место в выдаче не изменяется:

Вывод: Завышенные или заниженные Бандитом сайты видно по-прежнему, но:

  1. Меняется состав ТОП-100, с которым сравниваем текущие позиции сайтов.
  2. Имеет смысл производить сравнение по URL.
  3. Отдельные пары ведут себя странно (меняют знак), причем в разных браузерах – по-разному.
  4. Возможно, стоит пользоваться только xml для сравнения.

 

Замечено, что какие-то подкинутые сайты возвращаются примерно на «свое» место. То есть, возможно добавочная релевантность работает бинарно – включили/отключили.

 

Что касается модифицированного запроса, то сложно интерпретировать скачки его позиций.

5. В качестве резюме

На данный момент не похоже, что есть запрос, которым можно получить «очищенную» выдачу от Бандита.

Выдача меняется часто, поэтому вкупе с различными персонализациями и тестами, анализировать её достаточно непросто.

Запросы сравнения работают в целом корректно, но замечено, что они могут менять свой знак, как из-за разных браузеров, так и в рамках короткого времени (хотя, и не должны делать этого). Это еще более осложняет анализ.

В последнее время замечено, что Бандит стал чаще понижать сайты, что является отдельной темой для исследования. Но сам шаг – не очень понятный со стороны Яндекса: одно дело «протестировать» годных кандидатов, а другое дело – намерено «топить», вроде как, хорошие документы. Хорошие –  т.к. на длительном периоде позиции документов не ухудшаются, несмотря на скачки вниз. Это уже, скорее, напоминает намеренно организованную игру в рулетку.

Про формулировки, наподобие: «тот сайт на 5-ом месте в ТОП-10» – можно забыть.

Редактор-переводчик портала Searchengines.ru, работает на сайте с 2010 года. Специализируется на западном интернет-маркетинге, новостях социальных сетей и поисковых систем. Постоянно принимает участие в профильных семинарах и конференциях в качестве журналиста-обозревателя. Языки: английский, французский.