С чем роботам приходится иметь дело в Яндексе

Доклад, представленный Кириллом Николаевым (Яндекс) 12 марта 2014 года в Минске, в рамках конференции Неделя Байнета, назывался «Ты, робот» и был напрямую посвящен тем, кого затронуло отключение ссылок.

Напомним, ранее в этот же день, состоялось выступление Александра Садовского, руководителя поисковых сервисов Яндекса, во время которого в прямом эфире были отключены ссылки для ряда коммерческих тематик московского региона.

Что делать тем людям, которые теперь не смогут продвигаться с помощью ссылок? Им нужно развивать и улучшать свои сайты, вникать в бизнес своих клиентов, работать над тем, чтобы сделать свой сайт удобным для пользователя и т.д. – делать все, о чем сказано вот в этом тексте. Это единственный легитимный способ.

Однако все-таки есть люди, которые упорно продвигаются черными методами, и которые наверняка подумают: «Наверное, стоит подкрутить какие-то другие факторы, например, поведенческие». Ответ один – не стоит. Ведь что такое – накрутка поведенческих факторов? Это создание ботов, имитирующих поведение пользователей. Все изобретатели подобных сервисов нахваливают их и говорят, что они такие мощные, классные, умные и как легко они обходят различные защиты Яндекса, представляя свои сервисы, как современные и технологичные конструкции, а фильтры Яндекса – как какие-то агрегаты времен гражданской войны:

Однако, все обстоит совершенно не так, и обойти фильтры Яндекса не так легко. У Яндекса есть три степени очистки, которые позволяют ему практически полностью избавляться от роботов.

Первая ступень – это капча, так называемая роботоловилка. Она предназначена для того, чтобы защитить Яндекс от наплыва большого количества ботов, совершенно простых и примитивных. Если не было этой первой преграды, то на сервисы Яндекса очень сильно возросла бы нагрузка, и ему было бы очень сложно отвечать на запросы пользователей.

Роботоловилка состоит из двух частей – классификатора робота и человека, и теста, призванного отличить одного от другого.

Роботов, на которые рассчитана роботоловилка, можно разделить на три класса:

Цифрами указан процент, успешно подающийся классификации.

Тест же выглядит, как всем нам хорошо знакомая капча – тест Тьюринга. На сегодняшний день это русские слова:

Сегодня объем обращений к Яндексу составляет 200 млн. запросов в сутки, и из них где-то 30-40 млн. классифицируются как роботы.

Но ведь люди, которые используют белое SEO, тоже нуждаются в парсинге, им-то как быть? Ответ – можно пойти в Вебмастер и там, через официальный сервис XML, получать возможность парсинга выдачи. Квоты и лимиты, которые там даются, напрямую зависят от сайтов, привязанных к IP вебмастера. Причем свои лимиты можно кому-то передать, а также их можно получить от других людей. Ну а тем людям, которым хочется дополнительно попарсить, или у которых нет качественных сайтов для получения достаточных лимитов, Яндекс предоставляет ночные скидки до 70%. Это значит, что с 1 до 7 часов утра классификатор очень сильно добреет и позволяет парсить в любом объеме и реже встречать капчу.

Данный классификатор использует порядка 3 тыс. факторов, это довольно много – больше, чем в поиске. Его точность составляет более 99,5%. Точность классификатора трудно переоценить, потому что именно от этого зависит появление капчи. Появление капчи, по сравнению с поиском, составляет на сегодняшний день порядка 5-10%, и это довольно много. Туда также входят и показы капчи браузером.

На появление капчи также очень сильно влияет провайдер, который также должен заботиться о безопасности своих пользователей, а также наличие на компьютере пользователя антивируса.

Доля показов капчи на поиске по четырем странам:

Видно, что Беларусь – аутсайдер, по сравнению с остальными странами. Ну и безусловный лидер тут, конечно, Украина.

Наверняка все заметили, что за последние несколько месяцев капча очень сильно менялась. Это было связано с тем, что мы пытались ее сделать более простой и дружественной для пользователя. Да-да, юзабилити капчи – это не фантастика, а реальность. Было проведено несколько экспериментов, когда изменялся вид капчи, и тщательно отслеживалась реакция и поведение людей.

Как оказалось, самая сложная капча – это латинские случайные буквы, а самая простая – русские слова с доброй коннотацией – солнце, валенки и проч. Сейчас Яндекс использует именно этот вид капчи — с добрыми словами.

Вообще-то, капча Яндекса относится к одной из сложных капч, она очень сложно разгадывается автоматическими методами. Наклон букв, толщина линий, их расположение и так далее, приводят к тому, что автоматическими методами ее очень сложно разгадать. Поэтому капча Яндекса разгадывается так называемыми капчефермами. Вот примеры того, что пытались ввести несчастные работники капчеферм, когда Яндекс поменял капчу:

Это привело к тому, что объем разгадывания капчи снизился в два раза, а стоимость капчи возросла в 10 раз. Можно сказать, что Яндекс стоит на страже отечественного работника. Кстати, это один из ответов на вопрос – что же делать молодым людям – сеошникам после отмены ссылочного. Яндекс о них побеспокоился – они могут разгадывать капчу.

Капча — это единственный из антироботных функционалов Яндекса, который к тому же общается с людьми, поэтому существует даже капча-саппорт, и если у пользователей возникают какие-то трудности с капчей, можно обращаться по адресу — feedback2.yandex.ru.

Вторая ступень – быстрая и легкая очистка от роботов, которая в основном используется в персонализированных сервисах:

• Персонализация

• Поисковые подсказки

• …

Для ограничения reverse engineering’а

Третья ступень – глубокая очистка. Это крупный, очень хорошо развитый алгоритм, использующий огромное количество данных, учитывающий большое количество пользовательских распределений.

Алгоритм глубокой очистки это:

• Около 2000 факторов (распределений)

• Около 200 функций очистки

• В основном используется 34 фактора

Вот как выглядит смоделированное пользовательское поведение, и вот почему большая часть распознается алгоритмом глубокой очистки:

Еще примеры. Более сложными роботами являются так называемые «роботы с бородой», это когда их пытаются сделать более менее похожими на человека (аксакалы интернета, 40 лет в сети). Однако, если проследить запросы этого аксакала, то выясняется, что это всего навсего кровельный робот, что следует из географии его запросов:

Кровля металлическая

Кровля мягкая

Кровля одноклассники

Кровля скачать бесплатно

Кровля порно.

Все эти данные отслеживаются Яндексом, накапливаются им и хранятся. Со временем те сайты, которые злоупотребляют накруткой, пользуясь услугами пресловутых сервисов или SEO-организаций, попадают под санкции. Санкции накладываются на довольно длительный период, где-то около года. Перед этим провинившийся получает следующее сообщение от саппорта:

Использование автоматических сервисов накрутки — зло, об этом должен знать каждый, кто собирается прибегнуть к их услугам. Риски — велики, а польза — весьма сомнительна.

Журналист, новостной редактор, работает на сайте с 2009 года. Специализация: интернет-маркетинг, SEO, поисковые системы, обзоры профильных мероприятий, отраслевые новости рунета. Языки: румынский, испанский. Кредо: Арфы нет, возьмите бубен.