Разделы статей

Календарь событий


Май 2016
Пн Вт Ср Чт Пт Сб Вс
1
2 3 4 5 6 7 8
9 10 11
12
12.05.2016
Конференция: AdTech Russia ( Москва 12.05 - 12.05)
13
13.05.2016
Конференция: VideoDays 2016 ( Москва 13.05 - 14.05)
14 15
16 17 18 19
20
20.05.2016
Конференция: Пятая Вебмастерская Яндекса ( Москва 20.05 - 20.05)
21 22
23 24
25
25.05.2016
Конференция: Российская Неделя Маркетинга ‘2016 ( Москва 25.05 - 28.05)
26 27
28
28.05.2016
Конференция: Mobile Beach Conference 2016 ( Украина 28.05 - 29.05)
29
30
30.05.2016
Конференция: XI Санкт-Петербургская интернет-конференция (СПИК) 2016 ( Санкт-Петербург 30.05 - 31.05)
31
Июнь 2016
Пн Вт Ср Чт Пт Сб Вс
1
2
02.06.2016
Вечерний семинар: Московская презентация Baltic Digital Days 2016 ( Россия 02.06 - 02.06)
3 4 5
6 7 8 9 10 11 12
13 14 15 16 17 18 19
20 21 22 23 24 25 26
27 28
29
29.06.2016
Конференция: Yet another Conference on Marketing 2016 ( Россия 29.06 - 29.06)
30
 


SEO Блог

Статьи

Поиск

С чем роботам приходится иметь дело в Яндексе

Прислано:13.03.2014 в 23:25

Раздел: Поисковые системы

Автор: Кирилл Николаев


Доклад, представленный Кириллом Николаевым (Яндекс) 12 марта 2014 года в Минске, в рамках конференции Неделя Байнета, назывался «Ты, робот» и был напрямую посвящен тем, кого затронуло отключение ссылок.

Напомним, ранее в этот же день, состоялось выступление Александра Садовского, руководителя поисковых сервисов Яндекса, во время которого в прямом эфире были отключены ссылки для ряда коммерческих тематик московского региона.

Что делать тем людям, которые теперь не смогут продвигаться с помощью ссылок? Им нужно развивать и улучшать свои сайты, вникать в бизнес своих клиентов, работать над тем, чтобы сделать свой сайт удобным для пользователя и т.д. – делать все, о чем сказано вот в этом тексте. Это единственный легитимный способ.

Однако все-таки есть люди, которые упорно продвигаются черными методами, и которые наверняка подумают: «Наверное, стоит подкрутить какие-то другие факторы, например, поведенческие». Ответ один – не стоит. Ведь что такое – накрутка поведенческих факторов? Это создание ботов, имитирующих поведение пользователей. Все изобретатели подобных сервисов нахваливают их и говорят, что они такие мощные, классные, умные и как легко они обходят различные защиты Яндекса, представляя свои сервисы, как современные и технологичные конструкции, а фильтры Яндекса – как какие-то агрегаты времен гражданской войны:

Однако, все обстоит совершенно не так, и обойти фильтры Яндекса не так легко. У Яндекса есть три степени очистки, которые позволяют ему практически полностью избавляться от роботов.

Первая ступень – это капча, так называемая роботоловилка. Она предназначена для того, чтобы защитить Яндекс от наплыва большого количества ботов, совершенно простых и примитивных. Если не было этой первой преграды, то на сервисы Яндекса очень сильно возросла бы нагрузка, и ему было бы очень сложно отвечать на запросы пользователей.

Роботоловилка состоит из двух частей – классификатора робота и человека, и теста, призванного отличить одного от другого.

Роботов, на которые рассчитана роботоловилка, можно разделить на три класса:

Цифрами указан процент, успешно подающийся классификации.

Тест же выглядит, как всем нам хорошо знакомая капча – тест Тьюринга. На сегодняшний день это русские слова:

Сегодня объем обращений к Яндексу составляет 200 млн. запросов в сутки, и из них где-то 30-40 млн. классифицируются как роботы.

Но ведь люди, которые используют белое SEO, тоже нуждаются в парсинге, им-то как быть? Ответ – можно пойти в Вебмастер и там, через официальный сервис XML, получать возможность парсинга выдачи. Квоты и лимиты, которые там даются, напрямую зависят от сайтов, привязанных к IP вебмастера. Причем свои лимиты можно кому-то передать, а также их можно получить от других людей. Ну а тем людям, которым хочется дополнительно попарсить, или у которых нет качественных сайтов для получения достаточных лимитов, Яндекс предоставляет ночные скидки до 70%. Это значит, что с 1 до 7 часов утра классификатор очень сильно добреет и позволяет парсить в любом объеме и реже встречать капчу.

Данный классификатор использует порядка 3 тыс. факторов, это довольно много – больше, чем в поиске. Его точность составляет более 99,5%. Точность классификатора трудно переоценить, потому что именно от этого зависит появление капчи. Появление капчи, по сравнению с поиском, составляет на сегодняшний день порядка 5-10%, и это довольно много. Туда также входят и показы капчи браузером.

На появление капчи также очень сильно влияет провайдер, который также должен заботиться о безопасности своих пользователей, а также наличие на компьютере пользователя антивируса.

Доля показов капчи на поиске по четырем странам:

Видно, что Беларусь – аутсайдер, по сравнению с остальными странами. Ну и безусловный лидер тут, конечно, Украина.

Наверняка все заметили, что за последние несколько месяцев капча очень сильно менялась. Это было связано с тем, что мы пытались ее сделать более простой и дружественной для пользователя. Да-да, юзабилити капчи – это не фантастика, а реальность. Было проведено несколько экспериментов, когда изменялся вид капчи, и тщательно отслеживалась реакция и поведение людей.

Как оказалось, самая сложная капча – это латинские случайные буквы, а самая простая – русские слова с доброй коннотацией – солнце, валенки и проч. Сейчас Яндекс использует именно этот вид капчи - с добрыми словами.

Вообще-то, капча Яндекса относится к одной из сложных капч, она очень сложно разгадывается автоматическими методами. Наклон букв, толщина линий, их расположение и так далее, приводят к тому, что автоматическими методами ее очень сложно разгадать. Поэтому капча Яндекса разгадывается так называемыми капчефермами. Вот примеры того, что пытались ввести несчастные работники капчеферм, когда Яндекс поменял капчу:

Это привело к тому, что объем разгадывания капчи снизился в два раза, а стоимость капчи возросла в 10 раз. Можно сказать, что Яндекс стоит на страже отечественного работника. Кстати, это один из ответов на вопрос – что же делать молодым людям – сеошникам после отмены ссылочного. Яндекс о них побеспокоился – они могут разгадывать капчу.

Капча - это единственный из антироботных функционалов Яндекса, который к тому же общается с людьми, поэтому существует даже капча-саппорт, и если у пользователей возникают какие-то трудности с капчей, можно обращаться по адресу - feedback2.yandex.ru.

Вторая ступень – быстрая и легкая очистка от роботов, которая в основном используется в персонализированных сервисах:

• Персонализация

• Поисковые подсказки

• …

Для ограничения reverse engineering’а

Третья ступень – глубокая очистка. Это крупный, очень хорошо развитый алгоритм, использующий огромное количество данных, учитывающий большое количество пользовательских распределений.

Алгоритм глубокой очистки это:

• Около 2000 факторов (распределений)

• Около 200 функций очистки

• В основном используется 34 фактора

Вот как выглядит смоделированное пользовательское поведение, и вот почему большая часть распознается алгоритмом глубокой очистки:

Еще примеры. Более сложными роботами являются так называемые «роботы с бородой», это когда их пытаются сделать более менее похожими на человека (аксакалы интернета, 40 лет в сети). Однако, если проследить запросы этого аксакала, то выясняется, что это всего навсего кровельный робот, что следует из географии его запросов:

Кровля металлическая
Кровля мягкая
Кровля одноклассники
Кровля скачать бесплатно
Кровля порно.

Все эти данные отслеживаются Яндексом, накапливаются им и хранятся. Со временем те сайты, которые злоупотребляют накруткой, пользуясь услугами пресловутых сервисов или SEO-организаций, попадают под санкции. Санкции накладываются на довольно длительный период, где-то около года. Перед этим провинившийся получает следующее сообщение от саппорта:

Использование автоматических сервисов накрутки - зло, об этом должен знать каждый, кто собирается прибегнуть к их услугам. Риски - велики, а польза - весьма сомнительна.

Яндекс




 

РЕКЛАМА

Новости

Пресс-релизы

таль электрическая