Представитель Bing рассказал, как поисковик удаляет «мусор» из выдачи

Представитель команды «Bing» Ричард Чен (Richard Qian) в рамках программы Microsoft по обеспечению интуитивного и качественного поиска рассказал о том, как поисковик Bing идентифицирует «мусор» и удаляет его из выдачи.

Оптимизаторам важно понимать, что именно поисковик от Microsoft считает за «мусор». Прежде всего, это некорректные ссылки, включающие в себя: «мёртвые» ссылки, код ответа HTTP 404 (Not Found), припаркованные домены. Также из выдачи удаляются пустые и спамерские сниппеты.

В качестве примера «мёртвой» ссылки может выступать страница, которая после запроса HTTP отдает 4xx или 5xx код ошибки. Представители поисковика также сообщают, что в большинстве случаев алгоритм Bing способен оперативно найти и идентифицировать неработающие ссылки. Чтобы быть эффективнее поиск Bing придерживается следующего алгоритма работы: если на странице ресурса обнаруживается некорректная ссылка, поисковик увеличивает частоту повторного сканирования, чтобы точно распознать была ли это ошибка сканирования или ссылка действительно «мёртвая».

Чтобы исключить ошибки при удалении из сессии поиска страницы с ошибкой 404, технологии Bing используют классификаторы контента, обладающие высокой точностью. Алгоритмы Bing анализируют ключевые фразы в названии страницы, в тексте на странице, сопоставляя их с URL. Данный подход позволяет алгоритмам поиска выявить, действительно ли страница недоступна лишь временно или еще следует удалить из выдачи.

Вот как выглядит выдача Bing до и после сканирования страницы с ошибкой 404:

Также Bing исключает из поисковой выдачи припаркованные домены, поскольку они всегда дублируют контент ресурса. Кроме того, такие ресурсы всегда перегружены рекламными объявлениями, поскольку созданы с целью монетизировать трафик. Для выявления и удаления таких доменов поисковик использует целый ряд специальных инструментов и технологий.

Bing также постоянно работает над улучшениями классификатора кодирования, датчика спама, анализатора HTML – данные меры также способствуют существенному сокращению числа некачественных и сомнительных сниппетов в результатах поиска.

Чтобы выявить пустые сниппеты Bing использует специальные динамические краулеры и процессоры документов, плюс ряд классификаторов, позволяющих выявить соответствующие сниппеты в поисковой выдаче.

Более подробное описание того, как поисковик удаляет «мусор» из выдачи можно найти в официальном блоге Bing.

Редактор-переводчик портала Searchengines.ru, работает на сайте с 2010 года. Специализируется на западном интернет-маркетинге, новостях социальных сетей и поисковых систем. Постоянно принимает участие в профильных семинарах и конференциях в качестве журналиста-обозревателя. Языки: английский, французский.