Представитель Bing рассказал, как поисковик удаляет «мусор» из выдачи

Представитель команды «Bing» Ричард Чен (Richard Qian) в рамках программы Microsoft по обеспечению интуитивного и качественного поиска рассказал о том, как поисковик Bing идентифицирует «мусор» и удаляет его из выдачи.

Оптимизаторам важно понимать, что именно поисковик от Microsoft считает за «мусор». Прежде всего, это некорректные ссылки, включающие в себя: «мёртвые» ссылки, код ответа HTTP 404 (Not Found), припаркованные домены. Также из выдачи удаляются пустые и спамерские сниппеты.

В качестве примера «мёртвой» ссылки может выступать страница, которая после запроса HTTP отдает 4xx или 5xx код ошибки. Представители поисковика также сообщают, что в большинстве случаев алгоритм Bing способен оперативно найти и идентифицировать неработающие ссылки. Чтобы быть эффективнее поиск Bing придерживается следующего алгоритма работы: если на странице ресурса обнаруживается некорректная ссылка, поисковик увеличивает частоту повторного сканирования, чтобы точно распознать была ли это ошибка сканирования или ссылка действительно «мёртвая».

Чтобы исключить ошибки при удалении из сессии поиска страницы с ошибкой 404, технологии Bing используют классификаторы контента, обладающие высокой точностью. Алгоритмы Bing анализируют ключевые фразы в названии страницы, в тексте на странице, сопоставляя их с URL. Данный подход позволяет алгоритмам поиска выявить, действительно ли страница недоступна лишь временно или еще следует удалить из выдачи.

Вот как выглядит выдача Bing до и после сканирования страницы с ошибкой 404:

Также Bing исключает из поисковой выдачи припаркованные домены, поскольку они всегда дублируют контент ресурса. Кроме того, такие ресурсы всегда перегружены рекламными объявлениями, поскольку созданы с целью монетизировать трафик. Для выявления и удаления таких доменов поисковик использует целый ряд специальных инструментов и технологий.

Bing также постоянно работает над улучшениями классификатора кодирования, датчика спама, анализатора HTML – данные меры также способствуют существенному сокращению числа некачественных и сомнительных сниппетов в результатах поиска.

Чтобы выявить пустые сниппеты Bing использует специальные динамические краулеры и процессоры документов, плюс ряд классификаторов, позволяющих выявить соответствующие сниппеты в поисковой выдаче.

Более подробное описание того, как поисковик удаляет «мусор» из выдачи можно найти в официальном блоге Bing.

MainLink ускоряет Быстрый старт

Биржа MainLink сообщила об улучшении и ускорении модуля Быстрый старт

Google вносит изменения в HTTP referer для зашифрованных запросов

Как сообщается в официальном блоге Google, в ближайшие недели команда поисковика планирует внести изменения в HTTP referer браузера Chrome, с тем чтобы сократить время загрузки...

Яндекс запустил диалоговые поисковые подсказки

Компания Яндекс сообщила о введении диалоговых подсказок для неоднозначных пользовательских запросов. Многозначные запросы составляют примерно 20% от всех вопросов к Яндексу

Власти США и Европы проверят, следит ли Google за пользователями

Как сообщают западные СМИ, американские и европейские регуляторы приступили к расследованию в отношении Google из-за нарушения конфиденциальности пользователей Safari и других...

В Google Analytics появились расширенные социальные отчеты

Как сообщается в официальном блоге Google Analytics, в аналитическом сервисе интернет-гиганта появились расширенные социальные отчеты

Французские власти подозревают Google в неуплате налогов

Как сообщает The Next Web со ссылкой на французское издание L’Express, корпорации Google не удастся уклониться от уплаты налогов во Франции, общая сумма которых может...