Платон Щукин: Почему робот не следует установленным в robots.txt правилам

27 февраля 2015

500

Небезызвестный Платон Щукин опубликовал в своем блоге пост, посвященный причинам попадания результаты поиска файлов или документов, закрытых от индексирующих роботов в файле robots.txt.

Платон особо подчеркнул, что индексирующий робот Яндекса при обходе любого сайта строго соблюдает те правила, которые заданы в robots.txt. Однако для того, чтобы все установленные директивы использовались роботом при посещении сайта, необходимо соблюдать ряд условий:

• Файл robots.txt должен располагаться в корневом каталоге сайта, то есть быть доступен по адресу вида site.ru/robots.txt. Он не может располагаться на другом сайте, поддомене или в другой директории сайта.

• Чтобы директивы из robots.txt были учтены роботом при его обращении к файлу, должен возвращаться код HTTP 200. Если же файл осуществляет перенаправление, или отвечает любым другим кодом, отличным от 200, робот не сможет получить его содержимое.

• Размер файла не должен превышать 32Кб, в противном случае робот посчитает такую инструкцию чрезмерно сложной или ошибочной и будет воспринимать её, как полностью разрешающую.

• Если в robots.txt присутствуют правила для нескольких индексирующих роботов, робот Яндекса будет использовать только те, которые предназначены именно для него, то есть размещенные после строки "User-agent: Yandex".

• Если робот встретит конфликтующие директивы, например:

При выполнении всех перечисленных условий, вебмастер может быть уверен, что робот учтет заданные правила индексирования, а страницы и директории, запрещенные в robots.txt, не будут им посещаться и не смогут появиться в результатах поиска. Платон Щукин также напоминает, что после редактирования robots.txt информация в поиске обновляется не сразу, обычно это происходит в течение 1-2 недель.

Платон Щукин: Почему робот не следует установленным в robots.txt правилам

Обновленные панорамы Минска появились на Яндекс.Картах

Google при поиске по названиям городов показывает информацию о бронировании отелей в блоках Сети знаний

Yandex Data Factory прогнозирует отток игроков World of Tanks

Google стал самым обсуждаемым брендом в интернете в 2014 году

Исследование: Google показывает расширенные варианты ответов на 19,45% запросов

Издатели Новостей Google должны использовать отличительные теги, ссылаясь на сторонние источники