Платон Щукин: Почему робот не следует установленным в robots.txt правилам

Небезызвестный Платон Щукин опубликовал в своем блоге пост, посвященный причинам попадания результаты поиска файлов или документов, закрытых от индексирующих роботов в файле robots.txt.

Платон особо подчеркнул, что индексирующий робот Яндекса при обходе любого сайта строго соблюдает те правила, которые заданы в robots.txt. Однако для того, чтобы все установленные директивы использовались роботом при посещении сайта, необходимо соблюдать ряд условий:

• Файл robots.txt должен располагаться в корневом каталоге сайта, то есть быть доступен по адресу вида site.ru/robots.txt. Он не может располагаться на другом сайте, поддомене или в другой директории сайта.

• Чтобы директивы из robots.txt были учтены роботом при его обращении к файлу, должен возвращаться код HTTP 200. Если же файл осуществляет перенаправление, или отвечает любым другим кодом, отличным от 200, робот не сможет получить его содержимое.

• Размер файла не должен превышать 32Кб, в противном случае робот посчитает такую инструкцию чрезмерно сложной или ошибочной и будет воспринимать её, как полностью разрешающую.

• Если в robots.txt присутствуют правила для нескольких индексирующих роботов, робот Яндекса будет использовать только те, которые предназначены именно для него, то есть размещенные после строки "User-agent: Yandex".

• Если робот встретит конфликтующие директивы, например:

При выполнении всех перечисленных условий, вебмастер может быть уверен, что робот учтет заданные правила индексирования, а страницы и директории, запрещенные в robots.txt, не будут им посещаться и не смогут появиться в результатах поиска. Платон Щукин также напоминает, что после редактирования robots.txt информация в поиске обновляется не сразу, обычно это происходит в течение 1-2 недель.

Журналист, новостной редактор, работает на сайте с 2009 года. Специализация: интернет-маркетинг, SEO, поисковые системы, обзоры профильных мероприятий, отраслевые новости рунета. Языки: румынский, испанский. Кредо: Арфы нет, возьмите бубен.