Небезызвестный Платон Щукин опубликовал в своем блоге пост, посвященный причинам попадания результаты поиска файлов или документов, закрытых от индексирующих роботов в файле robots.txt.
Платон особо подчеркнул, что индексирующий робот Яндекса при обходе любого сайта строго соблюдает те правила, которые заданы в robots.txt. Однако для того, чтобы все установленные директивы использовались роботом при посещении сайта, необходимо соблюдать ряд условий:
• Файл robots.txt должен располагаться в корневом каталоге сайта, то есть быть доступен по адресу вида site.ru/robots.txt. Он не может располагаться на другом сайте, поддомене или в другой директории сайта.
• Чтобы директивы из robots.txt были учтены роботом при его обращении к файлу, должен возвращаться код HTTP 200. Если же файл осуществляет перенаправление, или отвечает любым другим кодом, отличным от 200, робот не сможет получить его содержимое.
• Размер файла не должен превышать 32Кб, в противном случае робот посчитает такую инструкцию чрезмерно сложной или ошибочной и будет воспринимать её, как полностью разрешающую.
• Если в robots.txt присутствуют правила для нескольких индексирующих роботов, робот Яндекса будет использовать только те, которые предназначены именно для него, то есть размещенные после строки "User-agent: Yandex".
• Если робот встретит конфликтующие директивы, например:
При выполнении всех перечисленных условий, вебмастер может быть уверен, что робот учтет заданные правила индексирования, а страницы и директории, запрещенные в robots.txt, не будут им посещаться и не смогут появиться в результатах поиска. Платон Щукин также напоминает, что после редактирования robots.txt информация в поиске обновляется не сразу, обычно это происходит в течение 1-2 недель.