Платон Щукин: Почему робот не следует установленным в robots.txt правилам

Небезызвестный Платон Щукин опубликовал в своем блоге пост, посвященный причинам попадания результаты поиска файлов или документов, закрытых от индексирующих роботов в файле robots.txt.

Платон особо подчеркнул, что индексирующий робот Яндекса при обходе любого сайта строго соблюдает те правила, которые заданы в robots.txt. Однако для того, чтобы все установленные директивы использовались роботом при посещении сайта, необходимо соблюдать ряд условий:

• Файл robots.txt должен располагаться в корневом каталоге сайта, то есть быть доступен по адресу вида site.ru/robots.txt. Он не может располагаться на другом сайте, поддомене или в другой директории сайта.

• Чтобы директивы из robots.txt были учтены роботом при его обращении к файлу, должен возвращаться код HTTP 200. Если же файл осуществляет перенаправление, или отвечает любым другим кодом, отличным от 200, робот не сможет получить его содержимое.

• Размер файла не должен превышать 32Кб, в противном случае робот посчитает такую инструкцию чрезмерно сложной или ошибочной и будет воспринимать её, как полностью разрешающую.

• Если в robots.txt присутствуют правила для нескольких индексирующих роботов, робот Яндекса будет использовать только те, которые предназначены именно для него, то есть размещенные после строки "User-agent: Yandex".

• Если робот встретит конфликтующие директивы, например:

При выполнении всех перечисленных условий, вебмастер может быть уверен, что робот учтет заданные правила индексирования, а страницы и директории, запрещенные в robots.txt, не будут им посещаться и не смогут появиться в результатах поиска. Платон Щукин также напоминает, что после редактирования robots.txt информация в поиске обновляется не сразу, обычно это происходит в течение 1-2 недель.

Обновленные панорамы Минска появились на Яндекс.Картах

Яндекс обновил и дополнил панорамы Минска на Яндекс.Картах

Google при поиске по названиям городов показывает информацию о бронировании отелей в блоках Сети знаний

Пользователи заметили, что окно Сети знаний Google при поиске по названию города среди прочих данных показывает ссылку на бронирование отелей и среднюю стоимость бронирования в...

Yandex Data Factory прогнозирует отток игроков World of Tanks

Подразделение Яндекса по работе с «большими данными» Yandex Data Factory (YDF) реализовало проект, связанный с прогнозированием оттока игроков World of Tanks для компании...

Google стал самым обсуждаемым брендом в интернете в 2014 году

Google в 2014 году снова стал самым обсуждаемым брендом в интернете, хотя количество упоминаний о нем уменьшилось на 30% по сравнению с 2013 годом

Исследование: Google показывает расширенные варианты ответов на 19,45% запросов

Расширенные варианты ответов Google отображаются для 19,45% целевых запросов. Такие данные содержит новое исследование 850 тыс

Издатели Новостей Google должны использовать отличительные теги, ссылаясь на сторонние источники

Сервис Новости Google в сентябре 2011 года внедрил отличительный тег, призванный помочь издателям указать на исключительный характер конкретных новостей