Google опубликовал список всех изменений в спецификации robots.txt

В рамках работы по переводу Robots Exclusion Protocol (REP) в разряд официальных интернет-стандартов Google обновил свою документацию по robots.txt.


Все изменения перечислены в новом разделе «What changed» на странице Robots.txt Specifications. В их числе значатся следующие:

  • Удалён раздел «Язык требований»;
  • Robots.txt теперь принимает все протоколы на основе URI;
  • Google выполняет минимум пять повторений для переадресации. Если файл robots.txt не найден, цикл прекращается и регистрируется ошибка 404. Обработка логических переадресаций к файлу robots.txt на основе HTML-содержания, возвращающего коды 2xx (переадресации на основе фреймов, JavaScript или метатегов обновления) не рассматривается. 
  • Что касается ошибок 5xx, то если robots.txt недоступен более 30 дней, используется последняя копия, сохранённая в кеше. Если она недоступна, Google заключает, что никаких ограничений сканирования не предусмотрено.
  • Google обрабатывает неудачные запросы или неполные данные как ошибку сервера.
  • «Записи» теперь называются «строками» или «правилами», в зависимости от ситуации.
  • Google не поддерживает обработку элементов с простыми ошибками или опечатками (например, «useragent» вместо «user-agent»).
  • В настоящее время Google обрабатывает файлы robots.txt, размер которых составляет до 500 кибибайт (КиБ), и игнорирует контент, который превышает это ограничение.
  • Обновлён формальный синтаксис, чтобы он был действительно расширенной формой Бэкуса-Наура (ABNF) в соответствии с RFC5234 и охватывал символы UTF-8 в файле robots.txt.
  • Обновлено определение «групп», чтобы оно стало короче и лаконичнее. Добавлен пример для пустой группы.
  • Удалены ссылки на устаревшую схему сканирования Ajax.

В русскоязычной версии документа эти изменения пока не отражены.

Напомним, что на днях Google также открыл исходный код своего парсера для robots.txt.

preview Google перестанет поддерживать директиву noindex в robots.txt

Google перестанет поддерживать директиву noindex в robots.txt

Начиная с 1 сентября Google перестанет поддерживать недокументированные правила в Robots Exclusion Protocol
preview В работе Cloudflare снова произошёл масштабный сбой

В работе Cloudflare снова произошёл масштабный сбой

Сегодня в работе крупнейшего DNS- и CDN-сервиса Cloudflare произошёл масштабный сбой, в результате которого миллионы сайтов по всему миру ушли офлайн - примерно на 30 минут
preview Яндекс ответил на претензии относительно доступа к колдунщикам в поиске

Яндекс ответил на претензии относительно доступа к колдунщикам в поиске

В начале недели стало известно, что пять сайтов – частных объявлений Avito, поиска недвижимости ЦИАН, поиска специалистов Profi.ru, карт 2ГИС и онлайн-кинотеатр Ivi...
preview В результатах поиска Google теперь можно увидеть фейерверк

В результатах поиска Google теперь можно увидеть фейерверк

Англоязычные пользователи заметили, что в Google появилась новая пасхалка
preview Google Data Studio получил обновлённую главную страницу и новые функции

Google Data Studio получил обновлённую главную страницу и новые функции

Google обновил главную страницу сервиса Data Studio, чтобы пользователям было проще находить и создавать отчёты
preview ICANN убрала ограничение цены для домена .org, несмотря на оппозицию

ICANN убрала ограничение цены для домена .org, несмотря на оппозицию

Ранее в этом году ICANN вынесла на публичное обсуждение новый контракт с Public Interest Registry – некоммерческой организацией, которая управляет доменом верхнего уровня .org