В рамках работы по переводу Robots Exclusion Protocol (REP) в разряд официальных интернет-стандартов Google обновил свою документацию по robots.txt.
Все изменения перечислены в новом разделе «What changed» на странице Robots.txt Specifications. В их числе значатся следующие:
- Удалён раздел «Язык требований»;
- Robots.txt теперь принимает все протоколы на основе URI;
- Google выполняет минимум пять повторений для переадресации. Если файл robots.txt не найден, цикл прекращается и регистрируется ошибка 404. Обработка логических переадресаций к файлу robots.txt на основе HTML-содержания, возвращающего коды 2xx (переадресации на основе фреймов, JavaScript или метатегов обновления) не рассматривается.
- Что касается ошибок 5xx, то если robots.txt недоступен более 30 дней, используется последняя копия, сохранённая в кеше. Если она недоступна, Google заключает, что никаких ограничений сканирования не предусмотрено.
- Google обрабатывает неудачные запросы или неполные данные как ошибку сервера.
- «Записи» теперь называются «строками» или «правилами», в зависимости от ситуации.
- Google не поддерживает обработку элементов с простыми ошибками или опечатками (например, «useragent» вместо «user-agent»).
- В настоящее время Google обрабатывает файлы robots.txt, размер которых составляет до 500 кибибайт (КиБ), и игнорирует контент, который превышает это ограничение.
- Обновлён формальный синтаксис, чтобы он был действительно расширенной формой Бэкуса-Наура (ABNF) в соответствии с RFC5234 и охватывал символы UTF-8 в файле robots.txt.
- Обновлено определение «групп», чтобы оно стало короче и лаконичнее. Добавлен пример для пустой группы.
- Удалены ссылки на устаревшую схему сканирования Ajax.
В русскоязычной версии документа эти изменения пока не отражены.
Напомним, что на днях Google также открыл исходный код своего парсера для robots.txt.
Автор, добрый день.
Не нашёл конвертера, поэтому попрошу вас привести к общему стандарту меры web-веса 🙂
«В настоящее время Google обрабатывает файлы robots.txt, размер которых составляет до 500 кибибайт (КиБ)»
1 киб это 1килобайт