Команда Яндекс.Поиска сообщила о новых правилах обработки директивы Allow текстового файла robots.txt, разрешающей доступ робота к некоторым частям сайта или сайту целиком.
Теперь для корректной обработки этой директивы ее необходимо использовать с учетом порядка: если для данной страницы сайта подходит несколько директив, то выбирается первая в порядке появления в выбранном User-agent блоке.
Через несколько недель Яндекс планирует внедрить изменение в обработке поисковым роботом директивы allow и отказаться от учета порядка. Директивы будут сортироваться по длине префикса URL’а (от меньшего к большему) и применяться последовательно. Такое изменение позволит соответствовать международным принципам применения директивы, чтобы и у российских, и у зарубежных вебмастеров не возникало трудностей при составлении файла robots.txt для разных поисковых систем.
Всем, на чьих сайтах в файлах robots.txt используются директивы allow и disallow, настоятельно рекомендуется проверить их на соответствие новым стандартам.
Олег Сахно (ИнтерЛабс): «К сожалению, существует большой разрыв между тем, каким хотят получить robots.txt разработчики Яндекса, и тем, что отдают вебмастера. Думаю, последовательность команд — это то, о чём задумываются в последнюю очередь. Судя по нашим исследованиям, сам файл присутствует только чуть более, чем на половине сайтов в Рунете. Написание директив Disallow и user-agent вызывает сложности. Возможно, Яндексу стоит добавить уведомление в панель для вебмастеров в том случае, когда количество страниц в индексе значительно снизилось, по причине запрета индексации в robots.txt».