Автор: Олег Борисевич (Aleh Barysevich) – директор по маркетингу и основатель SEO-агентства полного цикла Link-Assistant.Com и компании BuzzBundle.

С чем у вас ассоциируется фраза «поисковая оптимизация»? Многим сразу приходит на ум список факторов ранжирования, таких как правильные теги, релевантные ключевые слова, понятная карта сайта и качественный контент. Но есть ещё один важный аспект – краулинговый бюджет.

Многие SEO-специалисты не обращают внимание на этот фактор, не совсем понимая его суть. Однако краулинговый бюджет можно и нужно оптимизировать. Об этом и пойдёт речь в статье.

Что такое краулинговый бюджет сайта?

Веб-сервисы и поисковые системы используют специальных роботов-пауков, которые сканируют страницы и добавляют их в индекс. Краулеры также определяют ссылки на страницах и переходят по ним, чтобы просканировать другие страницы.

Среди роботов поисковых систем значатся Googlebot, Bingbot и другие. Многие SEO-инструменты также используют пауков для сбора информации.

Под термином «краулинговый бюджет» понимают количество страниц, которые поисковый робот может обойти за конкретный промежуток времени. Если Googlebot сканирует 32 страницы в день, то месячный краулинговый бюджет будет составлять 960 страниц.

Определить примерный краулинговый бюджет сайта можно с помощью таких сервисов, как Google Search Console и Bing Webmaster Tools. Для этого нужно открыть отчёт «Статистика сканирования» и посмотреть, сколько в среднем страниц сканируется в день.

image-1

Оптимизация краулингового бюджета = SEO?

И да и нет. Хотя оба вида оптимизации направлены на то, чтобы сделать страницы более видимыми в поисковых системах, по своей сути они разные.

SEO ставит бо́льший акцент на пользовательском опыте, а оптимизация индексирования сайта ориентирована на поисковых роботов. Как сказал основатель KISSmetrics Нил Пател:

«SEO сосредоточено на процессе оптимизации под запросы пользователей. Оптимизация для Googlebot – на том, как поисковый робот Google получает доступ к сайту».

Как оптимизировать краулинговый бюджет

  1. Убедитесь, что страницы доступны для сканирования

Страницы могут быть просканированы только в том случае, если поисковые роботы могут их найти и перейти по ссылкам на сайте. Следовательно, нужно настроить .htaccess и robots.txt так, чтобы важные страницы сайта не блокировались от индексации. Вы также можете создать текстовые версии для тех страниц, которые содержат мультимедийных файлы.

Если вы не хотите, чтобы страница показывалась в результатах поиска, нужно запретить доступ к ней в .htaccess и robots.txt. Однако, согласно Google, одной директивы disallow в robots.txt для этого недостаточно:

«Директива disallow не гарантирует отсутствия страницы в результатах поиска. Google всё равно может просканировать её с учётом сторонней релевантной информации, такой как входящие ссылки. Если вы хотите строго запретить индексирование страницы, используйте метатег robots со значением noindex или HTTP-заголовок X-Robots-Tag. В этом случае не следует блокировать доступ к странице в файле robots.txt, поскольку робот Google должен просканировать её, чтобы обнаружить тег и выполнить директиву».

Метатег robots с атрибутом noindex. Поместите его в раздел <head> страницы:

<html><head>

<meta name="robots" content="noindex" />

(…)

</head>

X-Robots-Tag. Заголовок X-Robots-Tag может быть элементом HTTP-заголовка для определённого URL. Директива noindex, которая может использоваться в метатеге robots, применима также и к X-Robots-Tag:

HTTP/1.1 200 OK

Date: Tue, 25 May 2010 21:42:43 GMT

(…)

X-Robots-Tag: noindex

(…)
  1. Используйте мультимедийные файлы обдуманно

Раньше Googlebot не мог индексировать JavaScript, Flash и HTML. Но эти трудности по большей части остались в прошлом.

Сейчас Google может обрабатывать большинство типов файлов мультимедиа, однако не все поисковые системы это умеют. Поэтому такие файлы следует использовать с осторожностью. Возможно, будет разумным и вовсе отказаться от них на тех страницах, которые вы хотите видеть в результатах поиска.

Google также рекомендует использовать текстовые эквиваленты для всех нетекстовых файлов. Другими словами, содержание должно быть в текстовом формате, чтобы его можно было просканировать и проиндексировать.

Со списком всех типов файлов, которые может индексировать Google, можно ознакомиться здесь.

  1. Избегайте цепочек редиректов

На каждый редирект расходуется часть краулингового бюджета. Если на сайте присутствуют цепочки с большим количеством 301 или 302 переадресаций, поисковые роботы могут прекратить их сканирование до того, как достигнут целевой страницы. Это значит, что нужная страница не будет проиндексирована. Рекомендуется свести количество редиректов к минимуму и не использовать больше двух перенаправлений подряд.

  1. Исправьте битые ссылки

На вопрос, влияют ли битые ссылки на ранжирование, представитель Google Джон Мюллер как-то сказал: «Нет, это важно в первую очередь для пользователей».

Если его слова – правда, то это одно из фундаментальных различий между SEO и оптимизацией для поисковых роботов. Битые ссылки не играют значимой роли в ранжировании, даже если они затрудняют Googlebot индексирование и ранжирование сайта.

Тем не менее, алгоритмы Google с каждым годом улучшаются и всё, что влияет на UI, может в конечном счёте отразиться на поисковой выдаче.

  1. Управляйте параметрами динамических URL

Поисковые роботы обрабатывают динамические URL, ведущие на одну и ту же страницу, как разные страницы. Это значит, что таким образом может расходоваться краулинговый бюджет. Вы можете управлять параметрами URL в Google Search Console. Для этого нужно перейти в раздел «Параметры URL». Здесь вы сможете сообщить Google, как обрабатывать URL, которые содержат определённый параметр. Таким образом, можно будет исключить обработку идентичного содержания на сайте.

  1. Приведите в порядок карту сайта

Файл XML Sitemap помогает и пользователям и поисковым роботам, организуя контент и облегчая его поиск. Поддерживайте карту сайта в актуальном состоянии и очистите её от всего, что может повредить юзабилити ресурса: страниц, возвращающих ошибки 4xx, ненужных редиректов, неканонических и заблокированных от индексации URL.

Чтобы привести карту сайта в порядок, можно использовать инструмент Website Auditor. С помощью генератора XML Sitemap можно будет создать новую карту сайта, в которой будут отсутствовать заблокированные от индексации страницы. В разделе Site Audit можно будет легко найти страницы, возвращающие ошибки 4xx, 301 и 302 редиректы и неканонические страницы.

image-3

  1. Используйте фиды

Фиды, такие как RSS, XML и Atom, позволяют доставлять контент пользователям даже тогда, когда они не находятся на сайте. Люди могут подписаться на ленту новостей отдельных сайтов и получать регулярные обновления по мере публикации нового контента.

RSS-ленты уже давно считаются хорошим способом повысить вовлечённость пользователей. Они также входят в число ресурсов, которые чаще всего посещает Googlebot. Когда сайт получает обновление, передайте эту информацию в Feed Burner от Google, чтобы она корректно проиндексировалась.

  1. Наращивайте количество внешних ссылок

Недавний эксперимент Йохана Кутарнюка показал, что внешние ссылки коррелируют с количеством посещений сайта поисковыми роботами.

В ходе эксперимента Кутарнюк определил все внутренние и внешние ссылки, указывающие на каждую страницу на 11 разных сайтах. Затем он проанализировал статистику по каждой странице и сравнил результаты. Ниже – данные, полученные по одному из сайтов:

image-4

В результате эксперимента была выявлена сильная корреляция (0,978) между числом посещений сайта поисковым роботом и количеством внешних ссылок.

  1. Оптимизируйте структуру внутренних ссылок

Эксперимент Кутарнюка показал, что внутренние ссылки не оказывают значительного влияния на показатель сканирования. Однако это не значит, что их следует игнорировать. Продуманная структура сайта позволяет поисковым роботам находить контент, не тратя краулинговый бюджет впустую.

Логичная и продуманная структура внутренних ссылок также улучшает пользовательский опыт – особенно, если посетитель может попасть в любое место сайта в три клика. Упрощение доступа к контенту способствует тому, что пользователи проводят на сайте больше времени. В результате его ранжирование может улучшиться.

Заключение

Оптимизация краулингового бюджета сайта – это важная часть работы SEO-специалиста, и ею стоит заниматься. Когда вы облегчаете Google индексацию своего ресурса, роботы-пауки чаще его посещают, и ваши обновления быстрее появляются в результатах поиска. Вы также улучшаете опыт взаимодействия с сайтом пользователей, что в конечном счёте приводит к повышению его позиций в поиске.

ИСТОЧНИКSearch Engine Journal
Редактор-переводчик. Специализируется на западном интернет-маркетинге и SEO. Освещает события в этой области с 2014 года.