Автор: Робин Рожон (Robin Rozhon) – SEO-стратег, Electronic Arts

Я использую веб-краулеры на ежедневной основе. Но хотя эти инструменты очень полезны, они лишь имитируют поведение роботов поисковых систем, а это значит, что вы никогда не видите полной картины.

Единственный инструмент, который даёт полное представление о том, как поисковые системы сканируют сайт – это лог-файлы. При этом многие люди до сих пор одержимы бюджетом сканирования – числом URL, которые Googlebot может обойти.

С помощью анализа лог-файлов вы можете обнаружить те URL, о которых даже не подозревали, но при этом они сканируются поисковыми системами.

«Расходование ресурсов сервера на такие страницы приводит к тому, что Google не может просканировать те страницы, которые действительно являются ценными, что может привести к значительным задержкам в обнаружении отличного контента на сайте», — отметили в Google.

Это увлекательная тема, но в действительно большинству сайтов не нужно беспокоиться о бюджете сканирования. Так, известный в SEO-сообществе сотрудник Google Джон Мюллер уже не раз говорил об этом.

Тем не менее, в анализе лог-файлов, создаваемых этими обходами, таятся значительные возможности для SEO. Он покажет, какие страницы сканирует Google и есть ли какие-либо проблемы, которые нужно исправить.

Когда вы знаете наверняка, что говорят вам ваши лог-файлы, вы получаете важную информацию о том, как Google сканирует и видит ваш сайт. А это значит, что располагая этими данными вы сможете оптимизировать свой сайт, чтобы увеличить трафик. И чем крупнее сайт, тем большее влияние может оказать на него решение этих проблем.

Что такое журналы сервера

Лог-файлы – это запись всего, что входит и выходит с сервера. Это своего рода книга запросов, сделанных краулерами и реальными пользователями. С помощью этих файлов вы можете точно узнать, какие ресурсы Google сканирует на вашем сайте.

Вы также можете увидеть, какие ошибки требуют вашего внимания. Например, одна из ошибок, которую мы обнаружили через анализ лог-файлов, заключалась в том, что наша CMS создавала два URL-адреса для каждой страницы и Google сканировал обе версии. В результате это привело к возникновению проблем с дублированным контентом, поскольку два URL с одинаковым содержимым конкурировали друг с другом.

Анализ лог-файлов – это не ракетостроение. Логика этого процесса такая же, как при работе с таблицами в Excel или Google Sheets. Чтобы получить информацию для анализа, нужно экспортировать и отфильтровать эти данные.

При первом просмотре содержимое лог-файла может показаться несколько устрашающим, потому что когда вы откроете его, то увидите что-то вроде этого:

Но вам нужно успокоиться, выбрать любую строку и внимательнее присмотреться к ней. Например:

66.249.65.107
- - [08/Dec/2017:04:54:20 -0400] "GET /contact/ HTTP/1.1" 200 11179
"-" "Mozilla/5.0 (compatible; Googlebot/2.1;
+http://www.google.com/bot.html)"

Вы быстро поймёте, что:

  • 66.249.65.107 – это IP-адрес (кто);
  • [08/Dec/2017:04:54:20 -0400] – это метка времени (когда);
  • GET – это метод;
  • /contact/ — это запрашиваемый URL (что);
  • 200 – это код ответа сервера (результат);
  • 11179 – количество переданных байтов (размер);
  • “-” – URL перехода (источник). В данном случае это поле пустое, поскольку запрос был сделан краулером;
  • Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html) – это агент пользователя (подпись). В данном случае это user-agent Googlebot.

Когда вы знаете, из чего состоит каждая строка, содержимое лог-файла уже не кажется таким пугающим. Теперь можно переходить к следующим шагам.

Инструменты, которые можно использовать

Есть много инструментов, с помощью которых можно анализировать содержимое лог-файлов. В этой статье я не буду приводить полный список доступных вариантов, но проведу различие между статическими и реал-тайм инструментами.

  • Статические – это те инструменты, которые анализируют статические файлы. В них вы не можете расширить временной период. Хотите проанализировать другой период? Вам нужно будет запросить новый лог-файл. Мой любимый инструмент для анализа статических файлов – Power BI.
  • Реал-тайм инструменты дают вам прямой доступ к журналам сервера. Мне нравится ELK Stack (Elasticsearch, Logstash и Kibana) с открытым исходным кодом. Для его внедрения потребуются определённые усилия, но как только стек будет готов, вы сможете менять временные рамки на основании своих потребностей и для этого вам не понадобится помощь программиста.

Приступаем к анализу

Не погружайтесь в лог-файлы в надежде найти что-то интересное в процессе – начните с вопросов. Если вы не сформулировали вопросы с самого начала, то в конечном итоге получите кучу информации, но не будете понимать, что с ней делать дальше.

Вот несколько примеров тех вопросов, которые я использую в начале анализа:

  • Какие поисковые системы сканируют мой сайт?
  • Какие URL сканируются чаще всего?
  • Какие типы контента сканируются чаще всего?
  • Какие коды ответа сервера возвращаются?

Если вы видите, что Google сканирует несуществующие страницы (404), вы можете поинтересоваться, какие из этих страниц возвращают код ответа сервера 404.

Упорядочьте список по количеству запросов и оцените те из них, по которым цифры самые большие, чтобы найти страницы с самым высоким приоритетом (чем больше запросов, тем выше приоритет). Подумайте, что с ними можно сделать – переадресовать их на другие URL или выполнить другие действия.

Если вы используете CDN или кеш-сервер, то вам также понадобятся их данные для получения полной картины.

Сегментируйте данные

Группировка данных в сегменты позволяет получить агрегированные цифры и более полное представление о происходящем. В результате становится легче определить тренды, которые можно пропустить, анализируя только данные на уровне отдельных URL.

Есть несколько способов группировки URL:

  • По типу контента (страницы товаров vs страницы категорий)
  • По языку (английский vs русский)
  • По региону (США vs Канада)
  • По формату файла (JS vs изображения vs CSS)

Также не забывайте сегментировать данные по агенту пользователя. Если вы будете смотреть на статистику в целом, то это вряд ли позволит выделить какие-то конкретные тренды.

Отслеживайте изменения в поведении краулеров

С течением времени ваш сайт меняется, что также влечёт за собой изменения в поведении краулеров. Googlebot часто увеличивает или снижает скорость сканирования на основании таких факторов, как скорость загрузки страницы, структура внутренних ссылок и наличие «ловушек для краулеров».

Поэтому хорошо бы проверять журналы сервера на протяжении года или после внесения изменений в работу сайта. Когда мы внедряем значительные изменения на крупных сайтах, то проверяем эти файлы практически еженедельно.

Анализируя журналы сервера как минимум дважды в год, вы увидите, как меняется поведение краулеров.

Следите за спуфингом

Чтобы избежать спам-фильтров и блокировки, боты и «скреперы» контента могут выдавать себя за агента пользователя Googlebot.

Чтобы проверить, действительно ли краулер, обращающийся к вашему серверу, является роботом Googlebot, вы можете запустить обратный просмотр DNS, а затем прямой просмотр DNS. Подробнее об этом можно узнать в Справочном центре Google для вебмастеров.

Объединяйте лог-файлы с другими источниками данных

Подключаться к другим источникам данных необязательно, но сделав это, можно получить больше информации и контекста. Из-за возможности лёгкого подключения нескольких наборов данных и получения статистики из них нашим инструментом выбора является Power BI, но вы можете использовать тот инструмент, который больше нравится вам (например, Tableau).

Объедините данные из лог-файлов со сведениями из таких источников, как Google Analytics, данные о сканировании, файлы Sitemap, и начните задавать вопросы. Например:

  • Какие страницы не включены в файл sitemap.xml, но при этом активно сканируются?
  • Какие страницы включены в файл sitemap.xml, но не сканируются?
  • Как часто сканируются страницы, приносящие доход?
  • Являются ли большинство сканируемых страниц индексируемыми?

Данные, полученные в результате анализа, помогут вам усилить свою SEO-стратегию. Например, обнаружив, что около 70% запросов Googlebot относятся к тем страницам, которые не индексируются, вы сможете предпринять необходимые действия.

Используйте лог-файлы для решения вопросов с Google Analytics

Журналы сервера – это не только ещё один инструмент для SEO. Это также бесценный источник информации, с помощью которого можно выявить технические ошибки ещё до того, как они станут крупной проблемой.

Случай из практики

В прошлом году Google Analytics сообщил о крупном падении трафика по нашим брендированным запросам. Однако наш инструмент для отслеживания ключевых слов, STAT Search Analytics, и другие инструменты не показывали ничего, что могло бы стать причиной такого снижения.

Разобраться в ситуации нам помогли лог-файлы. На самом деле никакого падения трафика не было. Снижение показателей было вызвано тем, что недавно внедрённый нами защитный экран уровня приложений (Web Application Firewall) переопределял referrer, в результате чего часть органического трафика в Google Analytics классифицировалась как прямой.

Быстро найти причину нам помогло использование лог-файлов в сочетании с отслеживанием ключевых слов в STAT.

Вместо заключения

Анализ лог-файлов – это важный инструмент для SEO-специалиста, особенно если речь идёт о работе с крупными сайтами.

Наш совет – начните с сегментации данных и отслеживания изменений с течением времени. Когда почувствуете, что готовы, изучите возможности объединения этих данных с данными сканирования или Google Analytics. Здесь сокрыты огромные возможности для SEO.

ИСТОЧНИКБлог Moz
Редактор-переводчик. Специализируется на западном интернет-маркетинге и SEO. Освещает события в этой области с 2014 года.

Прокомментировать

avatar
  Подписаться  
Уведомление о