Помимо работы с новым сайтом, (о которой было рассказано в предыдущей статье) большое количество вопросов в поддержку поступает о работе с уже проиндексированным ресурсом. Вебмастерам важно следовать тенденциям рынка, смотреть, что нужно именно их пользователям.

Все пользователи поисковой системы хотят, чтобы в результатах поиска участвовала наиболее актуальная и свежая информация. Поэтому вопрос о том, как ускорить индексирование сайта, довольно остро стоит перед каждым вебмастером.

Вот несколько пунктов, при помощи которых можно повлиять на скорость индексирования сайта:

1. Не давайте роботу загружать то, что загружать не нужно

Вопрос: С чем связана большая разница показателей загруженных страниц в поиске? Например:

Загруженные страницы: 294 542
Исключенные страницы: 59 652
Страницы в поиске: 270

Список всех загруженных страниц можно скачать из Яндекс.Вебмастера. Так же, нельзя забывать о том, что Вебмастер хорошо умеет две вещи – собирать данные и показывать их. Поэтому, в разделе «Страницы в поиске», вебмастер может получить исчерпывающую информацию по каждой странице, когда она была добавлена в поиск, когда была удалена и по какой причине.

Поэтому, если вдруг вебмастер столкнулся с описанной выше проблемой, то нужно взять либо архив, либо соответствующий раздел в Вебмастере, и тщательно проанализировать адреса страниц. Зачастую там можно увидеть множество страниц с какими-то случайными параметрами, которые ничего не меняют на странице, тем не менее, такие страницы разрешены в robots.txt, отвечают кодом 200:

Также роботом загружается огромное количество страниц действий – например, страницы покупки, которые все перенаправляют на страницу корзины, и они также в 90% случаев доступны для робота.

Подобные страницы нужно запрещать в файле robots.txt, и со временем данные о них будут удалены из базы робота, они пропадут из Яндекс.Вебмастера, а количество загруженных страниц уменьшится.

Наверняка всех беспокоит также вопрос о том, почему так мало страниц в поиске? Объяснение очень простое. Если большинство страниц товара на вашем сайте выглядит вот так:

Где даже над исходным кодом никто особенно не заморачивается, прописывая стандартные метатеги для всего каталога и используя при этом минимум текста в описаниях.

Если вы хотите, чтобы страницы товаров индексировались и участвовали в поиске, нужно над ними хоть немножко поработать – уникализировать установленные на странице метатеги, добавить больше текстового описания, какие-то рекомендации, отзывы покупателей, ну и фото, чтобы пользователь был уверен в том, что не ошибся в своем выборе.

2. Смотреть логи сервера

При помощи логов сервера можно посмотреть, как каким именно страницам обращается индексирующий робот. Если присмотреться, то можно понять, к каким именно параметрам он обращается:

В данном случае видно, что четыре раза подряд робот обратился к служебным страницам, и это жирный повод запретить их в robots.txt.
Так же, при помощи логов сервера можно увидеть частоту обращений индексирующего робота и других ограничений со стороны хостера.

Как правило, к большому сайту робот совершает 1-2 обращения в секунду, в зависимости от того, сколько страниц этого сайта он знает. Если в логах вы видите, что к страницам вашего сайта робот обращается значительно реже, проверьте, если у вас установлена директива Crawl-delay, очень часто она мешает индексировать большие ресурсы.

Что же касается ограничений со стороны хостинг-провайдеров, то это происходит примерно так. Вы добавили на свой сайт новый раздел, робот узнал о его наличии из файла sitemap, начал обращаться, совершать по 3-4 запроса в секунду, хостер это видит и начинает отвечать на запросы робота медленнее, блокируя возросшую активность. Робот, видя, что сайт начинает медленнее отвечать, уменьшает количество запросов, думая, что это он влияет на работу сайта, соответственно частота и скорость обновления вашей информации в поиске падает.

Проверяйте HTTP-коды ответа. Всем известно, что доступные страницы отвечают кодом 200, но если ваш сайт начинает отвечать кодом 500, 503, 502, робот также снижает количество обращений к вашему сайту, потому что думает, что сейчас либо проводятся какие-то работы, либо сайт занят и к нему лучше обращаться пореже. Обязательно проверяйте коды ответа.

Очень важна скорость ответа сервера (возврат первого и последнего байта). Осуществляя проверку, нужно учитывать, что сервер должен быстро отвечать не только на запрос одной страницы в несколько секунд, но и нескольких страниц в секунду. То есть, готовьтесь к тому, что при добавлении нового раздела, робот может увеличить частоту обращений. Если сервер отвечает медленно, то соответственно индексирующий робот будет реже к нему обращаться.

3. Файл Sitemap

Вопрос: При добавлении нового раздела на сайте (или же при проблемах с индексированием сайта) имея целью скорейшее его индексирование, правильным ли решением будет составить sitemap.xml таким образом, чтобы в нем были только непроиндексированные страницы?

Из вариантов – указывать в sitemap.xml уже существующие страницы или только новые страницы, можно выбрать любой. Индексирующий робот, получая ваш sitemap со списком всех страниц, проверяет, какие страницы были известны ранее, а какие страницы только что появились на сайте. Соответственно, получив список новых страниц, он начнет их индексировать, независимо от того, есть ли этот отдельный файлик с новым разделом.

Новый раздел на сайте может появляться не только при постепенном добавлении информации на сайт, он часто появляется и при редизайне и при смене структуры сайта. Эти вопросы также довольно часто задают службе поддержки, поэтому предлагаю небольшой чек-лист для вебмастеров, который желательно использовать при смене дизайна, либо структуры:

• При смене адресов использовать только 301-й постоянный редирект
• XML-карта (sitemap)
• Проверять нужные страницы на доступность в robots.txt
• Следить за наличием мета-тегов, доступностью необходимых текстовых блоков, аккуратно с JavaScripts
• Проверять noindex и rel=“canonical”
• Следить за битыми ссылками

Оксана Мамчуева
Журналист, новостной редактор, работает на сайте с 2009 года. Специализация: интернет-маркетинг, SEO, поисковые системы, обзоры профильных мероприятий, отраслевые новости рунета.

6
Прокомментировать

avatar
5 Цепочка комментария
1 Ответы по цепочке
0 Последователи
 
Популярнейший комментарий
Цепочка актуального комментария
6 Авторы комментариев
YamaАлександр ВаловГалина НагорнаяЮрий ЖилинИгорь Авторы недавних комментариев
  Подписаться  
новее старее большинство голосов
Уведомление о
Serovec Andrey
Гость
Serovec Andrey

одна вода

Игорь
Гость
Игорь

Это не просто вода, а вода разбавленная водой)

Юрий Жилин
Гость
Юрий Жилин

Это нормально для новичков и для тех, кто хочет освежить знания.
Правда мероприятие это было черти знает когда уже.

Галина Нагорная
Гость
Галина Нагорная

Спасибо! Некоторые вещи (просмотр логов) напомнили.

Александр Валов
Гость
Александр Валов

Где в статье ответ на вопрос из заголовка?

Yama
Гость
Yama

Как-то всё равно мало информации. Чтобы провести аудит сайта, для этого нужно проделать чуток больше работы https://arial-studio.ru/audit-sajta Вот в самом конце немного написано про мега-теги страниц. Даже не написано, а про их просто упомянуто. Вот тут и можно было более подробно об этом написать. Это как раз очень важная деталь при индексировании.