Как правильно искать и удалять дубли страниц на сайте

Александр Смирнов, инженер вебмастерских сервисов Яндекса, с подробным рассказом о выявлении и устранении дублей на сайте.

13 июля Яндекс провел очередной вебинар для вебмастеров, посвященный одной из самых распространенных проблем при работе с сайтом с точки зрения поисковой оптимизации —выявлению и удалению дублей страниц и других ненужных документов. Александр Смирнов рассказал и показал, как работать со «Статистикой обхода» и архивами загруженных страниц, которые помогают находить дубли и служебные страницы. Также объяснил, как составлять robots.txt для документов такого типа.

Перед тем, как начать говорить о дублях, Александр дал определение дублирующей странице сайта:

Дубли – две или более страниц одного сайта, которые содержат идентичный или в достаточной мере похожий текстовый контент.

Довольно часто дубли – это одна и та же страница сайта, доступная по разным URL-адресам.

Причин появления дублей на сайте – множество и все они связаны с различными ошибками. Например:

Ошибки в содержимом страниц:

• некорректные относительные ссылки

• отсутствие текста

Некорректные настройки:

• HTTP-200 вместо HTTP-404

• доступность служебных страниц

Ошибки в CMS:

• особенности структуры

Большое количество возможных причин возникновения дублей обычно очень гнетет вебмастеров и они откладывают их поиск в долгий ящик, не желая тратить на это время. Делать этого не стоит, так как наличие дублей страниц на сайте зачастую приводит к различным проблемам.

01 | Опасность дублей на сайте

Проблемы, к которым приводят дубли:

• Смена релевантной страницы в результатах поиска

• Обход дублирующих страниц

• Затруднение сбора статистики

Смена релевантной страницы

Например, на сайте есть бухгалтерские услуги, описание которых доступно по двум адресам:

site.ru/uslugi/buhgalterskie-uslugi/

site.ru/buhgalterskie-uslugi/

Первый адрес находится в разделе «Услуги», а второй адрес – это страничка в корне сайта. Контент обеих страниц абсолютно одинаков.

Робот не хранит в своей базе несколько идентичных документов, поэтому в поиске остается только один из них – на усмотрение робота. Кажется, что в этом нет ничего плохого, ведь страницы идентичны. Однако опытные вебмастера знают, что позиции конкретной страницы по запросам рассчитываются на основании нескольких сотен показателей, поэтому при смене страницы в поисковой выдаче, позиции могут измениться.

Именно так и произошло в случае с бухгалтерскими услугами – по конкретному запросу [услуги бухгалтерского учета] в середине июня произошло конкретное проседание позиций, чтобы было связано со сменой релевантной страницы в поисковой выдаче.

Через некоторое время релевантная страница вернулась в выдачу, однако совершенно очевидно, что даже такое небольшое изменение может повлиять на количество трафика на ресурс.

Обход дублирующих страниц

При наличии большого количества дублей на ресурсе, поисковому роботу приходится постоянно посещать большое количество страниц. Поскольку количество запросов со стороны индексирующего робота ограничено (производителем сервера или CMS сайта, вебмастером с помощью директивы Crawl-delay), он, при наличии большого количества дублирующих страниц, начинает скачивать именно их, вместо того чтобы индексировать нужные страницы сайта. В результате в поисковой выдаче могут показываться какие-то неактуальные данные и пользователи не смогут найти нужную им информацию, хоть она и размещена на сайте.

Пример из практики по обходу дублирующих страниц, из которого видно, что до конца мая робот ежедневно скачивал чуть меньше миллиона страниц интернет-магазина. После обновления ресурса и внесения изменений на сайт, робот резко начинает увеличивать нагрузку на ресурс, скачивая по несколько миллионов страниц в день:

Большая часть этих страниц – дубли, с некорректными GET-параметрами, которые появились из-за некорректной работы CMS, используемой на сайте.

Проблемы со сбором статистики в Яндекс.Вебмастере и Яндекс.Метрике

Если говорить о Вебмастере, то в разделе «Страницы в поиске» можно наблюдать вот такую картину:

При каждом обновлении поисковой базы, количество страниц в поиске остается практически неизменным, но видно, что робот при каждом обновлении добавляет и удаляет примерно одинаковое количество страниц. То есть какой-то процесс происходит, постоянно что-то удаляется и добавляется, при этом количество страниц в поиске остается неизменным. Если посмотреть статистику обхода, то мы увидим, что ежедневно робот посещает несколько тысяч новых страниц сайта, при этом эти новые страницы в поисковую выдачу не попадают. Это как раз-таки и связано с обходом роботом дублирующих страниц, которые потом в поисковую выдачу не включаются.

Если смотреть статистику посещаемости конкретной страницы в Яндекс. Метрике, то может возникнуть следующая ситуация: данная страница показывалась ранее по конкретному запросу и на нее были переходы из результатов поиска, которые почему-то прекратились в начале мая:

А произошло следующее – включилась в поисковую выдачу дублирующая страница, и пользователи с поиска начали переходить на нее, а не на нужную страницу сайта.

Казалось бы, эти три большие проблемы, вызываемые наличием дублей страниц на сайте, должны мотивировать вебмастеров к их устранению. А чтобы удалить дубли с сайта, сначала их нужно найти.

02 | Поиск дублей

- Видишь дублирующие страницы?

- Нет.

- И я нет. А они есть.

Самый простой способ искать дублирующие страницы – это с помощью раздела «Страницы в поиске» в Яндекс.Вебмастере:

Страницы в поиске -> Исключенные страницы -> Сортировка: Дубль -> Применить

В результате можно увидеть все страницы, которые исключил робот, посчитав их дублирующими.

Если таких страниц много, например, несколько десятков тысяч, можно полученную страницу выгрузить из Вебмастера и дальше использовать ее по своему усмотрению.

Второй способ – с помощью раздела «Статистика обхода»:

Статистика обхода -> Сортировка: 200 (ОК)

В этом разделе можно увидеть не только страницы, которые посещает робот, не только дубли, но и различные служебные страницы сайта, которые в поиске видеть бы не хотелось.

Третий способ – с применением фантазии.

Берем любую страницу сайта и добавляем к ней произвольный GET-параметр (в нашем случае это /?test=123. При помощи инструмента «Проверка ответа сервера», проверяем код ответа от данной страницы:

Если данная страница доступна и отвечает, как на скриншоте, кодом ответа 200, то это может привести к появлению дублирующих страниц на сайте. Например, если робот найдет где-то такую ссылку в интернете, он ее проиндексирует и потенциально она может стать дублирующей.

Четвертый способ – это проверка статуса URL.

В ситуации, когда нужная страница уже пропала из результатов поиска, при помощи этого инструмента можно проверить, по каким именно причинам это произошло:

В данном случае видно, что страница была исключена из поиска поскольку является дублем.

Кроме этих четырех способов можно использовать еще какие-то свои способы, например: посмотреть логи своего сервера, статистику Яндекс.Метрики, в конце концов, посмотреть поисковую выдачу, там тоже можно выявить дублирующие страницы.

03 | Устранение дублей

Все возможные дубли страниц можно разделить на две категории:

• Явные дубли (полностью идентичный контент)

• Неявные дубли (страницы с похожим содержимым)

Внутри этих двух категорий представлено большое количество видов дублей, на которых сейчас мы остановимся подробней и разберемся, как их можно устранить.

1. Страницы со слэшом в конце адреса и без

Пример:

site.ru/page

site.ru/page/

Что делаем:

- HTTP-301 перенаправление с одного вида страниц на другие с помощью .hitacces/CMS

Какие именно страницы нужно оставлять для робота решает сам вебмастер в каждом конкретном случае. Можно посмотреть на страницы своего сайта в поиске, какие из них присутствуют в нем в данный момент, и принимать решение, исходя из этих данных.

2. Один и тот же товар в нескольких категориях

Пример:

site.ru/игрушки/мяч

site.ru/мяч

Что делаем:

- Используем атрибут rel=”canonical” тега <link>

Оставлять для робота лучше те страницы, формат адресов которых наиболее удобен для посетителей сайта.

3. Страницы версий для печати

Пример:

Что делаем:

Используем запрет в файле robots.txt, который укажет роботу, что все страницы с подобными адресами индексировать нельзя -

Disallow://node_print.php*

4. Страницы с незначащими параметрами

Пример:

site.ru/page

site.ru/page?utm_sourse=adv

site.ru/page?sid=e0t421e63

Что делаем:

Прибегаем к помощи специальной директивы Clean-param в robots.txt и указываем все незначащие параметры, которые используются на сайте –

Clean-param: sis&utm_sourse

5. Страницы действий на сайте

Пример:

site.ru/page?add_basket=yes

site.ru/page?add_compare=list

site.ru/page?comment_page_1

Что делаем:

Запрет в robots.txt –

 Disallow:* add_basket=*

Disallow:* add_compare=*

Disallow:* comment_*

Или

Disallow:*?*

6. Некорректные относительные адреса

Пример:

site.ru/игрушки/мяч

site.ru/игрушки/ игрушки/ игрушки/ игрушки/мяч

Что делаем:

1. Ищем источник появления

2. Настраиваем HTTP-404 на запросы робота

7. Похожие товары

Пример:

- товары отличаются характеристиками (размером, цветом)

- похожие товары одной категории

Что делаем:

- Оставляем товар на одном URL и используем селектор (возможность выбора нужного цвета и размера)

- Добавляем на такие страницы дополнительное описание, отзывы

- Закрываем ненужное в noindex

8. Страницы с фотографиями без описания

Пример:

Страницы фотогалерей, фотобанков

Что делаем:

- Добавляем дополнительное описание, теги

- Открытие комментариев на странице

9. Страницы фильтров и сортировки

Пример:

site.ru/shop/catalog/podarki/?sort=minimum_price&size=40

site.ru/shop/catalog/filter/price-from-369-to-804/pr_material-f22-or-c5/

Что делаем:

- Определяем востребованность и полезные оставляем

- Для бесполезных прописываем запрет в robots.txt –

 Disallow:*sort=*

Disallow:*size=*

Disallow:*/filter/*

10. Страницы пагинации

Пример:

site.ru/shop/catalog/podarki/

site.ru/shop/catalog/podarki/?page_1

site.ru/shop/catalog/podarki/?page_2

Что делаем:

Используем атрибут rel=”canonical” тега <link>

04 | Выводы:

Причины возникновения и виды дублей разнообразны, поэтому различными и должны быть подходы к ним с точки зрения поисковой оптимизации. Не нужно их недооценивать. Почаще нужно заглядывать в Вебмастер и своевременно вносить соответствующие изменения на сайт.

Шпаргалка по работе с дублями:

preview 8 полезных хаков для локального SEO

8 полезных хаков для локального SEO

Хотите, чтобы ваша компания показывалась в блоке локальной выдачи Google, так называемом 3-pack
preview Чистка поискового индекса сайта

Чистка поискового индекса сайта

Нередки ситуации, когда поисковые системы индексируют на сайте большое количество страниц, не несущих с их точки зрения полезной информации...
preview Выполнение задачи пользователя – новый фактор ранжирования Google?

Выполнение задачи пользователя – новый фактор ранжирования Google?

В очередном выпуске Whiteboard Friday Рэнд Фишкин рассказал, почему выполнение задачи пользователя важно для Google, и как оптимизировать сайты под этот фактор
preview Лучшие SEO-практики по каноникализации URL

Лучшие SEO-практики по каноникализации URL

В одном из последних выпусков Whiteboard Friday основатель Moz Рэнд Фишкин рассказал, какой цели служит атрибут rel=canonical, и когда его рекомендуется использовать, а когда –...
preview SEO 2017: выиграть нельзя проиграть

SEO 2017: выиграть нельзя проиграть

Станислав Поломарь, директор подразделения поискового маркетинга webit, руководитель платформы поисковой аналитики 4seo...
preview Когда «неденьги» превращаются в «деньги»

Когда «неденьги» превращаются в «деньги»

В конце марта мой друг-рекламодатель получил хорошее письмо от менеджера Яндекса: «Мы обнаружили, что в результате небольшого сбоя, динамические объявления в кампании №***...