Как избежать дублей контента: краткий чек-лист

14 сентября 2016

4114

Дублированный контент на сайте может появляться даже без ведома владельца. О том, как не допустить подобной ситуации, пойдёт речь в статье.

Стефани ЛеВон (Stephanie LeVonne) — SEO-аналитик Elite SEM, специалист в области performance-маркетинга.

Дублированный контент на странице зачастую можно сравнить с перерасходом бюджета. Только в данном случае расходуется «бюджет доверия» к сайту поискового робота.

Предположим, что в пределах одного домена есть страницы, содержащие повторяющийся контент. В этом случае поисковый робот будет пытаться выяснить, какая страница является первоисточником информации, а какая — дублем. Определить источник информации со 100-процентной достоверностью удаётся далеко не всегда. Как следствие, в результатах поиска будет отображаться не оригинальная страница ресурса, а случайно появившийся её дубль.

Если же подобных повторов много, сайт и вовсе рискует быть понижен в результатах выдачи за нарушение требований Google к качеству. К сожалению, сегодня повторяющееся содержимое страниц — одна из самых распространенных проблем в SEO. Нередко она бывает вызвана техническими аспектами, к примеру, особенностями CMS или недостаточной грамотностью вебмастеров и администраторов сайта.

Осложняет ситуацию еще и то, что ни панель вебмастера в Google Search Console, ни ряд других сторонних инструментов не способны с высокой достоверностью предоставить вебмастеру информацию о наличии на сайте дублей. Искать такие страницы чаще всего приходится вручную.

Ниже приводится 8 причин, способных вызвать появление дублей на сайте.

1. Переезд с HTTP на HTTPS

Часто проблема возникает из-за неграмотного перевода сайта с HTTP на HTTPS. Самый быстрый способ отыскать дубли — ввести в адресную строку URL страницы с HTTP и с HTTPS. Если доступ разрешен к обеим версиям, значит, в процессе переезда вебмастер не использовал 301 редирект или реализовал его неграмотно.

Есть и другой нюанс: на безопасный протокол может быть переведён не весь сайт, а его отдельные страницы. Ещё до того как Google начал активно подталкивать вебмастеров к переводу своих ресурсов на HTTPS, они включали протокол шифрования лишь для отдельных страниц. К примеру, для страницы входа на сайт или страницы, предназначенной для проведения транзакций. В случае, когда по отношению к таким страницам применяются относительные ссылки, система автоматически дополняет недостающие компоненты. Всякий раз в процессе обхода сайта поисковый робот будет индексировать такую страницу как новую. Это значит, что со временем в индексе поисковой системы появятся дубли.

Аналогичным образом следует проверить наличие в индексе версий страниц сайта с www и без www. Эта проблема с лёгкостью может быть устранена за счёт использования кода состояния HTTP 301. Полезно будет указать в Google Search Console основной домен.

2. Сайты, копирующие контент

Поскольку в интернете до сих пор не сформировалась политика регулирования отношений между сайтами в плане заимствования чужого контента, имеет смысл использовать все возможные способы защиты содержимого своего ресурса. Делать это нужно на уровне кода. Кроме того, как уже говорилось выше, имеет смысл использовать постоянные URL-ы вместо динамических.

Так, например, статический URL имеет вид — https://www.bestrecipes.com/chocolate-cakes, в то время как динамический — /chocolate-cakes

Почему это важно? В случаях, если используются относительные ссылки, браузер каждый раз пытается перейти по ним и открыть страницу. Таким образом, пользователь видит перед собой одну и ту же страницу, но с разными URL. Нетрудно догадаться, что с точки зрения индексирования в Google применять такой подход крайне нежелательно. В то же время, отдельные разработчики до сих пор продолжают использовать динамические URL-ы.

Если разработчик отказывается переписать код сайта, так чтобы он был выполнен надлежащим образом (с указанием предпочитаемой версии URL адреса для страницы и с добавлением rel="canonical"), то копирования контента другими ресурсами не избежать. Если же в коде сайта указана каноническая страница, то при перепечатывании его содержимого сторонними сайтами теги «подскажут» Google, на какой именно канонический адрес ссылаются дубликаты. Немаловажный момент: показатель PageRank и все связанные сигналы также будут перенесены с дублированных страниц на каноническую.

Отыскать собственный контент на сторонних сайтах помогут инструменты Siteliner и Copyscape.

3. Давно забытые домены

Предположим, что вебмастер решил отказаться от использования поддомена и работать с поддиректорией. Ещё один вариант: компания создала новый сайт, перенесла на него контент со старого ресурса, и вся жизнь теперь кипит только на нём. Как бы то ни было, не стоит забывать о том, что содержимое старого ресурса до сих пор существует в интернете и может сыграть злую шутку с новым ресурсом. Лучшим вариантом для выхода из ситуации будет использование 301 редиректа на страницах старого сайта. Это особенно важно, если на старой версии есть много качественных входящих ссылок.

4. Содержимое среды разработки

Очень важно закрывать от индексации содержимое среды разработки сайта, когда ресурс находится в стадии реконструкции. Поисковые роботы Google заходят на сайт регулярно и могут сканировать содержимое страницы, даже если она находится в разработке. Аналогичным образом следует закрывать от индексации любой внутренний контент сайта, который ни в коем случае не должен попадать в результаты выдачи. Сделать это можно при помощи <meta name="robots" content="noindex"> или в файле robots.txt.

Только после того, как все компоненты сайта и его контент будут перенесены из среды разработки на домен, содержимое страниц можно будет сделать доступным для индексации.

5. Динамически генерируемые параметры в адресах страниц

Примеры динамически генерируемых параметров в адресах страниц могут быть такими:

URL 1: www.bestrecipes.com/chocolate-recipes/cake/custom_vanilla
URL 2: www.bestrecipes.com/chocolate-recipes/cake/custom_vanilla%8in
URL 3: www.bestrecipes.com/chocolate-recipes/cake/custom_vanilla%8in=marble

Конечно, перечисленные выше URL чрезмерно утрированы. Однако зачастую популярные CMS автоматически «плодят дубли», добавляя параметры в URL. Как результат, на сайте обнаруживается до нескольких страниц с одним и тем же содержимым. Выявив адреса страниц с идентичным контентом, алгоритм Google объединяет их в общую группу. После этого система на свое усмотрение выбирает одну из них для отображения в результатах поиска. Затем на основании имеющейся информации об этой группе URL Google присваивает выбранной ссылке определенные атрибуты, чтобы уточнить рейтинг страницы в результатах поиска.

Чтобы избежать негативного сценария, вебмастерам рекомендуется задавать канонический URL, а также указывать системе, как нужно обрабатывать URL с определенными параметрами, в Google Search Console. Сделать это можно при помощи инструмента Параметры URL.

Содержимое отдельных страниц можно закрыть от индексации в файле robots.txt, применяя в шаблонах запрета символ «*». Это позволит избежать индексации любого содержимого, размещённого в указанной поддиректории.

Например: Disallow: /chocolate-recipes/cake/*

6. Зеркала сайта

В случаях, когда бизнес крупный, и компания работает в нескольких регионах, приходится создавать несколько идентичных версий сайта. При этом их владельцы обычно предпочитают, чтобы в выдаче показывалась единая для всех главная страница, с которой пользователю и предлагается перейти на ресурс в интересующем его регионе.

Примеры региональных версий могут выглядеть так:

URL 1: www.wonderfullywhisked.com/fr
URL 2: www.wonderfullywhisked.com/de

Хотя здесь всё кажется простым и логичным, подобные зеркала сайта нуждаются в тщательной настройке. Почему? Ответ прост: контент в поддиректориях на всех региональных версиях однороден по структуре и содержанию. Из-за этого в процессе индексирования могут случаться ошибки. Чтобы избежать проблем, важно грамотно настраивать в Google Search Console таргетинг содержания сайта на определенную страну.

7. Синдикация контента

Синдикация контента — это способ наполнения страниц сайта, когда автор или редактор другого блога или сайта позволяет частично или полностью размещать авторское содержимое на ресурсе. Способ признан весьма эффективным для случаев, когда необходимо быстро привлечь целевую аудиторию. Однако здесь важно соблюдать определённые «меры предосторожности».

Если контент изначально написан для размещения на ресурсе компании, но при этом его создателю разрешена публикация на собственном сайте, лучше попросить автора использовать атрибут rel="canonical". Также «поставщик контента» может закрыть его от индексации на своём ресурсе при помощи <noindex>. Это поможет избежать дублирования.

Наконец, издатель «подаривший» сайту свой материал, может просто сослаться на этот ресурс как на первоисточник.

8. Почти не отличающийся контент

Немало проблем бывает связано и с использованием на страницах схожего содержимого. Зачастую алгоритмы Google не делают различия между дублированным контентом и сходным содержимым страниц. Этот аспект даже сумел найти своё отражение в определении повторяющегося контента, которое дают представители Google.

Вебмастеру важно научиться оперативно выявлять блоки информации в рамках одного или нескольких доменов, содержание которых либо полностью совпадает, либо почти не отличается. Чтобы не допустить появления на сайте подобного контента, лучше объединить все близкие по смыслу блоки содержимого в пределах одной страницы. В случаях, если по каким-либо причинам сделать это невозможно, следует пометить их как копии с помощью rel="canonical".

Выводы

Вебмастеру важно использовать все доступные методы для выявления повторяющегося содержимого на страницах. В случаях, когда структура сайта была изменена, необходимо применять переадресацию 301.

Не стоит пренебрегать использованием параметров nofollow/noindex внутри мета-тега "robots". Однако делать это стоит, взвесив все «за» и «против», поскольку Google не советует блокировать доступ для поисковых роботов к повторяющемуся контенту с помощью файла robots.txt.

«Если поисковые системы не имеют возможности сканировать страницы с таким содержанием, то они не смогут автоматически определять, что разные URL имеют одинаковый контент, и будут обращаться с ними как с уникальными страницами. Лучше всего разрешить сканирование этих URL, но при этом пометить их как точные копии с помощью ссылки rel="canonical", инструмента обработки параметров URL или переадресации 301», — сообщается в Справке Search Console.

Автор статьи надеется, что перечисленные выше аспекты помогут владельцам сайтов быстро и легко выявить дублированное содержимое своих сайтов и принять необходимые меры для исправления ситуации.

Источник: Search Engine Land

Тестируем сайт перед запуском: подробный чек-лист

Как избежать дублей контента: краткий чек-лист

1. Переезд с HTTP на HTTPS

2. Сайты, копирующие контент

3. Давно забытые домены

4. Содержимое среды разработки

5. Динамически генерируемые параметры в адресах страниц

6. Зеркала сайта

7. Синдикация контента

8. Почти не отличающийся контент

Выводы

Тестируем сайт перед запуском: подробный чек-лист

Самый эффективный способ повысить качество сайта в целом

Технологии AMP и PWA в поиске Google – Будущее уже стало настоящим

Секретные техники оптимизации PNG

Как продвигать туристический сайт или Анализируй то, сегментируй это

Параметры URL страницы поисковой выдачи Google