При работе над новым сайтом перед вебмастером возникает огромное количество вопросов: как организовать каталог, куда разместить информационные статьи, что делать с фильтрами… У каждого вебмастера список этих вопросов свой, однако есть и общее место –

Что делать с пагинацией, фильтрами, сортировкой?

Что касается страниц пагинации, то рекомендую использовать атрибут rel=»canonical» тега link с указанием на главную страницу каталога, либо на первую страницу пагинации.

Вопрос: Насколько эффективны тэги rel=»canonical», а также теги rel=next, prev при индексировании сайтов с большим количеством get-переменных в урлах? Достаточно ли применения этих тегов для правильного индексирования сайта?

Сразу скажу, что rel, next и prev робот игнорирует, поэтому они никоим образом не повлияют на индексирование вашего сайта, а rel=»canonical» можно использовать для того, чтобы исключить страницы пагинации из результатов поиска.

В этом случае в поиске будет участвовать первая страница вашего каталога, т.е. первая страница пагинации.

Что касается страниц фильтров и сортировки, то для них нужно использовать файл robos.txt для того, чтобы индексирующий робот не посещал такие страницы, не загружал их и не добавлял информацию о них в свою базу. Подобные страницы лучше запретить с помощью следующих правил:

Что делать со страницами, на которых присутствует параметр, по которому можно отследить, откуда на сайт пришел посетитель?
Для UTM-меток есть прекрасная директива Clean-param, и файл robots.txt будет выглядеть следующим образом:

Вопрос: Есть две страницы — одна «каноническая», вторя — с гет-параметрами, например, с utm-метками. Содержание абсолютно одинаковое, прописан тег rel=»canonical» с указанием на первую страницу. Как Яндексом рассматривается поведение пользователя на этих страницах? «Склеиваются» ли какие-то ПФ факторы для этих страниц? «Склеивается» ли вес страниц?

Да, факторы с неканонической страницы учитываются для основной страницы (т.е. для канонической).

Дубли страниц – что с ними делать, как устранить?

В зависимости от того, с какими дублями вы столкнулись, можно использовать несколько способов борьбы с ними:

1. Используйте 301-й редирект в том случае, если дубли – это страницы со слэшом/без слэша в конце адреса.
2. Если это какие-то служебные страницы, то используем запрет в файле robots.txt
3. Для дублей в виде одного и того же товара в нескольких категориях можно использовать rel=»canonical» для указания только одного товара, который нужно включать в поисковую выдачу

Вопрос: У урлов регулярно появляются параметры (пример docid) что ведет к дублям страниц. Помогут ли тут канонические урлы для грамотной индексации сайта? И стоит ли добавлять docid в disallow?

Если подобные страницы с docID не были доступны для посетителей вашего сайта и они не могли их использовать (оставляя на форумах или пересылая друг другу), то такие страницы лучше запрещать в файле robots.txt. Если же ранее такие страницы были доступны для посетителей сайта, о лучше использовать rel=»canonical» или 301-й редирект на канонические адреса.

Каким должен быть robots.txt для нового сайта

Проверить составленный файл robots.txt можно в Яндекс.Вебмастере с помощью соответствующего инструмента, посмотреть, какие именно правила использует индексирующий робот при обходе вашего сайта.

Вопрос: Робот «накручивает» оценки для произвольных товаров, ставит лайки и дизлайки полезности отзывов на товары от наших покупателей?

Если посмотреть загруженные роботом страницы, то там содержатся примерно такие адреса:

Это и есть результаты действий, лайков и дизлайков. Такие страницы лучше запрещать в файле robots.txt, поскольку обращения от роботов могут быть восприняты, как обращения от обычных посетителей.

Журналист, новостной редактор, работает на сайте с 2009 года. Специализация: интернет-маркетинг, SEO, поисковые системы, обзоры профильных мероприятий, отраслевые новости рунета. Языки: румынский, испанский. Кредо: Арфы нет, возьмите бубен.