9 декабря 2016 года в рамках Шестой вебмастерской Яндекса прошел мастер-класс Александра Смирнова, посвященный основным моментам и ошибкам, связанным с индексированием сайтов.
При работе над новым сайтом перед вебмастером возникает огромное количество вопросов: как организовать каталог, куда разместить информационные статьи, что делать с фильтрами… У каждого вебмастера список этих вопросов свой, однако есть и общее место –
Что делать с пагинацией, фильтрами, сортировкой?
Что касается страниц пагинации, то рекомендую использовать атрибут rel="canonical" тега link с указанием на главную страницу каталога, либо на первую страницу пагинации.
Вопрос: Насколько эффективны тэги rel="canonical", а также теги rel=next, prev при индексировании сайтов с большим количеством get-переменных в урлах? Достаточно ли применения этих тегов для правильного индексирования сайта?Сразу скажу, что rel, next и prev робот игнорирует, поэтому они никоим образом не повлияют на индексирование вашего сайта, а rel="canonical" можно использовать для того, чтобы исключить страницы пагинации из результатов поиска.
В этом случае в поиске будет участвовать первая страница вашего каталога, т.е. первая страница пагинации.
Что касается страниц фильтров и сортировки, то для них нужно использовать файл robos.txt для того, чтобы индексирующий робот не посещал такие страницы, не загружал их и не добавлял информацию о них в свою базу. Подобные страницы лучше запретить с помощью следующих правил:
Что делать со страницами, на которых присутствует параметр, по которому можно отследить, откуда на сайт пришел посетитель?
Для UTM-меток есть прекрасная директива Clean-param, и файл robots.txt будет выглядеть следующим образом:
Вопрос: Есть две страницы - одна «каноническая», вторя - с гет-параметрами, например, с utm-метками. Содержание абсолютно одинаковое, прописан тег rel="canonical" с указанием на первую страницу. Как Яндексом рассматривается поведение пользователя на этих страницах? «Склеиваются» ли какие-то ПФ факторы для этих страниц? «Склеивается» ли вес страниц?Да, факторы с неканонической страницы учитываются для основной страницы (т.е. для канонической).
Дубли страниц – что с ними делать, как устранить?
В зависимости от того, с какими дублями вы столкнулись, можно использовать несколько способов борьбы с ними:
1. Используйте 301-й редирект в том случае, если дубли – это страницы со слэшом/без слэша в конце адреса.
2. Если это какие-то служебные страницы, то используем запрет в файле robots.txt
3. Для дублей в виде одного и того же товара в нескольких категориях можно использовать rel="canonical" для указания только одного товара, который нужно включать в поисковую выдачу
Вопрос: У урлов регулярно появляются параметры (пример docid) что ведет к дублям страниц. Помогут ли тут канонические урлы для грамотной индексации сайта? И стоит ли добавлять docid в disallow?Если подобные страницы с docID не были доступны для посетителей вашего сайта и они не могли их использовать (оставляя на форумах или пересылая друг другу), то такие страницы лучше запрещать в файле robots.txt. Если же ранее такие страницы были доступны для посетителей сайта, о лучше использовать rel="canonical" или 301-й редирект на канонические адреса.
Каким должен быть robots.txt для нового сайта
Проверить составленный файл robots.txt можно в Яндекс.Вебмастере с помощью соответствующего инструмента, посмотреть, какие именно правила использует индексирующий робот при обходе вашего сайта.
Вопрос: Робот «накручивает» оценки для произвольных товаров, ставит лайки и дизлайки полезности отзывов на товары от наших покупателей?Если посмотреть загруженные роботом страницы, то там содержатся примерно такие адреса:
Это и есть результаты действий, лайков и дизлайков. Такие страницы лучше запрещать в файле robots.txt, поскольку обращения от роботов могут быть восприняты, как обращения от обычных посетителей.