Настройка индексирования нового сайта

9 декабря 2016 года в рамках Шестой вебмастерской Яндекса прошел мастер-класс Александра Смирнова, посвященный основным моментам и ошибкам, связанным с индексированием сайтов.

При работе над новым сайтом перед вебмастером возникает огромное количество вопросов: как организовать каталог, куда разместить информационные статьи, что делать с фильтрами… У каждого вебмастера список этих вопросов свой, однако есть и общее место –

Что делать с пагинацией, фильтрами, сортировкой?

Что касается страниц пагинации, то рекомендую использовать атрибут rel="canonical" тега link с указанием на главную страницу каталога, либо на первую страницу пагинации.

Вопрос: Насколько эффективны тэги rel="canonical", а также теги rel=next, prev при индексировании сайтов с большим количеством get-переменных в урлах? Достаточно ли применения этих тегов для правильного индексирования сайта?

Сразу скажу, что rel, next и prev робот игнорирует, поэтому они никоим образом не повлияют на индексирование вашего сайта, а rel="canonical" можно использовать для того, чтобы исключить страницы пагинации из результатов поиска.

В этом случае в поиске будет участвовать первая страница вашего каталога, т.е. первая страница пагинации.

Что касается страниц фильтров и сортировки, то для них нужно использовать файл robos.txt для того, чтобы индексирующий робот не посещал такие страницы, не загружал их и не добавлял информацию о них в свою базу. Подобные страницы лучше запретить с помощью следующих правил:

Что делать со страницами, на которых присутствует параметр, по которому можно отследить, откуда на сайт пришел посетитель?

Для UTM-меток есть прекрасная директива Clean-param, и файл robots.txt будет выглядеть следующим образом:

Вопрос: Есть две страницы - одна «каноническая», вторя - с гет-параметрами, например, с utm-метками. Содержание абсолютно одинаковое, прописан тег rel="canonical" с указанием на первую страницу. Как Яндексом рассматривается поведение пользователя на этих страницах? «Склеиваются» ли какие-то ПФ факторы для этих страниц? «Склеивается» ли вес страниц?

Да, факторы с неканонической страницы учитываются для основной страницы (т.е. для канонической).

Дубли страниц – что с ними делать, как устранить?

В зависимости от того, с какими дублями вы столкнулись, можно использовать несколько способов борьбы с ними:

1. Используйте 301-й редирект в том случае, если дубли – это страницы со слэшом/без слэша в конце адреса.

2. Если это какие-то служебные страницы, то используем запрет в файле robots.txt

3. Для дублей в виде одного и того же товара в нескольких категориях можно использовать rel="canonical" для указания только одного товара, который нужно включать в поисковую выдачу

Вопрос: У урлов регулярно появляются параметры (пример docid) что ведет к дублям страниц. Помогут ли тут канонические урлы для грамотной индексации сайта? И стоит ли добавлять docid в disallow?

Если подобные страницы с docID не были доступны для посетителей вашего сайта и они не могли их использовать (оставляя на форумах или пересылая друг другу), то такие страницы лучше запрещать в файле robots.txt. Если же ранее такие страницы были доступны для посетителей сайта, о лучше использовать rel="canonical" или 301-й редирект на канонические адреса.

Каким должен быть robots.txt для нового сайта

Проверить составленный файл robots.txt можно в Яндекс.Вебмастере с помощью соответствующего инструмента, посмотреть, какие именно правила использует индексирующий робот при обходе вашего сайта.

Вопрос: Робот «накручивает» оценки для произвольных товаров, ставит лайки и дизлайки полезности отзывов на товары от наших покупателей?

Если посмотреть загруженные роботом страницы, то там содержатся примерно такие адреса:

Это и есть результаты действий, лайков и дизлайков. Такие страницы лучше запрещать в файле robots.txt, поскольку обращения от роботов могут быть восприняты, как обращения от обычных посетителей.

preview SEO без хэппи-энда

SEO без хэппи-энда

О чем эта история? О том, что SEO - это совместная работа подрядчика и заказчика...
preview Машинное обучение в поиске Яндекса или Как устроен Матрикснет

Машинное обучение в поиске Яндекса или Как устроен Матрикснет

Матрикснет – это градиентный бустинг на деревьях решений, который поддерживает все основные режимы: классификации, мультиклассификации, регрессии, ранжирования и др
preview 4 самых важных фактора ранжирования Google в 2017 году

4 самых важных фактора ранжирования Google в 2017 году

Какие факторы будут оказывать наиболее сильное влияние на ранжирование сайтов в нынешнем году? Рассмотрим в статье
preview 5 глупых SEO-ошибок, которые допускают даже профессионалы

5 глупых SEO-ошибок, которые допускают даже профессионалы

По мере того, как комплексный интернет-маркетинг прочно закрепился на Олимпе онлайн-продвижения, поисковая оптимизация несколько отошла на задний план
preview Ошибки настройки систем веб-аналитики, ведущие к неверным решениям

Ошибки настройки систем веб-аналитики, ведущие к неверным решениям

Как известно, самые простые счетчики, которые есть у всех, это Яндекс.Метрика и Google Analytics...
preview 5 современных тактик внутренней оптимизации

5 современных тактик внутренней оптимизации

По мере развития поисковых систем традиционные методы оптимизации теряют свою актуальность, уступая место новым приёмам...