Олег Шестаков: «Максимизация индекса: методики и практика»

26-27 ноября 2015 года в Москве проходила крупнейшая в SEO-отрасли конференция – Optimization-2015. Поисковый маркетинг и продвижение бизнеса в интернете.

В рамках первого дня мероприятия основатель и генеральный директор Rush Agency Олег Шестаков представил доклад на тему: «Максимизация индекса: методики и практика».

В своем выступлении спикер рассмотрел вопрос, как можно максимизировать краулинговый бюджет. Рассказал о том, какие методы работают, а какие – нет. По версии Олега Шестакова, под краулинговым бюджетом следует понимать некоторый лимит на заходы поискового робота на сайт владельца. Это зависит от регулярности обновления контента; от входящих ссылок на хост, папку либо URL; от входящего трафика на хост, в том числе, и поискового.

Максимизация краулингового бюджета

Как известно, для крупных проектов основную долю трафика составляет, так называемая, «большая индексация». Спикер рассмотрел, что же побуждает поискового робота заходить на сайт и индексировать страницы. Прежде всего, на максимизацию краулингового бюджета влияют:

  1. Качественные ссылки и качественный трафик – чем трафика больше, тем лучше.
  2. Ссылки и трафик на хабровые страницы.
  3. Регулярность обновления контента.
  4. Входящие ссылки на хост/папку/URL.
  5. Трафик (в том числе, и поисковый) на сайт/папку/URL.
  6. Паттерн URL (алгоритмы Яндекса выполняют посимволный матчинг слева направо).
  7. Качество и уникальность контента (уникальность шинглов в масштабе интернета).

Однако на больших проектах точечно можно работать далеко не над всеми аспектами. Так, например, можно повысить эффективность использования паттернов индексирования URL – это, действительно, работающий метод увеличения краулингового бюджета. Если Яндекс сможет выделить префикс по каждой категории в явном виде, то у каждой страницы будет отдельный краулинговый бюджет. То есть, страница гарантированно получит посещение робота.

В качестве примера докладчик рассмотрел статистику сайта крупного интернет-магазина, где около 7-9 ноября 2015 программисты сменили паттерн генерации URL-ов карточек товаров. Количество заходов робота Google мгновенно выросло в несколько раз. Яндекс заметил это несколько позднее, но стал чаще заходить на сайт:

«Старайтесь располагать все кластеры сайта на разные паттерны URL, тогда Яндекс предоставит вам больший краулинговый бюджет», – заметил докладчик.

Также точечно можно работать над уникальностью контента, но важно это делать не в масштабах сайта, а в масштабах всего интернета – это позитивно сказывается на вхождении страницы в индекс поисковой системы. Если шинглы уникальны (в 5-6 слов) в масштабах всей выборки страниц, то такие страницы заходят в индекс намного «бодрее».

В качестве практических рекомендаций по данному пункту Олег Шестаков привел следующие советы:

  • Для карточек товаров нужно стараться расположить характеристики не как у конкурентов. Эти характеристики лучше «перемешать», поменять местами. Такой подход эффективен с точки зрения белого SEO.
  • Полезны также и отзывы. Можно делать их в формате 2-3 предложений. Это тоже придаст уникальности контенту в масштабах всего интернета.
  • Если на карточке товара есть 2-3, а лучше – еще больше отзывов, то она будет достойна индексации.
  • Можно использовать методы генерации контента для классифайдов (недвижимость, адреса организаций, агрегаторы скидок) – это, действительно, работает.

Популярные методы ускорения индексации

В настоящее время оптимизаторы используют следующие методы для ускорения индексации:

Около 25% оптимизаторов используют для ускорения индексации AddURL Яндекса и Google. Метод, действительно, работает и приводит на страницу ботов. Страница может попасть в индекс в считанные минуты.

Не менее 23% применяют ссылки с Twitter-аккаунтов. Конечно же, посты за 2-5 рублей уже не работают. Что же касается органических твитов, то здесь ситуация обстоит так: Яндекс получает полный фид твита. Внутри Twitter’а обсчитывается внутренний «PageRank». Анализируется количество подписчиков, ретвитов и связей аккаунта. Рассчитывается соотношение твитов с ссылкми к твитам без ссылок. Анализируются метрики распространения твитов аккаунта. Все это Яндекс делает для того, чтобы выстроить свои метрики анти-спама для прихода быстроробота по ссылкам из Twitter’а. Вывод здесь будет таким: важно покупать твиты с реальных дорогих аккаунтов и строить более умную «сетку», которая будет действительно работать.

Что касается ссылок из социальных сетей, то после того, как Ya.ru зарыли, ни одна социальная сеть больше не давала такого прироста индексации. Не дает положительного эффекта с точки зрения прихода быстробота на страницу и и использование кнопки Pluso от Яндекса. Что же касается спама в Google+, то эти усилия тоже, как правило, не имеют смысла, поскольку проблем с индексацией страниц в Google обычно не возникает.

Sitemap.xml с непроиндексированными ссылками работает на привлечение бота, однако этот метод эффективен только для страниц, которые достойны индексации. Важно понимать, что Sitemap.xml является отдельной обособленной точкой входа бота на сайт. Данный файл – не правило, а рекомендация для робота. Проиндексированные страницы можно смело удалять из Sitemap. Опыт больших сайтов показывает, что проиндексированные страницы в дальнейшем из индекса не выпадают.

Прочие ранее популярные методы, такие как покупка ссылок в SAPE, постепенно уходят в небытие после рада нашумевших запусков Яндекса.

Хорошо работает плоская структура сайта и хабы. В целом, Яндекс любит плоскую структуру. Хабовые страницы – это те страницы, которые содержат списки разделов/подразделов в большом количестве и обычно не имеют трафика. Такие страницы работают для навигации пользователей и ботов и являются раздатчиками трафика. Чтобы добиться индексации, имеет смысл развести все хабовые страницы на 1 клик от главной. С хабовых странц проставить ссылки на хабовые страницы второго уровня. Связать хабовые страницы между собой для удержания в индексе.

Пример такого подхода быть реализован следующим образом:

На главной странице можно найти все хабовые страницы. Довольно легко можно спарсить структуру такого сайта:

Что касается проблемы вложенности, то, на самом деле, у больших проектов её не существует. Пример на слайде иллюстрирует это:

Кроме того, в настоящее время специалисты Rush Agency применяют такую методику как «Ловец ботов». При этом большинство специалистов не использует её:

Суть технологии состоит в том, что в момент прихода бота на страницу, специальный скрипт показывает роботу ссылки именно на непроиндексированные страницы. Т.к. главная страница сайта – это зона индексации для робота, бот будет активно индексировать её.

«Ловец ботов»: уровень Бог – это схема с обратной связью.

В момент, когда бот пришел на сайт, ссылки можно проверить на индексацию, к примеру, по API. Если бот посетил ссылку и проиндексировал ее, то из стэка ссылку удаляют. Если бот посетил сайт, но не проиндексировал ссылку – её не убирают, и так можно делать до трёх раз.

Пример реализации подхода может выглядеть так:

Завершая своё выступление, Олег Шестаков заострил внимание пользователей на том, что проверять данные по индексации нужно правильными методами:

К сожалению, ни Яндекс, ни Google в панелях вебмастеров не отдают точных данных.

Редактор-переводчик портала Searchengines.ru, работает на сайте с 2010 года. Специализируется на западном интернет-маркетинге, новостях социальных сетей и поисковых систем.

Постоянно принимает участие в профильных семинарах и конференциях в качестве журналиста-обозревателя.
Языки: английский, французский.