Азбука кластеризации

Автор: Алексей Чекушин – SEO-Эксперт Kokoc.com (Kokoc Group), создатель сервиса Just-Magic.org

В своей предыдущей статье: «Непорочное продвижение: как двигать сайты без ссылок» я назвал кластеризацию одним из основополагающих факторов успеха в продвижении. В этой публикации я подробно разбираю, что такое кластеризация, и как правильно применять её.

Что такое кластеризация?

Это автоматическое объединение запросов в группы, которое решает две важные задачи:

  1. Объединение похожих запросов (с одинаковым «интентом») вне зависимости от их семантической схожести. («интент» = намерение пользователя). Например, запросы «снять квартиру» и «аренда квартир» – выражают одно и то же желание пользователя.
  2. Проверка совместимости продвигаемых запросов: можно ли их продвинуть на одной странице в топ Яндекса одновременно. Т.е. возможно ли подстроить оптимизацию страницы под все эти запросы. Или же какие-то запросы требуют выноса на отдельную страницу.

Из всех существующих сегодня методов наиболее эффективно эти задачи решает, так называемая, «кластеризация по топам», когда запросы сравниваются по количеству одинаковых URL-ов в топ-10 Яндекса.

Теперь поговорим о каждом пункте подробнее.

Объединение запросов с одинаковым интентом

Что такое запросы с одинаковым интентом? Это разные запросы, в которых человек, на самом деле, ищет одно и то же. Очевидно, что запросы «телевизоры самсунг» и «телевизоры samsung» должны продвигаться на одной странице. Но это – явные вещи.

Однако существуют и куда менее очевидные примеры:

  • «спецодежда» – «рабочая одежда»
  • «ипотека» – «кредит под залог квартиры»
  • «автоломбард» – «кредит под залог авто»

Семантически эти пары совсем не похожи, но фактически обозначают одно и то же. Классические способы поиска таких запросов, обладающих единым интентом (намерением пользователя), основываются на синонимах. Как правило, с этой целью используют словари синонимов или синонимы Яндекса. Однако в обоих методах есть свои серьезные минусы.

Если мы будем пользоваться словарями синонимов, то найдем там весьма странные связи. Например, согласно одному из самых популярных словарей, синонимом к «мобильный телефон» являются:

  • мобила
  • мобильник
  • радиотелефон
  • сотовик
  • сотовый телефон
  • телефон
  • эбонитовый друг

Сотовый телефон – однозначно полезный синоним. А вот «радиотелефон» – совершенно другой тип товара. Ну а кто такой «эбонитовый друг», остается только догадываться.

Второй вариант поиска синонимов – попытаться «выцепить» их из подсветок Яндекса. Но это сопряжено с двумя проблемами:

Во-первых, подсвечиваются не только синонимы, но и другие слова. Например, в подсветку по ключевой фразе «сотовые телефоны» попадает не только синоним «мобильные», но и: «цены», «москва», «купить», «каталог», которые подсвечиваются по другим причинам. В целом, это проблема решаемая, обходные пути есть.

Во-вторых, синонимы в Яндексе являются невзаимными. Например, вхождение «мобильные телефоны» является синонимом к запросу «сотовые телефоны», а в обратном порядке это уже не работает. «Сотовые телефоны» не будет синонимом к «мобильные телефоны», и этот момент становится критически важным. Как понять, что запрос «сотовые телефоны» соотносится с запросом «мобильные телефоны», если слово «сотовые» по нему не подсвечивается?

Наконец, как вы поймете, что запросы «ювелирный магазин», «ювелирные изделия» и «ювелирные украшения» обладают одним интентом, если, с точки зрения Яндекса, они не являются синонимами?

Решение проблемы приходит через кластеризацию запросов по топам. Нахождение в топе одинаковых URL-ов сигнализирует об одинаковом интенте. Вот пример работы кластеризатора just-magic:

Вроде бы, кластеризатор все правильно объединил: «мобильные телефоны» положил в одну группу с «сотовыми», а «ювелирные изделия» — в группу, где присутствует «ювелирный магазин». Почему же тогда «ювелирные украшения» попали в отдельную группу, несмотря на то, что тематика здесь та же (это видно по столбцу «spec-grp»)?

Ответ на этот вопрос приводим в следующей части статьи.

Проверка совместимости продвигаемых запросов

Для продвижения нам не просто нужно собрать на странице похожие запросы, необходимо еще и проверить их совместимость.

В Яндексе нет единой формулы ранжирования под все запросы. Запросы делятся на большое количество типов. И формулы для разных типов запросов часто предъявляют к странице взаимоисключающие требования для попадания в топ. Причем часто визуально эти запросы очень похожи. Например, запросы «смартфон» и «смартфоны». Первый — некоммерческий, геонезависимый. Второй – коммерческий геозависимый. Как видно, в данном случае единственное и множественное число – несовместимы на одной странице!

Если вы вдруг подумали что это логично, то вот другой пример: запросы «ноутбук» и «ноутбуки». Они оба коммерческие и геозависимые и прекрасно совмещаются на одной странице.

Коммерческость и геозависимость – лишь два самых очевидных признака. На самом деле, их намного больше. Например, главную или внутреннюю страницу поиск хочет видеть в топе по запросу. Когда мы не знаем всего многообразия признаков, единственный способ определить возможность совместного продвижения запросов на странице – это посмотреть, есть ли URL-ы, которые одновременно показываются по двум запросам, и подсчитать, сколько их.

Логика здесь следующая:

  • Если по запросам в топе находятся одинаковые URL-ы, значит их можно продвинуть на одной странице.
  • Если по запросам общих URL-ов нет, то мы не знаем, возможно ли продвинуть запросы на одной странице. Скорее всего, это невозможно.

И здесь мы сталкиваемся с вопросом: как именно объединять запросы на основании топов? Я различаю два метода – так называемые, «soft» и «hard» кластеризации.

Следующая картинка наглядно объясняет разницу между ними:

Soft-кластеризация сводится к следующему: для формирования группы берется один «центральный» запрос и все остальные сравниваются с ним по количеству общих URL-ов в топ-10 Яндекса. Если количество общих URL-ов превышает порог – запрос добавляют в группу.

При hard-кластеризации запросы объединяют в группу, только если есть общий для всех запросов набор URL-ов, который показывается по всем этим запросам в топ-10.

Soft-кластеризация дает группы бὸльшего размера, но часто ошибается в определении возможности совместного продвижения запросов на странице.

Классический пример: представим себе, что в качестве «центрального» был выбран запрос, по которому в топе 5 главных и 5 внутренних страниц. К нему могут оказаться привязаны два запроса, у одного из которых в топе 10 «морд», у другого – 10 «внутряков». Очевидно, что из этих трех запросов мы можем продвинуть только два (в зависимости от типа страницы, который выберем – главная или внутренняя). В случае hard-кластеризации появление такой группы невозможно.

Но это все лирика. Перейдем к численным оценкам.

Итак, у нас есть два критерия оценки кластеризации:

  1. Насколько полно собрана группа запросов. То есть, попали ли в неё все запросы, имеющие один и тот же «интент». За 100% возьмем ситуацию, когда все запросы с одним интентом – попали.
  2. Насколько попавшие в группу запросы совместимы между собой. За 100% возьмем ситуацию, когда все попавшие в кластер запросы совместимы между собой.

Ключевой параметр кластеризации – минимальное количество общих URL-ов для образования группы. Это число называют «порогом кластеризации». Чем он выше – тем точнее получаемые группы, но при этом они закономерно уменьшаются в размерах. Экспериментальным путем было определено, что минимальный рабочий порог для «hard»-кластеризации – 3 URL-а, для «soft» – 4 URL-а. Работать с меньшим числом – нет смысла: слишком много «левых» запросов попадает в группы.

Вот пример результатов для разных порогов для hard-кластеризации:

Используя сервис just-magic.org, мы провели сравнение двух методов кластеризаций на выборках из разных тематик. Ниже представлен сводный график:

Сравнения проводилось для методов «soft» и «hard». Для числа пересекающихся URL-ов от 3-х до 6-ти (это минимальное число общих URL-ов для формирования кластера).

Как видно из графика, hard-кластеризация показывает очень высокую точность уже при пороге в 3 URL-а – 92%. Чтобы читатели статьи понимали, насколько это большая цифра, приведу пример: в исполнении опытного оптимизатора без инструментов точность будет составлять порядка 70%, а если за работу возьмется неопытный специалист, точность не будет превышать 30%. При этом, однако, полнота получается достаточно низкая – всего 40%. Но, опять же, смотря, с чем сравнивать. «Руками» оптимизаторы набирают максимум 20%.

Soft-кластеризация демонстрирует очень хорошие показатели полноты, но точность – «хромает на обе ноги». Приемлемые для продвижение значения получаются только на пороге «5», но при этом полнота падает до 23%.

Означает ли это, что данный метод неприменим? Нет. Все зависит от вашей задачи. Если вы занимаетесь «трафиковым» продвижением, и вам важно вывести на странице как можно больше запросов – неважно каких, то вам подойдет soft-кластеризация. Именно поэтому, когда в январе этого года в сервисе just-magic.org появилась hard-кластеризация, для модуля «маркеры» был сохранен «soft»-режим.

Если же вам важно вывести на странице определенный набор запросов, то ваш выбор однозначен – только hard-кластеризация, только хардкор. Еще один плюс hard-кластеризации состоит в том, что получаемые группы – однозначны. То есть, запросы, оказавшиеся в одной группе по 4 URL-ам, не могут оказаться в разных группах по 3 URL-ам (при использовании soft-кластеризации, такое запросто может быть). Поэтому кластеризатор Just-Magic отображает группы сразу по 3,4,5 и 6 URL-ам.

Стоит отдельно отметить, что если мы хотим в дальнейшем проводить текстовый анализ страницы, то допустимо использовать только hard-кластеризацию. Дело в том, что любой текстовый анализ по группе запросов для страницы очень строго соотносится с качеством этой группы. Только hard-кластеризация обеспечивает группы нужного качества.

Подведем итоги

Итак, какие бонусы дает кластеризация?

Во-первых, это ускорение процесса разбора больших ядер. Раньше на это уходили недели и месяцы работы. С помощью кластеризатора оптимизатор делает это за пару часов.

Во-вторых, это возможность распределить запросы по страницам таким образом, чтобы их было возможно одновременно продвинуть. «Ручной» альтернативы кластеризации здесь нет – даже опытный оптимизатор совершает до 30% ошибочных распределений, если действует «на глазок».

Исходя из второго пункта, становится понятно, что кластеризацию при продвижении нужно использовать всегда. Даже если ядро меньше 100 запросов, сделать правильно распределение запросов по страницам «на глазок» вы не сможете. Исключением могут стать только тематики со сверхнизкой конкуренцией, где кластеризация по топам перестает работать из-за отсутствия в топах релевантных ответов.

Если вы занимаетесь «трафиковым» продвижением, то можете пользоваться как «soft», так и «hard» методами кластеризации. Если же осуществляете «позиционное» продвижение, когда важно вывести в топ все запросы, то подойдёт только метод «hard». Также, с текстовым анализом совместим только «hard»-режим.

Используйте кластеризацию в своей работе, и вы обретете счастье и гармонию, а продвигаемые вами запросы гарантированно попадут в топ!

Редактор-переводчик портала Searchengines.ru, работает на сайте с 2010 года. Специализируется на западном интернет-маркетинге, новостях социальных сетей и поисковых систем. Постоянно принимает участие в профильных семинарах и конференциях в качестве журналиста-обозревателя. Языки: английский, французский.