Карго-культ кластеризации по ТОПу

В последнее время в SEO-индустрии стала очень модной тема максимального расширения семантики и так называемой кластеризации запросов, т.е. создания наиболее оптимальных для продвижения вариантов группировки запросов на одной странице сайта. Образовался ряд сервисов, предлагающих небесплатные услуги автоматического решения задачи кластеризации.

Логика здесь проста – раз необходимо использовать максимально широкое семантическое ядро, то неизбежно возрастают трудозатраты на ручную группировку запросов, а, значит, необходима автоматизация. Владельцы этих сервисов развернули мощную информационную кампанию по пропаганде своего подхода к кластеризации, который заключается в группировке запросов на основе анализа выдачи поисковых машин. Вкратце, логика метода такова – если по разным запросам в ТОПе поисковой выдачи находится достаточное количество одних и тех же страниц, то делается вывод о совместимости данных запросов для продвижения на одной странице. Если же таких общих страниц нет, то запросы признаются несовместимыми. Данный метод кластеризации запросов по ТОПам объявляется единственно верным, причем в пиар-риторике звучат слова о «гарантированном продвижении в ТОП» кластеризованных таким образом запросов. На самом же деле, взятие именно этого метода на вооружение сервисами объясняется банально – легкостью его автоматизации.

Вообще такой подход, заключающийся в имитации наблюдаемых процессов без попытки понять их природу, очень напомнил мне одно любопытное явление, называемое культом карго. Оно получило распространение во время второй мировой войны на островах Тихого океана, когда коренные жители наблюдали процесс доставки грузов транспортными самолетами для снабжения базировавшихся там американских войск. В надежде также получить полезные грузы, привозимые «железными птицами» с неба, туземцы стали строить импровизированные аналоги взлетно-посадочных полос, сооружали из дерева макеты самолетов, зажигали сигнальные костры, имитировали различные действия обслуживающего персонала аэродромов и военных баз.

Что-то подобное происходит сейчас и в процессе «кластеризации по ТОПу». На веру принимается некое предположение, что между различными запросами существуют некие скрытые семантические связи (часто называемые интентами), которые в общем случае нельзя понять, но которые почему-то оказывают очень сильное влияние на процесс ранжирования. Настолько сильное, что употребление в тексте терминов, имеющих скрытые семантические связи с базовым запросом, позволяет гарантированно выходить в ТОП по нему. И, наоборот, группировка на одной странице запросов, не имеющих скрытых семантических связей, ведет к гарантированном провалу продвижения по любому из них.

Ну, как же – ведь не найдено ни одного документа, который одновременно хорошо бы ранжировался по этим запросам, значит, это невозможно в принципе, один запрос «топит» другой. С другой стороны, раз мы видим в ТОПе один документ по двум разным запросам, значит, эти запросы помогают друг другу в ранжировании. Ну, прямо один-в-один беззаветная вера туземцев, поклоняющихся карго-культу, что деревянный самолет на лесной просеке привлечет самолет настоящий! Хотя на самом деле, наличие в топе одного документа по разным запросам может означать лишь то, что лицо, ответственное за его продвижение, по какой-то причине сгруппировало эти запросы для продвижения на одной странице.

В общем-то, как некое начальное приближение для кластеризации, наверное, это не самое худшее решение. Это решение, которое потом нужно обязательно улучшать, а отнюдь не панацея, гарантировано обеспечивающая вывод в ТОП. Тем, более, что явно выраженная положительная обратная связь метода кластеризации по ТОПу, будет еще больше усиливать в глазах метода некие изначальные, неизвестно по какой причине выбранные кем-то, группировки.

Что же касается пресловутых скрытых смысловых связей между запросами, в общем-то, действительно существует понятие скрытого семантического индекса (latent semantic indexing – LSI), целью которого является выявление определенных смысловых связей между различными терминами. И поисковые машины действительно используют определенные техники, связанные с этим методом для решения некоторых вспомогательных задач, например, тематической классификации текстов или фильтрации спама. Но чудодейственной силы, напрямую заметно влияющей на ранжирование, приписываемой LSI поклонниками «карго-культа» кластеризации по ТОПу, до сих пор не замечено, хотя проводилось немало экспериментов с момента появления в Яндексе «подсветки» в сниппетах синонимов и так называемых «спектральных» терминов (подробнее о «спектральной» примеси смотрите в моей статье «Примеси к органической выдаче Яндекса»). Тематически связанные с базовым запросом термины могут помочь в ранжировании только в том случае, когда по какой-либо причине невозможно употребление (полное или частичное) в тексте терминов базового запроса – например, в случае запросов на естественном языке или с опечатками и грамматическими ошибками.

Итак, отбрасывая всю пиар-шелуху, навернутую владельцами сервисов на тему продажи своих услуг, попробуем понять, на какие базовые принципы должна описаться действительно эффективная кластеризация.

Собственно, как таковой непосредственной «помощи», и, наоборот, антагонизма между различными запросами, продвигаемыми на одной странице, не существует. Однако есть некие базовые принципы, которых стоит придерживаться при группировке запросов.

Во-первых, это классификация запросов. Не секрет, что поисковые машины давно научились разделять запросы на различные группы, и ранжировать эти группы по-разному. Поэтому логично будет на одной странице объединять запросы одной классификационной группы и по возможности избегать совместного использования запросов из разных классификационных групп. И не потому что запросы помогают или мешают друг другу, а потому, что эффективней оптимизировать конкретную страницу под одну формулу ранжирования, чем под несколько.

Для Яндекса я бы выделил два основных типа классификации запросов:

1. геозависимые / геонезависимые;

2. коммерческие / некоммерческие.

Геозависимые запросы ранжируются региональными формулами, геонезависимые – общероссийской. Коммерческие – коммерческой формулой, а некоммерческие, соответственно, некоммерческой. Разные подходы в ранжировании разных типов запросов, собственно, и диктуют необходимость учета этого факта при кластеризации. Например, в коммерческой формуле важную роль играют коммерческие факторы ранжирования (подробнее о них смотрите в моих статьях «Коммерческие факторы. Доверие» и «Коммерческие факторы ранжирования. Взаимодействие с пользователем»).

Классификация геозависимости запроса, в общем-то, не представляет особого труда, геонезависимые запросы ранжируются одинаково во всех регионах, в то время, как по геозависимым выдача в регионах существенно различается.

Классификация коммерческих запросов является более сложной задачей, но и здесь есть достаточно эффективные методы, основанные на оценке доли коммерческих результатов в выдаче, очищенной от примесей, и наличию контекстной рекламы. Об одном из достаточно простых методов классификации коммерческости запроса я упоминал в своей статье «Сеанс поисковой магии, или смещения в языке запросов Яндекса».

Следует обратить внимание тот факт, что в отличие от геозависимости, коммерческость не является бинарной величиной. Классифицировав запросы на геозависимость и коммерческость, остается при кластеризации просто придерживаться принципа, чтоб запросы с одинаковыми значениями коммерческости и сходными значениями геозависимости группировались вместе.

На дальнейшем этапе кластеризации можно придерживаться принципа контекстуального сходства терминов в запросе и контенте. Так, в Яндексе существует три типа контекстуального сходства:

1. точное вхождение

2. с точностью до словоформы

3. с точностью до синонима

Причем, степень влияния на ранжирование значительно убывает с переходом на следующий тип. Поэтому, при группировке запросов, следует в первую очередь обращать внимание на степень пересечения точных вхождений, далее словоформ и, в последнюю очередь, – синонимов.

При этом всегда необходимо руководствоваться логикой представления информации на страницах сайта. Никогда не следует забывать, что первична именно логика представления информации, а не подгонка представления информации под искусственно кластеризованные (в том числе и «по ТОПу») запросы, например, путем так называемого «тегирования», а попросту размещения списков ключевых слов, и прочих манипулятивных техник. При условии, что вы действительно дорожите своим сайтом, а не генерируете «однодневку» под сбор трафика с целью его дальнейшей перепродажи.

И не следует забывать, что кластеризация – это не чудодейственный инструмент, гарантирующий попадание в ТОП, не «серебряная пуля» поисковой оптимизации, а всего лишь начальное приближение, которое можно и нужно улучшать по мере развития сайта.

Сергей Людкевич

Независимый консультант, супермодератор форума о поисковых системах Searchengines.Guru.
Сфера профессиональных интересов — исследование алгоритмов ранжирования поисковых машин, разработка методик поискового продвижения сайтов.