Фокусы с фордами или цирк с конями. Чудеса переколдовки

Для опытного оптимизатора не секрет, что любой запрос, заданный в Яндекс, прежде чем попасть на вход к собственно алгоритму ранжирования, некоторым образом видоизменяется. В эпохальной статье Ильи Сегаловича и Михаила Маслова «Яндекс на РОМИП-2004. Некоторые аспекты полнотекстового поиска и ранжирования в Яндексе» этот шаг называется «препроцессингом запроса». Однако, в оптимизаторской среде закрепился другой термин – «переколдовка запроса».

До 2007 результат переколдовки был доступен в параметре reqtext в URL сохраненной копии страницы, доступной по ссылке из сниппета. В то время переколдовка ограничивалась упомянутыми в статье Сегаловича и Маслова контекстными ограничениями (то есть ограничениями на расстояния между вхождениями слов из запроса в контент документа). Особый интерес для оптимизаторов в то время представляло то, что каждому слову добавлялся вес, который представлял из себя IDF термина (обратную частоту встречаемости термина во всем поисковом индексе).

С 2008 в переколдовку запроса кроме контекстных ограничений добавляются также дополнительные термины – синонимы слов запроса. Поначалу это были достаточно логичные добавки – переходы из одной части речи в другую, транслитерация, расшифровка аббревиатур. Несмотря на то, что результат переколдовки был убран из сохраненной копии, некоторое время оставались недокументированные возможности его узнать, например, через модуль исправления опечаток в XML выдаче. К примеру, вот так выглядел результат переколдовки запроса [продвижение сайта]:

((продвижение::19047 ^ ((про::2793-движение::8030)) ^ продвигать::40288 ^ продвигаться::199208) &&/(-32768 32768) сайта::410) softness:6

(через оператор :: указаны IDF слов, через оператор ^ — добавленные синонимы, оператор мягкости softness задавал параметры для фильтрации по кворуму)

Со временем логика подбора синонимов существенно расширилась, и судя по всему, сейчас этот процесс если не полностью, то в очень значительной мере автоматизирован, и время от времени в поисковой выдаче случается встречать довольно забавные, а порой и приводящие в недоумение, результаты работы процесса переколдовки.

Не так давно на форуме Searchengines.guru в обсуждении «Анализ отключения ссылочного в Яндексе» пользователями был приведен ряд любопытных примеров на эту тему:

Так, например, у англоязычного термина ford есть русскоязычный синоним фокус. Это подтверждается как подсветкой слова фокус в выдаче по запросу ford, так и наличием в ней результатов, не имеющих отношения к продукции автомобильной компании Ford, но имеющих отношение к фокусам, как к трюкам:

Причем, любопытно, что русскоязычное слово фокус является синонимом англоязычного слова ford, и не является синонимом русскоязычного слова форд. Например, сайт некоего дуэта фокусников находится по англоязычному запросу:

И отсутствует по русскоязычному:

Вот такой вот цирк получается. Но здесь-то еще ладно, между терминами «ford» и «фокус» есть устойчивая органическая смысловая связь, а вот следующий пример поражает своей, скажем так, оригинальностью. Один из пользователей форума рассказывает, что пару лет назад сайт компании с названием «Клондайк» был продвинут по запросу [говностудия] (я так понимаю, это было что-то типа флэш-моба с проставлением на сайт внешних ссылок с соответствующими анкорами). И теперь Яндекс считает слова клондайк и говностудия синонимами. И если на сайте Википедии поискать запрос [говностудия], то в выдаче мы увидим ссылку про регион Канады с названием Клондайк:

Также в выдаче по запросу [говностудия] — масса других ресурсов, связанных именно с регионом Клондайк, но никак не со студиями:

Любопытно, что в этом случае слово клондайк не подсвечивается в сниппетах. Видимо, могут быть различные механизмы добавления синонимов, как с их подсветкой в сниппетах, так и без. Но больше всего, в данном случае, интересно то, что устойчивая смысловая связь между терминами, которую учел Яндекс, была создана искусственно. И не исключен факт, что подобные фокусы можно проделывать и с более конкурентными запросами, уже представляющими определенный коммерческий интерес.

Но самый странный и плохо поддающийся разумному осмыслению факт связан с ранжированием главной страницы самого Яндекса по огромному количеству запросов, которых нет ни в контенте, ни в анкор-файле этой страницы. Так, поначалу морда Яндекса была замечена в первой сотне результатов по очень конкурентному коммерческому запросу [пластиковые окна]. Сейчас, правда, она опустилась чуть ниже – в третью полусотню:

И если в случае с таким достаточно популярным запросом как [пластиковые окна], еще можно было бы предположить, что слова запроса теоретически могут встречаться в анкор-файле главной страницы Яндекса (хотя дополнительный анализ с помощью специальных техник исследования поисковой выдачи показывает, что это не так), то ее нахождение по очень редким запросам, которых гарантировано нет в анкор-файле (из-за редкости встречаемости терминов это легко можно проверить, даже не прибегая к сложным техникам исследования поисковой выдачи, а просто проанализировав вручную все релевантные запросы страницы на предмет наличия ссылки на главную страницу Яндекса с текстом, содержащим слова запроса), этим уже не объяснить:

Получается, что главная страница Яндекса находится по запросам, не имея слов запроса ни в контенте, ни в анкор-файле. Возможно, условие нахождения главной страницы Яндекса добавлено в переколдовку запросов? По крайней мере, это самое простое объяснение данного факта. И если такое возможно для Яндекса, то может ли возникнуть ситуация, когда подобное может быть возможно и для другого сайта?

В общем, в сухом остатке имеем факт, что переколдовка запросов в Яндексе в последнее время живет какой-то своей весьма интересной жизнью. И если жизнь эту внимательно изучить, то, думаю, могут появиться достаточно плодотворные идеи о том, как этим всем воспользоваться для поискового продвижения сайтов.

Удачи в изысканиях!

Журналист, новостной редактор, работает на сайте с 2009 года. Специализация: интернет-маркетинг, SEO, поисковые системы, обзоры профильных мероприятий, отраслевые новости рунета. Языки: румынский, испанский. Кредо: Арфы нет, возьмите бубен.