Сергей Людкевич «Нюансы алгоритма ранжирования Яндекса»

16 декабря 2011

940

Доклад был представлен Сергеем Людкевичем, начальником отдела аналитики WebEffector, на конференциях Cybermarketing 2011 и Optimization 2011. Он был посвящен нюансам алгоритма ранжирования Яндекса, препятствующим хорошему ранжированию сайтов: штрафам, фильтрам, негативным факторам ранжирования и пр.

По словам докладчика, поисковая машина Яндекса на российском рынке, на данный момент, представляет наибольший интерес как для оптимизаторов, так и для владельцев бизнеса, которые хотят привлекать целевую аудиторию на свои сайты.

Сергей начал свой доклад с пресловутой формулы релевантности. Если еще лет пять назад можно было эту формулу написать на клочке бумаги, то сейчас это сделать, увы, невозможно. Потому, что где-то с конца 2007 года Яндекс перешел на новую формулу на основе машинного обучения (технология MatrixNet). В результате машинного обучения получается формула, которая не имеет никакого физического смысла. Это некая абстрактная аппроксимация оценок асессоров, которая выливается в какие-то закономерности, которые связаны с совершенно различными факторами. И факторы эти могут быть совершенно глупыми и абсолютно нелогичными. В прошлом году в журнале «Практика интернет-маркетинга» представителями Яндекса было заявлено: «Если мы увидим такой фактор, при котором background красного цвета будет улучшать наши метрики качества, мы будем его использовать». Вот это лучше всего отражает суть данного подхода.

Итак, на данный момент в Яндексе есть ряд формул на основе машинного обучения и технологии MatrixNet. В апреле 2010 года на Киборифе Дэн Расковалов сообщил о наличии 420 с лишним факторов ранжирования. Сложно даже себе представить, что можно вместить в эти 420 факторов. Наверняка здесь учтены не только факторы, но и разные их комбинации (мономы). И если факторы имеют какой-то смысл, пусть и не совсем физический, то мономы, являющиеся приложениями этих факторов, никакого смысла вообще не имеют.

Например, что может физически означать средняя индексация сайта, помноженная на количество ключевых слов в тайтле и помноженная на число латинских букв в url? Естественно, смысла в этом никакого нет. Но, тем не менее, какие-то внутренние метрики растут при появлении этих факторов, и за счет этого они включаются в формулу.

Нет единой формулы релевантности. Есть отдельные формулы для крупных регионов: Москва, Санкт-Петербург, 16 крупных городов России, Украина, Белоруссия, Казахстан. Есть такая общероссийская формула, которая действует для всех остальных регионов России - 16 крупных городов релиза «Арзамас+16». Также наблюдается различие по степени запросов формулы. Коммерческие запросы, например, ранжируются совершенно иначе, чем некоммерческие запросы. Могут быть различия в ранжировании запросов, связанных с видео, с музыкой и так далее.

И вот MatrixNet проинтерпретировал оценки асессоров, построил формулу, которая является оптимальной по некоей внутренней системе качества. Но, как оказывается, этого мало. Решение получилось оптимальным с точки зрения алгоритма, но, тем не менее, в него вносятся дальнейшие правки. Получается, что много мусора все равно остается, и поэтому вводятся различные ограничения, т.е. это машинное обучение подвергается еще и ручной корректировке. Какие же пессимизации можно выделать на данный момент?

Во-первых, это пред-фильтры – то, что применяется еще до расчетов формулы ранжирования. Это дисконтирование или обнуление значений каких-либо факторов. Эти ссылки совсем могут не участвовать в ранжировании.

Во-вторых, наряду с пред-фильтрами, широкое применение в последнее время получили так называемые пост-фильтры, или штрафы. Это уже непосредственное дисконтирование значения функции релевантности. То есть, мы вычисляем значение релевантности запросов в заголовке сайта, а потом за какие-то прегрешения, или за то, что не выполняются какие-то дополнительные условия, накладываются штрафы. И в последнее время происходит это очень часто. Появляются какие-то совершенно новые фильтры - за переоптимизацию, за портянки, еще за что-то… И накладываются вот эти штрафы. То есть, получается, что великий и могучий алгоритм MatrixNet устроен так, что не получается автоматически вот эти вещи получить при выборе факторов. И приходится, практически вручную, делать некие настройки, которые программисты называют костылями. И количество этих костылей все больше и больше растет.

Также помимо этих штрафов, существует и фильтрация уже на этапе выдачи. Когда документы уже отранжированы, но по каким-то причинам принимается решение некоторые из них не показывать в результатах поиска. Наиболее яркие примеры – это, так называемые, аффилированные сайты, когда происходит группировка результатов поиска с нескольких сайтов, и показывается результат только с одного из них. До недавнего времени можно было с уверенностью говорить, что показывается один из наиболее релевантных результатов, но в последнее время стали наблюдаться случаи, когда это не так. Видимо были введены какие-то дополнительные критерии. Например, первое, что может прийти в голову – авторство контента или еще что-то.

Дальее идет фильтр на одинаковые сниппеты – это когда по умолчанию в выдаче показывается только один результат. Эта проблема очень актуальна для интернет-магазинов, когда на карточках товаров используются описания, которые берутся у конкурентов. То есть, это какие-то технические характеристики товаров. Причем сайт является официальным дилером, и условия на контент там накладывают довольно жесткие - многие вещи должны быть описаны слово в слово так, как это дается на сайте вендера, и никакой вольности в этом вопросе не позволяется. Проблема возникает, когда сниппетовщик выбирает одинаковые куски из описания разных интернет-магазинов и, соответственно, сниппеты получаются одинаковыми, и вместо нескольких интернет-магазинов в выдаче по умолчанию остается только один. При этом, из всех результатов это может быть далеко не самый релевантный результат.

Еще один интересный момент, на который стоит обратить внимание – примеси к органическим результатам поиска. Вот алгоритм сработал, построил формулу, формула отранжировала результаты поиска. Но, тем не менее, эти результаты, которые называются органическими, разбавляются еще результатами, получившимися в результате работы каких-то иных алгоритмов, иных формул. В Яндексе сейчас есть, так называемая, спектральная примесь. Это когда до трех мест в топ-10 отдаются результатам по «уточненным» запросам (стандартизированным группам так называемых потребностей) – обзоры, цены, фото, отзывы, «сделай сам» и так далее.

Кроме этой спектральной примеси, так же в топ-10 может отдаваться, так называемая, быстроботовская примесь. Это свежепроиндексированные документы из наиболее приоритетных ресурсов. Где-то месяц назад можно было наблюдать такое интересное явление, когда по очень большому количеству запросов, общих запросов, таких как [сайт Москва] вылезал сайт «Автофургон инфо». И во всех выдачах запросов можно было встретить вот эти автофургоны, так вот он вылезал за счет «спектральной» примеси.

Быстроботовская примесь – это тоже качество, оставляющее желать лучшего, потому что очень часто в эти свежепроиндексиваронные документы, с некоторым количеством приоритетных ресурсов, попадает большое количество ресурсов с тематикой сайта только из-за того, что слова и запросы где-то были употреблены на странице, например, в меню, или просто были найдены в ссылках продажи на сайте. То есть, качество очень часто бывает очень плохим. И не понятно, по каким метрикам оно оценивается.

Если прибавить ко всему перечисленному тот факт, что может быть один или даже два результата на странице, которые по любому занимают первые места, – все это сокращает органическую выдачу в топ-10 буквально до 3, 4, 5 позиций. Соответственно, задача по улучшению характеристик сайта для его хорошего ранжирования по запросу, становится все более непростой.

Если говорить о самом алгоритме ранжирования, то составляющие его таковы:

Текстовая составляющая – это положительная составляющая ранжирования. Сегодня мы видим рост увеличения различных санкций именно за вещи, связанные с текстом документа. Все это приводит к тому, что попытки манипулирования текстовыми факторами ранжирования могут принести больше вреда, чем пользы. Были такие курьезные случаи, когда в результате проблемы на хостинге, когда тексты сайта не индексировались в поисковой машине, а документ находился только по ссылкам, он ранжировался лучше, нежели тогда, когда он был проиндексирован. То есть, здесь дается такая ситуация, когда выдачи за счет факторов ранжирования было меньше, чем какие-то штрафы, которые были наложены за состояние текста на сайте.

Небрежное отношение к тексту тоже чревато проблемами. Здесь дело касается уникальности, вторичности контента, его качества с точки зрения естественности. На эти вещи нужно обращать пристальное внимание. Резюмируя, можно сказать, что не стоит пытаться за счет текстовых факторов сильно улучшать ранжирование сайта. Нормальный, читабельный текст, без всяких портянок, с разумным количеством употреблений ключевых слов, и как можно более уникальный – это все что нужно. Текстовые факторы не такие мощные для коммерческих тематик, там большую роль играют другие факторы. Если говорить о некоммерческих запросах – тогда да, там текстовые факторы в ряде случаев играют большую роль.

Рассмотрим конкретные случаи санкций. Штраф за текстовый переспам, так называемый, порятночный фильтр, был введен в феврале 2010 года, и направлен против чрезмерной концентрации ключевых слов в контенте. Он запросозависим и также зависит от ключевых характеристик документа. Сейчас портянки можно запросто встретить в высококонкурентных топах и в любых коммерческих тематиках, которые нормально ранжируются, и почему-то не влекут за собой штраф за текстовый переспам. Видимо у этих сайтов какие-то очень хорошие поведенческие факторы и наложение санкций не срабатывает, может быть, авторитетность ресурса большая - такие случаи встречаются довольно часто. Здесь нужно обратить внимание, что этот штраф именно направлен против многократного появления ключевых слов, порядка 10-50-100 употреблений, что было очень модно еще пару лет назад, и таким документами пестрели все топы.

Чтобы не попасть под этот штраф, надо выполнять простые рекомендации:

Избегать многократного употребления ключевых слов из запроса в одном предложении.
Употреблять ключевые слова как можно ближе к началу документа.
Избегать участков текста с плотными скоплениями ключевых слов.

Есть еще один штраф за текстовую составляющую – штраф за переоптимизацию. В апреле было массовое введение этого штрафа, именно тогда многие вебмастера получили «письма счастья» о том, что их сайт наказан за переоптимизацию. Штраф этот как раз и направлен против манипуляций текстовыми факторами ранжирования: такими как вхождение, написание текста жирным стилем, злоупотребление выделением. Пока наблюдается, что этот фактор запросонезависим. То есть, он накладывается на страницу и по всем запросам этот штраф действует. Возможно, также зависит и от характеристики документа. Например, если очень много входящих коммерческих ссылок, то может сработать.

Рекомендации:

Также в текстовой составляющей обязательно нужно выделить важные качества контента, такие как:

Уникальность контента
Вторичность контента
Естественность контента
Порнографическая лексика

За эти вещи тоже можно получить различные санкции. Во-первых, уникальность контента. Конечно, хорошо бы было бы, если бы весь контент был бы уникальный. Но этого не всегда можно достичь, потому что многие нехорошие люди имеют привычку контент воровать и располагать у себя на какие-то страницы в сателлитах. Для борьбы с этим, летом Яндексом была введена возможность застолбить права еще на неопубликованный контент, и таким образом, можно себя автогарантировать.

Вторичный контент тоже можно немного выделить. В принципе, контент может быть и не уникален, главное – чтобы тебя считали автором. Тебе будет хорошо, а всем тем, кто у тебя этот контент позаимствовал, им должно быть плохо. Я рекомендую всем очень внимательно относиться к этим вещам, и на все новые тексты лучше посылать заявочку в Яндекс.

Также важную роль играет, так называемая, естественность контента. То есть, насколько текст является для Яндекса естественным, что его создал человек, а не сгенерировал какой-то автомат. Здесь используются, судя по всему, учет лингвистических элементов, распределение частей речи в предложении, насколько используются падежи, устойчивые словосочетания и так далее. Просто какие-то частотные характеристики текста.

Также Сергей порекомендовал избегать порнографической лексики и ссылок на порноресурсы и предупредил, что за эти вещи тоже можно получить неприятные штрафы.

Характеристики документа и сайта. В первую очередь это возраст сайта и страницы. Довольно-таки важный фактор, имеющий сейчас очень большое значение. Сайты, которым до полугода практически нереально продвинуть в Яндексе по более менее конкурентным запросам. Выход сайта на полную мощность возможен где-то через три года.

Еще один важный фактор – употребление ключевых слов в URL и домене.

Формат документа. Здесь все просто - продвигаются только html документы. Все остальные будут продвигаться с большой сложностью.

Наличие попандеров/кликандеров – это то, за что сейчас можно схватить штраф. Об этом Яндекс предупреждал.

И также есть такое понятие, как «плохое окружение». Если данные whois вашего сайта совпадут со значением сайта, которые замечены в каких-то плохих вещах, то это тоже может повлиять при наложении санкций, так называемое АГС может на это реагировать. Сайт может просто пропасть из видимой части индекса при наличии каких-то еще дополнительных условий.

В общем, идет сильное влияние возрастных факторов и сильное влияние доменных факторов. То есть, употребление слов или частичное употребление слов, запросов именно в домене сайта, домене имени. Хотя в последнее время намечается тенденция послабления этого фактора. Сергей считает, что он стимулирует генерацию так называемых «SEO-доменов», когда доменное имя содержит в себе полностью запрос. И, на его взгляд, это является ярким примером несбалансированности факторов. То есть, получается, что «рулят» факторы, которые нельзя улучшить.

Ссылочная составляющая. На данный момент все еще наблюдается большая значимость, этого фактора, особенно для коммерческих запросов. Использование коммерческих ссылок при продвижении по коммерческим запросам все еще остается целесообразным, они работают.

Для некоммерческих – работа ссылочного уже практически сведена к нулю. И продвигать ссылочным некоммерческие запросы – это пустая трата времени. На этом фоне забавляют иногда конкурсы, проводимые различными некоторыми агрегатами, когда предлагают продвинуть некоммерческий запрос в Яндексе с помощью CDI, системой, которая закупает коммерческие ссылки. По факту получается то, что выигрывает тот, кто имеет лучшие показатели по другим параметрам. И возрастает значение статистических факторов для некоммерческих запросов, так называемая авторитетность ресурсов. Потому что коммерческие ссылки уже практически бесполезны.

При ссылочной составляющей можно выделить следующие составляющие, которые могут привести к санкциям:

• «Ссылочный взрыв»
• Плохие ссылки
• Коммерческие ссылки
• Участие в линкобменниках (link-farms)

«Ссылочный взрыв» - это быстрое наращивание ссылочной массы. Заключается в обнулении значений всех ссылочных факторов для ссылок, которые причастны к этому ссылочному взрыву. Они все будут бесполезны. Естественно, когда они сначала учитывались, а потом, когда перестают учитываться, происходит падение в позициях.

Плохие ссылки. Яндекс классифицирует ссылки на хорошие и плохие. Плохие дают нулевой вклад. Также замечалось наложение штрафа при большой доле плохих ссылок при каком-нибудь запросе. Если очень много проставлено ссылок в плохих ресурсах, то это не то что, как бы не дает вклада, а может даже принести вред в виде штрафа.

Коммерческие ссылки. Здесь очень важный нюанс. Коммерческие ссылки – это те, которые проставлены на коммерческих условиях. Яндекс очень хорошо их умеет определять. Все читали мадридский доклад Яндекса, в котором изложена простая, логичная схема, по которой все это очень быстро определяется. Но при ранжировании по коммерческим запросам, коммерческие ссылки все-таки еще учитываются, это надо помнить. Есть некие ограничения, например, временная задержка учета этих ссылок, так называемая «песочница». Может где-то месяц или два ссылка может не учитываться, потом начинает учитываться. Это логично, потому что средний срок коммерческий ссылки на самом деле невелик. Таким образом можно отсечь большое количество коммерческих ссылок и свести к нулю так называемое участие в линкообменниках (link-farms). Это тоже может привести к санкциям вплоть до полного обнуления значения ссылочных факторов. Поэтому нужно быть очень аккуратным при обмене ссылками.

Региональная составляющая - в последнее время имеет очень большое значение. Сильное влияние имеет региональная привязка сайтов. Тонкий момент – геозависимые запросы, которые включают в себя название регионов. Например, [такси москва] –ранжируется, как геозависимый запрос для данного региона. На это тоже надо обращать внимание. Отмечаются определенные проблемы для мультирегиональных сайтов – сайтов, целевой аудиторией которых являются пользователи из разных регионов. Они заключаются в ограниченности числа привязываемых регионов к сайту. То есть, нельзя сделать очень много регионов.

Рекомендации:

Выбор соответствующего домена 1-го уровня для сайта (напр., для России – .ru)
Присвоение сайту требуемого региона
Употребление названия требуемого региона в тексте документа
Получение входящих ссылок с сайтов требуемого региона • Употребление названия требуемого региона в текстах входящих ссылок на документ
Добавление адреса организации в требуемом регионе

Присвоение сайту требуемого региона. Если у нас мультирегиональный сайт, то необходимо создание отдельного сайта или хотя бы поддомена под каждый регион. Употребление названия требуемого региона в тексте документа – это уже то, что касается улучшения факторов.

Далее Сергей перешел к наиболее интересной группе факторов, которые в последнее время вызывают очень много вопросов – пользовательским факторам:

Кликабельность сайта/страницы в выдаче:

• СTR
• временные показатели сессии
• количественные показатели сессии

Посещаемость сайта/страницы

• общая
• по видам источников трафика – поисковый, ссылочный, закладочный и т.п.

Поведение пользователя на сайте/странице

• активные действия пользователя
• проведенное время
• внутренние переходы
• переходы с сайта на другие сайты

Срезы факторов по типу пользователей

• пришедшие по данному по запросу
• из данного региона

Несколько рекомендаций по улучшению поведенческой составляющей:

• Целевая страница должна быть лучшим ответом на запрос
• Целевая страница должна побуждать пользователя к выполнению действий
• Сайт должен внушать доверие пользователю
• Сайт должен быть удобным для пользователя
• Привлекательность сниппетов
• Кросс-браузерность
• Корректная кодировка
• Стабильная работа сайта

Сергей подробно остановился на кликовых факторах, которые он считает ответственными за кликабельность сайта или документа в результатах выдачи. На его взгляд эти факторы имеют несбалансированное мощное влияние. Яндекс сейчас ставит кликстрим на эти кликовые факторы. Наблюдается, как за счет чисто кликовых факторов сайты с молодым возрастом, с не очень хорошим набором текстовых факторов, ссылочных и так далее могут из каких-то 500 мест за один присест попасть в топ-1, топ-2 по высококонкурентным запросам.

Получается, что кликовые факторы настолько мощные, что они просто бьют все остальные факторы. Положительная обратная связь наблюдается. Если ты не находишься в топ-10, в видимой части выдачи, то тебе никак нельзя улучшить кликовые факторы, по тебе просто не будут кликать. А если у тебя плохие кликовые факторы, то ты никогда не попадешь на первую страницу. То есть, получается, что кто первый встал, того и тапки, те получают какие-то клики и отсюда идет естественная реакция оптимизаторов на пресервацию топа – это накрутка этих факторов, потому что улучшить их никак нельзя, кроме как попав в топ.

В последнее время вокруг этих кликовых факторов очень много интересных событий происходит. Стали появляться сервисы, которые предлагают накрутку этих факторов. Судя по всему, Яндекс оказался не готов к такому повороту событий, потому что все эти вещи продолжали учитываться в течение года. Никаким образом Яндекс на них не реагировал, никаким образом трафик не фильтровал. Но все-таки, в конце концов, были приняты жесткие, почти полицейские меры против накрутчиков. Реакция оптимизаторов на такие вещи последовала странная – сразу стали накликивать факторы конкурентам. Другие прошло ушли в тень и продолжают разрабатывать закрытые инструменты для управления поведенческими. Такие инструменты эксплуатируются, ими пользуются, и они дают результаты.

Что же нас ждет дальше – очистка или «зачистка»? Сможет ли Яндекс очищать или же будет продолжать показательные полицейские спецоперации? Слишком жесткая очистка – приведет к уменьшению объемов учета органического кликстрима. Это не совсем корректно. Чем меньше данных, тем будет хуже для алгоритма. Слишком мягкая очистка – будет стимулировать кликфроды с целью просачивания сквозь фильтры, стимуляцию к поиску закрытых «беспалевных» методик. Продолжение «зачистки» - стимуляция «подстав» конкурентов, возникновение и развитие соответствующих сервисов, увеличение кликфрода, соответственно. Будут развиваться соответствующие сервисы - те, которые будут предлагать вместо накрутки скрутку конкурентов.

Что же будет дальше? Скорее всего, социальные сигналы. Сейчас поисковые машины активно рассуждают на тему учета различных сигналов социальных систем. Вот интересно, готовы ли они к тому, что эти вещи будут накручиваться еще похлеще, чем поведенческие факторы?

Сергей Людкевич «Нюансы алгоритма ранжирования Яндекса»

5 вещей, которых стоит ожидать от Google в 2012 году

2011 – 2012. Итоги и прогнозы экспертов

SEO-итоги 2011 глазами специалистов

Обзор семинара «Зарубежное SEO - Google, Yahoo, Bing»

Optimization.by: второй день Эволюции

Алексей Штарев: Как создать агентство по монетизации?