Михаил Волович: «Поисковые системы достаточно консервативны»

6 мая 2020

11102

Современные поисковые машины учитывают при ранжировании сайтов множество факторов, некоторые из которых сами могут быть синтетическими (в качестве фактора может использоваться, например, вектор в n-мерном признаковом пространстве). Формула ранжирования формируется автоматически с использованием машинного обучения. Кроме того, поверх формулы ранжирования могут применяться различные фильтры.

В общем, точно сказать, как тот или иной параметр влияет на ранжирование, непросто даже сотрудникам поисковых систем. И тем более трудно разобраться в работе поисковиков внешним наблюдателям, от которых все, что связано с ранжированием, тщательно скрывается — во избежание накруток и прочих злоупотреблений.

Компания «Ашманов и партнеры» изучает факторы ранжирования уже более пяти лет и авторитетно заявляет, что сегодня для продвижения сайта собственно сама формула ранжирования и не нужна. Собрав для сайтов, попадающих в результаты поиска, значения потенциально важных параметров, сравнив их значения для сайтов, попавших и не попавших в топ по различным запросам, проверив, есть ли корреляция с позицией, проследив за изменением этих связей со временем, — можно понять, что важно, а что нет, что влияет (или, по крайней мере, может влиять) на ранжирование, а что нет. А сравнив значения этих параметров для своего сайта и его конкурентов в топе, любой толковый специалист может понять, в какую сторону двигаться.

Знание о том, какие параметры сайта и продвигаемых страниц статистически связаны с ранжированием, не гарантирует немедленного успеха в продвижении — оптимизировать эти параметры и «взлететь ракетой», возможно, не получится. Однако в Лаборатории поисковой аналитики уверены, что всегда лучше знать, чем не знать.

На чем основывается эта уверенность, каковы ближайшие SEO-перспективы, и сильно ли Яндекс отличается от Google, рассказывает руководитель Лаборатории Михаил Волович, неизменный автор всех аналитических отчетов, посвященных факторам ранжирования.

Михаил Волович, руководитель Лаборатории поисковой аналитики в компании «Ашманов и партнеры». В 2000 главный редактор портала «Рамблер». Один из создателей сайта «Элементы». Участвовал в разработке поискового антиспама и вьетнамской поисковой системы. Руководит проектами AnalyzeThis.ru (автоматические анализаторы качества поиска), «Тургенев» и ОРФО.

Вы изучаете факторы ранжирования уже более пяти лет и с готовностью делитесь полученными результатами со специалистами рынка. Почему бы не оставить эти данные только для внутреннего использования, для эффективного продвижения клиентских сайтов?

Честно говоря, мы так поначалу и делали — примерно первые два года из тех пяти с половиной, которые мы изучаем факторы ранжирования. Сначала думали, что стоит рассказывать, что нет, тщательно дозировали информацию…

А потом поняли, что у нас все равно есть фора — потому что делимся мы знаниями, а сами используем основанную на них технологию.

Для клиентских сайтов мы получаем оценки по всем важным параметрам автоматически (если не считать того, что примерно 100 факторов из 600 с лишним основаны на «ручных» оценках, полученных от асессоров). Дальше мы автоматически сравниваем сайт клиента с конкурентами, автоматически выделяем проблемные параметры, автоматически готовим данные для SEO-специалистов, которые работают с клиентом.

Кстати, сейчас мы вплотную подошли к тому, чтобы делиться не только теоретическими результатами, но и инструментами, которые были разработаны «для себя» и уже хорошо обкатаны на наших клиентах. Первой ласточкой был «Тургенев» — с декабря он стал платным и приносит хоть и не очень большой, но стабильный доход (несмотря на то, что самую важную функцию, проверку стилистики, мы оставили бесплатной).

Сейчас мы готовим к выпуску целую группу сервисов — начнем с кластеризации запросов, которая у нас, по многим отзывам, получается очень неплохо. Из тех технологий, о которых я говорил выше, мы думаем скоро выложить сервисы по автоматическому аудиту текстов, основанные на текстовых параметрах. Таких параметров у нас много — чуть ли не половина от всех, которые мы исследуем.

До сих пор вы ограничивались публикацией одного основного отчета с результатами исследования факторов ранжирования в Яндексе и Google за определенный год. В 2019 году было опубликовано пять больших аналитических отчетов по разным отраслям, в чем необходимость такого разделения?

Каждый из этих пяти аналитических отчетов готовился к одной из отраслевых конференций eTarget. Желание посмотреть на особенности ранжирования по отраслям было и раньше, но времени всегда не хватает, а тут уже деваться было некуда.

И да — не знаю, как читателям, но нам самим было очень интересно. У каждой из рассматриваемых отраслей — своя заметная специфика. Мы к тому времени уже довольно хорошо представляли себе ранжирование в электронной коммерции, смотрели на выборки по запросам разных наших клиентов и метавыборки (это когда все данные за несколько месяцев собираются вместе). А вот, например, к `медицине или недвижимости было очень интересно приглядеться внимательнее. В медицине мы почти впервые занялись ранжированием по информационным запросам, которое меня давно интересует, и которое устроено не совсем так, как по коммерческим.

Во всех случаях мы собрали наборы запросов, результаты по которым будем теперь изучать регулярно. Вот по недвижимости уже вышло повторное исследование — в нашей части совсем краткое, поскольку за полгода там мало что изменилось. Сейчас работаем над электронной коммерцией — 2020.

Для большинства SEO-специалистов изменения в формулах ранжирования ПС — это опасность, опасность потери достигнутых позиций, трафика, денежного и временного ресурсов. Разделяете ли вы эту точку зрения, или у вас свой взгляд на усложнение поисковых алгоритмов?

Да, конечно, чем выше забрался, тем больнее падать. Но зато и положительная обратная связь работает — чем больше трафик, тем больше ссылок и упоминаний в соцсетях, тем толще ИКС, больше возможностей оптимизировать сайт, покупать рекламу... В конечном счете — больше переходов из поисковых систем, выше трафик, и так по кругу.

В последние годы эта тенденция — богатые (трафиком) становятся богаче, а бедные беднее — стала очень заметной, результаты поиска во многих отраслях сильно монополизированы. А вот небольшие сайты всегда в зоне риска.

В целом, по нашим данным, алгоритмы ранжирования меняются достаточно медленно, поисковые системы консервативны. Как и наши рекомендации — я просто не вижу, каким из них было бы опасно следовать.

Значительная часть этих рекомендаций, увы, — за все хорошее против всего плохого (как, впрочем, и рекомендации сотрудников самих поисковиков). Важно иметь огромный ассортимент, много страниц в индексе (особенно релевантных), большой трафик с хорошей структурой, отличные пользовательские метрики... Не сказать, чтобы этим рекомендациям было просто следовать, но повредить они точно не могут.

Коммерческие параметры вроде пресловутого телефона 8-800 — некоторые из них могут утратить силу, но вряд ли они станут вредными. Например, поисковые машины, если верить нашим данным, любят, когда бизнес дает посетителю сайта возможность заказать обратный звонок — видимо, на случай, если не дозвонился или звонить из другого города дорого.

И если уж наличие телефона 8-800 стали активно имитировать, то повесить на сайт заказ обратного звонка совсем ничего не стоит. Поэтому мы давно предсказывали, что этот параметр должен потерять значение. Это предсказание для Яндекса понемногу начинает сбываться — но все-таки трудно себе представить, что Яндекс начнет наказывать за такую возможность. Так в чем тогда опасность?

Со ссылочными и текстовыми чуть сложнее, поскольку поисковики одной рукой их учитывают, а другой грозят фильтрами. Ну так у нас и на этот случай есть параметры — риск «Минусинска» и риск «Баден-Бадена».

В чем особенность методологии, которую использует Лаборатория поисковой аналитики?

Конечно, мы далеко не первые, кто считает корреляции между значениями параметров и позицией в результатах поиска. Понятно, что наличие корреляции еще не означает, что есть прямое (или хотя бы косвенное) влияние параметра на ранжирование, но это как минимум хорошая отправная точка для дальнейшего анализа.

При этом мы многое сделали по-своему. Обычно обсчитывают десяток или несколько десятков параметров для тысяч (иногда даже сотен тысяч) запросов — а у нас параметров на порядок больше (около 650), зато запросов по нашему опыту достаточно гораздо меньше. Наша основная выборка, данные по которой мы отслеживаем ежемесячно на протяжении вот уже пяти лет, состоит всего из 160 запросов — но мы регулярно проверяем свои выводы на значительно больших выборках, и они такую проверку выдерживают.

Мы применяем больше статистических метрик — всегда верифицируем выявленные корреляции статистически значимыми различиями между группами результатов (например, первая десятка против двух следующих). Для оценки части параметров мы используем «ручную работу» асессоров — методика, подсмотренная у поисковых систем.

Но если выбирать главное отличие, то, наверное, оно заключается в том, что мы оцениваем связь параметров сайтов (или страниц) не только с позицией внутри топа, но с самим попаданием в топ. И иногда это оказывается важнее.

Мы почти всегда работаем с запросами, конкуренция по которым высокая, а потому есть большой запас релевантных — и, более того, специально оптимизированных под этот запрос — страниц. Мы можем исходить из того, что если мы возьмем, например, топ-30 Яндекса, Google и Mail.ru, то подавляющее большинство из них окажутся достаточно релевантными. В принципе, каждый из поисковиков мог бы включить в топ любой из них — но какие-то он выбрал, а какие-то нет. Значит, мы можем сравнить топ-30 Яндекса (или Google) с «фоном» — теми результатами, которые туда не попали, но есть в топе хотя бы одной из двух других поисковых систем.

Оказывается, что, например, многие текстовые параметры в Яндексе гораздо сильнее влияют на попадание в топ-30, чем на позицию внутри него, — тогда как в Google корреляции с позицией сильнее, хотя средние значения параметров ниже. А по другим параметрам, наоборот, в Яндексе есть сильная корреляция с позицией, а в Google — сильная связь с попаданием в топ.

Как вы относитесь к исследованию факторов ранжирования при помощи опроса SEO-специалистов?

С большим уважением и интересом, хотя иногда (по отношению к некоторым выводам) и с сомнением. Практический опыт и основанное на нем «чутье» очень важны. Правда, работа над сайтом всегда комплексная, и не так просто понять, что именно принесло успех (или неудачу). Здорово, когда есть основания для уверенности, что помогло что-то конкретное, — к такому опыту мы всегда внимательно прислушиваемся.

И конечно, мы всегда стараемся найти новые параметры, которые можно было бы формализовать и включить в свой анализ. Чужой опыт, в том числе и суммированный в таких опросах, нам очень помогает.

Можно ли выделить какие-то определенные тенденции в изменениях формул ранжирования обоих поисковиков? Двигаются ли они в одном направлении или ориентированность на разные рынки играет ведущую роль?

России повезло с поисковиками. У нас хороший поиск Google (лучше, чем тот же Google, например, во Вьетнаме) — не только потому, что он сам такой крутой, но и потому, что Яндекс не хуже, и с ним приходится конкурировать. И даже поиск Mail.ru, в который вложено значительно меньше сил и средств, тоже вполне себе ничего. Качество поиска можно измерить, что мы и мы делаем уже целую вечность — с 2007 года! — в проекте AnalyzeThis.ru.

И все эти годы Яндекс и Google шли буквально нога в ногу. Их формулы ранжирования очень разные (это хорошо видно на наших данных), но проблемы, которые им приходилось решать, были похожими. В результате разными путями Яндекс и Google часто приходят к почти неотличимым друг от друга результатам поиска. Ниже — очень субъективный обзор тенденций, которые мы наблюдали за время работы Лаборатории поисковой аналитики.

Когда наша Лаборатория еще только начиналась, Яндекс и Google вели тяжелую позиционную борьбу с самым грубым поисковым спамом вроде дорвеев, и далеко не сразу, но вышли из нее победителями. Примерно тогда же поисковики научились хорошо справляться с навигационными запросами.

Потом — тоже очень давно, уже лет десять назад — остро встала задача найти альтернативу ссылкам как универсальному мерилу «веса» сайта. Именно тогда Яндекс и Google существенно расширили круг факторов ранжирования — в частности, стали учитывать коммерческие параметры.

Одновременно поисковикам приходилось бороться со «ссылочным спамом» — и тут, надо сказать, Яндекс выступил и радикальнее, и успешнее. Возможно, потому, что авгиевы конюшни наших ссылочных бирж для Google были лишь одним из эпизодов на важном, но все-таки второстепенном рынке, а для Яндекса — суровой реальностью, которую он сам отчасти и породил.

Google и Яндекс параллельно учились понимать, чего хочет пользователь, и дружно заверяли вебмастеров, что просто нужно делать сайты для людей, а не для поисковых алгоритмов, и все получится. Это звучало как издевательство — но сами разработчики в это верили, потому что у них расцветало машинное обучение, и путь от асессорских оценок (заменяющих пользовательские) к оптимальному ранжированию казался прямым и даже не слишком тернистым.

Понимать, чего хочет пользователь, и формировать удовлетворяющую его выдачу действительно получалось неплохо — но не по всем запросам и даже не во всех отраслях. Лучше всего выходило там, где релевантных и при этом качественных результатов много, — причем скорее с коммерческими запросами, чем с информационными.

Многие факторы ранжирования отдавали (естественно, при прочих равных) предпочтение крупным, посещаемым — а значит, надежным и любимым пользователями — сайтам. Это порождало замкнутый круг: крупные сайты росли еще больше, мелкие не имели для этого ресурсов. В результате в последние годы очень заметна тенденция к монополизации выдачи, когда по очень широкому кругу запросов первые позиции занимают одни и те же гиганты.

Там, где очевидных результатов мало или совсем нет, успехи поисковиков гораздо скромнее. То Яндекс похвастается тем, что научился находить фильмы по нечетким описаниям, то Google — что теперь он умеет учитывать предлоги. (Причем в обоих случаях это не просто рядовые достижения, а чуть ли не главное содержание новых алгоритмов ранжирования.) Тем не менее, конкурирующим друг с другом поисковым машинам опять приходится решать похожие задачи — улучшать поиск по нетривиальным информационным запросам. И кстати, здесь вполне можно ждать прорыва. Кто его совершит первым, мы не знаем — но вряд ли второй сильно отстанет.

Не сильно лучше ситуация и там, где формально релевантных результатов много, но качество их в основном низкое. Например, по медицинским информационным запросам. Здесь и применяемые решения, и результаты поиска у Google и Яндекса пока вроде бы очень разные (см. подробнее в нашем прошлогоднем медицинском аналитическом отчете), но проблема перед ними стоит одна и та же и, скорее всего, в ближайшие годы она так или иначе будет решена обеими поисковыми системами.

Что посоветуете SEO-специалистам и вебмастерам, на что ориентироваться в 2020 году?

Ранжирование по коммерческим запросам более или менее сформировалось, тут вряд ли можно ожидать серьезных изменений. Главная тенденция здесь хорошо известна — замещение органической выдачи плохо отличимой от нее рекламной, а также собственными сервисами поисковиков. К сожалению, это, скорее всего, будет продолжаться — разумеется, исключительно «в интересах пользователей». А немногие оставшиеся места в поисковой выдаче будут по-прежнему заняты крупнейшими агрегаторами и маркетплейсами.

В этих условиях параллельно с поисковой оптимизацией будет постепенно развиваться оптимизация «площадочная» — борьба за лучшие места в спецсервисах поисковиков (в маркетах, на картах и т. п.), на крупных агрегаторах и т. п. Мы сейчас в эту сторону тоже внимательно смотрим.

Есть робкие признаки того, что разработчики поисковиков начали замечать, как далеко зашла монополизация выдачи, и корректировать этот перекос. Если это действительно так, есть надежда, что немного воспрянут специализированные сайты и бизнесы.

Другую похожую проблему — большую инерцию результатов поиска по частотным запросам, где накопленная обратная связь от пользователей мешает пробиться новым сайтам, — поисковики решают уже давно («многорукие бандиты», персонализация выдачи). Но здесь вполне можно ожидать новых экспериментов и усиления турбулентности.

Я с нетерпением жду, когда же Яндекс, наконец, решится применить к медицинским и прочим «статьям» методы борьбы с «текстовым спамом», успешно обкатанные на интернет-магазинах. Некоторые заслуженные информационные сайты вроде печально известного fb.ru уже «посыпались», но на место каждого выбывшего готова встать сотня не менее оптимизированных и релевантных продуктов информационного сайтостроения. Мне кажется, что сейчас самое время вкладываться в действительно хорошие информационные сайты, их время скоро придет. Другое дело, что это дорого и трудно.

Серьезных изменений можно ожидать в выдаче и по другим типам информационных запросов. Но совсем не факт, что прорыв созреет до конца 2020 — и у Google, и у Яндекса много времени впереди.

Как увеличить клиенту заказы так, чтобы он от вас ушел. Кейс

Михаил Волович: «Поисковые системы достаточно консервативны»

Как увеличить клиенту заказы так, чтобы он от вас ушел. Кейс

Как Google оценивает авторитетность контента: 6 возможных метрик

Поисковые интересы пользователей Яндекса в апреле

Определяем быстроботовскую примесь в Яндексе

Как эпидемия COVID-19 может навсегда изменить SERP Google

Популярные запросы и востребованные тематики сайтов в марте-апреле 2020 года